国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Web數據挖掘技術模型分析

2014-04-21 04:37:48王曉艷
新媒體研究 2014年3期

王曉艷

摘 要 隨著我國信息技術的不斷發(fā)展,Web挖掘技術被廣泛應用,為此,文章對Web挖掘技術進行分析,主要從Web內容挖掘、Web結構挖掘和Web訪問信息挖掘三方面展開論述。

關鍵詞 Web數據挖掘;技術模型;具體解析

中圖分類號:TP393 文獻標識碼:A 文章編號:1671-7597(2014)03-0055-01

Web框架下的數據挖掘,主要經由對數據挖掘類技術的現實利用,從網絡供應的服務,以及現有的網絡文檔中,發(fā)覺并提煉信息。數據挖掘含有的對象不同,可以將現有的Web挖掘,分為三個類別:Web框架下的內容挖掘、Web框架下的信息挖掘、Web帶有的結構挖掘。

1 新穎的內容挖掘

伴隨信息技術延展,Web框架下的數據類別也在遞增,從本源層級上來講,主要涵蓋了圖像類、文本類、聲音類、元數據類、視頻類等。在不同類別的數據以內進行挖掘,就構造出了多媒體屬性的數據挖掘。

1) Web框架下的文本挖掘。數據挖掘,應指代在很不完備的、數目偏多的、很含糊的、帶有雜聲的、帶有隨機特性的數據內,將其中潛藏著的各類別信息及關聯(lián)知識,予以提煉。若數據挖掘的目標對象,只歸屬于文本,便構造出文本屬性的數據挖掘。挖掘對象,涵蓋著半結構類、非結構類、結構化框架下的數據;而非結構化屬性的數據,是側重的挖掘成分。

在IR這一領域中,文檔采納了空間向量模型這一獨有的形式,空間配有的向量,便歸屬于文檔。對文檔含有的特征集,予以提煉時,常常會多遍掃描,而獲取到特征向量,其現有維數非常高,這就增添了必備的處理時段。所以,在沒能影響到現有匹配結果及關聯(lián)分類的根基上,需要對原有的特征子集,予以選取。選取時,先對某個特有函數,創(chuàng)設構造,然后對這一子集中含有的特征進行評判,將評判價值偏高的那些特征,選取出來,歸結成特征子集。常常見到的評價函數,歸屬于交叉熵等。

對文本類別的數據去挖掘時,所接納的模型質量類評價方法,和慣用的挖掘方法很近似,分類算法之內,樸素貝葉斯這一類別的算法,很常見。評判現有的模型質量,主要涵蓋著分類帶有的準確率、分類帶有的正確率、慣用的信息估值。

中文框架下的信息編碼,是偏復雜的,這一類別的編碼,在Web內,較為常見的,歸屬于BIG5屬性的編碼、GB類別的碼、HZ類別的碼等。對帶有中文類碼的HTML,采納數據挖掘,要對這一類別的編碼標準予以辨識,并更替成帶有統(tǒng)一性的慣用指標,然后才可挖掘。

2)對Web框架下多媒體挖掘,予以解析。在數據挖掘內,多媒體屬性的挖掘,是一個凸顯出來的挖掘領域,它從多媒體屬性的數據庫內,提煉出潛藏著的知識。多媒體屬性的數據挖掘,帶有廣義性,涵蓋著對聲音、多樣的視頻以及各類別圖像的挖掘,同時涵蓋著文本類數據挖掘。

進行多媒體屬性的數據挖掘,要先凝練得來必備的信息,然后對慣用的挖掘方式,予以挖掘。對網頁中潛藏著的多媒體類別數據,凝練屬性時,要對HTML類別的標簽信息充分利用。

2 Web框架下的結構挖掘

這種構架,被當成Web,因為它沒能由HTML類別的頁面,單純堆積而構造出來,而是在Web含有的頁面間,有著各類別的關系,而能在現有的Web之間,架設出橋梁,因此歸屬于超鏈。超鏈能對現有的Web類頁面關聯(lián),選取出適宜的表征形式,如引用類的關系和繼承類的關系等。但是對于現有的Web框架下搜索工具,不會顧及到Web結構,仍然把這種Web,當成獨立框架下文檔的集中。Web現有的結構挖掘,是經由對引用解析類技術與服務類技術的可行利用,對Web框架下的結構銜接進行分析,將其中可用的所有模式,予以提煉。進行這一類別的結構挖掘時,其潛藏著的結構對象,既可以是現有的Web頁面構架,也可以是現有Web頁面搭配的超鏈。前者含有針對性,帶有特定的應用層級內目的,而后者存在著普遍價值。

Web框架下的結構挖掘,把Web當成了獨有的有向圖,Web含有的頁面,當成頂點,而圖含有的邊,歸屬于超鏈。然后經由對圖論的現實利用,對Web框架下拓撲結構去解析。常常見到的算法,歸屬于發(fā)覺相似頁面、發(fā)覺虛擬社區(qū)、分出頁面類別、發(fā)覺地理位置。結構挖掘算法,通??煞殖鰞深?,一類歸屬于查詢無關,一類歸屬于查詢相關。采用查詢相關這一算法時,需要對各類別的查詢,進行超鏈解析,獲取到一次值的精準指派;接納查詢獨立框架下的算法時,要對各類別的文檔,去進行一次值的精準指派。

3 Web框架下的信息挖掘

對現有的交易及關聯(lián)商務,都是經由Web去予以落實。因此,在各類別的服務器方,會產出數目偏多的數據,它們由服務器所產出,并存留在服務器配有的日志文件內,另外,還會產出很多數目的用戶信息,如注冊類的信息。對這些數據解析以后,可以讓現有的商家,更好地明晰客戶信息,從而對現有市場以及現有商品,進行更精準的決策;對于供應網絡類服務的人員,可以整合起總括的站點,以便供應出帶有個性化的新服務。

Web框架下信息挖掘,帶有如下特性:當用戶訪問到既有網絡,可對用戶現有的活動及關聯(lián)行為,予以推測。挖掘方法可分出以下兩類:

原始數據,經由網絡服務器搭配的日志文件,選用獨有的處理方法,對其進行歸整,然后再去挖掘。

把網絡服務類日志,現有的文件,經由圖表去展示,然后去挖掘。通常情形之下,只要對原始屬性的數據,予以處理后,便可對舊有的數據挖掘,予以采納,以便獲取到挖掘目的。

數據清除流程終結以后,制備出事務標識類模塊,對登錄項含有的日志,分出邏輯類別。采用這樣的事務標識,是為了讓各類別的用戶,都能產出帶有一定含義的聚類。因此,這種事務標識含有的目的在于,將總括的大事務進行歸整,以便分出幾個分支屬性的小事務。在這一過程中,可以分解出多樣步驟,或者是接納合并擴展這樣的形式,從而產出最適宜的事務。

4 結束語

Web框架下的數據挖掘,是新產出的技術,關涉到各類別的多樣技術,正處于初始時段中。國內對這一層級進行的研究,數目還是偏少,對于Web含有的中文信息的關聯(lián)挖掘技術,沒能制備出完善方案。但是,對Web框架下數據挖掘技術現有的研究,具有明顯的實用價值和商業(yè)價值。

參考文獻

[1]薛鴻民.Web數據挖掘技術研究[J].現代電子技術,2006(08).

[2]李亞哲,李雅莉.Web數據挖掘技術在電子商務系統(tǒng)中的應用[J].硅谷,2011(01).

[3]趙志升,羅德林,李海英.數據挖掘技術與應用[J].河北北方學院學報(自然科學版),2006(06).endprint

大宁县| 新野县| 廊坊市| 衡阳县| 嵊泗县| 商河县| 正蓝旗| 白河县| 保亭| 肃宁县| 岳池县| 元氏县| 如皋市| 蒙城县| 宜城市| 叙永县| 华宁县| 溧水县| 丽水市| 曲沃县| 军事| 敖汉旗| 陵川县| 万全县| 师宗县| 永丰县| 吴桥县| 株洲市| 乳源| 鸡东县| 渝中区| 祁东县| 和硕县| 普洱| 方山县| 弋阳县| 德庆县| 乐陵市| 张家界市| 河源市| 咸丰县|