Web數據挖掘技術模型分析

2014-04-21 04:37:48王曉艷

新媒體研究 2014年3期

王曉艷

摘要隨著我國信息技術的不斷發(fā)展，Web挖掘技術被廣泛應用，為此，文章對Web挖掘技術進行分析，主要從Web內容挖掘、Web結構挖掘和Web訪問信息挖掘三方面展開論述。

關鍵詞 Web數據挖掘；技術模型；具體解析

中圖分類號：TP393 文獻標識碼：A 文章編號：1671-7597（2014）03-0055-01

Web框架下的數據挖掘，主要經由對數據挖掘類技術的現實利用，從網絡供應的服務，以及現有的網絡文檔中，發(fā)覺并提煉信息。數據挖掘含有的對象不同，可以將現有的Web挖掘，分為三個類別：Web框架下的內容挖掘、Web框架下的信息挖掘、Web帶有的結構挖掘。

1 新穎的內容挖掘

伴隨信息技術延展，Web框架下的數據類別也在遞增，從本源層級上來講，主要涵蓋了圖像類、文本類、聲音類、元數據類、視頻類等。在不同類別的數據以內進行挖掘，就構造出了多媒體屬性的數據挖掘。

1） Web框架下的文本挖掘。數據挖掘，應指代在很不完備的、數目偏多的、很含糊的、帶有雜聲的、帶有隨機特性的數據內，將其中潛藏著的各類別信息及關聯(lián)知識，予以提煉。若數據挖掘的目標對象，只歸屬于文本，便構造出文本屬性的數據挖掘。挖掘對象，涵蓋著半結構類、非結構類、結構化框架下的數據；而非結構化屬性的數據，是側重的挖掘成分。

在IR這一領域中，文檔采納了空間向量模型這一獨有的形式，空間配有的向量，便歸屬于文檔。對文檔含有的特征集，予以提煉時，常常會多遍掃描，而獲取到特征向量，其現有維數非常高，這就增添了必備的處理時段。所以，在沒能影響到現有匹配結果及關聯(lián)分類的根基上，需要對原有的特征子集，予以選取。選取時，先對某個特有函數，創(chuàng)設構造，然后對這一子集中含有的特征進行評判，將評判價值偏高的那些特征，選取出來，歸結成特征子集。常常見到的評價函數，歸屬于交叉熵等。

對文本類別的數據去挖掘時，所接納的模型質量類評價方法，和慣用的挖掘方法很近似，分類算法之內，樸素貝葉斯這一類別的算法，很常見。評判現有的模型質量，主要涵蓋著分類帶有的準確率、分類帶有的正確率、慣用的信息估值。

中文框架下的信息編碼，是偏復雜的，這一類別的編碼，在Web內，較為常見的，歸屬于BIG5屬性的編碼、GB類別的碼、HZ類別的碼等。對帶有中文類碼的HTML，采納數據挖掘，要對這一類別的編碼標準予以辨識，并更替成帶有統(tǒng)一性的慣用指標，然后才可挖掘。

2）對Web框架下多媒體挖掘，予以解析。在數據挖掘內，多媒體屬性的挖掘，是一個凸顯出來的挖掘領域，它從多媒體屬性的數據庫內，提煉出潛藏著的知識。多媒體屬性的數據挖掘，帶有廣義性，涵蓋著對聲音、多樣的視頻以及各類別圖像的挖掘，同時涵蓋著文本類數據挖掘。

進行多媒體屬性的數據挖掘，要先凝練得來必備的信息，然后對慣用的挖掘方式，予以挖掘。對網頁中潛藏著的多媒體類別數據，凝練屬性時，要對HTML類別的標簽信息充分利用。

2 Web框架下的結構挖掘

這種構架，被當成Web，因為它沒能由HTML類別的頁面，單純堆積而構造出來，而是在Web含有的頁面間，有著各類別的關系，而能在現有的Web之間，架設出橋梁，因此歸屬于超鏈。超鏈能對現有的Web類頁面關聯(lián)，選取出適宜的表征形式，如引用類的關系和繼承類的關系等。但是對于現有的Web框架下搜索工具，不會顧及到Web結構，仍然把這種Web，當成獨立框架下文檔的集中。Web現有的結構挖掘，是經由對引用解析類技術與服務類技術的可行利用，對Web框架下的結構銜接進行分析，將其中可用的所有模式，予以提煉。進行這一類別的結構挖掘時，其潛藏著的結構對象，既可以是現有的Web頁面構架，也可以是現有Web頁面搭配的超鏈。前者含有針對性，帶有特定的應用層級內目的，而后者存在著普遍價值。

Web框架下的結構挖掘，把Web當成了獨有的有向圖，Web含有的頁面，當成頂點，而圖含有的邊，歸屬于超鏈。然后經由對圖論的現實利用，對Web框架下拓撲結構去解析。常常見到的算法，歸屬于發(fā)覺相似頁面、發(fā)覺虛擬社區(qū)、分出頁面類別、發(fā)覺地理位置。結構挖掘算法，通?？煞殖鰞深?，一類歸屬于查詢無關，一類歸屬于查詢相關。采用查詢相關這一算法時，需要對各類別的查詢，進行超鏈解析，獲取到一次值的精準指派；接納查詢獨立框架下的算法時，要對各類別的文檔，去進行一次值的精準指派。

3 Web框架下的信息挖掘

對現有的交易及關聯(lián)商務，都是經由Web去予以落實。因此，在各類別的服務器方，會產出數目偏多的數據，它們由服務器所產出，并存留在服務器配有的日志文件內，另外，還會產出很多數目的用戶信息，如注冊類的信息。對這些數據解析以后，可以讓現有的商家，更好地明晰客戶信息，從而對現有市場以及現有商品，進行更精準的決策；對于供應網絡類服務的人員，可以整合起總括的站點，以便供應出帶有個性化的新服務。

Web框架下信息挖掘，帶有如下特性：當用戶訪問到既有網絡，可對用戶現有的活動及關聯(lián)行為，予以推測。挖掘方法可分出以下兩類：

原始數據，經由網絡服務器搭配的日志文件，選用獨有的處理方法，對其進行歸整，然后再去挖掘。

把網絡服務類日志，現有的文件，經由圖表去展示，然后去挖掘。通常情形之下，只要對原始屬性的數據，予以處理后，便可對舊有的數據挖掘，予以采納，以便獲取到挖掘目的。

數據清除流程終結以后，制備出事務標識類模塊，對登錄項含有的日志，分出邏輯類別。采用這樣的事務標識，是為了讓各類別的用戶，都能產出帶有一定含義的聚類。因此，這種事務標識含有的目的在于，將總括的大事務進行歸整，以便分出幾個分支屬性的小事務。在這一過程中，可以分解出多樣步驟，或者是接納合并擴展這樣的形式，從而產出最適宜的事務。

4 結束語

Web框架下的數據挖掘，是新產出的技術，關涉到各類別的多樣技術，正處于初始時段中。國內對這一層級進行的研究，數目還是偏少，對于Web含有的中文信息的關聯(lián)挖掘技術，沒能制備出完善方案。但是，對Web框架下數據挖掘技術現有的研究，具有明顯的實用價值和商業(yè)價值。

參考文獻

[1]薛鴻民.Web數據挖掘技術研究[J].現代電子技術，2006（08）.

[2]李亞哲，李雅莉.Web數據挖掘技術在電子商務系統(tǒng)中的應用[J].硅谷，2011（01）.

[3]趙志升，羅德林，李海英.數據挖掘技術與應用[J].河北北方學院學報（自然科學版），2006（06）.endprint

新媒體研究2014年3期

新媒體研究的其它文章: 新型環(huán)保小型水輪機節(jié)能開發(fā)探究; 煤化工行業(yè)CO²的排放及減排的相關研究; 現代空中交通管理中的空域規(guī)劃關鍵技術探析; 中國人事科學研究院項目組抵達長春助推高新區(qū)人才特區(qū)建設; 長沙高新區(qū) 12人入選555高層次人才計劃; 廈門火炬高新區(qū)：精英人才引領千億產業(yè)鏈

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Web數據挖掘技術模型分析