国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CNN-BiLSTM-CRF 的企業(yè)輿情監(jiān)控模型構(gòu)建

2023-12-18 18:13:49張欣藝鄭軍紅何利力
計(jì)算機(jī)時(shí)代 2023年11期

張欣藝 鄭軍紅 何利力

關(guān)鍵詞:企業(yè)輿情監(jiān)控;CNN;BiLSTM;輿論觀點(diǎn)抽??;K-means

中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8228(2023)11-136-05

0 引言

在當(dāng)今的信息化背景下,網(wǎng)絡(luò)上的大量網(wǎng)絡(luò)輿情信息得到有效保存?;ヂ?lián)網(wǎng)營(yíng)銷平臺(tái)也被許多企業(yè)選擇作為開(kāi)展?fàn)I銷活動(dòng)的重要根據(jù)地,匯聚了大量用戶數(shù)據(jù)、營(yíng)銷活動(dòng)數(shù)據(jù)。這些數(shù)據(jù)對(duì)于企業(yè)的經(jīng)營(yíng)和管理具有極高的參考價(jià)值,但如何合理利用這些數(shù)據(jù)來(lái)進(jìn)行決策指導(dǎo),是企業(yè)面臨的重要問(wèn)題。

近年,基于深度學(xué)習(xí)的情感分析方法在各個(gè)領(lǐng)域內(nèi)都有所應(yīng)用。吳貴珍等[1]提出一種將CNN 與雙層雙向門(mén)控循環(huán)單元(BIGRU)相結(jié)合的方法,改善了CNN只能提取文本局部信息和RNN 容易陷入梯度爆炸的問(wèn)題。但存在時(shí)間效率不高以及隨著數(shù)據(jù)規(guī)模增長(zhǎng),訓(xùn)練時(shí)間也會(huì)顯著變長(zhǎng)的問(wèn)題。趙星宇等[2]提出一種融合雙向LSTM 和CNN 的混合情感分析模型,改善了現(xiàn)有文本情感分析方法實(shí)時(shí)性不強(qiáng)、難以應(yīng)用到大規(guī)模文本等問(wèn)題。曾莉等[3]提出一種融合主題模型和情感分析的LDA-Attention-BiLSTM 模型,對(duì)輿情中的熱點(diǎn)話題和情感時(shí)序變化有更好的反映。但該模型在方便計(jì)算的同時(shí)丟失了很多信息。楊秀璋等[4]提出一種改進(jìn)LDA-CNN-BiLSTM 模型,在社交媒體情感分析忽略情感特征的長(zhǎng)距離語(yǔ)義關(guān)系,無(wú)法精確捕獲帶有情感色彩的特征詞,過(guò)度依賴人工標(biāo)注等問(wèn)題上做出了改善。

企業(yè)在輿情監(jiān)控時(shí)需要更多地考慮到評(píng)價(jià)的主體,并聚焦于互聯(lián)網(wǎng)營(yíng)銷平臺(tái)和網(wǎng)絡(luò)輿情平臺(tái)中多數(shù)人關(guān)注的事件,不同的企業(yè)所關(guān)注的內(nèi)容會(huì)不同。因此,目前的輿情監(jiān)控模型不完全適用于各個(gè)企業(yè)。我們可以將以上的問(wèn)題轉(zhuǎn)換為對(duì)特征向量分配權(quán)重的問(wèn)題。目前,許多研究人員針對(duì)這個(gè)問(wèn)題做出了不同的改進(jìn)。趙蕊潔等[5] 提出一種基于Attention-BiLSTM-CRF 的醫(yī)藥實(shí)體識(shí)別模型,提高了醫(yī)藥實(shí)體識(shí)別的效果,但應(yīng)用范圍較為單一。佘恒健等[6]采用BiLSTM-CRF 方法,對(duì)標(biāo)注的政務(wù)公文進(jìn)行了中文實(shí)體識(shí)別實(shí)驗(yàn),更加準(zhǔn)確有效地識(shí)別政務(wù)公文中的實(shí)體。陳偉等[7]提出了一種多頭自注意力機(jī)制與條件隨機(jī)場(chǎng)(CRF)結(jié)合的實(shí)體抽取模型,改善了傳統(tǒng)命名識(shí)別容易受上下文相對(duì)距離的影響、實(shí)體整體識(shí)別效果差的問(wèn)題。

綜上所述,增加條件隨機(jī)場(chǎng)(Conditional RandomField,CRF)[8]能在以上模型中起到很好的效果。但是針對(duì)企業(yè)輿情監(jiān)控仍存在以下問(wèn)題:①單一的神經(jīng)網(wǎng)絡(luò)模型無(wú)法充分提取情感特征,卷積網(wǎng)絡(luò)只能提取局部特征,而具有序列特性的神經(jīng)網(wǎng)絡(luò)(如LSTM,GRU等)只能提取整個(gè)序列特征,其時(shí)間效率低下。②雖然網(wǎng)絡(luò)輿情監(jiān)測(cè)一直是比較熱門(mén)的研究方向之一,但目前的輿情監(jiān)控模型與企業(yè)的需求契合度較低。因此本文從情感分析的角度,運(yùn)用深度學(xué)習(xí)理論,提出了一種基于CNN-BiLSTM-CRF 的企業(yè)輿情監(jiān)控模型。首先將社交平臺(tái)評(píng)論信息和互聯(lián)網(wǎng)營(yíng)銷平臺(tái)留言信息進(jìn)行預(yù)處理,然后使用Word2vec 技術(shù)獲取文本的詞向量表示。將其輸出作為CNN 卷積神經(jīng)網(wǎng)絡(luò)的輸入,再將經(jīng)過(guò)處理的數(shù)據(jù)輸入到BiLSTM 網(wǎng)絡(luò)層,加入條件隨機(jī)場(chǎng)模型對(duì)標(biāo)簽序列進(jìn)行優(yōu)化,最后,基于K-means 進(jìn)行觀點(diǎn)聚類,得到企業(yè)網(wǎng)絡(luò)輿論焦點(diǎn),從而進(jìn)行企業(yè)輿情監(jiān)控。本文的主要貢獻(xiàn)如下:①提出一種結(jié)合CNN-BiLSTM 和條件隨機(jī)場(chǎng)、K-means 聚類的模型,實(shí)驗(yàn)結(jié)果表明,該模型在各個(gè)指標(biāo)上均得到提升,說(shuō)明了模型的有效性。②根據(jù)企業(yè)輿情監(jiān)控特點(diǎn),結(jié)合社交平臺(tái)和互聯(lián)網(wǎng)營(yíng)銷平臺(tái)信息,建立了面向企業(yè)的輿情監(jiān)控模型。

1 模型構(gòu)建

本模型首先將社交平臺(tái)評(píng)論信息和互聯(lián)網(wǎng)營(yíng)銷平臺(tái)留言信息作為初始文本進(jìn)行預(yù)處理,并將預(yù)處理完的短文本數(shù)據(jù)導(dǎo)入Word2vec[9]獲取文本的詞向量表示,將其輸出作為CNN 卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過(guò)CNN 的卷積層和池化層的構(gòu)建,用來(lái)提取特征,再將經(jīng)過(guò)處理的數(shù)據(jù)輸入到BiLSTM 網(wǎng)絡(luò)層,加入條件隨機(jī)場(chǎng)模型對(duì)標(biāo)簽序列進(jìn)行優(yōu)化,最后,基于K-means進(jìn)行觀點(diǎn)聚類,得到企業(yè)網(wǎng)絡(luò)輿論焦點(diǎn),從而進(jìn)行企業(yè)輿情監(jiān)控。模型整體結(jié)構(gòu)如圖1 所示。

1.1 數(shù)據(jù)預(yù)處理

首先,我們需要對(duì)收集到的數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)化為機(jī)器可以接受的輸入。本模型文本預(yù)處理的具體步驟如圖2 所示。

本模型主要采用JieBa 分詞庫(kù)進(jìn)行分詞,使用Word2vec 技術(shù)向量化實(shí)驗(yàn)數(shù)據(jù)。由于數(shù)據(jù)量較大,本模型選用word2vec 的Skip-gram 模型進(jìn)行詞向量訓(xùn)練,以分詞處理后的文本序列(w1,w1,…,wn)轉(zhuǎn)換為低緯稠密的詞向量序列作為CNN 神經(jīng)網(wǎng)絡(luò)的輸入。Skip-gram 模型結(jié)構(gòu)圖如圖3 所示。

2.4 對(duì)照基準(zhǔn)模型

本次實(shí)驗(yàn)選取CNN、CRF、LSTM-CRF、BiLSTMCRF和BiGRU-CRF 模型來(lái)與本文模型做對(duì)比實(shí)驗(yàn)。

⑴ CNN:經(jīng)典深度學(xué)習(xí)模型,很早被應(yīng)用于命名實(shí)體識(shí)別,提取句子級(jí)別的特征。

⑵ CRF:將命名實(shí)體識(shí)別問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,可以考慮到復(fù)雜的特征。

⑶ LSTM-CRF:將LSTM 和CRF 結(jié)合在一起,可以捕捉到輸入的過(guò)去特征和句子級(jí)的標(biāo)簽信息。

⑷ BiLSTM-CRF:與LSTM-CRF 類似,將LSTM換為BiLSTM,是序列標(biāo)注問(wèn)題的經(jīng)典模型。使用Word2vec完成詞向量訓(xùn)練,并將其輸出值導(dǎo)入BiLSTM來(lái)獲取文本特征、得到各標(biāo)簽取值的概率,通過(guò)CRF約束標(biāo)簽間的順序關(guān)系。

⑸ BiGRU-CRF:BiGRU 網(wǎng)絡(luò)是由RNN 發(fā)展而來(lái),它在處理序列數(shù)據(jù)的任務(wù)中被廣泛使用,結(jié)合CRF優(yōu)化目標(biāo)函數(shù)。

2.5 實(shí)驗(yàn)結(jié)果與分析

本次實(shí)驗(yàn)選取CNN、CRF、LSTM-CRF、BiLSTMCRF和BiGRU-CRF 模型來(lái)與本文提出的模型做對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。本文提出的模型最后結(jié)果精確率達(dá)到88.26%,召回率為87.60%,F(xiàn)1 值為87.93%,相較于其他模型結(jié)構(gòu),各個(gè)指標(biāo)都有所提升。

3 結(jié)束語(yǔ)

通過(guò)對(duì)網(wǎng)絡(luò)社交平臺(tái)輿情信息和企業(yè)互聯(lián)網(wǎng)營(yíng)銷平臺(tái)相關(guān)信息的處理分析,可以實(shí)現(xiàn)對(duì)企業(yè)的輿情監(jiān)控,并指導(dǎo)企業(yè)決策。在當(dāng)前的互聯(lián)網(wǎng)+環(huán)境下,這對(duì)企業(yè)來(lái)說(shuō)是必不可少的,基于此,本文提出了一種基于CNN-BiLSTM-CRF 的企業(yè)輿情監(jiān)控模型。通過(guò)在真實(shí)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),本文模型在精確率、召回率、F1 值指標(biāo)上均優(yōu)于其他基準(zhǔn)模型,驗(yàn)證了本文提出模型的有效性。接下來(lái),將基于目前的研究成果,面向企業(yè)網(wǎng)絡(luò)輿情監(jiān)控,結(jié)合企業(yè)輿情焦點(diǎn)中的感情極性進(jìn)行研究。

海南省| 大荔县| 介休市| 湖南省| 保山市| 西平县| 同仁县| 海阳市| 新宾| 浦北县| 双鸭山市| 崇州市| 南宫市| 克东县| 自治县| 广灵县| 吴桥县| 朝阳县| 远安县| 永仁县| 甘洛县| 阳山县| 巴南区| 清远市| 长泰县| 霍城县| 于田县| 理塘县| 饶阳县| 海南省| 西吉县| 沐川县| 青铜峡市| 新建县| 横山县| 夏邑县| 太谷县| 苏尼特左旗| 东丽区| 鸡西市| 凉城县|