摘要
隨著Internet的迅猛發(fā)展,越來越多的用戶通過Internet表達(dá)了自己的看法。因此,文本的大數(shù)據(jù)是在Internet上生成的。在大數(shù)據(jù)時(shí)代,通過自然語言處理技術(shù)挖掘互聯(lián)網(wǎng)上海量文本所包含的情感傾向已成為輿論監(jiān)督的重要方式。本文提出了一種基于敏感信息主題的大數(shù)據(jù)情感分析方法。該方法通過神經(jīng)網(wǎng)絡(luò)模型將主題語義信息集成到文本表示中。將注意力機(jī)制引入神經(jīng)網(wǎng)絡(luò),并引入上下文感知向量來計(jì)算每個(gè)單詞的權(quán)重。另外,為了使模型更具適應(yīng)性,使用情感詞典標(biāo)注的方法來獲得訓(xùn)練數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,該模型可以有效提高情感分析結(jié)果的準(zhǔn)確性。
核心內(nèi)容
基于敏感信息主題的情感分析模型可以對(duì)大量文本敏感信息主題進(jìn)行情感分析,以實(shí)現(xiàn)輿論監(jiān)督和指導(dǎo)。本文提出了一種基于敏感信息主題的情感分析模型(SITSAM),它將敏感信息的主題描述整合到文本表示學(xué)習(xí)模型中。同時(shí),引入了上下文感知注意機(jī)制來增加情感詞對(duì)句子情感分類的貢獻(xiàn)。
基于敏感信息主題的情感分析模型(SITSAM)如下圖所示。
模型的輸入包括兩部分:左側(cè)是句子中包含的單詞{},右側(cè)是是敏感信息主題詞。本文采用word2vec模型獲得詞向量。在傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)模型的參數(shù)訓(xùn)練過程中,梯度逐漸減小直到消失,從而限制了序列數(shù)據(jù)的長(zhǎng)度。LongShortTermMemory(LSTM)通過引入輸入門i,輸出門o,遺忘門f和記憶單元克服了梯度消失的問題。本文選擇LSTM作為句子表征的基本訓(xùn)練模型。在傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)模型中,信息只能向前傳播,導(dǎo)致時(shí)間t的狀態(tài)只依賴于時(shí)間t之前的信息,為了使每個(gè)時(shí)刻都包含上下文信息,采用雙向遞歸神經(jīng)網(wǎng)絡(luò)(BiRNN)和LSTM單元相結(jié)合的BiLSTM來獲得句子的表示。雙向長(zhǎng)短期存儲(chǔ)器網(wǎng)絡(luò)的結(jié)構(gòu)如下圖所示。BiLSTM可以捕獲文本信息更新,其正向傳播在X1->Xn方向,反向傳播在Xn->X1方向。Xi表示句子中的第i個(gè)單詞。沿兩個(gè)方向的隱藏層輸出被連接為最終的隱藏層輸出:
為了使詞條和主題詞在句子中映射到相同的向量空間,使用Siamese BiLSTM網(wǎng)絡(luò)進(jìn)行訓(xùn)練。Siamese BiLSTM網(wǎng)絡(luò)的思想是在兩個(gè)BiLSTM網(wǎng)絡(luò)之間共享權(quán)重。為了將主題詞的意義合并到每個(gè)詞中,使用平均池來聚合主題詞的所有隱藏層輸出,以生成主題,計(jì)算如下:
然后,將與每個(gè)單詞的輸出連接起來,以獲得最終的隱藏層每個(gè)單詞的輸出:
對(duì)于情感分析任務(wù),情感詞通常比非情感詞更重要,這通常確定句子的情感傾向。為了更好地估計(jì)每個(gè)單詞的重要性,引入了上下文感知向量來計(jì)算每個(gè)單詞的權(quán)重:
其中,c是句子中每個(gè)單詞的隱藏層狀態(tài)的平均值。
注意權(quán)重通過以下計(jì)算獲得:
其中,W表示注意層的權(quán)重向量,b表示偏移向量。最后,句子向量表示為:
“最后一層是softmax層,它將文本表示納入softmax函數(shù),以計(jì)算文本情感傾向的概率y。”
Abstract
With the rapid development of the Internet, more and more users expressed their views on the Internet. Therefore, the big data of texts are generated on the Internet. In the era of big data, mining the sentiment tendencies contained in massive texts on the Internet through natural language processing technology has become an important way of public opinion supervision. In this paper, the sensitive information topics-based sentiment analysis method for big data is proposed. This method integrates topic semantic information into text representation through a neural network model. The attention mechanism is introduced into the neural network, and context-aware vector is introduced to calculate the weight of each word. In addition, in order to make the model more adaptable, the method of sentiment dictionary tagging is used to obtain the training data. The experimental results show that the proposed model can effectively improve the accuracy of sentiment analysis results.