avatar avatar 我的文献 基于多元特征融合和LSTM神经网络的中文评论情感分析 作者 李科 单位 太原理工大学 关键词 情感分析; 情感特征; 权重信息; 多元特征; LSTM神经网络
摘要
随着移动互联网的飞速发展,网购成了人们日常生活的一部分。电商网站上存在大量的产品评论信息。挖掘这些评论的情感倾向不仅可以为商家提供商品的各种信息,方便商家做出销售决策,也有利于买家对商品做出客观判断,从而做出购买决策。面对数量庞大的评论文本信息,仅靠人工浏览去获取评论的情感倾向费时且费力,如何利用人工智能领域中的相关技术对产品评论自动化地进行情感分析成为了一个重要且有意义的课题。现有的情感分析方法主要有基于规则的方法、基于机器学习的方法和基于深度神经网络的方法,随着大数据技术的发展以及语言的形式越来越多元化,深度神经网络技术成为了自然语言处理领域的主流技术,在情感分析领域也取得了很大的突破,本文主要研究基于深度神经网络的情感分析方法。本文的主要研究工作如下:(1)针对文本情感分析中对文本表示时遇到的维度过高和语义不相关的问题,本文采用word embedding机制,通过神经网络语言模型对大量评论文本进行训练,并在此基础上通过distributed representation的方式表示文本,从而将文本映射为一个低维实数向量。这种文本表示方法同时也可以表达文本的语义信息,有助于神经网络模型对文本更好地理解。(2)针对情感分析任务的特殊性,本文提出了一种新的文本表示方法-——多元特征词向量。这种表示方法是对distributed representation表示方法的优化。考虑到情感分析中含有情感要素的词对文本整体情感极性的影响,通过构建情感要素词典捕捉文本中含有情感要素的词,并通过构造词的情感特征向量来表达词的情感要素,接着与用distributed representation方式表示的词向量进行特征融合构成多元特征词向量。用多元特征词向量表示的文本不仅含有文本的语义信息,而且可以捕捉文本的情感特征,更适合情感分析任务。(3)情感分析的本质是一个分类问题,计算特征权重是分类问题的重要步骤,基于此理论,本文在提出的多元特征词向量的基础上,进一步对其优化,借鉴特征权重算法为多元特征词向量分配权重,从而突出对分类更重要的词。本文提出的基于权重分配的多元特征词向量的文本表示方法对传统的文本表示方法从两方面进行了改进,丰富了对文本语义的表达,将其作为神经网络分类模型的输入,更适合神经网络模型对文本进行深层次特征捕捉与情感分类。(4)本文使用LSTM神经网络模型挖掘文本的深层特征。用基于权重分配的多元特征词向量表示文本,并作为LSTM神经网络模型的输入,然后利用LSTM神经网络能够学习文本中远距离依赖的特性捕捉文本的序列特征及上下文的依赖关系。最后本文通过和传统的基于LSTM神经网络的情感分析方法做对比实验,验证本文提出的改进方案的有效性。在上述四个工作中,本文充分考虑情感分析任务的特性,将情感词典资源以及特征权重信息等先验知识引入神经网络模型,在此基础上提出的基于权重分配的多元特征词向量可以捕捉更适用于情感分析任务的特征,利用LSTM神经网络模型的特性可以捕捉更丰富的特征组合,从而有效提高情感分类模型对文本的理解以及情感分类的准确率。
下载 cnki {{liketext}}
©2020 - iData {{ message }} 关闭