一.分析目的
对文本的观点、喜好、情感倾向进行分类:
(1)按情感倾向 / 极性划分;比如分为正面、负面、中性情感。
(2)按情感程度深浅划分;比如分为热爱、喜欢、一般、不喜欢、厌恶。
(3)按情感类别来划分;比如新闻分类。
通过分析研究对象的情感分布,可了解舆情,辅助商业预测、决策。
二.分析粒度
1.文档级
为观点型文档标记整体的情感倾向/极性
2.语句级
对文档内单独的语句,标记其主观分类 / 极性分类
通常会把句子分为积极、中立或消极3类
3.实体特征层面 aspect level
判断语句在实体特征层面的情感倾向
需要找到实体的特征 / 属性、情感词
三.分析方法
1.基于情感词典
根据已构建的情感词典,对待分析文本进行文本处理,抽取情感词,计算该文本的情感倾向。
分类效果取决于情感词典的完善性。
一般流程
(1)构建情感词典
情感词
程度词(非必须)
否定词:反转情感倾向
确定情感词、程度词的评分机制,以及否定词的反转机制
(2)对文本进行分词,匹配情感词典
(3)根据评分和反转机制,通过合适的算法,计算出文本的情感得分
2.基于机器学习
通过算法模型获取特征词,形成文本和词的矩阵,再利用机器学习/深度学习等方法进行分。
分类效果取决于训练文本的选择以及正确的情感标注。
一般流程
(1)选一部分语料,标记出情感分类
(2)对语料进行分词,通过合适的模型算法转换成词向量,获取特征词
(3)搭建模型,对数据进行训练和测试,调整稳定后形成分类器
(4)用分类器对新语料进行分类
四.发展趋势
多模态情感分析
把文本+语音+图像作为输入,都转成空间向量做分析。
End
作者:华天清
来源:知乎
本文均已和作者授权,如转载请与作者联系。
- 我的微信公众号
- 微信扫一扫
- 我的微信公众号
- 微信扫一扫
评论