标题 | 中文在线产品评论中“特征—观点对”的挖掘方法 |
范文 | 尹裴
摘要:文章主要针对中文在线产品评论进行研究,识别与抽取其中的基本评价单元——“特征、观点对”(Feature-Opinion Pair,FOP),提出基于语义词典的特征观点对提取方法。先通过分词与词性标注产生实词序列,并保留其中特定的名词、动词、形容词与副词生成产品特征与观点词序列,再通过进一步的精炼与映射成为评论特征与观点词序列,最后运用匹配与抽取算法自动生成特征观点对。实验结果表明,本方法的查全率约为87.62%,查准率约为79.44%,其性能与基线方法相比,有明显地提高。 关键词:在线产品评论;产品特征;特征观点对;语义 一、引言 隨着口碑营销等新型营销模式的兴起,在线评论的挖掘受到越来越多的关注。用户往往是根据产品的不同特征发表相应的观点,所以评论中的产品特征及其观点便成为反应用户对产品认知和评价的基本单元。 特征观点对的提取是挖掘评论商业价值的最重要一步。现有的方法多为针对英文评论中特征观点对的提取。英文评论句式固定、语法规范,而中文评论则存在口语化严重、语法不规范、语义模糊及主语缺失的特点,在一定程度上加大了评论挖掘的难度。由于中文与英文在表达方式上的较大差别,英文评论挖掘的方法无法直接应用到中文评论中。 因此,本文主要针对中文产品评论中的特征观点对进行挖掘,在已有研究的基础上,提出基于语义词库的挖掘方法,并通过实验来验证该方法的有效性,最后再分类统计特征观点,实现评论信息的有效组织。 二、文献综述 基于统计的方法利用基于统计的算法识别特征词,再采用邻近原则来判断相应的观点。例如,Liu(2006)首先识别句子中的名词或名词短语,然后使用关联规则挖掘出频繁项作为产品特征,将离产品特征最近的形容词作为评论观点。Scaffidi(2007)通过人工建立特定产品的特征集合来识别评论中的产品特征,再将与产品特征相邻的形容词作为评论观点。Zhang等(2010)通过条件随机场识别产品特征,再基于邻近原则与语法树识别与产品特征相对应的评价观点。 基于语义的方法将语言学知识引入评论挖掘,通过构建语言模式、语法规则或情感词典来识别特征观点对。例如,Zhuang, Jing和Zhu(2006)基于WordNet人工定义电影的特征及观点,通过依存句法图获取特征-观点对。Miao, Li和Zeng(2010)通过人工预先定义语法规则识别特征观点对。Zhao等(2010)通过获取句法路径与计算句法路径编辑距离抽取特征观点对。Vu等(2011)利用预先定义的语法规则与同义词挖掘特征观点对。Qiu等(2009)利用句法依存树识别特征观点对,Qiu等(2011)基于人工挑选的种子观点词,自动学习更多的评价观点及其评价对象。Somprasertsri和Lalitrojwong(2010)构建领域本体存储产品特征的同义词和观点词的极性。 三、特征-观点对的提取方法 本文提出一种基于语义词库的、直接提取产品特征与观点的方法,针对产品评论构建语义词库存储产品特征与观点,以及特征与特征、观点与观点及特征与观点之间的语义关系,在此基础上实现对产品特征及其观点的识别与提取。其基本流程如图1所示。 1. 步骤1:分词与词性标注 分词是将评论划分为若干词语及标点,并为每个词语及标点标注相应词性。经过分词与词性标注处理后,建立事务数据库,以文本文件的形式存储评论。以句子为单位,提取评论中的名词、形容词、动词、副词及相关短语作为项,生成实词序列。 2. 步骤2:产品特征与观点标注 建立词库,存储产品特征、观点及常见副词,以便从实词序列中识别产品特征及其观点。根据“常见副词库”、“观点词库”和“特征词库”,将评论中的词语标注为特征(F)或观点(O),无法匹配的词语则删除。该过程如图1所示。 3. 步骤3:精炼“产品特征-观点词对” 经标注得到的“产品特征-观点词对”较为粗糙,存在冗余、歧义和特征缺失等问题,因此需要精炼,去其糟粕取其精华。 (1) 降低冗余。将语义上相同或相近的词语进行合并。多个产品特征可能指示产品的同一方面也合并。某些基本特征与其使用动作相对应,如“扬声器”与“外放”、“浏览器”与“浏览”等,也将其合并。 (2)减少歧义。某些特征词前面必须加上限定词才具有实际的意义,若单独使用则产生歧义。本文采用互信息来衡量特征词与其限定词之间的共现性,以获取匹配规则。 互信息越大,特征词w1与w2匹配效果越好。 (3)特征缺失处理。中文评论常出现主语缺失的现象,即存在隐式特征,需要根据观点词补充相应特征词。观点词可分为两类:一类是明确指示有限个具体特征的观点词,称为特征指示词,如“贵”指示“价格”;另一类是具有笼统含义,可修饰任意特征的观点词,称为一般观点词,如“不错”。对于特征指示词自动匹配其所指示的特征;而一般观点词则自动与其相邻的、同一短句中的特征配对。 4. 步骤4:“特征-观点词对”匹配与抽取 (1) FO模式(或OF模式)。该模式中特征与观点一一对应,直接生成特征观点对 (2)FFO模式。该模式为多个特征与单个观点的组合形式,根据特征之间的关系,FFO模式可进一步分为两类:一是 特征间具有层次性,如“手机操作方便”,经标注为“手机/F操作/F方便/O”,其中“操作”为手机的使用行为,与“手机”是上下层关系,仅保留最后一个F,生成特征观点对(操作,方便)。二是评论特征间具有同位性,如“外观和操作系统都不错”,经标注为“外观/F操作系统/F不错/O”,其中“外观”和“操作系统”为并列关系,生成特征观点对(外观,不错)与(操作系统,不错)。 (3)FOO模式。该模式为单个特征与多个观点的组合形式,根据“F”与“O”之间的搭配关系,FOO模式可进一步分为两类:一是每个观点词都用来形容评论特征,如 “屏幕大而清晰”,经标注为“屏幕/F大/O清晰/O”,其中“大”和“清晰”都形容“屏幕”,生成特征观点对(屏幕,大)与(屏幕,清晰)。二是含有无法搭配评论特征的观点词,如 “按键灵活清楚”,经标注为“按键/F灵活/O清楚/O”,其中“灵活”修饰“按键”,而“清楚”与“按键”因无法搭配而删除。 (4)FFOFOO模式。该模式为多特征多观点的组合形式,可以“F”开头和“O”结尾的最长序列为对象,将其拆分成FFO模式或FOO模式。 四、实验设计 (一)实验准备 本文选择电子商务网站的手机评论作为语料来源。采用中国科学院计算技术研究所研制的ICTCLAS进行分词和词性标注,并用“,”替代评论中的空格、“~”、“/”等符号。对于评论中出现的专有名词与口语化词汇,则按照未登录词进行标注。 挑选两名语言学学者对实验语料人工标注特征观点对。标注结果如表1所示。结果显示96.3%的评论句中包含特征观点对,说明特征观点对是产品评论中的重要的基本单元。同时,观点词总数多于特征观点对总数,说明存在隐式特征。 本文使用信息检索领域标准的评价准则:准确率(P)、召回率(R)和调和评价值(F)来对实验结果进行评价。具体定义为:P=|A∩B|/|A|;R=|A∩B|/|B|;F = 2*P*R/(P+R)。其中,A表示系统识别出的特征观点对集合,B表示人工标注的特征观点对集合。 (二)对比实验 从基于统计与基于语义两类研究中分别选取具有代表性的方法作为基线实验,与本文提出的方法进行对比。1. Liu (2006)提出的基于关联规则与邻近匹配原则的算法。2. Popescu和Etzioni提出的基于互信息与句法规则的算法。表2列出了对比实验结果。 本文提出的方法在召回率和调和评价值上都高于两组基线方法,说明基于语义的方法总体上优于基于统计的方法,且以词库为基础,分析词语间的语义关系,更有利于评论挖掘。 五、总结 本文针对中文在线产品评论进行研究,提出基于语义词典的方法,对评论中的基本评价单元“特征观点对”实现有效地识别与提取。针对已有研究的不足,本文通过建立词库存储产品特征及其多种表达形式,再经同义词合并解决评论的口语化问题;通过特征与特征的共现性消除语义上的歧义;根据特征与观点间的语义关系补充句中缺失的主语;通过将产品特征映射为评论特征减少特征集的维度,便于对挖掘结果进行有效地统计分析。 最后,设计对比实验,结果表明本文提出的方法能有效地提高中文产品评论挖掘的效果。今后的研究将对所得到的特征观点对进行情感极性分类,以此比较不同产品的优缺点,将评论挖掘应用到商业实例中。 参考文献: [1]Popescu A.M. and Etzioni,O. Extracting Product Features and Opinions from Reviews[C]//Proc. Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing(HLT/EMNLP), Vancouver, Canada,2005. [2]Scaffidi C., Bierhoff K., Chang E., et al,Red Opal:Product-Feature Scoring from Reviews [C]// Proc. of the 8th ACM Conf. on Electronic commerce,2007. [3]Zhang S., Jia W., Xia Y., Meng Y., Yu H. Extracting Product Features and Sentiments from Chinese Customer Reviews[C]// Proc. of the the 7th Intl Conf. on Language Resources and Evaluation, 2010. [4]Zhuang L., Jing F., Zhu X. Movie Review Mining and Summarization [C]//Proc. of the 15th ACM Intl Conf. on Information and Knowledge Management, 2006. [5]Miao Q., Li Q., Zeng D. Fine-Grained Opinion Mining by Integrating Multiple Review Sources [J]. Journal of the American Society for Information Science and Technology,2010(11). [6]Vu T.T., Pham H.T., Luu C.T., Ha Q.T. A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese [J].Studies in Computational Intelligence,2011. [7]Qiu, G., Liu, B., Bu, J., Chen, C. Expanding Domain Sentiment Lexicon through Double Propagation[C]//Proc. of the 21st Intl Joint Conf. on Artificial intelligence,2009. [8]Qiu, G., Liu, B., Bu, J., Chen, C. Opinion Word Expansion and Target Extraction through Double Propagation[J]. Computational Linguistics,2011(01). [9]Somprasertsri G., Lalitrojwong P. Mining Feature-Opinion in Online Customer Reviews for Opinion Summarization [J].Journal of Universal Computer Science, 2010(06). *基金项目:国家自然科学基金青年项目(71601119)“基于在线评论情感分析的社交媒体用户推荐”;教育部人文社会科学研究一般项目(16YJCZH138)“在线评论中面向產品特征的消费者意见挖掘:细粒度的情感分析视角”;上海市教育发展基金会和上海市教育委员会“晨光计划”(16CG53)“社会网络环境下基于情感分析的用户推荐研究”;上海高校青年教师培养资助计划(ZZslg16019)“基于细粒度情感分析的在线评论意见挖掘”。 (作者单位:上海理工大学管理学院) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。