电商信息化技巧 – 基于用户评论的情感分析算法

访客:49645  发表于:2012-08-11 15:41:22

作为电商,销售平台上的用户反馈或意见都是很重要的,直接影响到品牌的价值和客户的忠诚度,所以对客户评论的内容进行数据挖掘和分析也是势在必行的。

一般常见的电商评论平台都会有类似的打分系统:

这是截自京东商城的,基本都差不多,就是有几个选择项,淘宝网如下:

这两种类型的评论都让用户进行了给定条件的选择和处理,从而获得用户对购物满意度的量化分数。

这个值的确能代表用户的一部分想法,但是作为我们电商如果完全相信这个数据,那么就错大了, 其实这个数据只是给其他的用户看的而已,而且用户有很多的想法和评价是通过这个量化的分数看不出来的,那么我们应该怎么做呢?

这里我们就要用到一种基于情感分析模型算法来获取用户满意度的做法,我们先了解两个模型,一个是TF-DIF模型,一个是FP-树算法,这个有点太学术化了,大家自己百度一下,很多文献都有记载,我这里就谈下具体实现的方法。

1. 首先先要对用户评论进行大规模的采集,可能是自己的评论系统,论坛交流系统,这个比较好做,如果是要采集外部出现与我们相关的内容的,我们都可以采集,实现方法最简单的就是直接去搜索引擎通过短时间范围收录进行采集。

2.采集后的内容,我们进行一次TF-DIF的分析,要找出相关性最强内容确定为用户评论的种子,然后对这些种子进行语义分析。

3.分析的原理是将内容进行拆分成多句,然后对每个句子进行拆分,得出中心点,然后对中心点进行打分,得出每句句子的情感内容,然后再统计整个文章的句子句子得分,得出文章的情感趋向,这个说的很绕口,大家可以参考FP-数算法。

4.当获取的评论的总体情感趋向后,就知道了这篇评论是好是坏,然后根据这篇评论产生的背景,比如买的产品,订单产生的背景(正常单,促销单等),物流运输的方式,时间,用户城市等信息,可以比较全面的获取出产品在不同活动或不同用户群体间,物流配送等各方面的影响。

虽然说这种做法有很大的片面性,不是非常的精准,但是在海量数据处理中,这种分析带来的优势是很明显的,前提是要对这个系统进行大数据量的训练学习,所谓训练学习,就是要存入大量的句法,关键词,情感词。

比如山东的用户评论:这个产品挺好的,但是物流送的太慢了。

通过句型拆分,我们分成A “这个产品挺好的”,B “但是物流送的太慢了”两句,然后通过情感词组进行打分, A 包含了“好”+1分,B 包含了“慢”-1分,那么我们能得知这个评论是趋于中性的,然后再引入句子的关键词情感匹配,在A中“好”形容的是“产品”,在B中“慢”形容的是“物流”,那么我们得出的结论就是产品质量没问题,问题出在物流,再通过引入背景分析,得出这笔单子山东的客户,在使用XXX快递慢了,当数据量大的时候,可以发现这种情况是普遍的还是个例,如果是普遍的那么对于山东地区,XXX快递是否就不能继续用了呢?

目前我们自己正准备上这个系统,在实际中有更多的经验后再交流。

来源:http://catwell.net/

评论(3)

您可以在评论框内@您的好友一起参与讨论!

    1. 韩伟 不错。

      回复[0] 2012/08/31 16:34

    1. 马岗 这个是个好东西,我甚至有一个观点,恶评也有好处。完美无缺的东西是不可信的。

      回复[2] 2012/08/15 13:29

    1. 张利华 呵呵,有点意思

      回复[0] 2012/08/13 18:49

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");