一份基于120万条亚马逊review的统计分析报告

当我们到亚马逊去买新商品的时候,查看商品的评价是购买过程中的重要一环。

QQ20170424-0

那些已经购买过、使用过产品的消费者留下的评价将给你带来很多产品背后的信息。每个评价的人会给亚马逊一个1至5颗星的评价,并且写下一些他们对这个产品的使用体验和想法。所有评价的星级汇总后的平均值就是这个产品的星级评分。

无标题

那么,人们留评价时都有哪些习惯和特点?这些评价中有多少是有价值的?

我们分析了2000-2012年间电子产品类目的120万条产品评价,发现了一些有意思的统计结果,这里面有的是符合人们的常识的,但也有一些特别的结论揭示了一些更深刻的亚马逊评价系统背后的信息。

  • 数据基本信息

首先,我们可以看看用户评价的星级是怎么分布的。

2

超过一半的评价是5星评价。除此之外最多的是4星和1星,2星和3星非常少。随之而来的结果是,所有评价的平均值是3.9星。实际上,如果我们看每个月的评价星级,从2000到2012年间星级波动非常大,从3.4到4.2星之间都有。

1

另一个分析评价的维度是评价的有用性。用户可以在别人的评价下面点击“有用”、“没用”两个按钮来点评是否认为该评价有用。关于评价是否有用的分析可以基于这两个指标来做统计。(在文章开头截图的那个产品评价中,有639/665的人认为评价有用,也就是说这条评价的有用率是96%)。这个比例的值可以让我们分析评价的有用性。所有120万个评价中,只有10%的评价拥有至少10个“有用”“无用”点评,而在这些评价中,“有用”点评的比例非常高。

无标题
这是符合常理的,如果你在写一个评价(尤其是5星评价),那么同时你也在影响着将来留评价的人。

另外我们还可以研究一下评价长度。是短文型评价多呢,还是一句话评价多呢?

12

大多数评价拥有100-150个字符,然而所有评价的平均字符数是582个(有的评价竟然有30000多个字符!)。有统计显示,一般典型的一段话的平均字符数是352个,那么我们可以说亚马逊评论者平均每次会写半段话。有意思的是,非常非常少评论是少于100个字符的,也就是说人们至少都会写一句完整的话。

  • 产品分析

我们分析的这120万个评价,来自约82000个独立的产品。然而,大多数产品都是变体中的一员(例如一款耳机有几个不同颜色),最终我们统计到的父体有30577个。

21

亚马逊上有超过三分之二的电子产品的价格低于50美金,这很好理解,因为有很多手机保护壳之类的非常便宜的商品。然而,我们发现售价和评价数量之间没有明显的关联性,也就是说用户并不会因为产品特别便宜或者特别贵而特别喜欢留评价。

如果我们把产品星级和价格放在一起会发生什么呢?

无标题
最贵的那些产品中的绝大部分都获得了4星以上的评价。但总的来说各个价格段的产品中4星以上的评价比例都很高,也就是评价星级并没有特别受到售价的影响。

与之形成对比的是,评价长度跟产品售价之间却存在非常大的关联性。

13

这幅图显示,消费者愿意为高价产品写更长的评价。

  • 评价者分析

你大概能猜到,多数消费者只在亚马逊上留了一两条评价,但也有不少人留下数以百计的评价。在120万个评价的背后,我们统计出了510434个评价者。

31

超过80%的亚马逊电子产品评价者只留过1次评价,分析这类评价者有点困难,所以我们尝试分析那些留过超过5个评价的评价者,这样的评价者共有11676人。

那么这些喜欢留评论的客户会给产品打出怎样的星级呢?

221

上表横轴表示每个这样的评论者的所有评论的星级的平均数,纵轴表示人数,总的来说这些人给出的产品评价星级与总体的特征基本是一致的,但其中有个明显的特征是,他们给的5星相对较少,较多的评级介于4-5星之间。有意思的是,这里的5星表示的是该评论者的所有评论都是5星,说明有这么一大批客户,只有对产品非常满意时才会来留评价。

现在我们来分析一下,这些喜欢留评价的客户,他们留下的评价是不是应该质量更高,有更多人给他们留下“有用”的点评呢?

41

依然没有惊喜,统计的结果没有特别出人意料的地方,整体的评论有用率在80%左右。只有一点比较有意思,明显有那么一部分评价者没有获得任何一个“有用”点评,想想他们这么热心的留评价,却没被别人认可,sad.

如果你把评价星级和平均“有用”率放在一起,我们得到一个有意思的图表:

5

这幅图基本上可以理解为,留好评的人对产品有更高的热情,他们会写得激情澎湃更有感染力。而留低星级的往往一个“sucks”就搞定了。

  • 结论

亚马逊上电子产品的评价主要处于4-5星之间,而这些评价通常都被认为是有用的。1星的评价常常被认为无用,2-3星的评价则没有明显有用无用的特征。既然这样,我们在想,亚马逊搞这个评价系统的作用是什么?反正留好评的人总是会被认可,干脆简单直接地用“点赞”和“鄙视”代替评价算了。当你看到一个产品有很多的“点赞”,实际上直接购买就可以了,至于看评价的具体内容,则没什么实际意义,毕竟我们这里研究的是电子类目,不需要服装类目的买家秀。

5星打分系统让客户在对比不同的产品时有了一个可量化的评价指标,当两个类似的产品分别被打上3.8分和4.2分时,客户更愿意选择后者。同时,如果产品真的很差,偶尔的几个5星好评能明显冲淡低星评价的影响。

还有很多很多隐藏在亚马逊评价背后的秘密,我们将不断地研究下去,比如研究review的用词特征跟产品评价星级之间的关联,对比不同类目之间的不同情况,或者用自然语言工具来研究review语法的发展进程。所有这些研究,将使得我们更懂消费者,更清楚地看到美国消费者的消费变化。

做个预告,下次我们会研究用词频率:)先看看那些没有实际意义的词,然后去掉他们,再看看会发生什么。