目录
频道首页
论文解读: 2018-Detection of spam reviews: a sentiment analysis approach
收藏
1
hjlmcat 最近修改于 2023-07-16 20:48:16

Title: Detection of spam reviews: a sentiment analysis approach URL: https://link.springer.com/article/10.1007/s40012-018-0193-0

产品和服务的在线评论对于制造商和消费者都发挥着重要作用,因为它们拥有大量的用户意见和体验。正面评价比例高的产品会吸引更多的顾客,从而增加产品业务。与此同时,任何产品收到的负面评论比例较高,都会损害产品的声誉并导致财务损失 。一些冒牌货脚注1将此视为通过发布垃圾评论来误导系统或客户的机会,以提升某些不受欢迎的产品或企业的排名,或者降低某些受欢迎的优质产品或企业的排名。为了实现这一目标,他们任命了一些个人(也称为垃圾邮件发送者),不仅为自己的产品创建综合正面评论,还为其竞争产品创建具有破坏性的负面评论。客户经常会选择具有更积极评价的产品,因此会因这些不真实的评论而受到误导。这会影响产品以及电子商务网站的声誉,因为客户可能会避免从网站购买产品。

1. Motivation

由于产品评论的外观相同,人们很难将评论分类为垃圾文本或非垃圾文本,故论文研究对评论进行自动标注的问题。

2. Contribution

  • 创建垃圾评论数据集,训练机器学习模型,将其他未标记数据分类为垃圾文本和非垃圾文本
  • 使用两种过采样技术(SMOTE, ADASYN)缓解数据集的不平衡
  • 采用多种机器学习算法来设计垃圾评论检测模型

3. Method

论文提出的方法主要包括五个阶段,分别是数据收集、数据预处理、特征提取、数据标注、分类。 image.png

3.1 数据收集

使用python从亚马逊收集 39,382 条在线产品评论,来自手机、耳机、移动电源等电子产品类别。数据收集时间为 2017 年 6 月至 2017 年 7 月。 image.png 数据包括产品评价(Review)和评论点评(Comment)两类字段,其中产品评价包括:评论 ID(review id)、评论文本(review text)、有用性投票(helpfulness votes)、星级评定(star rating)和点评数量(number of comments)。评论点评包括:点评ID(comment id)、点评文本(comment id)、评论 ID(review id)。 image.png

3.2 数据预处理

该研究的目的是根据评论与其评论之间的情感变化来标记评论,因此从评论列表中删除了那些没有收到同行任何评论的评论。删除此类评论后,最终数据集大小从 29,332 条评论减少到 2439 条评论。除此之外,删除了垃圾评论文本和评论点评文本中存在的标签。有一些评论中存在 Unicode 字符和产品快照,也从数据集中进行删除。 image.png

3.3 特征提取

特征字段:(i) Rating, (ii) ReviewSentiment, (iii) CommentSentiment, (iv) NumberComment, (v) HelpfulVotes, (vi) AvgCosineSimilarity and (vii) RatingDeviation. image.png AvgCosineSimilarity字段是使用余弦相似度来计算评论之间的相似值。 image.png Note,AvgCosine_Similarity需要计算所有文本两两之间的相似度。

测试数据集的特征:(i)Rating,(ii)HelpfulVotes,(iii)AvgCosineSimilarity和(vii)RatingDeviation

3.4 数据标记

训练数据集自动标注的方法:首先对评论文本及其相关评论点评文本进行情感分析,对于每条评论,计算其总正面 (+) 分数、总负面 (−) 分数,最后将这两个分数相加得出总体情感分数。(使用NLTK中的sentiwordnet)然后计算与评论相关的所有评论点评文本的平均情感分数。最后计算两者的情感差,如果情感差超过阈值t,这些评论标记为垃圾评论。 image.png

训练数据集人工标注的方法:招募三名评估员来检查所选的 1332 条评论。向评估人员提供 1332 条评论的三份独立副本。要求根据自己的专业知识对每条评论进行注释。如果至少三分之二的评估者给出相同的评论标签,认为这是最终标签。例如,如果两名评估者将一条评论注释为垃圾评论,而另一名评估者将一条评论注释为非垃圾评论,则我们会将该评论视为垃圾评论。

训练数据集包括自动标记和人工标记数据,为了评估两种方式的一致性,使用Cohens Kappa方程。结果介于 0.65 和 0.73 之间,基本一致。因此,两种评价方法的判断是一致的、有效的。

3.5 分类

论文使用监督学习来检测垃圾评论,将其视为将评论分为两类的分类问题。实验采用了三种不同的分类方法:梯度提升(GB)分类器[、随机森林(RF)分类器[和支持向量机(SVM)。该分类是根据 Amazon.in 的 1332 条评论进行的。众所周知,在现实生活中,垃圾评论的数量比非垃圾评论的数量要少得多。因此,论文分两个阶段进行实验:(i)使用不平衡数据进行分类,(ii)使用平衡数据进行分类。 评价指标:precision, recall, F1-score, Receiver Operating Characteristics (ROC) image.png

4. Result Analysis

4.1 不平衡数据集

在人工标注的1332条数据中,55条数据被标注为垃圾评论,1277条数据是真实评论,该数据集类别分布不平衡。在这个不平衡的数据集上进行了实验,并将从中提取的特征作为分类器的输入。论文将数据集采样为 3:1 的比例,用于训练和测试。论文使用RF分类器(随机森林分类器)进行实验。从表4查看,RF分类器对识别垃圾评论的效果极差。 image.png image.png 混淆矩阵图有点问题,训练接和测试集是3:1,正常应该是333条数据,垃圾评论13条,真实评论320条。

论文又使用GB分类器和SVM实验,GB分类器相比RF分类器指标略有提升,SVM在不平衡数据上效果最差,它无法将任何评论分类为垃圾评论。 image.png

4.2 平衡数据集

论文在平衡数据集上使用两种过采样技术(SMOTE和ADASYN),使用三种分类器(GB分类器,SVM,RF分类器),形成六种方法。 image.png image.png GB分类器+ADASYN和RF分类器+ADASYM两种实验结果最好。

image.png image.png image.png image.png

4.3 模型比较

image.png

5. Conclusion

论文使用情感挖掘方法将评论自动标记为垃圾邮件和非垃圾邮件,确定训练和测试用例的特征,确定平衡垃圾评论和真实评论两类数据集。 局限性:该论文仅将那些已收到至少五个同行用户评论点评的评论保留在可疑评论列表​​中。这意味着,该论文没有考虑不符合给定标准的其他评论的真实性。其次,实验仅在亚马逊的电子产品上进行。第三,评论数据集不可用。这意味着只有很少的评论收到了点评。

内容大纲
批注笔记
论文解读: 2018-Detection of spam reviews: a sentiment analysis approach
ArticleBot
z
z
z
z
主页
文章
云文档
讨论
留言墙
AI文档