Title: Fake reviews detection based on LDA URL: https://ieeexplore.ieee.org/abstract/document/8392850 随着在线评论的急剧增加,由于没有控制,任何人都可以在网络上写任何内容,垃圾评论随之而来。描述真实的购买后体验的评论可以帮助潜在消费者获得满意的商品,使商家有准确的定位。相反,垃圾评论会误导消费者和企业。因此,垃圾评论的检测变得越来越紧迫和重要。
1. Motivation
研究评论的深层语义来检测欺骗性的虚假评论。将欺骗性虚假评论检测问题转化为二元分类任务并建立分类模型。使用词频、LDA、word2vec 来提取特征,然后将从数据集的每条评论中提取这些特征输入到多个机器学习模型中进行分类,最后比较这些机器学习模型中特征的性能。
2. Method
2.1 数据
论文数据来自Yelp数据集的子集,包括芝加哥地区 85 家酒店和 130 家餐厅的 64195 条评论。每条评论包括date、review ID、reviewer ID、review Content、rating、usefulCount、coolCount、funnyCount、flagged、restaurantI D(其中flagged显示为yes或no,代表评论是假的或非假的)。 由于类别分布极不平衡。所以处理后的评论基本上会放弃长度低于25的评论。然后选择所有假评论,非假评论是假评论的两倍。
2.2 特征提取
- 词频 词频可以用来衡量论文中单词的重要性。本文利用Scikit-learn提取词频,采用词频最高的前5000个词。
- WordVect 通过 gensim.models.word2vec 在语料库上训练 Skip-Gram 模型。Word2Vec 并通过计算评论中每个单词的嵌入向量的平均值将每个评论表示为向量。向量大小设置为 300,窗口大小为 5,最小计数为 2,迭代次数为 5。
- Latent Topic Distribution 主题建模是自然语言处理中的一种技术,它试图从文档集合中提取隐藏的主题。论文将虚假评论和非虚假评论视为两个文档,并使用LDA模型来提取主题词。结果表明,从100、150、200、250和300中选择的最佳主题数,虚假评论为150个,真实评论为200个,每个主题包含30个单词。将每个主题视为一个新评论,然后将新评论与旧评论进行整合。最后得到表六所示的新数据。
2.3 模型和评价指标
模型:支持向量机、逻辑回归、多层感知器分类器。 评价指标:准确率、精确率、召回率、F1分数。
3. Result Analysis
实验结果证明了LDA的有效性,并再次证明SVM不适用于虚假评论检测。 LDA可以从一篇文档中提取主题词,而主题词在一定程度上可以代表整篇文档。使用LDA分别提取虚假评论和真实评论中的主题词,更能反映虚假或真实评论的特征。 因此,使用LDA的准确率略高于不使用LDA的准确率。
4. Conclusion
研究证明了基于LDA提取特征的有效性。 注意,有一种假设认为sigmoid具有决定性的影响。