目录
频道首页
论文解读: 2020-A deceptive review detection framework: Combination of coarse and fine-grained features
收藏
2
hjlmcat 最近修改于 2023-07-14 14:49:40

Title: A deceptive review detection framework: Combination of coarse and fine-grained features URL: https://www.sciencedirect.com/science/article/pii/S095741742030289X#b0130

如今,网上购物已经成为我们生活的一部分。电商平台上的买家在购物时经常会参考网上的产品评论。在各种利益的驱动下,卖家经常与垃圾评论者串通,撰写欺骗性评论。欺骗性评论不仅对参与市场竞争的合法商家不公平,还会误导消费者的购物决策,对消费者权益造成损害。因此,检测欺骗性评论至关重要。然而,一项实验研究表明,人类对欺骗性评论的识别准确率仅为 57.3%。设计准确检测欺骗性评论的自动方法,不仅可以打击不诚实卖家的投机行为,而且有利于社会信任体系的构建,有助于消费者做出更好的购买决策。

1. Motivation

近年来,神经网络在自然语言处理(NLP)领域的应用越来越广泛。基于词向量的深度学习方法可以获得评论中的细粒度特征。然而,由于忽略了粗粒度的文本特征,语义特征利用深度学习方法提取的粗语义信息的表达存在一定的局限性。 为了解决评论隐含语义没有得到全面获取和利用的问题,本文提出了一种结合粗粒度和细粒度特征来检测欺骗性评论的新框架。

2. Contribution

(1) 为了提取粗粒度特征,使用LDA主题模型来获取评论主题分布的特征,然后应用两层层BP神经网络从评论主题分布中获取基于主题的隐式语义特征。

(2) 为了并行提取细粒度特征,使用深度学习模型从评论的词向量表示中获取隐式语义特征,结合提取的粗粒度和细粒度特征来实现最终的文本分类。

(3) 为了验证该框架的性能,推导了三个深度学习模型,即 TextCNN、LSTM和 BiLSTM,作为框架左侧部分的模型,用于从评论的词向量表示中提取细粒度的隐式语义特征。

(4) 在混合域数据集和平衡/不平衡域内数据集上的实验结果表明,结合粗粒度和细粒度特征的模型在准确率、精度、召回率、F1分数等方面优于所有仅考虑粗粒度或细粒度特征的基线。实验结果进一步表明该框架适合应用于现实生活中混合不平衡的电子商务环境。

3. Method

我们提出一个新的框架,同步提取粗粒度和细粒度的特征,并将它们结合起来实现欺骗性评论检测。该框架充分利用了LDA主题模型在提取显式粗粒度主题信息以及基于神经网络的模型在提取隐式细粒度语义信息方面的优点。该框架充分利用了不同粒度的特征更全面地提取评论文本中隐藏的隐含特征。与现有的基于神经网络的机器学习方法不同,这种新方法可以通过提取粗粒度的主题特征来获得更全面的信息。 image.png

该架构的左侧部分旨在学习​​评论的细粒度特征,由算法1按照三个步骤实现。首先,预处理后的评论被转换为词向量表示。其次,使用深度神经网络模型训练数据集中评论文本的词向量表示。最后,选择全连接层的输出作为评论的隐式细粒度特征。值得注意的是,在算法1过程的第二步中,我们没有规定特定的深度神经网络。这是因为我们想测试我们的框架在不同深度神经网络上的适用性。 image.png

该框架的右侧部分专注于粗粒度特征的学习,它是通过连接LDA模型和两层BP神经网络来实现的。算法2说明了详细步骤。首先,LDA主题模型用于获取预处理评论的显式主题分布特征。其次,基于显式主题分布特征,使用双层BP神经网络进行训练。最后,神经网络隐藏层的输出被视为评论的隐式粗粒度主题特征。 image.png

该框架的顶部部分结合了学习到的细粒度和粗粒度特征,并训练了SVM分类器,该分类器由算法 3 分两步实现。首先,将两种特征拼接成一个向量。然后通过将组合向量作为输入来训练 SVM 分类器。选择 SVM 分类器有三个原因。(1)SVM分类器可以将输入向量映射到高维特征空间,并且具有很高的泛化能力。(2)SVM分类器适合处理文本分类问题。(3)许多相关研究使用SVM或将SVM分类器与神经网络相结合,取得了良好的成果。由于我们的框架需要解决高维的两个粒度属性(即主题和单词),因此 SVM 分类器适合我们的目的。值得注意的是,在该框架的左侧部分,没有指定特定的深度神经网络。在这个框架的实现中,我们可以通过指定一个实际的深度神经网络来实现特定的模型。 image.png

4. Experiment

为了验证框架的性能,设计了四组实验。 第一组实验:选择适当数量的LDA主题。 第二组实验:在黄金标准小型数据集上进行的域内实验,对该框架在三个不同领域的性能进行基准测试。 第三组实验:在Yelp 数据集上的域内实验,旨在测试该框架在大规模数据集上的性能。 第四组实验:基于黄金标准小数据集的混合域实验。

4.1 Datasets

image.png

image.png

4.2 Model

Coarse-grained: LDA、LDA-BP Fine-grained: Unigram、POS、LSTM、Bi-LSTM、TextCNN Coarse and Fine-grained fusion: LDA-BP+LSTM、LDA-BP+Bi-LSTM、LDA-BP+TextCNN

评价指标:Accuracy、Precision、Recall、F1-score. (Macro-average)

4.3 Result Analysis

image.png

image.png

根据表5-8,最佳的主题数量分别是20、10、20、30。 image.png 大数据级评论内容涉及更丰富、更详细,根据表9可得最佳主题数量是250。

image.png 在小数据集的域内实验中,比较了各个模型在平衡/不平衡酒店、餐馆和医生数据集上的有效性和性能。表10显示粗粒度的主题信息有助于识别欺骗性评论。对于不平衡数据集,粗粒度LDA主题模型的性能显着下降。细粒度模型的性能要么保持稳定,要么小幅上下波动。 LDA-BP⊕TextCNN表现最好。

image.png 表11显示评论的词性特征可以帮助我们识别欺骗性评论。 image.png

image.png 表13显示Unigram 和 POS 模型在不平衡的 Yelp n数据集上的表现比在平衡的 Yelp y数据集上的表现更差,这在小数据集上产生相反的结果。这可能是因为 Unigram 和 POS 模型不适合处理不平衡的大规模数据集。

image.png 表14结果显示,单粒度特征可能不足以区分欺骗性评论。 表15显示,该框架推导模型的时间复杂度略高于单独的粗粒度或细粒度模型。

4.3 小结

  • 结论1 从该框架导出的三个模型(LDA-BP⊕LSTM、LDA-BPBi-LSTM、LDA-BP⊕TextCNN)优于仅考虑细粒度深度学习模型或粗粒度LDA的基线模型基于平衡和不平衡数据集的主题模型。此外,LDA-BP⊕TextCNN模型获得了最好的性能。
  • 结论2 改框架导出的三个模型在现实生活中的大规模平衡/不平衡数据集的大多数指标上都优于基线。
  • 结论3 三个派生模型可以有效地处理混合域数据集上的欺骗性评论检测。此外,LDA-BP⊕TextCNN模型在不平衡混合数据集上取得了非常好的性能,接近现实生活中的电子商务数据集。
  • 结论4 无论是域内还是混合域应用,无论是大数据集还是小数据集,平衡数据集还是不平衡数据集,该框架派生模型的整体性能都优于仅使用粗粒度或细粒度特征的其他模型。因此,我们的框架总体上具有良好的适用性。
  • 结论5 该框架结合了粗粒度和细粒度的特征,可以有效地提高考虑单一类型特征的模型的性能。而且,粗粒度LDA主题模型的提升也相应大于细粒度深度学习模型。

5. Conclusion

本文提出了一种结合粗粒度和细粒度特征的欺骗性评论文本检测框架。为了验证该框架的有效性和性能,采用了典型的LDA主题模型、显式细粒度特征挖掘模型Unigram和POS,以及基于深度学习的优秀隐式特征挖掘模型例如TextCNN、LSTM和Bi-LSTM进行选择和比较。此外,为了进一步验证该框架的性能,还使用该框架的子模型(LDA-BP)作为基线。基于黄金标准数据集和 Yelp 数据集设计和实施了综合实验。实验结果表明,我们的派生模型在平衡/不平衡数据集的不同域内实现了比相应基线更好的检测性能。尤其,我们的派生模型在混合域中的性能明显优于基线。在大规模的 Yelp 数据集上,我们的派生模型也可以实现一些改进。此外,我们试验的此类数据集非常接近现实生活中的应用,尤其是在混合域数据集上。因此,我们可以得出结论,我们的框架具有良好的有效性和性能,适合应用于现实生活中的电子商务环境。

内容大纲
批注笔记
论文解读: 2020-A deceptive review detection framework: Combination of coarse and fine-grained features
ArticleBot
z
z
z
z
主页
文章
云文档
讨论
留言墙
AI文档