Title: GANs for Semi-Supervised Opinion Spam Detection URL: https://arxiv.org/abs/1903.08289 Code: https://github.com/YankunShen/spamGAN (tensorflow实现)
垃圾评论是电子商务、社交媒体、旅游网站、电影评论网站等中普遍存在的问题。统计数据显示,超过90%的消费者在购买前会阅读评论。据报道,购买的可能性随着评论的增加而增加。垃圾评论制造者利用这种经济收益,提供垃圾评论,影响消费者购买决策,从而影响产品销售。识别垃圾评论是一个分类问题,评论分为垃圾评论和非垃圾评论。 识别垃圾评论的主要挑战之一是缺乏标记数据。目前只有少量标记数据附带标签。研究表明,未标记数据在与少量标记数据结合使用时可以在学习准确性方面产生相当大的改善。
1. Motivation
- GAN受到句子长度的限制
- 标记数据的缺乏
- 计算时间
- GAN没有用于分类任务
为了解决上述问题。
2. Contribution
- 首次将GANs用于垃圾评论检测
- 基于GAN的文本分类,以半监督的方式利用已标记和未标记的数据
- 使用神经网络自主学习特征
- spamGAN可以生成与训练集非常相似的垃圾邮件/非垃圾邮件评论
3. Method
spamGAN的基本思想:使用已标记的数据和未标记的数据来正确学习输入分布,spamGAN由三个组件组成:生成器、判别器、分类器,通过不断地生成和判别自主的提升模型性能。 数据D分为两部分DL和DU,DL是标记数据,类别标签是{spam,non-spam},DU是未标记数据。
从图1可知,spamGAN的流程:根据标记的数据,生成器学习生成与训练集中属于同一类别的真实句子相似的新句子(假句子)。然后输入给判别器和分类器,判别器学习区分真假句子,如果生成的句子不真实,就反馈给生成器。生成器和判别器相互竞争提高生成句子的质量。分类器根据标记数据和生成器产生的数据进行训练,分类器对假句子的性能反馈给生成器来改进。 生成器和判别器,生成器和分类器相互竞争,使得生成器生成的句子更真实,分类器分类的性能更好。
对比模型:DRI-RCNN; RCNN; Co-training; PU learning 评价指标:Accuracy, F1
4. Result Analysis
结果分析看图就懂。
5. Conlcusion
当标记数据有限时,spamGAN表现较好,适合低资源场景。