半监督分类：co-training - 文章频道 - NLP Research

协同学习（co-training）旨在利用未标记的数据来提高监督学习的性能。它的基本思想是通过同时训练多个分类器，利用它们之间的互补性来提供额外的信息，从而改善模型的泛化能力。

假设现在有数据集，数据集由有标签的数据集L和无标签的数据集U组成，每组数据有两个特征,x1,x2，即L数据形式（x1,x2,y），U数据形式（x1,x2） Co-training训练步骤如下： ① 初始化数据从标记数据集中随机选择一部分样本作为初始标记集，并将其用于训练分类器。选择的样本应该在不同分类器之间有较大的差异性，以确保互补性。 ② 特征选择根据问题的特点和可用的特征集，为每个分类器选择一个不同的特征子集。这些特征子集可以是重叠的或互斥的，取决于数据和特征的性质，比如L 分为L1 ([x1,y]) 和L2 ([x2,y])。 ③ 交替训练

分别用L1和L2训练出一个模型 F1和F2。
分别用模型F1和F2去预测未标记数据集U，只选出最有把握的数据。
选择具有高置信度的预测结果，将其添加到相应的标记集中。把模型F1预测的结果放入L2，把模型F2预测的结果放入L1。
更新标记数据集L 和未标记数据集 U。
根据更新的标记数据集重新训练每个分类器模型。

④ 终止准则：重复步骤3中的交替训练过程，直到满足某个停止准则，例如达到最大迭代次数、分类性能不再改善或标记集的大小达到预定阈值。