一个开放世界学习范式主要包括三个部分,即未知剔除、新类发现(NCD)和增类学习(CIL)。
开放世界学习的总体挑战
开放世界学习包括按顺序和周期执行未知剔除、新类发现和类递增学习。核心挑战在于如何使上述过程在不依赖人类工程师的情况下,通过模型与开放环境之间的交互自动进行。遗憾的是,在封闭世界假设下,模型过于自信,很难意识到未知事物。具体来说,从表征学习的角度看,模型只在当前数据集上进行数据驱动的优化训练,学习到的表征是特定任务的,通用性较差;从分类器学习的角度看,当前的判别分类器为未知事物留下的空间很小,难以表征、发现和适应新事物。因此,未知类别的示例会被映射到已知类别的区域,导致在后一个增量学习过程中对先前知识的灾难性遗忘。
未知剔除
为了提高机器学习系统的未知剔除能力,人们做了很多努力。与未知剔除相关的研究领域有很多,如异常检测、分布外(OOD)检测和开放集识别(OSR)。其中,异常检测在早期工作中得到广泛应用,而 OOD 检测和 OSR 则在近期工作中得到更多应用。OOD 检测和 OSR 的区别在于两个方面。首先,在 OOD 检测中,OOD 数据与内部分发(ID)数据之间的语义距离相对较大,例如,OOD 数据集通常是完全不相关的。而在 OSR 中,数据集中的一个类别子集被视为 ID,同一数据集中的其他类别被视为 OOD 数据。其次,OOD 检测主要集中于区分 OOD 样本和 ID 样本,而 OSR 还评估已知类的封闭世界分类性能。
新类发现
新类别发现(NCD)的基本设置是 Yu = Cnew 和 Yu T Yl = Φ,即未标记数据只包含新类别,且与已标记数据没有类别重叠。NCD 主要涉及 Du 中的类别发现。