原文:FS-Mol: A Few-Shot Learning Dataset of Molecules | OpenReview
一个分子 Few-shot 任务数据集和 benchmark。
小数据集在药物发现中无处不在,因为数据生成成本高昂,并且可能因伦理原因(例如体内实验)而受到限制。早期药物发现中广泛应用于识别针对蛋白质靶点的新型活性分子的一种技术即对定量结构-活性关系(QSAR)进行建模。众所周知,这是极具挑战性的,因为化合物活性的可用测量范围只有几十到几百。然而,存在许多此类相关数据集,每个数据集都包含少量数据点,这为在更大的数据集上进行预训练后进行 Few-shot 学习提供了机会。
QSAR 小样本数据集和基准
具体来说,为了适应小样本学习,它应该提供对预训练有用的大量训练任务集 \mathcal{D}_\mathrm{train},以及与训练任务相关的测试任务的不相交集 \mathcal{D}_\mathrm{test}。为了能够分析新任务的泛化程度,\mathcal{D}_\mathrm{test} 应该包含与训练数据非常相似的任务,以及在几次测试时需要更专业化的其他任务。最后,我们应该选择测试任务,以便我们可以评估评估方法对不同支持集大小的适应性。与此同时,我们的目标是构建一个与现实世界药物发现项目相关的基准。为此,某些任务的样本数量应该很小,这反映了早期项目可以测量的化合物少于 100 种。所考虑的分子应该是类似药物的,并且任务本身应该包括广泛的药物靶点。最后,标签应该从实际测量中提取,以反映在湿实验室测量中观察到的新目标的噪声。
作者从 ChEMBL27 中仔细选择数据来构建数据集。
分子特性预测任务的选择 ChEMBL 包含许多实验的结果,称为“测定”(assays),每个实验都有一个唯一的实验 ID。我们仅保留那些涉及小分子活性(IC50 或 EC50)的测量值,并删除所有分子量 ≥ 900 道尔顿的化合物,以确保仅包含药物样分子。然后,我们对所有化合物应用标准清理和规范化程序并将它们存储为 SMILES 字符串。然后选择具有至少 32 个数据点且不超过 5000 个数据点的测定。
删除大型检测的原因是它们通常来自高通量筛选 (HTS),因此包含高比例的非活性化合物,并且噪音很大,使得挑战更加复杂。我们进一步排除与特定目标蛋白 ID 无关的所有测定。我们将每个选定的、过滤的分析视为我们的少样本学习数据集中的单个任务,我们只考虑单个蛋白质靶标的测定(其中相同的靶标可能是多个单独测定的主题),并将测定视为单独的任务,以避免组合测量时经常出现的测定间噪音。
数据集统计
FS-Mol 总共包含 5120 个单独的检测,包含 233,786 种独特的化合物。虽然测定针对独特的目标以防止 few-shot 测试/预训练重叠,但许多化合物是在多次测定中测量的;\mathcal{D}_\mathrm{test} 包含 27520 个化合物,其中 15732 个在 \mathcal{D}_\mathrm{train} 和 \mathcal{D}_\mathrm{valid} 中未见。其中每个任务的平均化合物数量为 94,远低于替代数据集,反映了蛋白质靶标和用于探索它们的测定的高度特异性。
为了鼓励开发多样化的方法,我们发布的数据集和支持代码提供了三种替代特征化方法:
每种化合物的 SMILES 字符串 ,可用于受 NLP 启发的方法或派生任意特征化
扩展连接指纹(ECFP)和关键分子物理描述符,它们是许多 QSAR 机器学习方法的标准选择
原子和键的分子图,与图神经网络等方法一起使用。