Omar Maddouri是德州农工大学电气与计算机工程系的博士生,正在与他的指导老师兼教授Byung-Jun Yoon博士和Robert M. Kennedy的26位客座教授Edward Dougherty博士合作,使用迁移学习原理评估机器学习模型。布鲁克海文国家实验室的弗朗西斯·“弗兰克”·亚历山大博士和德克萨斯农工大学电气与计算机工程系的钱晓宁博士也参与了该项目。
在数据驱动的机器学习中,构建模型是为了预测和估计任何给定数据集中会发生什么。机器学习中的一个重要领域是分类,它允许通过算法评估数据集,然后将其分类或分解为类或类别。当提供的数据集非常小时,不仅要基于这些数据建立分类模型,而且要评估该模型的性能,确保其准确性,都是非常具有挑战性的。这就是迁移学习发挥作用的地方。
“在迁移学习中,我们尝试从另一个领域转移知识或带来数据,看看我们是否可以增强我们在感兴趣的领域或目标领域所做的任务,”马多里解释道。
目标域是构建模型并评估其性能的地方。源域是一个独立的域,它仍然与目标域相关,从目标域可以传输知识,从而使目标域内的分析更容易。
Maddouri的项目利用联合先验密度来建模源域和目标域之间的相关性,并提供了一种贝叶斯方法来应用迁移学习原理来提供模型的总体误差估计。误差估计器将提供这些机器学习模型在分类手头数据集时的准确程度的估计。
这意味着在观察到任何数据之前,团队使用他们对目标和源域中的模型参数的初始推断创建一个模型,然后随着关于数据集的更多证据或信息变得可用,更新该模型以提高准确性。
这种迁移学习的技术已经在以前的作品中用于建立模型;然而,以前还没有人使用这种迁移学习技术来提出新的误差估计器来评估这些模型的性能。为了有效利用,所设计的估计器已使用先进的统计方法实现,该方法能够快速筛选源数据集,从而将迁移学习过程的计算复杂性提高了10至20倍。
这种技术可以作为未来学术界研究的基准。此外,它还可以帮助识别或分类不同的医疗问题,否则将非常困难。例如,Maddouri利用这种技术对精神分裂症患者进行分类,这些患者的转录组数据来自最初通过侵入性脑活组织检查获得的脑组织样本。由于可以分析这种疾病的大脑区域的性质和位置,收集的数据非常有限。然而,使用严格的特征选择程序,包括差异基因表达分析和假设有效性的统计测试,研究小组从其他文献的独立研究报告中确定了来自额外大脑区域的三个基因的转录组谱,这些基因被发现与所需的脑组织高度相关。这些知识使他们能够利用迁移学习技术来利用从第二个大脑区域(源域)收集的样本来帮助分析,并显著提高原始大脑区域(目标域)诊断的准确性。在缺乏目标领域的信息的情况下,从源领域收集的数据可以是探索性的,允许研究团队提高他们结论的质量。
这项研究得到了能源部和国家科学基金会的资助,并发表在《科学》杂志上一月号模式这是Cell Press出版的一份新的开放获取期刊,发表数据科学领域的突破性研究成果。