1.引言
迁移学习(Transfer Learning)是一种机器学习技术,它通过将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。迁移学习同时也是一种优化,它允许在第二个任务上建模时取得快速进步和改善性能。
迁移学习其实离我们的生活并不遥远,人类的迁移学习能力其实是与生俱来的。例如,如果我们已经会打乒乓球,就可以类比学习打网球;已经学会英语,就可以类比着来学习其他语言;再如,如果我们已经会下中国象棋,就可以类比着下国际象棋。
根据学习方法的不同,迁移学习可以分为以下四个大类:基于实例的迁移学习(Instance Based Transfer Learning),基于特征的迁移学习(Feature Based Transfer Learning),基于模型的迁移学习(Model Based Transfer Learning)以及基于关系的迁移学习(Relation Based Transfer Learning)。其中比较热门的是基于特征和模型的迁移方式。
2.迁移学习与联邦学习的区别与联系
在迁移学习中,我们已有的知识叫做源域(Source Domain),要学习的新知识叫目标域(Target Domain)。在机器学习领域中,迁移学习研究如何将已有模型应用到新的不同的、但有一定关联的领域中。传统机器学习在应对数据的分布、维度,以及模型的输出变化等任务时,模型不够灵活、结果不够理想,而迁移学习放松了这些假设。在数据分布、特征维度以及模型输出变化条件下,有机地利用源域中的知识来对目标域更好地建模。另外,在有标定数据缺乏的情况下,迁移学习可以很好地利用相关领域有标定的数据完成数据的标定。
图 1 迁移学习过程示例
说到迁移学习,大家经常首先想到的是热词“联邦学习(联邦机器学习)”,联邦机器学习是一个机器学习框架,包括模型训练和模型推理两个过程。而迁移学习和联邦学习两者之间也是有明显区分的。联邦学习是把“碎数据”和“数据孤岛”连接起来,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。而迁移学习是从“大数据”到“小数据”的迁移,重点解决了“小数据”的问题,让知识可以从一个源领域迁移到另一个目标领域,是一种“举一反三”的学习能力。
两者之间又存在着紧密的联系,比如在进行联邦学习时常常需要做知识迁移,因为数据孤岛分布不均匀,有的大有的小。于是后来有专家提出的“联邦迁移学习”,这正是把联邦学习和迁移学习结合起来,发挥两种机器学习的优势。让不同机构在保护数据隐私的前提下合作,没有算法、领域、数据类型的限制,而且模型效果无损失。