编辑推荐:
在发现了一个连接20多种常见机器学习方法的统一算法后,麻省理工学院的研究人员将它们组织成一个“机器学习周期表”,可以帮助科学家结合不同方法的元素来改进算法或创建新算法。
麻省理工学院的研究人员创建了一个元素周期表,展示了20多种经典机器学习算法是如何联系在一起的。新的框架阐明了科学家如何融合不同方法的策略,以改进现有的人工智能模型或提出新的模型。
例如,研究人员使用他们的框架将两种不同算法的元素结合起来,创建了一种新的图像分类算法,比目前最先进的方法要好8%。
元素周期表源于一个关键思想:所有这些算法都学习数据点之间的一种特定关系。虽然每种算法的实现方式略有不同,但每种方法背后的核心数学原理是相同的。
在这些见解的基础上,研究人员发现了一个统一的方程,它是许多经典人工智能算法的基础。他们用这个方程重新构建了流行的方法,并将它们排列成一个表格,根据它学到的近似关系对每种方法进行分类。
就像化学元素周期表最初包含空白方块,后来由科学家填充一样,机器学习的周期表也有空白区域。这些空间预测了算法应该存在的位置,但还没有被发现。
麻省理工学院的研究生Shaden Alshammari说,这个表格为研究人员提供了一个设计新算法的工具包,而不需要从以前的方法中重新发现想法。Shaden Alshammari是一篇关于这个新框架的论文的主要作者。
“这不仅仅是一个比喻,”阿尔沙马里补充道。“我们开始将机器学习视为一个具有结构的系统,这是一个我们可以探索的空间,而不仅仅是猜测我们的方式。”
谷歌AI Perception的研究员约翰·赫尔希(John Hershey)也参与了这篇论文的撰写;麻省理工学院研究生阿克塞尔·费尔德曼(Axel Feldmann);William Freeman, Thomas and Gerd Perkins电气工程和计算机科学教授,计算机科学和人工智能实验室(CSAIL)成员;以及资深作者马克·汉密尔顿,他是麻省理工学院的研究生,也是微软的高级工程经理。这项研究将在国际学习表征会议上发表。
一个偶然方程
研究人员并没有打算创建一个机器学习的周期表。
加入弗里曼实验室后,阿尔沙马里开始研究聚类,这是一种机器学习技术,通过学习将相似的图像组织到附近的聚类中来对图像进行分类。
她意识到她正在研究的聚类算法与另一种称为对比学习的经典机器学习算法相似,并开始深入研究数学。阿尔沙马里发现,这两种完全不同的算法可以用相同的基本方程来重新定义。
“我们几乎是偶然得出这个统一方程的。一旦Shaden发现它连接了两个方法,我们就开始设想将新方法引入这个框架。几乎我们尝试过的每一个都可以添加进去,”汉密尔顿说。
他们创建的框架,信息对比学习(I-Con),展示了如何通过这个统一方程的镜头来看待各种算法。它包括从可以检测垃圾邮件的分类算法到为llm提供动力的深度学习算法的所有内容。
这个方程描述了这种算法如何找到真实数据点之间的联系,然后在内部近似这些联系。
每一种算法的目标都是最小化它所学习的近似连接与训练数据中真实连接之间的偏差量。
他们决定将I-Con组织成一个周期表,根据实际数据集中点的连接方式和算法近似这些连接的主要方式对算法进行分类。
阿尔沙马里说:“这项工作是逐步进行的,但一旦我们确定了这个方程的一般结构,就更容易在我们的框架中添加更多的方法。”
发现的工具
当他们整理桌子时,研究人员开始发现算法可以存在的空白,但还没有发明出来。
研究人员通过借鉴一种被称为对比学习的机器学习技术,并将其应用于图像聚类,填补了一个空白。这就产生了一种新算法,它对未标记图像的分类比另一种最先进的方法好8%。
他们还使用I-Con来展示如何使用为对比学习开发的数据去偏技术来提高聚类算法的准确性。
此外,灵活的元素周期表允许研究人员添加新的行和列来表示其他类型的数据点连接。
汉密尔顿说,最终,有I-Con作为指导,可以帮助机器学习科学家跳出固有思维模式,鼓励他们以他们不一定会想到的方式将想法结合起来。
“我们已经证明,仅仅一个非常优雅的方程,植根于信息科学,就能给你提供跨越100年机器学习研究的丰富算法。这为发现开辟了许多新的途径,”他补充道。
###
生物通 版权所有