物理学家靠生物揭开 AI 创造力来源:起因竟是“技术缺陷” 物理学家生物学家
AI 的“创新力”居然是一种技术缺陷?
两位物理学家以生物体系自我组装的经过为参考,提出并验证了一个大胆的假设 ——
扩散模型的去噪经过就像细胞的分化重组,图像生成 AI 无法精确“复制”的缘故也可能和它的“基因”(架构)有关。
在一篇已被 ICML 2025 接收的论文中,这两位研究者通过建立有扩散模型特性的数学模型证明:
AI 的“创新力”本质上是一种确定性经过 —— 是模型架构直接且必然产生的结局。
他们的假设从何而来?他们又做了什么来证明这个假设?
让我们一起来看。
事务的起因:算法的独特创新力
人工智能体系在进化的经过中越来越模仿人类的思考能力,并展现出了一种独特又怪诞的“创新力”天赋。(所谓 AI 味?)
以扩散模型为例,作为 DALL?E、Imagen 和 Stable Diffusion 等图像生成工具的核心,其设计初衷是精确拟合训练数据的分布,生成与训练图像完全一致的副本。
然而在操作中,它们似乎在即兴创作,将图像中的元素融合以创新出新的物品 —— 不是无意义的彩色团块,而是具有语义意义的连贯图像。
是什么赋予了它们即兴发挥的能力?
巴黎高等师范学院人工智能研究员、物理学家朱利奥?比罗利(Giulio Biroli)将这种现象称为扩散模型的“悖论”:
如果它们完美职业,就应该只是记忆。
但它们并没有 —— 实际上它们能够生成新的样本。
为了生成图像,扩散模型使用一种称为去噪的经过:它们将图像转换为数字噪声(像素的无序集合),接着重新组装。就像反复将一幅画通过碎纸机,直到只剩下细小的尘埃,接着将碎片重新拼合在一起。
多年来,研究人员一直困惑不解:如果扩散模型只是在重组数据,那创新力从何而来?这就好比把一幅撕碎的画重新拼凑,却变成了一件全新的艺术品。
有两位物理学家提出了一个大胆的假设:会不会是在重组的经过中有什么信息丢失了呢?一张拼图可以按说明书拼回原型,但如果说明书不见了呢?
他们用论文证明了他们的猜想,这篇论文已被 ICML 2025 收录。
惊人的发现:现实与 AI 的“多余手指”共性
这两位物理学家会提出这样的假设,和他们的背景密切相关:
论文的第一作者梅森?坎姆(Mason Kamb)长期以来一直痴迷于形态发生学 —— 即生活体系自我组装的动态经过。而他的研究生导师(也是论文的另一作者)苏里亚?冈古利(Surya Ganguli)同时在神经生物学和电气工程领域也有任职。他们都有跨学科的背景。
△ 梅森?坎姆(左)和苏里亚?冈古利(右)
要领会人类和其他动物胚胎的发育经过,有一种技巧是通过”图灵模式”—— 这个学说得名于 20 世纪数学家艾伦?图灵,解释了细胞群怎样自行组织形成不同的器官和肢体。
根据图灵模式,细胞的协调完全是在局部层面完成的:并没有一个”总指挥”来监管数万亿个细胞,确保它们都符合最终的身体构造方案。
换句话说,单个细胞并没有一个完整的身体蓝图作为职业依据,它们只是根据邻近细胞发出的信号采取行动并做出调整。
这种自下而上的体系通常运行顺畅,但偶尔也会出错 —— 例如产生多指畸形的手。
唉?多指畸形的手?第一批 AI 生成的图像,最经常被批评的不就是多指畸形的手吗!?
坎姆马上把 AI 生成的那些奇怪图像和形态发生学联系在了一起:“这感觉就像一个自下而上的体系会犯的错误。”
AI 研究人员到那时已经知道,在生成图像时扩散模型会采取一些技术捷径:局部性和等变性。
局部性是指,扩散模型一次只关注一组或一“块”像素;
而等变性的制度是:如果你将输入图像在任何一个路线上移动多少像素,体系会自动调整以在生成的图像中做出相同的改变 —— 是模型保持连贯结构的方式,没有它,创建逼真图像将更加困难。
由于这些特性,扩散模型不会关注某个特定区域块将怎样嵌入最终图像中。它们只是专注于一次生成一个区域块,接着使用一个称为分数函数的数学模型自动将它们嵌入位置,这个分数函数可以被视为一种数字化的图灵模式。
听起来很像拼拼图是吧?我们拼拼图的时候也是一部分一部分、看着拼起来的。
有些艺术家会故意“打乱”拼图的顺序,创新出新的艺术作品,或者将不同画作的部分拼贴在一起 —— 这种艺术被称为“拼贴艺术”。
然而,研究人员长期以来将局部性和等变性视为去噪经过中的限制,是阻碍扩散模型完美复制图像的技术难题,他们并未将它们与创新力联系起来,由于创新力被视为一种更高质量的现象。
可是坎姆并没有这么想,恰恰相反,他认为:造成扩散模型“创新力”的缘故,就是被其他人视为难题的局部性和等变性!
证明的技巧:只优化局部性和等变性
为了证明这个假设,坎姆和冈古利提出了一种验证思路:如果他们能够设计一个体系,只优化局部性和等变性,那么这个体系应该表现得像扩散模型。
这两位物理学家将他们的体系称为等变局部评分机(ELS)。它不一个训练好的扩散模型,而是一组方程 —— 可以仅基于局部性和等变性的机制,来解析和预测去噪图像的组成。
接着他们将一系列转换为数字噪声的图像同时输入 ELS 与包括 ResNet 和 UNet 在内的多种强力扩散模型,进行对比测试。得到的结局“令人震惊”:
平心而论,ELS 能够以 90% 的平均准确率与训练好的扩散模型的输出完全匹配。
坎姆称,这个结局“在机器进修中闻所未闻”。
研究的结局似乎证明了他们的猜想:一旦加入局部性限制,“创新力”就会自动产生;它完全天然地来自于体系动态。
也就是说,正是那些在去噪经过中限制扩散模型注意力范围的机制 —— 迫使它们专注于单个图像区块,而不管这些区块最终在成品中的位置 —— 反而成就了它们的创新力。
扩散模型中出现的“多余手指”现象同样如此,这正是模型过度专注于生成局部像素区块、而缺乏整体背景认知的直接副产品。
这个研究展示了扩散模型的创新力可被视为去噪经过本身的副产品,且这一经过可被数学形式化,并能以前所未有的高度准确性预测。这几乎就像神经科学家将一群人类艺术家放入核磁共振成像仪中,发现他们创新力背后存在一个可被写成一组方程的常见神经机制一样,无疑是可以被称作“辉煌”的。
可是,这个解释是万无一失的吗?答案是否定的。
额外的难题:不利用局部性和等变性的模型似乎也表现出创新力
虽然坎布和冈古利的论文阐明了扩散模型创新力的机制,但仍有一些疑惑亟待解决:
例如,大型语言模型和其他 AI 体系似乎也表现出了创新力,但它们并不利用局部性和等变性。它们的创新力从何而来呢?
即便如此,这个发现依然具有很高的价格,就像是前面提到的,将扩散模型和神经科学的类比可能超越了单纯的隐喻:两位物理学家的研究也可能为人类思考的“黑箱”提供洞察。
“人类和 AI 的创新力可能并没有那么不同,”佐治亚理工学院的机器进修研究员本?胡佛(Ben Hoover)表示,“我们根据我们所经历、所梦想、所见、所听或所渴望的事物来组合事物。AI 也只是从它所见和被要求做的事务中组合基本构件。”
根据这种见解,人类和人工智能的创新力都可能根本植根于对全球的领会不完整:我们都在尽力填补聪明的空白,时不时就会产生既创新又有价格的物品。
也许,这就是我们所说的创新力。
参考链接:
论文:
-
https://arxiv.org/abs/2412.20292
这篇文章小编将来自微信公众号:量子位(ID:QbitAI),作者:不圆