Friday, 24 May 2024

从玻尔兹曼机到多模态大模型:Geoffrey Hinton的最新AI洞见

 Joel Hellermark:是什么让这些大语言模型能够学习各种不同领域的知识?

Geoffrey Hinton:这些大语言模型所做的是寻找共同的结构,通过发现共同结构,它们可以用更有效的方式对事物进行编码。让我给你一个例子,如果你问GPT-4"为什么堆肥堆和原子弹类似",大多数人都无法回答,他们认为堆肥堆和原子弹是完全不同的事物。但GPT-4会告诉你,虽然能量和时间尺度不同,但它们都涉及链式反应,当堆肥堆越热就会发热越快,当原子弹产生的中子越多,产生的中子就越快,所以它们其实都是链式反应的形式。

我相信GPT-4已经理解了这一点,并将这种理解压缩到了它的权重参数中。如果它真的这样做了,那么对于成百上千种我们还没有发现的类比,它也会这样做,这就是创造力的来源,即看到表面上完全不同的事物之间的相似之处。所以我认为,随着模型越来越大,GPT-4 将变得非常有创造力。认为它只是在重复它所学到的知识,拼凑已有的文本是完全错误的,事实上它将比人类更具创造力。

Joel Hellermark:你认为它不仅能重复目前人类开发的知识,还能超越这些知识,走向更高层次。我认为这是我们目前还未完全看到的。你认为是什么将使它能够超越当前水平?

Geoffrey Hinton:在一些有限的领域里,我们已经看到了这一点。比如在著名的与人类职业棋手李世石的对抗赛中,第37手时AlphaGo下出了一步棋,所有专家当时都认为那是一步错棋,但后来他们意识到那实际上是一招妙棋。所以在这个有限领域内,它已经展现出了创造力。我认为随着这些系统变得越来越大,我们将看到更多这样的例子。

Joel Hellermark:AlphaGo最初是通过模仿学习,观察人类下棋来学习的,然后通过自我对弈,它的表现远远超出了模仿学习的水平。你认为这是目前缺失的关键部分吗?也就是自我对抗性的学习?

Geoffrey Hinton:这可能确实是目前缺失的一个重要部分。但我不认为这是完全必需的。

很久以前我做过一个小实验,训练一个神经网络识别手写数字,这是最经典的例子。在训练数据中,我将一半的答案设置为错误的。问题是,在有一半错误标记的情况下,它能学到多好?而且我保持了这些错误标记,并没有在不同的样本中给出正确答案,让它有机会通过平均来抵消错误。也就是说,对于某些样本,无论如何都会给出错误的标记。所以训练数据有50%的错误,但如果你用反向传播训练,它最终的错误率能降到5%以下。换句话说,即使有错误标记的数据,它也能获得比训练数据更好的结果。它可以识别出训练数据是错误的。

这就像一个聪明的学生可能比他的导师更聪明一样。导师告诉他们很多东西,但对于其中一半,学生会想"这太荒谬了",然后只听从另一半建议。最终,学生比导师更聪明。这些大型神经网络也能做到比它们的训练数据更出色的表现,但大多数人并没有意识到这一点。