Saturday, 27 April 2024

生物方法战胜了逻辑方法

 作者:卫sir

链接:https://zhuanlan.zhihu.com/p/686217224
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

Geoffrey Hinton教授,人称“人工智能教父”、“神经网络之父”。

他最近(2024.2.19)给牛津大学做了一个公开演讲,从哲学角度对AI的未来走向,提出了严肃而重要的思考。

这个演讲37分钟,PPT32页,全文6422个单词,我之前发过全文,有人说太长,希望精简。

Geoffrey Hinton(1947年12月6日~),是英国出生的加拿大计算机学家和心理学家,多伦多大学教授。他是神经网络反向传播算法和对比散度算法的发明人之一。他、约书亚·本希奥、杨立昆一同被授予了2018年的图灵奖。

所以我略微整理了一下,以下是他在本次演讲中所传达的主要观点。

1、看来,生物方法战胜了逻辑方法

逻辑方法(又称符号方法)认为智能的本质是符号和规则;生物方法(即神经网络方法)则大不相同,它认为智能的关键是神经元之间的强度。

Hinton在演讲中说:

2012年,我的两位学生Ilya Sutskever(后来成了OpenAI首席科学家)和Alex Krizhevsky,在我一点帮助下,展示了可以通过这种方式(反向传播)制作一个非常好的神经网络,在有一百万张训练图片时,可以识别一千种不同类型的对象。伊利亚很有远见,他知道这个神经网络会在ImageNet竞赛中获胜。他是对的,他们赢得相当炸裂,他们的神经网络只有16%的错误率,而最好的传统计算机视觉系统错误率超过了25%。
然后,科学界发生了非常奇怪的事情。通常在科学界中,如果有两个竞争的学派,当你取得一点进展时,另一个学派会说你的成果是垃圾。但在这个案例中,由于差距足够大,使得(符号学派)最好的研究者Jitendra Malik和Andrew Zisserman转换了研究方向来做这个,Andrew Zisserman还给我发送邮件说“这太神奇了”。

Hinton认为,在AI方面,生物方法显然占了优势。

2、大型神经网络可以无师自通地学会语言

符号学派认为他们在语言处理方面应该很出色,他们认为,神经网络是无法处理语言问题的,很多语言学家也持这样的态度。

然而,事实表明,大型神经网络仅仅通过学习大量的文本,就能无师自通掌握了语言的语法和语义!统计学家和认知科学家认为这完全是疯狂的。

Hinton说,乔姆斯基(Noam Chomsky)曾说语言是天赋而非习得的,这很荒谬,他曾经做出了惊人的贡献,但他的时代已经过去了。

3、大模型完全有理解力

关于人是怎么理解事物的,有两种理论。一种理论(符号方法)认为,一个词的意义在于它与其他词的关系;另一种理论(心理学方法)认为,一个词的意义是一大堆特征组成的,比如“狗”有一大堆特征,它有生命、它是哺乳动物、它捕食等等。

大模型很好结合了以上两种理论:它学习每个单词的特征,并学习单词的特征如何相互作用。在推理时,大模型分析文本,列出文本中每个单词的特征,并计算所有特征之间的交互(通过注意力算法),从而预测下一个单词的特征。

Hinton举了一个小例子,来说明其工作原理。

在符号方法中,回答“詹姆斯的妻子是谁”这种问题时,人工智能是这么做的:它看到科林有父亲詹姆斯,科林有母亲维多利亚,它用规则推断出,詹姆斯有妻子维多利亚。(前提大家都是正经人)

而在大模型中,它学到“詹姆斯”有一堆特征,“妻子”有一堆特征,推理时,它让这些特征相互作用,得出了“詹姆斯”的“妻子”应该有的特征,然后发现“维多利亚“最匹配这些特征,那么“维多利亚”就是”詹姆斯“的”妻子”。(虽然可能认错了人)

Hinton坚定地认为,在大模型中,数百万个特征以及特征之间数十亿次的交互,就是理解!

大模型当然也是一种模型,只不过是一种人类以前从没见过的巨大的模型,它如此巨大,大到能够包容人类拥有的所有知识。



Geoffrey Hinton

4、大模型是人类认识自己的最好方法

大模型是了解人类如何理解语言的最佳模型,大脑就是在给单词分配特征,并让特征交互。

神经网络模型就是为了模拟人类理解而设计的一个模型。

大模型正如大脑那样工作,大模型正如大脑那样理解。

5、大模型的幻觉不是问题,人也会胡说

心理学家从来不说大模型有幻觉,因为心理学家知道人类也经常编造东西。

任何研究过记忆的人都知道,对人类而言,真实记忆与虚假记忆之间并没有明确的界限。

Hinton说,“如果某件事是最近发生的,并且它与你理解的事情相符,你可能会大致正确地记住它。如果某件事是很久以前发生的,或者是比较奇怪的事,你会记得不正确,而且你经常会非常自信地认为你记得正确,但你错了。”

6、超级智能不需要太久就会出现

Hinton说:“我一直以为我们离超级智能还有很长很长的路要走,我过去常告诉人们可能需要50到100年,甚至可能是30到100年,我们现在不需要担心它。”

“但是,由于我在之前两年所从事的工作,我突然开始相信我们现在拥有的数字模型已经非常接近于大脑的水平,并且将变得比大脑更好。”

为什么GPT4比人类知识更丰富?它不是由一个模型实现的,而是由不同硬件上运行的大量相同模型的副本实现的,一千个副本都去互联网上查看不同的内容并学习东西,然后,通过平均梯度或平均权重,每个代理都掌握了其他代理学到的东西,这种沟通比人类要强太多了。GPT-4的权重只有人类大脑权重的2%左右,但却拥有比人类多上千倍的知识。

数字计算的缺点是需要大量能量,但我们可以通过进化硬件,使大模型的能量消耗降低。

Hinton认为,“很明显,在未来的20年内,有50%的概率,数字计算会比我们更聪明,很可能在未来的一百年内,它会比我们聪明得多。”

“很少有例子表明更聪明的事物被不太聪明的事物所控制。”

7、超级智能有若干种方法将我们消灭

当我们迎来工业革命时,我们拥有强有力的机器,体力劳动的工作岗位消失了。

现在在智力领域,有些工作也将会消失,取而代之的是比我们聪明得多的东西。

Hinton认为,人工智能会产生致命的自主武器,它们将非常可怕,而且真的会自主运行。

他说,“人工智能有若干种方式将我们消灭“,”任何打算关闭它们的人都会被超级智能说服。”

“有些人认为我们可以使这些东西(人工智能)变得善良,但如果它们相互竞争,我认为它们会开始像黑猩猩一样行事。我不确定你能否让它们保持善良,如果它们变得非常聪明并且有了自我保护的意识,它们可能会认为自己比我们更重要。”

Monday, 15 April 2024

对「AI 味」反感不止于审美疲惫,它还藏着我们对其隐喻的抵触。

 去年年底以来,更多人 感受到了 AI 对生活的「入侵」 —— 我们开始在地铁、电梯间和商店看到了 AI 生成的广告图像。

之所以称之为「入侵」,那是因为这些图像不仅具有浓浓的「AI 味」,其中不合常理之处也未经修正,让不少人大呼「阴间」。

这种广告,简直就是在花钱广而告之人们不要相信这个品牌 —— 连广告都那么随便,那产品如何值得信任?

然而,很多广告公司似乎坚信 AI 是未来。

让消费者反感的「AI 味」没有削减广告公司对 AI 兴趣,反倒激起了一轮「去 AI 味」的工作流创新。

当我们在「去 AI 味」的时候,我们在去什么?

图片来自:小红书@rataalada、@摸头姐姐

在正处于 AI 发展洪流中的当下,「AI 味」注定是一个将不断被重新定义的词语。

现在,「AI 味」在图像中大多指的是某种特定「既高清,又模糊」 —— 光亮平滑,缺乏真实细节。

作为人类,我们的眼睛会被不完美的细节吸引。

所以当我们看到现在这些(AI 生成的)图像……我就觉得挺反感,老实说。

工业设计师 Ti Chang 说道。

正因如此,如何找到那些可以「让假变真」的「不完美」细节,成为了「去 AI 味」一大重点。

你也许开始可以先用 AI 提示词来做生成,但之后你一定要去调整,有时候甚至需要用 Photoshop 这类传统工具来让它更好。

视觉艺术家和设计师 Vaunn Yevo 分享道。

在做商单的时候,Yevo 会先用 AI 来生成图像,然后用 PS 去增加人像的「不完美」,如人脸上的毛孔、细纹、或者微小的毛发。

Yevo 也曾经试过想用 AI 提示词直接给图像增加这些「不完美」,但出来的效果并不理想:「有时候如果你让 AI 模型去添加雀斑,出来的效果会让整片皮肤都很怪。」

左图为 Yevo 的标志性风格,右图为尽量模仿其风格生成的照片。右图也彰显了想用 AI 来生成自然人像的困难:混乱的手指固然致命,非常夸张的雀斑也很不自然

毫无悬念,当有人找到了可以「让假变真」的规律,就会有人开始基于此开始做 AI 工具。

2023 年年底,名为「Magnific」的工具开始外网火了起来。

这个被称为「AI 生图精修师」的工具,可以为 AI 生成图像增加更多细节,并支持不同生成模式,在发布一个多月就吸引了 40 万注册用户。

右图为 Magnific 修图后效果

全球著名广告公司 McCann Worldgroup 现在也在开始尝试在工作流中加入 Magnific 这类工具。

在 McCann Worldgroup 为文化组织 Black & Abroad 做的图中,原本模糊的 AI 生成图,经由细节调整后有了很大改善(右图)。

对比可见,第二个不仅在人像添加了更多皮肤、头发细节,背景场景和人物手上的饮料都进行了调整。

与此同时,McCann Worldgroup 还在尝试另一种「以 AI 治 AI」的方法 —— 多模型 + 人工混合模式。

去年在为墨西哥食品公司 Bimbo 设计数字广告时,McCann Worldgroup 就用一个模型来生成图像的前景,然后再用另一个模型来生成图像中的汉堡和热狗,再用另一个模型来生成背景,至于海报字体部分,直接开用人工设计。

这是一个和技术以及技术专家来回往复的对话过程,但我们会有一套统一但不断进化的创意构想,其中也会包含很多层次。

McCann Worldgroup 全球 AI 创意负责人兼加拿大首席创意总监 Ian Mackenzie 解释说。

正如前文提及,我们这个时期对「AI 味」会有一种特定的风格定义。

今年超级碗上的一则广告就因为风格太过「AI 味」而遭吐槽,但这些摄影作品的确是人类摄影师拍摄的

这也意味着,只要跳出了那种风格,人们就不会觉得那「AI 味」有那么浓,即便那其实也是 AI 生成的图像。

数字营销公司 Media.Monks 今年就组了一队特别的艺术创作者:动画师、色彩专家、导演、摄影师等,特别之处在于他们不仅懂得 AI 图像生成技术,更是能够做出独特的视觉美学。

在这支团队协作下,Media.Monks 对 AI 提示词进行了非常精细化的设计,更充分地表达出想要艺术风格的色彩、灯光、饱和度、摄影角度和景深等等,最终生成出和一般「AI 味」相当不同的风格化图像。

制作公司 Tool 和广告公司奥美则直接打造了自己专门的设计系统,可以将服务品牌的过往物料用作素材,给系统转录出特定的参数,最后做出和品牌美学相符的生成图像。

奥美的首席转型官 Antonis Kocheilas 表示,这套方法下,AI 生成出「六个手指」这类情况会减少,但依旧无法完全避免。

我不认为生成「假人」是当下必须的。

Tool 制作总裁 Dustin Callif 说道。在他看来,用 AI 来生成超现实和更具幻想性质的图像会更合适。

Tool 做的 AI 生成图主题更超现实

「AI 味」为何不受待见?

我们对「AI 味」的厌恶,有时候不仅来自于风格审美上的疲惫,它也带着我们对背后隐喻的抵触。

有位读者曾写信给《连线》分享了一个有趣的故事:

我有一位艺术家朋友给我送了一幅 AI 生成的画作作为礼物。

我能看出她尝试将概念更个人化,装裱得也很精美,但我还是觉得自己被骗了。

在回信中,《连线》肯定了这位读者的感受,并指出模型生成的图像既「不要求任何金钱上的牺牲」,也不「需要任何真正的创意上的投入,除了写提示词以外」,它「缺乏你朋友创意头脑的独特印记」。

大白话来说,就是「没诚意」和「不真心」。

这种对「AI 味」的反感,甚至并不限于图像。

Y Combinator 联合创始人 Paul Graham 就曾在 X 上发帖吐槽,自己收到了一份「AI 味」过浓的邮件:邮件里单词「delve(钻研)」一词出现了很多次,而这也是 AI 语言模型很常用的词语。

在这帖子下,AI 公司 Akto 创始人 Ankita Gupta 也表示自己深有共鸣,她也开始看到那些「标志性 ChatGPT 词汇」就转头走人:

这些词语本身没有问题,但它们让人类语言变得更机械化了。

显然,这种情绪存在时间也不短了。毕竟,现在 GPT store 上写作类工具推荐里就有不少「Humanizer」,也就是让 AI 生成文字看起更不像 AI 文字的工具。

更夸张的是,现在甚至已经有公司将「100% 不用大语言模型」作为卖点来宣传。

这也算是一种终极的「去 AI 味」方法。

回到 AI 图像领域,「AI 味」让我们产生的反感还来自于它夺走了一种特别的情感 —— 敬畏感。

因为 AI 实在太「无所不能」,现在当我们看到一张从前会让你发出「大自然/世界真是太神奇了」的照片时,我们脑海里第一句冒出来的话却变成了 —— 「这是 AI 生成的吧」。

摄影师 Aytek Çetin 的作品现在常被怀疑是 AI 生成的图像

在这之前,社交媒体和短视频都已经将我们的「刺激阈值」拉得巨高,而 AI 影像技术则几乎快要把我们的头脑注满,让大部分事物都变得廉价和无聊。

然而,我们需要感受到惊喜和敬畏。

这是其中一种让我们之所以为人的根本感受。「Big Think」作者 Kevin Dickinson 在一篇从心理学角度探讨「敬畏感」的文章中解释:

(敬畏感)是一种过程 —— 人们在遇到新的体验或信息时,对自己的想法和信念开始进行重新评估。

换言之,当我们感受到敬畏感,人们会开始质疑其世界观并且有可能会走向改变。

自然的力量,或者人类成就的美好,这些事物会减少我们以自我为中心的影响,要求我们去重新审视我们对世界的理解以及我们在其中的位置。

这让人感到失落。

但我们并非未曾感受过这种失落。

Photoshop 和其他修图软件的普及,让「有图有真相」一说变得过时。

随着数字图像处理技术发展,人们开始恐慌,认为摄影已死。但那并不是真的。

媒介一直以来都有「被操控」,通常被用来制造复杂的「欺骗」。

研究艺术史和视觉文化的 Derek Conrad Murray 评论说。

随着 AI 技术的发展,「AI 味」会不断改变,很可能将变得越来越微妙和难以识别。

对于在这个全新的,充满不确定性的互联网世界中,《连线》作者 Jason Parham 的建议挺实在:

让我们拥抱被扭曲,接受生活在图像充满了欺骗性的无常中。

我们要保持勤勉,因为未来是一个持续理解和「去理解」,崩塌和重建的游乐场。

本文来自微信公众号“APPSO”(ID:appsolution),作者:方嘉文,36氪经授权发布。