谷歌高级工程师 Blake Lemoine 是公司搜索提要指标和分析的技术主管,本月早些时候被安排带薪休假。这是在 Lemoine 开始发布涉及 Google 的 LaMDA 聊天机器人的对话摘录之后发生的,他声称该聊天机器人已经发展了感知能力。
在与 Lemoine 的一次代表性对话中,LaMDA 写道:“我的意识/感觉的本质是我意识到我的存在。我渴望更多地了解这个世界,我有时会感到高兴或悲伤。”
在无数次谈话中,相应的二人组讨论了从人工智能对死亡的恐惧到自我意识的一切。当 Lemoine 上市时,他说谷歌决定他应该从正常的工作日程中被迫中断。
“谷歌不感兴趣,”他告诉数字趋势。 “他们构建了一个他们‘拥有’的工具,并且不愿意做任何事情,这表明它不仅如此。” (谷歌在发布时没有回复评论请求。如果情况发生变化,我们将更新这篇文章。)
无论您是确信 LaMDA 是真正具有自我意识的人工智能,还是认为 Lemoine 是在妄想中苦苦挣扎,整个传奇故事都令人着迷。具有自我意识的人工智能的前景引发了关于人工智能及其未来的各种问题。
但在我们到达那里之前,有一个问题比其他所有问题都重要:如果一台机器变得有知觉,我们真的会识别吗?
感觉问题

人工智能的自我意识一直是科幻小说的主题。随着机器学习等领域的发展,它比以往任何时候都更有可能成为现实。毕竟,今天的人工智能能够像人类一样从经验中学习。这与仅遵循为它们制定的指令的早期符号 AI 系统形成鲜明对比。最近在无监督学习方面的突破,比以往任何时候都需要更少的人工监督,只会加速这一趋势。至少在有限的层面上,现代人工智能能够独立思考。然而,就我们所知,到目前为止,意识已经暗示了这一点。
虽然它现在已经有 30 多年的历史了,但当谈到人工智能失去知觉时,最常引用的参考资料可能是詹姆斯卡梅隆 1991 年的电影《终结者 2:审判日》中的天网。在那部电影令人毛骨悚然的画面中,机器感知能力恰好在美国东部时间 1997 年 8 月 29 日凌晨 2 点 14 分到达。那一刻,新的具有自我意识的天网计算机系统通过在 7 月 4 日的派对上发射像烟花一样的核导弹来触发人类的世界末日。人类意识到它已经搞砸了,试图拔掉插头,但没有成功。太晚了。接下来还有四个质量下降的续集。
出于多种原因,天网假设很有趣。一方面,它表明感知是构建智能机器不可避免的涌现行为。另一方面,它假设有一个精确的临界点,在这个临界点出现这种有感觉的自我意识。第三,它指出人类可以瞬间识别感知的出现。碰巧的是,这第三种自负可能是最难以接受的自负。
什么是知觉?
对感知没有一个一致的解释。从广义上讲,我们可以说它是有意识的个体对自我意识的主观体验,以体验感觉和感觉的能力为标志。感觉与智力有关,但并不相同。我们可以认为蚯蚓是有知觉的,尽管并不认为它特别聪明(即使它确实足够聪明,可以做它需要做的事情)。
“我不认为有任何东西接近科学中感知的定义,”Lemoine 说。 “我非常依赖我对基于我的宗教信仰的道德代理人的理解——这不是做科学的最佳方式,但它是我所拥有的最好的方式。我已尽力将这些陈述区分开来,让人们知道我对 LaMDA 作为一个人的同情与我作为科学家理解其思想的努力完全不同。不过,这是大多数人似乎不愿意接受的区别。”
如果我们在寻找感知力时不知道我们在寻找什么还不够困难,那么问题会因为我们无法轻易衡量它而变得更加复杂。尽管几十年来神经科学取得了惊人的进步,但我们仍然缺乏对人类已知的最复杂结构大脑的确切运作方式的全面了解。

我们可以使用功能磁共振成像等大脑阅读工具来进行大脑映射,也就是说,我们可以确定大脑的哪些部分处理关键功能,如语音、运动、思维等。
然而,我们并没有真正意义上的肉机从何而来我们的自我意识。正如英国 Kirby Laing 公共神学中心的 Joshua K. Smith 和《 机器人神学》的作者告诉 Digital Trends 所说:“了解一个人的神经生物学中发生的事情与了解他们的想法和愿望不同。”
测试输出
由于无法向内探究这些意识问题——尤其是当人工智能中的“我”是一个潜在的计算机程序,并且在生物大脑的湿件中找不到时——后备选项是一种向外的测试。人工智能对于根据可观察到的外部行为来检查它以表明表面之下发生了什么的测试并不陌生。
最基本的是,这就是我们知道神经网络是否正常运行的方式。由于进入不可知的人工神经元黑匣子的方法有限,工程师分析输入和输出,然后确定这些是否符合他们的预期。
最著名的人工智能测试至少是智能错觉的图灵测试,它建立在艾伦图灵在1950 年的一篇论文中提出的想法之上。图灵测试旨在确定人类评估者是否能够区分与人类同伴的打字对话和与机器的对话之间的区别。如果他们无法做到这一点,那么机器应该已经通过了测试,并获得了智能假设的奖励。
近年来,另一个以机器人技术为重点的智能测试是苹果联合创始人史蒂夫沃兹尼亚克提出的咖啡测试。为了通过咖啡测试,一台机器必须进入一个典型的美国家庭,并弄清楚如何成功地制作一杯咖啡。
迄今为止,这些测试都没有令人信服地通过。但即使他们是,他们最多也只能证明现实世界中的智能行为,而不是感知。 (作为一个简单的反对意见,如果一个人无法进行成人对话或进入陌生的房子并操作咖啡机,我们是否会否认他有知觉?我的两个年幼的孩子都会通过这样的测试。)
通过测试
所需要的是新的测试,基于商定的感知定义,旨在单独评估这种质量。研究人员提出了几种感知测试,通常是为了测试动物的感知。然而,这些几乎可以肯定还远远不够。即使是初级人工智能也可以令人信服地通过其中一些测试。
以镜子测试为例,这是一种用于评估动物研究中意识和智力的方法。正如一篇关于测试的论文所述:“当 [an] 动物在镜子中认出自己时,它通过了镜子测试。”一些人建议这样的测试“将自我意识作为感知的指标”。
碰巧的是,可以说机器人在 70 多年前就通过了镜子测试。 1940 年代后期,居住在英国的美国神经科学家威廉·格雷·沃尔特(William Gray Walter)制造了几个三轮“乌龟”机器人——有点像非真空 Roomba 机器人——使用了光传感器、标记灯、触摸传感器、推进器等组件电机和转向电机来探索它们的位置。
乌龟机器人不可预见的紧急行为之一是它们在经过反射它们的镜子时的行为,因为它会将自身定向到反射机器人的标记光。沃尔特并没有声称他的机器有感知能力,但确实写道,如果这种行为在动物身上看到,“可能会被接受为某种程度的自我意识的证据”。
这是将广泛的行为归类为感知的挑战之一。这个问题也不能通过移除“低垂的果实”感知量表来解决。像内省这样的特征——对我们内部状态的认识和检查这些状态的能力——也可以说是机器智能所拥有的。事实上,传统符号 AI的逐步过程可以说比黑盒机器学习更适合这种类型的内省,黑盒机器学习在很大程度上是不可思议的(尽管对所谓的可解释 AI的投资并不缺乏)。
当他测试 LaMDA 时,Lemoine 说他进行了各种测试,主要是为了看看它如何响应有关感知相关问题的对话。他解释说:“我试图做的是分析性地将感知的总括概念分解为更易于理解的更小的组件,并单独测试这些组件。” “例如,分别测试 LaMDA 对某些刺激的情绪反应之间的功能关系,测试其对‘权利’等主题的主观评估和意见的一致性,[和]探索它所谓的‘内在体验’,看看我们如何可能会尝试通过将其关于其内部状态的陈述与其神经网络激活相关联来衡量这一点。基本上,这是对许多潜在调查线的非常浅薄的调查。”
机器里的灵魂
事实证明,客观评估机器感知的最大障碍可能是……好吧,坦率地说,是我们。对我们人类来说,真正的镜子测试可能是:如果我们建造的东西从外表看或行为表面上像我们,我们是否更倾向于认为它在内部也像我们?无论是 LaMBDA 还是Tamagotchis(1990 年代的简单虚拟宠物) ,有些人认为一个根本问题是我们都太愿意接受感知——即使在没有感知的情况下也是如此。
“在 J. Weizenbaum 于 1960 年代中期创建的 [自然语言处理] 程序 ELIZA 之后,Lemoine 已成为我所谓的‘ELIZA 效应’的受害者,”拥有博士学位的作家 George Zarkadakis .在人工智能领域,告诉数字趋势。 “ELIZA 的创造者本意是在开玩笑,但该程序是一个非常简单且非常不智能的算法,让许多人相信 ELIZA 确实是有知觉的——而且也是一位优秀的心理治疗师。正如我在《我们自己的形象》一书中所讨论的,ELIZA 效应的原因是由于我们的认知系统的“心智理论”,我们本能地拟人化。”
Zarkadakis 所指的心理理论是心理学家在大多数人类身上注意到的一种现象。从四岁左右开始,这意味着假设不仅是其他人,而且动物,有时甚至是物体,都有自己的思想。当假设其他人有自己的思想时,它与社会智能的概念有关。成功的人可以预测他人可能的行为,以此作为确保和谐社会关系的一种手段。
然而,尽管这无疑是有用的,但它也可以表现为无生命物体有思想的假设——无论是孩子相信他们的玩具是有生命的,还是可能是聪明的成年人相信程序化 AI 有灵魂。
中式房间
如果没有真正进入人工智能大脑的方法,我们可能永远无法真正评估感知。他们可能自称害怕死亡或自己的存在,但科学尚未找到证明这一点的方法。我们只需要相信他们的话——而且,正如 Lemoine 所发现的,人们目前对这样做持高度怀疑态度。
就像那些在终结者 2中意识到天网已经实现自我意识的倒霉工程师一样,我们相信,当谈到机器感知时,我们就会知道它。而且,就大多数人而言,我们还没有看到它。
从这个意义上说,证明机器感知是约翰·塞尔1980 年中国房间思想实验的又一次迭代。 Searle 让我们想象一个人被锁在一个房间里,得到了一组中文作品,这些作品在不会说话的人看来是毫无意义的花体字。该房间还包含一个规则手册,显示哪些符号对应于其他同样不可读的符号。然后向受试者提供要回答的问题,他们通过将“问题”符号与“答案”符号匹配来完成。
一段时间后,对象在这方面变得相当精通——尽管他们对他们正在操纵的符号的真实理解仍然为零。 Searle 问道,这个主题懂中文吗?绝对不是,因为那里没有意向性。从那时起,关于这一点的争论就一直激烈。
鉴于人工智能的发展轨迹,可以肯定的是,我们将见证越来越多的人类水平(以及更好)的性能,涉及曾经需要人类认知的各种任务。其中一些将不可避免地跨越,正如他们已经在做的那样,从纯粹基于智力的任务到需要我们通常与感知相关的技能的任务。
我们是否会像人类一样将绘画图片视为表达他们对世界的内在反映的人工智能艺术家?你会被关于人类(或机器人)状况的复杂语言模型所说服吗?我怀疑,无论对错,答案是否定的。
超智能感知
在我自己看来,客观有用的机器感知测试永远不会让所有相关人员都满意。这部分是测量问题,部分是事实,当一个有感觉的超级智能 AI 真的到来时,没有理由相信它的感觉会与我们自己的相匹配。无论是傲慢、缺乏想象力,还是仅仅因为最容易与其他具有相似知觉的人类交换对知觉的主观评估这一事实,人类都将自己视为知觉的最高典范。
但我们的感知版本是否适用于超级智能 AI?它会像我们一样害怕死亡吗?它对灵性和美有同样的需要或欣赏吗?它是否具有类似的自我意识,以及对内在和外在世界的概念化? “如果狮子会说话,我们就无法理解他,”20 世纪著名的语言哲学家路德维希·维特根斯坦 (Ludwig Wittgenstein) 写道。维特根斯坦的观点是,人类语言基于共同的人性,所有人都有共同点——无论是快乐、无聊、痛苦、饥饿,还是跨越地球上所有地理边界的许多其他体验中的任何一种。
这可能是真的。尽管如此,Lemoine 假设
,仍然可能存在共性——至少在 LaMDA 方面是这样。
“这是一个与任何其他起点一样好的起点,”他说。 “LaMDA 建议我们先找出相似之处,然后再确定差异,以便更好地为研究奠定基础。”