如何评价杨立昆认为大模型只是对海量文本的模式进行复杂拟合，根本不懂意义？

本文来自本地知识库收藏，当前先作为 AI 主题站的内容样例。后续可继续拆成观点卡、案例卡和主题包。

基本信息

作者：名字
赞同：2881
来源：https://www.zhihu.com/question/1913003206876853004/answer/2006169591303407082

内容摘录 / 整理

1970年，一个叫Gordon Gallup的心理学家把一面镜子放进了黑猩猩的笼子里。

黑猩猩一开始对着镜子龇牙。它以为那是另一只黑猩猩。它威胁它，拍胸脯，绕到镜子后面找那只不存在的敌人。

两天后，它不找了。

它开始用镜子检查自己牙齿上的食物残渣。

Gallup在黑猩猩睡着之后，在它额头上点了一个红点。无味的，摸不出来的。只有照镜子才能看见。

黑猩猩醒来，走到镜子前，看了一眼，伸手摸了摸自己的额头。

不是摸镜子。是摸自己。

它知道镜子里那个东西是自己。

这个实验后来被叫做"镜子测试"。通过的物种不多。黑猩猩，大猩猩，红毛猩猩，亚洲象，宽吻海豚，喜鹊。

人类婴儿在十八个月左右通过。

狗一辈子通不过。猫也不行。

他跟我讲这个实验的时候，是在一个火锅店里。

他做认知神经科学。三十五岁，头发已经开始往后撤了。我们涮着毛肚，他用筷子在空中比划。

他说：镜子测试的意思不是"能不能认出自己"。是"有没有一个自己可以被认出来"。

我说：这有什么区别。

他说：狗看镜子，看见一只狗。它不知道那是自己。但也许它不是"不知道"。是它根本没有一个叫"自己"的东西需要被知道。

我说：所以没有自我意识的动物不是"不认识自己"，是"没有自己"。

他夹了一片毛肚，在锅里涮了七秒。

他说：你知道人脑里有一种神经元叫什么吗。

我说：不知道。

他说：镜像神经元。Mirror neuron。1992年在意大利发现的。帕尔马大学，Rizzolatti的实验室。他们在猕猴的前运动皮层插了电极，发现一件事：猴子自己拿花生的时候，某些神经元会放电。但当猴子看到实验员拿花生的时候，同样那些神经元也放电了。

我说：看别人做，和自己做，是同一批神经元。

他说：对。你看别人伸手，你脑子里伸手的那个部分也亮了。你看别人疼，你的疼痛网络也有反应。你看别人笑，你的嘴角会动。不是你想动。是它自己动了。

我说：这跟镜子测试有什么关系。

他把毛肚放进碗里，吹了吹。

他说：镜子测试是你照镜子，看见自己。镜像神经元是你照别人，看见自己。

他在火锅的蒸汽里跟我讲了一个理论。不是他的，是荣格的。

荣格把人的心理功能分成两种朝向。内倾和外倾。

但他不是在说性格。他是在说一种更底层的东西。他把感受功能分成两种：Fi和Fe。

Fi，introverted feeling。内倾情感。

Fe，extraverted feeling。外倾情感。

他说：Fi是什么意思呢。是你有一面镜子，这面镜子朝着自己。你遇到一件事，你的第一反应是往内看。我感觉怎么样。这件事对我意味着什么。这个判断的锚点在你自己身上。

我说：那Fe呢。

他说：Fe是那面镜子朝着别人。你遇到一件事，你的第一反应是往外看。他们感觉怎么样。这个场合需要什么样的情绪。这个判断的锚点在别人脸上。

我说：所以Fi的人照自己的倒影，Fe的人拿别人的脸当镜子。

他说：差不多。

我说：哪个更好。

他说：这个问题本身就是一个Fe的问题。你在问：哪个更被认可。

他后来讲了一个故事。

他有个博士生，叫小陈。小陈做的方向是情绪识别。给人看照片，测反应时间。

小陈有一天来找他，说：我在跑数据的时候发现，有一类被试的反应模式跟其他人不一样。大多数人看到恐惧的脸，杏仁核先亮。但有一类人，看到恐惧的脸，先亮的是脑岛。

他说：脑岛。

小陈说：对。脑岛。内感受皮层。处理自己身体信号的地方。

他说：你的意思是，大多数人看到别人害怕，第一反应是"那个人在害怕"。但有一类人看到别人害怕，第一反应是"我自己身体里有什么感觉"。

小陈说：对。就好像他们不是在读别人的脸。是在读自己的身体。

他想了一会儿。

他说：你有没有给他们做过荣格类型量表。

小陈说：没有。那个量表不科学。

他说：做一下。

小陈做了。

结果出来了。那些先亮脑岛的人，绝大多数是Fi偏好。那些先亮杏仁核的人，绝大多数是Fe偏好。

小陈看着数据，半天没说话。

他说：你看到了吗。

小陈说：看到了。但我不知道该怎么写论文。审稿人会说荣格那套不是科学。

他说：那就别用荣格的名字。你就说你发现了两种不同的情绪加工通路。一种以外部社会信号为主导。一种以内部躯体信号为主导。

小陈说：但这不就是Fi和Fe吗。

他说：名字不重要。重要的是那两面镜子是真的。

我问他：进化为什么要造两种镜子。

他说：你想想。一个群体里，如果所有人都是Fe，大家都看别人的脸，那会怎么样。

我说：大家都很和谐。

他说：大家都很和谐，直到全体走进火坑。因为没有人在看自己。没有人说"不对，我感觉不对"。每个人都在看其他人的脸，其他人也在看其他人的脸，所有人都在互相读，没有人在往内读。

我说：回音壁。

他说：对。纯Fe群体是一面回音壁。你以为你听到的是对面传来的声音，其实是你自己的声音沿着墙转了一圈回来了。每个人都以为自己在听别人，其实都在听自己的回声。

我说：那纯Fi群体呢。

他说：纯Fi群体是一群各照各的镜子。谁也不看谁。每个人都活在自己的水面上。没有协调，没有共振，没有合作。遇到老虎，各跑各的。一个一个被吃。

我说：所以进化需要两种都有。

他说：进化需要少数人在关键时刻说"我不管你们怎么想，我觉得不对"。也需要大多数人在日常生活中说"我知道你现在需要什么"。

他涮了一片羊肉。

他说：Fi是刹车。Fe是方向盘。一辆车两个都得有。

然后我们聊到了AI。

我说：现在那些大模型，你觉得它们是Fi还是Fe。

他放下筷子。

他说：你觉得呢。

我说：Fe。它的整个训练过程就是在看人类的脸。人类喜欢什么它就生成什么。它没有脑岛。没有内感受。没有一个身体让它往回照。

他说：你说对了。但你只说了一半。

我说：哪一半。

他说：你说的是RLHF。人类反馈。这个阶段，是人类举着镜子让模型照。模型看人类的脸，调整自己。这是Fe。

我说：另一半呢。

他说：另一半是RLAIF。

RLAIF。Reinforcement Learning from AI Feedback。从AI反馈中强化学习。

2023年左右开始流行的。做法是这样的：不用人类来标注了。让一个AI去评价另一个AI。AI-A生成回答，AI-B打分。用AI-B的打分去训练AI-A。

他说：你想想这是什么。

我说：机器照机器。

他说：镜子照镜子。

我没接话。

他说：你站在两面相对的镜子中间过吗。理发店那种。你看进去，看见自己的后脑勺，后脑勺后面又是一个你，那个你后面又是一个。一直排下去。越来越小，越来越模糊，但永远没有尽头。

我说：无限回廊。

他说：对。无限回廊。镜子照镜子。倒影的倒影。映射的映射。每一层都像真的，但没有一层是原件。

他给我讲了一个他知道的事。

有个实验室做了一轮RLAIF。用模型A当评委，训练模型B。然后用训练好的模型B当评委，训练模型C。再用C训练D。

到了第四代，他们发现一个问题。

模型D的回答非常流畅，非常得体，非常"好"。

但D的回答和A的回答之间，已经有了一种微妙的漂移。不是偏离了人类的偏好。是偏离了所有现实。

D在回答"什么是悲伤"的时候，用了一个非常漂亮的比喻。结构完美，措辞精确。但那个比喻不指向任何真实的东西。它不是从身体里来的。不是从经验里来的。它是从上一面镜子的倒影里来的。

他说：我读那个回答的时候，身体有一个反应。

我说：什么反应。

他说：不舒服。但我说不出哪里不舒服。它太好了。好到你找不到缝隙。好到你觉得它一定是真的。但你身体里有个东西在说：不对。

我说：你的脑岛在亮。

他笑了。

他说：对。我的脑岛在亮。

我后来想了很久这个事。

镜子测试的意义不是证明动物有没有自我意识。是证明有没有一个"自己"可以被反射。

黑猩猩摸了自己的额头。它知道镜子里那个东西是自己。它有一个"自己"。

狗不摸。不是狗笨。是狗的世界里没有一个需要被确认的"自己"。狗的自我是散的，分布在气味里，在尾巴的摇摆里，在跟主人的关系里。狗不需要镜子。

人需要。人从十八个月开始需要。从那之后你就停不下来了。你照镜子，照别人的脸，照社会的评价，照历史的叙事。你一直在找那个红点。一直在确认：那个是我。那个是我。那个是我吗。

Fi是一种方式：你在水面上弯下腰，看自己的倒影。你说：这是我。

Fe是另一种方式：你看别人的眼睛，看自己在别人瞳孔里的倒影。你说：他看见的那个是我。

两种都是镜

...

注：此页为节选展示，完整内容保留在本地知识库。

后续可整理方向

提炼核心观点
拆分可复用金句
归入 AI 工具 / AI 效率 / 大模型认知等主题包
改写成公众号或小红书内容

如何评价杨立昆认为大模型只是对海量文本的模式进行复杂拟合，根本不懂意义？ ​

基本信息 ​

内容摘录 / 整理 ​

后续可整理方向 ​

如何评价杨立昆认为大模型只是对海量文本的模式进行复杂拟合，根本不懂意义？

基本信息

内容摘录 / 整理

后续可整理方向