《精准学习》读书笔记
这篇书评可能有关键情节透露
2023 年的第 28 本书。
迄今为止脑科学领域里读过的最好也是最与时俱进的一本书。相比于其他以介绍脑科学发展史、大脑基本结构和功能的科普入门书,本书以“学习”为主线,深入浅出地介绍了人脑的运作机理,并且给出了不少实用性很强的建议。最重要的是,可以将本书对于脑功能的介绍和 Large Language Model 的原理进行有趣地对照,对于 AI 和自己建立更深的理解。
读完之后的一些要点整理。
首先,用脑科学的术语来说,本书的观点更偏“整体论”而不是“还原论”,这在脑科学的科普书里是比较少见的。
几十年以来,还原论者们一直试图去通过各种解剖实验来将大脑拆散,得到一张精细的零部件蓝图。然而,到现在为止,研究人员们甚至无法理解哪怕是仅有302 个神经元的秀丽隐杆线虫 - 尽管他们终于绘制出了这 302 个神经元的连接组图谱,并且识别出了参与觅食、进食和产卵的神经元,但依旧无法理解这些细胞是如何相互作用的。正如美国国立卫生研究院院长弗朗西斯·柯林斯(Francis Collins)说过的:“这就像撬开你笔记本电脑的壳,盯着里面的部件,你可以说这个部件和那个部件是相连的,但你无法知道电脑是怎么工作的。” 按照这种方法,普遍的预期是距离理解果蝇幼虫的脑也许还需要至少几十年的时间,更甭提小鼠甚至是人脑了。
而整体论者认为,神经系统是一个网状结构,神经功能是大量神经元群组的共同作用,系统的整体性质不能仅仅通过理解其部分来解释。相比脑科学研究,个人认为 AI 这几年的发展为整体论提供了更多的支持。
其次,本书最有趣的一个部分是在说明:新生儿的大脑并不是一块白板,早在生命的第一年,他们就已经拥有大量关于物体、数字、概率、空间和人的知识了。换句话说,人脑在出生时就已经是一个调整好超参数、预训练了一半的模型,所有的大型脑回路都已经存在。这个模型是 动物界 - 脊索动物门 - 哺乳纲 - 灵长目 - 人科 - 人属 - 智人种亿万年训练 + 遗传变异的产物,为后天学习建立了良好的基础。
书中举了大量的例子,来证明婴儿出生时的大脑已经处于“半完工”状态,已经具备了相当好的物理直觉、数感、概率直觉以及对自然界的先验知识,他们对违反自然定律的情况表现出惊讶,而对于遵守自然定律的情况无动于衷。例如:
- 计算能力。假设婴儿看见一个物体被藏在了屏幕后面,接着藏了第二个。结果屏幕撤去后只有一个物体,婴儿会对这一预料之外的场景表现出惊奇,并进行长时间的研究。可如果他们看到的是预期中的两件物体,他们只会看一眼就不看了。这种对违反心理运算结果做出的反应被称为“认知惊奇”(cognitive surprise),该反应表明,早在几个月大的时候,婴儿就理解了1+1应该得到2。他们建立了一个对隐藏场景的内部模型,并且知道如何通过增加和减少物体进行操控。这些实验不只用于1+1和2-1,还用在了5+5和10-5中。如果误差足够大,九个月大的婴儿在看到错误结果时会表现出惊讶,即他们能分辨5+5不可能等于5,10-5不可能等于10。数据同样清晰地显示,婴儿的起点绝不是一张白纸。新生儿在生命的前几个小时就已经在感知数量了。而猴子、鸽子、乌鸦、小鸡、鱼,甚至蜥蜴也同样具备这项技能。在对小鸡的实验中,实验者控制了它们所有的感觉输入,确保小鸡破壳后看不到任何物体,但小鸡仍然识别出了数量。
- 概率判断能力。几个月大的婴儿似乎就已经可以根据贝叶斯理论进行推理了。当一个盒子里大部分是黑球时,婴儿会对拿出来一个白球感到惊讶(对数字和概率的直觉)。确实,正如我们所见,他们不仅知道如何从装满彩球的箱子推算出可能的概率(正向推理),还能从观察到的结果倒推出箱子里的球都是什么颜色(反向推理)。在另一个实验中,我们首先给婴儿展示了一个不透明的箱子,里面装的东西是未知的。然后,我们带一个蒙着眼的人进来,这个人从箱子里随机依次拿出一连串的球,其中大多数是红色的。婴儿会推断出箱子里一定装着大量的红球吗?是的!当我们最终打开箱子发现大多数竟然是绿球的时候,他们非常惊讶,注视时间比看到箱子里装了大量红球时更久。他们的逻辑简单严谨:当盒子里装的大多是绿球时,为什么会随机抽出如此多的红球呢?
- 推理能力。美国心理学家徐绯(Fei Xu)通过实验证明,如果11个月大的婴儿先是看到有人从一个容器中取出大量的红球,然后却发现这个容器中装的大多数是绿球,他们当然会惊讶,但同时他们还会做出另一个推断:这个人喜欢红球!如果他们发现取球不是随机的,而是遵循了特定的规律,例如绿球和红球交替出现:绿球、红球、绿球、红球、绿球、红球……这时他们会推测取球的是一个人而非机器。
- 推理能力。在他的实验中,首先给一个10个月大的婴儿看一朵花和一只恐龙,然后将它们藏在屏幕后面。接下来将其中一个物体装进屏幕前的罐子里,而婴儿只能看见其顶部。随后,一只恐龙从屏幕的另一端被拿了出来,且婴儿能够清楚地看到。此时,婴儿就能够做出如下推断:藏在罐子里的不是花就是恐龙,但它不可能是恐龙,因为我刚刚看到恐龙了,所以罐子里的一定是花。如果婴儿看到罐子里装的确实是花时,他不会惊讶,但若看到的是恐龙时,便会非常惊讶。
- 数感。婴儿有抽象的“数感”的最好证据,就是他们对声音与图像的对应反馈:当他们听到“突、突、突、突”4下声音时,比起有12个物体的图片,他们会对有4个物体的匹配图片更感兴趣,反之亦然。
- 面孔识别。婴儿社交技能的最早体现之一就是对面孔的感知。对成人来说,最轻微的提示就足以触发其对面孔的感知:卡通脸、笑脸、面具……值得注意的是,这种对面孔的敏感在婴儿刚出生时就有了:几个小时大的婴儿向笑脸图像转头的速度比向颠倒的笑脸图像转头的速度更快(研究者确定新生儿未曾有机会见过面孔)。有一个研究团队甚至设法透过子宫壁为胎儿呈现出光的图案。令人惊讶的是,像面孔的三个点“∵”比像金字塔的三个点“∴”更吸引胎儿。人脸识别似乎在子宫内便开始了。许多研究者认为,这种被面孔吸引的现象在依恋的早期发展中起着至关重要的作用,尤其考虑到孤独症的最早症状就是避免眼神接触,这一点更加证实了以上假说。我们的眼睛容易被脸吸引,这一先天偏好会迫使我们学习如何识别它们。的确,早在才几个月大时,右脑的视皮层区域对面孔的反应就比对其他图像(比如空间图像)的反应多。脑中针对面孔的专业化发展是先天与后天和谐合作的最好例子之一。在这个领域,婴儿表现出完全的先天技巧(被类似人脸的图片吸引),以及学习感知面孔细节的非凡本能。正是这两个因素的结合,使得不到一岁的婴儿,就可以在人脸和其他灵长类动物的面孔(如猴子和黑猩猩)的比较中,更偏向于人类的面孔。这不只是对一双眼睛和一个嘴巴的天真反应。
- 对生物与非生物的判断。婴儿对无生命物体有一套很好的反应模式,同时,他们还知道另一类完全不同的实体——生命体。从生命的第一年开始,婴儿就了解到动物和人有着特定的行为,他们具有自主性,可以掌控自己的行为。因此,婴儿看到动物自己移动并不会感到惊讶 … 如果婴儿看到非生命的球体以最简单的方法达到目标,即无须跳跃,沿直线朝右移动,他们不会表现出惊讶。但是,如果墙体消失后,球体毫无缘由地继续跳跃时,婴儿就会瞪大眼睛!在没有墙体的情况下,球体的轨迹与第一种情况相同,这让婴儿感到惊讶,因为他们不明白球体怎么会有这么奇怪的意图。
- 意图识别。会在大约10个月大时开始对人的个性进行归类。例如,如果他们看到一个人将孩子扔到地上,他们就会推论这个人是不怀好意的,便会远离他。显然,他们更喜欢帮助孩子站起来的人。早在能说出“刻薄”和“好人”以前,婴儿就能在自己的思维语言中建立这些概念。这样的判断相当微妙,即使是9个月大的婴儿也能分辨出故意伤害他人的人、不小心伤害他人的人、有意拒绝帮助他人的人以及没有机会帮助他人的人。
- 语言识别。婴儿生而具有的并非语言本身,而是获得语言的能力。比起外语,婴儿对母语天生就有偏好。这个特别的偏好暗示了语言学习是从子宫里开始的。事实上,在怀孕的第三个妊娠期(妊娠晚期),胎儿便能听到声音。语言的旋律透过子宫壁传递给胎儿,胎儿开始对它们有了记忆。在孕期的最后几个月,正在成长的胎儿脑已经能够识别某些听觉模式和旋律,这种识别可能是无意识的。在出生时,婴儿就能够区分出世界上所有语言的大部分元音和辅音。他们已经能够将它们感知为不同类别。尽管有些声音,如音节ba、da、ga发出的声音是连续变化的,婴儿仍然将它们视作不同类别的声音并划分了清晰的边界,就像成人一样。生命第一年的语言环境影响了婴儿的这些早期天赋。婴儿迅速地注意到某些声音没有在他们的语言中使用,例如说英语的人从来不会发出法语中的元音u和eu,日语母语者无法分辨R和L的区别。在短短几个月的时间里(对元音来说是6个月,对辅音来说是12个月),婴儿的脑通过其原始假设对音素进行分类,并保留与他们生活环境中的语言相关的音素。
综上,在出生时,婴儿已经拥有了一个关于外部世界的基础模型。如MIT的人工智能与认知科学教授乔希·特南鲍姆所说,婴儿的脑主导着一个游戏引擎,通过在脑海中模拟计算的结果与现实的比较,婴儿很早就知道哪些动作在物理学上是可能的,哪些是不可能的。换句话说,每个婴儿都像是一个刚出道的科学家,他们不断观察和探索,计算后验概率,然后通过贝叶斯过程来更新模型中的先验参数。
当然,上述这个先天的预训练模型有其生理解释的。在语言方面,神经学家发现了一条由数百万条神经纤维组成的大型电缆,并将其称为“弓形束”(arcuate fasciclus),它将位于脑后部的颞叶和顶叶的语言区与位于脑前部的额叶区域(即著名的布罗卡区)相连。这个联结束是语言演化的标记。弓形束在左脑中更大,96%右利手的人都用左脑来加工语言。这一不对称性是人类所特有的,在其他灵长类动物中没有被观察到,甚至在与我们关系最近的黑猩猩中也没有发现。**这种解剖学特征并不是学习的结果,而是从出生就出现了。实际上,当我们检查新生儿的脑联结时,我们不只发现了弓形束,所有联结皮层和皮层下区域的主要纤维束都在出生时就已经存在了。**在大脑皮层的构建过程中,每个兴奋性神经元都会发出轴突以探索周围区域,这些轴突最长会延伸几厘米远,**我们的脑中仿佛存在哥伦布一样。**这个探索是由化学信息所引导的,这些化学信息分子的浓度在不同区域有所不同,并充当空间标记。轴突的头部“嗅”出了基因所建立的化学路径,推测出它必须走的方向。因此,无须任何来自外界的干预,脑就会自动形成纵横交错的网络联结,其中有几种是人类特有的。稍后我们会看到,学习可以进一步完善这个网络,但它的最初结构框架是先天的,在子宫内就已形成。
视觉也是类似,训练过程从子宫里就开始了。即使是在子宫里,神经元的随机动作电位形成的电流也会穿梭于胎儿的视网膜。虽然严格意义上来说,它们不携带任何视觉信息,但在即将到达皮层时,这些电流会协助形成皮层地图。因此,突触可塑性一开始在不需要与外界有任何互动的情况下便是活跃的。只有在第三个妊娠期,先天与后天的分界线才随着发展完善的脑开始适应内外环境,并逐渐变得模糊。即使在出生以后,与感觉输入无关的随机神经元放电形成的电流会继续穿梭于皮层中。慢慢地,这个内源性活动在感觉器官的影响下发展起来。这个过程可以在贝叶斯理论框架中得到准确诠释。原始内源性活动代表了统计学家所称的先验假设:脑的期待,即在其与外界互动前就有的进化假设。之后,这些假设逐渐适应环境信号,在出生几个月之后,自然神经活动便趋同于统计学家所说的后验假设:脑的概率分布变得越发与真实世界的统计数据相符。在脑的发展过程中,随着神经回路从感觉输入中积累数据,它所携带的内部模型会被改善。最终的结果是妥协,即从原始脑结构提供的所有先验假设中选取最佳模型。
第三,既然人的大脑有一个先天的经过 pre-train 的结构,那么后天的作用是什么?作者提出了一个“神经元再利用假说”:后天的学习更像是某种 continued pretrain + fine tune 的过程,在多巴胺的诱导下,人脑不断计算着 prediction 的 loss ,然后反过来更新模型中的参数。
因为**我们的脑回路受到从进化中继承下来的、强大的生理结构的约束,因此,后天的学习和教育就是对这个基础结构的“再利用”(recycling),就如同对材料的再利用一样。**对材料的再利用是有限制的:我们不能用再生纸来造汽车。每种材料都具有使其或多或少适合于其他用途的固有特性。同样,由于分子特性、局部回路和远程联结各不相同,大脑皮层的每个区域从一开始就具有自己的特性,后天学习必须符合这些材料上的局限性。虽然大脑突触具备可塑性,但神经回路依旧有与生俱来的局限性,因此人类发明的每一个新的文化客体,比如字母表或阿拉伯数字,都必须在脑中找到属于它的“神经元生态位” - 一组神经回路,其初始功能与新的文化客体足够相似,但又足够灵活,可以转变为一种新的用途。例如,阅读的学习会与视皮层先前的功能(例如面孔识别)相竞争,随着阅读水平的提高,从完全不识字的人到熟练的读者,书面文字引起的神经活动在左脑增加,而面孔引起的神经活动则被从左脑挤到了右脑。同理,音乐符号的学习似乎是把视觉词形脑区从它通常的位置上挤走了(在音乐家的大脑皮层中,对字母做出反应的脑区比非音乐家的普通人偏移了近一厘米的位置),而数学的学习再利用了大脑中估算相关的神经回路。上述这些挤占之所以会发生,我的理解是因为这些可以彼此替换的脑区在本质原理上是类似的 - 面孔识别 vs 文字识别都是视觉识别类任务,音乐 vs 词型 都是文本类任务,而数学 vs 估算都是推理类任务。这就好比用文本 token 训练的大语言模型只需要做一些 finetune 就可以用来学习编程或某一门外语,而不需要耗费太大的能量来做彻底的重新 pretrain。你很难让负责空间定位的脑区去学习数学类任务。
另外,神经网络和大脑在原理上愈发相似,无论是树突 - 轴突 - 突触的连接结构(对应神经网络中的结构),还是髓鞘化机制+树突棘+赫布定律(共放电的神经连接会得到强化,类似神经网络训练中的反向传播机制),都非常有趣。这里不再赘述。
第四,如何做到精准学习。
本书的主题是“精准学习”,因此,在对先天+后天的大脑作用机制进行一番研究之后,最终还是落脚到如何提升学习效率上。作者认为,良好的学习需要四大支柱的共同支撑,包括:
- 良好的注意力机制 (Attention)。绝大部分的信号是没用的,关注它们只会浪费能量和算力。通过警觉(大量释放血清素、乙酰胆碱和多巴胺等神经递质,“now print”,大幅激发神经元长时间放电,即所谓“长时程增强作用”,甚至提升成人大脑皮层的可塑性)+定向(选择性过滤+放大指定的信号,“聚光灯”,更好地照亮某个脑区,会减少对脑其他区域的照明,将其他区域8—12赫兹的阿尔法频带脑电波替换成慢波,神经活动来抑制相关的神经回路,例如著名的“看不见的大猩猩”实验)+执行控制(前额叶总机的单线程运行),来建立主动或被动接受的注意力机制,选择、放大和传播我们认为有用的信号。良好的注意力机制会将信号在我们记忆中的影响放大 100 倍。
- 主动参与。我们在学习时必须是处于一种积极、投入和用心的状态,否则就会像实验中被动的小猫一样永远失去了视觉能力。这是动机与好奇心的力量,在太简单的感到无聊与对太复杂的望而却步之间,好奇心通过多巴胺机制引导我们去往新的并且在我们理解能力范围之内的地方。需要注意的是,纯粹野生放养的所谓建构主义的“发现教学法”被证明并不成功,这证明了教学指导的重要性。老师必须为学生提供一个能逐步指引他们尽快掌握所有框架的有组织学习环境。最有效的教学策略就是引导学生去主动参与学习进程,同时老师在这一过程中为他们提供精心的指导,给他们设置合适的挑战,并给于必要的鼓励。
- 错误反馈。学习是主动进行的,其效果取决于信息违反我们预期的程度。因此,惊讶是学习的基本驱动力之一,而惊讶之后的反馈质量则决定了监督式学习能否成功。测试/自测的作用至少和课程本身一样重要,间隔学习是学习的黄金法则。惩罚会严重阻碍学生的进步。
- 巩固:对睡觉的需求取决于前一天接收到的刺激量和学习量。睡眠中,脑会用20倍速重演前一天的经历,重新训练大脑皮层,建立自动化(“下意识”)的执行通路,进而释放脑资源。
上面就是本书的主要内容整理。我自己的一些理解,人的学习过程就是对现实世界信息的压缩过程,大脑好像科学家一样,通过贝叶斯机制的反向传播来不断更新大脑中的参数。在更新过程中,为了节省未来的推理能量和开销,尽量采用最小压缩比(奥卡姆剃刀)。这应该就是大脑和学习的本质吧。
真有趣。