日报标题:我们如何学会各种技能? Mon1st,Hard-core electrophysiologist 我们是如何学会各种技能的呢?一种可能是通过强化学习 (reinforcement learning)。本文介绍两个支持这一理论的实验。 1. 运动学习的动物模型 打球,弹琴,说话。这些都是需要运动系统(从大脑中各区的神经元,到身体上的各种肌肉)精密控制的行为。我们不是天生就会这些复杂的动作,而是经过多年练习才能学会的。虽然对很多人来说这些技能感觉上并不是十分困难,但是事实上,运动控制一直是人工智能中最为难解的问题之一 *。那么我们的运动系统是如何学会各种技能的呢? 为了研究运动学习的神经基础,科学家注意到不仅是人类,许多动物的行为,例如鸣禽的歌声,也不是天生就会的: 如上图所示,当幼年的斑胸草雀刚刚开始练习唱歌时(第一行),他的歌声毫无规律可言,并且完全不像他父亲的歌声(最后一行)。与之相反,成年草雀的歌声既有规律,又和父亲的歌很相像(第三行和第四行)。这些特征使得鸣禽成为了研究动物技能学习的最佳模型(手动划掉之一)。 2. 强化学习 (reinforcement learning) 在运动学习的理论中,一种理论认为我们在一开始先尝试各种不同的动作:比如打网球时,尽管新手想要把球发到外角,落点都会在不同的地方。在不断练习的过程中,每当一个动作达到了目的(球成功落到外角),那个动作就会得到强化;而那些糟糕的动作(比如打飞出场)就会被放弃。 这一理论被称为强化学习。虽然简单,但它的应用十分广泛。例如,谷歌的 DQN 就是一个基于强化学习的深度网络。 (《自然》518 期,2015 年 2 月 26 日的封面:人工智能自学实现电脑游戏中人类级别的控制。) 那么动物是否也使用了类似的算法呢?在动物的学习过程中,是否也有探索 - 强化的过程? 3. CAF = 有条件的听觉反馈 (conditional auditory feedback) Tumer 和 Brainard 发明了一个极聪明的方法来测试鸣禽是否采用强化学习 [1]。 在成年鸣禽 ** 唱歌时,尽管已经非常熟练,每次唱歌都有极为相似的句法 (syntax) 和音节特征 (acoustic feature),仍有细微的随机性:如下图,每次唱音节 a 时,a 的音高 (pitch) 会有微小的不同。 图 1a,同一首歌三次不同的表现 (rendition),第一行到第三行音节 a 的音高逐渐降低。 图 1c,音节 a 在不同频率的概率分布图。 作者利用这一变化性 (variability),有选择地篡改 (distort) 一部分音节:在音节 a 的基本频率(下面用音调表示。二者不完全相同)高于或低于一个阙值时,即时播放一个白噪音: 图 1b,左边 a 的音调低于阙值(上面图 1c 的红色虚线),右边 a 的音调高于阙值,从而被白噪音覆盖了。这一试验方法被称为有条件的听觉反馈 (conditional auditory feedback, CAF):只有在表现出的音节特征符合一定条件(音调高 / 低于一定阙值)时,才会进行听觉反馈(白噪声),来干涉鸟对自己歌声的判断。 他们发现,在经历了一段时间的 CAF 之后,音节 a 的音调降低了: 图 1d,灰色是三天前 a 音调的分布,红色是进行 CAF 三天后。 图 2a,每一个点代表一个音高,可以看到始终是变化的,但在 CAF 开始后音调分布迅速升高到了阙值之上。(这是另一只鸟的数据,CAF 的标准是篡改音调低于阙值的音节。) 由此可见,鸟通过改变音调来避免了白噪音。这符合强化学习的理论:减少导致白噪音的动作(阙值以上 / 下的音调),增加不导致白噪音的音调。 4. 随机数产生器 LMAN 向运动皮层提供选择性偏差以避免错误 (如果不熟悉 LMAN 是什么请先点上面的链接阅读对 LMAN 的简单介绍) Andalman 和 Fee 重复了这一实验,并且揭示了 CAF 中鸣禽的神经系统是如何学习以避免白噪声的 [2]。 上图 1A 中黑色箭头 (HVC->RA->nXIIts) 被称为发声运动通路 (vocal motor pathway, VMP),蓝色箭头 (LMAN->X->DLM->LMAN) 则被称为前脑通路 (anterior forebrain pathway, AFP)。VMP 类似于哺乳动物中运动皮层 -> 运动神经核 -> 运动细胞的连接,而 AFP 的连接模式(皮层 -> 基底核 -> 下丘脑 -> 皮层)同样是进化中高度保守的。 图 1B 展示了 CAF:第一行是鸟唱的两个音节,第二行绿色线是音调分布(和上面的图 1a[1] 一样),第三行是播放噪音是鸟听到的两个音节。 与前面的实验不同的是,本实验中增加了对 LMAN 神经元活动的抑制: 这是一个微透析探针 (microdialysis probe),内含药剂,可以在需要时注入大脑来实现药理学控制。本实验中作者使用的是 TTX(河豚毒素,钙离子通道阻断剂,阻止神经元的放电活动)。 作者在草雀已经经过 CAF 改变了音调分布后在 LMAN 注入 TTX。结果如上图:灰色部分是在 CAF 开始后音调逐渐降低(高于阙值的音节都被噪音篡改了);当 LMAN 被抑制时(红色部分),音调分布又回到了 CAF 开始前的水平! 这就意味着 LMAN 不仅给运动系统注入随机性,同时还承担着提供偏差(bias)的任务:当较高音调的音节由于 CAF 被认为是糟糕的时候,LMAN 通过改变其注入的随机性,使得运动系统的输出向低音调偏移。这就使得草雀得以避免高音调的音节。 本文还发现 LMAN 引起的偏差在一天内就被巩固到了 VMP 中: 红色点是每隔一天的下午进行 LMAN 抑制所获得的音调,和前一天的音调大致相同——这意味着 LMAN 提供的偏差在一天内就得到了巩固:如果没有得到巩固的话,当 LMAN 被抑制时音调应该会回到最开始的水平。 (这里是一个总结两篇文章重要性的段落。但是我该去睡觉了。再见!) * 运动控制最前沿的成果之一就是波士顿动力的各种机器人。如果你看过他们的视频就可以知道,1 相对于其他机器人他们的确很厉害 2 他们的机器人绝对没法像费德勒一样打网球。 ** Tumer & Brainard 用的是孟加拉雀,Andalman & Fee 用的是斑胸草雀。 [1] Tumer, E. C., & Brainard, M. S. (2007). Performance variability enables adaptive plasticity of “crystallized” adult birdsong. Nature, 450(7173), 1240–4. [2] Andalman, A. S., & Fee, M. S. (2009). A basal ganglia-forebrain circuit in the songbird biases motor output to avoid vocal errors. Proceedings of the National Academy of Sciences of the United States of America, 106(30), 12518–12523. 阅读原文