神經系統中充滿了隨機性。這通常被認為是一種需要被降低的噪聲:例如 大腦中的計時器:HVC 和 Synfire Chain 模型 中提到的共火鏈模型,其最大的優勢就是降低從一組神經元到另一組神經元信息傳遞的時間誤差。
那麼大腦有沒有利用這種隨機性呢?與傳統的看法相反,在斑胸草雀(Zebra finch)和秀麗隱杆線蟲(C. elegans)的神經系統中都發現了神經迴路主動產生的隨機性[2,3,4,5]。
1. 鑲嵌皮層外側鉅細胞核(LMAN)向運動皮層注入隨機性以探索不同歌聲。
斑胸草雀用於學習唱歌的腦回路示意圖。RA, robust nucleus of the arcopallium,一個作用類似於哺乳動物運動皮層的神經核,直接控制運動輸出;在成年草雀腦中 HVC 對 RA 的刺激性輸入占主導地位,而在處於學習階段的幼年草雀腦中 LMAN 對 RA 的刺激性輸入占主導地位(見下文)。
小鳥是如何學會唱歌的呢?強化學習(Reinforcement learning, RL)理論認為大腦採用的策略是:嘗試各種不同的歌聲,聽起來好聽的就繼續唱,不好聽的就不再重複 *。這一策略要求在開始學習時主動探索各種不同的聲音。這就像學習踢足球:如果你是一個新手,射門時你會有時把球踢進門,常常把球踢飛——而你在練習中逐漸學會的就是讓球落在你想讓它落在的地方。
這一理論就要求神經系統主動探索運動空間,或者説嘗試產生從未產生過的運動控制信號。
LMAN 的活動向控制唱歌的運動皮層區域 RA 傳送的正是這一“探索”信號:當 LMAN 活動被抑制時,幼鳥練習唱歌時的隨機性也隨之消失了(如下圖)。
圖自 Fig 1B, [4].
更重要的是,損傷 LMAN 不僅導致幼鳥丟失練習唱歌時的隨機性,也使其無法成功學習唱歌——這一主動產生的隨機性是學習唱歌所必需的。
感謝評論區 @Jacob MBDLevi 指出“學習需要隨機嘗試與精確控制的兩種功能在學習過程中合適的時間開啟。” 這是強化學習一個很重要的特徵:如果隨機數產生器持續向運動系統注入大量的隨機探索,那麼系統將永遠也無法彙集到正確的動作上。這就要求 LMAN 對運動皮層的影響隨着草雀年齡的增長(唱歌越來越熟練)逐漸降低,而把“控制權”交給精確的 HVC。
這恰恰是人們所發現的[6]:抑制成年鳥的 HVC,相當於關閉精確控制的功能,會使得他唱的歌像幼鳥練習一般隨機;不僅如此,相對應的運動皮層的活動也是一樣隨機。在幼年時抑制 LMAN 則獲得相反的結果。這就揭示了隨着年齡的增長,LMAN 對運動皮層的影響力逐漸減弱,HVC 則取而代之,從而實現精確的運動控制。
2. 秀麗隱杆線蟲對氣味信息主動產生隨機反應。
(這裏是一個類似的故事,產生隨機性的是秀麗隱杆線蟲中四個神經元構成的網絡。遲點有空再寫)
* 在這裏“好聽”約等於“和記憶中的模板一樣”,模板通常來自於記憶中父親的歌。
** LMAN, lateral magnocellular nucleus of the nidopallium 鑲嵌皮層外側鉅細胞核……名字並不重要。谷歌翻譯的(如果有更好的譯名請指出……)
[1] Diesmann, M., Gewaltig, M. O., & Aertsen, A. (1999). Stable propagation of synchronous spiking in cortical neural networks. Nature, 402(6761), 529–533.
[2] Kao, M. H., Doupe, A. J., & Brainard, M. S. (2005). Contributions of an avian basal ganglia-forebrain circuit to real-time modulation of song. Nature, 433(7026), 638–643.
[3] Ölveczky, B. P., Andalman, A. S., & Fee, M. S. (2005). Vocal experimentation in the juvenile songbird requires a basal ganglia circuit. PLoS Biology, 3(5), 0902–0909.
[4] Goldberg, J. H., & Fee, M. S. (2011). Vocal babbling in songbirds requires the basal ganglia-recipient motor thalamus but not the basal ganglia. Journal of Neurophysiology, 105(6), 2729–2739.
[5] Gordus, A., Pokala, N., Levy, S., Flavell, S. W., & Bargmann, C. I. (2015). Feedback from network states generates variability in a probabilistic olfactory circuit. Cell, 161(2), 215–227.
[6] Ölveczky, B. P., Otchy, T. M., Goldberg, J. H., Aronov, D., & Fee, M. S. (2011). Changes in the neural control of a complex motor sequence during learning. Journal of Neurophysiology, 106(1), 386–397.