在反轉學習任務中,小鼠的頭部被固定,面前有一個伸舌頭就可以碰到的出水口,它們通過胡須感受靠近的砂紙,不同粗糙程度的砂紙分別代表著舔/不舔的信號,只有在正確的信號下舔出水口,小鼠才能得到液體獎勵。當小鼠學會這一任務后,研究人員將不同砂紙代表的信號反轉,直至小鼠學會新的任務為止。
摘自原文Fig1,左圖為行為學實驗的設置,右圖顯示小鼠隨著訓練任務進行而展現的學習情況,可以看出正確率(綠)隨著訓練的進行不斷提高,規則反轉后正確率瞬間降低,隨著繼續學習又提高到高水平。錯誤率(紅,未考慮遺漏掉正確信號的情況)則相反。
研究人員發現,用化學遺傳學方法抑制S1(S1處理來自胡須的觸覺信息)的神經元后,小鼠將不能習得Z初的任務。而抑制外側OFC的神經元,則會阻礙小鼠習得反轉后的新規則(rule switch)。不過抑制外側OFC并不影響小鼠學會Z初的任務,也不影響小鼠將別的刺激(第三種砂紙)與獎勵聯系起來。
摘自原文Fig1,用病毒注射法向小鼠OFC或S1注射含有抑制型通道hM4Di的病毒,通過每天注射CNO抑制特定腦區的神經元活動。左圖顯示,抑制S1后小鼠無法習得Z初的任務。中圖顯示,規則反轉后抑制外側OFC,小鼠無法習得反轉后的新規則。右圖顯示,抑制外側OFC并不影響小鼠Z初的學習,以及對新刺激的學習。
研究人員接下來用在體雙光子鈣成像觀察記錄了表達有GCaMP6f的小鼠皮層2/3層神經元的鈣信號。下圖左側顯示了外側OFC單個神經元的活動情況,左上為成功得到獎勵的情況,左下為正確判斷沒有獎勵的情況??梢钥闯鲈撋窠浽幕顒又饕性讵剟罱o予階段(R,reward),小鼠在學會任務后(LE),神經元的活動有一定上升。而規則反轉后,當小鼠獲得意料外的獎勵時(RN,原規則下無法得到獎勵,但小鼠在新規則下獲得了獎勵),神經元活動顯著上升,而當小鼠學會新規則后(RE)神經元活動降低。外側OFC神經元的整體活動也與此一致,即展現出了規則反轉后神經元活動的顯著上升。
對S1神經元的觀測則展現了不同的特點。想對于外側OFC的神經元,S1神經元的活動更多位于刺激階段(S,stimulus),且面對有獎賞刺激和無獎賞刺激均有反應。從S1神經元的整體活動來看,無論是初始學習還是規則反轉后的學習,在小鼠學會任務后(LE和RE),S1神經元在面對有獎賞刺激時的活動都顯著更高(在學會任務之前則是無差異的)。
上述結果提示,外側OFC的神經元對獎勵結果有著較強的響應,而S1的神經元則更多的響應感受到的刺激,并且會隨著小鼠的學習,對導向獎勵的刺激表現出更強的響應。研究人員接下來利用記錄到的整個訓練周期中神經元的活動情況,比較每個神經元在規則反轉前后面對不同刺激(正確判斷情況下的有獎勵刺激-hit和無獎勵刺激-CR)的響應程度,計算了每個神經元的不同情況下的選擇系數(selectivity index,細節見Methods,大致就是神經元活動在面對有無獎勵的刺激下的差異程度)。通過比較不同學習階段小鼠神經元的選擇系數,可以判斷神經元究竟是對獎勵結果還是刺激本身具有選擇性。研究人員發現外側OFC的神經元始終表現出較高的結果選擇性(即始終有高的選擇系數,神經元響應有獎勵的刺激);S1的神經元有很大一部分一開始表現出刺激選擇性(即規則反轉后,神經元的選擇系數也反轉,響應原規則下帶來獎勵的刺激),當小鼠學會反轉的規則后,S1神經元又變得偏向于結果選擇。
小鼠決策行為的靈活性就體現在對反轉規則的重新學習上,重新學習過程也帶來了S1神經元活性的重新映射(即選擇性改變)。通過向小鼠的S1注射表達熒光蛋白的逆行AAV病毒,研究人員驗證了外側OFC到S1的神經投射。用化學遺傳學方法抑制外側OFC的神經元后,S1的神經元的選擇性不再改變。下圖為小鼠不同神經元在獎勵給予階段活動情況的選擇系數分布圖。作為對照的S1(中)神經元的選擇系數有明顯的重新排布特征,即選擇系數由正到負(表示規則反轉后,神經元依然對原規則下的獎勵刺激起響應),經過重新學習后選擇系數又變回正(神經元對新規則下的獎勵刺激其響應),而抑制OFC后的S1神經元(下)則沒有此特點。
綜合來看,研究人員通過上述一系列實驗和分析,表明了外側OFC對S1的指導在小鼠的靈活決策中發揮著重要作用。初次習得任務時,S1的部分神經元表現出了對帶來獎勵的刺激的選擇性,規則改變后,外側OFC神經元對S1的投射傳達了指導信號,驅動了S1神經元對刺激的重新映射(remapping),使得小鼠可以靈活的改變其決策行為。