AlphaGo技術啟發腦科學 DeepMind成果登上Nature
作者:新浪體育綜合文章來源:足球直播吧發布日期:2020-01-16 15:51:26
DeepMind成果登上Nature
賴可 乾明 十三 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
人工智能,往往從人類思維方式中獲取靈感。
但現在反過來了!
人工智能的進步,已經能夠為揭秘大腦如何學習提供啟發。
這是來自DeepMind的最新研究,剛登上Nature,研究證明:
分布式強化學習,也就是AlphaGo的頂級版Alpha Zero和AlphaStar背后的核心技術,為大腦中的獎賞通路如何工作提供了新解釋。
如此結論,也讓DeepMind創始人哈薩比斯非常激動,發表推文表示:
我們在機器學習方面的研究,能夠重新認識大腦的工作機制,這是非常令人興奮的!
他當然有理由興奮。
從長遠來看,這也證明了DeepMind提出的算法與大腦運作邏輯相似,也就意味著能夠更好地拓展到解決復雜的現實世界問題上。
而且一直以來,哈薩比斯的目標就是打造通用人工智能。
Alpha系列背后利器:分布式強化學習
強化學習,就是讓智能體在一個未知的環境中,采取一些行動,然后收獲回報,并進入下一個狀態。
而時間差分學習(temporal difference learning,TD)算法,可以說是強化學習的中心。
它是一種學習如何根據給定狀態的未來值,來預測價值的方法。
算法會將新的預測和預期進行比較。
如果發現兩者不同,這個“時間差分”就會把舊的預測調整到新的預測中,讓結果變得更加準確。
△當未來不確定時,未來的回報可以表示為一種概率分布。有些可能是好的結果(藍綠色),有些結果可能是不好的(紅色)。
一個特定的行為所帶來的未來獎勵數量,通常是未知且隨機。在這種情況下,標準的TD算法學習去預測的未來回報是平均的。
而分布式強化學習則是更復雜的預測方式,會預測所有未來獎勵的概率分布。
那人類大腦的多巴胺獎賞機制是怎么樣的呢?
然后研究的雛形就在DeepMind研究人員的腦海中生根了。
不研究不知道,一研究真的“嚇一跳”。
過去,人們認為多巴胺神經元的反應,應該都是一樣的。
有點像在一個詩唱班,每個人唱的都是一模一樣的音符。
但研究小組發現,單個多巴胺的神經元似乎有所不同——所呈現的積極性是多樣的。
于是研究人員訓練小鼠執行一項任務,并給予它們大小各異且不可預測的獎勵。
他們從小鼠腹側被蓋區域(Ventral tegmental area,控制多巴胺向邊緣和皮質區域釋放的中腦結構)中發現了“分布式強化學習”的證據。
這些證據表明,獎勵預測是同時并行地由多個未來結果表示的。
這和分布式機器學習的原理也太像了吧?
解釋大腦多巴胺系統
實驗運用了光識別技術來記錄小鼠大腦中腹側被蓋區中單個多巴胺神經元的反應。
腹側被蓋區富含多巴胺與5-羥色胺神經,是兩條主要的多巴胺神經通道的一部分
基于強化學習理論,研究假設大腦存在多巴胺的獎賞預測誤差(RPE)。
一個信號會引起一個獎賞預測,當獎賞預測低于分布的均值時,會引起負的RPE,而較大的獎勵會引起正的RPE。
在一般強化學習中,獲得的獎勵幅度低于平均值分布將引起消極(負)的RPE,而較大的幅度將引出積極(正)的RPE(如上圖a左所示)。
在分布式強化學習中,每個通道都攜帶不同的RPE價值預測,不同通道的積極程度不同。
這些值的預測反過來又為不同的RPE信號提供了參考點。在最后的結果上,一個單一的獎勵結果可以同時激發積極(正)的RPE和消極的RPE(如上圖a右所示)。
記錄結果顯示,小鼠大腦的多巴胺神經元反轉點根據積極程度的不同而不同。符合分布式強化學習的特點(如上圖b所示)。
為了驗證神經元反應多樣性不是隨機的,研究者做了進一步驗證。
將隨機地將數據分成兩半,并在每一半中獨立地估計反轉點。結果發現其中一半的反轉點與另一半的反轉點是相關的。
為了進一步了神經元對獎賞預測的處理方式。研究者給神經元進行了三種不同的信號刺激。
分別是10%、50%、90%的獎賞概率,并同時記錄了四個多巴胺神經元的反應。
每條軌跡都是對三種線索之一的平均反應,零時是開始時間。
結果顯示,一些細胞將50%的線索編碼為90%的線索,而另一些細胞同時將10%的線索編碼為10%的線索。
最后 ,研究者還進行了驗證,試圖從多巴胺細胞的放電率來解碼獎賞分布。
通過進行推理,成功地重建了一個與老鼠參與的任務中獎勵的實際分配相匹配的分配。
初步驗證了小鼠的大腦分布式強化學習機制,給研究員帶來了更多的思考:
是什么電路或細胞級機制導致了不對稱的多樣性?
不同的RPE通道是如何與相應的獎勵預測在解剖學上結合?
這些大腦的謎團都有待于進一步了解。
而且這一研究結果也驗證了之前多巴胺分布對成癮和抑郁等精神障礙機制影響的假說。
有理論認為,抑郁癥和雙相情感障礙都可能涉及關于未來的負面情緒。
這些情緒與未來的負面預測偏差有關,偏差則可能來自于RPE coding28、29中的不對稱。
但更多的意義,則是對當前機器學習技術發展的激勵。
DeepMind 神經科學研究負責人Matt Botvinick說:“當我們能夠證明大腦使用的算法,與我們在人工智能工作中使用的算法類似時,這將增強我們的信心。”
跨學科研究團隊的成果
這篇論文中一共有3位共同一作,也是跨學科團隊的研究成果。
排在第一位的是Will Dabney,DeepMind的高級研究科學家。
△Will Dabney
本科畢業于美國奧克拉荷馬大學,在馬薩諸塞大學阿默斯特分校獲得了博士學位。
在加入DeepMind之前,曾在亞馬遜的Echo團隊工作過。
2016年加入DeepMind。
第二位共同一作是Zeb Kurth-Nelson,他是DeepMind的研究科學家。
△Zeb Kurth-Nelson
博士畢業于明尼蘇達大學,2016年加入DeepMind。
第三位共同一作是Naoshige Uchida,來自于哈佛大學,是分子和細胞生物學教授。
△Naoshige Uchida
此外,DeepMind創始人哈薩比斯也在作者之列。
他一直都希望,能夠通過人工智能的突破也將幫助我們掌握基礎的科學問題。
而現在的研究發現,他們致力的研究方向,竟然能夠給人們研究大腦帶來啟發,無疑堅定了他們的研究信心。
One More Thing
就在這篇論文登上Nature的同時,DeepMind還有另外一篇研究出現了同一期刊上。
它就是DeepMind在2018年12月問世的AlphaFold,一個用人工智能加速科學發現的系統。
僅僅基于蛋白質的基因序列,就能預測蛋白質的3D結構,而且結果比以前的任何模型都要精確。
DeepMind稱,這是自己在科學發現領域的第一個重要里程碑,在生物學的核心挑戰之一上取得了重大進展。
截止到現在,DeepMind提出Alpha系列,從AlphaGo,到AlphaZero,再到AlphaStar,以及現在的AlphaFold,一門4子,全上了Nature。
唉…頂級研究機構的快樂,就是這么樸實無華,且枯燥。