顛覆圍棋後,DeepMind還想進軍醫療、遊戲領域

橫掃中日韓頂尖圍棋高手,豪取60連勝,神秘的Master已經亮明身份,它就是AlphaGo。這樣的結果讓人意外也讓人不意外。

之所以說不意外是因為,Master亮明身份前,外界普遍已經猜測它就是AlphaGo。令人意外的是,在短短不到一年的時間裡,比起AlphaGo,Master的表現更加搶眼,進步神速,下棋快準狠。

這樣的改變來自哪裡,與之前的AlphaGo相比,Master又有了哪些新的進步。DeepMind在1月5日回復澎湃新聞(www.thepaper.cn)的郵件時表示:「我們一直在改進AlphaGo,包括算法上的創新、通過左右互搏訓練來學習。我們這次進行這些非正式的快棋比賽,為今年晚些時候的標準時長的正式比賽做準備。其實很多其他的智能圍棋系統也會披著馬甲在網上試水的。我們沒料到會引發這麼大的關注度,但是既然這麼多棋手都表示挺感興趣的,那我們想還是出來承認一下吧。」

在Master宣布自己身份後,DeepMind創始人監CEO德米斯·哈薩比斯(Demis
Hassabis)也在其個人推特帳號上表達了自己的激動心情。這位有著「天才」和「工作狂」之稱的創始人,對於圍棋有著濃厚的興趣,13歲時獲得了國際象棋大師的稱號。1月3日,DeepMind發布的官方博文中透露,除了圍棋,公司還在和英國的當地醫療機構合作,希望提供更好的醫療服務。同時,公司也在考慮挑戰《星際爭霸2》遊戲。

在如此短的時間裡,做出了如此驚人的成績,這家2010年初創於英國倫敦的人工智能公司,究竟有著什麼樣的魔力?

Master強在哪裡?

要知道Master變得有多強,得下從AlphaGo的算法說起。

《經濟學人》曾發文對AlphaGo的算法進行解釋,認為它得意的地方在於用新的方法,試著讓電腦發展出如何下棋的直覺——能自己發現人類選手理解卻無法解釋的原則。它採用深度學習的技術,通過重復地複雜統計,讓電腦從巨大的無用數據中提取出通用的原則。

深度學習需要兩個東西:足夠多的處理單元及足夠多的可供學習的數據。DeepMind用了3000萬棋譜樣本來訓練機器,這些棋譜來自業餘和職業選手聚集下棋的在線服務器。另外AlphaGo還通過和自己對弈,進行微調,從而能快速產生更多的訓練數據。

這些數據需要經過深度學習的兩種算法處理。一是所謂的策略網路,用來訓練模仿人類行為。看過數百萬計的對局後,它已學會提取特徵、原則和經驗法則。它在對局中的工作就是觀察棋盤的狀態,並產生一些看起來更有希望的步數提供給第二個算法考慮。

第二個算法叫做價值網路,用來評估一個步數的致勝概率。機器會根據策略網路的建議,評估數以千計的走法。因為圍棋如此複雜,所以將所有可能的走法都走完是不可能的。作為替代,價值網路會評估數個步數後可能的棋盤狀態,並與它之前見過的例子進行比較。這種想法是找出統計意義上最像過去能夠獲勝的棋形。策略網路和價值網路結合起來構成了人類棋手需要通過幾年實踐才能累積的圍棋智慧。

值得一提的是,韓國棋手李世石在與AlphaGo進行對決時,曾在第四局時贏過一盤。但這次Master直接取得了60連勝。

「目前DeepMind的具體改進還沒公開,但我猜測經過了半年多訓練,數據量提升了不少。另外,針對上回第四盤棋的弱點,可能在訓練方法上也有改進,比如左右互搏,自己和自己下能增加數據量。」 第四方式創始人兼CEO戴文淵告訴澎湃新聞(www.thepaper.cn)。

除此之外,比起AlphaGo,這次Master的下棋時長更短。這也被外界認為是提升之一。但有多位人工智能領域專家告訴澎湃新聞,其實快棋對於人工智能系統來說更有利,因為人在緊張時會犯更多錯誤。

Master這次的表現,讓國內許多頂級的圍棋高手感嘆。世界冠軍古力九段在輸給Master後,在接受澎湃新聞(www.thepaper.cn)採訪時稱:「沒看過它下慢棋,但進步肯定巨大,具體不知道該怎麼衡量。原來覺得圍棋招法有限,現在覺得下棋可以更加自由。」

「從上回的態勢看,其實趨勢上人類已經沒有機會了。機器就像個怪獸,人未來可能可以僥幸戳到死穴贏一兩盤。」戴文淵在回答澎湃新聞關於人機對弈未來的意義時說。

對於DeepMind公司來說,新一年會繼續對圍棋項目進行深入,但在其1月3日發表的博文中,Deepmind稱接下去會做的三件事:做到算法突破,提升社會影響,建立倫理規範。

「其實他們還想做醫療,但醫療的數據獲取成本比圍棋大太多了,完全是另一個問題。另外,實時對戰遊戲會更難,例如星際爭霸,因為複雜度比圍棋還大。」戴文淵說。

Master和AlphaGo背後的團隊

無論是Master還是AlphaGo,它們的成功背後,都離不開DeepMind團隊的努力。在外媒的描述中,創始人之一德米斯·哈薩比斯(Demis Hassabis)謙虛、認真,對自己目前的工作抱有「解決智能問題,隨後利用這一技術去解決所有一切」的態度。

同時也能用天才來形容這位創始人。哈薩比斯,8歲時就編寫了自己的計算機遊戲,13歲時獲得了國際象棋大師的稱號,17歲時開發了首款引入人工智能元素的電子遊戲《主題公園》並大獲成功,20歲時在劍橋大學計算機科學系獲得了兩門學科優等成績,擁有劍橋大學和倫敦大學學院的計算機科學和認知神經科學雙學位。不久後創建了自己的電子遊戲公司Elixir並完成了關於大腦海馬體和情景記憶的前沿性學術研究。
2011年創立DeepMind,而在此之前,他在哈佛大學和麻省理工學院取得博士後。隨後,公司在2014年被Google收購,直到人工智能項目AlphaGo,引發全球關注。

被Google收購後,DeepMind的總部依舊維持在英國倫敦。DeepMind在倫敦大約有140名成員,也是目前英國最有趣的科技公司之一。DeepMind優秀的人才隊伍也可能是Google2014年願意斥資4億英鎊收購的主要原因之一。

相信智能程序將能夠幫助發掘出可以利用於社會福祉的新科學知識。在過去的幾年發展中,他們與Google的數據中心團隊運用了類似AlphaGo這樣的技術發現了管理制冷系統的新方法,使建築節能到達了15%。如果把這些技術應用在其他更大型的工業系統上,就會節省更多的能源開支從而保護生態環境。此外,DeepMind還在英國積極推進了與兩家國家衛生署醫院在深度學習科研方面的戰略合作,去探索如何讓科技更準確地診斷、治療形形色色的疾病;並和另兩家醫院合作研發了用於臨床的移動應用和基礎設施,使病患得到更貼心的醫療護理。

「最終,我們想要將這些技術應用到真實世界的重要問題中。因為我們用的方法是通用的,我們希望有一天,它們能延伸得更廣,幫助解決最緊迫的社會問題,從醫藥診斷到環境模型。」哈薩比斯說。



你可能會想看: