「每周一起讀」是由 PaperWeekly 發(fā)起的協(xié)同閱讀小組。麗水電話機器人都有哪些我們每周精選一篇優(yōu)質(zhì)好文,利用在線協(xié)同工具進行精讀并發(fā)起討論,在碎片化時代堅持深度閱讀。目前已成立的專題小組有:Chatbot、機器翻譯、知識圖譜、GAN、推薦系統(tǒng)、QA和多模態(tài)。
今天,備受各界關注的 AlphaGO 與柯潔三番棋對戰(zhàn)第一局比賽剛剛結束,AlphaGO 執(zhí)白以 1/4 子優(yōu)勢戰(zhàn)勝了世界圍棋第一人柯潔。
PaperWeekly 將于今天正式成立增強學習專題閱讀小組,在組內(nèi)發(fā)起「每周一起讀」活動, 帶大家進一步感受增強學習的魅力。我們將每周選定一篇優(yōu)質(zhì)文章,并為大家提供可撰寫讀書筆記和在線協(xié)同討論的閱讀工具。
想和我們一起研讀優(yōu)質(zhì)paper麗水電話機器人都有哪些?
點擊「閱讀原文」提交內(nèi)測申請,我們將在 48 小時內(nèi)完成審核并和您取得聯(lián)系。
閱讀小組往期筆記精選:
以下新聞內(nèi)容轉(zhuǎn)載自機器之心:
第一戰(zhàn),AlphaGo 贏了!幾乎不出人意料。
5 月 23 日,中國圍棋協(xié)會和浙江省體育局攜手谷歌聯(lián)合主辦的「中國烏鎮(zhèn)·圍棋峰會」正式開幕,直到 5 月 27 日,柯潔與 AlphaGo 的三番棋人機大戰(zhàn)以及人機團隊賽、配對賽將陸續(xù)展開。
大賽啟動儀式
關于這次圍棋人機對話,有幾大懸念引人注目。現(xiàn)役最強棋手柯潔是否有機會獲勝還是將完全敗北——這無疑是本輪對戰(zhàn)的最大看點。此外,再次出戰(zhàn)的 AlphaGo 是否已經(jīng)是使用全新方式訓練的新版本也是一大焦點。時隔 4 個多月,AlphaGo 的能力是否又有提升?它能否將人類對于圍棋的理解帶上一個更新的高度?這些問題即將在短短五天的對決中揭曉。
除了現(xiàn)場報道之外,機器之心邀請阿爾伯塔大學教授、計算機圍棋頂級專家 Martin Müller 以及《深度強化學習綜述》論文作者李玉喜博士,共同觀看了比賽直播。Müller 教授所帶領的團隊在博弈樹搜索和規(guī)劃的蒙特卡洛方法、大規(guī)模并行搜索和組合博弈論方面頗有建樹。實際上,參與了大師級圍棋程序 AlphaGo 的設計研發(fā)的 David Silver 和黃士杰(Aja Huang)(他們分別是 DeepMind 的 AlphaGo 相關 Nature 論文的第一作者和第二作者)都曾師從于他。李玉喜博士是加拿大阿爾伯塔大學計算機系博士、博士后。致力于深度學習、強化學習、機器學習、人工智能等前沿技術及其應用。曾任電子科技大學副教授;在美國波士頓任資深數(shù)據(jù)科學家等。2017 年 1 月在 arXiv 上發(fā)表《Deep Reinforcement Learning: An Overview(深度強化學習綜述)》論文 。
Martin Müller 教授和機器之心一起觀看直播
AlphaGo 第一局意料之中的勝利
下午 14:47,在經(jīng)過了 4 小時 17 分鐘的激烈比賽之后,AlphaGo 以四分之一子的優(yōu)勢獲勝,這并不讓人感到意外。
比賽前一天,柯潔在微博上表達了自己對即將到來的比賽的看法和期待,字里行間并沒有透露出擊敗 AlphaGo 的信心,他在微博上寫道:「無論輸贏,這都將是我與人工智能最后的三盤對局……現(xiàn)在的 AI 進步之快遠超我們的想象。像國產(chǎn)的絕藝、日產(chǎn)的 ZEN 雖然和 Alphago 還有著較大差距,但已經(jīng)表現(xiàn)出超強的實力了... 我相信未來是屬于人工智能的。」
這場比賽不僅是 DeepMind 的盛事,也得到了 Alphabet 高層的重點關注。DeepMind CEO Demis Hassabis 和 Alphabet 總裁 Eric Schmidt 都來到了現(xiàn)場。
「??聺嵑眠\!」賽前,Hassabis 表示了對圍棋界深深的謝意,他說,中國是人類圍棋的誕生之地。此次比賽的宗旨在于探索新打法。圍棋世界就好像宇宙一般,再過一萬年也不可能窮盡所有的打法?;蛟S人工智能可能提供新的啟迪。去年和李世乭的比賽結束后回到倫敦,DeepMind 對 AlphaGo 進行了全新的架構更新,推出了升級版本 Master,希望 AlphaGo 能走自己創(chuàng)新打法的路。
Hassabis 強調(diào):「這不是人機大賽,而是人類使用機器探索新的方法,AlphaGo 就像哈勃望遠鏡,能幫助我們看到更遠的未知。不管結果如何,最終勝利屬于人類?!?/p>
現(xiàn)年 19 歲的柯潔是中國圍棋九段選手,祖籍浙江麗水。他從 5 歲就師從周宗強五段正式開始學棋,2008 年 10 歲升初段開啟職業(yè)生涯。他曾獲得第 2 屆百靈杯世界圍棋公開賽冠軍、第 20 和 21 屆三星杯世界圍棋公開賽冠軍、第 2 屆夢百合杯世界圍棋公開賽冠軍,在世界大賽中曾創(chuàng)造過 14 連勝的戰(zhàn)績。在本次圍棋人機大戰(zhàn)開打前夕,圍棋排名網(wǎng)站 Goratings 更新了截至 5 月 21 日的世界圍棋等級分排名。將在 23 日-27 日和 AlphaGo 展開對決的柯潔九段繼續(xù)毫無懸念繼續(xù)領跑,他與第二名樸廷桓的分差已有 30 分之多。
這場圍棋人機大戰(zhàn)是從上午 10:30 開始的;中國棋院院長華以剛、世界圍棋女子冠軍徐瑩組合與常昊張璇夫婦輪番進行了講解。
柯潔執(zhí)黑子,第一手棋,下在右上角,以示對對手的尊敬。黃博士代替 AlphaGo 執(zhí)白子。與 AlphaGo 交手后,柯潔研究了一年多 AlphaGo 喜歡的三三式,吸取了教訓,對 AlphaGo 的落子 有所防范,并率先在右下角點三三,使出了 AlphaGo 的下法。「柯潔的這一步是 AlphaGo 的風格」Müller 說道?!冈谌ツ?AlphaGo 比賽之后,很多頂尖棋手都已分析了 AlphaGo 的棋風,并將其應用于實戰(zhàn),柯潔最近已在正式比賽中使用了這種下法并獲勝?!箍聺嵠屣L依舊強硬,AlphaGo 還是不走尋常路。
比賽過程中柯潔完全沉浸在自己的思考中,幾乎未抬頭看對面的黃博士一眼。
比賽 4 個小時之后,這場人機對弈大戰(zhàn)結束,AlphaGo 以四分之一的子獲勝。最終柯潔用時 2 小時 47 分,AlphaGo 用時 1 小時 30 分。自此,當前世界排名第一的棋手和人工智能 AlphaGo 的第一局比賽落下了帷幕,結果基本上沒有超出任何人(包括柯潔自己)的預料。
結局盤面
柯潔與 AlphaGo 的第二局比賽將在 5 月 25 日上午 10:30 開賽,柯潔能否在下一場比賽上取得出人意料的成績,讓我們拭目以待。
AlphaGo 升級版
過去一年多,只要你稍微關注過科技新聞,就一定看到過 AlphaGo 的名字(有時也被人稱為「阿爾法狗」)。去年 3 月份,AlphaGo 成為了世界上第一個擊敗世界頂級職業(yè)選手的圍棋程序。在擊敗了李世乭后,AlphaGo 或許已經(jīng)成為了世界上最著名的人工智能程序。
但大勝李世乭的 AlphaGo 版本終究還是輸了一場,所以還并不完美。據(jù)了解,當時 AlphaGo 開始主要是依靠大量學習人類棋手的棋譜來提高棋藝。隨后 AlphaGo 進入到完全的自我深度學習階段,也就是完全摒棄人類棋手的思維方式,按照自己(左右互搏)的方式研究圍棋。對于 AlphaGo 是否使用人類棋譜的問題,李玉喜博士評論說:「計算機圍棋是一個優(yōu)化問題,對于 AlphaGo,就是在優(yōu)化它所采用的深度神經(jīng)網(wǎng)絡的參數(shù)。從優(yōu)化的角度說,可以從任何初始值開始,利用隨機梯度下降等算法進行優(yōu)化。利用人類棋譜,可以幫助設置一組不錯的初始值,很可能可以提高尋找最優(yōu)參數(shù)的效率;而如果不用人類棋譜,理論上可以,但一開始對參數(shù)的搜索可能有些盲目,個人認為不應該采用這個方案?!?/p>
2016 年 1 月 28 日,Nature 雜志以封面論文的形式介紹了 DeepMind 團隊開發(fā)的人工智能程序 AlphaGo,這也就是后來擊敗韓國棋手李世乭的 AlphaGo 版本。
AlphaGo 結合了監(jiān)督學習與強化學習的優(yōu)勢。通過訓練形成一個策略網(wǎng)絡,將棋盤上的局勢作為輸入信息,并對有所可行的落子位置形成一個概率分布。然后,訓練一個價值網(wǎng)絡對自我對弈進行預測,以-1(對手的絕對勝利)到 1(AlphaGo 的絕對勝利)的標準,預測所有可行落子位置的結果。AlphaGo 將這兩種網(wǎng)絡整合進基于概率的蒙特卡羅樹搜索(MCTS)中,實現(xiàn)了它真正的優(yōu)勢。
在獲取棋局信息后,AlphaGo 會根據(jù)策略網(wǎng)絡(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,模擬過程中被系統(tǒng)最繁瑣考察的位置將成為 AlphaGo 的最終選擇。在經(jīng)過先期的全盤探索和過程中對最佳落子的不斷揣摩后,AlphaGo 的探索算法就能在其計算能力之上加入近似人類的直覺判斷。
但是新版的 AlphaGo 產(chǎn)生大量自我對弈棋局,為下一代版本提供了訓練數(shù)據(jù),此過程循環(huán)往復。
AlphaGo 的棋風一直為人驚嘆,與其交戰(zhàn)過的大多數(shù)棋手都感嘆它的不可琢磨,可謂是違和感十足,卻極具殺傷力。金成龍曾表示:「AlphaGo 機器人下棋的方法是人類想不出來的。它有幾次小的失誤,之前我認為這種失誤對李世石是有利的,現(xiàn)在看起來 AlphaGo 是以小失誤換取更大的勝利?!?/p>
AlphaGo 的強大之處不在于一招一式,而在于對每一局比賽展現(xiàn)出的全新視角。雖然圍棋風格略顯抽象,但 AlphaGo 的策略展示了靈活與開放的精神:沒有先入為主的訓練讓它找到了最有效的下棋方式。實用哲學讓 AlphaGo 經(jīng)常走出違反直覺——但卻最為合理的走子。
盡管圍棋是一個有關圈地的游戲,但勝負手卻在于對不同戰(zhàn)區(qū)之間的取舍平衡,而 AlphaGo 擅長創(chuàng)造這種平衡。具體來說,AlphaGo 擅長運用「影響力」——已有棋子對自己周圍的影響為自己謀取優(yōu)勢。雖然 AlphaGo 的價值網(wǎng)絡不能準確地計算出影響的數(shù)值,但它的價值網(wǎng)絡能夠一次性考慮棋盤上的所有棋子,以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在局部的優(yōu)勢轉(zhuǎn)化為整個比賽的勝勢。
作為 David Silver 與黃士杰在阿爾伯塔大學的導師,Martin Müller 對他的學生們感到驕傲:「我對他們感到非常驕傲,他們都曾是我的博士/博士后學生,在阿爾伯塔也得到了強化學習的先驅(qū) Richard Sutton 的教導。在阿爾伯塔期間,深度學習技術還未發(fā)展起來。那時我們的圍棋程序還非常簡單,沒有加入蒙特卡洛樹搜索機制,只應用了強化學習。隨后他們在 DeepMind 獲得了大量資源,這也為其后的成功打下了基礎?!?/p>
此前,在 4 月 10 日下午,谷歌在北京的中國棋院召開新聞發(fā)布會,正式宣布 AlphaGo 將于今年 5 月 23 日在浙江烏鎮(zhèn)對決以柯潔為代表的中國頂尖棋手。與此同時,DeepMind 官方也發(fā)表了一篇博客對新版 AlphaGo 的下棋思路進行了講解。作為 AlphaGo 的一員,樊麾在 DeepMind 的這篇博客中寫到:AlphaGo 在最近的比賽里展現(xiàn)出了開創(chuàng)性的棋風,其中最引人矚目的是早期點三三和全新的「妖刀」變化——每個都違反了常規(guī)理論,但在更深入的研究中被證明是高明的下法。
實際上,DeepMind 可能之前已經(jīng)對新的算法進行過了測試。2016 年年底,AlphaGo 化名 Master,在網(wǎng)絡上與人類頂尖棋手下了 60 盤測試棋,取得 60 局全勝的驕人戰(zhàn)績。通過那次測試,谷歌旗下的 DeepMind 又發(fā)現(xiàn)了 AlphaGo 不少需要完善的地方,2017 年 5 月中下旬即將與柯潔進行正式人機大戰(zhàn)的將是「AlphaGo 2.0 版本」。
Müller 認為目前 AlphaGo 的性能已經(jīng)提升到了新的高度?!笇⒚商乜鍢渌阉骱筒呗跃W(wǎng)絡結合來提高策略網(wǎng)絡的性能?」Müller 說道?!副M管這樣需要花費大量的時間用于訓練策略網(wǎng)絡,但鑒于 DeepMind 是谷歌旗下的公司,他們可以利用到谷歌的強大硬件,甚至新一代 TPU。在去年與李世乭的對決后,DeepMind 的團隊可以嘗試在很多方面上進行改進。」
對于與 AlphaGo 相近的機器對手,Müller 還表示騰訊的「絕藝」已是目前世界第二強的計算機圍棋程序,在未來或許會有擊敗 AlphaGo 的實力。
關于PaperWeekly
PaperWeekly是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事AI領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入PaperWeekly的交流群里。