濮阳杆衣贸易有限公司

主頁 > 知識庫 > 圍棋算啥?吃豆游戲上 微軟AI也完爆人類

圍棋算啥?吃豆游戲上 微軟AI也完爆人類

熱門標簽:美團商戶地圖標注 菏澤辦理400電話號碼查詢 奧維地圖標注樁號 江西自動電銷機器人軟件 做的地圖標注怎么直接顯示 百應電銷機器人競品 英語手繪地圖標注天氣手抄報 百度地圖標注點變文字 外呼系統(tǒng)卡是因為網(wǎng)卡嗎
 

微軟研究人員創(chuàng)建了一個人工智能的系統(tǒng),這個系統(tǒng)能夠在20世紀80年代風靡全球的電子游戲吃豆人小姐(Ms. Pac-Man)中獲得最高分,系統(tǒng)使用了分治策略來更大程度地影響AI代理,從而完美地通關游戲。

本年年初,微軟收購了一家人工智能初創(chuàng)公司Maluuba。Maluuba公司團隊運用強化學習技術(機器學習的分支),在吃豆人小姐游戲Atari 2600版本中表示完美。使用這種方法,該團隊在這個游戲中得到的分數(shù)高達999,990。

位于加拿大蒙特利爾的麥吉爾大學(McGill University)、從事計算機科學研究的Doina Precup副教授體現(xiàn),AI研究人員的常常使用各種電子游戲來測試他們研發(fā)的系統(tǒng),但研究人員發(fā)現(xiàn)吃豆人小姐游戲是最難并吞的。

但是,Precup體現(xiàn),比擬于研究人員所取得的成就而言,她對于研究人員獲得成果的過程更加感興趣。為了在吃豆人小姐游戲中獲得更高的分數(shù),Maluuba公司團隊將操控吃豆人小姐游戲的大問題分解成若干個小問題,然后將小問題分發(fā)給AI代理解決。

Precup說:“這個分治策略的想法讓Maluuba公司的研究人員使用差別的系統(tǒng)來實現(xiàn)同一個目標,這是一件非常有趣的事情”。

她還說到:“這個想法類似于一些大腦如何工作的理論,它可以更大程度地影響AI代理教學,從而利用有限的信息來完成更為復雜的任務。倘若能夠完美利用分治策略,那人工智能將向前跨越一大步,這真的令人感到尤為興奮?!?/p>

Maluuba團隊將這種分治策略稱之為混合式獎賞架構(Hybrid Reward Architecture),這個方法使用了150多名人工智能代理,每個代理與其他代理彼此獨立地精通吃豆人小姐游戲。好比,一些代理成功找到一個豆子將獲得的獎勵,而別的一些代理由于幽靈的存在必需呆在原處。

然后,研究人員在吃豆人小姐游戲中創(chuàng)建了一個頂級代理,就像一家公司的高級經理一樣,頂級代理能夠獲得所有代理的建議,綜合分析后由頂級代理來決定吃豆人小姐該如何移動。

頂級代理會按照選擇各個標的目的前進的代理數(shù)量的大小來決定移動標的目的,但同時也需要考慮到代抱負要往某個標的目的移動的反應強度。

例如,如果100個代抱負向右邊移動,因為向右邊走是他們的最佳路徑,但有3個人想要向左邊移動,因為右邊有一個致命的幽靈,那這3個代理向左邊移動的反應強度明顯強于其他代理,考慮到幽靈的存在,頂級代理應該決定向左移動。

Maluuba公司的研究室經理Harman Van Seijen,對于他們的最新研究成果頒發(fā)了一篇文章,文章中寫到,當每位代理都果斷地做出選擇,頂級代理綜合利用每個代理的信息后做出最佳選擇,那么在吃豆人小姐游戲中就可以獲得最好的結果。Harman Van Seijen說:“雖然每個代理只關心一個特定的問題,但是他們之間有很好的彼此作用”。

Harman Van Seijen

為什么AI主要研究并吞吃豆人小姐游戲

需要運用最先進的AI研究方法來擊莠民似于上世紀80年代Atari吃豆人小姐游戲這樣的簡單游戲,,這看上去很匪夷所思。

但是Maluuba公司的項目經理RahulMehrotra體現(xiàn),使用算法來博得這些簡單的電子游戲其實非常困難,因為在玩游戲的過程中可能會遇到的各種各樣的情況。

Mehrotra體現(xiàn):“許多從事人工智能的公司構建游戲智能算法,因為公司希望人工智能能夠像人類一樣擁有打游戲的技能?!?/p>

SteveGolson是吃豆人小姐游戲街機版的創(chuàng)始人之一,他說到,吃豆人小姐最初定位是街機游戲,希望游戲對人們有持續(xù)吸引力而走出宿舍,所以吃豆人小姐游戲必需掌握人類不成完全征服的游戲程序。

Steve Golson

運營咨詢公司Trilobyte Systems的Golson說到,他們故意設計了吃豆人小姐游戲比普通吃豆人游戲更加不成預測,所以玩家們很難打通關。復雜的游戲使得研究人員試圖使用AI代理來對隨機環(huán)境做出抱負的反應。

Golson還說到:“使用AI代理來通關吃豆人小姐游戲是可行的,但由于游戲的隨機性,所需要設計的AI程序將尤為復雜。”

強化學習

對于在不停發(fā)展的強化學習領域工作的研究人員來說,這種不成預測性極有價值。在AI研究中,強化學習是監(jiān)督學習的副本,是一種更常用的人工智能方法,它能夠讓系統(tǒng)在做任務時變得更好。

通過強化學習,代理對其每個動作都采取積極或消極的反應,通過不停地試驗和犯錯誤來最大限度地獲得積極反應或獎賞。

標簽:錫林郭勒盟 陽江 徐州 威海 郴州 大連 太原 江蘇

巨人網(wǎng)絡通訊聲明:本文標題《圍棋算啥?吃豆游戲上 微軟AI也完爆人類》,本文關鍵詞  圍棋,算啥,吃豆,游戲,上,;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《圍棋算啥?吃豆游戲上 微軟AI也完爆人類》相關的同類信息!
  • 本頁收集關于圍棋算啥?吃豆游戲上 微軟AI也完爆人類的相關信息資訊供網(wǎng)民參考!
  • 推薦文章
    仁怀市| 林周县| 江永县| 广灵县| 前郭尔| 长子县| 北辰区| 南昌县| 南城县| 伊春市| 正定县| 屏南县| 白银市| 济源市| 佛坪县| 衢州市| 民权县| 宣恩县| 疏勒县| 顺昌县| 南城县| 梅州市| 平利县| 疏附县| 天津市| 仲巴县| 安宁市| 奉节县| 寿光市| 博白县| 旬邑县| 雷州市| 新余市| 利辛县| 黄大仙区| 锦屏县| 赫章县| 如皋市| 万州区| 漾濞| 襄汾县|