微軟研究人員創(chuàng)建了一個人工智能的系統(tǒng),這個系統(tǒng)能夠在20世紀80年代風靡全球的電子游戲吃豆人小姐(Ms. Pac-Man)中獲得最高分,系統(tǒng)使用了分治策略來更大程度地影響AI代理,從而完美地通關游戲。
本年年初,微軟收購了一家人工智能初創(chuàng)公司Maluuba。Maluuba公司團隊運用強化學習技術(機器學習的分支),在吃豆人小姐游戲Atari 2600版本中表示完美。使用這種方法,該團隊在這個游戲中得到的分數(shù)高達999,990。
位于加拿大蒙特利爾的麥吉爾大學(McGill University)、從事計算機科學研究的Doina Precup副教授體現(xiàn),AI研究人員的常常使用各種電子游戲來測試他們研發(fā)的系統(tǒng),但研究人員發(fā)現(xiàn)吃豆人小姐游戲是最難并吞的。
但是,Precup體現(xiàn),比擬于研究人員所取得的成就而言,她對于研究人員獲得成果的過程更加感興趣。為了在吃豆人小姐游戲中獲得更高的分數(shù),Maluuba公司團隊將操控吃豆人小姐游戲的大問題分解成若干個小問題,然后將小問題分發(fā)給AI代理解決。
Precup說:“這個分治策略的想法讓Maluuba公司的研究人員使用差別的系統(tǒng)來實現(xiàn)同一個目標,這是一件非常有趣的事情”。
她還說到:“這個想法類似于一些大腦如何工作的理論,它可以更大程度地影響AI代理教學,從而利用有限的信息來完成更為復雜的任務。倘若能夠完美利用分治策略,那人工智能將向前跨越一大步,這真的令人感到尤為興奮?!?/p>
Maluuba團隊將這種分治策略稱之為混合式獎賞架構(Hybrid Reward Architecture),這個方法使用了150多名人工智能代理,每個代理與其他代理彼此獨立地精通吃豆人小姐游戲。好比,一些代理成功找到一個豆子將獲得的獎勵,而別的一些代理由于幽靈的存在必需呆在原處。
然后,研究人員在吃豆人小姐游戲中創(chuàng)建了一個頂級代理,就像一家公司的高級經理一樣,頂級代理能夠獲得所有代理的建議,綜合分析后由頂級代理來決定吃豆人小姐該如何移動。
頂級代理會按照選擇各個標的目的前進的代理數(shù)量的大小來決定移動標的目的,但同時也需要考慮到代抱負要往某個標的目的移動的反應強度。
例如,如果100個代抱負向右邊移動,因為向右邊走是他們的最佳路徑,但有3個人想要向左邊移動,因為右邊有一個致命的幽靈,那這3個代理向左邊移動的反應強度明顯強于其他代理,考慮到幽靈的存在,頂級代理應該決定向左移動。
Maluuba公司的研究室經理Harman Van Seijen,對于他們的最新研究成果頒發(fā)了一篇文章,文章中寫到,當每位代理都果斷地做出選擇,頂級代理綜合利用每個代理的信息后做出最佳選擇,那么在吃豆人小姐游戲中就可以獲得最好的結果。Harman Van Seijen說:“雖然每個代理只關心一個特定的問題,但是他們之間有很好的彼此作用”。
Harman Van Seijen為什么AI主要研究并吞吃豆人小姐游戲
需要運用最先進的AI研究方法來擊莠民似于上世紀80年代Atari吃豆人小姐游戲這樣的簡單游戲,,這看上去很匪夷所思。
但是Maluuba公司的項目經理RahulMehrotra體現(xiàn),使用算法來博得這些簡單的電子游戲其實非常困難,因為在玩游戲的過程中可能會遇到的各種各樣的情況。
Mehrotra體現(xiàn):“許多從事人工智能的公司構建游戲智能算法,因為公司希望人工智能能夠像人類一樣擁有打游戲的技能?!?/p>
SteveGolson是吃豆人小姐游戲街機版的創(chuàng)始人之一,他說到,吃豆人小姐最初定位是街機游戲,希望游戲對人們有持續(xù)吸引力而走出宿舍,所以吃豆人小姐游戲必需掌握人類不成完全征服的游戲程序。
Steve Golson運營咨詢公司Trilobyte Systems的Golson說到,他們故意設計了吃豆人小姐游戲比普通吃豆人游戲更加不成預測,所以玩家們很難打通關。復雜的游戲使得研究人員試圖使用AI代理來對隨機環(huán)境做出抱負的反應。
Golson還說到:“使用AI代理來通關吃豆人小姐游戲是可行的,但由于游戲的隨機性,所需要設計的AI程序將尤為復雜。”
強化學習
對于在不停發(fā)展的強化學習領域工作的研究人員來說,這種不成預測性極有價值。在AI研究中,強化學習是監(jiān)督學習的副本,是一種更常用的人工智能方法,它能夠讓系統(tǒng)在做任務時變得更好。
通過強化學習,代理對其每個動作都采取積極或消極的反應,通過不停地試驗和犯錯誤來最大限度地獲得積極反應或獎賞。