微軟雷蒙德研究院開發(fā)出一種機器學(xué)習(xí)算法,使計算機對指定主題對話的語音識別率增至94.1%,首次與人類水平相當(dāng);對親戚朋友日常對話的識別率達88.9%,甚至比人類略勝一籌。
美國國家標準與技術(shù)研究所2000年時曾發(fā)布一個數(shù)據(jù)庫,以幫助解決語音識別難題。該數(shù)據(jù)庫包含的電話錄音有些是個人之間既定話題的談話,其余則是親戚朋友間的隨意交談。
結(jié)果顯示,人類在轉(zhuǎn)錄語言時的出錯率約為4%,即每一百個字中人類會錯誤地轉(zhuǎn)錄4個字。過去,機器的表現(xiàn)距這一數(shù)字相去甚遠。如今,計算機在把個人之間既定話題的談話內(nèi)容轉(zhuǎn)錄成文字時,出錯率為5.9%,而轉(zhuǎn)錄親戚朋友間任意主題的隨意交談時,出錯率為11.3%?!斑@比預(yù)想的還要好?!蔽④浹芯咳藛T茨威格表示。
隨后,茨威格基于不同層數(shù)的卷積神經(jīng)網(wǎng)絡(luò)來優(yōu)化他們自己的深度學(xué)習(xí)系統(tǒng),從而讓系統(tǒng)的每一層能夠識別語音的不同方面。然后他們用訓(xùn)練數(shù)據(jù)作為標準來設(shè)置機器,以便識別普通語音并且讓他們能夠適應(yīng)測試數(shù)據(jù)庫。
總的來說,微軟的語音識別系統(tǒng)與人類具有相似的錯誤率,但它造成的錯誤類型與人類截然不同。微軟機器最常見的錯誤是混淆反饋聲音。相比之下,人類很少犯這樣的錯誤。對此,茨威格認為,原則上機器沒有不能通過訓(xùn)練來識別反饋聲音的理由,出現(xiàn)誤差可能與噪聲在訓(xùn)練數(shù)據(jù)集中標記的方式有關(guān)。
微軟研究人員表示,計算機語音識別能力正超越人類水平,“這對計算機行業(yè)的重要意義不亞于圖形用戶界面”,其中既包括Xbox這樣的消費娛樂設(shè)備,也包括即時語音轉(zhuǎn)文字等可訪問性工具,以及“小娜”這樣的個人數(shù)字助理。