微軟透過(guò)大量口語(yǔ)資料的深度學(xué)習(xí),讓電腦具備的語(yǔ)音識(shí)別能力比美人類(lèi)水準(zhǔn)。在一項(xiàng)口語(yǔ)測(cè)試中,電腦與專(zhuān)業(yè)聽(tīng)打員測(cè)試比較,在其中一項(xiàng)子測(cè)試中,電腦的語(yǔ)音識(shí)別錯(cuò)誤率由先前的6.3%降到5.9%,大約等同于人類(lèi)識(shí)別的水準(zhǔn)。
微軟周二公布一項(xiàng)報(bào)告,指出微軟開(kāi)發(fā)的語(yǔ)音識(shí)別技術(shù)在一項(xiàng)測(cè)試中,首度達(dá)到錯(cuò)誤率和人類(lèi)相去不遠(yuǎn)的識(shí)別能力。
微軟人工智能研究中心(Microsoft Artificial Intelligenceand Research)公布的報(bào)告中研究人員及工程師運(yùn)用業(yè)界常用的電話(huà)口語(yǔ)對(duì)話(huà)測(cè)試集NIST 2000 CTS,針對(duì)微軟自有技術(shù)及專(zhuān)業(yè)聽(tīng)打員進(jìn)行測(cè)試比較。其中在Switchboard子測(cè)試集中,微軟技術(shù)的字詞錯(cuò)誤率由上個(gè)月的6.3%降到5.9%。
微軟表示,這個(gè)成績(jī)大約等于識(shí)別同一組對(duì)話(huà)的人類(lèi)成績(jī),也是Switchboard語(yǔ)音識(shí)別測(cè)試歷來(lái)最低的錯(cuò)誤率。這表示電腦辨識(shí)對(duì)話(huà)口語(yǔ)字詞的能力,首次達(dá)到人類(lèi)相同水準(zhǔn)。
主管微軟人工智能研究中心的執(zhí)行副總裁沈向洋也指出,他們?nèi)ツ炅⑾率闺娔X語(yǔ)音識(shí)別能力達(dá)到人類(lèi)水準(zhǔn)的目標(biāo),不到一年就達(dá)到了,也出乎他們意料之外。
微軟研究團(tuán)隊(duì)運(yùn)用該公司電腦視覺(jué)專(zhuān)家開(kāi)發(fā)的深度神經(jīng)網(wǎng)路,以大量資料訓(xùn)練電腦識(shí)別出圖像或語(yǔ)音中的模式。為達(dá)到和人類(lèi)相仿的辨識(shí)能力,他們使用名為Computation Network Toolkit(CNTK)的深度學(xué)習(xí)系統(tǒng)。這套系統(tǒng)透過(guò)在多臺(tái)搭載專(zhuān)用繪圖處理器的電腦上快速處理執(zhí)行深度演算,并大幅提升研究能力,最終拉高到人類(lèi)水準(zhǔn)。微軟去年也將此工具組開(kāi)源于GitHub釋出。但微軟也指出,一如人類(lèi)會(huì)犯錯(cuò),電腦也不是所有字都能識(shí)別無(wú)誤
微軟表示,這項(xiàng)研究結(jié)果將對(duì)消費(fèi)及商用產(chǎn)品有深遠(yuǎn)影響,包括Xbox游戲機(jī)、身障輔助工具,如口語(yǔ)聽(tīng)寫(xiě),并使Cortana成為真正的個(gè)人數(shù)位助理服務(wù)。
除了微軟,Google、臉書(shū)、IBM及百度也都積極投入人工智能為基礎(chǔ)的語(yǔ)音識(shí)別,用以作為人機(jī)的自然語(yǔ)言互動(dòng)界面。