據(jù)IBM官網(wǎng)報(bào)道,人們?cè)谡f話時(shí),對(duì)方每聽20個(gè)單詞都會(huì)漏掉或聽錯(cuò)1-2個(gè)單詞。在5分鐘的對(duì)話中,可能會(huì)聽錯(cuò)80個(gè)單詞。但我們多數(shù)人在聽懂說話上沒有問題。然而,電腦就不一樣了。
去年,IBM宣布在自然對(duì)話環(huán)境中的語音識(shí)別上取得重大成就:開發(fā)出單詞錯(cuò)誤率為6.9%的系統(tǒng)。此后,該公司不斷取得進(jìn)步。現(xiàn)在IBM宣布創(chuàng)造新的業(yè)界紀(jì)錄:5.5%的錯(cuò)誤率。這是對(duì)非常困難的語音識(shí)別任務(wù):紀(jì)錄人與人之間日常對(duì)話如“買汽車”,計(jì)算出來的結(jié)果。這種紀(jì)錄的語料庫被稱為“SWITCHBOARD”,20多年來一直用于檢驗(yàn)語音識(shí)別系統(tǒng)。
IBM研究人員在實(shí)現(xiàn)這個(gè)突破時(shí),專注于應(yīng)用深度學(xué)習(xí)技術(shù),將LSTM(長短期記憶)和WaveNet語言模型與三個(gè)強(qiáng)大的聲學(xué)模型結(jié)合起來。在被使用的3個(gè)聲學(xué)模型中,前2個(gè)為雙向6層LSTM,其中一個(gè)為多特征輸入,另一個(gè)有對(duì)話多任務(wù)學(xué)習(xí)能力。最后一個(gè)模型有個(gè)獨(dú)特的地方,其不僅能從積極的例子中學(xué)習(xí),也能利用消極的例子,因此會(huì)變得越來越聰明,在重復(fù)出現(xiàn)類似說話風(fēng)格時(shí)表現(xiàn)更好。
實(shí)現(xiàn)人類同等水準(zhǔn)——錯(cuò)誤率與2個(gè)人說話相當(dāng)——長期以來都是行業(yè)的終極目標(biāo)。行業(yè)里的其他人也在努力追趕IBM的紀(jì)錄,一些人最近聲稱達(dá)到5.9%。在達(dá)到今天的成就過程中,IBM發(fā)現(xiàn)人類同等水準(zhǔn)應(yīng)該是錯(cuò)誤率為5.1%。在確定這個(gè)數(shù)字上,IBM與合作伙伴Appen合作再現(xiàn)人類水平的結(jié)果。雖然IBM實(shí)現(xiàn)了5.5%的錯(cuò)誤率是一次大的突破,但發(fā)現(xiàn)人類同等水準(zhǔn)是5.1%證明科技要達(dá)到與人類相同水平還有一段距離。
在研究中,IBM聯(lián)系了不同的行業(yè)專家,讓他們對(duì)此事發(fā)表意見。蒙特利爾大學(xué)MILA實(shí)驗(yàn)室的主任YoshuaBengio認(rèn)同IBM還有很多工作要做才能實(shí)現(xiàn)人類同等水準(zhǔn)。IBM意識(shí)到,發(fā)現(xiàn)人類同等水準(zhǔn)的標(biāo)準(zhǔn)比原先想象更復(fù)雜。除了SWITCHBOARD外,還有另一個(gè)行業(yè)語料庫CallHome,提供了不同的可測(cè)試的語音數(shù)據(jù)集。