微軟聲稱去年10月使用類似于聯想詞云的神經語言模型達到5.9%的錯詞率。當時,該公司認為這個數據能與人類錯詞率相媲美。但IBM說這個數據并不值得慶祝。IBM主要研究科學家喬治·薩恩(George Saon)在本周發(fā)表的一篇博客中寫道:「我們是實現今天里程碑的重要貢獻者,然而我們確定人類實際錯詞率比目前所有語音識別系統能達到的錯詞率都低-僅為5.1%?!?/div>
IBM通過所謂的長短期內存(Long Short-Term Memory),人工神經網路、與三種強大的聲學模型相結合的WaveNet語言模型,開發(fā)出了錯誤率僅為5.5%的語音識別系統。然后使用「SWITCHBOARD」語料庫對此語音識別系統進行測量,該語料庫是幾十年來被用作語音識別軟體測量的標準。實現5.5%的詞錯率是一個大突破,但實際上,測試標準并不總能體現真實數據的復雜性和多樣化,與此同時,人類實際詞錯率的確定也表明我們還遠沒有達到最終目標。
哥倫比亞大學計算機科學系教授Julia Hirschberg說:「降低語音識別錯詞率和衡量人類詞錯率是一個持續(xù)性的挑戰(zhàn)。因為人類的言語,特別是在隨意交談的時候,是非常復雜的。同時,我們也很難為人類錯詞率做標準界定,因為每一個不同的個體在理解他人語言上水平參差不齊?!?/div>
相關信息補充:
IBM公司語音識別研究團隊一直以「創(chuàng)造一種更具活力的電腦交互方式」作為重要使命之一。IBM于上世紀50年代末開始語音識別的技術研究。在1962年西雅圖世界博覽會上,由IBM研發(fā)出的「鞋盒」大放異彩,成為當時世界上最先進的語音識別機器,這臺機器能理解人類口述數字0~9以及簡單的運算口令。但在之后的很長一段時間里,由于電腦技術和語音識別研究方法的限制,語音識別并沒有太大進展。直到信息理論的強大統計演算法的出現,語音識別才重新踏上了進步發(fā)展之路,能識別5000個英語單詞的語音識別系統面世。但還有一個問題擺在技術人員面前:這臺語音識別處理機大的出奇,無法實現應用普及化。
時至今日,對于大眾最為熟悉的語音識別系統是Apple的Siri。藉助高速網路的發(fā)展,Apple利用高性能伺服器代替了手機來進行有大量復雜運算需求的語音識別工作。同時,搜索引擎和ios手機系統的結合,更使得Siri用戶體驗性得到大幅度提升。在Siri大獲全勝后,Google等高科技企業(yè)也紛紛加入語音識別的開發(fā)洪流,而曾經的「語音識別奠基人」IBM也在這個洪流中再度占據鰲頭。
時至今日,對于大眾最為熟悉的語音識別系統是Apple的Siri。藉助高速網路的發(fā)展,Apple利用高性能伺服器代替了手機來進行有大量復雜運算需求的語音識別工作。同時,搜索引擎和ios手機系統的結合,更使得Siri用戶體驗性得到大幅度提升。在Siri大獲全勝后,Google等高科技企業(yè)也紛紛加入語音識別的開發(fā)洪流,而曾經的「語音識別奠基人」IBM也在這個洪流中再度占據鰲頭?! 〖夹g領域的從業(yè)者花了數年時間開發(fā)語音識別軟體。目前,IBM稱其語音識別軟體的字詞錯誤率僅為5.5%,低于之前的6.9%的記錄。這對于語音識別行業(yè)來說是重大的里程碑,可能最終會引領Siri和Alexa等語音助手的技術改進。
微軟聲稱去年10月使用類似于聯想詞云的神經語言模型達到5.9%的錯詞率。當時,該公司認為這個數據能與人類錯詞率相媲美。但IBM說這個數據并不值得慶祝。IBM主要研究科學家喬治·薩恩(George Saon)在本周發(fā)表的一篇博客中寫道:「我們是實現今天里程碑的重要貢獻者,然而我們確定人類實際錯詞率比目前所有語音識別系統能達到的錯詞率都低-僅為5.1%?!?/div>
IBM通過所謂的長短期內存(Long Short-Term Memory),人工神經網路、與三種強大的聲學模型相結合的WaveNet語言模型,開發(fā)出了錯誤率僅為5.5%的語音識別系統。然后使用「SWITCHBOARD」語料庫對此語音識別系統進行測量,該語料庫是幾十年來被用作語音識別軟體測量的標準。實現5.5%的詞錯率是一個大突破,但實際上,測試標準并不總能體現真實數據的復雜性和多樣化,與此同時,人類實際詞錯率的確定也表明我們還遠沒有達到最終目標。
哥倫比亞大學計算機科學系教授Julia Hirschberg說:「降低語音識別錯詞率和衡量人類詞錯率是一個持續(xù)性的挑戰(zhàn)。因為人類的言語,特別是在隨意交談的時候,是非常復雜的。同時,我們也很難為人類錯詞率做標準界定,因為每一個不同的個體在理解他人語言上水平參差不齊?!?/div>
相關信息補充:
IBM公司語音識別研究團隊一直以「創(chuàng)造一種更具活力的電腦交互方式」作為重要使命之一。IBM于上世紀50年代末開始語音識別的技術研究。在1962年西雅圖世界博覽會上,由IBM研發(fā)出的「鞋盒」大放異彩,成為當時世界上最先進的語音識別機器,這臺機器能理解人類口述數字0~9以及簡單的運算口令。但在之后的很長一段時間里,由于電腦技術和語音識別研究方法的限制,語音識別并沒有太大進展。直到信息理論的強大統計演算法的出現,語音識別才重新踏上了進步發(fā)展之路,能識別5000個英語單詞的語音識別系統面世。但還有一個問題擺在技術人員面前:這臺語音識別處理機大的出奇,無法實現應用普及化。
IBM02
時至今日,對于大眾最為熟悉的語音識別系統是Apple的Siri。藉助高速網路的發(fā)展,Apple利用高性能伺服器代替了手機來進行有大量復雜運算需求的語音識別工作。同時,搜索引擎和ios手機系統的結合,更使得Siri用戶體驗性得到大幅度提升。在Siri大獲全勝后,Google等高科技企業(yè)也紛紛加入語音識別的開發(fā)洪流,而曾經的「語音識別奠基人」IBM也在這個洪流中再度占據鰲頭。