言情小说君子以泽,新寡妇村传奇,欢乐颂小说

主頁 > 知識庫 > 聯(lián)想研究院：用語音技術(shù)，解讀人類首次登月通訊數(shù)據(jù)

聯(lián)想研究院：用語音技術(shù)，解讀人類首次登月通訊數(shù)據(jù)

　　在8月底9月初舉行的語音領(lǐng)域國際頂級會議Interspeech2021上，聯(lián)想研究院和昆山杜克SMIIP實(shí)驗(yàn)室合作完成的兩篇語音技術(shù)論文被大會收錄。

　　這兩篇論文分別是The DKU-Duke-Lenovo System Description for the Fearless StepsChallenge Phase III（昆山杜克-聯(lián)想第三屆“無畏腳步挑戰(zhàn)賽”系統(tǒng)描述），以及The 2020 Personalized Voice Trigger Challenge: Open Database, Evaluation Metrics and the Baseline Systems（2020個(gè)性化語音喚醒挑戰(zhàn)賽：開放數(shù)據(jù)庫，評價(jià)標(biāo)準(zhǔn)以及基線系統(tǒng)）。

　　第一篇論文介紹了今年聯(lián)想和昆山杜克聯(lián)隊(duì)參加第三屆無畏腳步挑戰(zhàn)賽（Fearless Steps Challenge)的獲獎(jiǎng)系統(tǒng)。

　　無畏腳步挑戰(zhàn)賽---用語音技術(shù)解讀人類首次登月語音

　　該挑戰(zhàn)賽在Interspeech2019大會上由德克薩斯大學(xué)達(dá)拉斯分校發(fā)起，今年已是第三屆。挑戰(zhàn)賽基于人類第一次登月任務(wù)---阿波羅11號登月真實(shí)通訊語音數(shù)據(jù)，包括從發(fā)射到返回地球各階段，3位宇航員和29個(gè)負(fù)責(zé)不同任務(wù)的站點(diǎn)之間的通訊語音，設(shè)置了5類語音分析和識別任務(wù)，包括：

語音端點(diǎn)檢測（SAD，Speech Activity Detection）
聲紋識別（SID，Speaker Identification）
說話人日志（SD，Speaker Diarization）
語音識別（ASR，Automatic Speech Recognition）
對話分析（CA，Conversational Analysis）

　　阿波羅11號登月語音數(shù)據(jù)包含600多個(gè)說話人，類型復(fù)雜，包含環(huán)境噪聲、信道噪聲、設(shè)備噪聲等干擾因素，每一個(gè)信道采集的聲音都可能包含幾個(gè)或者十幾個(gè)其他信道的干擾，因此屬于高難度的實(shí)時(shí)通訊和自然交談場景，為語音識別和分析任務(wù)帶來了很大的挑戰(zhàn)。

語音端點(diǎn)檢測任務(wù)獲得國際第二名

　　在本次比賽中，聯(lián)想和昆山杜克聯(lián)隊(duì)參加了其中的端點(diǎn)檢測、聲紋識別和說話人日志三項(xiàng)子任務(wù)，最終在端點(diǎn)檢測任務(wù)中獲得了國際第二名，而聲紋識別和說話人日志分別獲得冠軍。

聲紋識別任務(wù)獲得國際第一名

　　語音端點(diǎn)檢測用以檢測連續(xù)語音中人說話的起始點(diǎn)，即有效話音檢測?？焖贉?zhǔn)確的端點(diǎn)檢測算法，不僅能夠提升語音識別準(zhǔn)確率，還可以提高計(jì)算效率，通常在語音識別、聲紋識別等任務(wù)中擔(dān)負(fù)著前端預(yù)處理作用。

　　而聲紋識別是判斷一段語音是否是某個(gè)目標(biāo)人所說。除了在安全領(lǐng)域的應(yīng)用，在智能物聯(lián)網(wǎng)設(shè)備以及智慧客服、智能辦公等垂直行業(yè)中也有廣泛的應(yīng)用需求。

　　說話人日志，則是基于聲紋識別的擴(kuò)展任務(wù)，即檢測一段語音中什么人、什么時(shí)間在說話。該技術(shù)在智能會議場景中有重要作用，結(jié)合語音識別可以形成帶有發(fā)言人信息的自動(dòng)會議紀(jì)要。

　　基于聲紋識別的個(gè)性化語音喚醒

　　另外一篇入圍論文，即2020個(gè)性化語音喚醒挑戰(zhàn)賽：開放數(shù)據(jù)庫，評價(jià)標(biāo)準(zhǔn)以及基線系統(tǒng)，介紹了由聯(lián)想研究院與昆山杜克大學(xué)、北京郵電大學(xué)聯(lián)合主辦的“2020個(gè)性化語音喚醒挑戰(zhàn)賽”（PVTC 2020 - Personalized Voice Trigger Challenge）及基線系統(tǒng)的情況。PVTC2020是國際語音通信協(xié)會中文口語語言處理專委會旗艦會議ISCSLP2021（International Symposium on Chinese Spoken Language Processing）的組成部分。本次挑戰(zhàn)賽考察的是帶有聲紋認(rèn)證功能的語音喚醒技術(shù)，喚醒詞是聯(lián)想產(chǎn)品中最廣泛應(yīng)用的喚醒詞之一“小樂小樂”?；顒?dòng)歷時(shí)3個(gè)月，參賽團(tuán)隊(duì)來自著名高校、知名企業(yè)和人工智能創(chuàng)業(yè)公司，包括北京大學(xué)、西北工業(yè)大學(xué)、廈門大學(xué)、小米、出門問問、普強(qiáng)、實(shí)地地產(chǎn)、杭州國芯等，其中來自小米、西工大、出門問問、實(shí)地地產(chǎn)的四支隊(duì)伍分別躋身不同賽道的前三名。這次活動(dòng)為業(yè)界同行構(gòu)建了良好的交流平臺，促進(jìn)了資源和技術(shù)共享，推動(dòng)了學(xué)術(shù)界和工業(yè)界更密切的合作。

　　另外，在剛剛揭曉的Interspeech 2021副語言語音屬性評測中（ComParE 2021），聯(lián)想研究院團(tuán)隊(duì)在靈長類動(dòng)物叫聲分類任務(wù)中奪得國際第三名。音頻分類是語音領(lǐng)域一個(gè)重要的方向，應(yīng)用場景非常廣泛，如檢測環(huán)境噪聲、特殊音頻場景和事件，在智能家居、智慧城市等行業(yè)都有重要應(yīng)用。

　　ComParE是Interspeech系列評測之一，在語音領(lǐng)域?qū)儆谥亓考壴u測。語音是語言的聲音表現(xiàn)形式，不僅包含了語言語義信息，同時(shí)也傳達(dá)了說話人、語種、性別、年齡、情感、信道、嗓音、病理、生理、心理等多種豐富的副語言語音屬性信息。ComParE的目的就是識別或檢測各類副語言語音屬性，如情感識別、哭聲檢測、嗓音病理識別、方言語種識別等。

　　作為聯(lián)想智能語音技術(shù)核心研發(fā)團(tuán)隊(duì)，聯(lián)想研究院人工智能實(shí)驗(yàn)室語音團(tuán)隊(duì)已經(jīng)構(gòu)建了全鏈自研語音技術(shù)棧，全面賦能聯(lián)想的智能設(shè)備、智能化服務(wù)和行業(yè)智能化解決方案。

　　兩篇語音技術(shù)論文鏈接，歡迎訪問：

　　1.The DKU-Duke-Lenovo System Description for theFearless Steps Challenge Phase III：

　　https://www.isca-speech.org/archive/pdfs/interspeech_2021/wang21i_interspeech.pdf

　　2.The 2020 Personalized Voice Trigger Challenge:Open Database, Evaluation Metrics and the Baseline Systems：

　　https://www.isca-speech.org/archive/pdfs/interspeech_2021/jia21b_interspeech.pdf

標(biāo)簽：沈陽西安衡陽陽江儋州安慶崇左廊坊

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《聯(lián)想研究院：用語音技術(shù)，解讀人類首次登月通訊數(shù)據(jù)》，本文關(guān)鍵詞聯(lián)想,研究院,用,語音,技術(shù),；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。