濮阳杆衣贸易有限公司

主頁 > 知識庫 > NLP技術落地為何這么難?里面有哪些坑?

NLP技術落地為何這么難?里面有哪些坑?

熱門標簽:固原電信400電話辦理費用 湘潭外呼系統(tǒng)批發(fā) 電銷公司防封電銷卡 信宜電話機器人 浙江小型外呼系統(tǒng)公司 發(fā)光地圖標注 許昌外呼電話系統(tǒng)怎么收費 辦理400電話價格服務 安陽外呼saas系統(tǒng)
  AI很火,但是AI的門檻也很高,普通的開發(fā)者想要搭上這波AI紅利依然困難。
  近期,小i機器人推出了新一代智能Bot開放平臺,它整合了小i機器人ChattingBot、FAQBot、DiscoveryBot三大核心能力,為企業(yè)和開發(fā)者提供智能機器人服務+人工在線服務+智能人機協(xié)作學習的完整使用閉環(huán),除智能客服場景應用外,智能營銷、智能外呼、智能硬件等多種不同類型的應用場景也將陸續(xù)開放。
  平臺開放的目的就是降低企業(yè)使用和擁有AI技術的成本與門檻,讓企業(yè)和開發(fā)者快速開發(fā)出滿足自身業(yè)務需求的智能服務系統(tǒng)或者具有智能交互能力的對話機器人。
  近日,小i機器人技術委員會輪值主席兼首席架構師李波受邀做客CSDN主編下午茶,一起探討NLP技術落地的難點,以及如何降低開發(fā)者門檻等熱點話題。
NLP的發(fā)展方向
  AI科技大本營:能簡單介紹下NLP技術嗎?
  李波:NLP技術目前有兩種,一種是基于規(guī)則,還有一種是基于統(tǒng)計。近年來,基于統(tǒng)計的NLP技術占據了上風,特別是深度學習出現之后,基于統(tǒng)計的NLP技術進展快很多。并不是說誰更優(yōu),或者誰更差,它們各有所長,比如基于統(tǒng)計的模型的泛化性比較好,但是它是一個黑盒。一些應用還需要兩者結合使用,比如在問答系統(tǒng)中,有些機器回答并不是很友好,就可以利用基于規(guī)則的方法做補充,兩者結合來達到產品化的程度。
  拋開運算智能,人工智能主要包含兩個層面,一個是認知智能,一個是感知智能。比如常見的語音識別、圖像識別就屬于感知智能的層面,目前比較成熟的落地應用也比較多,而NLP則屬于認知智能層面。NLP往往需要結合上下文信息,甚至考慮背景知識、常識性知識等。另外,感知智能(如圖片識別)的輸入輸出一般是單輪的(single-turn),但是NLP往往需要多輪的(multi-turn)交互后才能得到結果。目前NLP技術還處于發(fā)展的早起階段,還有很多難點需要突破。
  AI科技大本營:你覺得它未來還會有很快的進展嗎?還有哪些需要探索的方向?
  李波:常識和背景知識:用NLP做專業(yè)性很強的事情,可能效果會很好,反到是小概率簡單的事情做不到,因為缺乏常識。想要解決這個問題就需要構建常識庫,然后與模型結合,這是一個難點,也是大家比較愿意探索的一個方向。
  多模態(tài):人類是通過視覺、聽覺等各種感觀結合在一起來理解一件事情的,也就是多模態(tài)。假設NLP系統(tǒng)可以同時結合音頻和視頻來理解用戶的意圖,那么可能會有更大的突破。
  預訓練:這是近期大家可以嘗試的一個熱點。預訓練在音頻和圖片領域已經得到了廣泛應用,最近Google的BERT則是把預訓練運用到了NLP領域,取得了不錯的效果。這也是近期的一個熱點,大家可以去嘗試。
  強化學習:在認知智能方面,強化學習也有些不錯的方向。
  NLP如何走出實驗室
  AI科技大本營:學術界的成果能夠及時地應用到工業(yè)界嗎?
  李波:有些技術可以及時轉化,有些技術還需要轉化周期。這個轉化周期意思就是說,我們要考慮商用模型的性能和準確率,此外還有其他的工程條件,滿足這些標準之后,才可以把研究成果輸出到產品。學術界訓練一個模型只看最后的評價指標,也就是一個百分比的結果,但落地的時候考慮更多因素,比如一個準確率99%的模型,但剩下1%的工程化的工作量,不一定比99%工作量小。
  AI科技大本營:從實驗室到模型商用化落地,你們最關心什么?
  李波:我們最關心的首先是要模型的可用性要達到工業(yè)化落地的標準,除此之外包括產品的UI設計、體驗設計等也非常重要。NLP不像圖片和語音,在UI方面需要考慮的更多。比如機器翻譯系統(tǒng)的準確率達到一定程度后,如果UI做得不好,用戶體驗不好,可能會對落地造成的很大的影響。這是一個系統(tǒng)化的工程,包括成本、用戶體驗,為客戶帶來多少價值等,都需要考慮。
  AI科技大本營:關于AI創(chuàng)業(yè)公司落地難的問題,小i機器人有什么好的經驗可以分享嗎?
  李波:跟圖片和語音對比,NLP特別難,NLP涉及到的多模態(tài)是它的一個難點。第二個難點是需要結合背景知識及常識。這兩個問題在目前并沒有很好的處理方式。小i主要是結合基于規(guī)則+統(tǒng)計的方式,引入知識,比如我之前提到的領域語義庫,目的就是融入常識和背景知識。最后就是個性化的問題,NLP的輸出往往和個體相關,不同的個體需要依據人物畫像等信息給出不同的個性化的結果,這樣才更接近人類的處理方式。
  此外,NLP的落地場景不是那么直接,需要結合客戶或者是產品設計。比如做推薦,我們訓練模型的關注點可能就是模型對應的幾個指標,比如查準率等,但是客戶看的是最后推薦的效果,也就是用戶實際的評價和購買情況。因此,不管實驗室的效果如何,在實際效果中,需要根據客戶的反饋不斷調整系統(tǒng)參數,調整訓練數據,或者結合其他算法等等,以此來提高最終落地的效果。
  上線運行之后,我們還需要根據運營的日志和客戶的行為,再迭代模型,這是一個閉環(huán)。而不是說不結合實際場景,把模型訓練好后直接投入使用,然后就不管了,不是這回事,需要根據運營的數據,不斷調優(yōu)迭代。
  AI科技大本營:模型可控性的問題怎么解決?
  李波:比如我們幫客戶做的智能客服機器人,主要依靠混合模型引擎來達到可控的目的。另外也可以通過一些工程化手段來做到可控,如在問答中涉及到一些敏感的內容,我們可以通過前處理、后處理等方式及時干預,而無需更新模型、重啟系統(tǒng)。在用戶真實的使用過程中發(fā)現問題時,我們需要有渠道、有方法控制系統(tǒng)的輸出,甚至邏輯,保證系統(tǒng)是可控的。
  AI科技大本營:哪些方法可以使它可控?
  李波:我們的混合模型引擎包含兩種模型,一個是黑盒子,就是深度學習模型,另一個是語義理解模型,基于傳統(tǒng)的語義表達式,可以用來做干預。語義理解模型可以直接通過語義表達式來進行更改,而深度學習模型想要干預則必須重新訓練。因此我們可以讓深度學習模型和語義理解模型同時作用,然后調整深度學習模型和語義理解模型的輸出策略(如優(yōu)先級策略等)來調優(yōu)。
  小i機器人如何收集數據?
  AI科技大本營:小i機器人是如何積累數據的?
  李波:主要是三個方面:第一,我們會通過爬蟲去爬取相關的行業(yè)數據。第二,我們的云端產品產生的日志數據,會直接收集到我們的數據平臺里。第三,客戶提供的素材,我們會把它轉化成數據和知識。
  AI科技大本營:數據收集之后怎么處理?
  李波:非結構化數據:首先我們會對收集到數據進行數據清洗,然后再按照知識的分類通過機器+人工方式將其歸類,再通過一些手段(如規(guī)則等)做一些粗顆粒度的標注,之后由人工確認,確認完后入庫。
  半結構化數據:客戶提供的原始帶格式文檔,通過格式規(guī)則分析或者機器學習模型等手段來進行分類或者聚類等輔助處理,然后再進行人工梳理,最后入庫。
  AI科技大本營:數據的處理靠機器和人工的結合?
  李波:機器做前期輔助,人工做最終的確認,而不是機器處理之后直接入庫。小i有一個大的數據平臺和一個標注系統(tǒng),還有一個實驗室系統(tǒng),共同運作來產生這些行業(yè)訓練數據以及行業(yè)背景知識,然后以領域語義庫的形式部署到實際系統(tǒng)中。
  小i機器人如何賦能開發(fā)者?
  AI科技大本營:現在有很多平臺和工具可以幫助開發(fā)者去降低門檻,據我所知,小i最近也推出了新一代智能Bot開放平臺,這個平臺能給開發(fā)者帶來什么?
  李波:幫助中小企業(yè)或者開發(fā)者快速打造一個適應各種實際場景的AI系統(tǒng)。第一個落地的場景是智能客服,以問答能力為主,降低人工客服的成本。第二個應用場景是智能營銷,以營銷推薦為主,包括用戶畫像等,我們會在后期推出。第三個應用場景是智能外呼。后續(xù)我們還會推出更多的場景。開發(fā)者不僅可以直接使用這些場景,還可以基于每個場景的API來擴充應用的能力。
  AI科技大本營:因為現在有各種各樣的平臺和工具,假設我是個新手,我就做一個小項目練練手,應該怎么做?
  李波:這個平臺的目的是降低開發(fā)者的門檻。開發(fā)者如果是自己收集數據,然后訓練模型,開發(fā)周期很長,而且有很多的坑要趟。我們的這個平臺有兩個目標,第一,讓用戶可以直接使用;第二個,開發(fā)者可以基于這個平臺擴充自己的能力。
  使用我們的平臺,開發(fā)者需要提供的數據只是問答的基本意圖點,我們在底層有領域語義庫做支撐,我們會自動在詞的層面,在句法層面幫你擴充數據集,然后自動幫你去訓練。
  AI科技大本營:關于NLP技術的工程實踐,您對開發(fā)者有什么建議嗎?
  李波:針對NLP的開發(fā)者有幾點建議:首先,你要對相關技術有全面的了解,不一定要特別細化,這樣對開發(fā)會有幫助;第二,一定要明確你的輸入和輸出;最后,開發(fā)者要更多地關注產品體驗。
  AI科技大本營:最后,您平時都是怎樣自我學習的,有哪些經驗可以分享下嗎?
  李波:互聯網是一個非常好的渠道,我比較喜歡碰到問題后在解決問題的過程中學習的方式。如果你只是通過書本去學習,而忽略實踐,就會比較虛。因此要結合實踐,哪怕是做一些Demo嘗試也可以。在嘗試過程中遇到問題,然后通過各種方式去獲取答案,而不是像學校里的傳統(tǒng)方式去學習。

標簽:鄭州 三門峽 臨滄 江蘇 平頂山 榆林 承德 鄂州

巨人網絡通訊聲明:本文標題《NLP技術落地為何這么難?里面有哪些坑?》,本文關鍵詞  NLP,技術,落地,為何,這么,;如發(fā)現本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《NLP技術落地為何這么難?里面有哪些坑?》相關的同類信息!
  • 本頁收集關于NLP技術落地為何這么難?里面有哪些坑?的相關信息資訊供網民參考!
  • 推薦文章
    云安县| 聊城市| 广水市| 长子县| 鹤壁市| 手游| 岳西县| 太湖县| 通渭县| 阳西县| 都兰县| 乡城县| 枣强县| 新津县| 邮箱| 阜南县| 米易县| 大港区| 阳新县| 银川市| 彩票| 光山县| 潞西市| 科技| 中宁县| 财经| 易门县| 邻水| 惠安县| 长岭县| 密云县| 梨树县| 河西区| 澄江县| 新泰市| 顺昌县| 佛坪县| 江西省| 乌鲁木齐市| 陆川县| 阿拉尔市|