客服語義實(shí)體分析平臺(tái)是融合客服數(shù)據(jù)接入、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析等功能的平臺(tái);其主要能力包含了自然語義分析能力、數(shù)據(jù)遷移、數(shù)據(jù)清洗、大數(shù)據(jù)存儲(chǔ)、分布式數(shù)據(jù)計(jì)算能力,通過公司研發(fā)的DataExchange、DataHouse、UGraph三款數(shù)據(jù)產(chǎn)品的強(qiáng)力支持,打造客服大數(shù)據(jù)從治理到存儲(chǔ)、計(jì)算的生態(tài)并結(jié)合tenserflow算法引擎與DataHouse整合后支持分布式模型訓(xùn)練的能力,可以更好的服務(wù)于客服語義分析等,實(shí)現(xiàn)客服工單分類、潛客挖掘、智能客服、精準(zhǔn)營銷等業(yè)務(wù)場景的語義分析支撐。
技術(shù)特點(diǎn)如下:
1、結(jié)構(gòu)化非結(jié)構(gòu)化統(tǒng)一處理
2、數(shù)據(jù)采集清洗同步
3、分布式內(nèi)存處理
4、多種數(shù)據(jù)災(zāi)備方式
5、高并發(fā)、大吞吐、高可靠
6、數(shù)據(jù)實(shí)時(shí)處理不落地
7、100%兼容現(xiàn)有Hadoop環(huán)境和傳統(tǒng)數(shù)據(jù)庫環(huán)境
核心功能如下:
1、語義模型管理
語義模型管理的目標(biāo)是,盡量降低成熟語義模型開發(fā)工作量,降低模型開發(fā)過程中的交易成本,平滑學(xué)習(xí)曲線。助推語義能力開發(fā)技術(shù)的推廣。
其中,模型從需求采集、語料搜集、標(biāo)簽/標(biāo)注、模型網(wǎng)絡(luò)搭建設(shè)計(jì)、模型訓(xùn)練、驗(yàn)證、發(fā)布可形成一個(gè)流水線管理模式。
(1)樣本管理
樣本管理負(fù)責(zé)采集、維護(hù)、管理領(lǐng)域類標(biāo)簽、標(biāo)注完成的樣本集。提供按標(biāo)簽體系,按項(xiàng)目,按場景等多維管理功能。
?。?)模型管理
模型訓(xùn)練管理負(fù)責(zé)承載既有算法模板管理復(fù)用,算法模型參數(shù)調(diào)優(yōu),多算法模型對比等功能。同時(shí)承擔(dān)模型存檔、維護(hù)等功能。
?。?)模型指標(biāo)驗(yàn)證
驗(yàn)證、測試管理承擔(dān)各類模型有效性驗(yàn)證,各參數(shù)指標(biāo)測試等功能,同時(shí)提供模擬各落地場景測試環(huán)境的能力。提供功能性測試和非功能性測試環(huán)境管理。
2、數(shù)據(jù)匯聚與流式處理
平臺(tái)利用Dataexchange數(shù)據(jù)流水線的方式對數(shù)據(jù)進(jìn)行實(shí)時(shí)及批量抽取數(shù)據(jù)、清洗、轉(zhuǎn)換、過濾等流式處理,支持文件、數(shù)據(jù)庫、數(shù)倉、網(wǎng)絡(luò)、日志、大數(shù)據(jù)平臺(tái)等幾乎所有數(shù)據(jù)源及數(shù)據(jù)格式。
?。?)操作簡便:
一鍵部署,開箱即用,無需專業(yè)技術(shù)背景,簡單易學(xué),普通業(yè)務(wù)人員即可操作,降低使用及維護(hù)成本。
?。?)多種數(shù)據(jù)采集適配接口:
Oracle、SQLServer、MySQL、DB2、PostgreSQL數(shù)據(jù)庫適配器;Oracle日志采集適配器;Hadoop/HDFS/HBase/Kafka/Spark、MongoDB、Redis、TCP/UDP等多種采集適配器。
?。?)更好的兼容性,開發(fā)門檻低:
100%兼容現(xiàn)有Hadoop環(huán)境和傳統(tǒng)數(shù)據(jù)庫環(huán)境,無需用戶在流計(jì)算框架上進(jìn)行編程開發(fā)工作,提供了SQL語義的流數(shù)據(jù)分析功能,降低了使用門檻。
高并發(fā)、大吞吐、高可靠
數(shù)據(jù)傳輸可按照優(yōu)先級任務(wù)調(diào)度、支持定時(shí)批量、實(shí)時(shí)批量數(shù)據(jù)傳輸,具有大吞吐、高并發(fā)、集群化、高可靠等特點(diǎn)。
?。?)數(shù)據(jù)實(shí)時(shí)處理不落地:
數(shù)據(jù)處理過程不落地,降低存儲(chǔ)開銷數(shù)據(jù)實(shí)時(shí)計(jì)算,實(shí)時(shí)處理。
3、數(shù)據(jù)匯聚與流式處理
可完成所有的數(shù)據(jù)采集、傳輸、復(fù)制、預(yù)處理、融合和內(nèi)存計(jì)算功能;采集來自各種數(shù)據(jù)庫、消息系統(tǒng)、網(wǎng)站、移動(dòng)設(shè)備、物聯(lián)網(wǎng)等數(shù)據(jù);內(nèi)置計(jì)算平臺(tái)對采集的數(shù)據(jù)進(jìn)行實(shí)時(shí)清洗和計(jì)算分析;分析后的數(shù)據(jù)結(jié)果可實(shí)時(shí)呈現(xiàn)在用戶分析中心。
4、數(shù)據(jù)對象分析
針對對象、屬性和方法利用關(guān)系流對其中的關(guān)聯(lián)關(guān)系進(jìn)行配置。對象做為屬性與方法的載體,屬性與方法進(jìn)行關(guān)聯(lián),同時(shí)繼承面向?qū)ο蟮乃枷?,屬性也可以關(guān)聯(lián)其他對象,通過關(guān)系流配置映射業(yè)務(wù)場景,可以根據(jù)不同的業(yè)務(wù)場景,定義不同的分析對象。
?。?)對象管理
對象管理是以抽象的概念來支持業(yè)務(wù)的定義,以庫的形式來進(jìn)行承載,每一個(gè)對象都是一個(gè)業(yè)務(wù)的轉(zhuǎn)化,將業(yè)務(wù)以對象的概念進(jìn)行抽象的實(shí)現(xiàn);同時(shí)對象也是屬性與方法的載體,以對象實(shí)體表的身份存在。
?。?)屬性管理
屬性以獨(dú)立的形式存在,可以通過配置與對象和方法進(jìn)行組合,屬性代表業(yè)務(wù)場景的一個(gè)元數(shù)據(jù),屬性通過關(guān)聯(lián)方法提取的內(nèi)容做為元數(shù)組的值。
?。?)方法管理
方法實(shí)際指的就是提取數(shù)據(jù)的功能實(shí)現(xiàn),以庫的形式存在,包含算法和功能方法兩部分,算法目前是指面向NLP領(lǐng)域的算法,方法主要是數(shù)據(jù)查詢、處理功能的方法;方法可以獨(dú)立使用也可以與對象、屬性進(jìn)行關(guān)聯(lián)。