課程簡介
案例背景:
未來人機交互的方式已成為行業(yè)研究探索的熱點,毫無疑問,自然交互是最重要的目標,而多模態(tài)人機交互則是實現自然交互的非常關鍵的技術,如何實現多模態(tài)的識別、理解、表達都遇到很大的挑戰(zhàn),本次報告希望能夠分享搜狗在多模態(tài)人機交互上的思考,特別在如何實現多模態(tài)融合識別以及表達上的工作。
解決思路:
我們的研究重點主要放在如下三項技術的研究,目前行業(yè)都屬于探索階段,搜狗率先實現了實用化落地,在落地過程中結合產品需求設計算法和工程,非常關鍵:
1. 多模態(tài)識別技術
2. 多模態(tài)表達技術
3. 面向自然交互的數字人技術
成果:
我們實現了語音+唇語的多模態(tài)識別技術,在高噪情況下識別錯誤率可以下降40%以上,同時我們在數字人技術上實現了重大突破,發(fā)布了搜狗分身,真正實現了數字人的生產和驅動,最終能夠實現自然交互式的人與數字人的交流對話。
目標收益
1. 了解人機交互目前的趨勢
2. 了解語音交互過程各個環(huán)節(jié)的研發(fā)進展及應用情況
3. 了解以數字人為基礎的多模態(tài)交互研發(fā)進展及應用情況
培訓對象
課程內容
案例方向
智能語音/NLP/推薦/廣告系統實戰(zhàn)/計算機視覺
案例背景
未來人機交互的方式已成為行業(yè)研究探索的熱點,毫無疑問,自然交互是最重要的目標,而多模態(tài)人機交互則是實現自然交互的非常關鍵的技術,如何實現多模態(tài)的識別、理解、表達都遇到很大的挑戰(zhàn),本次報告希望能夠分享搜狗在多模態(tài)人機交互上的思考,特別在如何實現多模態(tài)融合識別以及表達上的工作。
收益
1. 了解人機交互目前的趨勢
2. 了解語音交互過程各個環(huán)節(jié)的研發(fā)進展及應用情況
3. 了解以數字人為基礎的多模態(tài)交互研發(fā)進展及應用情況
解決思路
我們的研究重點主要放在如下三項技術的研究,目前行業(yè)都屬于探索階段,搜狗率先實現了實用化落地,在落地過程中結合產品需求設計算法和工程,非常關鍵:
1. 多模態(tài)識別技術
2. 多模態(tài)表達技術
3. 面向自然交互的數字人技術
結果
我們實現了語音+唇語的多模態(tài)識別技術,在高噪情況下識別錯誤率可以下降40%以上,同時我們在數字人技術上實現了重大突破,發(fā)布了搜狗分身,真正實現了數字人的生產和驅動,最終能夠實現自然交互式的人與數字人的交流對話。