課程簡介
案例背景:
未來人機(jī)交互的方式已成為行業(yè)研究探索的熱點(diǎn),毫無疑問,自然交互是最重要的目標(biāo),而多模態(tài)人機(jī)交互則是實(shí)現(xiàn)自然交互的非常關(guān)鍵的技術(shù),如何實(shí)現(xiàn)多模態(tài)的識(shí)別、理解、表達(dá)都遇到很大的挑戰(zhàn),本次報(bào)告希望能夠分享搜狗在多模態(tài)人機(jī)交互上的思考,特別在如何實(shí)現(xiàn)多模態(tài)融合識(shí)別以及表達(dá)上的工作。
解決思路:
我們的研究重點(diǎn)主要放在如下三項(xiàng)技術(shù)的研究,目前行業(yè)都屬于探索階段,搜狗率先實(shí)現(xiàn)了實(shí)用化落地,在落地過程中結(jié)合產(chǎn)品需求設(shè)計(jì)算法和工程,非常關(guān)鍵:
1. 多模態(tài)識(shí)別技術(shù)
2. 多模態(tài)表達(dá)技術(shù)
3. 面向自然交互的數(shù)字人技術(shù)
成果:
我們實(shí)現(xiàn)了語音+唇語的多模態(tài)識(shí)別技術(shù),在高噪情況下識(shí)別錯(cuò)誤率可以下降40%以上,同時(shí)我們?cè)跀?shù)字人技術(shù)上實(shí)現(xiàn)了重大突破,發(fā)布了搜狗分身,真正實(shí)現(xiàn)了數(shù)字人的生產(chǎn)和驅(qū)動(dòng),最終能夠?qū)崿F(xiàn)自然交互式的人與數(shù)字人的交流對(duì)話。
目標(biāo)收益
1. 了解人機(jī)交互目前的趨勢(shì)
2. 了解語音交互過程各個(gè)環(huán)節(jié)的研發(fā)進(jìn)展及應(yīng)用情況
3. 了解以數(shù)字人為基礎(chǔ)的多模態(tài)交互研發(fā)進(jìn)展及應(yīng)用情況
培訓(xùn)對(duì)象
課程內(nèi)容
案例方向
智能語音/NLP/推薦/廣告系統(tǒng)實(shí)戰(zhàn)/計(jì)算機(jī)視覺
案例背景
未來人機(jī)交互的方式已成為行業(yè)研究探索的熱點(diǎn),毫無疑問,自然交互是最重要的目標(biāo),而多模態(tài)人機(jī)交互則是實(shí)現(xiàn)自然交互的非常關(guān)鍵的技術(shù),如何實(shí)現(xiàn)多模態(tài)的識(shí)別、理解、表達(dá)都遇到很大的挑戰(zhàn),本次報(bào)告希望能夠分享搜狗在多模態(tài)人機(jī)交互上的思考,特別在如何實(shí)現(xiàn)多模態(tài)融合識(shí)別以及表達(dá)上的工作。
收益
1. 了解人機(jī)交互目前的趨勢(shì)
2. 了解語音交互過程各個(gè)環(huán)節(jié)的研發(fā)進(jìn)展及應(yīng)用情況
3. 了解以數(shù)字人為基礎(chǔ)的多模態(tài)交互研發(fā)進(jìn)展及應(yīng)用情況
解決思路
我們的研究重點(diǎn)主要放在如下三項(xiàng)技術(shù)的研究,目前行業(yè)都屬于探索階段,搜狗率先實(shí)現(xiàn)了實(shí)用化落地,在落地過程中結(jié)合產(chǎn)品需求設(shè)計(jì)算法和工程,非常關(guān)鍵:
1. 多模態(tài)識(shí)別技術(shù)
2. 多模態(tài)表達(dá)技術(shù)
3. 面向自然交互的數(shù)字人技術(shù)
結(jié)果
我們實(shí)現(xiàn)了語音+唇語的多模態(tài)識(shí)別技術(shù),在高噪情況下識(shí)別錯(cuò)誤率可以下降40%以上,同時(shí)我們?cè)跀?shù)字人技術(shù)上實(shí)現(xiàn)了重大突破,發(fā)布了搜狗分身,真正實(shí)現(xiàn)了數(shù)字人的生產(chǎn)和驅(qū)動(dòng),最終能夠?qū)崿F(xiàn)自然交互式的人與數(shù)字人的交流對(duì)話。