1月11日,由國(guó)家工業(yè)信息安全發(fā)展研究中心主辦,科大訊飛股份有限公司、國(guó)家語(yǔ)音及圖像識(shí)別產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)中心、國(guó)家智能語(yǔ)音創(chuàng)新中心協(xié)辦的中國(guó)智能語(yǔ)音產(chǎn)業(yè)發(fā)展高峰論壇暨2022年中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟年會(huì)成功舉辦。
會(huì)上,中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟發(fā)布《中國(guó)智能語(yǔ)音產(chǎn)業(yè)發(fā)展報(bào)告(2021―2022)》,報(bào)告指出,我國(guó)智能語(yǔ)音產(chǎn)業(yè)整體發(fā)展環(huán)境積極向好,多項(xiàng)關(guān)鍵技術(shù)取得突破,產(chǎn)業(yè)扎根不斷深入,已形成大中小企業(yè)融通創(chuàng)新、協(xié)同發(fā)展的健康生態(tài)。
市場(chǎng)規(guī)模高速增長(zhǎng)龍頭企業(yè)占據(jù)主導(dǎo)份額
智能語(yǔ)音作為智能時(shí)代人機(jī)交互的關(guān)鍵接口,各行業(yè)爆發(fā)式的場(chǎng)景需求驅(qū)動(dòng)行業(yè)發(fā)展進(jìn)入黃金期,技術(shù)突破和應(yīng)用落地不斷深入。從全球范圍來(lái)看,2022年全球智能語(yǔ)音產(chǎn)業(yè)規(guī)模將達(dá)351.2億美元,保持33.1%的高速增長(zhǎng);從我國(guó)來(lái)看,根據(jù)德勤統(tǒng)計(jì)數(shù)據(jù),2022年我國(guó)智能語(yǔ)音市場(chǎng)規(guī)模將達(dá)341億元,同比增長(zhǎng)13.4%。
報(bào)告指出,以科大訊飛為代表的語(yǔ)音龍頭企業(yè)布局較廣,是行業(yè)創(chuàng)新發(fā)展的支柱,占據(jù)較大市場(chǎng)份額。同時(shí),科大訊飛、百度、阿里等龍頭企業(yè)通過(guò)打造技術(shù)能力開(kāi)放平臺(tái),構(gòu)建開(kāi)源生態(tài),引領(lǐng)行業(yè)技術(shù)創(chuàng)新和應(yīng)用開(kāi)發(fā)。以訊飛開(kāi)放平臺(tái)為例,目前已開(kāi)放545項(xiàng)AI產(chǎn)品及能力,聚集超過(guò)380.5萬(wàn)開(kāi)發(fā)者團(tuán)隊(duì),開(kāi)發(fā)出超過(guò)159.5萬(wàn)個(gè)AI應(yīng)用,并從AI龍頭�開(kāi)發(fā)者的“二維”生態(tài),升級(jí)到AI龍頭�行業(yè)龍頭�開(kāi)發(fā)者的“三維”生態(tài),聯(lián)合行業(yè)龍頭搭建基線系統(tǒng),讓更多開(kāi)發(fā)者加入數(shù)字經(jīng)濟(jì)浪潮。
關(guān)鍵技術(shù)突破筑牢行業(yè)堅(jiān)實(shí)底座
“2022年是智能語(yǔ)音技術(shù)突破的關(guān)鍵年”,報(bào)告指出,我國(guó)智能語(yǔ)音企業(yè)在多項(xiàng)難點(diǎn)技術(shù)上實(shí)現(xiàn)新的突破。縱向上從語(yǔ)音識(shí)別、合成、翻譯向計(jì)算機(jī)視覺(jué)、認(rèn)知智能、運(yùn)動(dòng)智能領(lǐng)域延伸,橫向上從單點(diǎn)技術(shù)突破模式發(fā)展到機(jī)器認(rèn)知、多模式復(fù)雜場(chǎng)景應(yīng)用。
在語(yǔ)音識(shí)別方面,視聽(tīng)融合的多模態(tài)交互技術(shù)成為技術(shù)演進(jìn)的主要方向??拼笥嶏w多模語(yǔ)音增強(qiáng)技術(shù)融合語(yǔ)音與視覺(jué)的多模感知,讓高噪音場(chǎng)景下的語(yǔ)音交互跨過(guò)實(shí)用門檻,率先在車載、會(huì)議、地鐵購(gòu)票和醫(yī)療掛號(hào)等場(chǎng)景落地。此外,針對(duì)低資源語(yǔ)音識(shí)別難題,海天瑞聲和科大訊飛分別從語(yǔ)音數(shù)據(jù)和算法層面推動(dòng)技術(shù)進(jìn)步。
在語(yǔ)音合成方面,隨著電商直播等行業(yè)的繁榮,語(yǔ)音合成技術(shù)也表現(xiàn)出擬人化、口語(yǔ)化的發(fā)展趨勢(shì)??拼笥嶏w多風(fēng)格多情感語(yǔ)音合成系統(tǒng)SMART-TTS可提供11種強(qiáng)度可調(diào)的情感合成能力。而火山語(yǔ)音的超自然對(duì)話語(yǔ)音合成和Meta的語(yǔ)音對(duì)語(yǔ)音翻譯(speech- to- speech translation,S2ST),通過(guò)在模型訓(xùn)練中添加副語(yǔ)言數(shù)據(jù),讓語(yǔ)音交互更加自然和個(gè)性化。
要促進(jìn)智能語(yǔ)音技術(shù)持續(xù)突破,與會(huì)專家從兩個(gè)方向提出了發(fā)展路徑。一方面,中國(guó)科學(xué)院院士姚建銓指出,針對(duì)智能語(yǔ)音多學(xué)科交叉的學(xué)科特性,研究人員需要探索新原理、新機(jī)制、新材料、新工藝和新器件,集成創(chuàng)新推動(dòng)核心技術(shù)進(jìn)步;另一方面,語(yǔ)音技術(shù)需要進(jìn)一步向深度理解延伸,科大訊飛總裁吳曉如表示,“更先進(jìn)的語(yǔ)音交互系統(tǒng)不僅要‘能聽(tīng)會(huì)說(shuō)’,還要深度去理解人的信息”,自然語(yǔ)言理解和知識(shí)推理技術(shù)的進(jìn)步,讓機(jī)器可以在越來(lái)越多的領(lǐng)域幫助人類解決更專業(yè)和復(fù)雜的問(wèn)題。
應(yīng)用規(guī)?;涞丶铀倥c實(shí)體經(jīng)濟(jì)融合
報(bào)告指出,受疫情和產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型影響,智能語(yǔ)音應(yīng)用場(chǎng)景迅速鋪開(kāi)。據(jù)德勤統(tǒng)計(jì)數(shù)據(jù),預(yù)計(jì)到2030年,智能語(yǔ)音消費(fèi)級(jí)和企業(yè)級(jí)應(yīng)用市場(chǎng)可分別超過(guò)700億和千億規(guī)模。
在消費(fèi)者產(chǎn)品領(lǐng)域,AI學(xué)習(xí)機(jī)、翻譯筆等AI�學(xué)習(xí)產(chǎn)品幫助學(xué)生學(xué)習(xí)減負(fù)增效;智能
錄音筆、智能辦公本、智能鼠標(biāo)等AI�辦公產(chǎn)品深受職場(chǎng)人士歡迎;AI翻譯機(jī)、智能麥克風(fēng)、智能語(yǔ)音鍵盤、智能耳機(jī)、智能助聽(tīng)器等AI�生活產(chǎn)品,讓更多人享受AI科技的便利。
在汽車領(lǐng)域,智能語(yǔ)音已成為人機(jī)交互關(guān)鍵環(huán)節(jié),并從車內(nèi)交互衍生到車外交互,從單模交互走向多模交互,從被動(dòng)交互發(fā)展為主動(dòng)交互,為車企提供全棧技術(shù)賦能。以科大訊飛為代表的國(guó)內(nèi)AI龍頭已占據(jù)中國(guó)語(yǔ)音交互車端應(yīng)用行業(yè)的領(lǐng)先地位。
在運(yùn)營(yíng)商領(lǐng)域,智能語(yǔ)音技術(shù)與健康養(yǎng)老、家庭教育、家庭娛樂(lè)等場(chǎng)景結(jié)合,帶來(lái)更加智慧的家庭生活體驗(yàn)。融合5G與機(jī)器翻譯技術(shù)的無(wú)障礙智能通信,讓普通的5G手機(jī)用戶不用下載任何軟件就可以使用實(shí)時(shí)翻譯和轉(zhuǎn)寫(xiě)服務(wù),實(shí)現(xiàn)跨語(yǔ)種的無(wú)障礙視頻通話。
在教育領(lǐng)域,科大訊飛全球中文學(xué)習(xí)平臺(tái)已覆蓋全球183個(gè)國(guó)家,吸引300多萬(wàn)海外中文學(xué)習(xí)愛(ài)好者使用;利用智能語(yǔ)音和人工智能技術(shù)可實(shí)現(xiàn)英語(yǔ)聽(tīng)說(shuō)教、學(xué)、考、評(píng)、管一站式服務(wù),減少無(wú)效訓(xùn)練。
在醫(yī)療領(lǐng)域,去年疫情期間,科大訊飛電話機(jī)器人助力全國(guó)31個(gè)省(區(qū)、市)的112個(gè)地市疫情排查,累計(jì)服務(wù)超1.1億人次;智能外呼和智醫(yī)助理可用于獨(dú)居老人、留守兒童的日常關(guān)愛(ài)和兜底保障。
在城市領(lǐng)域,智能語(yǔ)音技術(shù)已在安徽省一體化網(wǎng)上政務(wù)服務(wù)平臺(tái)、山東聊城城市大腦、海南三亞市崖州灣科技城智慧產(chǎn)城園區(qū)、天津市AI銀發(fā)智能服務(wù)平臺(tái)等創(chuàng)新示范項(xiàng)目中應(yīng)用。姚建銓院士指出,智能語(yǔ)音與建設(shè)智慧城市的要求完全吻合,可以實(shí)現(xiàn)各種語(yǔ)音高效轉(zhuǎn)換和智能處理,為智慧城市進(jìn)一步建設(shè)帶來(lái)新的機(jī)遇。
在工業(yè)領(lǐng)域,我國(guó)打造了包括國(guó)家智能語(yǔ)音創(chuàng)新中心在內(nèi)的一批語(yǔ)音技術(shù)創(chuàng)新“國(guó)家隊(duì)”,開(kāi)展工業(yè)聲學(xué)、多語(yǔ)種、AI語(yǔ)音芯片等關(guān)鍵共性技術(shù)研究工作??拼笥嶏w聯(lián)合國(guó)家智能語(yǔ)音創(chuàng)新中心打造的工業(yè)聽(tīng)診器、聲學(xué)成像儀、工業(yè)設(shè)備衛(wèi)士、智能巡檢機(jī)器人等“工業(yè)六感”產(chǎn)品,已廣泛應(yīng)用到生產(chǎn)、質(zhì)檢、巡檢等多個(gè)工業(yè)環(huán)節(jié)。
在金融領(lǐng)域,聲紋識(shí)別技術(shù)已經(jīng)被應(yīng)用在各類身份認(rèn)證環(huán)節(jié)。得意音通董事長(zhǎng)鄭方表示,聲紋是目前除DNA外最可靠的身份認(rèn)證方式,相比傳統(tǒng)方法具有明顯優(yōu)勢(shì)。此外,科大訊飛智能客服機(jī)器人、智能聯(lián)絡(luò)中心AICC等AI�金融應(yīng)用,幫助金融機(jī)構(gòu)提升客服和運(yùn)營(yíng)效率。
展望智能語(yǔ)音產(chǎn)業(yè)未來(lái)發(fā)展,報(bào)告認(rèn)為,后競(jìng)爭(zhēng)時(shí)代亟須關(guān)注新增的不確定性因素,包括核心關(guān)鍵技術(shù)能力仍需提升,開(kāi)源生態(tài)培育仍需加大投入,重點(diǎn)應(yīng)用場(chǎng)景落地仍需提速,傳統(tǒng)行業(yè)開(kāi)放場(chǎng)景動(dòng)能不足等。