大皖新聞訊 幾天前,科大訊飛牽頭完成的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目榮獲2023年度國家科技進(jìn)步獎一等獎。而在6月27日下午的“訊飛星火大模型V4.0發(fā)布會”上,科大訊飛展現(xiàn)了星火語音大模型的新突破,即實現(xiàn)74個語種方言“自由對話”,破解強(qiáng)干擾場景下的語音識別難題。
74個語種方言“自由對話”
一會是合肥話,一會是上海話,一會是粵語,一會是英語,一會是法語……現(xiàn)場,工作人員演示了訊飛輸入法混合方言和外語的語音輸入效果,能讓輸入效率大大提高。當(dāng)天,星火語音大模型發(fā)布國際領(lǐng)先的多語種多方言免切換語音識別能力,可支持37個語種、37種方言“自由對話”。其中,37個語種識別效果領(lǐng)先OpenAI whisper-V3,37個方言識別效果平均提升30%。
一個人在安靜的環(huán)境中說話,容易被語音識別,好幾個人一起在嘈雜的氛圍中對話,就很難被機(jī)器“聽清”,這是全球智能語音領(lǐng)域面對的共同難題。針對強(qiáng)干擾場景下的語音識別難題,科大訊飛也突破了多人混疊場景下的極復(fù)雜場景語音轉(zhuǎn)寫,即使在三人混疊說話場景,也能實現(xiàn)86%的語音識別準(zhǔn)確率。
現(xiàn)場,三位訊飛研究院的研究員現(xiàn)場實測了在噪音場景下,同時混疊著說話。此時,正常人耳已難以聽清,但訊飛星火的多模態(tài)能力不但實現(xiàn)了三人重疊語音的角色分離,還能實時轉(zhuǎn)寫出每個人說的話。“未來基于多模態(tài)的聲音識別技術(shù),將應(yīng)用在訊飛聽見智慧辦公、智慧屏等會議辦公產(chǎn)品中。”科大訊飛董事長劉慶峰說。
在劉慶峰看來,語音將成為萬物互聯(lián)時代人機(jī)交互的主要方式,人機(jī)交互最重要的場景是遠(yuǎn)場、噪聲、多人說話、多語言,因此,萬物互聯(lián)時代的AIUI(人工智能用戶界面)要滿足遠(yuǎn)場高噪聲、多語言多方言、全雙工、多模態(tài)等標(biāo)準(zhǔn)。
目前,智能語音技術(shù)也用于智能網(wǎng)聯(lián)汽車中,為安徽首位產(chǎn)業(yè)貢獻(xiàn)力量。“在大模型加持下,星火汽車智能座艙全新升級,不但具備了多語種多方言的‘自由交互’,還具備多情感多模態(tài)的超擬人交互,讓人車交互更有溫度。”劉慶峰說,目前訊飛語音交互產(chǎn)品國內(nèi)市占率穩(wěn)居第一,星火大模型為一汽、奇瑞、廣汽、江淮、長城等車企的眾多車型,賦予了高度智能的交互體驗,同時廣泛出口到世界各地。
8個國際主流測試集測評第一
智能語音的新成果,得益于星火大模型的再次突破。
當(dāng)天,科大訊飛發(fā)布了訊飛星火大模型V4.0及相關(guān)落地應(yīng)用。基于全國首個國產(chǎn)萬卡算力集群“飛星一號”,訊飛星火V4.0七大核心能力全面提升,全面對標(biāo)GPT-4 Turbo,并實現(xiàn)在文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)能力等方面的整體超越。
劉慶峰說,訊飛星火V4.0在圖文識別能力上進(jìn)一步升級,在科研、金融、醫(yī)療、司法、辦公等場景的應(yīng)用效果已領(lǐng)先GPT-4o。此外,星火長文本能力也全新升級,并針對長文檔知識問答的幻覺問題,業(yè)界首發(fā)溯源功能。
外部權(quán)威測試集也體現(xiàn)出訊飛星火V4.0的領(lǐng)先性。在國內(nèi)外12項大模型主流測試集中,訊飛星火在8個測試集中排名第一,超越GPT-4 Turbo等國際大模型,國內(nèi)大模型全面領(lǐng)先。
現(xiàn)場,劉慶峰展示了訊飛星火V4.0在復(fù)雜指令、復(fù)雜邏輯推理、空間推理、高中數(shù)學(xué)等方面的效果,星火“智商”再度進(jìn)化。以空間推理為例,“Bob在客廳里。他拿著一個杯子走到廚房。他把球放進(jìn)杯子里,然后拿著杯子走到臥室。他把杯子倒過來,然后走到花園。他把杯子放在花園里,然后走到車庫。問題:球在什么地方?”訊飛星火可以基于空間和常識推斷出球在臥室的地面上,這些能力的進(jìn)步對于以后的具身智能、家庭機(jī)器人都具有意義。
訊飛星火APP還發(fā)布“個人空間”,用戶可以上傳自己的工作、學(xué)習(xí)、生活、健康等各類資料,形成每個人的專屬知識庫,再結(jié)合人設(shè),讓大模型生成更個性化內(nèi)容。科大訊飛研究院院長劉聰現(xiàn)場演示“個人空間”效果,當(dāng)他上傳了女兒寫的小作文并選取符合女兒風(fēng)格的AI人設(shè)標(biāo)簽后,星火生成了一篇活潑、可愛更個性化的文章;當(dāng)他上傳了訊飛翻譯機(jī)的產(chǎn)品海報、用戶短視頻、相關(guān)錄音,星火也可以根據(jù)這些多模態(tài)信息生成產(chǎn)品培訓(xùn)文檔,還可以對生成的信息進(jìn)行多模態(tài)溯源。
羚羊能源大模型發(fā)布
當(dāng)天,羚羊工業(yè)互聯(lián)網(wǎng)平臺是安徽省打造的工業(yè)互聯(lián)網(wǎng)綜合服務(wù)平臺。當(dāng)前,能源革命新浪潮涌起,大模型如何助力清潔能源發(fā)展?當(dāng)天,在通用大模型的底座能力的助力下,羚羊能源大模型也正式發(fā)布。
據(jù)了解,羚羊能源大模型擁有設(shè)備運(yùn)檢、電力問數(shù)、電力營銷客服、輔助電力交易、新能源功率預(yù)測、安全生產(chǎn)等6大“大模型+能源”場景應(yīng)用。其中,“設(shè)備運(yùn)檢”系統(tǒng)是電力場站的“數(shù)字化運(yùn)營大腦”,可用于光伏等領(lǐng)域,“不僅具備精準(zhǔn)事故研判能力,還具備智能決策生成能力。”
比如,供電公司臺區(qū)經(jīng)理在處理上門問題前,需要登錄不同的系統(tǒng)獲取商戶相關(guān)的信息,“電力問數(shù)”利用羚羊能源大模型,接入不同業(yè)務(wù)系統(tǒng)數(shù)據(jù)后,可以讓臺區(qū)經(jīng)理通過自然語言的問答,隨時隨地獲數(shù)據(jù),預(yù)計數(shù)據(jù)獲取時間可以節(jié)約60%。
據(jù)了解,目前羚羊已經(jīng)和國家能源集團(tuán)、中國石油等展開相關(guān)合作,通過共建能源大模型,推動AI與能源的雙向賦能,助力中國能源行業(yè)高質(zhì)量發(fā)展。
大皖新聞記者 項磊 實習(xí)生 唐雪玲
編輯 張思平
請輸入驗證碼