大皖新聞訊 6月24日,新安晚報、安徽網、大皖新聞記者獲悉,安徽省共有10個項目榮獲2023年度國家科學技術獎。
由科大訊飛股份有限公司牽頭,聯合中國科學技術大學、清華大學、華為終端有限公司、中移(杭州)信息技術有限公司等高校及行業領軍企業聯合完成的“多語種智能語音關鍵技術及產業化”項目榮獲2023年度國家科技進步獎一等獎。據悉,這是深度學習引發新一代人工智能浪潮以來人工智能領域首個國家科技進步獎一等獎。
多語種智能語音技術具有重大戰略意義
據了解,多語種智能語音技術對于支撐人機交互、人類語言互通及國家安全等需求具有重大戰略意義,具有十分廣闊的產業前景,是當前國際科技競爭核心焦點之一。智能語音面臨三大關鍵技術挑戰:一是如何突破復雜場景語音技術大規模實用門檻;二是如何實現語音技術的多語種覆蓋;三是如何基于自主可控的平臺、實現國產軟硬件的語音產業鏈自主可控。
圍繞上述挑戰,科大訊飛聯合各單位、企業持續攻關十余年,取得了技術突破:通過提出復雜語音信號解耦建模技術(注:“解耦”指將原始說話人語音拆分成多個維度的成分特征或音頻成分),實現了內容、韻律、音色等多種屬性充分解耦,使得復雜場景下語音識別準確率和語音合成表現力得到重大突破,語音轉寫準確率首次超過專業速記員水平;通過提出多語種共享建模技術,解決小語種知識匱乏、訓練數據稀缺的難題,實現多語種語音技術打破國外壟斷;通過語音語義聯合建模,使得語音交互、翻譯的深層次理解得到重大突破;通過提出國產異構硬件平臺訓練及推理加速技術,首次實現智能語音在國產芯片上的訓練和推理性能達到國際主流芯片水平,構建形成自主可控的智能語音技術體系。
帶動“中國聲谷”實現產業規模集聚
記者了解到,該項目技術多次獲得國際權威競賽的冠軍,達到國際領先水平:在語音合成技術上,從2006年到2019年,連續14年獲得Blizzard Challenge國際語音合成大賽冠軍;在語音識別技術上,2016-2023年,連續獲得國際多通道語音分離和識別大賽CHiME四連冠,2021年在國際低資源多語種語音識別競賽OpenASR中獲得所有15個語種受限賽道和7個語種非受限賽道的冠軍;在多語種翻譯技術上,2018年11月首次達到CATTI考試英語二級《口譯實務(交替傳譯類)》合格標準,并在2021-2023年,連續三屆獲得IWSLT(國際口語機器翻譯比賽)冠軍,覆蓋同傳、離線、方言翻譯等多類任務。
該項目還構建了自主可控的多語種產業生態:支持華為手機、奇瑞汽車、比亞迪汽車等上億臺套產品出海,汽車出海目前已覆蓋23個語種,出口60余個國家;開創AI翻譯機等智能硬件品類,覆蓋全球200多個國家和地區,能夠解決用戶全球旅游、商務等跨語言溝通問題,在北京冬奧會、進博會、博鰲論壇、國家安全、海關等重大活動和場景中獲廣泛應用。
而根據德勤數據發布的《2020-2021中國語音產業發展白皮書》及華經產業研究院的《2023-2028年中國智能語音行業市場發展現狀及投資方向研究報告》,科大訊飛穩居語音產業國內市場第一,在全球多語種市場占比8.1%,并持續提升。同時,作為國家新一代人工智能開放創新平臺,科大訊飛提供了69個語種語音能力,并帶動了“中國聲谷”實現產業規模集聚。
新安晚報 安徽網 大皖新聞記者 魏鑫鑫
請輸入驗證碼