透視科大訊飛“同傳造假”：技術鴻溝未跨越

發布日期：2018-10-03 來源：中國經濟網瀏覽次數：596

核心提示：近日，人工智能語音領域領軍企業科大訊飛被曝出同傳造假，科大訊飛官方回應這是由于與同傳譯員溝通不足造成的誤會。　　據悉，引

近日，人工智能語音領域領軍企業科大訊飛被曝出“同傳造假”，科大訊飛官方回應這是由于與同傳譯員溝通不足造成的誤會。

　　據悉，引發此次事件是在2018創新與新興產業發展國際會議上，該會議曾以“機器翻譯”作為宣傳，科大訊飛官方最近解釋稱這種方式是“人機耦合”，并承認機器翻譯仍難以代替人工。

　　物聯網資深專家楊劍勇對《中國經營報》記者表示，科大訊飛提出人機耦合背后，是智能(機器)翻譯技術相對語音識別技術難度更大。

　　近年來，隨著AI的熱度遞增，機器翻譯也呈現出爆發之勢。但根據本報記者了解，實際行業現狀是目前機器翻譯仍難以達到接近人類對話的效果，盡管不同企業開始競相研發機器翻譯新品，但如何令翻譯更準確是AI領域待解的一大難題。

　　　技術鴻溝未跨越

　　曾在臉書擔任軟件實習工程師的王謨，目前在知乎上有6萬關注人次，是語音領域方面的專業答主。王謨告訴記者，“語音識別”是指把聲音轉換成文字的過程，不包括后續的理解、翻譯等。而“同傳”(同聲傳譯)指的是在(識別)一個人說話的同時翻譯成另一種(語言)。

　　業內普遍認為AI同傳比語音識別更難，只有先識別才能進行翻譯。據了解，搜狗機器同傳技術系統需要將語音預處理、語音識別、文本預處理、機器翻譯、語音合成五項技術模塊進行結合。

　　中國傳媒大學研究大數據與人工智能方向的教授沈浩認為，目前機器翻譯這方面的技術已經成熟，水平強于(英語)六級，但易受處于近場或遠場、有無噪音等因素影響。

　　沈浩對本報記者舉例：“如果是日常生活用語，以及標準的一些話語，都沒有問題，但涉及到詩、歌、抒情散文等，翻譯結果容易出現問題。”

　　北京市速記協會理事長唐可為認為同傳翻譯和速錄都要求精準，速錄員和同傳翻譯在速錄和翻譯過程中要求精簡記錄，進行語義理解后更接近講話者的記錄，而目前的同傳翻譯并不能做到結合上下文完整表達句子意思。

　　“很多時候，機器速錄、機器翻譯后還需要人為進行實時修改，甚至更考驗速錄員和同傳翻譯，還更耗費時間。”唐可為表示。

　　搜狗語言交互技術中心技術總監陳偉表示，同傳場景對語音識別的要求很高，錯一個字對于源語言的理解基本不受影響，但若將同傳后的文字翻譯成另一種語言，可能整句都是錯的。

　　科大訊飛方面則對本報記者表示，目前機器翻譯已經取得非常大的進步，能夠幫助人們在一些場景中處理語言交流的問題，但距離會議同傳以及高水平翻譯所講究的“信、達、雅”(翻譯中常要求的忠實原文、通順暢達、譯文優美三大原則)還存在很大的差距。

　　盡管有深度學習技術在語音、翻譯等領域的快速突破以及大數據的紅利，但是相比于訓練有素的人工而言，機器實際上缺乏語音識別的穩定性、機器翻譯的穩定性、對語言理解和再創造的能力。

　　此外，機器同傳要與人工同傳媲美，就要聰明而靈活地結合前后內容進行“創作”。陳偉表示，人工同傳是對譯文二次創造，因此譯文往往流利度高，而機器對于口語化、命名實體和多義詞較多等情況下翻譯效果不夠好，目前(利用機器進行)同傳翻譯仍基于當前單句進行翻譯，上文的歷史信息無法較好使用，以及在語言的理解和再創造的能力方面，目前機器無法基于原文進行引申和擴展，確保翻譯效果的流暢性。

　　仍具備實際性價值

　　繼前兩年微軟、百度、騰訊、科大訊飛、谷歌等紛紛推出翻譯軟件、發布翻譯機器后，本報記者梳理發現，今年市面上僅公開發布的產品就有近十款，包括搜狗推出的搜狗旅行翻譯寶、搜狗速記翻譯筆、搜狗錄音翻譯筆記、搜狗翻譯寶pro。華為、360手機、OPPO在推出新機時以機器翻譯為賣點，甚至業內一家手機品牌糖果手機直接打出了“翻譯手機”的概念，而獵豹移動也推出了一款小豹AI翻譯棒。

　　“翻譯機不是高高在上的黑科技，而是通過場景落地，解決用戶在特定場景中需求的真正有用的技術。” 獵豹移動CEO傅盛在推出小豹AI翻譯棒時稱。

　　易觀互動娛樂組群高級分析師殷實告訴本報記者，從商業或者專業會議的角度來看，翻譯機還未能代替人工翻譯在正式場合運用，更多是扮演一個輔助工具角色。“今年來，翻譯技術火爆的原因主要在于它對翻譯精度要求不高場合下有很高的使用價值。”

　　殷實認為，目前，翻譯機在市場上主要用于在類似出行、旅游等對翻譯精度要求相對低一些的行業，為游客解決在國外語言不通的問題，甚至在一定程度上推動了旅游業的發展。

　　據易觀千帆的數據，旅游APP的月活躍用戶量一年內增長了近30%，國外游的熱度也一直沒有減退。殷實認為，不能因為機器翻譯當下存在問題就否認它存在的價值。

　　陳偉表示，對比人工同傳和機器同傳的能力，機器相較于人的優勢是：機器基于海量數據能針對某個領域進行快速學習，機器同傳能夠忠實原文，一般不會遺漏譯文，可長時間記憶，機器能夠實現快速、高并發的部署，同時支持多場會議的同傳，很大程度緩解人工同傳資源不足的問題，降低同傳成本。

　　盡管機器翻譯的發展未完全盡如人意，但是陳偉認為機器翻譯目前滿足部分使用需求的價值已經顯現。近些年，各種規模的國際交流越來越多，從行業大會到閉門小會，甚至到課堂培訓，均存在同傳的需求，而目前雖然有不錯的大量(人工)同傳從業者，但事實上還仍滿足不了國際交流的需求。

　　沈浩認為，目前機器學習算法的趨勢慢慢接近人工同傳的可靠性，人們應該注重事物未來的發展趨勢。

　　準確度壁壘待破

　　本報記者注意到，市場也不乏有眾多聲音稱某某產品語音識別準確率、翻譯準確率能達到多少。就語音識別準確率而言，各家公司自有其說法。

　　搜狗、百度和科大訊飛三家公司2016年11 月各自宣布其中文語音識別準確率達到了 97%。搜狗稱其語音翻譯的準確率可以達到90%。今年6月，央廣網科技報道稱，目前訊飛輸入法的語音識別準確率提升到98%。近日，科大訊飛方面對本報表示，其機器翻譯已經達到大學六級水平，2019年將達到英語專業八級水平。

　　王謨告訴本報記者，行業內一般采用“詞錯誤率”進行測評，這個標準主要是看測試所用的“數據集”的難度，不同的數據集難度不同，所以單看一個詞錯誤率的數字，并不能判斷系統性能的好壞。如果要對技術進行測評，必須指明在哪個數據集上取得了這樣的詞錯誤率。王謨舉例表示，在一個叫 Switchboard 的數據集上，目前微軟和 IBM 都做到了百分之五點幾的詞錯誤率，已是行業領先。

　　王謨告訴記者，用標準數據集來測試也有局限性，一些標準數據集里沒有考慮到噪音環境，另外，有團隊可能專注于“刷榜”，把標準數據集上的詞錯誤率刷到很低，但一換成別的數據，就會“現出原形”。

　　“這也是為什么有些時候一個宣傳得很牛的產品到了實際中就各種不好用。畢竟實際環境是千變萬化的，如果訓練時沒有覆蓋到這么廣的實際場景，在實際中就容易出問題。”王謨向本報記者解釋道。

　　陳偉告訴本報記者，“現在很多翻譯機的產品，特別是低價的翻譯機更多是從第三方公司獲取，這種情況下很難做二次的優化和開發。”

　　“根據我們在同傳產品得到的經驗，它并不是簡單的‘語音識別+翻譯’，出現‘1+1>2’的能力，往往(現實是)遠遠小于2，所以我們要把單點能力做好，同時產生‘1+1=2’甚至遠大于2的效果。這件事情是目前搜狗同傳和搜狗翻譯寶具有的技術壁壘。”陳偉說。

　　沈浩認為各主要玩家的語音識別準確率已經差別不大，廠商們均掌握著技術原理，只是看哪家能夠不斷地去訓練，對結果進行提升，如準確率從95%提升至96%，但實際上達到95%的準確率時，就可以將其現實化和商業化。“所以判斷他們哪一款產品優秀，我也只能談他們的界面、開源甚至使用成本等其他方面。”沈浩表示。

　　沈浩表示，從國內外對比上，谷歌能夠實現全球多種語言之間的互譯，而國內企業，例如科大訊飛主要是漢語以及方言的識別，或解決主流使用語言的翻譯。

　　陳偉表示，搜狗正在橫向擴展多語種的機器翻譯技術，實現跨語音交流，“在這個技術上面臨的很大問題是，如果我們沒有足夠的數據怎么辦？在沒有足夠數據時，我們會考慮要不要面向于低資源(一門語言的數據很少，不足夠訓練語音識別或機器翻譯系統的資源)，或者是做沒有數據、單向的翻譯語料，或者是文本語料，做兩個語種之間的翻譯。”陳偉表示，“這兩項技術是目前我們著重做的。” 中國經營報

關鍵詞： 天井棉過濾棉。www.waedb.com/

下一篇：國務院關稅稅則委員會:中國關稅總水平將降至7.5%
上一篇：證監會修訂這個規則：目標直指大股東侵占抵御“野蠻人”

[ 資訊搜索 ] [ ] [ 告訴好友 ] [ 打印本文 ] [ 關閉窗口 ]

同類資訊

推薦圖文

空氣凈化器的暴利時代

淺析凈水器行業發展現

推薦資訊

點擊排行

• 漸進式、有彈性、有差別地實施——權威專家前瞻	• “未來五年，中國將取得了不起的成就”
• “十四五”開局之年，數字經濟怎么干？	• 醫療保障基金使用監督管理條例
• 廣州黃埔：“科技+旅游”建設美麗鄉村	• 古裝劇里的醫學知識看看就算了，千萬別當真
• 免疫知識這些“坑”，職場女性踩了幾個	• 專家熱議醫美行業：形成“良幣驅逐劣幣”效應
• 別隨便拔倒刺這一行為可能讓你進醫院	• 或危及人身安全購買活體盲盒勿盲目

www.夜夜-国产乱人视频-国产成人愉拍精品-亚洲男同志**可播放xnxx|www.waedb.com

透視科大訊飛“同傳造假”：技術鴻溝未跨越