極限元聯合創始人馬驥：智能語音從技術到產品落地需要跨過幾個坑？－TC Incubator

高度、自然、便利的人機對話模式一直是人們追求的理想人機交互方式。

當前，以語音識別、語義理解、語音生成為主要核心的語音交互技術已經得到廣泛的應用，

幾乎深入到社會的各個行業，大大減少了人力資源的消耗，提高了服務的質量，

促進了社會的發展，語音技術已經對生產力的變革產生了巨大影響。

但是，現有的語音交互技術離理想中的類似人與人之間的「自然交流」還是有不小距離。

首先，現有的語音識別技術還無法準確的識別自然口語，

特別是對於帶有口音方言的語音識別和遠場條件下的語音識別的低準確率極大降低了用戶對問答系統的體驗度。

另一方面，現有語音生成技術多局限於中性風格的語音，

而人們在相互交流中，用語往往具有個性化、口語化和情感化等鮮明的特點，

也大量使用各種副語言表達方式，人們很自然的希望在人機交互過程中，語音的輸出也能夠具備這些特徵。

因此，智能語音要想真正落地需要在以下幾個方面取得突破：

1、提升語音識別系統對方言、口音的適應能力，拓寬其在垂直領域的應用

在方言、口音上，現有的識別系統除了在訓練語料上增加相應口音的語音數據和相應方言的文本語料外，

還沒有一個很好的解決方案。

傳統的自適應方法能夠在一定程度上緩解方言、口音帶來的識別性能下降，

但與普通話語音識別性能相比還有較大的差距。

近年來隨著遷移學習的發展，採用遷移學習進行在線快速自適應，為解決方言、口音問題提供了一個可行的解決思路。

當前的人機交互系統，在面對複雜環境時的魯棒性還難以達到要求；

為了實現釋放雙手的人機之間自由通信，探索遠場語音前端處理方法變得至關重要；

針對遠場語音處理存在的痛點，需要建立一套完整的包括迴聲消除、抗混響、噪聲抑制等關鍵技術的語音前端處理系統；

該系統不僅可以提高複雜環境下目標語音的可懂度，

同時通過與後端智能語音算法匹配訓練能夠提高語音識別和聲紋識別模型的魯棒性，

可廣泛應用於智能家電、智能機器人、智能車載、會議系統等多個領域。

在垂直領域應用過程中，專有名詞、專業領域知識缺乏的情況下，現有的識別系統很難得到較高的識別準確率。

領域定製成了語音識別的一個重要應用場景。在醫療、安全、法院等領域，

語音識別系統已經發揮了重要作用，極大的降低了人力物力資源。

在社會經濟發展的各個領域，語音識別作為人機交互的重要接口，將發揮越來越大的作用。

2、提高語音合成的表現力，將應用領域拓寬到多語言、多發音人的語音合成

在語音合成的表現力上，面向自然口語的語音合成是提高合成系統表現力的最主要的途徑。

當前的語音合成系統針對朗讀體內容能夠合成出高質量的語音，

但是針對更具表現力的自然口語，合成效果不盡人意；

一方面由於系統對韻律信息的捕獲不准確，另一方面由於生成的聲學參數存在誤差；

提高自然口語語音合成的表現力，可以有效的提升語音交互系統的體驗感，極大的拓寬語音合成的應用場景。

因此，如何充分的挖掘自然口語中的語義信息，

如何針對自然口語語料提高韻律模型和聲學模型的精度將是語音合成領域急需解決的一個難題。

在語音合成的工程應用上，多說話人、多語言語音合成問題是語音合成應用的一大局限。

當前語音合成大多面向單一說話人、特定語言的語音合成，這極大的限制了語音合成技術在工業界的應用；

雖然一些自適應方法可以實現生成特定說話人的語音，但是語音音質有所下降，難以達到實用化的要求；

同時，現有的多語言語音合成方法大多需要有相應語言的音庫作為支撐，語料獲取的難度製約了這項技術的推廣。

如何利用數據驅動方法和自適應技術實現任意說話人、不同風格的高質量語音合成，

如何充分挖掘不同語言的發音空間，在語料受限條件下實現多語言語音合成，

上述問題的解決將極大拓寬語音合成的應用場景。

伴隨人工智能的發展，智能語音交互時代漸漸開啟，語音作為一種重要的交互方式不可或缺。

智能語音行業具有非常光明的發展前景，

尤其是在智能交互不斷更迭的物聯網時代，智能語音技術來得恰是時機；很多人把它看做是下一波風口。

智能語音發展到今天還談不上真正實用，需要解決從技術到產品落地的關鍵問題，不斷的成長和發展。

原文出處/36Kr