• <dd id="ea6bk"></dd>
    <em id="ea6bk"><acronym id="ea6bk"><input id="ea6bk"></input></acronym></em>
    <li id="ea6bk"></li>
  • <nav id="ea6bk"><center id="ea6bk"></center></nav>

      關于語音識別技術在會議中的應用

      2020-08-21 09:06:22 來源:安防知識網 作者:王唯
      資訊頻道文章B

      [摘要] 語音識別技術始于幾十年前,近年來人工智能讓語音識別得到了長足發展。但由于語音識別系統對環境敏感,如何在真實的場景中落地仍有不小的挑戰。本文試圖從大數據思維角度,為會議場景中的語音識別應用打開一扇不一樣的門戶。

        文 / 王唯 上海云思智慧信息技術有限公司 產品研發中心 副總經理

        1. 語音識別技術的現狀

        語言是人類最自然的交互方式。數萬年來人類通過進化獲得的語言交流能力,相比其他的交互方式具有更多的優勢。當計算機發明之后,人類與機器的交流雖然暫時受限于鼠標鍵盤等面向機器的交互方式,但卻從不阻擋人類讓機器能夠聽懂人類的語言、理解語言中的內在含義、做出正確回答的探索。這些場景反復出現在科幻電影中,那些智能先進的機器人助手,通過語言與人類完成自由地交流。

        縱觀計算機模擬人類語言交流的整個過程,包括傾聽-理解-思考-表達四個階段。當前計算機領域,按照技術難易度及普及順序,大致也可以分為以下四類與之相對應的技術研究:

        自然語言生成——將大腦產生的思想轉換成語言

        語言合成——將語言轉換為相應的語音

        語音識別——識別語言中表達的語音內容

        自然語言理解——理解語音表達的語言含義

        其中,語音識別技術是指機器自動將人的語言轉成文字,又稱 Automatic Speech Recognition,即ASR技術。它是一門涉及聲學、語音學、語言學、情感學、心理學、信息理論、模式識別理論、數字信號處理、人工智能、數理統計學等多學科交叉的科學。近年來,隨著人工智能的興起,語音識別技術在理論和應用方面都取得大突破,不僅開始從實驗室走向市場,并且已逐漸走進我們的日常生活。

        語音識別的本質是一種基于語音特征參數的模式識別,即通過學習,系統能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。

      11.png

      基于模式匹配原理的語音識別系統框圖

        從語音識別算法的發展來看,語音識別技術主要分為三大類,第一類是模型匹配法,包括矢量量化(VQ) 、動態時間規整(DTW)等;第二類是概率統計方法,包括高斯混合模型(GMM) 、隱馬爾科夫模型(HMM)等;第三類是辨別器分類方法,如支持向量機(SVM) 、人工神經網絡(ANN)和深度神經網絡(DNN)等。

        目前語音識別技術已經是相對成熟(商用)的技術,各家主流公司均宣稱語音識別率達到了97%,甚至98%?,F在語音識別已用于許多領域,主要包括語音識別聽寫器、語音尋呼和答疑平臺、自主廣告平臺,智能客服等。但需要指出的是,主流公司宣稱的語音識別率一般是需要用戶在安靜環境下,近距離、原地不動、慢慢地、認真清晰發音時測試的結果。在實際場景,往往有很多種異常情況都會導致語音識別的效果大打折扣,比如距離太遠、發音不標準、環境嘈雜、中間有時不時的打斷等等。

        所以語音識別技術在實際應用中,受限于特定的場景,同時還需要有各種解決方案來配合。這雖然是一個應用落地比較現實的問題,但并不影響我們做產品demo和初步的產品化工作,反而是我們AI產品經理的發揮機會——用產品體驗設計來優化(彌補)純技術效果的不足。

      20200630487_94828229_xl.jpg

        2. 語音識別技術的發展與挑戰

        在協作工作模式下,我們常常通過開會來布置、協調、研討工作,以達成集思廣益、信息交流、加強領導、協調矛盾等目的。雖然現代辦公中,部分工作場景可以通過郵件、電話、工作群、OA系統、博客討論組、遠程視頻會議等在線方式替代,但面對面的會議溝通仍然是辦公行為中非常重要的方式。這也是在生產工具私有化后,共享移動辦公未能占據辦公模式中絕對地位的重要因素。

        正是由于會議的重要性,在基礎建設中會議區單位面積的投資比例數倍于辦公區域。會議室建設的早期階段,其建設目標集中定位在電子會議室。大家更關注從電子設備角度實現會議內容電子化、會議設施自動化:

        會議內容電子化——通過顯示、擴聲等技術實現多媒體會議,豐富會議的表現形式。

        會議設施自動化——通過會議中控技術實現會議設施自動化管理,方便會議操作。

        會議室建設接下來的階段,人們將視線投向會議組織過程,通過人、物、場、過程的在線,重構優化會前、會中、會后全會議生命周期過程:

        人的在線——通過手機應用、人員定位、人臉識別等方式顯示人員的在線狀態。

         物的在線——全面集成會議設施,從關注管理切換到關注使用面場景,面向最終使用者在線開放能力單元。

        場的在線——基于IoT技術,結合空間管理類應用,實現會議室及其相關配套場所的在線。

        過程在線——結合人、物、場鏡像構建的虛擬孿生世界,重構優化會前、會中、會后全會議生命周期過程,提升效率并為更深層次的大數據衍生應用打下基礎。

        走到這一步,很自然地就能發現下一步要做的事情就是會議內容的在線。會議參與者是通過內容作為媒介促成了會議目的的達成。因此在一場會議中,我們將會議內容定義成靈魂一樣重要毫不為過。在第一步中,我們通過顯示、擴聲設備確實實現了會議內容的信息化。但記錄下來的內容僅僅是諸如音視頻錄像為主的非結構化內容,難于查閱、分享、檢索,更無法形成知識點分段利用。這種大塊的非結構數據就猶如一潭靜態的死水不具有流動性特征,因此不滿足在線使用對任意時間、任意地點、任意方式等特點的要求。

        雖然以前做不到內容的真在線,但伴隨著AI技術在語音識別領域的長足發展,未來會議信息化也逐漸進入了應用的深水區。人類通過閱讀獲取信息的速度遠遠高于通過收聽方式接受信息。一場兩小時的會議錄像,如果采用會議紀要形式傳閱,僅僅需要很短的時間就能遍歷、快速發現重點,并通過精讀方式獲取有效信息。于是主流廠商都將精力投向于會議紀要的轉寫應用。

        目前語音識別AI算法建立的基礎是在近距離、安靜環境上的,同時發言人的語速、普通話標準程度等因素也對識別率影響較大。因此目前主推的會議紀要轉寫僅僅適合于單人話筒發言、發言內容有精心準備、發言者語言表達能力優秀的場景,例如新聞發布會。而大多數會議環境中,由于環境噪音、多人交互重疊發言、發言內容需要現場組織存在停頓、重讀、縮略等特點,導致最終生成的會議轉寫紀要可讀性非常差。筆者曾試用過大多數一線廠商會議紀要轉寫產品,從主觀上看,這些紀要甚至不如直接聽錄音。更麻煩的是目前主流公司均宣稱語音識別率已經高達97%,未來不太可能有太多進一步提升的空間。而且就算還能提升,也無法解決因外部環境干擾對紀要可讀性的影響。會議紀要轉寫產品似乎走入了死胡同。

        3. 語音識別技術在會議中的運用

        天生我材必有用!語音識別通過人工智能技術已經將語音識別率提高到了97%,盡管受限于非理想場景,在絕大多數實際場景中會議紀要轉寫未必能夠達到良好的閱讀要求,但我們仍不可否認,在轉寫記錄中已經初步提煉出大量可分析的信息。這就像原油,里面包含了有用的東西和無用的東西。后續我們要做的事情就應該像石化企業一樣,將有用的部分給提取出來形成信息,并找到需要使用這種信息的場景。

        原油本身質量的高低并不決定提煉出來的東西是否有價值,只是會影響到提煉的難度及成本。如果按照這樣的思路構建應用,我們就不會再糾結地等待語音轉文本的進一步提升準確率,而是現在就有的數據,現在就應該有應用它的場景。

        這也符合當下從精準的小數據思維轉向模糊的大數據思維?;ヂ摼W時代,網絡上非結構化數據占據了當前數據海洋的80%,并在截止2020年前以每年44倍的數據快速增長。這些數據均是難于在一定時間內用常規軟件工具進行內容抓取、管理和處理的,但具備數據再利用的沉默價值特征??纯?a target="_blank" class="keylink">谷歌、百度等搜索引擎在做什么事情,本質上他們也是在做非結構化數據的提煉工作,同時他們并沒有刻意去要求源頭數據必須如何精準。

        借鑒這樣的思維,我們可以把語音識別技術在會議中的應用分為三個層次:

        數據轉換——音頻數據是難于衡量的,我們需要借助語音識別技術將其轉換為文本數據。這個數據雖然是不精準的,但不可否認中間蘊含有豐富的可用信息,正如原油一樣。

        信息提取——有了不精準的非結構化文本數據,我們就可以借助搜索引擎檢索其中的關鍵字、常用字、高頻字,形成可衡量的標簽并與音軌對應。通過這種映射,我們就能實現以前做不到的音頻檢索。一場會議的錄音往往是很冗長的,通過這種檢索我們就能幫助會后快速定位到感興趣的內容。如果語音轉寫記錄效果不好,我們可以直接點擊音頻錄像播放,從而大大提升了會議回顧效率。未來我們還想借助聲紋識別技術定位每一個發言人,那么又可以在“誰的發言”這個維度形成標簽,支持按發言人進行檢索。

        信息利用——當信息提取出來后,我們就可以依據不同人群不同場景的需求使之對應到具體業務中,從而串接成更大的應用邏輯,做到信息的再利用,這是一個逐步發掘完善的過程。以前沒有這么想是因為沒有做到會議數據的結構化,未來會有很多在這方面的探索。以下我們僅僅舉例說明其廣闊的價值:

        數字會議紀要——以前人工記錄會議紀要,由于涉及到記錄員專業水平、理解能力、概括能力等影響,很多時候紀要的準確性很差。但又沒有其他較好的辦法會后獲取原意?,F在我們就能將每條紀要對應到標簽指向的音頻,從而提高會議紀要的準確性及可用性。

        知識圖譜——當語音標簽通過會議紀要或其他方式在不同的人群中流動的時候,我們就可以通過點贊、推薦、朋友在看等當下大家習慣的信息接受方式,讓有價值的內容從一堆混雜信息中進一步浮現出來。并且這種方式是無需雇用專人進行整理的,且抽取出來的內容更容易受大眾接受。選舉一個例子,未來企業中我們可以通過了解管理者關注會議中的哪一部分內容,從而使管理者與員工在組織愿景和日常工作中迅速地聯系起來。

        事項跟蹤——一場會議中一般均會涉及多項事件議程,我們回顧一場會議的記錄實質上是橫向地了解它所包含范圍內所有事件的近況。但更多時候,我們更想知道一個事項從開始到現在整個縱向上面的信息,尤其是需要在會議中討論的重要信息。更難的是,往往同一個事項會依據分工在多個級別、不同參與者的會議中并行討論,這樣就很難有好的方式收集全局信息。以前沒有好的辦法解決這個問題,但在有價值的語音標簽之后,我們就有了把不同會議按照我們目的縱向串接起來的可能。

        諸如此類的應用還會有很多,以前沒有語音識別技術無法實現第一步,所有后面的事情大家都沒有這樣想,但相信有人工智能加持后,未來人類行為方式會得到加速進化。

        工業社會經濟的助推劑是能源,能源決定了我們大規模生產的成本及產能。最具經濟代表性是石油,因此我們當下也公認為活在石油經濟時代。未來科技社會經濟的助推劑是數據,數據決定了我們能夠造出什么具有競爭力的產品,我們把這個時代稱為知識經濟時代。


      0
      [責任編輯:knight]

      《安防知識網》一個服務號 二個訂閱號 微信服務全面升級

      不得轉載聲明: 凡文章來源標明“安防知識網”的文章著作權均為本站所有,禁止轉載,除非取得了著作權人的書面同意且注明出處。違者本網保留追究相關法律責任的權利。

      您可能需要

      專欄推薦

      閱讀推薦

      更高功率的以太網供電開辟新的物聯網應用 2020-08-21 13:45  來源:安防知識網|0
      提现牛牛棋牌