<th id="igndm"><pre id="igndm"></pre></th>
  • <s id="igndm"></s><span id="igndm"><p id="igndm"></p></span>
      <rp id="igndm"></rp>
      <legend id="igndm"><pre id="igndm"></pre></legend>

    1. 當前位置:首頁 - 新聞中心 - 蘋果官方 AI 博客最新文章:Siri 可以這樣告知你附近小店的地址
      蘋果官方 AI 博客最新文章:Siri 可以這樣告知你附近小店的地址
      發布日期:2018-8-20 來源:smartbuildingnt 瀏覽次數:1508

      Siri的強大功能相信不少人都見識過?梢源螂娫,訂機票,也可以幫你找到幾千米外的星巴克。不過,你要是問它自家樓下的小飯館,它反而不一定知道。

      自動語音識別(automatic speech recognition,ASR)的準確率在過去的幾年中提升幅度驚人,這在很大程度上要歸功于深度學習技術的廣泛使用。然而,這種改善主要集中在一般化的語音識別領域。一般來說,虛擬助手可以輕松地正確識別和理解高知名度企業和連鎖店的名稱,比如星巴克。但卻難以識別用戶詢問的數以百萬計的當地小企業、小商店的名稱。在自動語音識別領域,這已然成為一個性能瓶頸。

      為了解決這一問題,蘋果 Siri 語音識別小組將用戶的位置信息融入語音識別系統中,以此增強 Siri 識別 POIs(Point of Interest,地理信息系統中的興趣點,比如咖啡廳、商店等)的能力。


      在 8 月 9 日的蘋果官方機器學習博客上,蘋果的研究人員分享了他們的研究成果,論文也發表在今年的 ICASSP(International Conference on Acoustics, Speech and SignalProcessing,國際聲學、語音與信號處理會議)上。

      根據博客上的文章,這種將用戶位置納入考量的語言模型稱為基于地理位置的語言模型(geolocation-based languagemodels,Geo-LMs)。該模型讓 Siri 不僅可以利用來自聲學模型的信息,還有用戶位置周圍 POIs 的信息,從而可以更好地估測用戶想表達的詞語序列。

      自動語音識別系統一般由以下兩部分組成:

      1.     聲學模型:捕獲語音的聲學特征和語言單元序列之間的關系,比如語音或單詞。

      2.     語言模型:決定每個單詞出現在特定語言序列中的先驗概率。


      由此,我們可以確定造成 POIs 識別困難的兩個因素:

      1.     系統無法得知用戶會如何模糊地表述命名實體。對同一命名實體,可以有很多種表述,但系統無法預知這些表述。


      2.     這些命名實體在語言模型的訓練數據中可能只出現過一次,甚至一次也沒出現過。


      第二個因素使得通用語言模型為組成本地公司名稱地單詞序列分配了非常低的先驗概率,這反過來又使得這些名稱不太可能被語音識別器正確地選擇出來。

      新模型Geo-LM 基于這樣的假設:在使用移動設備時,用戶更可能搜索所處位置附近的POIs。因此,可以根據移動設備的位置信息提高語言識別中 POIs 識別的準確率。

      Siri 是如何使用 Geo-LM 的?


      研究者定義了一系列覆蓋大部分美國的地理區域,并為每一個區域構建了一個 Geo-LM。當用戶發出請求時,系統會根據用戶位置的不同選擇不同的 Geo-LM。如果用戶不在任何一個預定義的地理區域之內,或者 Siri 不能獲取用戶的位置信息,那么系統會選擇全局 Geo-LM。選擇出的 Geo-LM 將會與聲學模型結合完成語音識別任務。

      圖一:整體系統結構圖

      研究者通過美國人口普查局的綜合統計區域(CSAs)定義地理區域。CSAs 由經濟上或社會生活相聯系的大都市區組成,通過通勤模式來衡量。169 個 CSA 區域覆蓋了美國 80% 的人口。針對每一個 CSA 建立一個 Geo-LM,再用一個全局 Geo-LM 覆蓋所有未被 CSA 定義的區域。為了高效搜索用戶所在 CSA,系統存儲了每個區域邊界的經緯度,實際應用時查找的復雜度僅為 O(1)。

      Geo-LM的建立


      Siri的自動語音識別系統使用一個基于加權有限狀態傳感器的解碼器。系統中包含一個 Master LM,用于一般化的識別和預定義類的非終結化標簽,比如地理區域的類別。針對每一個類別,再建立一個 Slot LM。

      圖二:分類語言模型框架

      建立 Geo-LM 的一個最直接的方法就是,將通用語言模型和根據該地區地理命名實體訓練的語言模型融合在一起,得到一個新的語言模型。這種方法的缺點在于,通用語言模型包含著各個領域的概念,一般是非常龐大的。這樣一來,融合得到的模型也將非常龐大。另一方面,利用地理命名實體訓練的語言模型則可能非常小。因此,分類語言模型框架將是更好的選擇。

      在這個分類語言模型中,Master LM 就是一個通用語言模型,由來自各個領域的文本進行訓練。每個 Solt LM 則為特定的地域單獨構建,其訓練數據中包含這一地區的 POIs。

      圖三:Geo LM 框架

      以 n-grams 的形式訓練語言模型使其能夠把握 POIs 名稱中的變化。例如,只要訓練數據中出現 Harvard University,則 Harvard University 和Harvard 都可以被識別為哈佛大學。

      這個框架也保證了整個系統可以靈活地被更新。想要更新POIs 或者是添加新的地理區域,只需要重新訓練或者添加新的 Slot LMs 就可以了。Slot LMs 的重訓練也非常迅速,因為這些模型非常小。一個通用語言模型一般為 200MB 甚至更大,而一個 Slot LM 只有 0.2MB 到20MB。模型的更新在實際應用中至關重要,畢竟周圍不斷有商店開業和倒閉。此外,Slot LM 的小體積也使得它們可以被全部預裝到系統中,其轉換也可以在內存中完成。

      研究者以美國的POIs 識別為例,將Geo-LM 與通用語言模型的效果進行對比。

      通用語言模型和 Geo-LM 中的 Master LM 的訓練均使用現實應用場景中各個來源的脫敏數據。Slot LM 的建立則利用了每天更新的蘋果地圖的搜索日志中的 POIs。這些提取出的 POIs 根據位置和流量被分為 170 個組,用于建立 169 個 CSAs 的 Slot LMs 和覆蓋其他區域的全局語言模型。每個 POIs 的先驗概率根據其在搜索日志中出現的頻率設定。

      在測試階段,研究者使用了兩種數據。

      第一部分數據是美國境內 Siri 流量中隨機選擇的真實用戶數據,并據此建立了兩個數據集:

      T1:POI 搜索測試集,由大約 20000 條當地 POIs 搜索域中的話語組成。

      T2:通用測試集,由不包括 POIs 的約 10000 條話語組成。

      此外,研究者還建立了第三個數據集 T3,它由美國八個主要的都市區在 Yelp 評論上最受歡迎的 1000 個 POIs 組成。對每一個 POIs,記錄三個不同人說的三句話。值得注意的是,在選擇 POIs 時,事先從列表中排除了 6500 個知名的連鎖企業。因為這些企業的名稱即使不借助 Geo-LM 也能被識別出來。

      圖四:通用語言模型和Geo-LM 在真實用戶數據集 T1 和 T2 上的測試結果

      研究者首先在T1 和 T2 數據集上進行了測試,結果如圖四所示。結果顯示,Geo-LM 將 T1 上的單詞錯誤率(word error rate)降到了 18.7%,而在 T2 上沒有導致精度下降。

      圖五:通用語言模型和Geo-LM 在真實用戶數據集 T3 上的測試結果

      而 T1 中包含許多大型連鎖超市,比如沃爾瑪。它們僅僅通過通用語言模型就可以正確識別。因此,研究者進一步在去除這些知名連鎖企業的 T3 數據集上進行試驗,結果如圖五。通用語言模型在這部分數據上表現較差,而 Geo-LM 在各個地區都將單詞錯誤率降低了 40% 以上。

      最后,研究者對兩種模型所需時間進行了對比。Geo-LM 所用時間更長,但差別也在 10 毫秒以內。

      由此可見,Geo-LM 可以大幅提高了各地區 POIs 識別的準確率。且其結構靈活,易于更新,體積較小,非常適合在移動端廣泛應用。此外,該模型獨立于語言,下一步,研究者將訓練不同語言的 Geo-LM。

      不過,Geo-LM 的應用對系統的速度仍有一定影響,區域覆蓋也善待擴展完善;蛟S建立一個覆蓋各個地區的全局 Geo-LM 才是一個更好的選擇,只有這樣才能在保證精度的同時,支持用戶的遠程查詢。
      (原文摘自Deeptech)

      網站首頁 - 研究所介紹 - 新聞中心 - 科技創新 - 合作交流 - 聚集企業 - 創業大賽
      版權所有:南通創源科技園發展有限公司 蘇ICP備13055657號-2
      AV老司机Av天堂,思思99re6国产在线播放,亚洲欧洲一级日产精品,亚洲色无码综合图区手机-国产 第1190页|影音先锋中文资源站点-国语对白三区视频