從Siri到Alexa,語音介面正變得越來越普遍,但儘管它們最近取得了很大的進步,但它們常常與人類語言的一個最基本的特徵:口音作鬥爭。這個問題如此普遍,以至於電腦科學家已經發現了“機器聲音”的存在,這是一種標準化的說話方式,有口音的人希望被理解。研究人員甚至警告說,存在一種“語言鴻溝”,即排斥口音與機器訓練口音不同的人。
與建立在大資料集上的技術通常一樣,問題從輸入開始。如果你只訓練你的介面使用一個狹窄的聲音選擇,那麼它將不知道如何回應口音落在它的參考框架之外。Yik Yak的機器智慧主管、語音識別專家Marsal Gavalda說,學術界從80年代就開始研究這個問題。
語音識別缺乏多樣性的根源在於幾十年前收集的資料集
“歷史上,語音識別系統主要是從大學裡收集的資料中訓練出來的,而且主要是從學生群體中訓練出來的,”加瓦爾達告訴《邊緣報》(聲音的多樣性)反映了30年前的學生人數。”
例如,90年代初的一個叫做呼叫之家的專案給學生們提供了免費長途電話的學分。他們的通話將被記錄、轉錄和註釋,然後作為資料集**給研究團隊和電腦科學家。”這是最容易收集這些樣本的地方,”加瓦爾達說。他補充說,研究人員還收集了來自新聞廣播公司的音訊——但同樣,這意味著只選擇最中性的口音。
不過,有一個簡單的方法可以解決這個問題:收集更多的資料。像谷歌這樣的公司正是這樣做的,因為他們的語音介面越來越成為他們軟體和硬體的一部分,而網際網路使這個收集變得非常簡單。正如Quartz最初發現的那樣,這家搜尋巨頭一直在使用第三方公司Appen,從網站使用者那裡收集各種口音的音訊樣本。
在/r/beermoney招聘
Appen的承包商已經在一些次級網站上釋出,包括那些專門從事**工作的網站(/r/slavelabour,/r/WorkOnline,/r/beermoney等)以及各個城市/r/愛丁堡是最初發現樣品請求的地方,大概是為了消除對服務不足的蘇格蘭口音的理解。
“我目前正在招聘為谷歌收集語音資料,”一個典型的請求寫道它要求您使用Android來完成任務。這項任務是錄製語音提示,比如“Indy now”,“Google what's The time.”每句話大約需要3-5秒。“**是付費的。”£27美元(35美元)可以錄製2000個短語,而17歲以下的年輕人可以錄製500個短語並獲得收入£20 ($26). 阿彭和谷歌都不願證實他們參與了這個專案,但一位得力的訊息人士告訴《邊緣報》,這家搜尋巨頭定期收集語音資料,以改善其服務——只是通常不那麼顯眼。
我們與一些完成任務的Redditor進行了交談,並詢問了他們在語音介面技術方面的經驗。他們有來自英國和美國的地區口音,也有印度口音和中國口音的英語,大多數使用者說他們在使用Siri和Alexa等技術方面有困難。所有人都說,他們都經歷了同樣的過程,被引導到一個移動網頁上,那裡有一個錄音按鈕可以點選,還有一些短語可以讀出。
這些語音樣本大多是寫給谷歌的(開始是“OK Google”、“嘿,Google”等),但有些只是詢問熱門電視節目、玩具和影片遊戲的名稱(包括一些YouTube頻道,如Sky Does Minecraft)。其他人則跨越了一系列典型的谷歌搜尋,包括尋找菜譜(“如何做生日蛋糕”)、理解成語(“嘿,谷歌,冷腳”)、擊敗酒吧小測驗(“按順序排列的總統”),以及尋找完美的卡拉OK號碼(“你會在我心中只是音樂”)。
“我需要用簡單的片語來表達我的意思。”
一位受訪者透過電子郵件告訴《邊緣報》:“(我)來自中國,但我在美國生活了大約10年,所以我說的英語幾乎可以理解。對我口音最貼切的描述應該是美國東北部,帶有一絲新加坡新聞播音員的味道。然而,我現在確實需要為Siri和Google這樣的應用程式清楚地表達並使用簡單的短語。我真的不能用**‘交談’。”
Appen收集了音訊樣本後,公司內部的語言學家會對這些樣本進行註釋,按照語法對較長的句子進行分解,並新增上下文資訊(樣本是否記錄在**上?在裡面?戶外?)。該公司執行長馬克•布拉揚(Mark Brayan)不願對谷歌與谷歌的合作發表評論,但他告訴《邊緣報》(Verge),谷歌從全球收集並註釋(這一過程被稱為“裝飾”)音訊樣本,員工能夠翻譯大約130種語言。
布拉揚說,近年來,對該公司服務的需求大幅增長,特別是隨著語音介面變得越來越普遍,使用者對其期望也越來越高。”Brayan說:“要從95%的單詞理解率提高到99%,識別器必須消化不常使用的單詞,其中有數百萬個。”。
公司經常要求特定詞彙的音訊樣本
有時,公司必須**特定詞彙的樣本,例如,與運動或愛好有關的詞彙。”“其中一個巨大的挑戰是我們稱之為命名實體識別,”布拉揚說這是品牌名稱、產品名稱、個人名稱等等。“公司可以要求特定的口音,也可以只說他們希望在哪裡推出產品,Appen就會發出相關的聲音。”例如,如果你要在加拿大上市,你不僅需要法語,還需要帶法語口音的加拿大英語。”
加瓦爾達說:“使用不發音的英語口音將是語音介面的一大進步。”你可能會說,大多數說英語的人甚至都不是以英語為母語的人。直到1993年國會透過一項法案,才將婦女和少數民族排除在如此重要的研究之外成為非法行為。”“如果你仔細想想,你正在開發一種藥物,”他說,“因此,有理由讓它對所有不同型別的人都同樣有效。”
能夠問Siri或Alexa問題顯然沒有獲得有效的藥物那麼重要,但這一切都是一樣的。值得慶幸的是,正如谷歌在Reddit上搜索口音所顯示的那樣,補救起來相對容易。只需收集音訊樣本,讓機器學習系統處理它們。畢竟,電腦並沒有真正的“聽到”口音——只有它能識別的聲音和它不能識別的聲音。它只需要資料。
更正:這個故事的前一個版本說“Appen僱員”已經釋出到Reddit。這是第三方承包商阿彭聘請誰這樣做。我們對這個錯誤感到遺憾。
...。要檢查是否是,請單擊“三點”選單,然後選擇“關於谷歌Chrome的幫助”&gt。。。如果你落後了,它會自動更新。 ...
...,她經常被指責不能理解我們所說的話。更重要的是,在谷歌助手和亞馬遜Alexa到來之後,Siri在回答我們的問題時似乎沒有那麼聰明。 ...
...代的語音識別工具不僅速度更快,而且還是相當準確的。谷歌最近甚至宣佈,它的機器學習語音識別功能現在對英語的準確率達到95%。 ...
...步,但是如果你打算用語音識別來聽寫文件,它將有助於提高準確性,減少錯誤的數量。 ...
...皮一起吃嗎?Pi是否能夠維持一個工作的神經網路?有了谷歌TensorFlow,它可以! ...
...ley)在接受《數字趨勢》雜誌採訪時所說,這款應用旨在幫助患有各種形式語言障礙的人: ...
...練功能,因此您可以幫助Cortana更好地理解您的聲音。像谷歌一樣,Cortana會上傳你的語音活動並儲存起來,幫助Cortana隨著時間的推移學習你的語音,更好地理解你——這就是“語音、墨跡和打字”隱私設定所控制的。你可以禁用...
...單詞就可以輸入單詞。 這個功能將你的語音輸入傳送到谷歌的語音識別服務,在那裡它被檢查,轉換成文字,然後傳送回你的**。這意味著它需要一個網際網路連線,但使用谷歌巨大計算能力的方法讓它出人意料地準確。 要在...
...是一個偶然的事件,特別是如果你有一個強烈或不尋常的口音,但它提供了一個非常有用的方式與您的計算機進行互動擴音。語音識別小程式可以透過主控制面板或易訪問中心訪問。 花時間儘可能長地執行培訓模組是非常值得...