來自谷歌人工智慧部門DeepMind和牛津大學的研究人員利用人工智慧創造了有史以來最精確的脣讀軟體。利用英國廣播公司數千小時的電視錄影,科學家們訓練了一個神經網路,以46.8%的準確率對影片片段進行註釋。這一點一開始似乎並不令人印象深刻——尤其是與人工智慧在轉錄音訊時的準確率相比——但在同一個鏡頭上進行測試,一個專業的人類脣部讀取器只有12.4%的時間能讀懂正確的單詞。
本月早些時候,牛津大學另一個研究小組發表了類似的研究成果。利用相關技術,這些科學家能夠建立一個名為LipNet的脣讀程式,該程式在測試中的準確率為93.4%,而人類的準確率為52.3%。然而,LipNet只在使用自願者說公式化句子的特別錄音錄影上進行了測試。相比之下,DeepMind的軟體——被稱為“觀看、聆聽、參與和拼寫”——在更具挑戰性的鏡頭上進行了測試;從BBC的政治節目中抄錄自然的、沒有劇本的對話。
《新聞之夜》、《提問時間》和《今日世界》等電視節目的5000多個小時的鏡頭被用來訓練DeepMind的“看、聽、聽、拼”節目。這些影片包括11.8萬個不同的句子和17500個獨特的單詞,而LipNet的影片測試資料庫只有51個獨特的單詞。
DeepMind的研究人員認為,這個程式可以有很多應用,包括幫助聽力受損的人理解對話。它還可以用來為無聲電影新增註釋,或者允許你透過對著相機說一些話來控制Siri或Alexa等數字助理(如果你在公共場合使用這個程式,就很方便)。
但當大多數人得知人工智慧程式已經學會了脣讀時,他們首先想到的是如何將其用於監控。研究人員說,在轉錄明亮、高解析度的電視畫面和低幀速率的顆粒狀央視影片方面仍然有很大區別,但你不能忽視一個事實,人工智慧似乎正在縮小這一差距。
...將它學到的應用到新城市。例如,在瞭解交叉口如何工作之後,它將使用這些知識來指導未來的城市。 ...
... 我們的電腦可以管理相當多的資料。想象一下,所有的資訊都可以塞進一個電子表格。資料庫軟體能夠處理更大量的資訊。這些工具可以將資料塞進一個硬碟驅動器,否則就需...
...網格輕鬆更改為看板、日曆或相簿的功能。然後,它添加了幾個應用程式,可以創造性和高效地使用這些資料。Airtable甚至讓使用者能夠建立自己的應用程式。 ...
...由於“完美”的黑人,他們不一定需要。 另外,即使你看了很多相同的內容,也不能保證你必須處理永久的影象保留。即使畫素確實不均勻地磨損,您也可能在常規檢視過程中沒有注意到它。 測試圖案和純色塊對於發現OLED老化...
...。(注意“lip”上不同的大寫字母——這讓我大吃一驚)看了幾次影片,花了幾個小時解決問題,我終於有了一個工作模式。老實說,我本可以哭的,部分原因是我自己明顯的無能。 最終結果 幾次實驗之後,我瞭解到了這個程...
...在模擬中進行的,機器可以在模擬中慢慢來,通常需要數千小時的工作。結果就是阿貝爾所說的“協變大腦”——這是該公司機器人共享的神經網路的暱稱。 協變公司成立於2017年,名為“體現情報”(Embodized Intelligence),如...
...能不會在遊戲中擊敗人類對手,但它在接近給定圖片位置時的猜測能力大約是人類的兩倍。Weyand告訴麻省理工學院技術評論說,這顆行星比人類佔了上風,因為它能夠透過掃描影象“訪問”的地點多得多。 研究人員沒有透露...
...減少40%,谷歌稱這是“驚人的進步” 節省了幾億美元 谷歌說,在計算了“電能損失和其他非冷卻效率”之後,這40%的降耗轉化為整體節能的15%。考慮到公司2014年使用了約4402836 MWh的電力(相當於366903個美國家...
...裡,窗戶上會有窗簾。所以當它看到一張床時,它就不再看了——它的眼睛裡看到了窗簾。當然合乎邏輯,但也很愚蠢。很多臥室沒有窗簾! 眼動追蹤是一種對內部工作原理進行瞭解的方法,但另一種可能是從一開始就在深...