日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

EMNLP'20最佳论文揭晓!八块肌肉=能打电话?!

發(fā)布時間:2024/7/5 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 EMNLP'20最佳论文揭晓!八块肌肉=能打电话?! 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文 | 小軼(yì)


背景

今天上午十點剛剛頒布的EMNLP 2020最佳論文,獲獎?wù)呤莵碜訳CBerkeley團隊的這篇Digital Voicing of Silent Speech。

刷了那么多NLP論文,各種pretraining、BERT、XXX-former...是不是都快刷出審美疲勞了?今年的EMNLP best paper絕對耳目一新!!工作研究了一個極具潛在社會影響力的新任務(wù):Silent Speech Voicing——通過肌電傳感器,把無聲的說話動作轉(zhuǎn)化為電子語音。如果該技術(shù)得以實現(xiàn),即使不發(fā)生聲帶振動,只要做出相應(yīng)的發(fā)聲動作,即迅速轉(zhuǎn)換為語音。想象一下,或許未來有一天,只要動動嘴,都不用發(fā)出聲音,就能和人打電話了!

該技術(shù)可能的應(yīng)用場景非常廣泛,包括:

  • 過分嘈雜的環(huán)境(普通的有聲電話難以識別清楚)

  • 必須要保持安靜的嚴(yán)肅場合 (開會摸魚新思路)

  • 最最重要的是,那些不幸喪失發(fā)聲能力的人們也將能夠與身邊人流暢地交流啦!

這個任務(wù)顯然具有非常大的前景和潛在社會影響。其實近十年也有一些少量工作嘗試做類似的事情,但效果都非常不好,讓人覺得這事兒可能目前的技術(shù)一時半會還實現(xiàn)不了。但emnlp這篇大大提升了實驗效果——在一組主要實驗中,和之前最強的baseline相比,誤差率直降94%。總之,很大程度上證明這個方向還是achievable,大家努努力說不定能成的那種!并且,他們也同時發(fā)布了一個針對該任務(wù)的大規(guī)模數(shù)據(jù)集。鑒于其深遠(yuǎn)的應(yīng)用前景,可以想見之后應(yīng)該會有大量工作繼續(xù)follow。而這篇best paper也將成為該任務(wù)的開山之作。

論文題目
Digital Voicing of Silent Speech

論文鏈接:
https://arxiv.org/pdf/2010.02960.pdf

開源代碼:
https://github.com/dgaddy/silent_speech

Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復(fù)關(guān)鍵詞 【1119】 下載論文PDF~

方法

接下來,我們簡單看一下實現(xiàn)過程~首先第一步是傳感器信號采集,需要在嘴和頸脖周圍貼上八個傳感器,像這樣:

然后就會得到八串肌電圖信號,像這樣:

接下來的任務(wù),就是如何基于肌電圖信號,識別出具體的語言信息了。信號轉(zhuǎn)文字的相關(guān)研究其實已經(jīng)有很多了,emnlp這篇的主要貢獻(xiàn)其實并不在這一部分,而在于他們發(fā)現(xiàn)、并解決了之前研究中的一個問題:前人采用的訓(xùn)練數(shù)據(jù)都是人在“出聲”說話時的肌電信號。但這篇工作則證明,要實現(xiàn)silent speech voicing,必須要用人在“不發(fā)聲”說話時的肌電信號,因為這兩種場景下人的肌肉運作方式是不一樣的。motivation很顯然,但事實上實現(xiàn)起來是有困難的。因為對于無聲的信號來說,是沒有對應(yīng)的語音信號的,很難直接標(biāo)記出某一段信號對應(yīng)了哪個單詞。他們的解決方法是:對同一段文字,先采集一遍人們說這段話時的有聲信號,再采集一遍無聲信號。然后讓模型在兩種信號上都進行訓(xùn)練。兩種數(shù)據(jù)在時間上并不是完全對齊的,所以該模型最核心的一個模塊,就是實現(xiàn)兩種信號的對齊。

實驗

實驗中,評測的方式就是請志愿者(或者用語音識別模型)聽寫轉(zhuǎn)換出來的電子語音。評測指標(biāo)是word error rate (WER),直觀來說就是和原文的最短編輯距離除以文本長度:

(向右滑動查看完整公式)

主要測試了兩種設(shè)定下的性能表現(xiàn)(兩者主要區(qū)別其實就是前者包含的詞匯量少很多):

  • Closed Vocabulary Condition

  • Open Vocabulary Condition

測試結(jié)果如下表。可以看到,在Closed Vocabulary場景下,WER僅有3.6%,比baseline的誤差率減少了94%。在Open Vocabulary場景下,也比baseline降低了20%左右的WER。

小結(jié)

今年emnlp的best paper頒給了一個非典型的NLP任務(wù)。但確實是很酷的工作!是那種會真正產(chǎn)生社會影響的一類研究~所以說,NLP不止是“萬物皆可BERT”,NLP的未來也不只有瘋狂pretraining。還有很多有意義的方向值得我們?nèi)ヌ剿髂?#xff01;

P.S 從今天起,小軼我筆名改做“小軼(yì)”啦。不是小秩(zhì)。也不是小鐵(tiě)哦!

萌屋作者:小軼(yì)

剛剛本科畢業(yè)于北大計算機系的美少女學(xué)霸!目前在騰訊天衍實驗室做NLP研究實習(xí)生。原計劃是要赴美國就讀CMU的王牌碩士項目MCDS,不過因為疫情正處于gap year,于是就來和小夕愉快地玩耍啦~文風(fēng)溫柔優(yōu)雅,偶爾暴露呆萌屬性,文如其人哦!知乎ID:小軼。

作品推薦:

1.谷歌重磅:可以優(yōu)化自己的優(yōu)化器!手動調(diào)參或?qū)⒊蔀闅v史!?

2.有錢可以多任性?OpenAI提出人肉模型訓(xùn)練,文本摘要全面超越人類表現(xiàn)!

3.ACL20 Best Paper揭曉!NLP模型評價體系或?qū)⒂瓉碇卮筠D(zhuǎn)折

4.Attention模型:我的注意力跟你們?nèi)祟惒灰粯?/p>

后臺回復(fù)關(guān)鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

有頂會審稿人、大廠研究員、知乎大V和妹紙

等你來撩哦~

總結(jié)

以上是生活随笔為你收集整理的EMNLP'20最佳论文揭晓!八块肌肉=能打电话?!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。