日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

再谈深度学习文本的表示

發布時間:2023/12/14 pytorch 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 再谈深度学习文本的表示 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

閱讀目錄

  • 深度模型如何學習和表示詞、短語、句子和篇章呢?
  • 幾大前景方向:
作者:尹文鵬,德國慕尼黑大學博士研究生二年級,自然語言處理方向。先后在西北工業大學和北京大學獲得本科,碩士學位。 小編:文本表示隨著深度學習這把火也跟著旺了起來,各大會議上論文成出不窮,值得關注。

之前在百度開放研究社區寫了篇``深度學習文本的表示'', 現在這篇姑且作為其升級篇吧。 因此本文再談deep learning在文本表示學習方面的體會。

深度模型如何學習和表示詞、短語、句子和篇章呢?

: 以前表示詞是所謂的distributional vector, 現在將詞表示成embedding這種形式我覺得根本區別在于: 前者的每個維度有具體的含義, 而后者沒有(雖然也有人稱其為代表一個latent topic/semantic/element...)。 詞的任何特性應該是由embedding vector中的所有維度共同決定的。 所以傳統distributional vector里面我們可以刪除一些維度或者增添一些新維度,但是embedding一旦訓練好后是不可以這么做的。

目前為了得到更好的embedding的方法大致有: 1) 提出更強大的訓練模型,從Bengio的到C&W的...再到近來有些將外在資源比如wordnet等融入word2vec訓練的目標函數等等。 2)如果說方案1)是很理所當然的話,還有一種就是在得到訓練好的embedding后再處理,比如NAACL'2015的一篇best paper ``Retrofitting Word Vectors to Semantic Lexicons''。 3) 第三種就是借助于更多元化的數據,這里典型的例子就是multilingual比如機器翻譯方面的研究, 以及借助image, video, knowledge base數據來提升word embedding的。 4) 第四種路線包括各種”散打“模式,比如"WordRank : Learning Word Embeddings via Robust Ranking"

另外我還想講講embedding質量的評價問題。 大家最直接想到的應該是各種word similarity tasks。 我覺得還應該更強調以下幾點: 1) 單純用word similarity tasks是不能反映word embedding在真實NLP任務中的性能的,所以更應該使用真實的NLP task作為實驗; 2) 應該覆蓋semantic 和syntactic 兩種基本指標; 3) 有些實驗只關注于frequent words的表現,卻忽視了怎么衡量rare words的質量。

短語: ``phrase''這個詞貌似在NLP文獻里使用比較靈活。 我依然先介紹我們組在學習linguistic phrases方面的工作(如下表)。 在ACL'2014 SRW的工作中我們提出了簡單有效的方法來解決如何學習不連續短語的表示問題,同時我們也發布了世界首份專門涵蓋語言學短語(連續+不連續)表示的資源。

上述工作主要針對linguistic phrases,基本上就是指我們學英語過程中背誦的短語了。 另一個很有代表性的工作是隨著word2vec工具一起發布的embedding set里面所含的phrase。 這是基于在大數據里面統計得到的phrase。 這兩個工作都是將phrase處理后作為一個token再來訓練的。 如果不考慮成一個token,就要研究compositionality了。研究組合性的工作在計算語言學界應該開始很早,在deep learning里有比如Socher的工作。 無論是當作一個token還是通過組合學習得到,都各有利弊: 作為一個token會造成phrase 作為rare token出現,難以保證得到高質量的embedding; 而通過compose來學習目前沒得很robust的方案,尤其對于那些低組合度的短語。 這方面可以參看文獻``A Word Embedding Approach to Predicting the Compositionality of Multiword Expressions''(這個工作好不好另說)。最近Yu et al., (TACL'2015) "Learning Composition Models for Phrase Embeddings"結合一些人工特征和word embedding的聯合訓練將組合型下phrase embedding學習在效率和效果上都有了較大提升。

還有一種工作是關于學習表示mutiword expression (MWE)的。方法上個人感覺沒有什么特別的。 但總的來說,學習phrase/MWE層面上的表示一般會對很多任務有好處。比如(Duyu et al, ACL'2014)闡述了phrase的情感與其構成詞的情感很可能不同。

短語的表示學習如上所述很難找到一個好的目標。 Hill et al., (arXiv 2015)提出了一種特殊情況下的phrase表示學習: 當phrase其實是對一個對象的定義或者說描述的時候。 文中考慮的phrase其實就是一個句子,而這個句子所描述的對象作為單個詞出現。所以文中給這個phrase和word建立了一個match。 而這種match也只有在特殊的場景中才有用處。

句子: 句子的表示學習是NLP里面應用深度學習的一大熱點。大體上可以分為有監督和無監督兩種方案。 有監督主要面向各種分類任務,最典型的就是情感分析,各路論文大體上都是玩弄模型,尤其是CNN和RNN,但是模型仔細看起來也都差不多。發展到今天個人感覺已經麻木了。?無監督方案最典型的應該就是Mikolov的paragraph vector了,它學到的應該是一種unspecific的表示向量。我覺得它一個可能提高的方案應該結合上述的phrase embedding思路,將句子的表示在phrase層面上整合得到?,F在的方案應該只是在單詞上ensemble得到。

?

句子的建模當然也有一些有趣的新思路。 比如 Zhao et al, (IJCAI'2015)提出的同時考慮多種粒度:word--phrase--sentence的。這種想法也和我們在NAACL'2015 paraphrase任務上的結論是一致的。

篇章: 對篇章的表示目前有方案1) Oxford的Misha的工作喜歡先用CNN建立從word到sentence的模型,得到句子的表示后再用CNN建立sentence到doc的模型;2)其他的工作感覺模型上都差不多,都著重于對輸入的理解上,比如(Xu et al., CIKM'2012, Johnson et al., NAACL'2015, Zhang et al., arXiv 2015)

轉自網站:http://www.open-open.com/lib/view/open1434248541259.html#_label0

總結

以上是生活随笔為你收集整理的再谈深度学习文本的表示的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。