當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文本挖掘(part5)--文本信息的分布式表示

發布時間：2023/12/19 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了文本挖掘(part5)--文本信息的分布式表示小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

學習筆記，僅供參考，有錯必糾

一個簡單模型在大數據量上的表現會比復雜模型在小數據量上的表現更好.

數據中蘊含的信息量決定一切

需要事先決定用多少維度的向量來表示詞條
- 維度以50維和100維比較常見
- 向量中每個維度的取值由模型訓練來決定，且不再是唯一的
所有的詞都在同一個高維空間中構成不同的向量
- 從而詞與詞之間的關系就可以用空間中的距離來加以表述
所有訓練方法都是在訓練語言模型的同時，順便得到詞向量的
- 語言模型其實就是看一句話是不是正常人說出來的，具體表現為詞條先后出現的的順序和距離所對應的概率是否最大化

以上是生活随笔為你收集整理的文本挖掘(part5)--文本信息的分布式表示的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。