word2vec应用场景_word2vec有什么应用?
這篇文章主要講應(yīng)用,不講原理。
通俗的說,word2vec是一種將『詞』變成向量的工具,在nlp的場(chǎng)景中『詞』是顯而易見的,但是在有些時(shí)候,什么可以看做『詞』和『文檔』就不那么容易了。
文章目錄
前東家工作的時(shí)候,有一個(gè)個(gè)性化推薦的場(chǎng)景,給當(dāng)前用戶推薦他可能關(guān)注的『大V』。對(duì)一個(gè)新用戶,此題基本無(wú)解,如果在已知用戶關(guān)注了幾個(gè)『大V』之后,相當(dāng)于知道了當(dāng)前用戶的一些關(guān)注偏好,根據(jù)此偏好給他推薦和他關(guān)注過大V相似的大V,就是一個(gè)很不錯(cuò)的推薦策略。所以,如果可以求出來任何兩個(gè)V用戶的相似度,上面問題就可以基本得到解決。
我們知道word2vec中兩個(gè)詞的相似度可以直接通過余弦來衡量,接下來就是如何將每個(gè)V用戶變?yōu)橐粋€(gè)詞向量的問題了。巧妙的地方就是如何定義doc和word,針對(duì)上面問題,可以將doc和word定義為:
word -> 每一個(gè)大V就是一個(gè)詞
doc -> 根據(jù)每一個(gè)用戶關(guān)注大V的順序,生成一篇文章
由于用戶量很大(大約4億),可以將關(guān)注word個(gè)數(shù)少的doc刪掉,因?yàn)楸旧泶骎的種類是十萬(wàn)級(jí)別(如果我沒記錯(cuò)的話), 選擇可以覆蓋絕大多數(shù)大V的文章數(shù)量就足夠了。計(jì)算商品的相似度
在商品推薦的場(chǎng)景中,競(jìng)品推薦和搭配推薦的時(shí)候都有可能需要計(jì)算任何兩個(gè)商品的相似度,根據(jù)瀏覽/收藏/下單/App下載等行為,可以將商品看做詞,將每一個(gè)用戶的一類行為序看做一個(gè)文檔,通過word2vec將其訓(xùn)練為一個(gè)向量。
同樣的,在計(jì)算廣告中,根據(jù)用戶的點(diǎn)擊廣告的點(diǎn)擊序列,將每一個(gè)廣告變?yōu)橐粋€(gè)向量。變?yōu)橄蛄亢?#xff0c;用此向量可以生成特征融入到rank模型中。作為另一個(gè)模型的輸入
在nlp的任務(wù)中,可以通過將詞聚類后,生成一維新的特征來使用。在CRF實(shí)體識(shí)別的任務(wù)中,聚類結(jié)果類似詞性,可以作為特征來使用。
在依存句法分析的任務(wù)中,哈工大ltp的nndepparser則是將詞向量直接作為輸入。
具體論文『A Fast and Accurate Dependency Parser using Neural Networks』向量快速檢索
當(dāng)我們將一個(gè)文檔變成一個(gè)向量之后,如何根據(jù)余弦/歐氏距離快速得到其最相似的topk個(gè)文章,是工程實(shí)現(xiàn)上不得不考慮的問題。例如線上可以允許的時(shí)間是5ms以內(nèi),如果文章數(shù)量往往上萬(wàn)或者更多,O(n)的方式計(jì)算明顯不可接受了。
如果文章更新的速度很慢,可以通過離線的方式一天或者幾天計(jì)算一次,導(dǎo)入redis(或者別的)提供線上快速查詢。 但是如果文章實(shí)時(shí)新增,并且大量流量來自新文章,這個(gè)問題就要好好考慮一下。
一般可以通過kd-tree、simhash、聚類等方式解決,選擇不同的方式和具體的推薦場(chǎng)景、數(shù)據(jù)分布有關(guān)。
與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的word2vec应用场景_word2vec有什么应用?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 外媒称豪威将挑战索尼和三星 OV50H传
- 下一篇: bootstrap 模态框满屏_如何设置