电商搜索能力解读-实体识别(NER)
實(shí)體識(shí)別功能介紹
實(shí)體識(shí)別,全稱命名實(shí)體識(shí)別(Named Entity Recognition,簡(jiǎn)稱NER),指對(duì)電商查詢?cè)~中的具有特定意義的語(yǔ)義實(shí)體進(jìn)行實(shí)體詞打標(biāo)識(shí)別其中的品牌、品類、品類修飾、型號(hào)、款式等40種類別 。查詢分析根據(jù)識(shí)別的結(jié)果,依據(jù)實(shí)體類型的權(quán)重對(duì)查詢?cè)~進(jìn)行改寫,使得召回的文檔符合查詢的意圖。
類別 | |||
普通詞 | 材質(zhì) | 風(fēng)格 | 款式元素 |
顏色 | 品牌 | 功能功效 | 尺寸規(guī)格 |
品質(zhì)成色 | 場(chǎng)景 | 人群 | 套裝 |
時(shí)間季節(jié) | 型號(hào) | 新品 | 系列 |
營(yíng)銷服務(wù) | 地點(diǎn)地域 | 人名 | 文娛書文曲 |
機(jī)構(gòu)實(shí)體 | 影視名稱 | 游戲名稱 | 數(shù)字 |
單位 | 品類 | 新詞 | 修飾 |
專有名詞 | 品類修飾詞 | 符號(hào) | 前綴 |
后綴 | 贈(zèng)送 | 否定 | 代理 |
開放搜索實(shí)體識(shí)別優(yōu)勢(shì)
基于多年淘系全量數(shù)據(jù)和知識(shí)庫(kù)深入優(yōu)化電商行業(yè)實(shí)體識(shí)別能力,解決品牌更新快歧義大,品類存在修飾關(guān)系,品牌品類搭配關(guān)系等問題。解決尤其在中文上由于缺乏天然分隔符,面臨邊界歧義、語(yǔ)義歧義、嵌套歧義等困難。
實(shí)體識(shí)別在查詢分析中作用
1.作用于query改寫:
? ?開放搜索查詢分析可以改寫兩個(gè)query,第一個(gè)query更精準(zhǔn),第二個(gè)query減少了參與召回的term,旨在當(dāng)更精確的召回結(jié)果數(shù)不足時(shí),用第二個(gè)query進(jìn)行擴(kuò)大召回。query改寫主要根據(jù)實(shí)體的重要性,召回時(shí)保留重要性高的實(shí)體詞,對(duì)重要性低的部分不影響召回,只影響算法排序。
實(shí)現(xiàn)方式:
? ?實(shí)體重要性目前分為高、中、低三檔。其中“品牌、品類”是在高檔,也就是最重要的;其次“風(fēng)格、款式、顏色、季節(jié)、人群、地點(diǎn)…”處于中檔;最后“尺寸、修飾詞、影響服務(wù)、系列、單位…”處于低檔,可以丟棄不參與召回。
2.與類目預(yù)測(cè)一起使用
? query中不同的實(shí)體對(duì)類目的影響是不一樣的,因此,當(dāng)原query沒有類目預(yù)測(cè)的結(jié)果時(shí),會(huì)根據(jù)一定的規(guī)則,去掉和類目意圖無關(guān)或者相關(guān)度低的詞后,進(jìn)行類目預(yù)測(cè),這對(duì)長(zhǎng)尾query的類目預(yù)測(cè)會(huì)有很大的幫助.
示例:
“楊冪(人名)同款(后綴)春季(時(shí)間季節(jié))修身(款式元素)連衣裙(品類)”丟詞后的query按照優(yōu)先級(jí)排序分別為:
春季修身連衣裙
春季連衣裙
修身連衣裙
連衣裙
系統(tǒng)會(huì)按照上述順序依次查詢類目預(yù)測(cè)的結(jié)果
更多類目預(yù)測(cè)功能詳介紹:https://help.aliyun.com/document_detail/69036.html
電商行業(yè)增強(qiáng)版實(shí)體識(shí)別能力再升級(jí)
開放搜索打造獨(dú)有的行業(yè)智能搜索解決方案,推出電商行業(yè)增強(qiáng)版,其中在實(shí)體識(shí)別能力上進(jìn)行了再升級(jí),使得實(shí)體打標(biāo)效果更好,可以更精準(zhǔn)的定位用戶搜索意圖滿足商品搜索需求。
- 現(xiàn)有框架知識(shí)庫(kù)更新
基于老模型鏈路重新構(gòu)建全量知識(shí)庫(kù),F1 69 -> 74
- 標(biāo)注訓(xùn)練數(shù)據(jù),使用神經(jīng)網(wǎng)絡(luò)模型
標(biāo)注10萬(wàn)條數(shù)據(jù),耗時(shí)4個(gè)月,BiLSTM-CRF模型,F1 74 -> 78
- 神經(jīng)網(wǎng)絡(luò)模型結(jié)合知識(shí)庫(kù)
技術(shù)創(chuàng)新GraphNER框架結(jié)合監(jiān)督模型與知識(shí)庫(kù),F1 78 -> 82
實(shí)體識(shí)別干預(yù)詞典
業(yè)務(wù)場(chǎng)景不同,實(shí)體識(shí)別語(yǔ)義也是不同的,為了方便用戶使用,開放搜索提供實(shí)體識(shí)別干預(yù)詞典,供用戶自定義詞的語(yǔ)義,目前實(shí)體識(shí)別的干預(yù)主要包括兩個(gè):一是對(duì)實(shí)體識(shí)別結(jié)果本身的干預(yù),二是實(shí)體類型重要性的干預(yù)。當(dāng)實(shí)體識(shí)別的結(jié)果不準(zhǔn)時(shí),應(yīng)該通過實(shí)體識(shí)別的干預(yù)詞典的配置來進(jìn)行干預(yù)。通過創(chuàng)建實(shí)體識(shí)別干預(yù)詞典,并在查詢分析中實(shí)體識(shí)別配置相應(yīng)的干預(yù)詞典,就可以干預(yù)實(shí)體識(shí)別功能。
例如:業(yè)務(wù)特殊專有名詞,需要進(jìn)行實(shí)體識(shí)別干預(yù)。
用戶搜索“小熊 (Bear)嬰兒指甲刀護(hù)理套裝",其中“小熊”“bear”實(shí)體識(shí)別結(jié)果為:普通詞,但實(shí)際業(yè)務(wù)上“小熊(bear)”是一家母嬰品牌,這時(shí)可以使用干預(yù)詞典,設(shè)置為“品牌”,從而影響召回排序的效果。
實(shí)踐后的搜索性能對(duì)比
1. 搜索“荷蘭美素佳兒嬰幼兒奶粉“分詞效果
? Before:“荷蘭 美 素 佳 兒 嬰幼兒 嬰 幼 兒 奶粉 奶 粉”
? After: “荷蘭(地點(diǎn)地域) 美素佳兒(品牌) 嬰幼兒(人群) 奶粉(品類)”
2. 搜索“夏季新款涼鞋男童”
? Before:3個(gè)召回結(jié)果,
? After:22個(gè)召回結(jié)果
利用實(shí)體識(shí)別功能:定位搜索關(guān)鍵詞
實(shí)體識(shí)別:“夏季”時(shí)間季節(jié),“男童”人群;“新款"新品;;“涼鞋”品類;
Query1: “涼鞋”“夏季”“男童”;
Query2:“涼鞋”
阿里云搜索相關(guān)產(chǎn)品推薦
開放搜索(OpenSearch):基于阿里巴巴自主研發(fā)的大規(guī)模分布式搜索引擎搭建的一站式智能搜索業(yè)務(wù)開發(fā)平臺(tái),目前為包括淘寶、天貓?jiān)趦?nèi)的阿里集團(tuán)核心業(yè)務(wù)提供搜索服務(wù)支持。通過內(nèi)置各行業(yè)的查詢語(yǔ)義理解、機(jī)器學(xué)習(xí)排序算法等能力,提供充分開放的引擎能力,助力開發(fā)者快速搭建更高性能、更高搜索基線效果的智能搜索服務(wù)
了解產(chǎn)品詳情:https://www.aliyun.com/product/opensearch
了解更多電商行業(yè)搜索解決方案:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch
原文鏈接:https://developer.aliyun.com/article/784865?
版權(quán)聲明:本文內(nèi)容由阿里云實(shí)名注冊(cè)用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請(qǐng)查看《阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開發(fā)者社區(qū)知識(shí)產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫侵權(quán)投訴表單進(jìn)行舉報(bào),一經(jīng)查實(shí),本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。總結(jié)
以上是生活随笔為你收集整理的电商搜索能力解读-实体识别(NER)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自定义 View 功能上线,你的小程序可
- 下一篇: 如何用视频云技术,搞一个爆红的 “反应视