阿里云峰会 | 统一召回引擎在搜索场景的应用实践
特邀嘉賓:
項(xiàng)昭貴(項(xiàng)公)-阿里巴巴高級技術(shù)專家
視頻地址: https://summit.aliyun.com/2021/session/689
AI Online Serving工程體系
阿里自研的整套搜索工程體系-AI Online Serving體系,目前支撐起海內(nèi)外阿里電商全部的搜索、推薦、廣告業(yè)務(wù),時刻置身大數(shù)據(jù)主戰(zhàn)場,引導(dǎo)成交占據(jù)集團(tuán)電商大盤主體;此外,作為中臺技術(shù)中堅(jiān),AI·OS已是包括電商、阿里云、優(yōu)酷、菜鳥、盒馬、釘釘?shù)鹊仍趦?nèi)全集團(tuán)的基礎(chǔ)設(shè)施,更為重要的是,AI·OS體系的云產(chǎn)品(開放搜索和智能推薦)矩陣通過阿里云服務(wù)于全球開發(fā)者,在穩(wěn)定性和工程效率上都是行業(yè)領(lǐng)先水平。
統(tǒng)一召回引擎
統(tǒng)一引擎架構(gòu)及演化過程
左圖是搜索引擎HA3和推薦引擎BE的不同執(zhí)行流程,我們將各引擎功能抽象成算子,把基礎(chǔ)功能形成公共算子庫,用戶可以直接復(fù)用和根據(jù)業(yè)務(wù)需求開發(fā),形成右圖的Suez框架。
統(tǒng)一召回引擎的特點(diǎn)
1.查詢流程DAG化
- 與深度學(xué)習(xí)執(zhí)行引擎統(tǒng)一
- 搜索功能抽象成算子
- 統(tǒng)一算子庫,支持算子粒度的復(fù)用和開發(fā)
2.多種查詢表達(dá)方式
- SQL
- TuringSDK
等.....
可以靈活定制執(zhí)行流程,加速業(yè)務(wù)迭代速度
統(tǒng)一召回引擎的應(yīng)用實(shí)踐
召回引擎面臨的挑戰(zhàn)
既要,又要,還要
傳統(tǒng)解決方案及問題
數(shù)據(jù)規(guī)模膨脹體現(xiàn)在數(shù)據(jù)維度越來越多。例如電商搜索領(lǐng)域以前只考慮商家、商品兩個維度,現(xiàn)在還需要考慮物流、位置等維度。傳統(tǒng)引擎處理把這些數(shù)據(jù)在離線處理join成一張大寬表推給在線做索引構(gòu)建和查詢服務(wù),這會有個問題,很可能出現(xiàn)一個輔表數(shù)據(jù)更新導(dǎo)致大量的主表數(shù)據(jù)更新,從而出現(xiàn)寫數(shù)據(jù)擴(kuò)大的問題,對在線服務(wù)的時效性有很大的挑戰(zhàn),在一些場景上很難得到滿足,尤其大促場景很難滿足要求低延遲高時效的需求。
傳統(tǒng)解決方案:
將數(shù)據(jù)按一定維度拆分通過多個引擎實(shí)例去提供服務(wù),由業(yè)務(wù)方來將一次查詢拆分成多個請求訪問多個引擎,實(shí)現(xiàn)搜索結(jié)果。
存在的問題:
例如外賣平臺搜索,發(fā)現(xiàn)想搜索的店鋪因?yàn)榕渌蜁r間或距離原因沒有match上,導(dǎo)致意圖搜索菜單沒有體現(xiàn),用戶體驗(yàn)不佳;
數(shù)據(jù)規(guī)模膨脹另一個體現(xiàn)是數(shù)據(jù)量變大,數(shù)據(jù)量變大導(dǎo)致單個搜索加載提供查詢的時間變多。
傳統(tǒng)解決方案:
一個是將索引進(jìn)行擴(kuò)裂,可能帶來請求的拆分和結(jié)果的合并,隨著個數(shù)越來越多,耗時越來越大,逐漸成為技術(shù)瓶頸。另一個是當(dāng)搜索個數(shù)多時,整個集群的穩(wěn)定性和可用性受到損害,對用戶而言存在查詢結(jié)果不穩(wěn)定情況。
統(tǒng)一召回引擎解決方案
- 通過一個引擎里面在線同時加載多張表,每張表的索引構(gòu)建、更新、切換、加載都是獨(dú)立的;
- 查詢時通過在線多表join方式,可以在一次查詢時拿到全局的信息,包括店鋪信息,商品信息都能得到充分運(yùn)用,匹配最符合用戶需求的召回結(jié)果;
- 開發(fā)者使用簡單
- 復(fù)用SQL生態(tài)基礎(chǔ)功能
3.并行查詢,降低延遲的利器
把索引數(shù)據(jù)按一定維度切分,在處理用戶的查詢請求時可以根據(jù)不同的切分并行的查詢,從而降低整個查詢的延遲,也避免了通過擴(kuò)裂的方式帶來的問題。
4.向量召回,深度學(xué)習(xí)在召回階段應(yīng)用
在信息豐富的今天,我們的查詢引擎光靠文本查詢很難滿足業(yè)務(wù)的需求
- 采用達(dá)摩院自研的向量檢索內(nèi)核-Proxima,具有超大規(guī)模數(shù)據(jù)向量索引的構(gòu)建,提供高性能的在線向量檢索能力;
- 在原來文本召回基礎(chǔ)上,增加向量召回,可以實(shí)現(xiàn)對文檔召回率和準(zhǔn)確率的兼顧,同時可以在每一路排序里面進(jìn)行較好的靈活配置,取得好的搜索效果
統(tǒng)一召回引擎在推薦場景的應(yīng)用
打造個性化推薦效果的召回引擎
統(tǒng)一召回引擎的云上實(shí)踐
阿里云開放搜索
開放搜索(OpenSearch)是基于阿里巴巴自主研發(fā)的大規(guī)模分布式搜索引擎搭建的一站式智能搜索業(yè)務(wù)開發(fā)平臺,通過內(nèi)置各行業(yè)的查詢語義理解、機(jī)器學(xué)習(xí)排序算法等能力,提供充分開放的引擎能力,助力開發(fā)者快速搭建更高性能、更高搜索基線效果的智能搜索服務(wù)。
開放搜索在電商行業(yè)應(yīng)用
- 電商行業(yè)搜索產(chǎn)品化落地,用戶無需各方向技術(shù)探索,只需按模板接入即可擁有更優(yōu)搜索服務(wù);
- 內(nèi)置更高質(zhì)量算法模型,免去大量的數(shù)據(jù)標(biāo)注與模型訓(xùn)練工作,直接內(nèi)置淘系搜索算法能力;
- 支持個性化搜索與服務(wù)能力,通過引擎?zhèn)鹊亩嗦氛倩啬芰?#xff0c;實(shí)現(xiàn)搜索結(jié)果、下拉提示、底紋詞等重要服務(wù);
- 支持用戶自行訓(xùn)練的NLP模型導(dǎo)入開放搜索,靈活滿足業(yè)務(wù)開發(fā)者需求;
- 阿里巴巴自研引擎系統(tǒng),處理海量數(shù)據(jù)、高并發(fā)、海量用戶請求,性能優(yōu)于開源方案;
- 根據(jù)電商行變化,不斷迭代更新原有能力,提供更高時效性的服務(wù)保障;
開放搜索在教育搜題場景應(yīng)用
- 支持文本索引、圖片向量索引、公式索引多路召回結(jié)果,降低文本搜題、拍照搜題場景的無結(jié)果;
- 教育查詢分析全套能力,解決準(zhǔn)確率較低問題,可定制排序腳本,深度優(yōu)化召回結(jié)果排序效果;
- 用戶靈活配置的向量+文本召回,快速提升搜索系統(tǒng)效果;
- 排序插件開發(fā)-Cava語言 ,更強(qiáng)的定制能力,更易于維護(hù),輕松實(shí)現(xiàn)業(yè)務(wù)排序需求;
- 按量付費(fèi),即時生效,保障高峰期搜索穩(wěn)定同時,不需要提前購買大量資源,無成本負(fù)擔(dān);
- 支持千億體量數(shù)據(jù)搜索的毫秒級響應(yīng),實(shí)時數(shù)據(jù)更新秒級可見。
原文鏈接:https://developer.aliyun.com/article/784579?
版權(quán)聲明:本文內(nèi)容由阿里云實(shí)名注冊用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請查看《阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開發(fā)者社區(qū)知識產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫侵權(quán)投訴表單進(jìn)行舉報,一經(jīng)查實(shí),本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。總結(jié)
以上是生活随笔為你收集整理的阿里云峰会 | 统一召回引擎在搜索场景的应用实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何用钉钉宜搭制定企业疫情防控数字化管理
- 下一篇: Hologres揭秘:高性能原生加速Ma