日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

领域情报搜索实践:真实场景下的问答实施策略与风险分析

發(fā)布時(shí)間:2024/7/5 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 领域情报搜索实践:真实场景下的问答实施策略与风险分析 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

知識(shí)搜索,對(duì)于一個(gè)企業(yè)而言,目前無論是在對(duì)內(nèi)管理還是對(duì)外服務(wù)的業(yè)務(wù)上,都有著大量的需求,并表現(xiàn)出急迫性的特征。

例如,很多企業(yè)都積累了大量的企業(yè)知識(shí)資產(chǎn),并且規(guī)模以每年200%的速度增長(zhǎng),其中80%以上的數(shù)據(jù)是以文件、郵件、圖片等非結(jié)構(gòu)化數(shù)據(jù)的形式,存放于企業(yè)內(nèi)計(jì)算機(jī)系統(tǒng)中的各個(gè)角落,并且這些數(shù)據(jù)的總量,遠(yuǎn)遠(yuǎn)超過了互聯(lián)網(wǎng)信息的總量,這些數(shù)據(jù)給整理帶來很大的難度。

又如,銀行各個(gè)部門擁有眾多IT系統(tǒng),系統(tǒng)中存儲(chǔ)大量數(shù)據(jù)、信息,數(shù)據(jù)結(jié)構(gòu)復(fù)雜,每個(gè)系統(tǒng)都擁有簡(jiǎn)單的“數(shù)據(jù)庫檢索”功能,但常常出現(xiàn)找不到、找不準(zhǔn)、找不全,速度慢等問題。

因此,如何讓不同領(lǐng)域的企業(yè)根據(jù)自身業(yè)務(wù)的需求,選擇相應(yīng)的搜索模式,提升搜索效率,顯得尤為迫切。本期圍繞“領(lǐng)域情報(bào)搜索”這一主題,分析現(xiàn)有的搜索場(chǎng)景,并結(jié)合當(dāng)前我們的工作,從領(lǐng)域知識(shí)搜索的場(chǎng)景、知識(shí)搜索相關(guān)技術(shù)、知識(shí)搜索實(shí)踐中積累的思考等方面進(jìn)行相關(guān)內(nèi)容的介紹。

一、 領(lǐng)域知識(shí)搜索的場(chǎng)景

不同的領(lǐng)域?qū)χR(shí)的搜索需求不同,但最終的目的都是做知識(shí)的整合、梳理、索引和管理,并在此基礎(chǔ)上提升客戶應(yīng)答效率。下面從常見的搜索領(lǐng)域和搜索功能兩個(gè)方面介紹:

1、 常見搜索領(lǐng)域
1) 銀行保險(xiǎn)等金融領(lǐng)域搜索
針對(duì)銀行業(yè)務(wù)、理財(cái)產(chǎn)品、保險(xiǎn)的售前、售中以及售后環(huán)節(jié)提供垂直智能化服務(wù)支撐方案,面向客戶、服務(wù)人員以及代理人提供系統(tǒng)化智能服務(wù)方案,為企業(yè)有效降低服務(wù)成本、強(qiáng)化組織管理、提升服務(wù)體驗(yàn)。

2) 電子政務(wù)與法律領(lǐng)域
針對(duì)政府機(jī)構(gòu),對(duì)便民服務(wù)、市長(zhǎng)熱線、來電辦理、問題督辦等場(chǎng)景在線智能處理,提供民眾自主辦理、快速響應(yīng)。

3) 游戲娛樂等消費(fèi)領(lǐng)域
針對(duì)游戲行業(yè)在注冊(cè)、宣傳、賬號(hào)管理等核心場(chǎng)景,提供專屬智能服務(wù)解決方案,面向廣大游戲愛好者提供針對(duì)的方案,提供更好客戶體驗(yàn),有效提升客戶價(jià)值。

4) 教育培訓(xùn)與醫(yī)療領(lǐng)域
將AI技術(shù)與教育行業(yè)深度集合,以師生服務(wù)、招生、教學(xué)保障為核心場(chǎng)景,通過手機(jī)APP、互聯(lián)網(wǎng)等溝通渠道,為教育企業(yè)有效降低服務(wù)和教學(xué)成本,提升教學(xué)質(zhì)量并能更高效挖掘潛在數(shù)據(jù)價(jià)值。

2、 常見搜索場(chǎng)景
1)知識(shí)定位搜索
知識(shí)定位搜索,指的是針對(duì)用戶文檔中的信息進(jìn)行查找和定位的一類搜索模式。例如,對(duì)于答案在文中有明確結(jié)果的,返回確切值;對(duì)于答案隱藏在段落中的,返回文章中的細(xì)節(jié)段落;對(duì)于答案在文章表格中的,返回經(jīng)過事先解析好的文章表格內(nèi)容和具體位置等信息。

從定位的數(shù)據(jù)類型來看,大致可將搜索分為句子/段落/全文型、表格型和圖片型三種,圖片型是其中值得關(guān)注的一類。例如,金融領(lǐng)域許多研究報(bào)告、公告當(dāng)中包含著大量記錄和反映數(shù)據(jù)指標(biāo)的圖表,該圖表作為檢索的對(duì)象,既可以方便寫作素材調(diào)取,也可以作為文本聚合的重要參考依據(jù)。

圖1-基于報(bào)告的圖片搜索示意圖
2) 知識(shí)實(shí)證搜索

“實(shí)證搜索”是當(dāng)前一種可信的搜索模式,與直接給出問題答案不同,要求在給定具體結(jié)果的同時(shí),將答案的來源給出,這樣能夠提升用戶對(duì)知識(shí)的把控和鑒別能力。例如,“學(xué)跡”中的“學(xué)習(xí)來源”,就是對(duì)結(jié)構(gòu)化答案的實(shí)證實(shí)踐。

圖2-基于實(shí)證的知識(shí)搜索示意圖
3) 知識(shí)結(jié)構(gòu)化搜索

結(jié)構(gòu)化搜索,又稱圖譜搜索,即一類以非大段文本和知識(shí)卡片形式進(jìn)行知識(shí)問答的搜索模式,其特點(diǎn)是簡(jiǎn)潔、明了和結(jié)構(gòu)化,在谷歌上線知識(shí)圖譜問答以來,成為了一個(gè)很火熱的方向。例如,下圖中以“生產(chǎn)口罩的公司”為例,可以得到以下結(jié)構(gòu)化數(shù)據(jù):

圖3-結(jié)構(gòu)化知識(shí)搜索示意圖

3、 知識(shí)搜索模式變遷

目前知識(shí)搜索先后經(jīng)歷了傳統(tǒng)全文檢索模式、FAQ模式以及泛QA模式三種模式的變遷,三種方式對(duì)技術(shù)的要求也不斷增加,下圖中列舉了對(duì)應(yīng)的優(yōu)勢(shì)和劣勢(shì)。

圖4-知識(shí)搜索模式變遷示意圖

在實(shí)際的業(yè)務(wù)實(shí)施過程當(dāng)中,我們常需要根據(jù)具體的問題,選擇相應(yīng)特定的應(yīng)答策略,這通常表現(xiàn)成一個(gè)多問題類型集成的泛QA模式,需要充分考慮搜索引擎、業(yè)務(wù)系統(tǒng)對(duì)接、搜索系統(tǒng)管理以及其他能力調(diào)用等模塊之間的協(xié)作。

圖5-泛QA知識(shí)搜索模式架構(gòu)示意圖

二、 全文檢索范式下的場(chǎng)景搜索

全文檢索是當(dāng)前我們所能看見最多的一類搜索方式,百度、谷歌、必應(yīng)等搜索引擎,絕大多數(shù)服務(wù)都基于全文檢索實(shí)現(xiàn)。

1、關(guān)鍵技術(shù)

全文檢索通過在服務(wù)端預(yù)先對(duì)待搜索字段(如標(biāo)題、正文等)進(jìn)行分詞、倒排索引,在搜索端通過捕獲用戶搜索內(nèi)容,利用搜索引擎(如solr, es)中內(nèi)置的匹配排序算法(如BM25,TFIDF)進(jìn)行排序,最終將結(jié)果返回給用戶,下圖展示了一個(gè)典型的全文檢索功能架構(gòu)。

圖6-全文搜索架構(gòu)示意圖

全文索引、搜索字符串?dāng)U展和搜索評(píng)分模型是全文檢索中三個(gè)核心模塊。
首先,全文索引的前提是整篇文檔都已經(jīng)是純文本形式或處于可索引的狀態(tài),因此,這就需要針對(duì)不同的文本如PDF、DOCX等文檔進(jìn)行解析和轉(zhuǎn)換。

圖7-全文搜索文檔轉(zhuǎn)換與解析路線圖

在某些情況下,還涉及到表格的解析、段落的記錄以及圖片的分離等操作,如通過對(duì)表格進(jìn)行縱橫兩個(gè)方向的掃描組合方式,將表格中的數(shù)據(jù)轉(zhuǎn)換成可檢索和標(biāo)引的數(shù)據(jù)類型。

圖8-全文搜索表格解析示意圖

其次,使用用戶原始字符串(或經(jīng)過停用詞等處理)進(jìn)行匹配,無法直接解決“同義不同形”的問題,即“召回率低”。構(gòu)造同義詞庫配置、保留專有詞匯、可插拔的相似度算法,先全文候選后相似度二次計(jì)算是其中的兩個(gè)重要解決方式。

圖9-全文搜索內(nèi)置引擎示意圖
最后,在搜索評(píng)分模式上,可以根據(jù)采用的搜索引擎框架,干預(yù)其評(píng)分模型,如ES中提供了更改評(píng)分函數(shù)的接口,可以根據(jù)實(shí)際的業(yè)務(wù)搜索需求,將其他評(píng)分因素加權(quán)到原有評(píng)分函數(shù)當(dāng)中。

2、項(xiàng)目案例

金融領(lǐng)域的底稿管理是全文檢索方式的一個(gè)用武之地,例如,項(xiàng)目現(xiàn)場(chǎng)底稿數(shù)量繁多,撰寫材料所需數(shù)據(jù)分散,數(shù)據(jù)查找繁瑣,易遺漏,整理歸檔、材料查詢費(fèi)時(shí)費(fèi)力。為此,進(jìn)行紙質(zhì)底稿電子化,方便數(shù)據(jù)整理、版本管理,可以讓數(shù)據(jù)查找更方便、更全面,節(jié)省用戶時(shí)間,下圖是該項(xiàng)目的實(shí)際搜索效果:

圖10-全文搜索項(xiàng)目上線運(yùn)行截圖

三、 FAQ范式下的搜索

FAQ是英文Frequently Asked Questions的縮寫,中文意思就是“經(jīng)常問到的問題”,或者更通俗地叫做“常見問題解答”,是較全文檢索信息進(jìn)一步聚合、回復(fù)進(jìn)一步精確的搜索方式。
1、關(guān)鍵技術(shù)
FAQ實(shí)施的過程包括兩個(gè)核心點(diǎn),即:問答對(duì)數(shù)據(jù)的構(gòu)建和問題匹配評(píng)分模型。
其中,問答對(duì)的規(guī)模取決于具體的業(yè)務(wù)積累,在前期冷啟動(dòng)環(huán)節(jié)中常需借助業(yè)務(wù)專家標(biāo)注,設(shè)定一些相關(guān)的標(biāo)準(zhǔn)問答對(duì)。

問題匹配負(fù)責(zé)將用戶的自然問句和問答庫中的問題進(jìn)行匹配,找出最佳標(biāo)準(zhǔn)問,常見的方式包括基于es相似度,編輯距離等傳統(tǒng)方式,siamese孿生網(wǎng)絡(luò)、BERT-finetune等深度方式。此外,針對(duì)問題較為復(fù)雜的場(chǎng)景,還常有問題分類這一前置任務(wù)。

問句壓縮,是FAQ模式的一個(gè)重要技術(shù),由于FAQ的問題通常較短,用戶在提問的過程當(dāng)中,往往會(huì)夾帶著一些主觀噪聲(即我們常說的口水句,如下圖),這會(huì)對(duì)實(shí)際的標(biāo)準(zhǔn)問匹配造成困擾。

圖11-FAQ口水句壓縮效果示意圖
針對(duì)這類問題,解決的方案包括基于語法樹分析與關(guān)鍵詞的規(guī)則方法以及基于文本摘要和句子壓縮的方法。前者通過標(biāo)點(diǎn)或空格將長(zhǎng)句分割成若干個(gè)短句,對(duì)短句進(jìn)行口水句分類,然后基于概率和句法分析進(jìn)行句子壓縮,盡可能剔除非必要成分,只留下關(guān)鍵詞、主謂賓等核心成分。后者的可用模型較多,從傳統(tǒng)的textrank到采用RNN、CNN等的深度學(xué)習(xí)模型,均可以生成相應(yīng)的摘要效果。

此外,問題糾錯(cuò)也是FQA(不限于FAQ,KBQA以及全文搜索范式都需要用到)的預(yù)處理流程之一。常見的解決方法包括字典+規(guī)則的糾錯(cuò)以及基于神經(jīng)網(wǎng)絡(luò)模型的糾錯(cuò)兩種。


圖12-問題就錯(cuò)技術(shù)路線示意圖
2、項(xiàng)目案例
針對(duì)該類的搜索,我們針對(duì)法律領(lǐng)域,完成了基于20W法務(wù)問答對(duì)的13類問題分類與法律資訊問答搜索系統(tǒng),在問題分類步驟,達(dá)到了96%的準(zhǔn)確率。

圖13-FAQ項(xiàng)目上線效果示意圖

四、 KBQA范式下的搜索

KBQA是針對(duì)結(jié)構(gòu)化數(shù)據(jù)的一種直截了當(dāng)?shù)膯柎鸱绞?#xff0c;可以根據(jù)設(shè)定的問題類型,通過問句解析的方式,形成若干三元組及相關(guān)的操作條件,并轉(zhuǎn)換成特定的查詢語句,直接返回相應(yīng)結(jié)果,是當(dāng)前一種較為流行和新穎的搜索方式,但技術(shù)還較為早期。
1、 關(guān)鍵技術(shù)
1) 意圖分析

意圖分析是KBQA范式下的第一步,其任務(wù)在于對(duì)用戶所提出的問題進(jìn)行問題分類,因此又稱為意圖分類。由于不同的問題所涉及的問題要素不一,后續(xù)所需進(jìn)行的標(biāo)簽識(shí)別、條件體與目標(biāo)體識(shí)別也不同,意圖分類的準(zhǔn)確性會(huì)影響整個(gè)后續(xù)環(huán)節(jié)的性能。
問題分類的方法主要包括基于學(xué)習(xí)和基于規(guī)則兩種方式。例如,在本文提及的FAQ法律問答當(dāng)中,我們針對(duì)13類問題語料進(jìn)行訓(xùn)練,得到了基于學(xué)習(xí)型方法的問題分類,在缺少訓(xùn)練語料時(shí),基于關(guān)鍵詞和規(guī)則的問題方式往往成為首選,下圖針對(duì)醫(yī)療知識(shí)問答中提出的幾類問題,給出了規(guī)則示例:

圖14-意圖分類中關(guān)鍵詞與規(guī)則示意圖
多意圖分類是問題解析中的一個(gè)難點(diǎn),用戶往往會(huì)在一個(gè)問題中表達(dá)多種意圖,這時(shí)候,需要采用多分類模型對(duì)其中所涉及到意圖進(jìn)行捕獲。

2) 標(biāo)簽(實(shí)體、操作符)識(shí)別
標(biāo)簽識(shí)別,是指識(shí)別出與目標(biāo)數(shù)據(jù)庫中相關(guān)聯(lián)的實(shí)體、屬性、關(guān)系或操作符集合,也有人稱為槽位識(shí)別。實(shí)體識(shí)別包括常見的機(jī)構(gòu)、日期、金額、地點(diǎn)、人物等實(shí)體,職位、指標(biāo)名稱等屬性關(guān)系。

包含操作符的回答是處理難度較大的一類,如我們會(huì)經(jīng)常涉及到一些最高、最低、平均、總和、相差多少等問法,這種問題比確定性問題的解決方法要復(fù)雜一些,下圖列舉了一些常見的操作符示例。

圖15-標(biāo)簽識(shí)別中的操作符示意圖
3) 條件體與目標(biāo)體識(shí)別

在識(shí)別完特定的標(biāo)簽之后,還需要在此基礎(chǔ)上形成可供查詢轉(zhuǎn)換的條件部分和目標(biāo)部分。條件體,即在進(jìn)行答案搜索過程中需要進(jìn)行匹配的條件,如某個(gè)實(shí)體或標(biāo)簽應(yīng)該滿足的屬性值或關(guān)系類型(也常稱為意圖槽填充)。目標(biāo)體指具體需要返回的數(shù)據(jù),通常包括某個(gè)實(shí)體或標(biāo)簽、某個(gè)實(shí)體或標(biāo)簽的屬性或關(guān)系、符合條件體的布爾型數(shù)據(jù)(是否存在這樣的數(shù)據(jù))。

用于條件體和目標(biāo)體識(shí)別的常用的方法包括基于問題模板和基于標(biāo)簽依存兩種。
例如,在進(jìn)行電影知識(shí)圖譜進(jìn)行問答時(shí),在識(shí)別出電影名稱、人物、角色等標(biāo)簽后,可針對(duì)某一類問題,自定義識(shí)別模板。下圖給出了“演員導(dǎo)演作品”、“作品導(dǎo)演”、“導(dǎo)演自導(dǎo)自演的作品”三類問題的模板示例。

圖16-條件體與目標(biāo)體識(shí)別模板示意圖
自定義模板映射的方式具有準(zhǔn)確率較高,易維護(hù)和擴(kuò)展的優(yōu)點(diǎn),但人工成本要求較多,同一個(gè)問題通常會(huì)有多種不同問法,在短時(shí)間內(nèi)無法窮舉所有可能。

依存關(guān)系的引入,在一定程度上解決了這一難題,構(gòu)建起所識(shí)別的標(biāo)簽之間的父子關(guān)系,可對(duì)條件體和查詢體進(jìn)行準(zhǔn)確定位。我們?yōu)榇嗽O(shè)計(jì)了一種標(biāo)簽依存的識(shí)別方法:將實(shí)現(xiàn)識(shí)別好的標(biāo)簽組成一張圖,并通過計(jì)算標(biāo)簽與標(biāo)簽之間的可能關(guān)聯(lián),利用動(dòng)態(tài)規(guī)劃的方法,找出標(biāo)簽之間概率最大化的依存路徑。


圖17-數(shù)地工場(chǎng)問句標(biāo)簽依存解析效果圖
上圖以“比亞迪的老總和董秘是誰”這一問題出發(fā),通過識(shí)別出比亞迪(公司實(shí)體)、老總(職位關(guān)系)、董秘(職位關(guān)系)并進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化后,進(jìn)一步形成 <Root,比亞迪>、<比亞迪,董事長(zhǎng)>、<比亞迪,董事會(huì)秘書>兩個(gè)父子依存關(guān)聯(lián),這種關(guān)聯(lián)關(guān)系在圖中清晰的展示,該接口已經(jīng)上線到數(shù)地工場(chǎng)中,歡迎大家測(cè)試和使用。網(wǎng)址:https://nlp.datahorizon.cn

2)查詢語句生成
查詢語句生成是整個(gè)KBQA過程中的最后一步,通過問題意圖分析之后,得到了查詢體中的條件體和目標(biāo)體,即可以通過模板轉(zhuǎn)換的方式,進(jìn)行語句的映射和轉(zhuǎn)換。
當(dāng)然,查詢語句的轉(zhuǎn)換要和目標(biāo)數(shù)據(jù)庫相對(duì)齊,如下圖分別展示了以ES、Cypher、SPARQL三種目標(biāo)數(shù)據(jù)查詢語句的生成方式。

圖18-面向ES,Neo4j,RDF的查詢語句生成過程圖
2、項(xiàng)目案例

1)KBQA-Neo4j組合的醫(yī)療知識(shí)問答
Neo4j是目前使用規(guī)模較大的一類圖數(shù)據(jù)庫,其具有多層關(guān)系存儲(chǔ)、路徑搜索推理等多項(xiàng)應(yīng)用場(chǎng)景,并提供了人性化和語義化的查詢語句cypher。

本項(xiàng)目立足醫(yī)藥領(lǐng)域,以垂直型醫(yī)藥網(wǎng)站為數(shù)據(jù)來源,以疾病為核心,構(gòu)建起一個(gè)包含7類規(guī)模為4.4萬的知識(shí)實(shí)體,11類規(guī)模約30萬實(shí)體關(guān)系的知識(shí)圖譜。

該知識(shí)圖譜中記錄了關(guān)于診斷檢查項(xiàng)目、醫(yī)療科目、疾病、藥品、食物、在售藥品、疾病癥狀等多項(xiàng)醫(yī)療實(shí)體,疾病常用藥品、宜吃食物、所需檢查、忌吃食物、推薦藥品、推薦食譜等實(shí)體屬性信息項(xiàng),疾病名稱、簡(jiǎn)介、病因、預(yù)防措施、治療周期、治療方式、治愈概率等關(guān)系信息,可以支撐關(guān)于這些信息項(xiàng)的問答服務(wù)。

該項(xiàng)目利用基于關(guān)鍵詞的方式完成問題分類,基于規(guī)則完成了問句解析和查詢語句轉(zhuǎn)換,以一種較為簡(jiǎn)易的方式提供了預(yù)設(shè)的問題回答服務(wù),初步取得了一定的效果。

圖19-醫(yī)療知識(shí)圖譜問答過程與效果圖
3、KBQA-Mongo組合的軍事武器裝備知識(shí)圖譜問答
Mongo作為一個(gè)文檔型數(shù)據(jù)庫,也是知識(shí)圖譜的一類重要存儲(chǔ)方式,基于構(gòu)建好的mongo結(jié)構(gòu)化數(shù)據(jù),采用相同的前置問答解析方式,轉(zhuǎn)換成mongo的查詢語句,即可輸出相關(guān)結(jié)果。

我們通過對(duì)開源的軍事武器裝備數(shù)據(jù)進(jìn)行整合、清洗和融合,建成了規(guī)模達(dá)到十萬的軍事武器信息三元組,共包括8大類、148小類的武器裝備。基于該武器裝備知識(shí)圖譜,提供一個(gè)基于模式和打標(biāo)簽方式的問答系統(tǒng)。

值得注意的是,在該項(xiàng)目中,我們巧妙的借助了jieba的詞性標(biāo)注功能,快速地進(jìn)行了相關(guān)實(shí)體的識(shí)別與解析,提供了用戶模板的配置接口,基于查詢模板完成多類問題的查詢,并展示了這一問答過程。

圖20-軍事知識(shí)圖譜問答過程與效果圖
4、KBQA-MySql組合的鋼鐵領(lǐng)域知識(shí)問答
同樣的,Mysql也是KBQA范式中常用的一個(gè)數(shù)據(jù)庫選型,傳統(tǒng)的mysql關(guān)系型數(shù)據(jù)庫廣泛適用于銀行、學(xué)校等信息系統(tǒng)當(dāng)中。因此,在實(shí)施的環(huán)節(jié)中,只需要根據(jù)sql查詢語句,在sql生成的階段作相應(yīng)的調(diào)整。

在項(xiàng)目上,我們研制了面向鋼鐵領(lǐng)域的一套自動(dòng)問答系統(tǒng),并構(gòu)建了涵蓋多個(gè)交易所期貨的資訊數(shù)據(jù)、情緒數(shù)據(jù)和關(guān)聯(lián)指標(biāo)數(shù)據(jù)庫,提供資訊類問答、情緒類問答、數(shù)據(jù)指標(biāo)類問答三個(gè)方面的服務(wù)。

例如,對(duì)于問題“今天螺紋鋼有哪些利好資訊”,可通過對(duì)“螺紋鋼”進(jìn)行期貨名稱識(shí)別、時(shí)間項(xiàng)識(shí)別與情緒項(xiàng)識(shí)別,形成搜索條件,完成搜索并以結(jié)果列表頁的方式進(jìn)行返回;在問及某一期貨的情緒和關(guān)聯(lián)的指標(biāo)時(shí),可結(jié)合圖標(biāo)可視化的方式加以表達(dá)。
該項(xiàng)目引入了對(duì)結(jié)果的可視化組織方式,以一種更為鮮明、友好的方式加強(qiáng)用戶的搜索體驗(yàn)。


圖21-鋼鐵領(lǐng)域知識(shí)問答過程與效果圖

五、 知識(shí)搜索的幾點(diǎn)思考

利用現(xiàn)有的知識(shí)抽取和知識(shí)搜索技術(shù),的確可以在一定程度上滿足一些搜索場(chǎng)景的需求,但在具體搜索項(xiàng)目課題立項(xiàng)以及項(xiàng)目實(shí)施的過程中,依舊存在多個(gè)需要考慮的關(guān)鍵點(diǎn)、誤區(qū)和風(fēng)險(xiǎn)點(diǎn)。
1、實(shí)施關(guān)鍵點(diǎn)
1)明確搜索的對(duì)象:受眾,面向個(gè)人or面向統(tǒng)一平臺(tái)的,DIY式的搜索和大眾搜索所帶來的維護(hù)成本、開發(fā)成本時(shí)截然不同;
2)確定問題的邊界:有所問,有所不問。這個(gè)尤其重要,需要將用戶問題約束住,切勿脫離數(shù)據(jù)而設(shè)定問題,脫離現(xiàn)實(shí)技術(shù)而設(shè)定問題,以免預(yù)期落空;
3)根據(jù)問題找數(shù)據(jù):需要根據(jù)預(yù)先調(diào)研和確定好的問題來構(gòu)建相關(guān)的數(shù)據(jù)庫。如前面所提到的,若是走問答對(duì)的形式,則走問答對(duì)構(gòu)建以及問句類型設(shè)計(jì)的路線;
若走全文檢索的路線,則需要根據(jù)所需檢索的字段確定搜索的單元,如針對(duì)文檔內(nèi)部的搜索,常常需要將文檔的層級(jí)結(jié)構(gòu)信息,段落、子段落、常句、表格、標(biāo)題等進(jìn)行有效索引;
若實(shí)施KBQA,則需要構(gòu)建相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),并考慮多個(gè)不同結(jié)構(gòu)化數(shù)據(jù)庫的存儲(chǔ)、通信、后續(xù)數(shù)據(jù)的接入問題。
4)關(guān)注搜索架構(gòu)的魯棒性:一個(gè)成功的搜索系統(tǒng),需要從搜索性能、搜索變更能力、搜索維護(hù)壓力、數(shù)據(jù)的標(biāo)準(zhǔn)化、外圍數(shù)據(jù)接入與通信方式等多個(gè)方面進(jìn)行考慮,尤其是在系統(tǒng)升級(jí)的過程中,能夠做到快速、平穩(wěn)的切換。
5)關(guān)注數(shù)據(jù)的安全性與更新機(jī)制:一個(gè)搜索系統(tǒng),在上線運(yùn)行之后,通常會(huì)處于一個(gè)不斷積累數(shù)據(jù)和功能擴(kuò)充的狀態(tài),涉及到數(shù)據(jù)的安全性問題,這個(gè)在銀行、涉密等多個(gè)環(huán)境下尤為重要。
2、誤區(qū)與風(fēng)險(xiǎn)點(diǎn)
1)認(rèn)識(shí)要冷靜:AI搜索助手沒不會(huì)那么”AI”,大多時(shí)候會(huì)覺得它很“智障”,尤其是現(xiàn)在“神化知識(shí)圖譜”或“神化KBQA”的風(fēng)氣不減的當(dāng)下,更是要保持冷靜。
2)預(yù)期要實(shí)際:“深度學(xué)習(xí)”有所為有所不能為,需要大量的人工、規(guī)則、模板,動(dòng)輒的“模型迭代”和“自我學(xué)習(xí)”在工業(yè)級(jí)場(chǎng)景大多很難實(shí)施,受到人力、算力、客戶忍耐度、維護(hù)等多方因素的制約,警惕將學(xué)術(shù)論文評(píng)測(cè)的做法引入到工業(yè)級(jí)落地當(dāng)中。
3)人機(jī)結(jié)合是正道:選擇平穩(wěn)、可靠的AI助手的最佳方式:靈活可配置的人工參與接口,可迭代升級(jí),盡可能減少后期維護(hù)成本額,這樣才能省心、省人力。在整個(gè)項(xiàng)目實(shí)施上,可以小步快跑,步步迭代,切勿超之過急,先做好每個(gè)細(xì)分功能點(diǎn)
4)數(shù)據(jù)整合占大塊:功能的設(shè)計(jì)、業(yè)務(wù)的梳理、數(shù)據(jù)的整理,占據(jù)整個(gè)項(xiàng)目超過70%的時(shí)間。針對(duì)不同數(shù)據(jù)庫之間的搜索,需要花費(fèi)大量的人工進(jìn)行數(shù)據(jù)梳理;針對(duì)結(jié)構(gòu)化查詢,需要準(zhǔn)備大量的外部知識(shí)庫(業(yè)務(wù)詞典、同義詞詞典等)。
5)項(xiàng)目設(shè)立要慎重:在確定是否需要建設(shè)一個(gè)搜索系統(tǒng)之前,需要考慮當(dāng)前的數(shù)據(jù)類型是否適合于搜索,自己當(dāng)前的資源是否能夠支撐搜索代價(jià),預(yù)設(shè)的數(shù)據(jù)架構(gòu)是否能夠涵蓋后續(xù)的數(shù)據(jù)類型,不慎的話會(huì)影響后期維護(hù)和擴(kuò)展。

六、 總結(jié)
不同的領(lǐng)域?qū)χR(shí)的搜索需求不同,但最終的目的都是做的知識(shí)的整合、梳理、索引和管理,并在此基礎(chǔ)上提升客戶應(yīng)答效率。本文結(jié)合我們團(tuán)隊(duì)的工作,對(duì)知識(shí)搜索這一內(nèi)容進(jìn)行了相關(guān)的分析。
知識(shí)搜索,在銀行保險(xiǎn)等金融領(lǐng)域、電子政務(wù)與法律領(lǐng)域、游戲娛樂等消費(fèi)領(lǐng)域、教育培訓(xùn)與醫(yī)療領(lǐng)域上有大量搜索需求。
知識(shí)定位搜索、知識(shí)實(shí)證搜索以及知識(shí)結(jié)構(gòu)化搜索是先有搜索服務(wù)的三種常見搜索場(chǎng)景,為了支撐該搜索,常用的搜索范式包括基于全文檢索的、基于FAQ的,基于KBQA三種路線。
文本預(yù)處理以及全文匹配搜索評(píng)分是全文檢索的兩個(gè)核心點(diǎn),我們?cè)诮鹑陬I(lǐng)域的底稿管理這一項(xiàng)目中進(jìn)行了實(shí)踐,提升了底稿業(yè)務(wù)的效率;
問答對(duì)數(shù)據(jù)的構(gòu)建、問題匹配評(píng)分模型、問題的壓縮、問題的糾錯(cuò)是FAQ搜索范式的幾個(gè)關(guān)鍵點(diǎn),我們以法律咨詢問答項(xiàng)目中對(duì)該技術(shù)進(jìn)行了驗(yàn)證和實(shí)踐,可快速地針對(duì)用戶問提給出準(zhǔn)確答案;
KBQA搜索是面向結(jié)構(gòu)化數(shù)據(jù)搜索的重要搜索范式,我們分別從醫(yī)療知識(shí)圖譜問答、軍事武器問答、鋼鐵領(lǐng)域知識(shí)問答三個(gè)項(xiàng)目出發(fā),探索了圖數(shù)據(jù)庫、文檔數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫的對(duì)接策略,提出了基于模版可靈活配置模式的標(biāo)簽識(shí)別、標(biāo)簽依存關(guān)系識(shí)別的方法,具有魯棒性的優(yōu)點(diǎn)。
在具體搜索項(xiàng)目課題立項(xiàng)以及項(xiàng)目實(shí)施的過程中,存在著多個(gè)風(fēng)險(xiǎn)點(diǎn)和關(guān)鍵點(diǎn),我們需要明確搜索的對(duì)象、確定問題的邊界、根據(jù)問題找策略、關(guān)注搜索架構(gòu)的魯棒性、數(shù)據(jù)的安全性與更新機(jī)制,此外,還要充分保持冷靜、預(yù)期實(shí)際、承認(rèn)人機(jī)結(jié)合的科學(xué)道路,并認(rèn)識(shí)到前期數(shù)據(jù)整理和設(shè)計(jì)需要花費(fèi)的代價(jià)。

參考鏈接
[1]https://xueji.zhiwenben.com
[2]https://nlp.zhiwenben.com
[3]https://liuhuanyong.github.io
[4]https://www.iwencai.com
[5]http://www.iwencai.com
[6]https://ask.shannonai.com
[7]https://www.bilibili.com/video/BV1Ub411H73G

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的领域情报搜索实践:真实场景下的问答实施策略与风险分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 在线日韩国产 | 超碰福利在线观看 | 日日噜噜噜噜人人爽亚洲精品 | 四虎视频国产精品免费 | 日韩免费视频一区二区视频在线观看 | 日本高清一区二区视频 | 亚洲操操 | 久久网站av | 狠狠人妻久久久久久综合麻豆 | 开心激情久久 | 国产日韩欧美二区 | 婷婷在线一区 | 亚洲精品一区二区三区新线路 | 69国产精品视频免费观看 | 欧美成人一区二区三区片免费 | 国产97自拍 | 日本美女影院 | 欧美手机在线视频 | av观看网站| 国产无遮挡又黄又爽免费网站 | 欧洲亚洲国产精品 | 依依激情网 | 又色又爽又黄无遮挡的免费视频 | 国产人妖av | av色站 | 亚洲激情av在线 | 男人的天堂黄色 | 亚洲老老头同性老头交j | 国产大奶在线观看 | 中国免费看的片 | 欧美日韩资源 | 亚洲av无码一区二区三区在线播放 | 国产福利一区二区三区视频 | 伊人久久久久噜噜噜亚洲熟女综合 | 欧美精品久久天天躁 | 日本成人在线免费观看 | 成人欧美日韩 | www.sesehu.com| 亚洲AV无码一区二区三区蜜桃 | 69xx免费视频 | 欧美久久久久久久久久久久 | 99er视频| 一区二区三区观看 | 狠狠插av| 探花一区 | 极品少妇xxxx精品少妇偷拍 | 超碰免费人人 | 国产精品夫妻自拍 | 黄色在线视频网址 | 亚洲乱码国产乱码精品精软件 | 三浦惠理子aⅴ一二三区 | 变态另类一区二区 | 久久1024| 久久人人人 | 中文字幕一区二区三区免费 | 国产精选一区二区 | 丰满的女人性猛交 | 日韩av电影网址 | 亚洲精品777 | 久久依人 | 国产高清视频免费在线观看 | 91看片视频 | 日韩欧美一区视频 | 鬼眼| 国产精品主播 | www四虎| 色播视频在线播放 | jizz在线播放 | 亚洲中字| 亚洲中文字幕第一区 | 中文字幕午夜 | 日韩视频免费观看高清 | 999免费视频| 无码熟妇人妻av | 一本大道av伊人久久综合 | 国产普通话bbwbbwbbw | freesex性hd公交车上 | 亚洲性生活视频 | 日本人极品人妖高潮 | 添女人荫蒂视频 | 樱花草av| 国产一区91精品张津瑜 | 亚洲+小说+欧美+激情+另类 | 亚洲xxxx18| 亚洲第一视频 | 亚洲欧美专区 | 欧美福利在线 | 免费av电影网站 | 亚洲亚洲人成综合网络 | 国产偷人 | 国产a级网站 | 国产真实生活伦对白 | 国产午夜不卡 | 黄色片美女 | 国产视频最新 | 天堂网视频 | 色宗合| 精品国产一区二区三区四区阿崩 | 色香视频首页 |