日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

智能工单处理

發(fā)布時間:2023/12/31 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 智能工单处理 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

智能工單處理是團(tuán)隊基于自然語言處理技術(shù)和搜索引擎技術(shù)提升沃工單處理效率,提高支撐滿意度的運維工具。
沃工單系統(tǒng)一個完整的工單生命周期如下圖所示,包括工單產(chǎn)生、派送、處理、歸檔四個周期。智能工單處理主要用于工單處理環(huán)節(jié):當(dāng)在沃工單系統(tǒng)中錄入問題后,將類似問題的解決方案推薦給處理人參考
1.1 粗排策略
粗排策略跟一般的搜索引擎非常類似,主要技術(shù)包括粗細(xì)粒度分詞、詞重要性計算、核心詞識別、命名實體識別、語義歸一等相關(guān)技術(shù),主要是為了在粗排階段盡可能地把相關(guān)問題進(jìn)行召回。
1) 詞重要性計算:通過計算重要性,表示問題的詞匯權(quán)重越高,在召回時命中這些詞匯的候選集越有可能被召回。如:“沃家庭和沃商務(wù)的主號碼是什么?”,在這個問題中,“主號碼;沃商務(wù);沃家庭”是高權(quán)重的詞,“什么”是較低權(quán)重的詞;因此越符合“主號碼;沃商務(wù);沃家庭”的答案越有可能被召回。
2) 核心詞識別:核心詞就是候選集中必須相關(guān)的詞。如“已驗證的普票,提示付款信息不符,需更改銷貨單位名稱”,核心詞是“更改”、“銷貨單位名稱”,如果候選集中沒有這兩個相關(guān)的詞,如“更改金額”,“填寫銷貨單位名稱”,都是不符合問題需求的。
3) 命名實體識別:通過命名實體識別,能協(xié)助識別出問題答案中的核心詞,也可以對核心專有名詞進(jìn)行重要性加權(quán),輔助搜索引擎提升召回效果。
4) 語義歸一:同一個問題可能有很多種問法,如“鎖定工號如何解除”、“工號鎖定處理方法”,實際上描述的是一個問題。通過語義歸一處理可擴(kuò)大召回。
1.2 精排策略
通過粗排,搜索引擎已經(jīng)返回了一大批可能相關(guān)的結(jié)果,比如500個,如何從這500個問題中找到最符合問題的一個或者幾個,非常考驗算法精度。沃工單問題方案推薦系統(tǒng)會通過語義和深度學(xué)習(xí)的方法尋找最匹配的答案。
1) 基于句子相似度的算法
詞向量有個有趣的特性,通過兩個詞向量的減法能夠計算出兩個詞的差異,這些差異性可以應(yīng)用到語義表達(dá)中。如:vec(Berlin) – vec(Germany) = vec(Paris) – vec(France);通過這個特性能夠用來計算句子的相似度。假設(shè)兩個詞xi, xj之間的距離為

,這可以認(rèn)為是xi轉(zhuǎn)換到xj的代價。可以將句子用詞袋模型

表示,模型中某個詞i的權(quán)重為

,其中ci是詞i在該句子中出現(xiàn)的次數(shù)。設(shè)置

為一個轉(zhuǎn)換矩陣,Tij表示句子d中詞i有多少權(quán)重轉(zhuǎn)換成句子d’中的詞j,如果要將句子d完全轉(zhuǎn)換成句子d’,所花費的代價計算如下:

如果用Xd表示句子中的詞向量通過權(quán)重di進(jìn)行加權(quán)平均的句向量,可以推導(dǎo)出,句子轉(zhuǎn)換代價的下限是兩個句向量的歐式距離。

一般這個下限表示兩個短句子相似的程度已經(jīng)足夠了,如果需要通過完全最優(yōu)化的方法計算

的值,可以通過 EMD solver算法計算。
2) 基于深度學(xué)習(xí)計算問答匹配程度
基于句向量的距離計算句子相似度,可以cover大部分的case,但在句子表面相似,但含義完全不同的情況下就會出現(xiàn)一些問題,比如“我喜歡冰淇淋”和“我不喜歡冰淇淋”,分詞為 “我”,“不”,“喜歡”,“冰淇淋”,兩個句子的相似度是很高的,僅一字“不”字不同,導(dǎo)致兩個句子意思完全相反。要處理這種情況,需要使用深度模型抓住句子的局部特征進(jìn)行語義識別。

如圖所示,Q是用戶的問題,D是返回的各個答案。對于某一個問答句子,首先將它映射到500k大小的BOW向量TermVector里。因為TermVector是稀疏矩陣,可以使用WordHashing或者其他Embedding的方法將其映射到30k大小的詞向量空間里。接下來的l1, l2,l3層就是傳統(tǒng)的MLP網(wǎng)絡(luò),通過神經(jīng)網(wǎng)絡(luò)得到query和document的語義向量。計算出(D,Q)的cosinesimilarity后,用softmax做歸一化得到的概率值是整個模型的最終輸出,該值作為監(jiān)督信號進(jìn)行有監(jiān)督訓(xùn)練。模型通過挖掘搜索點擊日志構(gòu)造的query和對應(yīng)的正負(fù)document樣本(點擊/不點擊),輸入DSSM進(jìn)行訓(xùn)練。
3) 基于卷積神經(jīng)網(wǎng)絡(luò)計算問答匹配程度
句子中的每個詞,單獨來看有單獨的某個意思,結(jié)合上下文時可能意思不同;比如“我買了一臺蘋果,很好用”和“我買了個蘋果,很好吃”,這兩句話里的“蘋果”意思就完全不一樣。通過基于卷積神經(jīng)網(wǎng)絡(luò)的隱語義模型,我們能夠捕捉到這類上下文信息。

如圖所示,先通過滑窗構(gòu)造出query或document中的一系列n-gramterms,比如圖中是Word-n-gramlayer中的trigram;然后通過word-hashing或者embedding將trigramterms表示為90k的向量;通過卷積向量Convolutionmatrix Wc對每個letter-trigram向量作卷積,可以得到300維的卷積層Convolutionallayer;最后通過max-pooling取每個維度在Convolutionallayer中的最大值,作為文本的隱語義向量。模型也是通過挖掘搜索日志進(jìn)行有監(jiān)督訓(xùn)練。
通過卷積神經(jīng)網(wǎng)絡(luò),能得到句子中最重要的信息。如下面一些句子,高亮的部分是卷積神經(jīng)識別的核心詞,它們是在300維的Max-pooling層向量里的5個最大神經(jīng)元激活值,回溯找到原始句子中的詞組。
microsoft office excel could allow remote code execution
welcome to the apartment office
4) 基于主題模型計算問答匹配程度
短文本一般詞語比較稀疏,如果直接通過共現(xiàn)詞進(jìn)行匹配,效果可能會不理想。有研究團(tuán)隊提出DeepMatch的神經(jīng)網(wǎng)絡(luò)語義匹配模型,通過(Q, A)語料訓(xùn)練LDA主題模型,得到其topicwords,這些主題詞用來檢測兩個文本是否有語義相關(guān)。該模型還通過訓(xùn)練不同“分辨率”的主題模型,得到不同抽象層級的語義匹配(“分辨率”即指定topic個數(shù),高分辨率模型的topicwords通常更加具體,低分辨率的topicwords通常更加抽象)。在高分辨率層級無共現(xiàn)關(guān)系的文本,可能在低分辨率存在更抽象的語義關(guān)聯(lián)。DeepMatch模型借助主題模型反映詞的共現(xiàn)關(guān)系,可以避免短文本詞稀疏帶來的問題,并且能得到不同的抽象層級的語義相關(guān)性。

如圖所示,綠色和紫色塊分別表示在同一個分辨率下不同的主題在X和Y文本中命中的主題詞塊,與上一層分辨率(p-layerII)的主題的關(guān)聯(lián)通過是否與上一層的主題詞塊有重疊得到。如此通過多層的主題,能夠構(gòu)建出神經(jīng)網(wǎng)絡(luò),并使用有監(jiān)督的方式對相關(guān)權(quán)重進(jìn)行訓(xùn)練。
以上即是智能工單處理系統(tǒng)的粗排和精排所采用的基本策略。而在實際項目過程中,需考慮其他因素綜合提升智能工單處理系統(tǒng)的效果。包括:

  • 從工單附件信息中抽取出更多語義特征,包括圖片類的附件,從而更好地表征工單問題。
  • 構(gòu)建效果評估機(jī)制,量化分析方案推薦的準(zhǔn)確性和有效性。
  • 構(gòu)建工單標(biāo)簽分類體系,按照工單問題的標(biāo)簽和分類縮小粗排、精排范圍,從而在一定時間內(nèi)可支撐更復(fù)雜的召回排序運算。
  • 總結(jié)

    以上是生活随笔為你收集整理的智能工单处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。