日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理在开放搜索中的应用

發布時間:2024/9/3 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自然语言处理在开放搜索中的应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
簡介:構建搜索引擎的時候,都會遇到很多效果優化的問題,其中很多都和自然語言處理相關。本文通過結合開放搜索中NLP技術要點進行解讀和分析。

特邀嘉賓:謝朋峻--阿里云智能高級算法專家
視頻地址:https://yunqi.aliyun.com/2020/session54?liveId=44650

自然語言智能(NLP)

自然語言智能研究實現人與計算機之間用語言進行有效通信。它是融合語言學、心理學、計算機科學、數學、統計學于一體的科學。它涉及到自然語言和形式化語言的分析、抽取、理解、轉換和產生等多個課題。

人工智能可以分為幾個階段

? 計算智能,指依靠計算強大的算力和海量數據的存儲能力,可以在部分領域超越人類的表現。代表例子就是谷歌的alphago,憑借谷歌TPU的強大算力以及結合類似蒙特卡洛樹搜索、強化學習等算法,能夠在圍棋的巨大搜索空間中計算出好的決策路徑,戰勝人類,這是計算智能;
? 感知智能,是指從無結構化數據中識別出重要的要素。比如給一個query,分析出包含的人民、地名、機構名等;
? 認知智能,是在感知之上,能夠理解其中要素的含義以及進行一些推理。比如“謝霆鋒是誰的兒子 誰是謝霆鋒的兒子”兩句話。詞和實體都差不多,但語義差別很多。這是認知智能要解決的問題;
? 創造智能,比如計算機指能夠理解語義的基礎上,創造出符合常識、語義、邏輯的句子。比如自動寫出行云流水的小說、創造娓娓動聽的音樂 能夠無違和跟人自然聊天等
自然語言處理研究覆蓋了感知智能,認知智能,創造智能這樣的學科,是實現完整人工智能的必要技術

自然語言智能發展趨勢

  • 深度語言模型突破式發展, 引領重要自然語言技術取得進展;
  • 公有云NLP技術服務從通用功能走向定制化服務;
  • 自然語言技術逐步與行業/場景緊密結合, 產生更大價值;
  • 阿里集團NLP平臺能力


    從下到上分為了NLP數據、NLP基礎能力、NLP應用技術和上層應用。
    NLP數據是很多算法的原料,累了包括語言詞典、實體知識詞典、句法詞典、情感分析等詞典等。阿里NLP基礎技術包含了詞法分析、句法分析、文本分析、深度模型。在這之上,是NLP垂直的技術 包括問答 對話技術 反垃圾 地址解析等。這些技術的組合,就支持了很多應用。 其中搜索是NLP能力非常密集的一個應用

    開放搜索中NLP應用和典型技術


    ? 基礎設施包含了阿里云基礎產品,以及基于阿里生態搜索場景打磨出的多個搜索自研系統,比如HA3、RTP、Dii等;
    ? 管控基礎平臺,保證我們離線數據采集、管理、訓練等;
    ? 算法模塊,我們分為兩塊,一塊是查詢分析相關,包含多粒度分詞、實體識別、糾錯改寫等;另一個塊是相關性和排序相關,包括文本相關性、CTR CVR預估、LTR 等;
    (其中橙色背景的表示是跟NLP相關)
    開放搜索的目標是要打造一站式、開箱即用的智能搜索服務,所以我們會把這些算法能力,以行業模板、 場景化、周邊服務的形式開放給用戶。

    開放搜索NLP分析鏈路

    搜索的發起,往往是一個搜索關鍵詞觸發,比如用戶搜索“ aj1北卡蘭新款球鞋”


    跨領域分詞
    我們在開放搜索開放了一系列的領域的分詞模型
    分詞挑戰

  • 各個領域不斷新增的未登錄詞或者叫新詞,往往會大大降低分詞效果;
  • 為新用戶定制分詞模型,從標注到訓練的整個過程,成本都比較高;
    解決思路
  • 結合統計特征,比如互信息、左右上等構建一個成詞模型,可以基于用戶數據快速構建一份領域詞典;
  • 結合源領域分詞模型和目標領域的詞典,我們基于遠程監督技術可以快速構建一個目標領域分詞器;

  • (上圖為自動跨領域分詞框架)
    用戶只需要提供給我們一些自己業務的語料數據,我們就可以自動的得到一個定制化的分詞模型,這不僅大大提升了效率,同時也更快滿足客戶的需求。
    通過這個技術,我們可以在各個領域獲得比開源通用分詞,更好的效果


    命名實體識別
    命名實體識別(NER),例如從query中提取人名 地名 時間等。
    挑戰與困難
    NER在NLP領域研究非常多同時也面臨很多的挑戰,尤其在中文上由于缺乏天然分隔符,面臨邊界歧義、語義歧義、嵌套歧義等困難。
    **解決思路
    **? 下圖右上角是我們在開放搜索中使用的模型架構圖;
    ? 在開放搜索中,很多用戶都積累了大量詞典實體庫。為了充分利用這些詞典,我們提出了一種在bert之上,有機融合知識的graphNer框架。從右下角的表格可以看出,在中文上能取得最好的效果;


    拼寫糾錯
    開放搜索分為4個糾錯步驟包含了挖掘、訓練、評估和在線預測。
    主要的模型根據統計翻譯模型和神經網絡翻譯模型兩套系統,同時在性能、展示樣式和干預上有一套完備方法。


    語義匹配
    深度語言模型的出現給很多NLP任務帶來了跨越式的提升,尤其是在語義匹配等任務上。
    達摩院在bert上也提出了很多創新,提出了自研的StructBert。主要創新點在于在深度語言模型訓練中,增加了字序/詞序的目標函數 和更多樣的句子結構預測目標函數,進行多任務學習。但是這樣的通用的structbert是無法試用給開放搜索里成千上萬個客戶,成千上萬個領域的。我們需要做領域適配。所以我們提出了語義匹配3階段范式。 可以快速的為客戶定制適合于自己業務的語義匹配模型。


    (具體的流程如圖)

    NLP算法產品化

    算法模塊產品化的系統架構,包含了離線計算、在線引擎以及產品控制臺。
    圖中淺藍色的部分是NLP在開放搜索上開放的算法相關功能,用戶可以直接在控制臺體驗和使用。


    以上就是本次云棲大會--“自然語言處理在開放搜索中的應用”的內容。如果您對搜索與推薦相關技術感興趣,歡迎加入釘釘群內交流~

    【開放搜索】新用戶活動:阿里云實名認證用戶享1個月免費試用https://free.aliyun.com/product/opensearch-free-trial

    原文鏈接:https://developer.aliyun.com/article/775695?

    版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。

    總結

    以上是生活随笔為你收集整理的自然语言处理在开放搜索中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。