日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

阿里云峰会 | AI搜题加速在线教育行业场景创新

發布時間:2024/9/3 ChatGpt 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 阿里云峰会 | AI搜题加速在线教育行业场景创新 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
簡介:過去的2020年的讓所有人難忘的一年,受新冠疫情的影響,各行各業都在挑戰中變化,在教育方面也催生了新的商業格局。在線教育平臺發展迅猛,阿里云也積極相應,為在線教育的眾多客戶提供了高效穩定的技術保障。本文介紹了阿里云開放搜索為在線教育掠奪流量的重要工具-拍照搜索的技術原理。

分享人:徐光偉(昆卡) 阿里巴巴達摩院算法專家

了解更多解決方案詳情:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch

搜索是在線教育企業流量獲取的利器


截至2020年12月份教育行業月活TOP10的統計,其中具備搜題能力的軟件多達5個,拍照搜題作為產品能力,可以幫助客戶獲取大量用戶以及流量,從而為其他產品提供變現能力,正是由于這樣定位,拍照搜題整體準確性和搜索效率都成為至關重要的一點,所以開放搜索對此做了很多訂制優化。

教育搜題業務特點


對于教育搜題業務場景歸納了三大特點:

第一點海量題庫,教育題庫都是屬于千萬級別甚至到億級別,而且不斷的持續增長;同時搜題業務存在很明顯的高峰現象,例如晚上七八點,節假日最后一天,這時搜題會存在非常高的QPS的波峰;搜索延遲會嚴重影響用戶的體驗。

第二點場景豐富,拍照搜題涵蓋的場景越來越豐富,包括不同的年齡段,例如低年級搜題主要圍繞拍照看圖識字或連線題,需要更多的圖片信息的題目;還包括不同的學科,目前支持的學科多達十多種,因此豐富的場景就會對搜索效果帶來更大的挑戰。

第三點算法需求,拍照搜題產品形態一般只會展現TOP3或者TOP5的結果,正是因為這樣設定,準確性對于拍照搜題來說至關重要,同時拍照搜題還會涉及到多模態和多語言處理能力,解決圖文搜索和多語言處理的需求。

開放搜索教育搜題方案架構


阿里云開放搜索的拍照搜題解決方案,當用戶通過拍照經過OCR識別之后的文本,經過開放搜索引擎處理后會返回TOP3-5的結果給用戶得到展示,并且針對企業題庫數據嚴格保證數據的安全和隱私。

教育搜題算法能力

查詢分析算法優化完整的處理流程


教育行業分詞和學科類目預測


分詞在拍照搜題場景下存在兩大難點,第一點英文題目OCR識別之后空格缺失,左邊第一個圖可以看到,即便針對很長沒有空格的英文文本,模型也是可以非常準確的做正確的切分。第二個難點是數學題目公式表示之后的切分,左邊第二個圖可以看到數學符號部分都做出正確的切分。

類目預測在拍照搜題場景下對應的就是學科的預測和題型的預測,我們結合圖片以及OCR識別之后的文本信息做多模態預測,從而提高搜題準確率。

多路召回排序技術


由于拍照搜題業務場景的特殊性,開放搜索還引入了多路召回排序技術。

為什么要做多路召回呢?

教育拍照搜題相比傳統的網頁或者電商的搜索存在明顯的差異,第一點是搜索的Query特別長,第二點是搜索的Query由拍照OCR識別之后得到的文本,其中關鍵TERM識別錯誤的話,就會嚴重影響召回排序。

傳統的純文本查詢方案包括兩種,第一種是OR邏輯查詢,第二種AND邏輯查詢,AND邏輯查詢上基于我們剛才說到的針對教育領域優化定制的Query模塊分析之后大幅提高效果,現在可以做到準確性接近OR邏輯。


如何兼顧搜索計算開銷以及搜索的準確率呢?

引入了文本的向量召回,對文本向量召回技術優化了三點,

第一點是其中的BERT模型我們采用達摩院自研的StructBERT,并針對于教育行業做了定制,同時對BERT模型做壓縮加速。

第二點是向量檢索引擎采用達摩院自研的Proxma引擎,準確性和速度都超越開源系統。

第三點訓練數據可以基于客戶的搜索日志不斷積累,效果持續提升。

從右邊的圖可以看到,最終我們在基于兩側的BERT模型就可以達到非常好的效果,準確性超過OR邏輯3%—5%,整體召回DOC數量減少40倍,Latecy降低10倍以上。

搜題效果展示


舉例兩個具體搜題的case,左邊這個case可以看到其中因為問題中的文字描述和題庫中文字描述不一致,傳統搜索引擎返回的結果相關性極差,經過我們引入語意向量召回之后右邊TOP3結果完全符合題意。第二個case因為這個題目中包含圖片的信息,傳統的搜索引擎無法做到準確的召回,基于我們多路召回引入圖象信息之后TOP1返回完全一致的題目。

開放搜索解決方案優勢


案例一:某K12的教育用戶,用戶數達到千萬級別,題庫量在八千萬左右而且在持續增加,客戶接入開放搜索之后返回搜題準確率提升45%,延遲降到50%毫秒。


案例二:某高職教育客戶,產品DAU三百萬,月活一千萬,客戶接入之后反饋對比他們原先自建的系統,在高峰時候耗時大于兩秒,現在開放搜索可以穩定在50毫秒,同比下降40倍。TOP5題目搜索準確率提升2.4%搜索結果從原來40%降到不到1%,業務高峰期可以實現秒級平滑擴容。


獲得專家指導:

https://survey.aliyun.com/apps/zhiliao/6R4u6vilI

原文鏈接:https://developer.aliyun.com/article/784459?

版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。

總結

以上是生活随笔為你收集整理的阿里云峰会 | AI搜题加速在线教育行业场景创新的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。