领域应用 | 偷偷告诉你,那些二次元萌妹都有个叫知识图谱的爸爸
本文轉載自公眾號:AI 時間。
? ? ? ? ? ? ??
《AI108將》是AI時間全新的AI行業人物專訪欄目。
艾倫·麥席森·圖靈說:有時,那些人們對他們并不抱有期望的人,卻能做到人們不敢期望的事情。Sometimes It's very people who no one imagines angthing of who do the thing no one can imagine.
百度李彥宏說:為什么大家覺得人工智能沒有用?我在美國讀書的時候,我就很喜歡人工智能這門課,但是學完之后,教授說其實沒用。
“人工智能沒有一個真正有商業價值的應用,你將來靠這個是找不著工作的。”
現在,全球AI領域從業人員僅30萬,但人才缺口達到了200萬。
對AI不抱希望的美國教授,恐怕現在很難理解中國政府將人工智能寫進《中國制造2025發展規劃》的初衷。
但中國的AI從業者懂。
我們尋找在中國的人工智能領域已經占有一席之地,或者正在路上的創業者,投資人,專家和媒體人,試圖通過他們的故事來拼起屬于我們中國的AI譜系。將不可能變為可能只是前菜。我們希望幾十年后科茲威爾的奇點臨近之時,《AI108將》可以作為一部真實可信的歷史文獻,供后人(或許是機器人)參考研究。
ALL IN AI,ALL IN人工智能。
一個引子
今年1月,工信部信息通信管理局約談了百度、支付寶和今日頭條,稱其非法調用用戶手機權限。
幸災樂禍的騰訊緊跟著發布了《2017年度網絡隱私安全及網絡欺詐行為分析報告》。
報告顯示:去年下半年,安卓手機App中有98.5%都在獲取用戶隱私權限,相較于上半年增長近2%。獲取用戶手機隱私權限的iOS應用比例上升,達到81.9%。有9%的安卓應用在2017下半年存在越界獲取用戶隱私權限的現象。
不過常在河邊走哪有不濕鞋。
上個月,有網友反映在使用QQ瀏覽器打開某些網頁的時候會引起vivo NEX攝像頭緩緩彈出。有網友懷疑打開QQ瀏覽器時,軟件存在偷拍用戶的嫌疑。
QQ瀏覽器發布情況說明,確認存在攝像頭被調起,不過這一動作不會開啟攝像頭,更不會拍攝或記錄。
?打臉與否我們暫時無法判別,但是毋庸諱言,我們幾乎每天都會接收到各種各樣的推薦信息,從新聞、購物到吃飯、娛樂。個性化推薦系統作為一種信息過濾的重要手段,可以依據我們的習慣和愛好推薦合適的服務。
話說回來,巨頭們如果真的想要給你推薦廣告,真的有必要冒著被發現的風險偷拍你嗎?
捫心自問一下,你家里是有礦還是咋地?別自作多情了。?
推薦系統和知識圖譜
微軟研究院發布的一篇文章認為,傳統的推薦系統只使用用戶和物品的歷史交互信息(顯式或隱式反饋)作為輸入,這會帶來兩個問題:
一,?在實際場景中,用戶和物品的交互信息往往是非常稀疏(sparse)的。例如,一個電影類APP可能包含了上萬部電影,然而一個用戶打過分的電影可能平均只有幾十部。使用如此少量的已觀測數據來預測大量的未知信息,會極大地增加算法的過擬合(overfitting)風險;
?二,對于新加入的用戶或者物品,由于系統沒有其歷史交互信息,因此無法進行準確地建模和推薦,這種情況也叫做冷啟動問題(cold start problem)。
解決稀疏性和冷啟動問題的一個常見思路是在推薦算法中額外引入一些輔助信息(side information)作為輸入。輔助信息可以豐富對用戶和物品的描述、增強推薦算法的挖掘能力,從而有效地彌補交互信息的稀疏或缺失。常見的輔助信息包括:
社交網絡(social networks):一個用戶對某個物品感興趣,他的朋友可能也會對該物品感興趣;
用戶/物品屬性(attributes):擁有同種屬性的用戶可能會對同一類物品感興趣;
圖像/視頻/音頻/文本等多媒體信息(multimedia):例如商品圖片、電影預告片、音樂、新聞標題等;
上下文(context):用戶-物品交互的時間、地點、當前會話信息等。
……
?如何根據具體推薦場景的特點將各種輔助信息有效地融入推薦算法一直是推薦系統研究領域的熱點和難點,如何從各種輔助信息中提取有效的特征也是推薦系統工程領域的核心問題。
知識圖譜研究應運而生。
《AI時間》有幸采訪了知識圖譜領域的學術大咖,王昊奮和漆桂林兩位專家,聽聽他們在知識圖譜領域的見解和分享,相信不久之后你們家也可以有礦了。
?以下是采訪內容:
?王昊奮:知識圖譜為虛擬生命賦能?
AI時間:什么是知識圖譜?基本原理是什么?歷史沿革有哪些?
王昊奮:1)目前知識圖譜還處于初期階段;2)人工干預很重要;3)結構化數據在知識圖譜的構建中起到決定性作用;4)各大搜索引擎公司為了保證知識圖譜的質量多半采用成熟的算法;5)知識卡片的給出相對比較謹慎;6)更復雜的自然語言查詢將嶄露頭角(如Google的蜂鳥算法)。
此外,知識圖譜的構建是多學科的結合,需要知識庫、自然語言理解,機器學習和數據挖掘等多方面知識的融合。有很多開放性問題需要學術界和業界一起解決。我們有理由相信學術界在上述方面的突破將會極大地促進知識圖譜的發展。
By王昊奮《知識圖譜技術原理介紹》
AI時間:為什么Chatbot需要知識圖譜(Knowledge Graph,KG)?
王昊奮:知識圖譜于2012年由谷歌提出,旨在提供更好的搜索體驗。隨著整個Web從原先由網頁和超鏈接構成的Web of Docs轉換為由實體或概念及他們之間的關系構成的Web of Data,谷歌提出了更準確的語義搜索,旨在解決原有的關鍵字搜索僅基于字符串無法理解內容語義的局限。
除了搜索,知識圖譜也被廣泛用于各種問答交互場景中。Watson背后依托DBpedia和Yago等百科知識庫和WordNet等語言學知識。類似地,Alexa也依托其早年收購的True Knowledge公司所積累的知識庫;Siri則利用DBpedia和可計算的知識服務引擎WolframAlpha;狗尾草公司推出的虛擬美少女機器人琥珀虛顏則用到了首個中文鏈接知識庫Zhishi.me。伴隨著機器人和IoT設備的智能化浪潮,智能廚房、智能駕駛和智能家居等應用層出不窮。無獨有偶,百度推出的Duer OS和Siri的進化版Viv背后也都有海量知識庫的支撐。
KG也可輔助通用人工智能(Artificial General Intelligence,AGI),即在常識推理方面起到作用。過去人們常用圖靈測試對機器的智能進行評估,近年來,Winograd Schema Challenge逐漸進入大家的視線。這里舉一個指代消解的例子。指代消解是一個經典NLP任務,旨在將代詞指向具名實體。
By王昊奮《When KG meets Chatbots》
AI時間:如何理解AI虛擬生命的概念?
王昊奮:首先,Chatbot需要更加個性化的知識圖譜。
其次,我們的世界不僅僅是靜態的,而是動態地反映各種事物在時空上的變化。因此,我們不僅僅需要剛剛談到的靜態圖譜,而是需要思考如何表示和應用動態圖譜。
第三,機器人不能只是冷冰冰的回答用戶的問題或幫助用戶完成特定功能。它需要感知用戶的情感并在輸出答案回復的同時伴隨著相應的情感,這樣才更加擬人化。我們發現,之前構建的知識圖譜大多是客觀的,即描述一些客觀的事實。如何在結合個性化圖譜時,能包括一些主觀知識,進而刻畫機器人或用戶的情感元素。
第四,我們發現聊天機器人為了完成很多功能需要對接外部服務或開放API。
從聊天機器人升華到虛擬生命,技術方面存在不小的挑戰。感知方面需要存在感官選擇和整合,全雙工模式,多人溝通和遠場交互等方面不斷提升。在認知方面,意圖與表達多樣化的識別、情感計算、多輪對話及上下文管理,常識推理,個性化和回復一致性等都是亟待解決的難題。在進化技術方面,深度學習利用大數據的紅利,對于特定任務可以做到舉一萬反一,而我們人類是小數據學習的典范,可以做到舉一反三,如何讓虛擬生命做到基于小數據的泛化學習是一個核心挑戰。此外,自我認知管理,即知道我們知道什么東西,不知道什么東西對于虛擬生命處理拒識也有很大的幫助。當然快速性格建模以及快速價值觀的形成都是構建虛擬生命進化技術需要關注的。
By王昊奮《從聊天機器人到虛擬生命:AI技術的新機遇》
漆桂林:知識圖譜構建不是一個技術來解決,而是需要一套工程方法
AI時間:我們了解到,您曾作為第二負責人參與了由科大訊飛牽頭的863課題“高考機器人”的一個子課題。高考機器人和市面上的聊天機器人異同點有哪些?如何利用知識圖譜技術實現這些功能?
漆桂林:高考機器人是一個基于知識圖譜的問答機器人,需要利用從高中課本、教輔材料、百科等數據源獲取的知識來進行問答。
題目的類型有選擇題、填空題、簡答題等,知識的獲取是半自動的,這跟市面上聊天機器人有本質的區別,因為這些機器人大多是基于FAQ的問答對,需要大量人工配置問答對的工作,聊天機器人的知識庫不是知識圖譜,只是問答對。
AI時間:我們注意到您在一篇介紹知識圖譜的落地應用的文章中,認為這項技術在智能問答和語義搜索等領域應用頗多,認為“Watson系統和很多人工智能系統一樣,是高度定制化的,當然,相關技術確實是可以用到多個領域,但是需要有一定的變化。”
知識圖譜技術如何與watson這種高度定制化的專家系統相結合?技術優勢是什么?
漆桂林:知識圖譜技術已經被應用于Watson系統,Watson系統從一些開源的知識圖譜中,比如說DBpedia,檢索答案。知識圖譜只是專家系統的一部分,是解決專家系統的知識獲取的關鍵。
AI時間:知識圖譜和深度學習之間的關系是什么?
漆桂林:知識圖譜是人工智能中知識工程的一個分支,而深度學習是人工智能中神經網絡的一個分支,兩者具有相輔相成的關系,我們可以利用深度學習技術來實現知識圖譜的構建和推理,也可以利用知識圖譜來增強深度學習的可解釋性。
AI時間:數據缺失如何解決?我們注意到一些企業如google最近刷屏的你畫我猜小程序來獲取數據,這是企業的產品優勢。科研人員如何獲取知識圖譜需要的語料?
漆桂林:對于圖像識別來說,利用一些小程序獲取數據是比較容易的。
但是知識圖譜構建不是一個技術來解決,而是需要一套工程方法,這就使得知識圖譜學習和應用的門檻比圖像識別要高很多。
目前谷歌、微軟等公司的知識圖譜都是通過從互聯網的網頁以及用戶對網頁的瀏覽以及用戶的搜索日志中獲取數據。
科研人員要獲取數據,可以從百科和各種網站去爬取數據,對數據進行再加工得到知識,還可以通過提供各種知識服務,比如說問答、推薦和搜索,獲取用戶對數據,從而對圖譜進行更新。
AI時間:對于非結構化數據,用知識圖譜如何來解決?為什么說知識圖譜除了是一門技術,更是一項工程?
漆桂林:這里我先假設非結構化數據指的是文本。首先,非結構化數據可以用來構建知識圖譜,這里需要采用自然語言處理的技術,比如說命名實體識別和關系抽取。其次,我們可以利用開源的知識圖譜,比如說Zhishi.me,來對非結構化數據進行自動化標注,知識圖譜中的實體可以通過實體鏈接的技術來鏈接到文本中,這樣就可以把知識圖譜和文本關聯起來,形成一個文本和實體關聯圖譜,從而輔助智能問答和語義搜索等應用。
AI時間:你曾經在一次專訪中提到,對于知識圖譜技術的發展而言,一個是缺數據,一個是缺工具。目前是否有改觀?如何解決?
漆桂林:對于缺數據這個問題,我其實指的是開源的圖譜缺失。目前openKG正在試圖處理,openKG已經匯集了百科類的知識圖譜以及很多行業圖譜,而且也在建立這些圖譜之間的鏈接,這將有助于解決知識圖譜的數據缺失問題。缺工具的問題比較明顯,這里的工具不是單指某一個算法實現后的工具,而是工具群以及把這些工具群整合在一起的平臺。
舉個例子,關系抽取有不少算法,也有一些開源的工具,但是商用的時候不是一個算法可以解決問題的,往往需要把一套關系抽取工具集成起來才有效,這種可以解決用戶問題的工具是缺失的,需要通過公司化運作來實現。大公司大部分都是這么做的,但是他們的工具只是給自己用,不會開放出來。可喜的是,目前有一些小公司正在做知識圖譜的實用工具和平臺,今年或者明年應該會有一些很不錯的產品出現,這也將是知識圖譜快速發展的契機。
大咖推薦
AI時間:目前除了OpenKG.cn這類型的平臺,國內還有其他知識圖譜的學習渠道嗎?
王昊奮&漆桂林:就是沒有其他平臺(我們才做了OpenKG)。
AI時間:如果想要進入知識圖譜研究領域,需要具備哪些基礎知識?學習路徑是什么?請推薦一些書籍或者課程。
王昊奮&漆桂林:看課程大綱唄(我發誓這是大咖原話,絕對不是我想打廣告)
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的领域应用 | 偷偷告诉你,那些二次元萌妹都有个叫知识图谱的爸爸的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信息检索IR评价中常见的评价指标-MAP
- 下一篇: 常见中文NER数据集大盘点