智源-知乎联合发布大规模用户关系数据集,同步开启10万元竞赛
比賽平臺地址:
https://www.biendata.com/competition/zhihu2019/知識分享服務已經成為目前全球互聯網的重要、最受歡迎的應用類型之一。但是在知識分享或問答社區中,問題數遠遠超過有質量的回復數。因此,如何連接知識、專家和用戶,增加專家的回答意愿,成為了此類服務的中心課題。本數據集和評測旨在解決這一問題。知乎是中文互聯網知名的綜合性社區平臺。知乎自 2011 年創辦至今,已經成為一個擁有 2.2 億用戶,每天有數以十萬計的新問題以及 UGC 內容產生的網站。其中,如何高效的將這些用戶新提出的問題邀請其他用戶進行解答,以及挖掘用戶有能力且感興趣的問題進行邀請下發,優化邀請回答的準確率,提高問題解答率以及回答生產數,成為知乎最重要的課題之一。
數據集介紹
?? 文本數據
文本數據主要包括知乎話題、問題,以及回答的文本數據。這些數據通過兩種方式加密:
1)單字,以 64 維 embedding 的表示。單字包括單個漢字、中韓文字、英文字母、標點及空格等;詞語包含切詞后的中文詞語、英文單詞、標點及空格等。
2)詞語,以 64 維 embedding 的表示。提醒:單字 ID 和詞語 ID 存在于兩個不同的命名空間,即詞語中某個字或標點,和單字中的相同字符及相同標點不一定有同一個 ID。
?? 問題數據(183萬)
問題數據除了上述提到的問題標題和描述的單字編碼、切詞編碼,綁定話題外,還包括提問時間和提問者 ID。
???回答數據(475萬)
回答數據包括:回復的問題 ID,回答創建時間;是否包括圖片、視頻,以及答案長度;回答內容的單字編碼序列和切詞編碼序列;回答是否被標為優秀、推薦、被收入圓桌,以及回答的點贊數、評論數、被收藏數、感謝數、被舉報數、反對數等。
???用戶特征(193萬)用戶性別、關鍵詞、創作數量級、創作熱度、注冊類型和平臺、訪問頻率,以及其他一些匿名特征(如所在省份等信息)。
???邀請行為數據集(訓練集1016萬,驗證集125.5萬)
?
邀請專家回復的記錄,包括:1)邀請的問題 ID; 2)被邀請用戶 ID3)邀請創建時間4)邀請是否被回答, 值為 1 表示被回答, 為 0 表示沒有被回答。評測任務
?? 任務描述
評測要求選手根據提供的數據集和 1000 萬條帶標簽的邀請數據,預測驗證集中用戶是否會接受某個新問題的邀請。?
使用 AUC 對參賽隊伍提交的數據與真實的數據進行衡量評估:相關研究
LinkPrediction 和專家發現是數據挖掘、社交網絡分析等領域的重要課題。2015 年,香港科技大學的 Wilfred Ng、浙江大學的何曉飛和南京大學的張利軍在 TKDE 上發表論文,他們抓取了國外著名問答網站 Quora 上 2012 年 9 月至 2013 年 8 月的 44 萬個問題、88 萬多個回答和近 9.6 萬個用戶的數據。在論文中,他們從缺失值估計的視角處理專家發現問題,并通過用戶的社交網絡和基于圖的正則化矩陣補全算法(graph-regularized matrix completion algorithm)推斷用戶模型。此外,論文作者還提出了兩個適合圖正則化的優化算法 [1]。2016 年,浙江大學的莊越挺、何曉飛等人在 IJCAI 上也發表了一篇問答社區中專家發現的論文。他們把問題的語義表示和問答社區的網絡結構整合成一個統一的框架,可以定量分析任意一個用戶對任意一個問題回答的質量,然后又發明了一個基于隨機游走的學習方法,通過深度遞歸神經網絡學習定量問題和用戶之間質量關系的嵌入表示,最終找到最適合回答某個問題的用戶[2]。此外,還有一些其他的研究也探索了相關問題[3][4][5][6][7]。然而,除了找到問題最合適的用戶,也需要那位用戶對問題感興趣才行。但上文提到的研究沒有考慮專家的意愿 [8]。2016 年,中國人工智能學會、字節跳動和 biendata.com 聯合組織了一次評測,目標為預測專家對被推送問題的回答率。比賽吸引了超過一千名選手參加,在學術界和工業界都引發了廣泛的影響。在學術領域,產生了基于該數據集的研究論文[8],教育界也使用該數據作為課程項目 [9][10]。該比賽增加了專家意愿數據,如回答歷史紀錄和回答內容質量,因此比賽獲獎模型提升了性能,冠軍團隊的 NDCG@5 * 0.5 + NDCG@10 * 0.5 分數為0.50812 [8]。
▲?圖:2016 Byte Cup國際機器學習競賽最終得分排名
與同類數據集相比,本次來知乎的數據集進一步提升了以下幾方面:
1)數據集規模。知乎目前是中國乃至世界最大的知識分享社區。數據集中的用戶數超過了類似數據集。其他方面的數據規模也比一般的同類數據大得多。
2)數據集維度。傳統的社區數據集往往缺少隱性反饋行為(implicit feedback),影響了模型最后的性能。這一點在之前對該數據進行研究的文獻中亦有提及 [1]。而本次知乎數據集包括了大量的隱性反饋行為信息,包括對不同話題、問題的關注,以及回答的文本等內容。
3)很多數據集缺乏文本信息,或采用了獨特的文本加密方法,也沒有提供額外的語料協助參賽者訓練語言模型。而知乎數據集將提供大量文本數據供選手挖掘其中的語義。
[1]Zhou Zhao, Qifan Yang, Deng Cai, Xiaofei He, Yueting Zhuang., “Expert Finding for Community-Based Question Answering via RankingMetric Network Learning,” IJCAI 2016.[2] Z.Zhao, X. He, D. Cai, L. Zhang, W. Ng, and Y. Zhuang., “Graph RegularizedFeature Selection with Data Reconstruction,” IEEE Transactions on Knowledge andData Engineering (TKDE), 28(3): 689 - 700, 2016.?[3] F. Riahi, Z. Zolaktaf, M. Shafiei, and E. Milios,“Finding expert users in community question answering,” Topic Models ExpertRecommender, pp. 791–798, 2012.[4] Z. Zhao, Q. Yang, D. Cai, X. He, and Y. Zhuang,“Expert finding for community-based question answering via ranking metric network learning,” in International Joint Conference on ArtificialIntelligence, 2016, pp. 3000–3006.[3] F. Han, S. Tan, H. Sun, M. Srivatsa, D. Cai, andX. Yan, “Distributed representations of expertise,” in Siam InternationalConference on Data Mining, 2016, pp. 531–539.[5] K. Balog, Y. Fang, M. De Rijke, P. Serdyukov, andL. Si, “Expertise retrieval,” Foundations and Trends in Information Retrieval,vol. 6, no. 23, pp. 127–256, 2012.[6] X. Liu, M. Koll, and M. Koll, “Finding experts incommunity based question-answering services,” in ACM International Conferenceon Information and Knowledge Management, 2005, pp. 315–316[7] Yuan, S., Zhang, Y., Tang, J. et al. Artif IntellRev (2019). https://doi.org/10.1007/s10462-018-09680-6[8] Saeed, M., Hundekar, M., Kothari A. CSCI567 Project:Byte Cup 2016 (2016).https://pdfs.semanticscholar.org/8213/6507ed7e400bc8e41a22d47ae13984e4e062.pdf[9] Zhou, Q., Yang, L., Legassick, C. CS 567 ProjectReport (2016) http://qijiazhou.me/pdf/bytecup-2016.pdf
智源研究院后續更多競賽與活動,請關注研究院公眾號(baaibjkw,二維碼見下),以及大賽首頁(biendata.com/baai)。
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 報名參賽
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的智源-知乎联合发布大规模用户关系数据集,同步开启10万元竞赛的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第四届AutoDL挑战赛——AutoSp
- 下一篇: SIGIR 2019 开源论文 | 基于