总奖金15万,双赛道同名消歧挑战赛报名进行中
2020鏈想家計算科技大賽,由區塊鏈教育新媒體平臺鏈想家主辦,biendata競賽平臺承辦。旨在培養高質量的高新技術人才隊伍,實現區塊鏈技術與人工智能技術對不同行業的賦能改造。
?
鏈想家致力于將本次大賽打造為中國參賽人數最多的前沿科技比賽之一,并以大賽為抓手,進一步宣傳貫徹國家創新驅動戰略,深化人工智能和區塊鏈技術在各行各業的應用改革,推動社會各界對高新技術人才培養的重視,切實提高大眾的創新精神、創業意識、創新創業能力。助推傳統產業轉型發展,促進各行各業形成新業態、新經濟、新模式。
目前,人工智能已經成為國家科技發展戰略的核心。此外,當前充滿風波的國際局勢也對我國自主開發人工智能技術提出了新的要求。特別地,如果能自動地對國內外大量的科技信息分析工作,有十分重大的意義。在此背景下,鏈想家聯合 AMiner 共同發布了同名消歧挑戰賽,旨在讓機器對科技領域的人才進行自動化地歸類和消歧。本次比賽截止日期為2020年12月30日,總獎金15萬元。
?復制打開以下鏈接參賽(推薦在電腦端打開):
賽道一:https://www.biendata.xyz/competition/chaindream_nd_task1/
賽道二:https://www.biendata.xyz/competition/chaindream_nd_task2/
賽題描述
Task
?
本次比賽有兩個基礎的論文消歧任務,分別為冷啟動消歧和論文增量消歧義。
?
I. 論文的冷啟動消歧
Name Disambiguation from Scratch
任務描述:給定一堆擁有同名作者的論文,要求返回一組論文聚類,使得一個聚類內部的論文都是一個人的,不同聚類間的論文不屬于一個人。最終目的是識別出哪些同名作者的論文屬于同一個人。
?
參考方法:解決這一問題的常用思路就是通過聚類算法,即通過提取論文特征,定義聚類相似度度量,從而將一堆論文聚成的幾類論文,使得聚類內部論文盡可能相似,而類間論文有較大不同,最終可以將每一類論文看成屬于同一個人的論文。根據用于聚類的特征和衡量論文相似度標準的不同,可大概分為如下幾個思路:
基于人為定義規則(rule-based)的方法,手動定義一些聚類標準,比如對應作者機構一樣的論文聚成一類等,從而獲得聚類結果;
基于監督信息的聚類,利用給出的訓練數據集,構建二分類樣本去訓練一個衡量論文之間距離的模型,然后根據模型去計算測試集中論文的相似度,以此為基礎進行聚類;
基于原子聚類的方法[1],大致思路是首先用較強的規則進行聚類,例如:倆篇論文如果有倆個以上的共同作者,那么這倆篇論文屬于同一類,這樣可以保證聚類內部的準確率,隨后用弱規則將先前的聚類合并,從而提高召回率;
基于圖聚類的方法[2],利用論文之間的結構以及屬性關系去構建統一的概率圖,隨后通過算法估計了聚類人數K,最后使用圖聚類算法去解決問題;
基于向量的方法[3],有些工作考慮了傳統特征的局限性,所以利用了低維語義空間的向量表示方法,通過將論文映射成低維空間的向量表示,在此之上定義論文之間相似度的度量方式,基于向量使用聚類方法。
評估方法:使用Macro Pairwise-F1作為模型評估度量
II. 論文的增量消歧
Continuous Name Disambiguation
任務描述:線上系統每天會新增大量的論文,如何準確快速的將論文分配到系統中已有作者檔案,這是線上學術系統最亟待解決的問題。所以問題抽象定義為:給定一批新增論文以及系統已有的作者論文集,最終目的是把新增論文分配到正確的作者檔案中。
?
參考方法:增量消歧任務與冷啟動消歧的任務不同,它是基于有一定作者檔案的基礎,對新增論文進行分配,同時還要兼顧論文的NIL問題,即論文不能分配給任意一個已有的檔案,可分為分類和排序打分兩種思路來解決:
基于分類的方法:容易直接想到的方法就是將這個問題轉化成為二分類任務,將已有的作者檔案與新增論文進行比較,提取合作者,單位機構或者會議期刊之間相似度的特征。隨后利用分類器進行0/1分類;
基于排序打分的方法[4]:將這個任務轉化成信息檢索中的RANKING問題, 對于每篇待分配的論文,首先挑選對應的candidate author然后同樣的去提取交互特征,最后用learning to rank框架去訓練一個打分模型,最后對于每個candidate author進行打分,然后按照得分高低排序,選擇top-1的author;
解決NIL的問題:在獲取最有可能分配的author profile后,還需要進一步判斷是否真正將paper分配過去,即NIL的問題。在實體鏈接領域中,可以在分類或排序打分模型的基礎上,額外再提取整體candidate authors得分的分布特征,去訓練一個判別模型進?一步判斷NIL的情形。[4]中總結并提出了一些解決NIL的方法。
?
評估方法:使用WeightedF1 作為模型評估度量。
參考文獻
[1]. Wang et al. Name Disambiguation Using Atomic Clusters. Web-Age Information Management. WAIM '08.
[2]. Jie et al. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE’12).
[3]. Zhang et al. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18).
[4]. Chen et al. CONNA: Addressing Name Disambiguation on The Fly. IEEE Transaction on Knowledge and Data Engineering (TKDE’20)
上賽季獲獎方案
Review
論文的冷啟動消歧
Name Disambiguation from Scratch
?
第一名:基于網絡嵌入和語義表征的作者名消歧 https://www.biendata.xyz/models/detail/3637/
?
第二名:基于LGB二分類與層次聚類的同名消歧冷啟動
https://www.biendata.xyz/models/category/3643
論文的增量消歧
Continuous Name Disambiguation
第一名:FIND:基于特征工程的增量同名消歧方法
https://www.biendata.xyz/models/category/3650/
?
第二名:基于XGBoost的人名消歧方法的研究
https://www.biendata.xyz/models/category/3678/
?
第三名:基于SVM的同名作者消歧
https://www.biendata.xyz/models/category/3625/
?
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
?
總結
以上是生活随笔為你收集整理的总奖金15万,双赛道同名消歧挑战赛报名进行中的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 提高方面级情感分析的性能:一种结合词汇图
- 下一篇: 热门的模型跨界,Transformer、