日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第三届“达观杯”文本智能算法大赛参赛指南

發布時間:2024/10/8 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 第三届“达观杯”文本智能算法大赛参赛指南 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?


比賽介紹


2019 年 6 月 28 日,第三屆“達觀杯”文本智能信息抽取挑戰賽正式開賽,同期面向參賽選手開放競賽結果提交。本屆比賽由中國人工智能學會吳文俊人工智能科學技術獎辦公室特別支持,達觀數據主辦,機器之心、CSDN 協辦,數十家技術媒體和社區參與合作,由 biendata.com 提供比賽平臺。?


本次大賽的任務是信息抽取。信息抽取(information extraction)是指從自然語言文本中,抽取出特定的事件或事實信息,幫助我們將海量內容自動分類、提取和重構。文本智能抽取是信息檢索、智能問答、智能對話等人工智能應用的重要基礎,它可以克服自然語言非形式化、不確定性等問題,發掘并捕獲其中蘊含的有價值信息,進而用于業務咨詢、決策支持、精準營銷等方面,對產業界有著重要的實用意義。?


具體來說,比賽給出一定數量的標注語料以及海量的未標注語料,在 3 個字段上做信息抽取任務。參賽選手需要動用自己的智慧,結合當下最先進的自然語言處理和人工智能技術,深入挖掘文本文字中詞語和句子之間的特征,構建語言模型,實現精準抽取。?


本次比賽的數據來自達觀數據。達觀數據是國內領先的文本智能處理專家,致力于應用人工智能技術幫助企業實現業務流程自動化。作為文本智能處理領域服務客戶數量最多、經驗最豐富的技術提供商,文本智能信息抽取將是達觀數據持續專注打磨的技術之一。?


本次比賽是達觀數據舉辦的第三屆“達觀杯”算法大賽。2017 年和 2018 年,達觀分別以“個性化推薦”和“文本分類”為主題,主辦過兩次算法大賽,在全國范圍內引起了很大的反響,兩次比賽吸引了國內外近萬支隊伍參賽。其中不乏來自 985/211 等高校及世界五百強企業的選手,這里是自然語言處理愛好者的聚居地。?


本次競賽總獎金為 7 萬 7 千元,前 10 名的隊伍可獲得證書及獎金,比賽成績優異的選手將獲得吳文俊人工智能科學技術獎的提名推薦機會,排名前 30 名隊伍都可獲得達觀數據招聘的面試直通機會。有意向參賽的選手即日起登錄承辦方數據競賽平臺 Biendata.com 可獲取更多相關信息并下載數據集。


數據詳情


本次大賽提供的是一個全新的數據集,旨在促進不同領域下文檔多字段的抽取任務研究。訓練集有 17000 條,并標注了 3 個字段,共有字段 a 14272 處,字段 b 9037 處,字段 c 8855 處。預測集有 3000 條。比賽將評估參賽選手在預測集上識別這三個類型字段的能力。?


所有文本數據都經過清洗,并且以自然句為單位分句,每一行為一個自然句,之后為其每一個字和標點符號映射一個唯一的索引,即每一個字和標點符號都由一個獨立的整數來表示。便于處理,用下劃線連接。比如:“歡迎來到達觀數據。”被轉化為形如“1_2_3_4_5_6_7_8_9”的字符串。


訓練集,預測集和大規模未標注語料均由同一份索引表生成,選手可以充分的利用大規模未標注語料去探索字的表示,字與字之間的關系。每一行對應一條文本數據。每一個數字對應一個“字”或“標點符號”。字和字之間用‘_’連接,在對應字段后面標注/a、/b、/c,非字段文本標注/o。?


來看一個具體的例子。在訓練集中,一條數據會以這樣的方式呈現:


5401_1744_5661_4958_5661_1921_2229_6371_711_8024_7028_6819_1469_2458_1355_3299_4413_3221_100_5401_1744_4638_7270_6823_6369_1153_100_511


對應的標簽則為:


5401_1744_5661_4958_5661_1921_2229/b

6371_711_8024_7028_6819_1469/o

2458_1355/a 3299_4413_3221_100/o?

5401_1744/a 4638_7270_6823_6369_1153_100_511/o


此外,比賽還為參賽選手提供一個大規模的未標注預料供參賽選手預訓練語言模型。此數據集是與訓練集和預測集出處相同的大規模未標注語料(167 萬條),提供給參賽者用于訓練語言模型。


賽題解析



本次比賽基本可以歸類于命名識別任務。但和一般的任務相比,數據經過了主辦方獨特的加密,因此不能直接使用預訓練模型。不過,選手可以獲得一個大規模的未標注語料數據集用來訓練語言模型。如何利用這個語料庫?怎么才能精準的提取出三個分類的實體?我們邀請了兩位之前類似比賽的獲獎選手給所有參賽選手分享一些經驗。?


這兩位選手是:?


姜興華,浙江大學計算機碩士,研究方向機器學習,自然語言處理,在 ACM-multimedia、IJCAI 會議上發表過多篇文章。在 ByteCup2018 比賽中獲得第一名。?


崔德盛,北京郵電大學模式識別實驗室,主要的研究方向是自然語言處理和廣告推薦,曾獲 2017 知乎看山杯挑戰賽亞軍,2017 摩拜算法挑戰賽季軍,2019 搜狐算法大賽冠軍。?


命名實體識別 姜興華?


命名識別任務(Named-entity recognition),簡稱 NER,是自然語言處理中的一個非常基礎和重要的任務。命名實體識別任務是指在非結構化的文本中抽取出特定意義的實體,包括人名、地名、機構名等。?


命名實體識別是未登錄詞中數量最多、識別難度最大、對分詞效果影響最大的問題,同時它也是信息抽取、信息檢索、機器翻譯、問答系統等多種自然語言處理技術必不可少的組成部分。?


該任務一直是 NLP 領域中的熱點研究問題,早期的方法包括基于規則和字典的方法,之后,有研究者基于傳統機器學習方法解決該問題。近幾年,很多深度學習的方法被提出,并且取得了非常好的效果。?


Bilstm+CRF?[1] 是一個非常強的 baseline 模型,是目前基于深度學習的 NER 方法中最主流的模型。該模型主要包括 Embedding 層,雙向 LSTM 層和 CRF 層。?


最近兩年,基于語言模型的多任務遷移學習取得了非常大的進步,比如:ELMO [2],GPT [3] 和 Bert [4]。這些預訓練的語言模型在各項任務中都達到了 SOTA 的效果。


ELMO 是基于雙向 LSTM 的語言模型,GPT 是單向 Transformer 模型,Bert 是雙向 Transformer 模型。NLP 領域已經開始從單一任務學習,發展為多任務兩階段學習:第一階段利用語言模型進行預訓練;第二個階段在下游任務上 finetune。這些語言模型在命名實體識別任務上都達到了非常好的效果。?


本次比賽提供了全新的數據集,包括一個大規模的未標注的語料和一個 10000 條標注數據的文檔多字段抽取數據集。同時,數據集還做了獨特的加密,只提供單詞的 id,并不提供單詞的字符串(很多預訓練好的模型比如 word2vec, elmo 和 bert 都沒法直接使用)。?


參賽選手可以直接使用標注數據集訓練單任務模型,比如:bilstm+crf 模型,因為該數據集沒有原始的單詞字符串表示,所以沒法使用 Pos-tagger 等信息輔助算法學習。另外,本比賽提供了一個大規模的未標注語料,參賽者也可以使用 word2vec [7], Glove[8]?等工具訓練詞向量,將詞向量作為單任務模型的詞向量初始化。為了更好地利用這個未標注語料,參賽者也可以訓練語言模型(ELMO, Bert 等),然后在語言模型上進行下游的 NER 任務 [1-3]。?


參考文獻:


[1] Huang, Zhiheng, Wei Xu, and Kai Yu. "Bidirectional LSTM-CRF models for sequence tagging." arXiv preprint arXiv:1508.01991 (2015).?

[2] Peters, Matthew E., et al. "Deep contextualized word representations." arXiv preprint arXiv:1802.05365 (2018).?

[3] Radford, A. & Salimans, T. Improving Language Understanding by Generative Pre-Training. (2018).?

[4] Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. (2018).?

[5] Clark, Kevin, et al. "Semi-supervised sequence modeling with cross-view training." arXiv preprint arXiv:1809.08370 (2018).?

[6] Akbik, Alan, Tanja Bergmann, and Roland Vollgraf. "Pooled contextualized embeddings for named entity recognition." Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019.?

[7] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013.?

[8] Pennington, Jeffrey, Richard Socher, and Christopher Manning. "Glove: Global vectors for word representation." Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.?


命名實體識別比賽感想 崔德盛?


算法比賽雖然有著很多的細分領域,然而總體上來說都是從數據,特征,模型三個方面提升。在不同的比賽任務中,不同的隊伍側重點都有所不同。?


以剛剛結束的搜狐 2019 校園算法賽為例,蘇大的隊伍側重于數據分析和模型結構的調整,重郵的隊伍側重于單模型的訓練技巧,北郵的隊伍側重于特征工程和模型融合方案等。其實這些方案雖然在榜上的分數有細微的差異,但是本身并沒有高下之分。?


我認為,算法比賽中最重要的就是從數據出發,找到自己對于問題或數據的獨到理解,通常也是算法效果的提升點,并在解決方案中得到體現。?


就本次的比賽來說,相較于搜狐比賽,最大的難點在于所有的字符 ID 化使得類似 BERT 等的預訓練模型很難發揮作用,文本的 embed 表示需要根據提供的無標注數據進行重新構建。


此外,數據分析的難度也會更大。在比賽初期可以從簡單的序列標注模型出發,例如 BI_LSTM+CRF,逐步優化網絡結構,例如一些節點的超參數和網絡層(Attention,Transformer 等)的嘗試、embed 的構建方式和模型的訓練策略,最終達到較好的模型結果。其中 embed 的構建方式,最簡單的方法就是 word2vec,也可以嘗試較為復雜的 ELMo,GPT 和 Bert 等(可根據實驗環境對模型做刪減)。?


論文參考:

?

- Bidirectional LSTM-CRF Models for Sequence Tagging?

[ https://arxiv.org/pdf/1508.01991.pdf ]?

- Deep contextualized word representations?

[ https://arxiv.org/pdf/1802.05365.pdf ]?

- Attention is all you need?

[ https://arxiv.org/pdf/1706.03762.pdf ]?

- Pre-training of Deep Bidirectional Transformers for Language Understanding?

[ https://arxiv.org/pdf/1810.04805.pdf ]?


看完以上攻略,大家是不是躍躍欲試了呢?達觀數據在過去的幾屆比賽中,已經積攢了上萬名 NLP 領域的優秀選手和長勝將軍,其中很多人已經加入了達觀數據成為企業的重要力量,或是借助競賽的經歷在科研生涯中獲得了高起點。快掃描下方的二維碼或點擊“原文鏈接”參加比賽吧!


?


現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧



關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 報名參賽

總結

以上是生活随笔為你收集整理的第三届“达观杯”文本智能算法大赛参赛指南的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。