當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03

發布時間：2024/10/8 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

PaperWeekly 是一個 AI 學術分享社區。這里聚集了大批一線 AI 學者，他們用精煉妙語推薦各自發現的優質論文。點擊本文底部的「閱讀原文」即刻加入社區，創建屬于你的論文集。

這里是第 3 期論文集精選。

本期論文集由 PaperWeekly 社區用戶?@RamonYeung?創建，包含 20 份 QA 和機器閱讀理解數據集。我們從中挑選了 9 份數據集進行展示，如果有合你心意的，復制鏈接到瀏覽器即可進行下載。

如果你想查看完整數據集列表，點擊本文底部的閱讀原文，就可以一鍵收藏啦。

On Generating Characteristic-rich Question Sets for QA Evaluation

@RamonYeung?推薦

#Question Answering

文章發表在 EMNLP 2016，本文詳細闡述了 GraphQuestions 這個數據集的構造方法，強調這個數據集是富含特性的（Characteristic-rich）。

此數據集的主要特點是：

1. 基于 Freebase，有 5166 個問題，涉及 148 個不同領域；

2. 從知識圖譜中產生 Minimal Graph Queries，再將 Query 自動轉換成規范化的問題；

3. 由于 2，Logical Form 不需要人工標注，也不存在無法用 Logical Form 表示的問題；

4. 使用人工標注的辦法對問題進行 paraphrasing，使得每個問題有多種表述方式（答案不變），主要是 Entity-level Paraphrasing，也有 sentence-level；

5. Characteristic-rich 指數據集提供了問題在下列維度的信息，使得研究者可以對問答系統進行細粒度的分析, 找到研究工作的前進方向：關系復雜度（Structure Complexity），普遍程度（Commonness），函數（Function），多重釋義（Paraphrasing），答案候選數（Answer Cardinality）。

論文鏈接

http://www.paperweekly.site/papers/906

數據集鏈接

https://github.com/ysu1989/GraphQuestions

LSDSem 2017 Shared Task: The Story Cloze Test

@RamonYeung?推薦

#Cloze

Story Cloze Test：人工合成的完形填空數據集。

論文鏈接

http://www.paperweekly.site/papers/917

數據集鏈接

http://cs.rochester.edu/nlp/rocstories/

Dataset and Neural Recurrent Sequence Labeling Model for Open-Domain Factoid Question Answering

@RamonYeung 推薦

#Question Answering

百度深度學習實驗室創建的中文開放域事實型問答數據集。

論文鏈接

http://www.paperweekly.site/papers/914

數據集鏈接

http://idl.baidu.com/WebQA.html

Program Induction by Rationale Generation : Learning to Solve and Explain Algebraic Word Problems

@RamonYeung 推薦

#Question Answering

DeepMind 和牛津大學共同打造的代數問題數據集 AQuA（Algebra Question Answering）。

論文鏈接

http://www.paperweekly.site/papers/913

數據集鏈接

https://github.com/deepmind/AQuA

Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue Systems

@PaperWeekly 推薦

#Dialog Systems

Maluuba 放出的對話數據集。

論文鏈接

http://www.paperweekly.site/papers/407

數據集鏈接

http://datasets.maluuba.com/Frames

Teaching Machines to Read and Comprehend

@RamonYeung 推薦

#Machine Comprehension

DeepMind Q&A Dataset 是一個經典的機器閱讀理解數據集，分為兩個部分：

1. CNN：~90k 美國有線電視新聞網（CNN）的新聞文章，~380k 問題；

2. Daily Mail：~197k DailyMail 新聞網的新聞文章（不是郵件正文），~879k 問題。

論文鏈接

http://www.paperweekly.site/papers/915

數據集鏈接

http://cs.nyu.edu/~kcho/DMQA/

Semantic Parsing on Freebase from Question-Answer Pairs

@RamonYeung 推薦

#Semantic Parsing

文章發表在 EMNLP-13，The Stanford NLP Group 是世界領先的 NLP 團隊。他們在這篇文章中引入了 WebQuestions 這個著名的問答數據集，WebQuestion 主要是借助 Google Suggestion 構造的，依靠 Freebase（一個大型知識圖譜）中的實體來回答，屬于事實型問答數據集（比起自然語言，容易評價結果優劣）。有 6642 個問答對。

最初，他們構造這個數據集是為了做 Semantic Parsing，以及發布自己的系統 SEMPRE system。

論文鏈接

http://www.paperweekly.site/papers/827

數據集鏈接

http://t.cn/RWPdQQO

A Corpus and Evaluation Framework for Deeper Understanding of Commonsense Stories

@RamonYeung 推薦

#Machine Comprehension

ROCStories dataset for story cloze test.

論文鏈接

http://www.paperweekly.site/papers/918

數據集鏈接

http://cs.rochester.edu/nlp/rocstories/

MoleculeNet: A Benchmark for Molecular Machine Learning

@paperweekly 推薦

#Molecular Machine Learning

一個分子機器學習 benchmark，最喜歡看到這種將機器學習應用到傳統學科領域了。

論文鏈接

http://www.paperweekly.site/papers/862

數據集鏈接

http://t.cn/RWPda8r

本文由 AI 學術社區 PaperWeekly 精選推薦，社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向，點擊「閱讀原文」即刻加入社區！

?投票時間?

以下論文選自 PaperWeekly 社區 -?排行榜，這里不僅有各領域的經典論文，還有當下最熱門的新近之作。

所有論文均為用戶自發推薦，然后再以點贊的方式評選出熱門論文。最后，我們會針對上榜論文發起論文共讀，讓志同道合的同學們得到充分交流。

現在，就請選出你最感興趣的論文，我們將根據大家的投票結果選出本期論文。

總結

以上是生活随笔為你收集整理的三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：东南大学周张泉：基于知识图谱的推理技术
下一篇：论文共读 | “阳奉阴违”的半监督学习算