當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

在印度展开全球文献数据挖掘，美国专家的大胆做法登上Nature

發布時間：2023/11/21 综合教程 32 生活家

生活随笔收集整理的這篇文章主要介紹了在印度展开全球文献数据挖掘，美国专家的大胆做法登上Nature 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　　選自 Nature
　　作者：Priyanka Pulla，機器之心編譯

　　最新一期的《Nature》介紹了一位美國專家在印度展開的宏偉項目，他利用從 1847 年至今的 7300 萬份文獻中提取的文本和圖像創建了一個數據庫，并計劃對其進行數據挖掘，其中也包含未經授權的文本。這一做法對多個學科的發展都有所幫助，但其合法性目前尚不明確。

Carl Malamud 站在服務器前，他的團隊準備對 7300 萬篇論文進行數據挖掘。

　　Carl Malamud 正努力解放付費論文背后的信息，他的這一行動獲得了非常多的支持。

　　Malamud 曾花費數十年時間發布受版權保護的法律文件（從建筑規范到法庭記錄），并堅持認為這些文件代表了公共領域的法律，應該向所有公民開放。但現在，這位 60 歲的美國技術專家正轉向一個新目標：解放付費的科學文獻，他認為這可以通過合法的方式做到。

　　在過去的一年中，Malamud 與印度的研究者合作，構建了一個巨大的文本和圖像庫，它們是從 1847 年至今的 7300 萬份文獻中提取的。

　　這一項目的緩存設備坐落于新德里尼赫魯大學（JNU），目前仍在構建，它的存儲量達到了 576TB。

　　Malamud 和她在 JNU 的合作伙伴將這一項目命名為 JNU 數據庫（JNU data depot），他表示：「JNU 數據庫并不會收集歷史上所有期刊的所有文章，但數量確實很多。它的大小相當于 Web of Science 數據集的核心資源。」

　　JUN 數據庫并不允許任何人從它里面讀取或下載文獻，因為這會破壞發行商的權利。因此，Malamud 設想研究者可以通過計算機軟件爬取文本和數據，通過掃描全世界的科學文獻來抽取核心信息，這樣就避免了對文本的實際閱讀。

　　這個前所未有的項目很快引起了許多人的興趣，因為它首次打開了付費文獻的快速計算分析之路。目前數十個研究團隊已經在挖掘論文以建立基因和化學相關的數據庫，并繪制疾病和蛋白質之間的關聯以生成有用的科學假設。

　　但出版商的控制經常會限制該項目的進展與推廣，因為他們常常只允許訪問摘要而不是全文。印度、美國和英國的研究者已經計劃使用 JNU 儲存，很多教授也都對該項目非常感興趣。

　　然而，目前這種庫的法律地位尚不明確。Malamud 在創建這一項目之前咨詢過幾位知識版權律師，希望能避免訴訟。「我們認為自己做的事情是合法的」，他表示。此刻，他正小心翼翼地推進項目：JNU 數據庫是隔絕的，也就是說，沒有人能從網上對其進行訪問。用戶必須采取物理訪問的方式，目前只有不以盈利為目的進行數據挖掘的研究者才能獲得訪問權限。Malamud 表示，他的團隊計劃開放遠程訪問權限，而且是逐步推進。

　　數據挖掘的力量

　　加州大學圣克魯茲分校生物信息學研究者 Max Häussler 表示，JNU 數據存儲可以掃清阻止科學家使用軟件分析研究論文的障礙。他表示，「目前對學術論文進行文本挖掘幾乎是不可能的」，即使像他這樣能夠獲取付費文章的人來說也是不可能的。

　　在德國柏林 QUEST Center for Transforming Biomedical Research 兼職工作的統計學家 Chris Hartgerink 表示，他現在只能對開放獲取出版商的文章進行文本挖掘，因為「對封閉式出版商的文章進行此類操作會帶來諸多麻煩」。幾年前，Hartgerink 還在荷蘭讀博時，三家出版商在他嘗試下載文章進行文本挖掘后，禁止他訪問它們的期刊。

　　然而，大學學者仍然受限于挖掘數據庫中的文章摘要，畢竟摘要能提供的信息遠遠少于文章全文。

Carl Malamud 和 Andrew Lynn 檢查尼赫魯大學（JNU）項目，該項目旨在從 7300 萬論文中提取文本和圖像。

　　如果想要對研究文章進行文本挖掘，科學家還需要克服技術障礙。出版商使用的版式多種多樣，因此提取文本并不容易，這也是 JNU 團隊目前致力于解決的問題。PDF 轉文本的工具通常無法明確地區分段落、腳注和圖像。然而，一旦 JNU 團隊解決了這些問題，其他人就可以節省自己的時間和精力。Malamud 表示，JNU 團隊即將完成對 7300 萬論文的第一輪提取（盡管仍需要檢查錯誤），因此他預計數據庫準備將在今年底完成。

　　惠及多個領域

　　早期的愛好者已經準備好使用 JNU 數據庫了，其中著名的一位是印度德里國家植物基因組研究所（NIPGR）的計算生物學家兼英國劍橋大學講師 Gitanjali Yadav。2006 年，Yadav 在 NIPGR 建立了一個有關植物分泌化學物質的數據集 EssOilDB。現在，藥品研發團體和香水制造商將 EssOilDB 數據集視為自身尋求指導的來源。Yadav 認為「Carl 提供的 compendium」可以給她的數據集帶來幫助。

　　數據集的建立從來都不是容易的事情。在建立 EssOilDB 數據集的過程中，Yadav 的團隊必須從 PubMed 和 Google Scholar 數據庫中爬取相關論文，從他們能找到的完整文本中提取數據，并且親自進入相關數據庫以拷貝稀有期刊的表格內容。Yadav 表示 JNU 數據庫可以加速以上收集數據的過程，目前她的團隊正在編寫用于提取數據的查詢程序。

　　印度德里基因組學和綜合生物學研究所（IGIB）的生物信息學研究者 Srinivasan Ramachandran 也受到了 Malamud 計劃的鼓舞。他的團隊運行了一個有關糖尿病 II 型基因的數據集，他們一直從 PubMed 數據庫中爬取相關論文摘要。現在，他希望 JNU 數據庫可以擴展其數據挖掘的范圍。

　　MIT 的 Knowledge Futures Group 團隊表示希望繼續挖掘 JNU 數據庫，從而獲得學術出版的演變過程。該團隊成員之一、MIT Media Lab 博士生 James Weis 表示，團隊希望這個數據庫可以預測新興研究領域，并且能夠找出其他方法來替代當前衡量學術影響力的常規度量指標。

　　做法是否合法？

　　Malamud 表示，他采用的那些文章從哪兒來并不重要，「數據挖掘」并不是消耗性的，也就是說，數據挖掘研究者并不會閱讀或呈現他們所分析文章的大部分內容。「你并不能輸入一個 DOI（文章識別符）來獲取那篇文章，」他說道。Malamud 還認為，對有版權的內容進行文本挖掘在美國等國家是合法的。2015 年，Google Books 也做了和 JNU 類似的事情，他們在未購買的情況下對數千份受版權保護的書進行了掃描，而且在搜索服務中對這些書的片段進行了展示，盡管他們并不允許全本下載或閱讀。然而，美國法院卻判定谷歌全書掃描不構成侵權。

　　谷歌的代理律師 Joseph Gratz 表示，Google Books 的例子是對判斷非消耗性數據挖掘是否合法的一種試驗。盡管谷歌會展示圖書的片段內容，但法院認為，由于被展示的文本篇幅有限，因此不足以構成侵權。此前，谷歌也在掃描經過授權的書籍（很多情況下來自圖書館），盡管并未征求作者許可。Gratz 表示，版權所有者可能認為，Sci-Hub 或其他未經授權的內容提供給 JNU 庫的情況可能不同于谷歌的做法。然而，這種涉及未授權資源的案子還沒有在美國法庭討論過，因此很難預測判決結果。「有充分的理由證明資源的來源無關緊要，但也有人認為來源很重要。」

　　當然，這一做法在美國是否合法似乎并沒有那么大的意義，因為項目建在印度，印度法律怎么規定才是重點，美利堅大學的一位教授表示。

　　印度的版權法可能對 Malamud 的做法有所幫助，這也是他將項目建在新德里的另一個原因。德里國家法律大學的助理教授 Arul George Scaria 表示，如果根據印度法律第 52 條中的研究豁免權，谷歌的掃描會被認定為對受版權保護內容的合理利用。

　　當然，并非每個人都同意這種說法。新德里維迪法律政策中心的一位法律研究員 T. Prashant Reddy 表示，第 52 條允許研究人員復印期刊文章供個人使用，但并不一定允許如 JNU 庫那樣對期刊內容進行全文復制。Reddy 說道，不與用戶共享整篇文章的確有助于解決版權問題，但為了創建數據庫而對文本進行批量復制的做法仍然游走在「灰色地帶」。

　　存在風險的計劃

　　當《自然》雜志和 15 家出版商交流 JNU 數據庫計劃時，其中 6 家出版商表示他們之前從未聽說過這一項目，在沒有進一步信息之前他們對其合法性不予置評。但是這 6 家出版商（愛思唯爾、BMJ、美國化學學會、Springer Nature、美國科學促進會、美國國家科學院）都表示，研究者要想挖掘其論文必須首先取得授權。

　　Malamud 承認該項目存在風險。但是他認為這具備道德重要性，尤其是在印度。印度大學和政府實驗室花費大量資金訂閱期刊，但仍然未能訂閱所有需要的刊物。Sci-Hub 發布的數據表明，印度人是其網站的最大用戶群體，這說明大學許可證并未走得足夠遠。歐洲和美國的開放獲取運動非常珍貴，而印度也需要解放對科學知識的獲取權利，Malamud 表示，「我認為我們不能等待歐洲和美國解決這個問題，因為時間緊迫。」

　　原文鏈接：https://www.nature.com/articles/d41586-019-02142-1

總結

以上是生活随笔為你收集整理的在印度展开全球文献数据挖掘，美国专家的大胆做法登上Nature的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：一线丨中兴5G手机获入网证第三季度5G
下一篇：展开你的想象 | 一亿年后的未来，动物是