日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《大数据、小数据、无数据:网络世界的数据学术》一 3.4 开放学术

發布時間:2024/4/17 编程问答 76 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《大数据、小数据、无数据:网络世界的数据学术》一 3.4 开放学术 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

3.4 開放學術

隨著開放獲取、開放資源、開放數據、開放標準、開放知識庫、開放網絡、開放書目、開放注解等專業詞匯的出現,“開放”列表依舊不斷增加。正如第1章介紹的那樣,開放獲取運動從19世紀70年代進行至今。開放獲取研究的發展旨在提高系統、工具和服務之間的互操作性機制。其與分布式計算網絡技術的進步以及幾乎無所不在的互聯網接入,共同成就了今天的知識基礎設施,并將進一步推動其發展。
定義開放學術的難度不亞于界定數據學術,開放學術幾乎等同于開放科學。為方便討論,這里的開放學術包括開放獲取出版物、開放數據、數據發布和數據共享相關的政策和實踐。開放學術的目標是加快研究速度,鼓勵提出新問題、推動調查方式創新,減少學術詐欺和不端行為,推動技術和科學勞動力增長,并利用公共投資推動研究和教育事業發展(David,den Besten,and Schroeder 2010;Esanu and Uhlir 2004;Nielsen 2011;Boulton et al. 2012;Uhlir and Schr鰀er 2007)。
但是,開放學術這種單一術語的使用,可能會模糊各開放獲取形式間的本質差異。本書的第三項挑戰指出,出版物和數據分別在學術活動中發揮著不同作用,以下將進一步闡述。開放獲取出版物和開放數據目標相同,即促進信息流動、減少知識資源的使用限制、提高研究實踐透明度。二者的學術價值、利益相關者及其跨環境、隨時間的可移植性均有所差異。

3.4.1 開放獲取研究成果

1665年第一批期刊出現后,學術活動從私人領域的書信和會議形式轉變為公開傳播方式。讀者可以通過圖書館、書商和個人訂閱途徑獲取書籍、期刊和其他出版物。同時,信件、草稿、手稿和預印本的私下交換方式依舊存在。
1991年,隨著arXiv的發布,開放獲取研究成果取得了巨大飛躍。因為出現在萬維網之前,所以arXiv的原始地址為xxx.lanl.gov(Ginsparg 1994,2001)。在此后的20多年間,arXiv已擴展到其他科學領域,從洛斯阿拉莫斯國家實驗室搬到康奈爾大學,并得到成員機構的廣泛支持。其使用量呈指數形式持續增長。目前,每月有8000多篇論文上傳到arXiv,且僅2012年的論文下載量就超過了6000萬(ArXiv.org 2013)。
arXiv為今天的開放獲取數據提供了三條重要經驗。首先,該系統的研究領域為高能物理學,是活躍的預印本交流文化的產物。它建立在支持親近同事間進行信息交換的知識基礎設施之上,這種基礎設施叫作無形學院(invisible colleges)(Crane 1972)。
其次,arXiv改變了物理學學術交流中作者、出版商、圖書館和讀者等利益相關者之間的關系,從而擾亂了現有知識基礎設施。無論國家富裕與否,研究人員和學生都能在官方發布出版物之前獲得論文。隨著arXiv的快速發展和廣泛應用,物理學領域的期刊編輯和出版商除了接受它的存在之外,別無選擇。許多期刊之前不考慮在線發布論文,因為這樣的發布構成了優先出版(prior publication)。今天,許多領域仍有類似政策。
最后,arXiv的成功并沒有很快或很好地遷移到其他領域。雖然其他領域的預印服務器規模和普及量均不斷加大,但沒有一個像arXiv那樣深入學術實踐中。arXiv目前已經擴展到物理、數學、天文學以及其他領域,但其并沒有深入每個領域的每個方面。在一些研究領域中,arXiv的使用無所不在。但在其他領域,它也只是偶爾發揮作用。
開放獲取出版物在早期經驗的基礎上展開。開放獲取雖然是個簡單概念,但由于利益相關者之間的競爭性,其很容易被誤解。彼得·薩伯(Peter Suber 2012a,4)對該詞的定義最為簡潔:“開放獲取(Open Access,OA)文獻具有數字化、在線、免費、大部分無版權和許可限制等特征。”薩伯隨后又指出,開放獲取研究學術文獻和開放獲取其他形式內容的操作過程不同。開放獲取文獻的原則之一為作者擁有作品版權,除非或直到該權利被轉移到另一方(如出版商)。另一個原則是,學者寫研究論文一般都不是為了獲取酬勞。在作品廣泛傳播的同時,學者自己并不損失任何利益,但大部分其他作者、藝術家和創造者的收益往往會受到影響。學者寫研究論文是為了提高影響力,而非收入。因此,他們希望可以盡可能接觸更多讀者以提高自身利益。學術研究的資金主要來源于學術工資和研究基金。學者的利益與雇傭、資助學者的機構的利益相一致,因為他們的出版物也可以從中提高影響力。
開放獲取文獻的實現方式多樣、監管模式豐富,同時還有很多別稱(如綠色、黃金、免費、自由等)。這些模式的共同點是均基于上述兩個原則。作者通常會保留公開傳播作品的版權或許可和作為作品創作者的其他權利。但一般情況下,對作者有直接收入的學術書籍、教科書和其他作品進行開放獲取時,也會考慮一些其他問題(Budapest Open Access Initiative 2002;Directory of Open Access Journals 2013;Howard 2013a;Jacobs2006;Laakso and Bj鰎k 2013;Leptin 2012;Pinter 2012;Research Councils UK 2013;Suber 2012a;Van Noorden 2013b;Wickham and Vincent 2013;Wilbanks 2006;Willinsky 2006)。
大約從2005年以來,全世界越來越多的研究機構對其研究人員的期刊出版物實行開放獲取政策,如美國的哈佛大學、麻省理工學院、加利福尼亞理工學院和加利福尼亞大學(Harvard University 2010;MIT Libraries 2009;Caltech2013a;Office of Scholarly Communication 2013)。一般情況下,開放獲取政策會授予高校非排他性許可,允許其將研究工作通過公共知識庫進行傳播。開放獲取出版物在2012年和2013年取得重大進展。2012年,英國研究委員會(Research Councils of the United Kingdom,RCUK)宣布,受該機構全部或部分資助的所有同行評審期刊論文和會議論文都將提交到開放獲取期刊上。該政策于2013年4月起生效。由于爭議很大,因此政策中“開放獲取期刊”的定義進行了多次修改和解釋。“開放獲取期刊”包括專有期、一系列商業模式以及一些臨時補貼(Research Councils UK 2012a,2012b)。2013年,美國政府行政部門對受聯邦基金資助的出版物宣布了一項類似政策,即一般遵循由美國國家衛生研究院和公共醫學中心(the National Institutes of Health and PubMed Central)規定的專有期和政策(Office of Science and Technology Policy 2013;Holdren 2013b)。歐盟、澳大利亞以及其他國家正在商討類似政策。
各種各樣的政策、商業模式和出版物類型使學術期刊文獻的公開獲取途徑更加豐富。考慮到專有期,一年內出版的期刊論文中約一半可以在網上免費獲取,而且這一比例將進一步增長(Laakso et al.2011;Van Noorden 2013a)。雖然還有很多細節需要進一步商榷,但開放獲取期刊論文正逐漸成為一種制度。然而,利益相關者之間的緊張關系尚未得到緩解。部分作者依舊在網上發布不符合開放獲取政策的文章、論文和其他作品,一些出版商對其具有獨家版權作品的相關開放獲取政策表示不滿(Howard 2013b;SHERPA/RoMEO 2014)。

3.4.2 開放獲取數據

許多資助機構的開放獲取數據政策都與開放獲取出版物政策相關。英國的政策對這種關系進行了清晰闡述(Research Councils UK2012b,1):“根據政務透明和開放數據總戰略,政府致力于確保已發表的研究成果可以免費獲取。”英國研究理事會關于開放獲取期刊的政策要求作者說明如何獲取出版物相關數據,但同時承認這種做法的復雜性(Research Councils UK2012b,4):“確保研究人員考慮數據獲取問題……但是,本政策并不要求所有數據必須公開。聲明指出,如果有足夠理由(如潛在包含參與者身份信息的數據具有商業機密性和法律敏感性)要求實現數據保護時,可以有例外。”
美國國家衛生研究院(National Institutes of Health,NIH)要求把受其資助的出版物存入公共醫學中心(PubMed Central),同時需要在項目申請書中加入數據管理計劃(Basken2012;National Institutes of Health 2013;PubMed Central 2009;Zerhouni2006)。美國國家科學基金(National Science Foundation,NSF)對數據管理計劃有要求,但對開放獲取出版物沒有要求。然而,隨后美國聯邦政府發布的開放獲取出版物相關政策將同樣適用于NSF、NIH和其他聯邦機構。這些機構平均每年在研發上投資1億多美元。該政策將指導每個機構制定出科學出版物和數字科學數據的開放獲取計劃(Holdren 2013b;Burwell et al. 2013)。
然而,開放獲取期刊論文和開放數據在薩伯(2012a)的兩條原則上均不相同。雖然作者至少最初是期刊論文的版權所有者,但該事實并不適用于數據。正如第9章深入探討的那樣,領域內和領域間的數據歸屬權都是很有爭議的話題。該爭議一旦解決,作品“作者”就會擁有某些特定權利和責任。大多數合作都未探討過誰有資格成為數據“作者”這一問題(Wallis 2012)。即使將數據權限分配給個人和社區,數據相關權責依舊不清晰。許多數據形式都是由學者創造和控制的,但是數據所有權卻是另一回事。某些數據形式不可能獲得版權。研究人員使用的數據多來自于其他利益相關者或公共資源池。人類本身的機密記錄等數據由學者控制,而無法進行發布。數據權利相關政策可能因機構、資助機構、合同、管轄權和其他因素而異。
薩伯的第二個原則指出,學者寫期刊論文以及其他形式的出版物是為了提高影響力,而非收入。學者及其用人單位和資助者都有盡可能廣泛傳播出版物的動力。但是,以上兩種情況均不適用于大多數數據。期刊論文經處理后傳播給受眾,但數據卻很難從學術工作過程中提取出來。數據發布通常需要大量投入,而且這種投入量超過了研究和撰寫出版物的行為成本。數據可以被視為職業生涯中積累的寶貴資產。因此,如果有數據的話,必須謹慎發布。
開放獲取數據的治理模式剛剛興起,本書將在第4章和第10章對此展開更全面的討論。由第1章中斯托曼的格言可知,英國研究理事會政策中的“freely accessible”一詞似乎更偏向于言論自由的意義,而非免費啤酒的意義。解決任何普遍性問題時,都需要考慮公平性、效率性和可持續性(Hess and Ostrom 2007a)。目前,只有部分領域通過使用知識庫實現了數據的提煉、監護和訪問,解決了公平和效率問題。某些領域中,私人交換就能滿足數據需求,而其他領域則求助于研究型圖書館。在上述所有領域中,可持續性問題依舊尚未解決。一些知識庫有長期資金支持,而其他的只有短期支持。有些為所有人免費提供數據,而其他的只向為其提供資金的財團成員提供數據。就像第8章討論的那樣,通過私下交易或研究團隊網站發布方式進行的數據共享只在短期內有效。
因此,開放數據與開放獲取學術文獻截然不同。各領域至今尚未就數據“開放”的涵義達成一致。彼得·默里-拉斯特(Peter Murray-Rust)和亨利·熱帕(Henry Rzepa)(2004)最早提出的開放數據框架涵括了后來的大多數觀點。作為化學家,他們更關注自由訪問以及結構化數據的挖掘能力。算法可以通過分子等實體的表示識別出實體結構,當實體用這種方式進行表示時,其就會成為可供挖掘、提取和操縱的數據,也就更有用。當相同分子僅用文本文件中的圖像進行表示時,就需要人工識別其結構。在他們看來,開放數據是一種“數據文件”,其作用在于實現數據的機器可讀和自由訪問。
在開放知識基金會的支持下,默里-拉斯特等人提出了“開放數據”簡潔的法律定義:“一段數據或內容開放是指,在只有或至多滿足標準和(或)授權要求的條件下,所有人均可免費使用、重用和重新分配它(Open Data Commons 2013)。”商業環境中的“開放數據”定義更模糊:“開放數據—政務數據等機器可讀信息以及他人可獲得的數據(Manyika et al. 2013)。”《經濟合作與發展組織關于公共資金資助的研究數據獲取原則與指南》(Organisation for Economic Co-operation and Development 2007)在第13條原則中規定了開放數據的框架,第8章將對這部分進行說明。英國皇家學會的報告《科學:開放的事業》(Boulton et al. 2012,14)將“開放數據”定義為“滿足知識開放標準的數據。數據必須具有可獲取、可使用、可評估和可識別特征。”生物醫學數據開放的含義還包括成本效益權衡、數據發布的觸發定時機制、數據質量確保方式、包含的數據范圍、保密性、隱私性、安全性、知識產權和管轄權(Boulton et al. 2011)。
開放性可能會加速數據創造。比如,開放獲取文本會使文本中的實體成為數據。文本挖掘技術可以對描述特定分子、天體、人、地點、事件或其他實體的所有文章或書籍進行定位。從數據挖掘角度來看,出版物數據庫、數據檔案和數字書籍集合逐漸趨于相似(Bourne et al. 2011;Bourne 2005;Crane 2006; Murray-Rust et al. 2004)。但是,從知識產權的角度來看,它們卻完全不同,具體將在第4章進行探討。
開放數據還能夠將研究對象的表示視為數據,而且與研究對象本身是否公開無關。研究對象的表示是出版物、數據集以及其他內容的公開標簽或注釋。注釋和參考書目給描述對象賦予了價值,使其更容易被發現。共享注釋出現于數字化圖書館研究早期。目前,已經產生了多種競爭性的共享注釋方法。同時,也有很多學者致力于提升注釋系統互操作性的標準化研究(Foster and Moreau 2006;Hunter 2009;Phelps and Wilensky 1997,2000)。ProCite、BiblioLink、RefWorks和EndNote等早期個人參考文獻管理工具,都基于本地存儲文件為單個作者提供服務。21世紀10年代初,研究人員開始對網站、圖像、出版物和數據進行標記和注釋,并分享到Delicious和Flickr等社交網絡上。到21世紀10年代后期,個人參考文獻和開放注釋逐步融合。Zotero、Mendeley和LibraryThing等其他工具可以共享參考文獻、標簽和筆記。由于國家圖書館開始發布開放使用的編目記錄(Open Bibliography and Open Bibliographic Data 2013),因此開放參考文獻運動獲得了巨大飛躍。隨著更多參考文獻記錄逐步公開可用,參考文獻記錄成為待挖掘的數據之一。注釋工具帶來了數據類型的與日俱增(Agosti and Ferro2007;Das et al. 2009;Kurtz and Bollen 2010;Renear and Palmer 2009;Rodriguez,Bollen,and Van de Sompel 2007)。

3.4.3 開放技術

40余年來,網絡技術逐漸從封閉向開放過渡,而開放學術正是其中一部分。互聯網的起源和發展軌跡在整個過渡中最為傳奇(Abbate 1999;Goldsmith and Wu2006;Kraut et al. 2002;Levien et al. 2005;MacLean 2004;O’Brien 2004;Odlyzko 2000;National Research Council 2001;Zittrain 2005)。人們普遍認為,計算機網絡是政府出于研究和軍事目的而資助開發的。從20世紀60年代末的第一次國際網絡互聯到90年代初的政策變化,互聯網僅通過政府合同供研究、學術和軍事團隊使用。這種網絡被稱為國家研究和教育網絡(National Research and Education Network,NREN)。計算機系統生命周期過程耗資較多,為了通過網絡對其實現共享,研究人員對原有的互聯網功能進行了擴展,具體包括電子郵件、文件傳輸以及其他類似功能。為進一步支持商業活動、提供參考文獻數據庫等新型信息服務,Telenet和Tymnet等并行式商業化分組交換網絡開始給私營企業提供商業通信(Borgman,Moghdam,and Corbett 1984;Borgman 2000)。
在國家信息基礎設施標準和全球信息基礎設施標準影響下,1993~1994年進行的政策調整允許政府和商業機構進行網絡互聯。從此,商品互聯網誕生,通信網絡也完成了從國有或受保護系統到商業運營的轉變。互聯網宣稱其為公共和私人實體提供的互聯和服務都具有“開放”性。隨著萬維網的首次展示和第一個瀏覽器界面的誕生,網絡逐漸趨于開放。此后20年中,互聯網技術、功能和用戶群體均已遠遠超乎最初設計師的最大想象。但是,新型商業模式、利益相關者之間平衡關系的變遷以及安全和隱私中無法預見的挑戰,均正在推動基礎設施的再設計(Borgman 2000;Estrin et al. 2010)。
在開放網絡中實現數據遷移與使已獲取數據可用完全不同。只有特定技術能讀取數字數據和數字表示。數字數據集的解釋需要以下內容:生成數據的硬件,即傳感器網絡或實驗室機器;數據編碼或分析軟件,即圖像處理工具或統計工具;以及整合以上內容所需的協議和專業知識。技術發展非常迅速,在研究領域中更是如此。許多儀器產生的數據只能用特定軟件讀取。使用或重用數據時,需要版本正確的軟件以及可能的其他儀器。許多分析工具具有專有性,因此數據分析可能產生特定格式的數據集,而這些與數據提取時的開放程度無關。學者們經常自己構建工具,編寫代碼來解決臨時問題。雖然這種做法短期內有效,但本地代碼和儀器很難進行長期維護。更何況學者們在解決臨時問題時,很少兼顧軟件工程的工業標準。本地工具具有靈活性和可適應性,缺點是跨站點和跨情景的可移植性差(Easterbrook and Johns 2009;Edwards et al. 2013;Segal2005,2009)。
數據、標準和技術的開放程度會影響數據在工具、實驗室和合作伙伴之間以及隨時間的交換能力。標準可能改善社區內的信息流動,但也可能在社區之間形成信息交流障礙。因為標準可能不成熟或不適當,從而形成障礙,進而阻礙創新。長期以來,系統和服務的技術互操作性一直是數字圖書館和軟件工程努力追求的目標。互操作性允許部分數據和利益相關者參與其中,而阻止其他對象進入。與技術本身相比,政策、實踐、標準、商業模式和既得利益往往是決定互操作性的更重要的因素(Brown and Marsden 2013;Busch 2013;DeNardis 2011;Lampland and Star 2009;Libicki 1995;Palfrey and Gasser 2012)。

總結

以上是生活随笔為你收集整理的《大数据、小数据、无数据:网络世界的数据学术》一 3.4 开放学术的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。