微软学术搜索项目 10个版本的历程
下面說說項目的發(fā)展:
2009/8:? 內(nèi)部發(fā)布 alpha 版本,? 以驗證想法為目的的 V1 結(jié)束, 數(shù)據(jù)量: 3 million ? 2009/9:? 開始V2,? 研究員和工程人員合作規(guī)劃項目的目標(biāo), 遠(yuǎn)景,階段,典型用戶;決定代碼管理,項目管理 (都用 MS TFS 管理). 決定 V2 著重于 Computer Science 領(lǐng)域 決定系統(tǒng)的特點在于展示六大實體及其關(guān)系 (作者,論文,機(jī)構(gòu),期刊,會議,關(guān)鍵字), 并把這些實體和關(guān)系投影到學(xué)科, 時間, 地點維度上來展現(xiàn)。 ? 典型用戶有哪些? 我們描繪出三種典型用戶。 ??? Mary:? 資深科學(xué)家 – 痛苦: 招人, 分析學(xué)科趨勢及大量的學(xué)科數(shù)據(jù),主持國際會議和合作,從學(xué)校/機(jī)構(gòu)的層面比較各自的科研產(chǎn)出和動向。? ??? John:?? 剛出道的科學(xué)家 – 痛苦: 指導(dǎo)學(xué)生工作, 收集最新科研資料,組織會議, 讓別人了解自己的科研成績 ??? 小勇:?? 想走上學(xué)術(shù)道路的大學(xué)生, 研究生 – 痛苦: 找資料, 讀論文, 申請出國, 投稿 ? 項目計劃的一個重要方面是核心價值是什么, 決定不做什么 -? 我們決定不和其它學(xué)術(shù)搜索比拼“論文下載”這一功能, 就是說, 如果用戶的唯一目的就是要下論文, 我們系統(tǒng)不是最好的。 決定采取 8 周為一個里程碑 (Milestone) 的開發(fā)周期, 采用 MS Agile 的思路。 [2 周計劃;4周實現(xiàn);2周測試并上線 ] 人員: 研究員 + 軟件工程師 8-9 人; 全職PM 一名;? 加上實習(xí)生數(shù)名, 幾個外包團(tuán)隊的測試人員。 開始聯(lián)系出版社商討合作 在西格瑪4層的水房開了 V2 kick off 會議。 ? 市場上已經(jīng)有各種學(xué)術(shù)搜索服務(wù), 作為一個后來者, 我們怎么創(chuàng)新? 我們的紅旗能打多久? 我們到底要做什么? 要怎樣展現(xiàn)各個實體之間的什么關(guān)系??? 我畫了一個表: ?| Relation | author | paper | conf/journal | organization | keyword |
| author | co-author | paper list | top authors | author/org rank | author research interest |
| paper | ? | related paper | top papers | top papers from this org | highlight keywords in a paper |
| conf/journal | ? | ? | CFP calendar | top org in a conf/journal | focus of conf/joural (tag cloud) |
| organization | ? | ? | ? | org rank list | research area of an org |
| keyword | ? | ? | ? | ? | taxonomy, related keywords |
應(yīng)某部門的要求,我們把界面色調(diào)改得像它的孿生兄弟一樣 (橘黃色)。有意思的是, 此部門后來一直在思考中, 并未采取行動 …
? 2011/3: V2M7 發(fā)布 增加了 Keyword (關(guān)鍵字)這是最后一個實體。 發(fā)布了 Academic Search API, 讓學(xué)術(shù)界能通過API 使用我們的元數(shù)據(jù), 開發(fā)他們自己的應(yīng)用。 獨特的可視化功能 – Author Citation Graph Call for Paper 和其它一系列功能的改進(jìn) 和一個出版社的協(xié)議生效并且數(shù)據(jù)上線了, 數(shù)據(jù)量: 15.7 million . 其余的出版社還是討論中。 ? V2 訂下的目標(biāo)基本實現(xiàn) (計算機(jī)領(lǐng)域的全文本數(shù)據(jù)還是在痛苦地等待中)。開始V3, 向全學(xué)科領(lǐng)域進(jìn)軍 由于項目的絕大部分模塊都進(jìn)行了大規(guī)模的工程性重構(gòu),重寫。有些問題太難 (), 研究員們逐步撤出了項目。 ? 2011/6: V3M1 發(fā)布 新的領(lǐng)域擴(kuò)展到 9 個 推出獨特功能 - ??? 背靠背比較研究機(jī)構(gòu) – organization comparison ??? 關(guān)鍵字 - 支持關(guān)鍵字的變體 改進(jìn)已有功能,在用戶編輯模塊提供 “修改歷史”信息 為了充分展示各學(xué)科內(nèi)容,? MAS獨創(chuàng)的兩級homepage 組織結(jié)構(gòu)隆重登場. 工程師繼續(xù)改進(jìn)名字消歧的算法 - 即使難, 也要迎著困難上啊。 我讓清華《現(xiàn)代軟件工程》班的同學(xué)根據(jù) API 寫一個 iPad 上的程序, 一組同學(xué)做了一個, 但沒有發(fā)布… 隨著項目的成熟,? 如何讓項目可持續(xù)地發(fā)展成為一個問題,? 我們和雷鎮(zhèn)的另一部門商討如何更好地進(jìn)行商業(yè)運(yùn)作。達(dá)成了初步協(xié)議。? 數(shù)據(jù)量: 27.1 million 大家對敏捷開發(fā)的流程也逐漸熟悉, 這是其中一個里程碑的工作項 (work item) 看板圖。在每次史克朗茻? (SCRUM) 會議時, 大家就更新墻上自己負(fù)責(zé)的任務(wù)。 ? ? 2011/9: V3M2 發(fā)布 新的領(lǐng)域擴(kuò)展到 17 個 推出獨特功能 - ??? 獨特的排名選項可以讓用戶用多種方式給作者排序。 ??? 從美國 Harvey Mudd 學(xué)院來的實習(xí)生很快就完成了 學(xué)術(shù)地圖 這一功能。 ??? Windows Phone 的客戶端發(fā)布 (link) 很多小型出版社和我們達(dá)成了合作協(xié)議,最重要的出版社還在最后關(guān)頭… 隨著項目逐漸成熟, 知名度提高, 我們需要計劃如何把 beta 產(chǎn)品轉(zhuǎn)化為正式產(chǎn)品, 我們和一些其他部門商討并達(dá)成初步共識。 項目的名聲也大了, 黑客用他們獨特的方式告訴我們網(wǎng)站有漏洞。 數(shù)據(jù)量: 35.3 million ? 2011/12: V3M3 發(fā)布 完成了全學(xué)科所有子領(lǐng)域的定義, 期刊/會議的學(xué)科歸屬, 產(chǎn)生 15 個一級學(xué)科 推出獨特功能 - ??? 學(xué)術(shù)家族樹 (經(jīng)歷上次失敗后, 中科大的同學(xué)再次努力, 終于上線) ??? 可視化功能 - 論文引用圖 - 這是和另一個研究小組合作的結(jié)果 ??? wp7 手機(jī)客戶端增加對學(xué)術(shù)會議的支持 (正在走上線流程) 對所有代碼進(jìn)行了安全檢查和修復(fù) CS 領(lǐng)域的重要出版社終于和我們達(dá)成了合作協(xié)議!? 我們等了兩年的時間… 數(shù)據(jù)量: 35.3 million, 總數(shù)量不變,? 但是全文本的數(shù)據(jù)比重大幅增加。 越來越多的學(xué)術(shù)界同行申請使用 學(xué)術(shù)搜索 API 收到好評不少,? 例如:??? It’s been a very impressive year for 當(dāng)然競爭對手也沒閑著…
?
? 2012/1-3? service pack 階段 重點放在如何把項目移交給另一部門 形成了有規(guī)律的數(shù)據(jù)更新周期。 進(jìn)行文檔整理和規(guī)范化工作 姓名消歧工作又經(jīng)過幾個月的努力, 得到大幅改進(jìn), “Zheng Lei”這樣的名字也得到不錯的處理,? 不會出現(xiàn)一個“Zhang Lei”寫了幾千篇論文的滑稽情況。 根據(jù)用戶反饋和自身計劃, 改進(jìn)各個模塊的質(zhì)量 對CS, Engineering 領(lǐng)域的論文覆蓋率大大提高。 數(shù)據(jù)量: 38.8 million 訪問數(shù)據(jù):? 平均每月 1百萬獨立IP 訪問, 其中 60% 來自美國; 超過60 個合作伙伴使用我們的API 進(jìn)行各自的研究。 模塊: 元數(shù)據(jù)抽取, 離線處理, 數(shù)據(jù)庫, 論文集成,作者名字集成與消歧,數(shù)據(jù)索引, 網(wǎng)站, API, wp7 客戶端, 測試工具,? 內(nèi)部編輯復(fù)審工具, log 工具。 代碼量: 34萬 (C++, C#, asp.net, javascript, silverlight, SQL) 代碼量不包括空行, 注釋, 只有一個字符的行。 —————————————————————————————————————————————————— ? 微軟學(xué)術(shù)搜索?? 介紹 ? ? 微軟學(xué)術(shù)搜索(Microsoft Academic Search)是微軟研究院開發(fā)的免費(fèi)學(xué)術(shù)搜索引擎。它為研究員、學(xué)生、圖書館館員和其他用戶提供了一個更加智能、新穎的搜索平臺,方便用戶查找學(xué)術(shù)論文、知名學(xué)者、國際會議、權(quán)威期刊等信息。同時,微軟學(xué)術(shù)搜索作為一個研究試驗平臺,展現(xiàn)了研究院在對象級別垂直搜索、命名實體的提取和消歧、數(shù)據(jù)可視化等研究領(lǐng)域的最新研究成果。?
作為一個研究原型,微軟學(xué)術(shù)搜索覆蓋的學(xué)術(shù)內(nèi)容仍比較有限,我們衷心感謝您的反饋與貢獻(xiàn)。您可以通過Twitter 關(guān)注我們,或者加入我們的論壇。
? 主要功能 - 搜索要實現(xiàn)基本的搜索功能,只需簡單地輸入關(guān)鍵詞,然后單擊搜索按鈕。
微軟學(xué)術(shù)搜索不僅僅涵蓋計算機(jī)科學(xué),而且已經(jīng)逐步擴(kuò)展到其他學(xué)科,您可以通過指定感興趣的學(xué)科領(lǐng)域來縮小搜索范圍,快速找到所需論文。
例子:輸入關(guān)鍵詞;點擊"All Domains"按鈕;從下拉表中選擇一個復(fù)選框,可將您的搜索范圍縮小到指定學(xué)科。
如果您有更為具體的搜索條件,您可以使用高級搜索,以提高搜索的準(zhǔn)確性與有效性。點擊“高級搜索”(Advanced Search)并輸入以下選項的具體值:作者、會議、期刊和年份。
例子:查找1999年之后發(fā)表的與"data mining"相關(guān)的論文,輸入關(guān)鍵詞并設(shè)置年份。
用戶參與編輯
微軟學(xué)術(shù)搜索允許用戶在線修正數(shù)據(jù)。如果您發(fā)現(xiàn)作者的資料、論文的資料有誤,或是我們提供的信息已過時,您可以直接在網(wǎng)上進(jìn)行修改。微軟學(xué)術(shù)搜索目前支持修改的數(shù)據(jù)項包括:作者的基本信息,如姓名、所屬機(jī)構(gòu)、頭像及個人主頁;論文的基本信息;上傳論文;確認(rèn)論文歸屬等。您的修改經(jīng)編輯驗證后將更新在網(wǎng)頁上。如果您有其它修改需求,請與我們聯(lián)系。我們致力于提供最新、最準(zhǔn)確的學(xué)術(shù)信息,期待您的參與。
獲取最新的征稿信息
您可能希望了解某個學(xué)術(shù)會議的論文提交截止期限,或是您想要查詢該學(xué)術(shù)會議的召開地點,那么, 征稿信息 (call for paper)對您而言是一個非常有用的工具。
征稿信息頁面將自動顯示最近半年的會議列表,您可以通過學(xué)科篩選(Domain Filter)來鎖定目標(biāo)會議。將鼠標(biāo)放在時間線上,就能看到每個會議的時間安排。點擊“地圖視圖”,可以方便地查找到會議地點。
您也可以在搜索框中輸入會議名稱(全稱或縮寫名)來查找感興趣的會議。
展現(xiàn)多樣的作者關(guān)系
合作關(guān)系圖 (Co-author Graph)中每個節(jié)點代表一名作者,節(jié)點越大意味著作者所發(fā)表的著作越多,合作數(shù)量越多的合作者離作者的距離越近。
合作關(guān)系路徑圖(Co-author Path)展示了兩個學(xué)者之間的合作路徑,路徑中的每條邊表示兩個端點代表的作者間存在合作關(guān)系。
?
學(xué)術(shù)引用圖(Citation Graph)呈現(xiàn)作者之間的引用關(guān)系。圖中每個節(jié)點代表一名作者,位于頁面左上角的作者為被引用作者,引用該作者的文章越多,與該作者的距離越近。
?
學(xué)術(shù)家族樹(Genealogy Graph)呈現(xiàn)作者之間的導(dǎo)師/學(xué)生關(guān)系。在主要作者上方是其導(dǎo)師, 下方是其學(xué)生。 當(dāng)學(xué)生數(shù)量較多的時候, 學(xué)生按機(jī)構(gòu)進(jìn)行歸類。
?
您可以點擊頁面右上方的 Embed 選項 將上述圖形化展示頁面嵌入個人主頁。
?
將論文嵌入到自己的個人主頁
微軟學(xué)術(shù)搜索允許您將論文列表嵌入到其它網(wǎng)頁,比如您的個人主頁。
具體步驟:在作者詳細(xì)頁面中點擊Embed,然后點擊“生成JavaScript 代碼”(Generate JavaScript code),復(fù)制顯示在右側(cè)窗口中的全部JavaScript 代碼并黏貼到您的個人主頁。
查看論文的引用信息
引文內(nèi)容(Citation Context)列出了引用論文對原始論文的轉(zhuǎn)述內(nèi)容,幫助用戶方便、快速地理解其他作者對原始論文的評價。
您可以在論文詳細(xì)頁面中找到引文內(nèi)容,一條典型的結(jié)果會包括從引用論文中實際摘錄的一段內(nèi)容、引用論文的第一作者以及引用論文的題目。系統(tǒng)默認(rèn)顯示5條結(jié)果,如果您想查看更多,請點擊引文內(nèi)容(Citation Context)。
直觀顯示各學(xué)科領(lǐng)域的出版物動態(tài)
領(lǐng)域動態(tài)(Domain Trend)以疊加分布圖的方式直觀展示了各學(xué)科領(lǐng)域的研究動態(tài)。
您可以通過頁面左側(cè)的面板來過濾或自定義顯示的學(xué)科領(lǐng)域,調(diào)整時間軸可讓您更改感興趣的時間段。您可以點擊某個感興趣的學(xué)科領(lǐng)域以查看該領(lǐng)域的作者列表。
獲取研究機(jī)構(gòu)的更多信息
微軟學(xué)術(shù)搜索推出兩個新功能以幫助您更多了解研究機(jī)構(gòu)的相關(guān)信息。
A. 學(xué)術(shù)地圖
學(xué)術(shù)地圖(Academic Map)使用可視化地圖展示全世界研究機(jī)構(gòu)的地理分布,地圖中的每個點代表一個研究機(jī)構(gòu),點擊某一個機(jī)構(gòu)會顯示該機(jī)構(gòu)學(xué)者的詳細(xì)信息。您也可以通過指定學(xué)科領(lǐng)域來對研究機(jī)構(gòu)進(jìn)行篩選。
B. 機(jī)構(gòu)比較
您可以點擊機(jī)構(gòu)詳細(xì)頁面中的比較按鈕,將該機(jī)構(gòu)與其它機(jī)構(gòu)進(jìn)行比較。在機(jī)構(gòu)比較頁面中,您可以看到兩個機(jī)構(gòu)所發(fā)表論文量、引用量、研究側(cè)重以及所屬學(xué)者的對比情況。
論文引用圖
展現(xiàn)了論文之間的引用關(guān)系, 您可以通過這個直觀的引用圖梳理知識脈絡(luò), 找到相關(guān)論文, 拓寬對某專業(yè)的理解。
?搜索結(jié)果頁面
微軟學(xué)術(shù)搜索基于您所輸入的搜索詞給出相應(yīng)的搜索結(jié)果。例如:搜索“data mining”返回的頁面如下:
A:年份篩選:通過限定年份條件進(jìn)一步過濾搜索結(jié)果。
B:結(jié)果:一條典型的搜索結(jié)果包含以下信息:
- 論文題目:鏈接到論文詳細(xì)信息頁面,顯示該論文的作者信息、摘要、參考書目、引用書目等。
- 查看論文:鏈接到論文瀏覽/下載頁面。
- 引用:該論文的引用數(shù)量。
- 作者姓名:鏈接到作者詳細(xì)信息頁面,該頁面顯示作者的個人主頁、所屬機(jī)構(gòu)、論文列表等。
- 論文摘要。
- 出版時間。
- 論文來源:鏈接到會議、期刊的詳細(xì)信息網(wǎng)頁,顯示其論文數(shù)量、引用數(shù)量、論文列表等。
C:側(cè)欄:通過選擇不同的學(xué)科領(lǐng)域,您可以進(jìn)一步過濾您的搜索結(jié)果。
學(xué)術(shù)實體 (作者, 機(jī)構(gòu)等) 的詳細(xì)頁面
您只需點擊微軟學(xué)術(shù)搜索任一頁面上的論文題目、作者姓名、機(jī)構(gòu)名稱、會議名稱、期刊題目或關(guān)鍵詞,即可訪問相應(yīng)對象的詳細(xì)信息頁面。例子:這是關(guān)于作者Wei-Ying Ma的詳細(xì)信息頁面:
系統(tǒng)將學(xué)者分為兩種類型。當(dāng)頭像顯示為一個問號時,表明這個學(xué)者的資料還未被任何用戶編輯過,歡迎您對資料進(jìn)行補(bǔ)充或更正;另一種類型的學(xué)者資料則已被人工編輯,您對這些學(xué)者資料做進(jìn)一步更新時請更為謹(jǐn)慎。
H-指數(shù)
H-指數(shù)是Jorge E. Hirsch提出的一種評價科研人員學(xué)術(shù)成就的方法。Hirsch定義一個科研人員的h指數(shù)為在一定期間內(nèi)他發(fā)表的論文至少有h篇的被引頻次不低于h次。
H-指數(shù)也可以用來衡量一個機(jī)構(gòu)的學(xué)術(shù)成就。我們基于以下方法計算該指數(shù):一個機(jī)構(gòu)的論文數(shù)量包括(a)由當(dāng)前屬于該機(jī)構(gòu)的學(xué)者所發(fā)表的論文;(b)該論文發(fā)表時相關(guān)作者屬于該機(jī)構(gòu)。一個機(jī)構(gòu)的h指數(shù)指一定時期內(nèi)該機(jī)構(gòu)的論文至少有h篇的被引頻次不低于h次。
G-指數(shù)
G-指數(shù)是基于科研人員被引次數(shù)的分布來評價科研人員學(xué)術(shù)成就的另一種方法。該指數(shù)由Leo Egghe提出,一個科研人員的g-指數(shù)指他的g篇被引次數(shù)最多的論文平均有g(shù)次被引,g是可能的最大數(shù)目。
學(xué)科信息排序表
微軟學(xué)術(shù)搜索提供各學(xué)科領(lǐng)域各種信息的排序表,通過列表,您可以發(fā)現(xiàn)有影響力的論文、作者、會議、期刊和機(jī)構(gòu)等。
? 學(xué)術(shù)搜索API微軟學(xué)術(shù)搜索通過開放API,允許用戶訪問我們的海量數(shù)據(jù),幫助開發(fā)人員構(gòu)建各種創(chuàng)新性應(yīng)用程序。無論您是要進(jìn)行學(xué)術(shù)機(jī)構(gòu)排序,還是要展示論文引用關(guān)系,API都可以讓您輕松啟動這些項目。
了解更多關(guān)于API的信息,請參考API 介紹頁。
總結(jié)
以上是生活随笔為你收集整理的微软学术搜索项目 10个版本的历程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python高级功能_python高级篇
- 下一篇: stm32程序怎么设置apb2总线时钟_