日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

用rvest包来抓取Google学术搜索数据

發布時間:2025/3/17 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用rvest包来抓取Google学术搜索数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2019獨角獸企業重金招聘Python工程師標準>>>

在這篇文章,主要展示的是如何抓取Google學術網頁。示例展示的是用rvest包來抓取作者博士指導老師的個人學術數據。我們可以看到他的合著者,論文被引用了多少次以及它們的附屬機構。Hadley Wickham在RStudio Blog中寫道:“rvest的靈感來源于類似beautiful soup這樣可以輕易的從HTML網頁抓取數據的一些庫”。因為它被設計成跟magrittr一起使用。我們可以通過一些簡單和易于理解的代碼塊組成的管道操作來表示復雜的操作。

加載R包:

用ggplot2包來作圖

library(rvest) library(ggplot2)

他的論文被引用了多少次?

使用SelectorGadget的CSS選擇器來找出"cited by"列。

page <- read_html("https://scholar.google.com/citations?user=sTR9SIQAAAAJ&hl=en&oi=ao")

在html_nodes()中指定CSS選擇器,html_text()用來提取文本。最后,用as.numernic()將字符串類型轉換為數值類型。

citations <- page %>% html_nodes ("#gsc_a_b .gsc_a_c") %>% html_text()%>%as.numeric()

查看引用此次數:

citations 148 96 79 64 57 57 57 55 52 50 48 37 34 33 30 28 26 25 23 22

繪制引用次數的條形圖:

barplot(citations, main="How many times has each paper been cited?", ylab='Number of citations', col="skyblue", xlab="")


合著者,他們的附屬單位以及被引用的次數

同樣,我們使用SelecotGadget的CSS選擇器來找出匹配的合著者:

page <- read_html("https://scholar.google.com/citations?view_op=list_colleagues&hl=en&user=sTR9SIQAAAAJ") Coauthors = page%>% html_nodes(css=".gsc_1usr_name a") %>% html_text() Coauthors = as.data.frame(Coauthors) names(Coauthors)='Coauthors'

查看下合著者

head(Coauthors) Coauthors 1 ? ? ? ? ? ? ? Jason Evans 2 ? ? ? ? ? ? Mutlu Ozdogan 3 ? ? ? ? ? ?Rasmus Houborg 4 ? ? ? ? ?M. Tugrul Yilmaz 5 Joseph A. Santanello, Jr. 6 ? ? ? ? ? ? ?Seth Guikemadim(Coauthors) [1] 27 ?1

截止到2016年1月1日,他的合著者共有27人。

他的合著者被引用了多少次?

page <- read_html("https://scholar.google.com/citations?view_op=list_colleagues&hl=en&user=sTR9SIQAAAAJ") citations = page%>% html_nodes(css = ".gsc_1usr_cby")%>%html_text()citations [1] "Cited by 2231" ?"Cited by 1273" ?"Cited by 816" ? "Cited by 395" ? "Cited by 652" ? "Cited by 1531" [7] "Cited by 674" ? "Cited by 467" ? "Cited by 7967" ?"Cited by 3968" ?"Cited by 2603" ?"Cited by 3468" [13] "Cited by 3175" ?"Cited by 121" ? "Cited by 32" ? ?"Cited by 469" ? "Cited by 50" ? ?"Cited by 11" ? [19] "Cited by 1187" ?"Cited by 1450" ?"Cited by 12407" "Cited by 1939" ?"Cited by 9" ? ? "Cited by 706" ? [25] "Cited by 336" ? "Cited by 186" ? "Cited by 192"

通過全局替代提取數值字符串

citations = gsub('Cited by','', citations)citations[1] " 2231" ?" 1273" ?" 816" ? " 395" ? " 652" ? " 1531" ?" 674" ? " 467" ? " 7967" ?" 3968" ?" 2603" ?" 3468" ?" 3175" [14] " 121" ? " 32" ? ?" 469" ? " 50" ? ?" 11" ? ?" 1187" ?" 1450" ?" 12407" " 1939" ?" 9" ? ? " 706" ? " 336" ? " 186" ? [27] " 192"

將字符串轉成數值型,再得到ggplot2可用的數據框格式:

citations = as.numeric(citations) citations = as.data.frame(citations)

合著者的附屬機構

page <- read_html("https://scholar.google.com/citations?view_op=list_colleagues&hl=en&user=sTR9SIQAAAAJ") affilation = page %>% html_nodes(css = ".gsc_1usr_aff")%>%html_text() affilation = as.data.frame(affilation) names(affilation)='Affilation'

創建一個由coauthors,citations和affiliation組成的數據框

cauthors=cbind(Coauthors, citations, affilation)cauthors Coauthors citations ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Affilation 1 ? ? ? ? ? ? ? ? ? ? ? ? ?Jason Evans ? ? ?2231 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? University of New South Wales 2 ? ? ? ? ? ? ? ? ? ? ? ?Mutlu Ozdogan ? ? ?1273 ? ?Assistant Professor of Environmental Science and Forest Ecology, University of Wisconsin 3 ? ? ? ? ? ? ? ? ? ? ? Rasmus Houborg ? ? ? 816 ? ? ? ? ? ? ? ? ? ?Research Scientist at King Abdullah University of Science and Technology 4 ? ? ? ? ? ? ? ? ? ? M. Tugrul Yilmaz ? ? ? 395 Assistant Professor, Civil Engineering Department, Middle East Technical University, Turkey 5 ? ? ? ? ? ?Joseph A. Santanello, Jr. ? ? ? 652 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?NASA-GSFC Hydrological Sciences Laboratory .....

根據引用次數,對合著者重新排序

根據引用次數對合著者重新排序,以便得到遞減的順序圖:

cauthors$Coauthors <- factor(cauthors$Coauthors, levels = cauthors$Coauthors[order(cauthors$citations, decreasing=F)])ggplot(cauthors,aes(Coauthors,citations))+geom_bar(stat="identity", fill="#ff8c1a",size=5)+ theme(axis.title.y ? = element_blank())+ylab("# of citations")+ theme(plot.title=element_text(size = 18,colour="blue"), axis.text.y = element_text(colour="grey20",size=12))+ggtitle('Citations of his coauthors')+coord_flip()

與他合著的科學家中,有引用超過了12000次。他的學生中像我(圖中最后一個)這樣的剛處在"學走路的階段"。

總結

在這篇文章,我們看到了如何抓取Google學術數據。我抓取了我導師的賬戶,獲得了論文引用次數數據,合著者的附屬機構以及他們被引用的次數。

正如我們在這篇文章所看到的一樣,利用rvest包可以很容易的抓取HTML網頁數據。同樣重要的是,SelectorGadget通過CSS選擇器可以幫助我們找出感興趣的數據。

修正:我的導師告訴我Google學術只收錄了他的小部分合著者。跟他合作發表的一些科學家以及一些引用很多次文章并沒有顯示出來。進一步,上面得到的結果對于有些人來說是不符合常理的(如:資歷更深的人發表了更多的文章卻比資歷淺的人引用的次數更少)。因此,Google學術數據應該謹慎使用。

本文由雪晴數據網負責翻譯整理,原文請參考Google scholar scraping with rvest package作者Fisseha Berhane。轉載請注明原文鏈接http://www.xueqing.cc/cms/article/109

轉載于:https://my.oschina.net/u/2605101/blog/601281

總結

以上是生活随笔為你收集整理的用rvest包来抓取Google学术搜索数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美日韩一卡二卡 | 国产毛片在线看 | 欧美精品乱码视频一二专区 | 亚洲v欧美v| 99re视频在线播放 | www.色网| 老熟妇午夜毛片一区二区三区 | 国产av无码专区亚洲精品 | 国产伦精品一区二区三 | 欧美黄色短片 | 中文字幕理伦片免费看 | 在线色播| 日本高清免费观看 | 97人人人 | 黑人巨大精品欧美一区二区蜜桃 | 日本国产一区二区 | xxx性视频 | 久草视频在线播放 | 亚洲视频色图 | 狠狠狠狠狠狠狠干 | 亚洲激情在线 | 福利一区三区 | 国产乱子伦精品视频 | 亚洲老女人 | h视频在线观看网站 | 孕妇一级片| 人妻与黑人一区二区三区 | 亚洲人人插 | 人妻少妇偷人精品久久久任期 | 国内自拍在线观看 | 天堂www中文在线资源 | 日韩中文字幕亚洲精品欧美 | 亚洲成人日韩在线 | 久草资源在线播放 | 国产午夜在线视频 | 欧美激情亚洲综合 | 北岛玲av| 成人无遮挡 | 超碰成人在线免费观看 | 亚洲区一区 | 日韩精品高清在线 | 爱爱免费小视频 | 少妇一区二区三区 | 国产麻豆一级片 | 午夜在线视频免费 | 成人观看 | 在线观看国产 | 草草视频在线观看 | 正在播放木下凛凛88av | 成人在线直播 | 成人免费毛片网站 | 性久久久久久久 | 精品网站999www | 国产男男网站 | free女性xx性老大太 | 成人毛片在线观看 | 激情小说一区 | 中文字幕人乱码中文字 | 图书馆的女友在线观看 | 黄色小视频大全 | 欧美黄色大全 | 美国一区二区三区 | 99久久婷婷国产综合精品草原 | 国产做a视频 | 色伊人av | 中文字幕有码av | 中文字幕人妻一区二 | 欧美成人国产精品一区二区 | 亚洲高清视频免费观看 | 亚洲小说区图片区 | 色女人影院| 国产高清小视频 | 国产在线免费 | 日日碰日日摸 | 影音先锋在线看 | 亚洲.www| 日本韩国欧美在线 | a视频在线免费观看 | 绝顶高潮videos合集 | av黄色在线看 | 久久久高清视频 | 国产精品500部| 日本欧美一区二区 | 久久久久久久久久福利 | 热热热热色 | 美日韩毛片 | 亚州av在线| 欧美乱子伦 | 亚洲爱v | 亚洲国产第一 | 国产主播精品 | 欧美日韩午夜爽爽 | 国产传媒国产传媒 | 高清成人免费视频 | 亚洲性免费 | 成人av中文字幕 | 一级黄色裸体片 | 亚洲理论在线观看 | 少妇真实被内射视频三四区 |