日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【算法竞赛学习】学术前沿趋势-论文作者统计

發布時間:2023/12/15 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【算法竞赛学习】学术前沿趋势-论文作者统计 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

任務2:論文作者統計

2.1 任務說明

  • 任務主題:論文作者統計,統計所有論文作者出現評率Top10的姓名;
  • 任務內容:論文作者的統計、使用 Pandas 讀取數據并使用字符串操作;
  • 任務成果:學習 Pandas 的字符串操作;

2.2 數據處理步驟

在原始arxiv數據集中論文作者authors字段是一個字符串格式,其中每個作者使用逗號進行分隔分,所以我們我們首先需要完成以下步驟:

  • 使用逗號對作者進行切分;
  • 剔除單個作者中非常規的字符;

具體操作可以參考以下例子:

C. Bal\\'azs, E. L. Berger, P. M. Nadolsky, C.-P. Yuan# 切分為,其中\\為轉義符C. Ba'lazs E. L. Berger P. M. Nadolsky C.-P. Yuan

當然在原始數據集中authors_parsed字段已經幫我們處理好了作者信息,可以直接使用該字段完成后續統計。

2.3 字符串處理

在Python中字符串是最常用的數據類型,可以使用引號('或")來創建字符串。Python中所有的字符都使用字符串存儲,可以使用方括號來截取字符串,如下實例:

var1 = 'Hello Datawhale!' var2 = "Python Everwhere!"print("var1[-10:]: ", var1[-10:]) print("var2[1:5]: ", var2[0:7])

執行結果為:

var1[-10:]: Datawhale! var2[1:5]: Python

同時在Python中還支持轉義符:

(在行尾時)續行符
\反斜杠符號
單引號
"雙引號
\n換行
\t橫向制表符
\r回車

Python中還內置了很多內置函數,非常方便使用:

方法描述
string.capitalize()把字符串的第一個字符大寫
string.isalpha()如果 string 至少有一個字符并且所有字符都是字母則返回 True,否則返回 False
string.title()返回"標題化"的 string,就是說所有單詞都是以大寫開始,其余字母均為小寫(見 istitle())
string.upper()轉換 string 中的小寫字母為大寫

2.4 具體代碼實現以及講解

2.4.1 數據讀取

data = [] with open("arxiv-metadata-oai-snapshot.json", 'r') as f: for idx, line in enumerate(f): d = json.loads(line)d = {'authors': d['authors'], 'categories': d['categories'], 'authors_parsed': d['authors_parsed']}data.append(d)data = pd.DataFrame(data)

為了方便處理數據,我們只選擇了三個字段進行讀取。

2.4.2 數據統計

接下來我們將完成以下統計操作:

  • 統計所有作者姓名出現頻率的Top10;
  • 統計所有作者姓(姓名最后一個單詞)的出現頻率的Top10;
  • 統計所有作者姓第一個字符的評率;

為了節約計算時間,下面選擇部分類別下的論文進行處理:

# 選擇類別為cs.CV下面的論文 data2 = data[data['categories'].apply(lambda x: 'cs.CV' in x)]# 拼接所有作者 all_authors = sum(data2['authors_parsed'], [])

處理完成后all_authors變成了所有一個list,其中每個元素為一個作者的姓名。我們首先來完成姓名頻率的統計。

# 拼接所有的作者 authors_names = [' '.join(x) for x in all_authors] authors_names = pd.DataFrame(authors_names)# 根據作者頻率繪制直方圖 plt.figure(figsize=(10, 6)) authors_names[0].value_counts().head(10).plot(kind='barh')# 修改圖配置 names = authors_names[0].value_counts().index.values[:10] _ = plt.yticks(range(0, len(names)), names) plt.ylabel('Author') plt.xlabel('Count')

繪制得到的結果:

接下來統計姓名姓,也就是authors_parsed字段中作者第一個單詞:

authors_lastnames = [x[0] for x in all_authors] authors_lastnames = pd.DataFrame(authors_lastnames)plt.figure(figsize=(10, 6)) authors_lastnames[0].value_counts().head(10).plot(kind='barh')names = authors_lastnames[0].value_counts().index.values[:10] _ = plt.yticks(range(0, len(names)), names) plt.ylabel('Author') plt.xlabel('Count')

繪制得到的結果,從結果看出這些都是華人或者中國姓氏

統計所有作者姓第一個字符的評率,這個流程與上述的類似,同學們可以自行嘗試。

總結

以上是生活随笔為你收集整理的【算法竞赛学习】学术前沿趋势-论文作者统计的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。