當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【算法竞赛学习】学术前沿趋势-论文作者统计

發布時間：2023/12/15 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了【算法竞赛学习】学术前沿趋势-论文作者统计小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

任務2：論文作者統計

2.1 任務說明

任務主題：論文作者統計，統計所有論文作者出現評率Top10的姓名；
任務內容：論文作者的統計、使用 Pandas 讀取數據并使用字符串操作；
任務成果：學習 Pandas 的字符串操作；

2.2 數據處理步驟

在原始arxiv數據集中論文作者authors字段是一個字符串格式，其中每個作者使用逗號進行分隔分，所以我們我們首先需要完成以下步驟：

使用逗號對作者進行切分；
剔除單個作者中非常規的字符；

具體操作可以參考以下例子：

C. Bal\\'azs, E. L. Berger, P. M. Nadolsky, C.-P. Yuan# 切分為，其中\\為轉義符C. Ba'lazs E. L. Berger P. M. Nadolsky C.-P. Yuan

當然在原始數據集中authors_parsed字段已經幫我們處理好了作者信息，可以直接使用該字段完成后續統計。

2.3 字符串處理

在Python中字符串是最常用的數據類型，可以使用引號('或")來創建字符串。Python中所有的字符都使用字符串存儲，可以使用方括號來截取字符串，如下實例：

var1 = 'Hello Datawhale!' var2 = "Python Everwhere!"print("var1[-10:]: ", var1[-10:]) print("var2[1:5]: ", var2[0:7])

執行結果為：

var1[-10:]: Datawhale! var2[1:5]: Python

同時在Python中還支持轉義符：

(在行尾時)續行符

\	反斜杠符號
’	單引號
"	雙引號
\n	換行
\t	橫向制表符
\r	回車

Python中還內置了很多內置函數，非常方便使用：

方法描述

string.capitalize()	把字符串的第一個字符大寫
string.isalpha()	如果 string 至少有一個字符并且所有字符都是字母則返回 True,否則返回 False
string.title()	返回"標題化"的 string,就是說所有單詞都是以大寫開始，其余字母均為小寫(見 istitle())
string.upper()	轉換 string 中的小寫字母為大寫

2.4 具體代碼實現以及講解

2.4.1 數據讀取

data = [] with open("arxiv-metadata-oai-snapshot.json", 'r') as f: for idx, line in enumerate(f): d = json.loads(line)d = {'authors': d['authors'], 'categories': d['categories'], 'authors_parsed': d['authors_parsed']}data.append(d)data = pd.DataFrame(data)

為了方便處理數據，我們只選擇了三個字段進行讀取。

2.4.2 數據統計

接下來我們將完成以下統計操作：

統計所有作者姓名出現頻率的Top10；
統計所有作者姓（姓名最后一個單詞）的出現頻率的Top10；
統計所有作者姓第一個字符的評率；

為了節約計算時間，下面選擇部分類別下的論文進行處理：

# 選擇類別為cs.CV下面的論文 data2 = data[data['categories'].apply(lambda x: 'cs.CV' in x)]# 拼接所有作者 all_authors = sum(data2['authors_parsed'], [])

處理完成后all_authors變成了所有一個list，其中每個元素為一個作者的姓名。我們首先來完成姓名頻率的統計。

# 拼接所有的作者 authors_names = [' '.join(x) for x in all_authors] authors_names = pd.DataFrame(authors_names)# 根據作者頻率繪制直方圖 plt.figure(figsize=(10, 6)) authors_names[0].value_counts().head(10).plot(kind='barh')# 修改圖配置 names = authors_names[0].value_counts().index.values[:10] _ = plt.yticks(range(0, len(names)), names) plt.ylabel('Author') plt.xlabel('Count')

繪制得到的結果：

接下來統計姓名姓，也就是authors_parsed字段中作者第一個單詞：

authors_lastnames = [x[0] for x in all_authors] authors_lastnames = pd.DataFrame(authors_lastnames)plt.figure(figsize=(10, 6)) authors_lastnames[0].value_counts().head(10).plot(kind='barh')names = authors_lastnames[0].value_counts().index.values[:10] _ = plt.yticks(range(0, len(names)), names) plt.ylabel('Author') plt.xlabel('Count')

繪制得到的結果，從結果看出這些都是華人或者中國姓氏

統計所有作者姓第一個字符的評率，這個流程與上述的類似，同學們可以自行嘗試。

總結

以上是生活随笔為你收集整理的【算法竞赛学习】学术前沿趋势-论文作者统计的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【竞赛算法学习】学术前沿趋势分析-论文数
下一篇：【算法竞赛学习】学术前沿趋势-论文代码统