當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python 红楼梦人物关系_用Python来理一理红楼梦里的这些关系

發(fā)布時間：2024/3/7 python 56 豆豆

生活随笔收集整理的這篇文章主要介紹了 python 红楼梦人物关系_用Python来理一理红楼梦里的这些关系小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

原標(biāo)題：用Python來理一理紅樓夢里的這些關(guān)系

最近把紅樓夢又抽空看了一遍，古典中的經(jīng)典，我真無法用言辭贊美她。今天，想跟大家一起用 Python 來理一理紅樓夢中的的那些關(guān)系

不要問我為啥是紅樓夢，而不是水滸三國或西游，都是經(jīng)典，但我個人還是更喜歡偏古典的書，紅樓夢也是我多次反復(fù)品讀的為數(shù)不多的小說，對它的感情也是最深的。

好了好了這些都不重要，重要的是我們今天要用Python來理紅樓夢的關(guān)系！

數(shù)據(jù)準(zhǔn)備

紅樓夢 TXT 文件一份

金陵十二釵 + 賈寶玉人物名稱列表

人物列表內(nèi)容如下：

寶玉 nr

黛玉 nr

寶釵 nr

湘云 nr

鳳姐 nr

李紈 nr

元春 nr

迎春 nr

探春 nr

惜春 nr

妙玉 nr

巧姐 nr

秦氏 nr

這份列表，同時也是為了做分詞時使用，后面的 nr 就是人名的意思。

數(shù)據(jù)處理

讀取數(shù)據(jù)并加載詞典

with open("紅樓夢.txt", encoding='gb18030') as f:

honglou = f.readlines()

jieba.load_userdict("renwu_forcut")

renwu_data = pd.read_csv("renwu_forcut", header=-1)

mylist = [k[0].split(" ")[0] for k in renwu_data.values.tolist()]

這樣，我們就把紅樓夢讀取到了 honglou 這個變量當(dāng)中，同時也通過 load_userdict 將我們自定義的詞典加載到了 jieba 庫中。

對文本進行分詞處理并提取

tmpNames = []

names = {}

relationships = {}

for h in honglou:

h.replace("賈妃", "元春")

h.replace("李宮裁", "李紈")

poss = pseg.cut(h)

tmpNames.append([])

for w in poss:

if w.flag != 'nr' or len(w.word) != 2 or w.word not in mylist:

continue

tmpNames[-1].append(w.word)

if names.get(w.word) is None:

names[w.word] = 0

relationships[w.word] = {}

names[w.word] += 1

首先，因為文中"賈妃", “元春”，“李宮裁”, “李紈” 混用嚴(yán)重，所以這里直接做替換處理。

然后使用 jieba 庫提供的 pseg 工具來做分詞處理，會返回每個分詞的詞性。

之后做判斷，只有符合要求且在我們提供的字典列表里的分詞，才會保留。

一個人每出現(xiàn)一次，就會增加一，方便后面畫關(guān)系圖時，人物 node 大小的確定。

對于存在于我們自定義詞典的人名，保存到一個臨時變量當(dāng)中 tmpNames。

處理人物關(guān)系

for name in tmpNames:

for name1 in name:

for name2 in name:

if name1 == name2:

continue

if relationships[name1].get(name2) is None:

relationships[name1][name2] = 1

else:

relationships[name1][name2] += 1

對于出現(xiàn)在同一個段落中的人物，我們認(rèn)為他們是關(guān)系緊密的，每同時出現(xiàn)一次，關(guān)系增加1.

保存到文件

with open("relationship.csv", "w", encoding='utf-8') as f:

f.write("Source,Target,Weight\n")

for name, edges in relationships.items():

for v, w in edges.items():

f.write(name + "," + v + "," + str(w) + "\n")

with open("NameNode.csv", "w", encoding='utf-8') as f:

f.write("ID,Label,Weight\n")

for name, times in names.items():

f.write(name + "," + name + "," + str(times) + "\n")

文件1：人物關(guān)系表，包含首先出現(xiàn)的人物、之后出現(xiàn)的人物和一同出現(xiàn)次數(shù)

文件2：人物比重表，包含該人物總體出現(xiàn)次數(shù)，出現(xiàn)次數(shù)越多，認(rèn)為所占比重越大。

制作關(guān)系圖表

使用 pyecharts 作圖

def deal_graph():

relationship_data = pd.read_csv('relationship.csv')

namenode_data = pd.read_csv('NameNode.csv')

relationship_data_list = relationship_data.values.tolist()

namenode_data_list = namenode_data.values.tolist()

nodes = []

for node in namenode_data_list:

if node[0] == "寶玉":

node[2] = node[2]/3

nodes.append({"name": node[0], "symbolSize": node[2]/30})

links = []

for link in relationship_data_list:

links.append({"source": link[0], "target": link[1], "value": link[2]})

g = (

Graph()

.add("", nodes, links, repulsion=8000)

.set_global_opts(title_opts=opts.TitleOpts(title="紅樓人物關(guān)系"))

)

return g

首先把兩個文件讀取成列表形式

對于“寶玉”，由于其占比過大，如果統(tǒng)一進行縮放，會導(dǎo)致其他人物的 node 過小，展示不美觀，所以這里先做了一次縮放

最后得出的關(guān)系圖

也是看了一個多月的紅樓夢，今日一時想著用Python理一理之間的關(guān)系，伙伴們也可以試著理一理！有不清楚的地方，歡迎留言，不足之處，也懇請伙伴們指出！

更多的Python學(xué)習(xí)教程也會繼續(xù)為大家更新！返回搜狐，查看更多

責(zé)任編輯：

總結(jié)

以上是生活随笔為你收集整理的python 红楼梦人物关系_用Python来理一理红楼梦里的这些关系的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：北斗卫星定位GPS解析全过程
下一篇： websocket python爬虫_p

python

python 红楼梦 人物关系_用Python来理一理红楼梦里的这些关系

總結(jié)

python 红楼梦人物关系_用Python来理一理红楼梦里的这些关系