日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬取微博好友所发微博制作词云

發布時間:2025/3/21 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬取微博好友所发微博制作词云 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

打開一個關注者的微博頁面,打開開發者工具,選擇圖中兩個地方

刷新頁面,向下滾動,中途會出現正在加載,直到最后會出現下一頁,
這時看開發者工具,這時真正請求的URL才出現

然后找到Cookies,復制修改成字典形式復制到如下代碼中

import requests import json from bs4 import BeautifulSoupurl = '此處填入URL' cookiess = {'Cookie':'此處填入Cookies'} r = requests.get(url,cookies = cookiess) r.encoding = r.apparent_encoding Data = json.loads(r.text) #現在Data就是我們在開發者工具Preview里面的 # Data['data']全部是標簽 htmlstr = Data['data'] # if '第一周' in htmlstr: # print('yes') # else: # print('no') bsObj = BeautifulSoup(htmlstr,'html.parser') title = bsObj.find_all('div',{'class':'WB_text W_f14'}) #測試一下是什么類型,ResultSet需要迭代 # print(type(title))for i in title:print(i.string)print(i.get_text(),end='')

爬取出來的內容不知怎么回事出現了許多空格,先手動保存一下吧,以后有了好的方法,再來更新下文章.
假設我們將爬取的內容保存到了weibo.txt,我們新建一個文件用來制作詞云

import matplotlib.pyplot as plt from wordcloud import WordCloud import numpy as np import PIL.Image as Image import jieba#要制作的源文件的路徑 text_from_file_with_apath = open('C:\\Users\\asus\\Desktop\\weibo.txt').read() wordlist = jieba.cut(text_from_file_with_apath,cut_all= True) #" ".join()將剛才的wordlist轉換為字符串,通過type()函數發現wordlist是生成器類型 word_space_split = " ".join(wordlist) #這是詞云的背景圖 coloring = np.array(Image.open("C:/Users/asus/Pictures/公主.png")) #mask用于設置背景圖 my_wordcloud = WordCloud(background_color="white",max_words=2000,mask = coloring,max_font_size=60,random_state=42,scale=2,font_path="C:/Windows/Fonts/MSYH.TTC").generate(word_space_split)plt.imshow(my_wordcloud) plt.axis("off") plt.show()

總結

以上是生活随笔為你收集整理的爬取微博好友所发微博制作词云的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。