日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬取唐诗三百首

發布時間:2024/3/24 python 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬取唐诗三百首 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

python討論qq群:996113038


導語:

最近一直在寫爬蟲,寫過一些爬取“妹子圖”,“小視頻”之類的爬蟲,但是我想了想。咱們公眾號雖然是個技術類公眾號。但是總得有點文藝氣息。所以這一次,我就用爬蟲來爬取一下“唐詩三百首”。

首先說一下這個網站:

http://www.zhongguoshici.com/shici/list?cate=%E5%94%90%E8%AF%97%E4%B8%89%E7%99%BE%E9%A6%96

這就是中國詩詞網的唐詩三百首。我們就是在這個網站上下載唐詩。


代碼及相關資源獲取:

關注“python趣味愛好者”公眾號,回復“爬取唐詩”獲取源代碼。


開發工具:

python3.6.4。

需要安裝的第三方庫:

requests

parsel

re


效果演示:

用視頻太麻煩了,直接用圖片吧!直接看一看txt文件。

這就是我們把爬取的唐詩保存下來以后的效果。


基本原理:

原理如下:

我們首先要去這個網站上踩點??匆豢催@個網站的規律。點擊審查元素。看一看這個網址有沒有什么特點。詩詞的內容到底存儲在哪個地方。

沒錯就是這里,我們獲取服務器返回的信息后,就需要在這里提取唐詩。我們用的是xpath語法提取的。

title_url=html.xpath('//div[@class="poem_content"]').extract()

然后得到一個包含著唐詩的列表,但是這里面還有一些別的亂七八糟的字符。于是,我們就用正則表達式把里面的詩詞全部提取出來。代碼如下:

the_poet=re.findall('<div class="poem_content">(.*?)</div>',poet)

這就是正則表達式。

最后,和以前一樣,我們用一個txt文件將所有的唐詩全部存儲下來。

f=open("poet.txt","a")for poet in title_url:the_poet=re.findall('<div class="poem_content">(.*?)</div>',poet)f.write(str(the_poet[0]))f.write("\n")

部分代碼:

下面是我們的部分源代碼:

for i in range(1,4):print("======================正在爬取========================")url=base_url+str(i)response=requests.get(url,headers=headers)html_str=response.texthtml=parsel.Selector(html_str)title_url=html.xpath('//div[@class="poem_content"]').extract()f=open("poet.txt","a")for poet in title_url:the_poet=re.findall('<div class="poem_content">(.*?)</div>',poet)f.write(str(the_poet[0]))f.write("\n")f.close()

? ? ? ? ? ? ? 感謝大家觀看,有錢的老板可以打賞一下小編哦!

掃描下方二維碼,關注公眾號

參考資料:

圖片來源;https://www.pexels.com/zh-tw/photo/46274/

總結

以上是生活随笔為你收集整理的python爬取唐诗三百首的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。