日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

彻底解决网络爬虫遇到的中文乱码问题

發布時間:2024/2/28 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 彻底解决网络爬虫遇到的中文乱码问题 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

你是否遇到過下面的情況:
作為爬蟲新手好不容易寫了一個爬蟲結果爬出來的數據中文數據亂碼導致不能使用
如圖:

其實很好解決:
如果你是使用的request模塊得到的相應對象則可以如下設置:
主要由兩種情況,這是根據網頁所使用的的編碼來看的,如果不想找,就直接兩種同時使用,總有一種是適合的。如果想找就看網頁http請求中content對應類型的設置:

但是這個也不能全信,因為存在給的和實際使用的不一致的情況,所以建議兩種方法都試一下。
1.網頁端為utf-8形式

response=requests.get(url=url,headers=headers) response.encoding='utf-8' response=response.text

2.網頁端為gbk形式

response=requests.get(url=url,headers=headers) response.encoding='gbk' response=response.text

結果如下:

如果你是使用的urllib 則可以嘗試使用
先得對象后處理
RES=urllib2.urlopen(request).read()
RES = RES.decode(‘gb2312’).encode(‘utf-8’)
目前該方法不常用,所以不做展開,請自行嘗試

造成我們爬取到的網頁中文亂碼的一部分原因:
1、不同編碼內容混雜:HTML亂碼是由于html編碼問題照成(常見 gb2312與utf-8兩種編碼內容同時存在照成)
2、未設置HTML編碼:未設置,這里設置的是utf-8
3、使用記事本編輯html:使用記事本直接編輯html造成html編碼亂碼

總結

以上是生活随笔為你收集整理的彻底解决网络爬虫遇到的中文乱码问题的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。