彻底解决网络爬虫遇到的中文乱码问题
生活随笔
收集整理的這篇文章主要介紹了
彻底解决网络爬虫遇到的中文乱码问题
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
你是否遇到過下面的情況:
作為爬蟲新手好不容易寫了一個爬蟲結果爬出來的數據中文數據亂碼導致不能使用
如圖:
其實很好解決:
如果你是使用的request模塊得到的相應對象則可以如下設置:
主要由兩種情況,這是根據網頁所使用的的編碼來看的,如果不想找,就直接兩種同時使用,總有一種是適合的。如果想找就看網頁http請求中content對應類型的設置:
但是這個也不能全信,因為存在給的和實際使用的不一致的情況,所以建議兩種方法都試一下。
1.網頁端為utf-8形式
2.網頁端為gbk形式
response=requests.get(url=url,headers=headers) response.encoding='gbk' response=response.text結果如下:
如果你是使用的urllib 則可以嘗試使用
先得對象后處理
RES=urllib2.urlopen(request).read()
RES = RES.decode(‘gb2312’).encode(‘utf-8’)
目前該方法不常用,所以不做展開,請自行嘗試
造成我們爬取到的網頁中文亂碼的一部分原因:
1、不同編碼內容混雜:HTML亂碼是由于html編碼問題照成(常見 gb2312與utf-8兩種編碼內容同時存在照成)
2、未設置HTML編碼:未設置,這里設置的是utf-8
3、使用記事本編輯html:使用記事本直接編輯html造成html編碼亂碼
總結
以上是生活随笔為你收集整理的彻底解决网络爬虫遇到的中文乱码问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 思科拓扑结构探测及VLAN设计
- 下一篇: 程序图形化界面刷新以及如何从tkinte