日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬虫的数据如何解决乱码_写爬虫时如何解决网页乱码问题

發布時間:2023/12/13 python 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫的数据如何解决乱码_写爬虫时如何解决网页乱码问题 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

實戰講解,文章較長,對爬蟲比較熟悉的瀏覽翻看章節 2.3 獲取新聞文本內容。

寫爬蟲時經常對網址發起請求,結果返回的html數據除了標簽能看懂,其他的全部是亂碼。大家如果對爬蟲感興趣,請耐心閱讀本文,我們就以百度風雨榜爬蟲為例學習下亂碼處理問題。

http://top.baidu.com/buzz?b=1

百度風云榜一共有50個關鍵詞,我們先任選其中一個打開看看。

一、實驗目的

我們的目的是chardect庫學會處理網絡響應數據的亂碼問題,結合具體爬蟲實戰講解。

二、代碼實戰

2.1 定位關鍵詞及其鏈接

F12鍵盤打開開發者工具,我們定位關鍵詞及其對應的html標簽。在這里我們使用pyquery庫定位 class屬性為'keyword'的td。

#百度風云榜頁面網址(含有50個熱門新聞的關鍵詞)

fengyunbang_url = 'http://top.baidu.com/buzz?b=1'

resp = requests.get(fengyunbang_url)

#從html文件中解析出 事件字段和 網址字段

doc = PyQuery(resp.text)

for item in doc.items('.keyword'):

keyword = item('a').text().split(' ')[0]

keyword_link=item('a').attr.href

print(keyword,keyword_link)

運行,結果keyword全部為亂碼,沒有一點中文的痕跡。

這就是我們今天要克服的問題-html編碼問題。

遇到這種問題問題,我們可能會先在html標簽中查找charset字符集。一般charset值有utf-8、gbk、gb2312、ascii等。

再次運行,漢字正常顯示。

2.2 定位搜索頁面新聞鏈接

上面我們獲取到了關鍵詞及其鏈接,瀏覽器點擊“46年吃3萬個漢堡”對應的鏈接,跳轉到 百度搜索頁,如下圖。

我們想獲取新聞內容,而要獲取新聞內容,我們就要知道新聞對應的鏈接。首先我們要定位,如下圖。這里我們使用另外一種方式定位鏈接-正則表達式。

def get_keywords_news_links(keyword_link):

"""

訪問關鍵詞百度網址,得到相關新聞的link

:param keyword_link:

:return:

"""

headers = {'User-Agent': '你的user-agent'}

resp = requests.get(keyword_link, headers=headers)

bsObj = BeautifulSoup(resp.text, 'html.parser')

news_items = bsObj.find_all('div', {'class': 'result c-container '})

news_links = []

for item in news_items:

links = re.findall('href="(.*?)"', str(item))

news_links.extend(links)

#防止鏈接重復

news_links = set(news_links)

return news_links

但是后來發現有的鏈接是無法訪問的,比如運行中居然抽取出含有http://cache.baiducontent***這種的網頁,經過測試,只要剔除掉這種鏈接,剩下的都為有效鏈接。

2.3 獲取新聞文本內容

有了上文獲取到的鏈接,我們寫個簡單的代碼獲取文本內容。由于獲取到的網址來源成百上千的網站,如果要精確獲取新聞內容,需要對每一個網站一對一的進行定位。這樣太麻煩,為了快速方便,我們使用正則匹配出所有的中文內容。

def get_news_content(link):

"""

根據新聞網址,獲取新聞數據

:return: 新聞內容

"""

resp = requests.get(link)

#最終只有漢字保留。

news_text = ''.join(re.findall('[\u4e00-\u9fa5]+', resp.text))

return news_text

但是運行過程中,經常返回空。說明正則匹配中文時候匹配不到。很可能的原因是頁面中沒有中文,但是我們檢測了這些頁面都是有中文的,那么很有可能是因為頁面亂碼,導致正則[\u4e00-\u9fa5]+無法匹配到中文。經過檢測,真的是亂碼。解決辦法resp.encoding='編碼'。但是編碼是什么值呢?這里我用新的方法,chardect庫檢測二進制數據中采用的編碼方式。

def get_news_content(link):

"""

根據新聞網址,獲取新聞數據

:return: 新聞內容

"""

resp = requests.get(link)

news_text = ''.join(re.findall('[\u4e00-\u9fa5]+', resp.text))

#網頁亂碼,導致news_text為空

if not news_text:

#根據二進制數據檢測html的編碼。

#resp.content獲取html二進制數據

chaset = chardet.detect(resp.content)['encoding']

#解決編碼問題

resp.encoding = chaset

news_text = ''.join(re.findall('[\u4e00-\u9fa5]+', resp.text))

return news_text

return news_text

2.4 編寫爬蟲主函數

編寫爬蟲主函數,將數據保存到csv中。

#主函數,訪問并保存所有的新聞數據

def FetchAndSave():

#百度風云榜頁面網址(含有50個熱門新聞的關鍵詞)

fengyunbang_url = 'http://top.baidu.com/buzz?b=1'

resp=requests.get(fengyunbang_url)

resp.encoding='gb2312'

#新建excel文件保存數據。

csvf = open('data.csv', 'a+', encoding='gbk', newline='')

writer = csv.writer(csvf)

writer.writerow(('news_content', 'keyword'))

#從heml文件中解析出 事件字段和 網址字段

doc = PyQuery(resp.text)

for itm in doc.items('.keyword'):

keyword = itm('a').text().split(' ')[0]

keyword_link = itm('a').attr.href

news_links = get_keywords_news_links(keyword_link)

for news_link in news_links:

try:

content = get_news_content(news_link)

#防止新聞內容為空的寫入csv中

if content:

writer.writerow((content, keyword))

except:

print(news_link)

#運行爬蟲

FetchAndSave()

運行爬蟲,采集了50個關鍵詞共388篇新聞內容。

數據采集

文本處理分析

數據結構

雜文

打賞還可提問哦!

如果你有什么問題,也可以掃碼提問。大鄧知無不言,言無不盡。

總結

以上是生活随笔為你收集整理的python爬虫的数据如何解决乱码_写爬虫时如何解决网页乱码问题的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美一级免费看 | 午夜电影一区二区 | 黄色a级片视频 | 国产精品第8页 | 久草精品视频 | 好吊妞视频这里只有精品 | 色视频导航 | 精品人妻一区二 | av一道本 | 宅男噜噜噜66一区二区 | 日本va在线观看 | 欧美日韩国内 | 色综合九九 | 五月天在线播放 | 日本欧美一级片 | 亚洲一区二区影视 | 日韩影视一区二区三区 | 伊人天天干 | 亚洲精品免费网站 | 男女操操 | 少妇人妻一级a毛片 | 国产午夜福利100集发布 | 爱情岛成人 | 综合av| 人人超碰人人 | 免费在线观看视频 | www.日本黄 | 中国大陆高清aⅴ毛片 | 欧美精品成人一区二区三区四区 | 老狼影院伦理片 | 91麻豆精品国产91久久久更新时间 | 日日日日干 | 亚洲13p| jizz中国少妇高潮出水 | 国产精品第12页 | 美女黄色av | 午夜天堂在线 | 国产免费一区二区三区网站免费 | 久久精品无码毛片 | a中文字幕 | 国产精品揄拍100视频 | 青青草国产在线播放 | www.黄色av| 成人精品免费在线观看 | 中文字幕 欧美 日韩 | 国模av| 久久久久成人精品无码 | 视频在线观看电影完整版高清免费 | 成年人的黄色片 | 欧美另类视频在线 | 99久久精品日本一区二区免费 | 放荡的美妇在线播放 | 涩涩视频网址 | 关之琳三级全黄做爰在线观看 | av中文在线 | 国产成人精品一区二区三区视频 | 黄色网址中文字幕 | 五月天久久综合 | 国产精品日韩在线 | 成人免费一级视频 | 成人在线亚洲 | 91精品国产色综合久久不卡98 | 欧美视频在线不卡 | 国产黄大片在线观看画质优化 | 国产xxxx在线 | 日本欧美激情 | 国产免费观看久久黄av片 | 91精品视频免费在线观看 | 人人爱av| 美女裸体跪姿扒开屁股无内裤 | 琪琪午夜伦理 | 毛片视频网站在线观看 | 日韩欧美中文在线 | 香蕉视频黄污 | 一级片一区二区三区 | 草av| 欧美一级黄色片网站 | 少妇一级淫片日本 | 亚洲一区二区三区激情 | 午夜怡红院 | 亚洲成av人片在线观看无 | 亚洲1页| 国产免费成人在线视频 | 伊人免费在线观看高清版 | 强行挺进白丝老师里呻吟 | 先锋资源中文字幕 | 毛片手机在线 | 久久久久久久国产 | 欧美成人综合 | 国产原创91 | 青草视频在线 | 91在线超碰| 黄色综合网 | 国产传媒在线视频 | 国产精品69久久久久 | 狠狠干夜夜操 | 欧美亚洲国产一区二区三区 | 一区二区三区激情视频 | 伊人网在线视频 |