日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬取csdn排名积分等信息

發布時間:2025/3/21 python 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬取csdn排名积分等信息 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

初次寫爬蟲,拿很簡單的自己的csdn主頁來練習一下:

打開自己的主頁查看源碼,發現此部分信息在標簽<divclass="result"></div>

很簡單的程序出了點錯,發現是編碼問題,記錄一下

(1)出現urllib2.HTTPError: HTTP Error 403: Forbidden錯誤

由于網站禁止爬蟲,可以在請求加上頭信息,偽裝成瀏覽器訪問


(2)統一編碼,匹配的字符和要查找的字符編碼要統一,尤其是中文要轉換為unicode

Python中的字符串有兩種數據類型:str類型和unicode類型。str類型采用的ASCII編碼,也就是說它無法表示中文。unicode類型采用unicode編碼,能夠表示任意的字符,包括中文、日文、韓文等。在python中字符串默認采用的ASCII編碼,如果要顯示聲明為unicode類型的話,需要在字符串前面加上'u'或者'U'。

如果用中文去查找,字符串前面要加ur

(3)注意不管是search還是findall來進行匹配時,后面添加re.S,可以匹配換行符,要不然查詢不到結果

?其他的備選

  • ??? re.I(全拼:IGNORECASE): 忽略大小寫
  • ??? re.M(全拼:MULTILINE): 多行模式,改變'^'和'$'的行為
  • ??? re.S(全拼:DOTALL): 點任意匹配模式,改變'.'的行為
  • ??? re.L(全拼:LOCALE): 使預定字符類 \w \W \b \B \s \S 取決于當前區域設定
  • ??? re.U(全拼:UNICODE): 使預定字符類 \w \W \b \B \s \S \d \D 取決于unicode定義的字符屬性
  • ??? re.X(全拼:VERBOSE): 詳細模式。這個模式下正則表達式可以是多行,忽略空白字符,并可以加入注釋。

此外注意查看python手冊,如果預編譯用再進行查詢,flag 在compile參數中

pattern = re.compile(xxx,re.S)

pattern.search() //此處的search沒有flag

?

# <!-*- coding:utf-8 -*-> import urllib2 import urllib import re from time import ctime'''需要從<div class="result"></div>中取出下列信息積分:<span>560</span> 排名:第<span>24195</span>名 訪問:<span>5995</span>次 '''headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} myCsdnUrl = u'http://my.csdn.net/kuaile123' try :myRequest = urllib2.Request(url=myCsdnUrl,headers=headers)myResponse = urllib2.urlopen(myRequest)myPage = myResponse.read()unicodePage = myPage.decode("utf-8")myInfo = re.search(r'<div class="result">.*?</div>',unicodePage,re.S)if myInfo is not None:strInfo = myInfo.group()rankInfo = re.search(ur'積分:<span>(\d+?)</span> 排名:第<span>(\d+?)</span>名 訪問:<span>(\d+?)</span>次',strInfo)if rankInfo is not None:print u'時間: ', ctime()print u'積分: ' , rankInfo.group(1)print u'排名: ' , rankInfo.group(2)print u'訪問量: ' , rankInfo.group(3)except Exception,e:print e

運行結果如下:


總結

以上是生活随笔為你收集整理的python爬取csdn排名积分等信息的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美精品一区二区三区在线 | 国产一区二区三区91 | 欧美午夜精品久久久久久蜜 | 色情毛片| 亚洲天堂男人的天堂 | 亚洲激情影院 | 波多野结衣在线免费视频 | 日韩精品在线播放 | 男人天堂99| 免费看污黄网站在线观看 | 久久久久夜夜夜精品国产 | 日本一区二区高清免费 | 精品网站999| 国产欧美在线观看 | 丰满人妻一区二区三区免费 | 污污内射在线观看一区二区少妇 | 欧美精品在线视频 | 91免费版在线看 | 熟女少妇一区二区三区 | 一本色道久久综合亚洲精品 | 91爱啪啪| 国产视频一区二区在线观看 | 亚洲精品久久久久avwww潮水 | 最新中文字幕第一页 | 黑鬼巨鞭白妞冒白浆 | 国产永久毛片 | 亚洲视频国产视频 | 嫩模一区 | 无码熟妇人妻av | 主播av在线| 91在线精品一区二区 | 哺乳喂奶一二三区乳 | 日日日干干干 | 中文字幕在线观看网 | 秋霞午夜鲁丝一区二区 | 日本一二三区在线 | 操碰91| 亚洲精品乱码久久久久久国产主播 | 天天干天天碰 | 成人网址在线观看 | 九色丨蝌蚪丨成人 | 中文字幕一区av | 自拍偷拍一区二区三区 | 国产欧美精品在线观看 | 欧美一区二区久久 | 伊人一级 | 中文字幕亚洲不卡 | 日韩成人自拍 | 美女xx网站 | 激情视频在线观看免费 | 中国男女全黄大片 | 俄罗斯av在线 | 精品一区二区三区免费毛片爱 | 国产无遮挡裸体免费视频 | 91亚洲精品久久久蜜桃借种 | 亚洲欧美一区二区视频 | 日韩欧美h | 成人精品视频99在线观看免费 | av网站久久 | 韩国av电影网站 | www.rihan | 日本一区二区不卡在线 | 国产视频久久久久久久 | 99热国产在线观看 | 麻豆国产在线播放 | 精品自拍一区 | 91丝袜呻吟高潮美腿白嫩 | 丰满岳乱妇国产精品一区 | 在线播放免费av | 欧美黄页| 国模精品视频一区二区 | 成人免费黄色大片 | 天天躁日日躁狠狠躁 | 性猛交富婆╳xxx乱大交天津 | 国产高清99| 久久午夜电影网 | 神秘马戏团在线观看免费高清中文 | 人妻少妇久久中文字幕 | 男男做性免费视频网 | 国内精品久久久久久久影视简单 | 国产午夜精品视频 | 黄色工厂在线观看 | 大又大粗又爽又黄少妇毛片 | 秋霞成人av | 综合久久一区二区 | 日本免费在线观看视频 | 日本一区二区视频在线播放 | aaa一级片 | 学生调教贱奴丨vk | 欧美在线视频二区 | 一区二区三区视频在线播放 | bt天堂av| 久草手机在线观看 | 动漫美女被吸奶 | 男女野外做受全过程 | 国产在线1| 52av在线| 黑人巨大精品 | 黄网地址|