日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

requests/lxml的简单用例

發布時間:2024/3/12 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 requests/lxml的简单用例 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

bytearray([source [, encoding [, errors]]])

bytearray([source [, encoding [, errors]]])返回一個byte數組。Bytearray類型是一個可變的序列,并且序列中的元素的取值范圍為 [0 ,255]。

參數source:

如果source為整數,則返回一個長度為source的初始化數組;

如果source為字符串,則按照指定的encoding將字符串轉換為字節序列;

如果source為可迭代類型,則元素必須為[0 ,255]中的整數;

如果source為與buffer接口一致的對象,則此對象也可以被用于初始化bytearray。

?

lxml庫的使用

比較詳細 http://www.crifan.com/python_try_lxml_parse_html/

簡單來說selector = etree.HTML(html) 用來返回一個<Element html at 0x28b0620>,

其由<Element head at 0x28c13f0>,<Element body at 0x28c1fa8>...等組成

使用content = selector.xpath('//span[@class="ctt"]')來解析xml,

xpath的使用

xpath基本上是用一種類似目錄樹的方法來描述在XML文檔中的路徑。比如用“/”來作為上下層級間的分隔。第一個“/”表示文檔的根節點(注意,不是指文檔最外層的tag節點,而

是指文檔本身)。比如對于一個HTML文件來說,最外層的節點應該是"/html"。 定位某一個HTML標簽,可以使用類似文件路徑里的絕對路徑,如page.xpath(u"/html/body

/p"),它會找到body這個節點下所有的p標簽;也可以使用類似文件路徑里的相對路徑,可以這樣使用:page.xpath(u"//p"),它會找到整個html代碼里的所有p標簽。

除此之外還可以使用[@class] 等條件來進一步篩選內容,縮小范圍。

提取內容時,可能會遇到嵌套標簽的情況,可以使用xpath('string(.)')直接提取出所有字符串

?

代碼樣例

# -*-coding:utf8-*- __author__ = 'Liu_100' import requests from lxml import etree cookie = {'Cookie':'_T_WM=8a2006293dfe5dc8c4d35223168328e8; SUB=_2A256TE82DeRxGedH6VcZ-SrPyTiIHXVZz1F-rDV6PUNbuNBeLRP3kW1LHesKXdUoJYW0wFPmv0w89PMwWXf5_w..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WF1xfN7lmTJsSVpAxdGfnZF5JpX5K2hUgL.Fo24eo-R1KB0eoB2dJLoIEXLxK-LB--LB.BLxK-LB--LB.BLxK-L12qL12zLxKBLB.2LB.2LxK-LBonL1K5t; SUHB=0rr6esvipUlF8C; ALF=1466944614; SSOLoginState=1464352614'} url = 'http://weibo.cn/u/1890493665' # html = requests.get(url).content # print html html = requests.get(url, cookies=cookie).content # html = requests.get(url, cookies=cookie).text # html = bytes(bytearray(html, encoding='utf-8')) selector = etree.HTML(html) content = selector.xpath('//span[@class="ctt"]') for each in content:text = each.xpath('string(.)')print text

?

轉載于:https://www.cnblogs.com/autoria/p/5536603.html

總結

以上是生活随笔為你收集整理的requests/lxml的简单用例的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。