日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2/2 数据获取:网络数据的获取

發布時間:2024/1/17 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2/2 数据获取:网络数据的获取 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

o. 抓取

1. urllib內建模塊
— urllib.request

2. Request第三方庫

**Request庫:**

Requests 庫是最簡單、方便和人性化的Python HTTP第三方庫。Requests 官網:http://www.python-requests.org/ 。

注:有的網站有自己的爬蟲協議,如豆瓣網(https://book.douban.com/robots.txt), 有“robots.txt”就說明存在。

基本方法說明
request.get()請求獲取指定URL位置的資源,對應HTTP協議的GET方法。

發送請求獲得一個Response對象,這個對象包含Resquest請求信息和服務器的Response響應信息,而Requests會自動解碼來自服務器的信息。假設響應內容是二進制形式的,可以通過re.content進行解碼,re.text自動推測文本編碼并進行解碼,re.encoding修改文本編碼。

import requestsr = requests.get('https://book.douban.com/subject/1084336/comments/')r.status_code Out[4]: 200r.text import requests re = requests.get('http://money.cnn.com/data/dow30') print(re.text)

3. Scrapy框架

o. 解析

1. BeautifulSoup庫
BeautifulSoup是一個可以從HTML或XML文件中提取數據的Python庫。官方網站:https://www.crummy.com/software/BeautifulSoup/bs4/doc 。

BeautifulSoup對象說明
TagHTML或XML文檔中的標簽;Tag屬性的操作和字典一樣;Tag對象最重要的屬性包括name(獲得名字)和attribute()
BeautifulSoup大部分內容都是Tag
NavigableStringTag當中的字符串。NavigableString對象可以用string屬性來表示,取Tag中包含的非屬性的字符串。
CommentNavigableString的一個子類
from bs4 import BeautifulSoup markup = '<p class="title"><b>The Little Prince</b></p>' # 定義一個字符串 soup = BeautifulSoup(markup, 'lxml') # 生成一個BeautifulSoup對象的soupsoup.b # 任何的標簽內容都可以用“BeautifulSoup對象.tag”形式訪問得到 Out[22]: <b>The Little Prince</b>type(soup.b) #查看類型 Out[23]: bs4.element.Tag tag = soup.ptag.name # 通過name屬性獲得名字 Out[25]: 'p'tag.attrs Out[26]: {'class': ['title']}tag['class'] # 通過字典形式獲得屬性 Out[27]: ['title'] tag.string # NavigableString對象可以用string屬性來表示 Out[28]: 'The Little Prince'type(tag.string) Out[29]: bs4.element.NavigableString soup.find_all('b') # 尋找所有b標簽的內容 Out[30]: [<b>The Little Prince</b>]soup.find()# 只需要找第一個標簽內容 Out[31]: <html><body><p class="title"><b>The Little Prince</b></p></body></html>

2. re模塊(正則表達式模塊)
re正則表達式模塊進行各類正則表達式處理。參考網站:https://docs.python.org/3.5/library/re.html 。

總結

以上是生活随笔為你收集整理的2/2 数据获取:网络数据的获取的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。