當前位置：首頁 > 编程语言 > python >内容正文

python

blob字段乱码怎么处理_金九银十，你准备好了吗？没点Python面试题干货怎么行？（一）...

發布時間：2025/4/5 python 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 blob字段乱码怎么处理_金九银十，你准备好了吗？没点Python面试题干货怎么行？（一）... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

職場人沒有不知道：金三銀四，金九銀十的說法兒吧，今天干貨奉上，100個Python面試高頻題目。

一. 遇到過得反爬蟲策略以及解決方法?

1.通過headers反爬蟲

2.基于用戶行為的發爬蟲：(同一IP短時間內訪問的頻率)

3.動態網頁反爬蟲(通過ajax請求數據，或者通過JavaScript生成)

4.對部分數據進行加密處理的(數據是亂碼)

解決方法：

對于基本網頁的抓取可以自定義headers,添加headers的數據

使用多個代理ip進行抓取或者設置抓取的頻率降低一些，

動態網頁的可以使用selenium + phantomjs 進行抓取

對部分數據進行加密的，可以使用selenium進行截圖，使用python自帶的pytesseract庫進行識別，但是比較慢最直接的方法是找到加密的方法進行逆向推理。

二. urllib 和 urllib2 的區別？

urllib 和urllib2都是接受URL請求的相關模塊，但是urllib2可以接受一個Request類的實例來設置URL請求的headers，urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字符串。
urllib提供urlencode()方法用來GET查詢字符串的產生，而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

三. 列舉網絡爬蟲所用到的網絡數據包，解析包？

網絡數據包 urllib、urllib2、requests
解析包 re、xpath、beautiful soup、lxml

四. 簡述一下爬蟲的步驟？

確定需求；

確定資源；

通過url獲取網站的返回數據；

定位數據；

存儲數據。

五. 遇到反爬機制怎么處理？

反爬機制:

headers方向

判斷User-Agent、判斷Referer、判斷Cookie。

將瀏覽器的headers信息全部添加進去

注意：Accept-Encoding；gzip,deflate需要注釋掉

六. 常見的HTTP方法有哪些？

GET：請求指定的頁面信息，返回實體主體；
HEAD:類似于get請求，只不過返回的響應中沒有具體的內容，用于捕獲報頭；
POST：向指定資源提交數據進行處理請求(比如表單提交或者上傳文件)，。數據被包含在請求體中。
PUT:從客戶端向服務端傳送數據取代指定的文檔的內容；
DELETE：請求刪除指定的頁面；
CONNNECT：HTTP1.1協議中預留給能夠將連接方式改為管道方式的代理服務器；
OPTIONS:允許客戶端查看服務器的性能；
TRACE：回顯服務器的請求，主要用于測試或者診斷。

七. 說一說redis-scrapy中redis的作用?

它是將scrapy框架中Scheduler替換為redis數據庫，實現隊列管理共享。

優點：

可以充分利用多臺機器的帶寬；

可以充分利用多臺機器的IP地址。

八. 遇到的反爬蟲策略以及解決方法?

通過headers反爬蟲：自定義headers，添加網頁中的headers數據。

基于用戶行為的反爬蟲(封IP)：可以使用多個代理IP爬取或者將爬取的頻率降低。

動態網頁反爬蟲(JS或者Ajax請求數據)：動態網頁可以使用 selenium + phantomjs 抓取。

對部分數據加密處理(數據亂碼):找到加密方法進行逆向推理。

九. 如果讓你來防范網站爬蟲，你應該怎么來提高爬取的難度？

判斷headers的User-Agent；

檢測同一個IP的訪問頻率；

數據通過Ajax獲取；

爬取行為是對頁面的源文件爬取，如果要爬取靜態網頁的html代碼，可以使用jquery去模仿寫html。

十. scrapy分為幾個組成部分？分別有什么作用？

分為5個部分；Spiders(爬蟲類)，Scrapy Engine(引擎),Scheduler(調度器),Downloader(下載器),Item Pipeline(處理管道)。

Spiders:開發者自定義的一個類，用來解析網頁并抓取指定url返回的內容。
Scrapy Engine:控制整個系統的數據處理流程，并進行事務處理的觸發。
Scheduler：接收Engine發出的requests，并將這些requests放入到處理列隊中，以便之后engine需要時再提供。
Download：抓取網頁信息提供給engine，進而轉發至Spiders。
Item Pipeline:負責處理Spiders類提取之后的數據。
比如清理HTML數據、驗證爬取的數據(檢查item包含某些字段)、查重(并丟棄)、將爬取結果保存到數據庫中

接下來的面試題也會繼續為大家更新！伙伴們有補充的，歡迎下方留言哈！

總結

以上是生活随笔為你收集整理的blob字段乱码怎么处理_金九银十，你准备好了吗？没点Python面试题干货怎么行？（一）...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：北城换乘中心发往沂水的班车途经哪里？
下一篇： ide 波浪线_零基础学习Python_