Python3学习笔记2:简易Web爬虫
開發環境
基礎語法那章的內容我是在Docker容器中玩的,但是真正做項目的時候,沒有IDE的強大輔助功能來協助的話是很累人的一件事。因此本文中,我選擇使用Jetbrain的Pycharm這個IDE來開發、調試代碼。IDE的好處多多,比如:
- 強大的智能提示
- 強大的斷點調試
- 性能追蹤
- 方便好用的各種插件
- 各種自定義配置
需求
為了實踐Python,最先想到的就是要完成一個爬蟲程序,大概需求如下:
實施
可配置化我本身是計劃通過DI(Dependency Injection)這個技術來完成,不過查了下資料,由于Python和其他語言不太一樣,Python是可以多父類繼承,并且遵循Duck Typing原則,因此DI在Python中并不實用(Python也是沒有Interface概念的)。但可以通過如下方式實現類似的邏輯:
# 假設a-class-name這個類包含在xxx.py文件中,首先引入這個文件中的內容 from xxx import * # 然后執行以下這行代碼,這將初始化一個a-class-name類的實例 (lambda x: globals()[x])('a-class-name')入口程序文件main.py
main.py主要有幾個功能:
- 通過交互讓用戶輸入:項目名稱、網站首頁、線程數三個初始化變量
- 初始化數據庫訪問對象
- 初始化爬蟲對象
- 初始化線程池
- 執行程序
核心代碼如下:
from db_queue import * ...def execute():...(lambda x: globals()[x])(project_settings.DB_CLASS_NAME)(home_page, project_name + '_pages')Spider(project_name, home_page, DomainHelpers.get_domain_name(home_page), project_settings.HTML_RESOLVER_NAME)worker = Worker(thread_count, project_name)worker.create_threads()worker.crawl()execute()邏輯解釋:
線程創建類worker.py文件
from db_queue import *class Worker:...def __init__(self, thread_count, project_name):Worker.DB = (lambda x: globals()[x])(project_settings.DB_CLASS_NAME)...def create_threads(self):for _ in range(self.thread_count):t = threading.Thread(target=self.__run_thread)t.daemon = Truet.start()def __run_thread(self):while True:url = self.queue.get()Spider.crawl_page(threading.current_thread().name, url)self.queue.task_done()def __create_jobs(self):for link in Worker.DB.get_pending_queue():self.queue.put(link)self.queue.join()self.crawl()def crawl(self):urls = Worker.DB.get_pending_queue()if len(urls) > 0:self.__create_jobs()邏輯解釋:
數據庫操作基礎類
由于需要將數據庫操作做成可替換,因此必須實現數據庫操作的接口,而Python沒有Interface,但是可以使用abc(Abstract Based Class)來實現類似于Interface所需的功能。
代碼如下:
from abc import ABCMeta, abstractmethodclass DbBase(metaclass=ABCMeta):@abstractmethoddef __init__(self, file_name):pass@staticmethod@abstractmethoddef get_pending_queue():pass@staticmethod@abstractmethoddef is_page_in_queue():pass@staticmethod@abstractmethoddef save_pending_queue():pass@staticmethod@abstractmethoddef set_page_crawled():pass邏輯解釋:
數據庫存儲操作db_queue.py文件
from pymongo import * from abc_base.db_base import DbBase ...class MongoDbQueue(DbBase):def __init__(self, home_page, tbl_name='pages'):...MongoDbQueue.db = MongoClient(project_settings.DB_CONNECTION_STRING)[project_settings.DB_REPOSITORY_NAME]...# create unique indexMongoDbQueue.db[MongoDbQueue.tbl_name].create_index('url', unique=True)@staticmethoddef get_pending_queue():...@staticmethoddef is_page_in_queue(url):...@staticmethoddef save_pending_queue(urls):...@staticmethoddef set_page_crawled(url):...邏輯解釋:
爬蟲文件spider.py文件
... class Spider:...def __init__(self, base_url, domain_name, html_resolver):...Spider.crawl_page('First spider', Spider.BASE_URL)@staticmethoddef crawl_page(thread_name, page_url):if Spider.DB.is_page_in_queue(page_url):...urls = Spider.add_links_to_queue(Spider.gather_links(page_url))Spider.DB.save_pending_queue(urls)Spider.DB.set_page_crawled(page_url)@staticmethoddef gather_links(page_url):html_string = ''...# to make self-signed ssl works, pass variable 'context' to function 'urlopen'context = ssl._create_unverified_context()response = urlopen(page_url, context=context)...finder = (lambda x: globals()[x])(Spider.HTML_RESOLVER)(Spider.BASE_URL, page_url)return finder.page_links()@staticmethoddef add_links_to_queue(urls):...for url in urls:if Spider.DOMAIN_NAME != DomainHelpers.get_domain_name(url):continue...邏輯解釋:
html解析html_resolver.py文件
class HtmlResolver(HTMLParser):...def handle_starttag(self, tag, attrs):if tag == 'a':for (attribute, value) in attrs:if attribute == 'href':url = parse.urljoin(self.base_url, value)self.links.add(url)...這個類決定了我們爬取頁面的邏輯,這里我們只抓去鏈接(也就是a標簽)中的href屬性中的內容。
執行過程動圖
附錄
本Demo完整代碼已經放到Github上: https://github.com/fisherdan/crawler。
本文在博客園和我的個人博客www.fujiabin.com上同步發布。轉載請注明來源。
轉載于:https://www.cnblogs.com/wushangjue/p/8026273.html
總結
以上是生活随笔為你收集整理的Python3学习笔记2:简易Web爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: git 分支操作
- 下一篇: websocket python爬虫_p