日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬取小说1--高并发

發(fā)布時間:2025/4/16 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬取小说1--高并发 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

爬取《放開那個女巫》小說

還是采用高并發(fā)的協(xié)程來進(jìn)行開啟下載。

其實,到現(xiàn)在為止,會了并發(fā)技術(shù)之后,諸多爬蟲比較的,已經(jīng)不再是用什么庫,之類的問題了。
而是,開始研究爬蟲的策略問題了。

比如,這里,我的策略就是,要保證每一章必須要爬取到,否則就要接著等下去。(每次爬取200章,然后必須要等所有的都已經(jīng)爬取完成之后才開始合并,之后再接著爬取接下來的200章。這個策略雖然保證的健壯性,但是在速度上卻是不敢恭維。下一步,我們將對這個策略進(jìn)行改進(jìn)!)

import requests import os import gevent from gevent import monkey import random import re from lxml import etreemonkey.patch_all(select=False) from urllib import parse import timeIPs = [{'HTTPS': 'HTTPS://182.114.221.180:61202'},{'HTTPS': 'HTTPS://60.162.73.45:61202'},{'HTTPS': 'HTTPS://113.13.36.227:61202'},{'HTTPS': 'HTTPS://1.197.88.101:61202'}] HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.9','Cookie': '__cfduid=d820fcba1e8cf74caa407d320e0af6b5d1518500755; UM_distinctid=1618db2bfbb140-060057ff473277-4323461-e1000-1618db2bfbc1e4; CNZZDATA1272873873=2070014299-1518497311-https%253A%252F%252Fwww.baidu.com%252F%7C1520689081; yjs_id=5a4200a91c8aa5629ae0651227ea7fa2; ctrl_time=1; jieqiVisitTime=jieqiArticlesearchTime%3D1520693103' }def setDir():if 'Noval' not in os.listdir('./'):os.mkdir('./Noval')def getNoval(url, id):while True:try:headers = HEADERSIP = random.choice(IPs)res = requests.get(url, headers=headers, proxies=IP)res.encoding = 'GB18030'html = res.text.replace('&nbsp;', ' ') # 替換掉這個字符 換成空格~ 意思是一樣的page = etree.HTML(html)content = page.xpath('//div[@id="content"]')ps = page.xpath('//div[@class="bookname"]/h1')if len(ps) != 0:s = ps[0].text + '\n's = s + content[0].xpath("string(.)")with open('./Noval/%d.txt' % id, 'w', encoding='gb18030', errors='ignore') as f:f.write(s)except Exception:continueelse:breakdef getContentFile(url):headers = HEADERSIP = random.choice(IPs)res = requests.get(url, headers=headers, proxies=IP)res.encoding = 'GB18030'page = etree.HTML(res.text)bookname = page.xpath('//div[@id="info"]/h1')[0].xpath('string(.)')dl = page.xpath('//div[@id="list"]/dl/dd/a')splitHTTP = parse.urlsplit(url)url = splitHTTP.scheme + '://' + splitHTTP.netlocreturn list(map(lambda x: url + x.get('href'), dl)), booknamedef BuildGevent(baseurl):content, bookname = getContentFile(baseurl) # version2steps = 200beginIndex, length = steps, len(content)count = 0name = "%s.txt" % booknamewhile (count - 1) * steps < length:WaitigList = [gevent.spawn(getNoval, content[i + count * steps], i + count * steps) for i in range(steps) ifi + count * steps < length]gevent.joinall(WaitigList)NovalFile = list(filter(lambda x: x[:x.index('.')].isdigit(), os.listdir('./Noval')))NovalFile.sort(key=lambda x: int(re.match('\d+', x).group()))String = ''for dirFile in NovalFile:with open('./Noval/' + dirFile, 'r', encoding='gb18030', errors='ignore') as f:String = String + '\n' + f.read()os.remove('./Noval/%s' % dirFile)if count == 0:with open('./Noval/' + name, 'w', encoding='gb18030', errors='ignore') as ff:ff.write(String)else:with open('./Noval/' + name, 'a', encoding='gb18030', errors='ignore') as ff:ff.write(String)count += 1if __name__ == '__main__':starttime = time.time()setDir()url = 'http://www.biquge.com.tw/16_16588/'BuildGevent(url)endtime = time.time()print("Total use time: %.6f" % (endtime - starttime))

總結(jié)

以上是生活随笔為你收集整理的爬取小说1--高并发的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美一a一片一级一片 | 一级黄色美女视频 | 久久国产三级 | 日韩激情片 | 99热最新网址 | 日本特黄成人 | 欧美激情婷婷 | 国产精品18p| 雨宫琴音一区二区三区 | 亚洲视频导航 | 狼人精品一区二区三区在线 | 先锋资源网av | 一本久久综合亚洲鲁鲁五月天 | 老女人毛片 | 国模吧一区二区三区 | 中文字幕专区 | 日韩一区二区欧美 | 美女精品一区 | 欧美激情影音先锋 | 欧美xxxx黑人 | 成人动态视频 | 伊人网综合视频 | 国产盗摄一区二区三区在线 | 欧美综合成人 | 欧美精品一区二区视频 | 丁香八月婷婷 | 浪潮av色 | 欧美精品久久久久久久久 | 激情一区二区 | 午夜精品福利一区二区蜜股av | 亚洲av中文无码乱人伦在线视色 | 黄色大网站 | 日本少妇激情视频 | 亚洲深夜av | 少妇太爽了太深了太硬了 | 黄色a∨ | 哪里可以免费看av | 国产二区在线播放 | 夜夜摸夜夜爽 | 春色影视| 香蕉视频在线观看免费 | av在线天天| 国产精品h | 成人做爰免费视频免费看 | 丁香婷婷社区 | 欧美激情国产一区 | 麻豆系列 | 欧美极品少妇xxxxⅹ裸体艺术 | 日本在线www | 毛片日韩 | 色com| 色人阁视频| 极品国产白皙 | 亚洲午夜久久久 | 日韩一区二区视频在线播放 | 婷婷中文在线 | 美梦视频大全在线观看高清 | 久久久精品影视 | 成人污网站 | 久久久久久无码午夜精品直播 | 中文字幕日韩在线视频 | 在线看片网站 | 日韩一级久久 | ass日本寡妇pics | 粉嫩小箩莉奶水四溅在线观看 | 97视频成人 | 国产精品日韩欧美大师 | 青青青国内视频在线观看软件 | av免费看在线 | 18成人在线观看 | 免费大片黄在线观看 | 成人黄色大片在线观看 | 深爱激情久久 | 91免费视频网站 | 精品人妻一区二区三区在线视频 | 国产精品一品二品 | 久久精品一区二区 | 日韩精品2区 | 亚洲精品自拍 | 在线观看亚洲免费视频 | 五月天色综合 | 影音先锋天堂网 | 国产原创在线观看 | 这里只有精品国产 | 久久一本精品 | 国产丝袜美腿一区二区三区 | 猛男大粗猛爽h男人味 | 亚洲一区二区三区在线播放 | 韩国主播青草55部完整 | 蜜臀麻豆 | 夫妻自拍偷拍 | av55 | 免费高清av在线看 | 亚洲第一香蕉网 | 日本少妇videos高潮 | 污污网站在线看 | 中文字幕不卡视频 | 精品美女久久 | 日韩成人精品 | 撸撸在线视频 |