日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python与seo应用_【张亚楠】Python在我SEO工作中的应用(1)

發布時間:2024/9/15 python 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python与seo应用_【张亚楠】Python在我SEO工作中的应用(1) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文信息本文由方法SEO顧問發表于2015-11-1814:36:03,共 3373 字,轉載請注明:【張亞楠】Python在我SEO工作中的應用(1)_【方法SEO顧問】,如果我網站的文章對你有所幫助的話,來百度口碑給個好評唄!

1. 本系列前言

一直想寫

本系列暫時計劃分為幾個主題,將在近幾周完成:數據采集

關鍵詞拓展

數據系統

工具篇

適用人群:具有Python基礎的SEOer(沒有Python基礎的直接往下拉,看推薦的Python教程)。

2. SEO與數據采集

SEO工作離不開數據采集。獲取某個頻道所有URL,查詢一批網頁的收錄/排名情況,采集競爭對手的特定數據,都需要用到數據采集。

特別是對個人站長來說,只有通過數據采集才能獲得大量數據,并生成網頁。

3. 原始爬蟲

最原始的爬蟲爬蟲可以只是發送一個HTTP請求,并獲取返回的響應數據,使用Requests三行就可以寫出一個簡單的爬蟲,代碼如下:import requests r = requests.get('http://www.zhidaow.com') print r.content

注:關于Requests的入門教程可以看我這篇文章;

除了Requests,還可以使用python標準庫urllib,urllib2。

4. 高級爬蟲

給原始爬蟲升級幾個技能就可以投入使用了,我經常升級以下幾個功能。

4.1 獲取特定字段: BeautifulSoup+Requests

BeautifulSoup可以將HTML解析為DOM樹,然后獲取特定字段。關于BeautifulSoup的詳細內容可以看這篇文章,這里只舉一個簡單的例子。

以下是途牛某游玩頁面的部分代碼

玉淵潭櫻花節

地????? 址:

游玩時間:預計4小時

可以通過..這個特征來獲取4小時這個字段:import requests from bs4 import BeautifulSoup as bs url = 'http://www.tuniu.com/play/9232/' r = requests.get(url) soup = bs(r.content) print soup.find('b', class_='c_f80').string #輸出字段有空格,可以通過strip()函數來過濾多余的空格和換行

4.2 使用代理

為避免屏蔽,抓取時通常需要代理,使用Requests的proxies參數可以實現這個效果。接上面代碼:proxies = { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080", } r = requests.get(url, proxies=proxies)

如果代理需要賬戶和密碼,則需這樣:proxies = { "http": "http://user:pass@10.10.1.10:3128/", }

4.3 模擬百度蜘蛛

抓取時模擬搜索引擎蜘蛛是個好主意,這里就以User-Agent試圖模仿百度蜘蛛去抓取:headers = { 'User-Agent': 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)', } r = requests.get(url, headers=headers)

4.4 多線程抓取

為了提高抓取速度,一般都會采用多線程的方式去抓取,我在這篇文章中采用了第三方庫threadpool的形式實現了多線程。在這里我采用另外一種形式,用標準庫multiprocessing來實現:import requests from bs4 import BeautifulSoup as bs from multiprocessing.dummy import Pool as ThreadPool #URL列表 urls = [ 'http://www.tuniu.com/play/9232/', 'http://www.tuniu.com/play/9231/', 'http://www.tuniu.com/play/9237/', 'http://www.tuniu.com/play/9234/', # etc.. ] #提取字段函數 def get_play_time(url): r = requests.get(url) soup = bs(r.content) print soup.find('b', class_='c_f80').string.strip() #設置線程數 pool = ThreadPool(4) #開啟多線程 results = pool.map(get_play_time, urls) #關閉線程并等待結束 pool.close() pool.join()

注:這個多線程的實現主要參考了這篇文章。

4.5 requests+正則

有時候如果所需字段出現在JS等DOM樹之外,可以直接使用正則的方式獲取,有時候速度反而會更快一點。

4.6 抓取網頁JS內容

很多網站會將重點內容放在JS中,增加了抓取的難度。這種可以通過Selenium+PhantomJS+Xpath的方式抓取。

5. 終極爬蟲

終極爬蟲就屬Scrapy了。Scrapy可以理解為搜索引擎爬蟲的雛形,可以沿著初始URL列表進行抓取,并且可以設置抓取深度,抓取字段,抓取URL,抓取頻率等等。

另外,還可以加入隨機代理,隨機UA,分布式抓取,入庫等高級功能,并且還可以與selenium結合對JS生成的元素進行抓取。很多比價網站都是用Scrapy做商城爬蟲,Scrapy也是爬蟲工程師的必備技能之一。我對官方教程里的基礎示例做了修改,示范下基礎爬蟲的代碼:import scrapy class TuniuSpider(scrapy.Spider): name = 'tuniu' # 設置爬蟲名稱,這里沒卵用 start_urls = ['http://www.tuniu.com/guide/d-beijing-200/jingdian/'] # 設置初始抓取鏈接 def parse(self, response): for href in response.css('.mgl_pic a::attr(href)'): # 用CSS提取鏈接,也可以用xpath,beautifulsoup提取 yield scrapy.Request(href.extract(), callback=self.parse_poi) # 提出的鏈接用parse_poi函數處理 def parse_poi(self, response): yield { 'name': response.css('h1 a::text').extract()[0], # 用CSS規則從網頁中提取字段 'english': response.css('.english::text').extract()[0], }

之后就可以使用scrapy runspider tuniu_spider.py -o tuniu_poi.json進行抓取了。

推薦教程:

注:Scrapy依賴很多其他庫,如lxml,Twist,所以安裝起來會比較麻煩,之后可能會單獨寫一篇文章講Scrapy。

6. Python教程推薦入門教程:笨方法學Python(練習中學習,很快有成就感)

基礎學習:《Python核心編程》,或者其他系統講解Python原理及標準庫的書

進階學習:《Python Cookbook》

熟讀資料:Python文檔

7. 備注Python只是抓取工具,火車頭也是一款不錯的抓取工具,我跟隔壁小伙伴培訓就是講的火車頭采集,界面簡單,容易上手;

題圖為SEO的一生,版權在圖片上。

總結

以上是生活随笔為你收集整理的python与seo应用_【张亚楠】Python在我SEO工作中的应用(1)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: exo妈妈mv在线播放高清免费 | 欧美群妇大交乱 | 国产一区二区三区四区五区美女 | 亚洲激情欧美激情 | 成人免费黄 | 69成人网| 亚洲四区在线 | 成av人片一区二区三区久久 | 邻居少妇张开腿让我爽了在线观看 | 激情全身裸吻胸 | 国产福利免费观看 | 欧美涩色 | 男女插插视频 | 在线观看福利网站 | 日本在线视频播放 | 爱情岛黄色| 亚洲精品资源在线 | 国产伦精品一区二区三区四区免费 | 日韩一级片免费 | 国产午夜精品一区二区三区四区 | 9色视频| 成人av网站免费 | 少妇扒开粉嫩小泬视频 | 国产亚洲综合av | 强开乳罩摸双乳吃奶羞羞www | 欧美日韩在线免费看 | 久久精品波多野结衣 | 欧美一二三区视频 | 白峰美羽在线播放 | 山村大伦淫第1部分阅读小说 | 波多野吉衣一区二区三区 | 人人97| 岳乳丰满一区二区三区 | 人人爽人人香蕉 | 欧美成本人视频 | 日韩欧美一二三四区 | 秋霞网一区| 国产一区二区三区视频免费在线观看 | 亚洲一区二区三区影视 | 亚洲精品成人在线视频 | 徐锦江一级淫片免费看 | 少妇无码av无码专区在线观看 | 国产初高中真实精品视频 | 17c在线观看视频 | 免费在线视频一区二区 | 婷婷啪啪 | 国产永久精品大片wwwapp | 在线免费观看黄 | 在线播放精品视频 | 电影《走路上学》免费 | 国产美女激情 | 久久夜色精品国产欧美乱极品 | 亚洲AV综合色区无码国产播放 | 高清国产一区 | 少妇又色又紧又大爽又刺激 | 午夜精品一区二区三区免费视频 | 日本一级吃奶淫片免费 | 丁香在线视频 | 国产精品偷伦视频免费观看了 | 熟妇人妻中文字幕 | 亚洲国产不卡 | av不卡在线观看 | 中文字幕在线一区 | 亚洲一区二区三区在线观看视频 | 久草热在线视频 | 91小视频| 日韩精品视频免费看 | www.av视频在线观看 | 亚洲区一区二区三区 | www.99re.| 女同一区二区三区 | 中文人妻熟女乱又乱精品 | 欧美午夜性生活 | 国产亚洲欧美精品久久久久久 | 懂色av成人一区二区三区 | 性xxxx欧美老肥妇牲乱 | 色噜噜狠狠一区二区 | 久久伊人99 | 久久久久久999 | 四虎激情 | 久久.com | 欧美性猛交xxxxx水多 | 美国成人av| 性感av在线 | 色丁香婷婷 | 性高跟丝袜xxxxhd | 狠狠干2017 | 欧美z○zo重口另类黄 | 天天操夜夜摸 | 丁香六月综合 | 少妇激情四射 | 日本三级中国三级99人妇网站 | 久久视频精品在线 | 夜间福利视频 | 久久女女 | 欧美日韩经典 | 日韩精品一卡二卡 | 激情av综合 | 熟女一区二区三区视频 |