日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > php >内容正文

php

PHP系统能不能加爬虫,php能做爬虫吗

發布時間:2024/9/27 php 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 PHP系统能不能加爬虫,php能做爬虫吗 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

phpspider一款優秀的PHP開發蜘蛛爬蟲

編寫PHP網絡爬蟲,需要具備以下技能:

爬蟲采用PHP編寫(推薦學習:PHP視頻教程)

從網頁中抽取數據需要用XPath ( XPath選擇器教程 )

當然我們還可以使用CSS選擇器 ( CSS選擇器教程 )

很多情況下都會用到正則表達式 ( 正則表達式教程 )

Chrome的開發者工具是神器, 很多AJAX請求需要用它來分析

注意:本框架只能在命令行下運行,命令行、命令行、命令行,重要的事情說三遍 ^_^

本篇寫的demo是爬取軍事教育網站<?php

require_once __DIR__ . '/../autoloader.php';

use phpspider\core\phpspider;

/* Do NOT delete this comment */

/* 不要刪除這段注釋 */

$configs = array(

'name' => '軍事', // 給你的爬蟲起一個名字

'log_show' => false, // 是否顯示日志

'tasknum' => 1, // 開啟多少個進程爬取

// 數據庫配置

'db_config' => array(

'host' => '127.0.0.1',

'port' => 3306,

'user' => 'root',

'pass' => 'root',

'name' => 'collection',

),

// 數據庫表,表需要已存在,collection庫,test表

'export' => array(

'type' => 'db',

'table' => 'test',

),

// 爬取的域名列表

'domains' => array(

'war.163.com'

),

// 抓取的起點

'scan_urls' => array(

'http://war.163.com'

),

// 列表頁實例,你要爬取的列表,也就是分頁

'list_url_regexes' => array(

"http://war.163.com"

),

// 內容頁實例,文章的內容頁

// \d+ 指的是變量,就是可變的參數

'content_url_regexes' => array(

"http://war.163.com/photoview/4T8E0001/\d+",

),

// 失敗重新爬取次數

'max_try' => 5,

// 爬取規則配置

'fields' => array(

array(

'name' => "title", // 數據庫字段名

'selector' => "//div[@class='headline']/h1", // 規則,表示:headline類里的h1標簽

'required' => true, // 如果為空,整條數據丟棄

),

array(

'name' => "content",

'selector' => "//div[@class='overview']/p",

'required' => true,

),

array(

'name' => "img",

'selector' => "//img[@class='firstPreload']",

'required' => true,

),

),

);

$spider = new phpspider($configs);

$spider->start();

總結

以上是生活随笔為你收集整理的PHP系统能不能加爬虫,php能做爬虫吗的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。