PHP系统能不能加爬虫,php能做爬虫吗
phpspider一款優秀的PHP開發蜘蛛爬蟲
編寫PHP網絡爬蟲,需要具備以下技能:
爬蟲采用PHP編寫(推薦學習:PHP視頻教程)
從網頁中抽取數據需要用XPath ( XPath選擇器教程 )
當然我們還可以使用CSS選擇器 ( CSS選擇器教程 )
很多情況下都會用到正則表達式 ( 正則表達式教程 )
Chrome的開發者工具是神器, 很多AJAX請求需要用它來分析
注意:本框架只能在命令行下運行,命令行、命令行、命令行,重要的事情說三遍 ^_^
本篇寫的demo是爬取軍事教育網站<?php
require_once __DIR__ . '/../autoloader.php';
use phpspider\core\phpspider;
/* Do NOT delete this comment */
/* 不要刪除這段注釋 */
$configs = array(
'name' => '軍事', // 給你的爬蟲起一個名字
'log_show' => false, // 是否顯示日志
'tasknum' => 1, // 開啟多少個進程爬取
// 數據庫配置
'db_config' => array(
'host' => '127.0.0.1',
'port' => 3306,
'user' => 'root',
'pass' => 'root',
'name' => 'collection',
),
// 數據庫表,表需要已存在,collection庫,test表
'export' => array(
'type' => 'db',
'table' => 'test',
),
// 爬取的域名列表
'domains' => array(
'war.163.com'
),
// 抓取的起點
'scan_urls' => array(
'http://war.163.com'
),
// 列表頁實例,你要爬取的列表,也就是分頁
'list_url_regexes' => array(
"http://war.163.com"
),
// 內容頁實例,文章的內容頁
// \d+ 指的是變量,就是可變的參數
'content_url_regexes' => array(
"http://war.163.com/photoview/4T8E0001/\d+",
),
// 失敗重新爬取次數
'max_try' => 5,
// 爬取規則配置
'fields' => array(
array(
'name' => "title", // 數據庫字段名
'selector' => "//div[@class='headline']/h1", // 規則,表示:headline類里的h1標簽
'required' => true, // 如果為空,整條數據丟棄
),
array(
'name' => "content",
'selector' => "//div[@class='overview']/p",
'required' => true,
),
array(
'name' => "img",
'selector' => "//img[@class='firstPreload']",
'required' => true,
),
),
);
$spider = new phpspider($configs);
$spider->start();
總結
以上是生活随笔為你收集整理的PHP系统能不能加爬虫,php能做爬虫吗的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学烹饪的学费大概是多少?
- 下一篇: 动态规划算法php,php算法学习之动态