日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > php >内容正文

php

织梦php 文章采集规则,如何正确写DedeCms采集规则

發(fā)布時間:2024/8/1 php 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 织梦php 文章采集规则,如何正确写DedeCms采集规则 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

如何正確寫DedeCms采集規(guī)則:

下面是詳細(xì)過程,網(wǎng)上希望大家能認(rèn)真看完慢慢去琢磨應(yīng)該能幫助到你的:

第一步、確定采集的網(wǎng)站(我們以DEDE的官方站做為采集站做示范)

引用

http://www.dedecms.com/plus/list.php?tid=10

第二步、確定被采集站的編碼。打開被采集的網(wǎng)頁之后,查看源代碼(IE:查看 - > 源代碼)

之間找到 charset 這個,后面就顯示網(wǎng)頁的編碼了,截圖的是 “gb2312”

第三步、采集列表獲取規(guī)則寫法

來源網(wǎng)址寫法 很明顯pageno是表示分頁頁碼 那么有多頁列表的采集就要用“[var:分頁]”來替換分頁頁碼,截圖如下

http://www.dedecms.com/ plus/list.php?tid=10&pageno=[var:分頁]

文章網(wǎng)址需包含 網(wǎng)址不能包含 這兩個一般不用寫,用于采集列表范圍有很多不需要的連接才用到他來做過濾使用。

上面的網(wǎng)址并沒有帶有至于http://www.dedecms.com 為什么要在前面加上,這個就不要我說了吧。

如果只有一個列表頁,那么在來源網(wǎng)址就直接寫上網(wǎng)址就OK了。

注意這里,最關(guān)鍵就是這里。

下面就是“采集獲取文章列表的規(guī)則寫法”,

就是上面打開的被采集頁面的源代碼文件,找到文章列表之前 和本頁面沒有其他相同的代碼

在DedeCms官方站的列表頁文章列表之前和之后最近的且沒有相同的是“

”和“”,分別寫入“起始HTML”和“結(jié)束HTML”,寫法看截圖

第四步、采集文章標(biāo)題,文章內(nèi)容,文章作者,文章來源等規(guī)則寫法,分頁采集等。

“起始HTML”和“結(jié)束HTML”寫法參考第三步中的“獲取文章列表的規(guī)則寫法”

下面講的是如何采集分頁內(nèi)容 看截圖圈著的地方 截圖

文檔是否分頁 里面選擇“全部列出的分頁列表”

“起始HTML”和“結(jié)束HTML”寫法參考第三步中的“獲取文章列表的規(guī)則寫法”

這里本來還有一張截圖的,由于論壇配置,他現(xiàn)在顯示在最上面.

在文章內(nèi)容那里點(diǎn)上“分頁內(nèi)容字段”,不選擇就不能采集。

“下載字段里的多媒體資源 ”這個是采集的時候把多媒體資源(視頻,軟件,圖片等)下載到本地,也就是你的網(wǎng)站。

下面�*****濾規(guī)�

過濾規(guī)則需要用 “正則表達(dá)式”來寫,但是對于新手來說,這個簡直是比登天還要難,具體的可以參考

http://www.dedecms.com/web-art/PHP_jiaocheng/20070420/38633.html這個網(wǎng)頁

下面教大家一個簡單的方法

把下面的過濾規(guī)則復(fù)制到你那里去,幾乎就可以了,也可以自己分析一下,說不定你就懂了

引用

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

  • {/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}

{dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

當(dāng)然 上面這些不能用來采集帶有視頻的,因?yàn)橐呀?jīng)過濾了

自定義處理接口

這個說白了,就是PHP代碼。只不過 “ @ me 表示當(dāng)前標(biāo)記值和最終結(jié)果“@ body表示原始網(wǎng)頁”“ @ litpic 縮略圖”,按照PHP的寫法的就OK了

總結(jié)

以上是生活随笔為你收集整理的织梦php 文章采集规则,如何正确写DedeCms采集规则的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。