日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

优酷电视剧爬虫代码实现一:下载解析视频网站页面(3)补充知识点:htmlcleaner使用案例...

發布時間:2023/12/13 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 优酷电视剧爬虫代码实现一:下载解析视频网站页面(3)补充知识点:htmlcleaner使用案例... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

htmlcleaner 下載地址:htmlcleaner2_1.jar?源碼下載:htmlcleaner2_1-all.zip

寫一個測試用的html文件:html-clean-demo.html

  • <!DOCTYPE?html?PUBLIC?"-//W3C//DTD?XHTML?1.0?Transitional"?"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd?"?>???
  • <?html???xmlns?=?"http://www.w3.org/1999/xhtml?"???xml:lang?=?"zh-CN"???dir?=?"ltr"?>??
  • <?head?>???
  • ????<?meta???http-equiv?=?"Content-Type"???content?=?"text/html;?charset=GBK"?/>???
  • ????<?meta???http-equiv?=?"Content-Language"???content?=?"zh-CN"?/>???
  • ????<?title?>?html?clean?demo?</?title?>???
  • </?head?>???
  • <?body?>???
  • <?div???class?=?"d_1"?>???
  • ????<?ul?>???
  • ????????<?li?>?bar?</?li?>???
  • ????????<?li?>?foo?</?li?>???
  • ????????<?li?>?gzz?</?li?>???
  • ????</?ul?>???
  • </?div?>???
  • <?div?>???
  • ????<?ul?>???
  • ????????<?li?>?<?a???name?=?"my_href"???href?=?"1.html"?>?text-1?</?a?>?</?li?>???
  • ????????<?li?>?<?a???name?=?"my_href"???href?=?"2.html"?>?text-2?</?a?>?</?li?>???
  • ????????<?li?>?<?a???name?=?"my_href"???href?=?"3.html"?>?text-3?</?a?>?</?li?>???
  • ????????<?li?>?<?a???name?=?"my_href"???href?=?"4.html"?>?text-4?</?a?>?</?li?>???
  • ????</?ul?>???
  • </?div?>???
  • </?body?>???
  • </?html?>???
  • 模擬需求:取出title,name="my_href" 的鏈接,div的class="d_1"下的所有li內容。下面用htmlcleaner寫代碼,HtmlCleanerDemo.java

  • package??com.chenlb;??
  • ??
  • import??java.io.File;??
  • ??
  • import??org.htmlcleaner.HtmlCleaner;??
  • import??org.htmlcleaner.TagNode;??
  • ??
  • /**??
  • ?*?htmlcleaner?使用示例.??
  • ?*??
  • ?*?@author?chenlb?2008-11-26?下午02:12:02??
  • ?*/???
  • public???class??HtmlCleanerDemo?{??
  • ??
  • ????public???static???void??main(String[]?args)??throws??Exception?{??
  • ????????HtmlCleaner?cleaner?=?new??HtmlCleaner();??
  • ??
  • ????????TagNode?node?=?cleaner.clean(new??File(?"html/html-clean-demo.html"?),??"GBK");??
  • ????????//按tag取.???
  • ????????Object[]?ns?=?node.getElementsByName("title"?,??true?);?????//標題???
  • ??
  • ????????if?(ns.length?>??0?)?{??
  • ????????????System.out.println("title="?+((TagNode)ns[?0?]).getText());??
  • ????????}??
  • ????????System.out.println("ul/li:"?);??
  • ????????//按xpath取???
  • ????????ns?=?node.evaluateXPath("//div[@class='d_1']//li"?);??
  • ????????for?(Object?on?:?ns)?{??
  • ????????????TagNode?n?=?(TagNode)?on;??
  • ????????????System.out.println("\ttext="?+n.getText());??
  • ????????}??
  • ????????System.out.println("a:"?);??
  • ????????//按屬性值取???
  • ????????ns?=?node.getElementsByAttValue("name"?,??"my_href"?,??true?,??true?);??
  • ????????for?(Object?on?:?ns)?{??
  • ????????????TagNode?n?=?(TagNode)?on;??
  • ????????????System.out.println("\thref="?+n.getAttributeByName(?"href"?)+?",?text="?+n.getText());??
  • ????????}??
  • ????}??
  • }??
  • cleaner.clean()中的參數,可以是文件,可以是url,可以是字符串內容。個人認為:比較常用的應該是evaluateXPath、 getElementsByAttValue、getElementsByName方法了。另外說明下,htmlcleaner 對不規范的html兼容性比較好。

    ?

    轉載于:https://www.cnblogs.com/lchzls/p/6282704.html

    總結

    以上是生活随笔為你收集整理的优酷电视剧爬虫代码实现一:下载解析视频网站页面(3)补充知识点:htmlcleaner使用案例...的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。