日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

为什么用python写爬虫_python-做爬虫,如何避免牢狱之灾

發(fā)布時間:2023/12/10 python 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 为什么用python写爬虫_python-做爬虫,如何避免牢狱之灾 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

隨著數(shù)據(jù)資源的爆炸式增長,網(wǎng)絡爬蟲的應用場景和商業(yè)模式變得更加廣泛和多樣,網(wǎng)絡爬蟲技術為數(shù)據(jù)收集者提供了極大的便利,也給專業(yè)網(wǎng)絡爬蟲公司帶來巨大的收益。但是與之相伴的是許多人好奇的一件事——爬蟲是否違法?

關于這個問題,一直都是比較難定性的,因為爬蟲本身只是個工具,就和菜刀一樣,所以很多人都拿"菜刀無罪論"、"技術無罪論"來為爬蟲辯護。那么,爬蟲到底犯不犯法?作為一個程序員,如何避免這些坑呢?本文就為大家介紹一下程序員怎么跳出這些坑。

基本可以確定的是,如果爬蟲使用不當,那么爬蟲的開發(fā)者是有可能觸犯法律的,而根據(jù)情況不同,獲得的刑罰也有可能有差異。要看開發(fā)和使用爬蟲是否犯法,需要從爬什么數(shù)據(jù)、如何爬取數(shù)據(jù)以及爬到數(shù)據(jù)之后怎么用三個方面來判斷。接下來就簡單分析一下:

一、爬什么數(shù)據(jù)犯法?

1、高度敏感信息,包括四種信息:行蹤軌跡信息、通信內容、 征信信息、財產(chǎn)信息。涉及高度敏感信息的違法活動,由于定罪門檻最低,因此嚴格限制在此四類,不做任何擴展;

2、敏感信息, 即住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財產(chǎn)安全的公民個人信息。與第一類相比較,《解釋》對第二類信息的界定仍留有空間, 意味著在司法實踐中,仍有可能會出現(xiàn)目前所列舉之外的第二類信息類型;

3、其他個人信息。即上述第二、三類以外的個人信息。個人信息的類型是定罪量刑的重要依據(jù)。越敏感信息,達到定罪1 ]檻的信息數(shù)量越少。

二、怎么爬犯法?

如果是爬取公開的數(shù)據(jù),通常不會被認為是侵權。Google、百度等搜索引擎都是這么爬取的。那么,到底怎么爬數(shù)據(jù)是有可能觸犯法律的呢,主要考慮是否涉及以下兩種行為:

未遵守Robots協(xié)議

Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴爬蟲哪些頁面可以抓取,哪些頁面不能抓取。

如何查看采集的內容是的有rebots協(xié)議?其實方法很簡單。你想查看的話就在IE上打http://你的網(wǎng)址/robots.txt要是說查看分析robots的話有專業(yè)的相關工具 站長工具就可以!

繞過防護措施對數(shù)據(jù)的訪問,強行突破反爬措施

由于爬蟲的批量訪問會給網(wǎng)站帶來巨大的壓力和負擔,因此許多網(wǎng)站經(jīng)營者會采取技術手段,以阻止爬蟲批量獲取自己網(wǎng)站信息。企圖通過技術手段,繞過網(wǎng)站的反爬機制,都屬于《刑法》中規(guī)定的"侵入",都是要被處罰的。

三、怎么用犯法?

比如通過爬蟲抓取到的數(shù)據(jù)進行盈利、損害他人利益、造假、誹謗等都是可能觸犯法律的。此外,未經(jīng)被收集者同意,即使是將合法收集的公民個人信息向他人提供的,也屬于刑法第二百五十三條之一規(guī)定的“提供公民個人信息”,可能構成犯罪。

總結

作為程序員,我們手里的技術就是工具,那么,我們有責任也有義務來保證我們的工具是用在正途的。最后,技術無罪、人會犯錯、知錯能改、善莫大焉。

總結

以上是生活随笔為你收集整理的为什么用python写爬虫_python-做爬虫,如何避免牢狱之灾的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。