网络爬虫的作用和简单分类
1.4.1知識概述
一般會用來做數據分析,先通過對數據的清洗,抽取,轉換,將數據做成標準化的數據,然后進行數據分析和挖掘,得到數據的商業價值。
數據分為內部數據和外部數據
在互聯網公司,不管內部數據還是外部數據,其實都是為了獲取用戶相關的數據。
拿到用戶的行為數據之后,會分析用戶。
比如說電商類網站就是為推薦商品,搜索類的網站為了精準營銷(家具類) 廣告聯盟。
公司內部數據
業務數據,公司使用BI(Business Intelligence)、CRM系統、ERP系統、郵件系統等產生的數據;
財務數據,其中包括公司的支出、采購、收入等多項與公司日常運作有關的數據;
用戶數據,無論是網站、APP還是游戲,用戶注冊都會填寫郵箱、電話、身份證號碼等數據,這些數據其實非常有價值,此外還要加上用戶使用公司產品留下的行為數據。
歷史數據,公司沉淀下來的其他各種數據。
外部數據
社交網站數據,包括微信、微博、人人網、Twitter、Facebook、LinkedIn等社交媒體上的數據。
說明:社交數據部分是可以爬取的,另外一部分是需要運營方授權的。
線下采集數據,包括Wifi熱點數據、地圖數據等。
說明:這一塊目前做的公司比較少,但同時也比較有價值。
政府開放數據,包括企業征信數據、企業注冊數據、法院公示數據、公共交通數據等。
說明:如果你想要找的話,可到對應政府網站下載。
智能設備數據,包括智能設備、傳感器數據。
說明:你知道嗎?一部智能手機,至少擁有8個傳感設備。
網絡爬蟲數據,包括互聯網上所有可以爬回的數據,文字、視頻、圖片其實也是數據,而且是非結構化數據。
企業交易數據,包括商家流水數據、支付寶交易數據、信用卡消費數據等等。
說明:目前這一部分數據是最難獲取的,因為數據就是寶貴的資產。
企業開放數據,比如微博開放了商業數據API,騰訊開放了騰訊云分析SDK上報的應用數據,高德地圖開放了LBS數據等等。
說明:如果想找更多的數據API,我推薦你去數據堂、聚合數據這兩家網站上看一下,上面有大量的API接口。
其它數據,比如天氣數據、交通數據、人口流動數據、位置數據等等。
說明:只有想不到沒有弄不到。
額外擴展
大數據就是整合完公司內部外部數據,進行大數據存儲,然后通過清洗,標注、去重、去噪、關聯等過程可以將數據進行結構化,也可以進行大數據挖掘和數據分析,再以數據可視化呈現結果,打通數據孤島形成數據閉環,將數據轉換成“石油”和“生產資料”,最后應用到我們日常的生活、學習和工作中去。
爬蟲與搜索系統的關系
搜索系統的數據是爬蟲爬取過來?不一定。
搜索系統可以簡單的分為兩類,通用搜索,站內搜索。
通用搜索:像百度,谷歌會爬取互聯網上所有的數據
站內搜索:只需要業務系統的數據。
垂直搜索:行業數據和自己的數據。
總結:搜索一定會包含爬蟲(除站內搜索外),爬蟲爬取的數據不一定是為搜索服務。除了搜索功能以外,爬蟲爬取的數據主要用來做數據分析。
爬蟲的簡單分類
網絡爬蟲按照系統結構和實現技術,大致可以分為以下幾種類型:
l 通用網絡爬蟲(General Purpose Web Crawler)
l 聚焦網絡爬蟲(Focused Web Crawler)
l 增量式網絡爬蟲(Incremental Web Crawler)
l 深層網絡爬蟲(Deep Web Crawler)
實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的。
1.4.2視頻詳情
1.4.3總結與補充
? ?? ???無
1.4.4?課堂提問與練習
? ? 無
1.4.5習題答案
? ?? ???無
總結
以上是生活随笔為你收集整理的网络爬虫的作用和简单分类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 通过文件名得到进程句柄并发消息
- 下一篇: JEECMS开发问题汇总