日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

爬虫+数据库+大数据分析

發(fā)布時(shí)間:2024/3/26 数据库 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫+数据库+大数据分析 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

總體要求
利用python編寫爬蟲程序,從招聘網(wǎng)站上爬取數(shù)據(jù),將數(shù)據(jù)存入到MongoDB數(shù)據(jù)庫中,將存入的數(shù)據(jù)作一定的數(shù)據(jù)清洗后做數(shù)據(jù)分析,最后將分析的結(jié)果做數(shù)據(jù)可視化。
**

前期準(zhǔn)備

**
1、配置大數(shù)據(jù)需要的環(huán)境
(1)配置Hadoop環(huán)境:可看博客:
(2)配置zookeeper環(huán)境:https://blog.csdn.net/weixin_44701468/article/details/106822805
(3)配置spark環(huán)境:
(3)配置hive環(huán)境:
(3)配置spark環(huán)境:
2、下載好需要的數(shù)據(jù)庫:Mysql、MangoDB
3、準(zhǔn)備好需要的數(shù)據(jù):

爬取的是招聘網(wǎng)站前程無憂,由于爬取的一個(gè)數(shù)據(jù)不是很多,我就爬取了幾個(gè)分別保存到了幾個(gè)表中,大約有個(gè)百多兆的數(shù)據(jù)(數(shù)據(jù)量越多越好),第一次學(xué)習(xí)

具體實(shí)現(xiàn)過程

1、編寫爬蟲框架,爬取數(shù)據(jù)
建議博客:https://blog.csdn.net/weixin_43581288/article/details/106950359
里面有需要爬蟲的字段,保存到的數(shù)據(jù)庫,以及一些其他的要求
2、數(shù)據(jù)存儲(chǔ)
正確搭建hadoop平臺(tái)
選擇flume協(xié)議傳輸形式

啟動(dòng)flame:

flume-ng agent -n agent1 -c conf -f /usr/module/flume/apache-flume-1.6.0-bin/conf/template-hdfs.conf -Dflume.root.logger=DEBUG,console

上傳數(shù)據(jù)至目錄:


將數(shù)據(jù)存儲(chǔ)到hdfs:

3、進(jìn)行hive查詢:
1、具體要求(要求:1、利用hive進(jìn)行分析,2、將hive分析結(jié)果利用sqoop技術(shù)存儲(chǔ)到mysql數(shù)據(jù)庫中,并最后顯示分析結(jié)果。):
(1)分析“數(shù)據(jù)分析”、“大數(shù)據(jù)開發(fā)工程師”、“數(shù)據(jù)采集”等崗位的平均工資、最高工資、最低工資,并作條形圖將結(jié)果展示出來;



(2)分析“數(shù)據(jù)分析”、“大數(shù)據(jù)開發(fā)工程師”、“數(shù)據(jù)采集”等大數(shù)據(jù)相關(guān)崗位在成都、北京、上海、廣州、深圳的崗位數(shù),并做餅圖將結(jié)果展示出來。



(3)分析大數(shù)據(jù)相關(guān)崗位1-3年工作經(jīng)驗(yàn)的薪資水平(平均工資、最高工資、最低工資),并做出條形圖展示出來;



(4)分析大數(shù)據(jù)相關(guān)崗位幾年需求的走向趨勢(shì),并做出折線圖展示出來;

總結(jié):
這個(gè)項(xiàng)目使用爬蟲、數(shù)據(jù)庫、大數(shù)據(jù)分析等方法來完成,對(duì)爬蟲的認(rèn)識(shí),使用、數(shù)據(jù)庫(mangodb)的使用、大數(shù)據(jù)知識(shí)的運(yùn)用都是很好的。爬蟲有爬蟲框架的搭建,代碼的編寫對(duì)我來說都是一個(gè)不小的難題,但通過查資料、和同學(xué)的探討讓我解決了這些問題,數(shù)據(jù)庫(mangodb)使用還不是特別熟練,大數(shù)據(jù)各種環(huán)境的搭建也是一個(gè)不小的難題,配置的環(huán)境也是不少,我也是用來不少的時(shí)間來做這個(gè)事,在這其中還是有的。

總結(jié)

以上是生活随笔為你收集整理的爬虫+数据库+大数据分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。