基于Python的简单数据挖掘
生活随笔
收集整理的這篇文章主要介紹了
基于Python的简单数据挖掘
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
基于Python的簡單數據挖掘
最近閑著就用Python做了一個簡單的數據挖掘,主要是挖掘一些公司的百度新聞數據還有篩選出來保存到TXT文檔里面
爬取數據的話方式思路很簡單,首先是獲取整個網頁源碼當然不是在瀏覽器上而是通過代碼的方式,python已經為我們封裝好了,代碼如下
#headers模擬瀏覽器打開網站,User-Agent的值可以通過在瀏覽器直接輸入chrome://version/獲取,其中的用戶代理就是 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'} url = "https://www.baidu.com/s?rtt=4&bsst=1&cl=2&tn=news&word=阿里巴巴"#要爬取的數據網站rtt=1的話就是默認排序,爬取其他網站的話就自行修改網址和篩序規則就行 res = requests.get(url, headers=headers, timeout=20).text這樣就獲取到源碼了,接下來就是數據過濾和篩選代碼如下
p_href = '<h3 class="c-title">.*?<a href="(.*?)"' #標題鏈接的提取,每個網站不一定一樣可以通過在網頁上右鍵查看源碼的方式獲取然后通過正則表達式去篩選p_title = '<h3 class="c-title">.*?>(.*?)</a>' #標題提取,方式和鏈接一樣p_info = '<p class="c-author">(.*?)</p>' #時間和來源提取href = re.findall(p_href, res, re.S)title = re.findall(p_title, res, re.S)info = re.findall(p_info, res, re.S)這樣就把標題,鏈接,還有新聞來源以及時間篩選出來了,當然如果各位想要其他數據的話就自行改變篩選規則就行
數據篩選出來后就是把數據保存到文件中代碼如下
這樣運行完了后就完成了,不過只篩選了第一頁的內容如果各位要其他頁的內容的話就把url改成
url = "https://www.baidu.com/s?rtt=4&bsst=1&cl=2&tn=news&word=阿里巴巴&pn=10"pn=10表示第二頁,20表示第三頁,30表示第四頁
好了以下是全部源碼
過兩天改一下爬取金融數據
金融數據的已經改好了,有興趣的可以看這篇
基于Python的簡單金融數據挖掘分析
總結
以上是生活随笔為你收集整理的基于Python的简单数据挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mybatis学习(33):动态sql
- 下一篇: Python 数据分析 —— Matpl