Python简单网页爬取
生活随笔
收集整理的這篇文章主要介紹了
Python简单网页爬取
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
使用Python爬取簡單數(shù)據(jù)
閑暇時(shí)間學(xué)習(xí)Python,不管以后能否使用,就算了解計(jì)算機(jī)語言知識。
因?yàn)橛幸稽c(diǎn)Java基礎(chǔ),所以Python的基本語法就很快的過了一遍,表達(dá)或許有點(diǎn)混亂,以后慢慢改進(jìn)。
一、導(dǎo)入爬取網(wǎng)頁所需的包。
二、Python屬于腳本語言,沒有類似Java的主入口(main),對于這里理解不是很深,就是給這個(gè)類添加一個(gè)主入口的意思吧。
if __name__ == '__main__':main()三、接著在定義主函數(shù)main(),主函數(shù)里應(yīng)包括
四、需對爬取網(wǎng)頁進(jìn)行數(shù)據(jù)的采集
五、定義獲取數(shù)據(jù)方法
3、準(zhǔn)備集合裝載數(shù)據(jù),解析網(wǎng)頁數(shù)據(jù),匹對正則表達(dá)式
可以看出爬取的數(shù)據(jù)由
六、將得到的數(shù)據(jù)保存在excel中
def saveData(dataList):Book=xlwt.Workbook(encoding="utf-8",style_compression=0)#style_compression:表示是否壓縮,不常用sheet=Book.add_sheet("小說.xls",cell_overwrite_ok=True)#cell_overwrite_ok,表示是否可以覆蓋單元格line = ("詳情鏈接","筆名","簡介")for item in range(len(line)): #此處循環(huán)如果line里只有一個(gè)字符串,那么生成的xls里,只會(huì)出現(xiàn)一個(gè)‘詳’字#print(len(line))sheet.write(0,item,line[item])#wirte(row, col, *args)for i in range(len(dataList)):#第一次循環(huán)應(yīng)是將行數(shù),有多少數(shù)據(jù)有多少行data=dataList[i] #每一條數(shù)據(jù)應(yīng)該放在一行里,所以將在一次進(jìn)行for循環(huán)for j in range(len(line)):sheet.write(i+1,j,data[j])Book.save("測試.xls")總結(jié)
以上是生活随笔為你收集整理的Python简单网页爬取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GEWorker界面展示及功能组成介绍,
- 下一篇: python批量爬取下载网易云音乐