日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

70行Python代码,获取中国数据库大会(DTCC)全部PPT

發布時間:2024/7/23 python 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 70行Python代码,获取中国数据库大会(DTCC)全部PPT 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大家好,我是明月十四橋!

擅長領域:python黑科技、大數據后端研發、數據倉庫

今日重點

? ?① 學會使用python 獲取各種網站的ppt,可見即可爬;

? ?② 中國數據庫大會一年一屆,門票昂貴,干貨滿滿,文末資料包值得深入學習。

嘔心瀝血,白天工作,晚上寫文,建議收藏+實操!!!有問題歡迎評論,或加微信咨詢

?

【中國數據庫大會】

中國數據庫大會秉承一貫的干貨分享和實踐指導原則,歷經十年的積累與沉淀,如今的DTCC已然成為國內數據庫領域的技術風向標,見證了整個行業的發展與演變

2020年12月21日~12月23日,由 IT168 旗下 ITPUB 企業社區平臺主辦的第十一屆中國數據庫技術大會(DTCC2020),將在北京隆重召開。大會以“架構革新 高效可控”為主題,設置2大主會場,20+技術專場,將邀請超百位行業專家,重點圍繞數據架構、AI大數據、傳統企業數據庫實踐和國產開源數據庫等內容展開分享和探討,為廣大數據領域從業人士提供一場年度盛會和交流平臺。

?

【小編動機】

官方只提供了預覽的方式,無法完美的欣賞這么干貨滿滿、制作精良的ppt。

對于求知欲強烈的橋哥來說簡直太難受了,于是便寫了個程序,一鍵獲取所有ppt,并送給可愛的粉絲們。

?

中國數據庫大會鏈接:http://dtcc.it168.com/

涉及技術:數據架構、大數據、數據庫、云、數據治理

?

?

【下載代碼

軟件環境:python 3

# encoding: utf-8 from bs4 import BeautifulSoup import requests from urllib.request import urlopen import re import jsondef visit(url):headers = {"User-Agent": "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)","accept": "application/json, text/javascript, */*; q=0.01","accept-encoding": "gzip, deflate, br","accept-language": "zh-CN,zh;q=0.9","content-type": "application/x-www-form-urlencoded; charset=UTF-8","cookie": "", -- 填自己的"referer": "","sec-fetch-dest": "document","sec-fetch-mode": "navigate","sec-fetch-site": "same-origin",}res = requests.get(url,headers=headers)bsObj = BeautifulSoup(res.text, "html.parser")return bsObjdef visit_homepage(url):bsObj = visit(url)content = bsObj.find('div', class_="content")content_list = content.select("p")category = []for i in range(4,len(content_list)):try:urls = content_list[i].a['href']name = content_list[i].get_text("|").split("|")[0].replace(' ','').replace('\xa0','')category.append([name,urls])except:passprint(category)return categorydef download_pdf(conf,path):category_name = conf[0]category_url = conf[1]bsObj = visit(category_url)res = re.search(r'(.*)token:(.*?),',str(bsObj) ,re.M|re.I)token = res.group(2).replace('"','').replace(' ','')arts = re.findall(r'(.*)li data-docinfo=(.*?)}',str(bsObj) ,re.M|re.I)for art in arts:art_str = "{"+str(art).split('{')[1].replace("')","}")art_dic = json.loads(art_str)id = art_dic['id']name = art_dic['name']download_url = "https://api.z.itpub.net/download/file?st-usertoken=%s&id=%s"%(token,str(id))print(download_url)data = urlopen(download_url).read()with open(path+category_name+'__'+name, 'wb') as f:f.write(data)print("finish download ")if __name__ == '__main__':homepage = "https://z.itpub.net/article/detail/5260C494873379BAA63BAB7C5CBD7A95"path = "/Users/xxx/Downloads/DTCC/"# downloadcategory = visit_homepage(homepage)for i in category:download_pdf(i,path)

?

【效果展示】

?

【下載方法】

橋哥為大家提供了兩種獲取ppt的方式:

1、python爬蟲獲取

需進行這兩步操作:

(1)cookie換成自己的

? ? ? ? ? 獲取cookie辦法:打開開發者模式(windows F12,mac opt+command+i)?打開開發者模式,訪問:homepage,network里面有cookie。

(2)修改path為自己的目錄

ps.注意不要頻繁訪問該網站,給對方網站造成壓力!!

?

2、網盤下載

橋哥也把ppt放在了csdn網盤,下載鏈接:

鏈接:??https://download.csdn.net/download/weixin_39032019/19147554

?

我是橋哥,專注分享大數據知識體系?& Python黑科技。

求點贊、求評論、求收藏!!

?


CSDN官方學習推薦 ↓ ↓ ↓

為了幫助更多小白從零進階,從CSDN官方那邊搞來了一套 《Python 工程師學習成長知識圖譜》,尺寸?870mm x 560mm,展開后有一張辦公桌大小,也可以折疊成一本書的尺寸,有興趣的小伙伴可以了解一下,當然,不管怎樣博主的文章一直都是免費的~

?


【推薦閱讀】

數據倉庫專欄:數倉方法論、實戰經驗、面試真題 >>?https://blog.csdn.net/weixin_39032019/category_8871528.html

Python專欄:Python黑科技:爬蟲、算法、小工具 >>?https://blog.csdn.net/weixin_39032019/category_8974792.html

大數據集錦專欄:面試真題、開發經驗、調優策略? >>?https://blog.csdn.net/weixin_39032019/category_11048805.html

總結

以上是生活随笔為你收集整理的70行Python代码,获取中国数据库大会(DTCC)全部PPT的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。