日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

python大数据论坛_干货 | Python+大数据计算平台,PyODPS架构手把手教你搭建

發布時間:2025/4/5 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python大数据论坛_干货 | Python+大数据计算平台,PyODPS架构手把手教你搭建 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據分析和機器學習

大數據基本都是建立在Hadoop系統的生態上的,其實一個Java的環境。很多人喜歡用Python和R來進行數據分析,但是這往往對應一些小數據的問題,或者本地數據處理的問題。如何將二者進行結合使其具有更大的價值?Hadoop現有的生態系統和現有的Python環境如上圖所示。

MaxCompute

MaxCompute是面向離線計算的大數據平臺,提供TB/PB級的數據處理,多租戶、開箱即用、隔離機制確保安全。MaxCompute上主要分析的工具就是SQL,SQL非常簡單、容易上手,屬于描述型。Tunnel提供數據上傳下載通道,不需要經過SQL引擎的調度。

Pandas

Pandas是基于numpy的數據分析的工具,里面最重要的結構是DataFrame,提供一系列繪圖的API,背后是matplotlib的操作,非常容易和Python第三方庫交互。

PyODPS架構

PyODPS即利用Python進行大數據分析,其架構如上圖所示。底層是基礎API,可以利用其操作MaxCompute上的表、函數或者資源。再上面是DataFrame框架,DataFrame包括兩部分,一部分是前端,定義了一套表達式的操作,用戶寫的代碼會轉化成表達式樹,這與普通的語言是一樣的。用戶可以自定義函數,也可以進行可視化,與第三方庫進行交互。后端最下面是Optimizer,其作用是對表達式樹進行優化。ODPS和pandas都是通過compiler和analyzer提交到Engine來執行。

背景

為什么要做DataFrame框架?

對于任何一個大數據分析工具,都會面臨三個維度上的問題:表達力,API、語法、編程語言是否簡單、符合直覺?數據,存儲、元數據是否能壓縮、有效?引擎,計算的性能是否足夠?所以就會面臨pandas和SQL兩個選擇。

如上圖所示,pandas的表達力非常好,但是其數據只能放在內存中,引擎是單機的,受限于本機的性能。SQL的表達力有限,但是可以用于大量的數據,數據量小的時候沒有引擎的優勢,數據量大的時候引擎會變得很有優勢。ODPS的目標是綜合這兩者的優點。

PyODPS DataFrame

PyODPS DataFrame是使用Python語言寫的,可以使用Python的變量、條件判斷、循環。可以使用pandas類似的語法,定義了自己的一套前端,有了更好的表達力。后端可以根據數據來源來決定具體執行的引擎,是visitor的設計模式,可擴展。整個執行是延遲執行,除非用戶調用立即執行的方法,否則是不會直接執行的。

從上圖中可以看出,語法非常類似于pandas。

表達式和抽象語法樹

從上圖可以看出,用戶從一個原始的Collection來進行GroupBy操作,再進行列選擇的操作,最下面是Source的Collection。取了兩個字段species,這兩個字段是做By操作的,pental_length是進行聚合的操作取聚合值。Species字段是直接取出來,shortest字段是進行加一的操作。

Optimizer(操作合并)

后端首先會使用Optimizer對表達式樹進行優化,先做GroupBy,然后在上面做列選擇,通過操作合并可以去除petal_length做聚合操作,再加一,最終形成了GroupBy的Collection。

Optimizer(列剪枝)

用戶join了兩個data frame,再取來自data frame 的兩個列的時候,如果提交到一個大數據的環境,這樣一個過程是非常低下的,因為不是每個列都用到了。所以要對joined下的列進行剪枝操作。比如,data frame1我們只用到了其中的一個字段,我們只需要將字段截取出來做一個projection來形成新的Collection,data frame2也類似。這樣,對這兩部分進行校驗操作的時候就能極大的減少數據的輸出量。

Optimizer(謂詞下推)

如果對兩個data frame進行joined然后再分別進行過濾的話,這個過濾操作是應該下推到下面來執行的,這樣就能減少joined 的輸入的量。

可視化

提供了visualize()來方便用戶進行可視化。在右邊的例子中可以看到,ODSP SQL后端會compile成一條SQL執行。

后端

從上圖中可以看出,計算后端是非常靈活的。用戶甚至可以joined一個pandas的data frame和maxcompute上一個表的數據。

Analyzer

Analyzer的作用是針對具體的后端,將一些操作進行轉化。比如:

有些操作比如value_counts,pandas本身支持,因此對于pandas后端,無需處理;對于ODPS SQL后端,沒有一個直接的操作來執行,所以在analyzer執行的時候,會被改寫成groupby + sort的操作;

還有一些算子,在compile到ODPS SQL時,沒有內建函數能完成,會被改寫成自定義函數。

ODPS SQL后端

ODPS SQL后端怎么進行SQL編譯再執行的操作?編譯器可以從上到下遍歷表達式樹,找到Join或者Union。對于子過程,進行遞歸compile。再到Engine來具體執行時,會使用Analyzer對表達式樹進行改寫,compile自上而下的子過程,自底向上compile成SQL子句,最終得到完整的SQL語句,提交SQL并返回任務。

pandas后端

首先訪問這個表達式樹,然后對每個表達式樹節點對應到pandas操作,整個表達式樹遍歷完之后就會形成DAG。Engine執行按DAG拓撲順序執行,不斷地把它應用到pandas操作,最終得到一個結果。對于大數據環境來說,pandas后端的作用是做本地DEBUG;當數據量很小時,我們可以使用pandas進行計算。

難點+坑

后端編譯出錯容易丟失上下文,多次optimize和analyze,導致難以查出是之前哪處visit node導致。解決:保證每個模塊獨?立性、測試完備;

bytecode兼容問題,maxcompute只支持Python2.7的自定義函數的執行;

SQL的執行順序。

ML機器學習

機器學習是輸入輸出一個data frame。比如,有一個iris的data frame,先用name字段來做一個分類字段,調用split方法將其分成60%的訓練數據和40%的測試數據。然后初始化一個RandomForests,其里面有一棵決策樹,調用train方法訓練訓練數據,調用predict方法形成一個預測數據,調用segments[0]就可以看到可視化結果。

總結

以上是生活随笔為你收集整理的python大数据论坛_干货 | Python+大数据计算平台,PyODPS架构手把手教你搭建的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产精品永久久久久久久久久 | 天天草天天草 | 国产精品久久久久久久一区探花 | 五月婷婷视频在线观看 | 日本狠狠干 | 亚洲av毛片| 日韩精品电影在线观看 | 激情婷婷 | 亚洲色图视频在线观看 | 欧美一区二区二区 | 精品国产大片大片大片 | 超碰caoprom | 99久久精品免费视频 | 久久精品视频播放 | 国产伦精品一区二区三区在线观看 | 18被视频免费观看视频 | 一区二区三区在线看 | 91看黄| 国产精品免费av | 日韩中文字幕av电影 | 人人澡人人澡人人 | 日韩小视频在线 | 涩涩涩在线观看 | 色香蕉影院 | 草草福利视频 | 亚洲熟悉妇女xxx妇女av | 亚洲黄色成人网 | 男女草逼 | 99资源站 | 波多野结衣一区二区三区在线观看 | 亚洲图片欧美在线 | 国产日韩精品一区二区三区在线 | 高h免费视频 | 男人阁久久 | 欧美一区欧美二区 | 久久综合爱 | av在线影音 | 国产精品一区免费观看 | 亚洲av无码国产精品久久不卡 | 亚洲天堂2014 | 天堂av资源网| av在线不卡网 | a在线观看免费 | 成年人在线免费 | 97自拍视频 | 日日操夜夜摸 | 中文字幕在线播放第一页 | 大地资源中文在线观看免费版 | 黄色片子看看 | 色无极影院亚洲 | 精品视频免费看 | 少妇一级淫片免费观看 | 国产精品三级久久久久久电影 | 人妻中文字幕一区二区三区 | 四虎tv | 国产视频手机在线观看 | 日日干日日| 黑鬼大战白妞高潮喷白浆 | 国产青青草 | 亚洲天堂网在线观看 | 在线观看中文字幕亚洲 | 日本黄色短片 | 欧美在线一二三四区 | 中文字幕人成乱码熟女香港 | 综合视频| 丰满人妻在公车被猛烈进入电影 | 免费网站成人 | 亚洲伦理一区 | 日韩黄色网页 | 欧美卡一卡二卡三 | 国产ts系列 | 国产精品69毛片高清亚洲 | 69天堂 | 亚洲一区二区三区免费看 | 欧美日韩国产一区二区 | 好吊妞视频这里只有精品 | 成人av动漫在线观看 | 日韩欧美www | 欧洲做受高潮免费看 | 深夜福利亚洲 | 亚洲成人一二三区 | 成人精品视频网站 | 国产丝袜一区二区 | 亚洲一区二区 | 黄色资源在线播放 | 亚洲欧美日韩电影 | 欧美区一区二区三 | av视觉盛宴 | 操伊人 | 香蕉网久久 | 亚洲精品永久免费 | 在线视频观看国产 | 五月天色综合 | 一级做a爰 | 日日夜夜撸啊撸 | 一本视频在线 | 久久精品4| 日韩一级生活片 | 黄色片www |