日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

腾讯云大数据实战案例

發布時間:2024/3/24 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 腾讯云大数据实战案例 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


內容來源:2017年5月20日,騰訊高級軟件工程師吳友強在“中生代技術沙龍系列之互聯網大數據”進行《騰訊云大數據實戰》演講分享。IT 大咖說作為獨家視頻合作方,經主辦方和講者審閱授權發布。

閱讀字數:1954 | 3分鐘閱讀

嘉賓演講視頻:t.cn/RScDh7A

摘要

騰訊云是騰訊公司傾力打造的面向廣大企業和個人的公有云平臺。騰訊高級軟件工程師吳友強將為我們分享大數據在騰訊云的實踐。

一、TDF(數據工坊)簡介

TDF簡介

源于騰訊云數智大數據套件的輕量云上大數據產品,提供基于SQL的大數據計算框架。

適用于需要動態靈活獲取大數據計算能力進行批量計算、日志處理或數據倉庫應用的場景。


因為公有云上的用戶需要簡單,所以要有一個可視化的集成開發環境,在這環境中可以進行數據血緣管理、工程/工作流管理、用戶管理和告警/日志。通過一些工具把數據導入到數據存儲里面,然后對數據進行處理,最終輸出數據。下層的任務和資源調度是用來調度用戶的任務在各個資源上運行起來。底層就是騰訊云的基礎設施。

二、CDP(數據管道)實現詳解

CDP整體架構-設計


上圖是我們剛開始在開發之前做的設計。最左邊有很多客戶的數據點,比如log、DB Binlog、自建的Kafka以及自定義數據。我們會利用一些工具開發一個Flume插件,幫助它把數據上云。

數據到達中間部分,對數據進行校驗和處理。處理完成后根據用戶的需求通過插件的方式實時導入到TDF、COS或者其它存儲里面。

CDP整體架構-目前


上圖是目前我們已經實施的工作。我們自己開發了一個Flume插件,把數據實時發送到騰訊公有云的數據接收器endpoint上。數據接收器會根據用戶的選擇來決定用Kafka還是CKafka。CKafka也是騰訊云內部自行研發的一套兼容轉換協議的消息系統,基于C++開發,性能方面會比原生的提升很多。把數據導入到Nifi里進行二次開發,最終導到Hive中。

Flume簡介

FlumeNG是一個分布式、可靠、可用的系統。它能夠將不同數據源的海量日志進行高效收集、聚合、移動,最后存儲到一個中心化數據存儲系統中。由原來的Flume OG到現在的Flume NG,進行了架構重構,并且現在NG版本完全不兼容原來的OG版本。經過架構重構后,Flume NG更像是一個輕量級的小工具,非常簡單,容易適應各種方式日志收集,并支持failover和負載均衡。

Flume的架構主要有一下幾個核心概念:

Event:一個數據單元,帶有一個可選的消息頭。

Flow:Event從源點到達目的點的遷移的抽象。

Client:操作位于源點處的Event,將其發送到Flume Agent。

Agent:一個獨立的Flume進程,包含組件Source、Channel、Sink。

Source:用來消費傳遞到該組件的Event。

Channel:中轉Event的一個臨時存儲,保存有Source組件傳遞過來的Event。

Sink:從Channel中讀取并移除Event,將Event傳遞到Flow Pipeline中的下一個Agent(如果有的話)。

Flume插件

Flume支持插件開發,最簡單的方法就是直接拷貝已有插件進行改造。

我們提供的endpoint需要權限驗證,主要是基于騰訊云的一些帳號,通過這個方式可以實時地在客戶端進行加密或格式化的存儲。

首先我們是多用戶的系統,其次要防止用戶數據量過大。通過數據大小限制能夠滿足90%以上的用戶需求,而對于數據大小的限制是根據自身配置來決定的。

在傳輸過程中我們采用了一些自定義的協議,這個協議基于avro進行格式化,主要是便于對數據進行序列化和反序列化。

Kafka客戶端改造支持CKafka

CKafka(Cloud Kafka)是一個分布式的、高吞吐量、高可擴展性的消息系統,100%兼容開源 Kafka API(0.9版本)。Ckafka 基于發布/訂閱模式,通過消息解耦,使生產者和消費者異步交互,無需彼此等待。Ckafka 具有數據壓縮、同時支持離線和實時數據處理等優點,適用于日志壓縮收集、監控數據聚合等場景。

CKafka主要開放給公有云上的部分VIP用戶使用,VIP只能綁定對應的虛擬機,這樣保證了它的安全性。但我們是直接使用內網IP訪問的,所以我們需要調整客戶端的交互協議,通過某種手段把VIP替換成真實的IP,以保證數據的通暢。還有自定義的管理API和封裝Java SDK。

NiFi

ApacheNiFi 是一個易于使用、功能強大而且可靠的數據處理和分發系統。Apache NiFi 是為數據流設計。它支持強大且可高度配置的基于有向圖的數據路由、轉換和系統中介邏輯,支持從多種數據源動態拉取數據。Apache NiFi原來是NSA的一個項目,現在開源出來,由Apache基金會進行管理。

主要特性:

基于web的用戶界面:無縫體驗設計、控制和監控。

高度可配置:數據丟失容錯和保證交付;低延遲和高吞吐量;動態優先級;流可以在運行時修改;背壓(Back presure)。

數據來源:從始至終跟蹤數據流。

為擴展設計:構建自己數據處理器;支持快速開發和有效的測試。

安全:支持SSL、SSH、HTTPS加密內容等等;多租戶授權和內部授權/策略管理。

Hive插件

獲取元數據:獲取Hive表結構信息,是否支持Streaming API寫入。

數據寫入:insert插入,支持多分區批量插入;支持streaming;可以直接寫hdfs。

CDP未來?

1、支持etl功能,對前端進行分組和做一些實時的計算。

2、支持實時的計算和分析。用戶需要可以直接拿到結構去在前端進行展示,而不是再到其它系統上去做計算和分析。

3、支持實時SQL。實時計算對部分用戶來說使用成本可能會更高,大部分做數據統計的人員對SQL的掌握度會更高。實時SQL是對數據進行SQL的查詢計算。

4、可視化圖像操作界面。用戶的需求越來越多樣化,騰訊云上的很多產品都需要用到數據來做,我們希望以這種方式讓用戶可以自己選擇數據源。

我今天的分享就到這里,感謝聆聽!


總結

以上是生活随笔為你收集整理的腾讯云大数据实战案例的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。