在人工智能时代下,如何让券商的数据做到“快准稳”
文 | 鄭林峰?財(cái)通證券大數(shù)據(jù)經(jīng)理
交流微信 | datapipeline2018
?
財(cái)通證券股份有限公司是一家經(jīng)中國證券監(jiān)督管理委員會(huì)批準(zhǔn)設(shè)立的綜合性證券公司,成立于1993年的浙江財(cái)政證券公司,現(xiàn)為浙江省政府直屬企業(yè),主要經(jīng)營證券經(jīng)紀(jì)、證券投資咨詢、證券自營、證券承銷與保薦、融資融券、證券投資基金代銷、代銷金融產(chǎn)品等業(yè)務(wù)。
作為公司中不可或缺的一部分,財(cái)通證券的數(shù)據(jù)團(tuán)隊(duì)管理著日增約為6000多萬 – 1億條的數(shù)據(jù),為公司的不同層次、不同類型的服務(wù)提供著穩(wěn)定可靠的數(shù)據(jù)信息。
在人工智能的新時(shí)代下,為實(shí)現(xiàn)批量化數(shù)據(jù)集成,財(cái)通團(tuán)隊(duì)放棄老式集成工具,選擇DataPipeline的產(chǎn)品,用5分鐘就完成了以前需要50個(gè)小時(shí)的任務(wù)配置工作。除此之外,DataPipeline獨(dú)有的跳板機(jī)設(shè)置,減輕了數(shù)據(jù)團(tuán)隊(duì)潛在的管理負(fù)擔(dān)。
?
中小型券商數(shù)據(jù)團(tuán)隊(duì)的痛點(diǎn)
?
全國120家券商,約40家的中大型券商企業(yè)已經(jīng)建立獨(dú)立的基礎(chǔ)數(shù)據(jù)部門,而對近80家中小型券商企業(yè)來說,數(shù)據(jù)團(tuán)隊(duì)都是在成立中,或者是在二級(jí)部門的狀態(tài)。
對于中小型券商,一個(gè)很大的痛點(diǎn)就是數(shù)據(jù)集成的問題。這是由于數(shù)據(jù)組人力資源非常有限,而數(shù)據(jù)集成因?yàn)閷π阅芎头€(wěn)定性要求高,開發(fā)繁瑣,變化頻繁又無法外包。對于數(shù)據(jù)集成,大多數(shù)券商平臺(tái)使用的老版的ETL數(shù)據(jù)集成工具,由于采取單表級(jí)粒度,導(dǎo)致抽取任務(wù)的開發(fā),調(diào)度管理及測試效率較低。而券商數(shù)據(jù)流的特點(diǎn)是任務(wù)基于清算狀態(tài),當(dāng)上游的生產(chǎn)系統(tǒng)完成清算后,數(shù)據(jù)任務(wù)啟動(dòng)取數(shù)至中間庫,當(dāng)取數(shù)任務(wù)完成后,再觸發(fā)下游系統(tǒng)消費(fèi)數(shù)據(jù)。
對于企業(yè)級(jí)的券商平臺(tái)來說,初步的數(shù)據(jù)采集不需要做繁復(fù)清洗轉(zhuǎn)換工作,只需提供貼源數(shù)據(jù)給到下游合作商來加工和處理。
其次,目前的常用抽取工具不能對資源進(jìn)行相對精細(xì)的控制。由于上游系統(tǒng)具有強(qiáng)勢的生產(chǎn)性質(zhì),券商系統(tǒng)對于數(shù)據(jù)采集的資源消耗要求很高。券商的預(yù)警機(jī)制基本在系統(tǒng)流量到30%以上開始預(yù)警。
數(shù)據(jù)使用端沒有驗(yàn)證規(guī)則,沒有自己的冗余性機(jī)制,所有的壓力都在源端數(shù)據(jù)層。隨著管控的數(shù)據(jù)規(guī)模不斷增加,源端數(shù)據(jù)出現(xiàn)問題的風(fēng)險(xiǎn)也在提升,導(dǎo)致數(shù)據(jù)團(tuán)隊(duì)填寫事件單已經(jīng)成為家常便飯。
另外,對于金融企業(yè)來說,數(shù)據(jù)安全是重中之重,所以核心系統(tǒng)的數(shù)據(jù)都是通過網(wǎng)閘進(jìn)行網(wǎng)絡(luò)隔離。使用老版數(shù)據(jù)集成工具的時(shí)候,由于老版數(shù)據(jù)集成工具的特性,導(dǎo)致數(shù)據(jù)團(tuán)隊(duì)的整體服務(wù)都必須放在內(nèi)部網(wǎng)絡(luò),一旦任務(wù)失敗,團(tuán)隊(duì)必須去到現(xiàn)場的內(nèi)網(wǎng)機(jī)器進(jìn)行操作,運(yùn)維十分困難。
?
解決方案
?
我們(財(cái)通證券)選擇與實(shí)時(shí)數(shù)據(jù)管道技術(shù)上領(lǐng)先的DataPipeline進(jìn)行合作,打破了傳統(tǒng)工具在ETL上的束縛。財(cái)通證券基于DataPipeline開放的底層平臺(tái),開發(fā)了監(jiān)控預(yù)警、數(shù)據(jù)校驗(yàn)、個(gè)性化調(diào)度等功能,以產(chǎn)品化加開放API的組合拳,實(shí)現(xiàn)了符合證券行業(yè)應(yīng)用場景的數(shù)據(jù)集成方案。
?
批量化的加速提取
?
在目前大數(shù)據(jù)時(shí)代,數(shù)據(jù)的加工流程已經(jīng)發(fā)生了變化,從以前的單表采集、清洗轉(zhuǎn)化、落庫(ETL)轉(zhuǎn)向數(shù)據(jù)單純采集不進(jìn)行轉(zhuǎn)化直接落庫。所有的轉(zhuǎn)化在數(shù)據(jù)落庫后通過大數(shù)據(jù)技術(shù)進(jìn)行清洗轉(zhuǎn)化(EL)。
而目前市場上,更多得數(shù)據(jù)采集的粒度還是在單表級(jí),并且需要進(jìn)行可視化轉(zhuǎn)化清洗等操作,浪費(fèi)了不必要的時(shí)間。
DataPipeline適應(yīng)了時(shí)代的需求,采取批量化的采集方式,同時(shí)對同個(gè)系統(tǒng)的幾十幾百個(gè)表一并采集,大大提高了我們(財(cái)通證券)的數(shù)據(jù)采集效率。
?
對資源的監(jiān)控
?
老版數(shù)據(jù)集成工具等抽取工具,在執(zhí)行的時(shí)候會(huì)完全放開抽取進(jìn)程的能力,會(huì)有很好的抽取速度,但是由于沒有辦法進(jìn)行統(tǒng)一的任務(wù)管控,這會(huì)對上游系統(tǒng)的數(shù)據(jù)庫造成很大的壓力。
使用傳統(tǒng)的集成工具,我們最高能消費(fèi)掉到系統(tǒng)生產(chǎn)備庫50%的性能,單庫每秒鐘的流量條數(shù)接近10萬,但這樣做就觸發(fā)了上游系統(tǒng)的預(yù)警,為保證生產(chǎn)系統(tǒng)的安全穩(wěn)定,采集系統(tǒng)必須進(jìn)行波峰限流。
DataPipeline的工具定義了采集條數(shù)和采集流量的雙重閾值,而且由于其任務(wù)是對于整個(gè)任務(wù)下的所有表的總值進(jìn)行限定,粒度更加適合企業(yè)級(jí)統(tǒng)一采集工具的使用,保證了企業(yè)應(yīng)用的安全性。
?
跳板機(jī)的實(shí)施
?
作為金融企業(yè),數(shù)據(jù)安全是重中之重,所以核心系統(tǒng)的數(shù)據(jù)都是通過網(wǎng)閘進(jìn)行網(wǎng)絡(luò)隔離,如何快速將數(shù)據(jù)從不同的網(wǎng)絡(luò)環(huán)境抽取數(shù)據(jù),那么就需要通過跳板機(jī)模式進(jìn)行處理。
DataPipeline通過跳板機(jī)的方式,讓跳板機(jī)承擔(dān)數(shù)據(jù)中轉(zhuǎn)服務(wù),整體采集的控制端存放在非內(nèi)網(wǎng)環(huán)境,確保出現(xiàn)問題可以在外部環(huán)境中進(jìn)行直接管理和問題排查。
值得一提的是,DataPipeline是市場上唯一可以做到這一點(diǎn)的公司。
?
人工智能時(shí)代的考慮
?
券商以前追求的是高質(zhì)量的可用數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)),如可視化的股價(jià)、經(jīng)濟(jì)數(shù)據(jù)等。在人工智能時(shí)代下,更多維度,數(shù)量更大的基礎(chǔ)數(shù)據(jù)(結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù))顯得更加重要,所以需要采集的表的數(shù)量更多,數(shù)據(jù)也分布在更多的業(yè)務(wù)系統(tǒng)。各系統(tǒng)的數(shù)據(jù)庫類型也不一樣,所以也出現(xiàn)了對于異構(gòu)數(shù)據(jù)庫抽取到某一個(gè)特定的數(shù)據(jù)庫這樣的需求。
業(yè)內(nèi)更多使用的是消息中間件的方式去進(jìn)行,而DataPipeline在上游數(shù)據(jù)源和下游數(shù)據(jù)庫之間建立中間件,使用通用的中間件架構(gòu)完成非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)的架構(gòu)統(tǒng)一。
?
高效的服務(wù),肉眼可見的成果
?
DataPipeline的研發(fā)團(tuán)隊(duì)的工作期并不止于產(chǎn)品完成。交付產(chǎn)品后,DataPipeline團(tuán)隊(duì)在短時(shí)間內(nèi)對客戶的各種行業(yè)特性需求快速響應(yīng),本著客戶至上的原則,為財(cái)通提供了優(yōu)質(zhì)及時(shí)的服務(wù)。
三月份與貴公司(DataPipeline)談一次需求的優(yōu)化,很快改版就出來了。基本上券商行業(yè)的一些特定需求都可以很好地滿足了。
這樣的效率帶來的高效結(jié)果也不會(huì)驚奇:僅僅是提取結(jié)構(gòu)性數(shù)據(jù)一項(xiàng),DataPipeline就“完爆”了前輩的老版數(shù)據(jù)集成工具。使用老版工具,幾百張表的抽取配置需要花費(fèi)50個(gè)小時(shí),而使用了批量化采集的DataPipeline基本可以在5分鐘內(nèi)完成。
?
結(jié)語
?
由于金融行業(yè)具備的數(shù)據(jù)同步與集中性,ETL對性能和穩(wěn)定性要求非常高。而ETL開發(fā)繁瑣,變化頻繁又無法外包,這就成為了所有券商的痛點(diǎn)。財(cái)通證券作為一家典型的券商公司,通過DataPipeline的幫助,更敏捷、更高效、更簡單地實(shí)現(xiàn)了復(fù)雜異構(gòu)數(shù)據(jù)源到目的地的實(shí)時(shí)數(shù)據(jù)融合和數(shù)據(jù)管理等綜合服務(wù),使中小型券商的痛點(diǎn)得到有效的解決,并且為新時(shí)代的到來做好了充分的準(zhǔn)備。
?
—end—
轉(zhuǎn)載于:https://www.cnblogs.com/DataPipeline2018/p/9811133.html
總結(jié)
以上是生活随笔為你收集整理的在人工智能时代下,如何让券商的数据做到“快准稳”的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HDU - 2844 Coins(多重背
- 下一篇: 格式化输出py