大数据,why python
ps,?2015-12-4?20:47:46 http://www.open-open.com/news/view/fbffc4
《機器學習編程語言之爭,Python奪魁》,又是一只黑天鵝
-------- 在《zwPython 3.0 初步規劃》blog中,我們極大地強化了大數據功能,并作為首個All-in-one大數據分析平臺。參見:http://blog.sina.com.cn/s/blog_7100d4220102vlpa.html
zwPython 3.0目標:目前最強的集成式Python開發平臺,大數據分析平臺,沒有之一:
- ?比pythonXY更加強大,內置全中文用戶手冊;
- ?蘋果“開箱即用”模式,綠色軟件,解壓即可,零配置。
- ?首個All-in-one大數據分析平臺:內置pandas、Scala、R語言、Q語言、Quant、matlab、hadoop、spark模塊庫和API接口支持。(僅限V3.0版本)
- ?超強功能:圖像處理、AI人工智能、機器學習、openCV人像識別、gpu、openCL并行超算開發、pygame游戲設計......
為什么是python,而不是r語言、Julia、matlab、Scala、Hadoop、Spark,等目前熱門的解決方案。 這個,主要是因為python發展太快,太猛,尤其是在AI人工智能、機器學習領域,已經超越lisp,成為行業標準。 而國內,因為中英語言、區域分隔等種種原因,通常要落后歐美2-3年。 像大數據架構,目前歐美IT行業:“強烈推崇Spark技術,宣稱Spark是大數據的未來,同時宣布了Hadoop的死刑” 無他,因為Spark比Hadoop快一百倍。 而國內,今天百度了一下大數據人才需求,90%還是:Hadoop
大數據的核心是數據分析,數據分析的核心是模式匹配、機器學習方面的算法模型。 簡單但說,就是一個類似字符串匹配的算法,不過這個字符串是一個超長的字符串,可能超過1000T字節。
算法、模型,向來是AI人工智能理論方面的范疇,這個類似于量子理論物理學,和理論天文學。 目前人工智能尚處于0.1版本階段,大體上相當于哥白尼以前的天文學“地球中心說”、和量子物理以前的經典物理學階段。 因此,大數據、人工智能,基本上,就和理論物理學差不多,AI的算法模型,99%都是靠理論推測,說白點,基本上靠“蒙” (參見《人工智能永遠差500年》http://blog.sina.com.cn/s/blog_7100d4220102vmlm.html) 這里“蒙”,并非貶義詞,是指,大部分相關的理論,很多都是經驗參數、經驗理論,既然是經驗,就有可能成功,更多的可能是失敗,特別是推而廣之的時候。 (參見《國內首個大數據網絡推廣實戰案例》http://blog.sina.com.cn/s/blog_7100d4220102vmlm.html)
我說“蒙”大家可能不服氣,這個卻是老老實實,來自一線的實戰經驗,慶幸的是,國外的頂級AI學者的觀點也差不多: “對于(大數據、人工智能)這個詞,我覺得最近社交網絡上比較流行的那個笑話非常貼切,把大數據比作青少年性行為:每個人都在談論它,沒人知道到底怎么做,每個人都以為其他人知道怎么做,所以每個人都聲稱自己也在做、”(參見附錄)
當然,這個0.1階段,也已經能夠解決N多實際問題了,例如目前的人臉識別、車牌識別、客戶行為模式分析、網絡廣告點擊分析、關聯商品推薦等算法都比較成熟。
我談大數據,特別是黑天鵝算法,更加強調我們提出的“小數據理論”,原因有以下兩個: 首先,簡單來說,國內除了進入“國際500強”的企業,例如阿里、百度、四大銀行、移動等巨無霸企業。 99%的企業,基本上并不需要大數據,這些企業所謂的大數據,其實只是最簡單的數據庫、數據分析。 簡單做個大數據的量化門檻標準,可以分為以下兩條: 1、企業的活躍用戶規模超過一個億。 2、每天的活躍用戶更新數據的數據量,超過數據總量的1%,換句話說,每天有過百萬的活躍用戶數據更新。 如果符合以上兩條,可以導入真正的大數據平臺:hadoop、spark,其他的,用pandas、R語言、matlab,或者其他傳統數據庫,可能效果更佳好。 例如淘寶、阿里的用戶就完全符合以上兩條,是典型的大數據企業。 而中國民政部門,負責人口統計管理的信息中心,每個人的記錄就那么幾十條記錄,例如:出生日期、籍貫、性別等,基本都是關系數據庫表格可以高效處理的,即使數據庫規模,超過十億人,也無需采用什么大數據系統,一臺i7的的筆記本,基本上就可以搞掂。
當然,這里的一億用戶、1%,日過百萬活躍用戶,也都是筆者根據一線實戰,總結的經驗參數。 這些參數,不一定完全正確,但還是有過十年的專業經驗做背書的。 例如,筆者得知百度世界杯足球預測十八連勝,就斷言,百度的大數據、人工智能算法不靠譜,里面絕對有大量的人工干擾。 果然,不斷兩個月,百度的大數據圖像識別,被K了,(百度在ImageNet圖像識別測試中有違規行為) 參見《又一只黑天鵝爆掉了》,http://blog.sina.com.cn/s/blog_7100d4220102vnm2.html 注意這個blog日期,和zw大數據系列blog,最早斷言,百度大數據有問題的blog發表日期,這個是真實的案例。 這個也可以視為一種經驗模型,因為我們的黑天鵝算法,自身數據回測,準確度,也不會超過90%。谷歌、微軟的準確度在50-60%左右。
我們強調“小數據理論”的第二個原因,以目前大數據應用最廣泛的、最深入的量化交易為例。 無論什么模型、算法,無論是pc集群、云計算、天河巨型機系統,歸根到底,就是一個“漲”和“跌”的問題。 簡而言之,就是一個1與0的問題。 這個,說來說去,又繞到了最基本的哲學問題,非三言兩語能夠說清。 ps,2015.8.11 補充,本文發布后,發現也有學者開始強調“小數據”了
《大數據,小數據,哪道才是你的菜?》
http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html
看來,zw的大方向,還是正確的 :)
事實上,對于大數據而言,比金融股票更好的數據算法對象,是足彩數據, 因為足彩的結果是3、1、0,勝、平、負,三種狀態結果 這三種狀態結果,可以適用于所有的模型框架,暗合易經之道: 一生二,二生三,三生萬物。 至于為什么,我也在研究。
有興趣的朋友,可以參考《文科生、易經與大數據》 http://blog.sina.com.cn/s/blog_7100d4220102vne7.html
關于大數據、高頻交易和人工智能,個人的基本觀點:凡是無法通過“足彩數據”實盤測試的方案、算法,都是在耍流氓。 足彩數據是最透明的數據源,如果足彩不是 就沒有更加公平的了博弈模型, 如果 這個都通不過其他都是扯蛋 所以說:足彩是最合適的數據源有歷史數據 還有橫向對比 其他任何數據源都沒有這種實時的“矩陣”數據源 2014年世界杯對于大數據人工智能 是個分水嶺 是元年 微軟 谷歌 百度都有相關的項目勝率<50%
參見《字王看:大數據觀點補充》 http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html
AI人工智能理論專家,和理論物理學家、理論天文學,大部分不是程序員(實驗員), 因此,要求他們學習c,可能需要等上一百年,還不一定靠譜。 不過,“生命總是會找到自己的進化之路。”(侏羅紀公園) 轉來轉去,AI人工智能、大數據方面的理論專家,不約而同地找到了python 同樣的,目前量化投資領域,一線交易員必須自己code,他們的選擇也是python
“目前,量化投資、高頻交易領域,一線操盤手自己編程,將投資策略直接程序化,已經成為國際大投行的標配。” “在數據處理領域,特別在量化交易方面,python已成為“統治級”編程語言。” 參見《零起點,python大數據與量化交易》 http://blog.sina.com.cn/s/blog_7100d4220102vlpa.html
事實上,目前,python已經是天文學、化學行業的標準編程語言 既然,這些地球上最聰明的家伙,都不約而同選擇了python,我們為什么不“跟進”呢?
目前,python在人工智能、機器學習方面積累的資源,可能比c、r語言、matlab等加起來都要多,而且全部是“TOP one”級別的: scikit-learn、Orange、NLTK、MDP、PyBrain、BigML、PyML、Pattern 、Theano、Pylearn等
r語言雖然憑借統計背景,在早期的大數據、人工智能方面有些熱, 不過,到2012、2013年,涉及到深層的AI理論、算法模型時,r語言就力不從心了 而此時,無論是厚積薄發的scikit-learn、NLTK,還是pandas、Theano、Pylearn的異軍突起, 一下子,就把r語言上升的勢頭給掐死了,順便把,matlab給傷大了,就像加多寶PK王老吉,把和其正給滅了。:)?
Hadoop、Spark雖然都內置編程語言,特別是spark,內置的scala,完全lisp風格 lisp近年因函數編程大熱,事實上,lisp和prolog,也一直是AI人工智能的行業標準語言。 lisp的逆波蘭語法雖然小眾,不過作為AI行業的筆者,還是比較熟悉的,而且比起曾經用過的,100%純逆波蘭風格的forth,語法要簡單、傳統N倍 盡管如此,筆者還是義無反顧,選擇了python。
因為,目前大數據、人工智能、機器學習都尚處于0.1版本階段 這個階段,需要的是,大量的建模、分析、測試 而python,可能是地球上建模最快的編程語言,再加上,python有這么多的數據分析、機器學習模塊庫,而且大部分是開源的 AI行業,國際頂級的專家學者也如是說:(參見附錄) “基本上(機器學習)工具有兩個推薦:Torch7(lua)、Theano + Pylearn2(python)”
python最大的缺點是速度,一般比c慢十倍左右,不過大數據分析的瓶頸在IO, 目前,全內存計算是趨勢,而且intel前幾天發布的xpoint,號稱能夠提高內存速度1000倍,基本上是cpu內部cache級別 (事實上,目前最前沿的高頻、黑池交易軟件,已經開始基于cpu的cache進行加速編程) 另外一個大殺器是,gpu并行運算,無論是cuda、opencl,2014年,千元左右的GPU,已經能夠提速3-500倍,未來幾年,2020前,提速3000-5000倍,甚至上萬倍,應該沒有問題。 具體到python,雖然有衰減,不過目前,非官方的GPU模塊庫,提速100-200倍,已經完全ok。
至于gpu并行運算的門檻,目前已經很低了,最簡單的,只要在相關函數前,加一個python的修飾符"@jit",就全自動加速。 無需修改任何其他代碼,至于超級復雜的cpu、gpu內存拷貝、交換,cl異構運算語法、矢量編程,完全可以無視,比matlab還方便 pandas、scikit-learn的GPU加速模塊,也已經發布了多種版本, 目前,python與c、fortran,已經是cuda官方認可的三大gpu并行編程語言。 工業級的大數據分析,離開gpu,即使是計算機集群,無論在投資產出、還是實時運算方面,完全就是扯淡。 相比c、fortran,無疑,python要可愛的多,特別是“小白”般的理論學者。
python號稱:膠水語言,是目前唯一能夠打通: pandas、Scala、R語言、Q語言、Quant、matlab、hadoop、spark 等目前、以及未來,各種大數據架構的平臺,
統一的開發環境、統一的數據分析平臺,無論在前期的建模、測試,還是后期的數據分析、系統維護, 在管理維護、培訓研發成本方面,至少可以降低一個數量級。 想象一下,同時維護windows、linux,甚至還有ios、bsd,以及手機安卓app, 更何況,大數據往往還需要提供集群,gpu異構運算支持。。。。。 這些,僅僅是維護的硬件、軟件名錄清單,就可以把一個企業的IT部門主管,以及所有的工程師逼瘋。
既然,python如此美好? 大數據, why python? 應該說得通吧。 (ps,本文是因《zwPython 3.0 初步規劃》blog,有感而作,沒有詳細核對資料,可能有不少bug,請大家諒解)
ps2.2015.8.10
《大數據, why python?》,原本以為只是一家之言 blog發布不到幾天,發現了一篇類似的blog 《大數據全棧式開發語言 – Python》 http://news.cnblogs.com/n/526283/
Python 可以稱為大數據全棧式開發語言。因為 Python 在云基礎設施,DevOps,大數據處理等領域都是炙手可熱的語言。 像只要會 JavaScript 就可以寫出完整的 Web 應用,只要會 Python,就可以實現一個完整的大數據處理平臺。
看來,《大數據, why python?》,又召喚到一只黑天鵝
--------------- 【附錄】 blog的部分引用,來自對國際頂尖AI專家Yann LeCun(燕樂存)的訪問記錄 http://www.cnblogs.com/yymn/p/4619320.html Yann LeCun(燕樂存),Facebook人工智能實驗室主任,NYU數據科學中心創始人,計算機科學、神經科學、電子電氣科學教授。 他1983年在ESIEE獲得電氣工程學位,1987年在UPMC獲得計算機博士學位。在多倫多大學做了一段時間博士后,于1988年加入位于新澤西州的AT&T貝爾實驗室。 1996年他成為圖像處理研究部的主任,2003年,在普林斯頓NEC研究院經歷短暫的Fellow生活以后,加入NYU。 2013年,他被Facebook聘請為人工智能實驗室主任,同時仍在NYU兼職。
?深度學習可不是一個容易用的方法,你能給大家推薦一些工具和教程么?大家都挺想從在自己的數據上跑跑深度學習。 答:基本上工具有兩個推薦: Torch7 Theano + Pylearn2 他們的設計哲學不盡相同,各有千秋。Torch7是LuaJIT語言的一個擴展,提供了多維數組和數值計算庫。它還包括一個面向對象的深度學習開發包,可用于計算機視覺等研究。 Torch7的主要優點在于LuaJIT非常快,使用起來也非常靈活(它是流行腳本語言Lua的編譯版本)。
Theano加上Pylearn先天就有Python語言帶來的優勢(Python是廣泛應用的腳本語言,很多領域都有對應的開發庫),劣勢也是應為用Python,速度慢。
?xxxx 答:“對于(大數據、人工智能)這個詞,我覺得最近社交網絡上比較流行的那個笑話非常貼切,把大數據比作青少年性行為:每個人都在談論它,沒人知道到底怎么做,每個人都以為其他人知道怎么做,所以每個人都聲稱自己也在做、”
----------- ps,8月11日,新浪blog審核,老是不讓發新文章,只能先把
《大數據·實戰個案“宏”分析》作為附件發這里
------------大數據·實戰個案“宏”分析
MBA教育體系最成功之處,就在于導入了科學的個案分析。
Ps,二戰最偉大的技術成功,不是原子彈、導彈、噴氣機,而是流水線。流水線提供的生產力,比二戰所有科技提高的總和還要高。
至于“宏”,學過c語言的,都知道宏定義、宏替換。
本文不玩文字游戲,也不玩數字游戲,只是簡簡單單,對幾個大數據實戰個案,進行宏觀的定性分析。
目前,大數據,和大數據分析的核心,人工智能,都處于v0.1的黑暗期,這個階段,“宏”分析,可能比大量的數字堆砌,更加重要。
還記得量子物理學爆發前的原子軌道模型嗎?
當時,有幾個人能夠想象、理解原子軌道的跳變模型?
還記得天圓地方、地球中心學嗎?
要不是哥倫布,“宏”分析一把,認為地球是個“球”,敢去環球探險?
?
廢話少說,言歸正傳。
本文“宏”分析,包括以下幾個大數據案例:
l?經典“啤酒+尿布”案例
l?2015中國股市“七·七”股災
l?國內首個大數據網絡推廣個案
?
個案1:經典“啤酒+尿布”案例
“啤酒+尿布”案例,是最經典、最古老的大數據個案,其歷史甚至比大數據這個名詞更悠久。
早在上個世紀,dbase時代,數據倉庫,數據分析,都用其做過案例。
久而久之,“啤酒+尿布”案例,似乎成了“神”一樣的存在。
好像三大幾何原理,成為大數據的基本“公理”。
不過,這個“神”,是“偽神”。
?
參見:《字王看:大數據觀點補充》
http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html
【黑天鵝才是新常態】
"啤酒和尿布有什么關系",這個十年前經典案例,?目前我是作為反面課件來說的
這個是冰島的一個數據分析結果,至少?在中國??不存在
?
參見:《大數據與黑天鵝等》
http://blog.sina.com.cn/s/blog_7100d4220102vkxa.html
大數據,再多的專家,再nb的模型,再炫的demo,
也不如自己親自去沃爾瑪、家樂福、華潤等超市親眼看看,再回頭問問這些大師們,"啤酒和尿布"模型,怎么玩砸了?
個案2:2015中國股市“七·七”股災
blog《股災、馬云、大數據》
http://blog.sina.com.cn/s/blog_7100d4220102vpzv.html
?
blog,雖然發布與7月20日,但成文要早得多。
“這篇blog,股市關頭“七·七”之日,就差不多構思,因為事件敏感,一直壓住沒有發布。”
?筆者的這篇blog,可能是全網第一個,從大數據分析、技術層面,對“七·七”股災,進行“宏”分析,斷定事件:
?“七·七”股災,根本就不關華爾街、美帝什么事?
?幸運的是,筆者blog當中,對于“七·七”股災的“宏”分析,及其推斷,目前,已經證明是科學的、正確的。
????“七·七”股災前后,整個社會好像“三戰”核彈爆發,經濟、金融的“滅國”之戰,國家經濟有倒退十年的危險。。。。。
???連外訪總理都匆忙回國,好像美國華爾街、聯合歐洲、日本等全球資本,惡意做空中國,
???更加關鍵的是,這種錯誤的推斷,引發了政府部門實質性的的救市行為,上萬億的資金被導入股市,
? ?好似當年三個代表,有關政府部門,近期言必“大數據”,這次股災應對,必然會極大的參考大數據方面的資料。
???可惜,政府主導的大數據,和其他政府項目一樣,往往換來的是是十倍、百倍的失敗。
???面對“七·七”股災,政府種種應對措施,全面失敗,而且,鬧出了個世界金融史上的超級“大烏龍”事件,居然找錯了“靶標”。
???“七·七”股災的最終調查結果,目前雖然沒有發布,但有消息稱,雖然不一定正確:
???前期,不過是江浙的一些土老板,為防止風險,做的空頭對沖保險,因為配資杠桿,引發的技術性股市大幅度下調。
???后期,則是因為程序化交易系統,對閥值K值的設定,引發的一系列自動拋盤,
???就像前幾年光大烏龍事件,專業人員一聽,就知道是因為交易系統,相關參數,未進行初始化設置,直接上線引發的自動拋盤
???也許,“七·七”股災,根本就不關華爾街、美帝什么事?
???完全是躺槍。
?ps,8月10日新增片段:筆者很少引用中華網的資料,因為基本是TG的文宣。不過這次,過了一個月,這些blog也羞羞答答、間接認可了上面的推斷。
《大老虎想在中國玩雙頭政治?白日做夢》 ??http://jnwct.blog.china.com/201508/13458004.html
???歐洲最近有點看中國的笑話。大老虎作亂。歐美都看笑話。
???(ps,應該就是這個“七·七”股災的超級“大烏龍”事件)
???
個案3:國內首個大數據網絡推廣個案
?2004年,我們利用AI人工智能和大數據分析技術,研發成功國內首個海量級社區營銷軟件:百萬社區營銷系統(軟件著作權登記號:2005sr5133)。社區數據庫超過一百萬個,比同期類似產品,高兩個數量級。
2008年,依托百萬社區營銷系統,在北京聯合創辦國內首家4A級的專業網絡公關公司:wowa傳媒,首年業績突破一千萬。
同年,“特侖蘇”?危機公關案爆發,wowa受中國國際公關協會委托,在北京,首度對國內大型公關公司,統一進行專業的網絡公關培訓,被協會譽為:中國網絡公關事業的開拓者和啟蒙者。
Wowa服務過150+國際500強客戶;是微軟公司首家官方認證的網絡公關服務商;新華美通首選網絡傳媒合作伙伴;國內TOP10網絡公關公司,50%采購過wowa的服務。
?2007年,操盤惠普筆記本“數碼混搭”推廣個案,成為年度十大公關行業經典案例(注意,非僅指網絡公關);被業界譽為:史上最強之網絡推廣案例,沒有之一;不可逾越的概念營銷“標桿之作”。
?我們在惠普筆記本“數碼混搭”推廣個案當中,首度提出的百度、谷歌搜索引擎:覆蓋率指標,NLP反向鏈接數,等參數,目前已經成為網絡公關行業的基礎指數。
這個也是大數據技術,首度在網絡推廣方面的應用個案,我們當時的經驗參數:1:1000。(百度NLP反向鏈接數-抽樣采集率)。
按照客戶要求,利用自行開發的AI語義分析系統,針對“筆記本電腦”,“數碼混搭”兩個主關鍵詞,結合百度、搜狗的行業分類關鍵詞,將發布主題帖,細分為數十組不同風格的軟文,并在每篇軟文前后,插入系統細分的關鍵詞組。
硬件方面,我們采用了近百臺PC,組成了一個簡單的發布集群系統,通過1-2周時間,圍繞關鍵詞:hp筆記本、數碼混搭,發布了過百萬條網絡推廣軟文。
最終,hp筆記本“數碼混搭”的網絡推廣方案,獲得了“空前絕后滿天飛”的成功,軟文的存活率非常高。
“數碼混搭”個案當中高至70-80%的覆蓋率,至今,國內外尚沒有一家團隊、公司能夠超越,包括百度、谷歌自身。
?
?
技術博客:http://blog.sina.com.cn/zbrow
? --------------
zwPython 3.0 初步規劃
zwPython 3.0目標:目前最強的集成式Python開發平臺,大數據分析平臺,沒有之一:
?
- :: 比pythonXY更加強大,內置全中文用戶手冊;
- :: 蘋果“開箱即用”模式,綠色軟件,解壓即可,零配置。
- :: 首個All-in-one大數據分析平臺:內置pandas、Scala、R語言、Q語言、Quant、matlab、hadoop、spark模塊庫和API接口支持。(僅限V3.0版本)
- :: 超強功能:圖像處理、AI人工智能、機器學習、openCV人像識別、gpu、openCL并行超算開發、pygame游戲設計......
因為“All-in-one”大數據分析平臺,增加了N多第三方軟件,許多都是目前IT領域最前沿的大型系統,
測試相關腳本代碼很耗時間,相關軟件,包括python本身,也都在不斷更新當中(而且非常活躍),
目前無法確定最終發布時間,初步預計需要6-10個月。
幸運的是,zwPython 3.0,基本平臺框架,和80%的新增模塊,都已經到位
至于為什么選擇python,作為大數據分析平臺,請參見blog《大數據,why python》
http://blog.sina.com.cn/
---
更多參見blog《大喜,python版opencv3發布 》
http://blog.sina.com.cn/s/blog_7100d4220102vo2m.html
zwPython3的升級也可以啟動了,一直在等這個,zwPython會直接升級到版本3:zwPython3
大喜python版opencv3發布,demo腳本搶鮮版發布
zwPython3采用64位python3,支持opencv3
zwPython3的重點會由原來偏重于字庫、圖像處理,延展到大數據領域,會重點強化以下模塊:
pandas數據分析?
theano、Scikit Learn機器學習?
cuda、gpu并行超算?
采用python3,是因為v3的內碼是unicode,而且是趨勢,目前模塊庫也n多了,超過一萬個
原來用2.7版,最主要的是因為opencv2對python3 的支持很差
遺憾的是,opencv3的demo腳本還都是python2的,連GitHub的官方包都是
為方便大家學習opencv3,用2to3.py把demo腳本升級到python3,并修改了數據包目錄
測試了一下,70%可以直接運行
作為搶鮮版,大家先湊合用用
下載還是在zw項目的百度網盤:
http://pan.baidu.com/s/1tY7Wq?
?
文件名:cv3python3demo.zip
?
?
?
?
?
轉載于:https://www.cnblogs.com/ziwang/p/9500397.html
總結
以上是生活随笔為你收集整理的大数据,why python的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一些不错的文档网址--笔记【原创】
- 下一篇: micropython里面外接tf(sd