《数据整理实践指南》一第1章 从头说起:什么是噪音数据
本節書摘來自異步社區《數據整理實踐指南》一書中的第1章,第1.1節,作者【美】Q. Ethan McCallum(麥卡倫),更多章節內容可以訪問云棲社區“異步社區”公眾號查看
第1章 從頭說起:什么是噪音數據
數據整理實踐指南
我們都口口聲聲說喜歡數據,實際上并非真的喜歡。
我們喜歡的只是洞察數據,這和喜歡數據本身并不一樣。
實際上,很多人和我一樣,甚至可以說并不關心數據本身。
什么是噪音數據(Bad Data)呢?很難給它下個準確的定義。有些人認為它純粹屬于經驗上的、技術方面的問題:缺失值、記錄格式不對或者是蹩腳的文件格式。當然,這些都屬于噪音數據,但是實際上噪音數據涵蓋的范圍要比這廣得多。噪音數據還包含那些浪費你的時間、導致你不得不在公司加班以及那些讓你崩潰欲哭無淚的數據。那些你無法訪問的、曾經擁有又丟失的以及發生了變更的數據,可能都屬于噪音數據。
簡而言之,噪音數據是那些“給你惹麻煩的數據”。有很多種情況都會產生噪音數據,比如蹩腳的存儲、糟糕的說明,甚至是讓人誤解的策略。如果你從事數據科學這方面時間足夠長,必定會遇到很多不同的噪音數據。
因此,我們想要編一本《數據整理實踐指南》,一本關于“煩人的數據”大典。在本書中,19位來自不同領域的數據專家和我們分享關于噪音數據的故事,以及他們是如何從中走出來的痛苦經歷。
下面是他們的故事。
Grubby的動手實踐指南
通常不能假設一個新的數據集是干凈的并且已經可以分析了。在第2章“是我的問題還是數據的問題”探討了嘗試駕馭數據的一些技術。
在電子表格中還有很多數據難以使用,電子表格格式過于紛繁復雜,對數據分析很不方便。在第3章“數據是給人看的不是給機器看的”中,Paul Murrel展示了一些提取數據的方法。
如果你和文本數據打交道,遲早會因為文字編碼而“屢受重創”。在第4章“純文本中潛在的噪音數據”闡述了存在哪些問題以及如何解決。
總而言之,在第5章“重組Web數據”幫你分析了在Web開發中會碰到的種種“坑”。
數據——讓人充滿意外
人們在網上評論時不會說真話,Jacob Perkins發現人們的撒謊方式很奇怪。在第6章“檢測撒謊者以及相互矛盾網上評論的困惑”中揭示了Jacob的自然語言處理時如何揭露這股新的“撒謊力量”。
即使數據中的一切都會出錯,我們還可以依賴唯一標志符嗎?在第9章“當數據和現實不匹配”中,Spencer Burns分享了其在金融市場的經歷,解釋了為什么唯一標識符也不靠譜。
方法
目前工業界依然在努力準確定義“數據科學家”,但我們都知道寫代碼是其中的一部分。第8章“血、汗和尿”從軟件開發者角度給出了一些充滿智慧的建議。
第7章,Philipp K. Janert在“請噪音數據站出來”中分享了是否有真正的噪音數據。
你的數據可能有問題,而你卻還蒙在鼓里。正如Jonathan A. Schwabish在第10章“偏差和誤差的來源”中所述,收集數據的方法決定了數據會帶給你什么樣的麻煩。
在第11章“不要把完美和正確對立起來:噪音數據真是噪音嗎”中,Brett J. Goldstein的一些回顧闡釋了噪音數據如何給傳統的統計訓練帶來實際的挑戰。
數據存儲和基礎設施
如何存儲數據對你如何分析數據影響至關重大。在第13章“臥庫表,隱網絡”中,Bobby Norton解釋了如何查看關系數據庫中的圖形數據結構。
云計算的可擴展性和彈性使得它成為大規模數據分析的理想選擇,在第14章“云計算神話”中,Steve Francia詳細解釋了其中一些概念和理念,以便你快速入門。
我們探討關系數據庫以及NoSQL、Mongo和Couch、某兩個基于Hadoop的存儲之間的區別。在第12章“數據庫攻擊:什么時候使用文件?”提供了另一種存儲選擇的探討。
數據的商業化
有時聘請一名全職的數據科學家并不合適,或者需要一項你所不知道的技能。在第16章“如何雇傭機器學習專家”,Pete Warden闡述了如何把機器學習工作外包出去。
企業的官僚制度可能會成為你數據分析的障礙,使得你幾乎無法分析數據。在第15章“數據科學的陰暗面”描述了應該避免的一些最差的方式。
數據策略
顯然,你知道自己使用的方法,但是你真的理解這些數據圖是怎么生成的嗎?在第17章“數據的可追蹤性”是對數據處理流程的思考。
當數據沒有正確處理時會變得格外糟糕:想要的東西不存在,想要刪掉的卻還在那里。在第18章“社交媒體:是可以抹去的印記嗎”中,Jud Valeski探討了社交媒體的未來,并分享對不遠的未來的一些思考。
在本書的最后,第19章“揭秘數據質量分析:了解數據什么時候足夠優質”。第19章是第2章內容的補充,我們闡述了如何評估數據質量,以及如何構建數據質量相關平臺。
總結
以上是生活随笔為你收集整理的《数据整理实践指南》一第1章 从头说起:什么是噪音数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 艾利和推出 ACRO CA1000T 一
- 下一篇: 《C语言编程魔法书:基于C11标准》——