日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《数据整理实践指南》一第1章 从头说起:什么是噪音数据

發布時間:2023/12/15 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《数据整理实践指南》一第1章 从头说起:什么是噪音数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本節書摘來自異步社區《數據整理實踐指南》一書中的第1章,第1.1節,作者【美】Q. Ethan McCallum(麥卡倫),更多章節內容可以訪問云棲社區“異步社區”公眾號查看

第1章 從頭說起:什么是噪音數據

數據整理實踐指南
我們都口口聲聲說喜歡數據,實際上并非真的喜歡。

我們喜歡的只是洞察數據,這和喜歡數據本身并不一樣。

實際上,很多人和我一樣,甚至可以說并不關心數據本身。

什么是噪音數據(Bad Data)呢?很難給它下個準確的定義。有些人認為它純粹屬于經驗上的、技術方面的問題:缺失值、記錄格式不對或者是蹩腳的文件格式。當然,這些都屬于噪音數據,但是實際上噪音數據涵蓋的范圍要比這廣得多。噪音數據還包含那些浪費你的時間、導致你不得不在公司加班以及那些讓你崩潰欲哭無淚的數據。那些你無法訪問的、曾經擁有又丟失的以及發生了變更的數據,可能都屬于噪音數據。

簡而言之,噪音數據是那些“給你惹麻煩的數據”。有很多種情況都會產生噪音數據,比如蹩腳的存儲、糟糕的說明,甚至是讓人誤解的策略。如果你從事數據科學這方面時間足夠長,必定會遇到很多不同的噪音數據。

因此,我們想要編一本《數據整理實踐指南》,一本關于“煩人的數據”大典。在本書中,19位來自不同領域的數據專家和我們分享關于噪音數據的故事,以及他們是如何從中走出來的痛苦經歷。

下面是他們的故事。

Grubby的動手實踐指南
通常不能假設一個新的數據集是干凈的并且已經可以分析了。在第2章“是我的問題還是數據的問題”探討了嘗試駕馭數據的一些技術。

在電子表格中還有很多數據難以使用,電子表格格式過于紛繁復雜,對數據分析很不方便。在第3章“數據是給人看的不是給機器看的”中,Paul Murrel展示了一些提取數據的方法。

如果你和文本數據打交道,遲早會因為文字編碼而“屢受重創”。在第4章“純文本中潛在的噪音數據”闡述了存在哪些問題以及如何解決。

總而言之,在第5章“重組Web數據”幫你分析了在Web開發中會碰到的種種“坑”。

數據——讓人充滿意外
人們在網上評論時不會說真話,Jacob Perkins發現人們的撒謊方式很奇怪。在第6章“檢測撒謊者以及相互矛盾網上評論的困惑”中揭示了Jacob的自然語言處理時如何揭露這股新的“撒謊力量”。

即使數據中的一切都會出錯,我們還可以依賴唯一標志符嗎?在第9章“當數據和現實不匹配”中,Spencer Burns分享了其在金融市場的經歷,解釋了為什么唯一標識符也不靠譜。

方法
目前工業界依然在努力準確定義“數據科學家”,但我們都知道寫代碼是其中的一部分。第8章“血、汗和尿”從軟件開發者角度給出了一些充滿智慧的建議。

第7章,Philipp K. Janert在“請噪音數據站出來”中分享了是否有真正的噪音數據。

你的數據可能有問題,而你卻還蒙在鼓里。正如Jonathan A. Schwabish在第10章“偏差和誤差的來源”中所述,收集數據的方法決定了數據會帶給你什么樣的麻煩。

在第11章“不要把完美和正確對立起來:噪音數據真是噪音嗎”中,Brett J. Goldstein的一些回顧闡釋了噪音數據如何給傳統的統計訓練帶來實際的挑戰。

數據存儲和基礎設施
如何存儲數據對你如何分析數據影響至關重大。在第13章“臥庫表,隱網絡”中,Bobby Norton解釋了如何查看關系數據庫中的圖形數據結構。

云計算的可擴展性和彈性使得它成為大規模數據分析的理想選擇,在第14章“云計算神話”中,Steve Francia詳細解釋了其中一些概念和理念,以便你快速入門。

我們探討關系數據庫以及NoSQL、Mongo和Couch、某兩個基于Hadoop的存儲之間的區別。在第12章“數據庫攻擊:什么時候使用文件?”提供了另一種存儲選擇的探討。

數據的商業化
有時聘請一名全職的數據科學家并不合適,或者需要一項你所不知道的技能。在第16章“如何雇傭機器學習專家”,Pete Warden闡述了如何把機器學習工作外包出去。

企業的官僚制度可能會成為你數據分析的障礙,使得你幾乎無法分析數據。在第15章“數據科學的陰暗面”描述了應該避免的一些最差的方式。

數據策略
顯然,你知道自己使用的方法,但是你真的理解這些數據圖是怎么生成的嗎?在第17章“數據的可追蹤性”是對數據處理流程的思考。

當數據沒有正確處理時會變得格外糟糕:想要的東西不存在,想要刪掉的卻還在那里。在第18章“社交媒體:是可以抹去的印記嗎”中,Jud Valeski探討了社交媒體的未來,并分享對不遠的未來的一些思考。

在本書的最后,第19章“揭秘數據質量分析:了解數據什么時候足夠優質”。第19章是第2章內容的補充,我們闡述了如何評估數據質量,以及如何構建數據質量相關平臺。

總結

以上是生活随笔為你收集整理的《数据整理实践指南》一第1章 从头说起:什么是噪音数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。