日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

《人人都在说谎:赤裸裸的数据真相》读书笔记1

發(fā)布時(shí)間:2023/12/16 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《人人都在说谎:赤裸裸的数据真相》读书笔记1 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

圖書背景

本書系《Everybody Lies: Big Data, New Data, and What》譯著 ,主要通過(guò)案例科普大數(shù)據(jù)的一些概念。

本書論述稍顯散亂,案例因?yàn)槲幕尘暗脑?#xff0c;讀起來(lái)可能有點(diǎn)乏味,但總體來(lái)講可以打及格分。

緒論

谷歌趨勢(shì),它可以告訴使用者任何一個(gè)詞語(yǔ)或短語(yǔ)在不同時(shí)間、不同地點(diǎn)的使用頻率。

人們搜尋信息這一行為本身就是信息。事實(shí)證明,他們何時(shí)何地搜尋真相、格言、笑話、地點(diǎn)、人物、事件或幫助,可以在很大程度上反映他們真實(shí)的想法、欲望、恐懼和職業(yè),其程度之高是任何人都想象不到的。

谷歌數(shù)據(jù)的功能不在于說(shuō)明那些數(shù)據(jù)中顯而易見的結(jié)果,而在于人們會(huì)向這個(gè)巨大的搜索引擎傾吐他們不會(huì)告訴任何人的事情。

"性相關(guān)的調(diào)查結(jié)果"案例表明人們會(huì)在調(diào)查時(shí)隱藏真實(shí)想法。因此,人人都在說(shuō)謊,唯一的不同就是說(shuō)謊程度的大小。

“美國(guó)大選”案例表明不能只研究哪位候選人的搜索頻率最高。很多人搜索某位候選人是因?yàn)橄矏鬯?#xff0c;但是有幾乎同等數(shù)量的人搜索某位候選人是因?yàn)橛憛捤W髡叩难芯勘砻?#xff0c;在一條包含兩位候選人姓氏的搜索中,選民更有可能將其支持的候選人姓氏放在前面

人們常常說(shuō)謊,對(duì)自己說(shuō)謊,也對(duì)別人說(shuō)謊。

首先,我得承認(rèn)我無(wú)法準(zhǔn)確定義究竟什么是大數(shù)據(jù)。為什么?因?yàn)檫@本來(lái)就是一個(gè)模糊的概念。多大才算大?如果18 462個(gè)觀測(cè)值是小數(shù)據(jù),那么18 463個(gè)就算大數(shù)據(jù)嗎?

我們正在經(jīng)歷各種可用信息數(shù)量和質(zhì)量的雙重激增。

很多人都曾對(duì)大數(shù)據(jù)的影響做過(guò)很高的評(píng)價(jià),但是他們?nèi)狈ψC據(jù)。
這導(dǎo)致為數(shù)眾多的大數(shù)據(jù)懷疑者對(duì)更大數(shù)據(jù)集的搜索不予理睬。作家兼統(tǒng)計(jì)學(xué)家納西姆·塔勒布(Nassim Taleb)曾寫道:“我不是說(shuō)大數(shù)據(jù)中沒(méi)有信息,事實(shí)上它包含很多信息,但問(wèn)題是,提取信息比大海撈針還難,而這也是主要問(wèn)題。”

本書的主要目標(biāo)之一,便是要就大數(shù)據(jù)能做什么這一問(wèn)題提供一些缺失的證據(jù)。我希望可以提供足夠多的大數(shù)據(jù)案例,為人類心理及行為提供新的見解。

證明那些你本就懷疑卻缺乏證據(jù)的事情不可謂沒(méi)價(jià)值,**但懷疑某事是一回事,證明它又是另一回事。**如果所有大數(shù)據(jù)能做的只是證實(shí)你的懷疑,那么這些數(shù)據(jù)也就不會(huì)那么具有革命性了。

正如卓別林所言:“笑聲是滋補(bǔ)品,是緩解和去除痛苦的靈藥。”實(shí)際上,人們?cè)谏钇巾?#xff08;而非不順)時(shí)搜索笑話的可能性更大。

有時(shí)新數(shù)據(jù)會(huì)體現(xiàn)我從前不曾考慮過(guò)的文化差異。

今天仍有很多數(shù)據(jù)科學(xué)家正在積累大量的數(shù)據(jù)集,卻很少闡明其重要性。太多的企業(yè)被淹沒(méi)在數(shù)據(jù)中,它們有TB級(jí)的數(shù)據(jù),卻很少有主見。我認(rèn)為數(shù)據(jù)集的大小總會(huì)被高估

對(duì)此,還有一個(gè)很微妙卻很重要的解釋,即**一種事物的影響越大,有必要觀察它的次數(shù)就越少。**你只需要觸碰一次高溫火爐就會(huì)意識(shí)到它很危險(xiǎn),但是你可能需要喝數(shù)千次咖啡才能確定它是否會(huì)讓你頭痛。

事實(shí)上,最明智的大數(shù)據(jù)公司常縮減其數(shù)據(jù)。在谷歌公司,很多重大決定都是基于其全部數(shù)據(jù)中極少量的樣本做出的。

**谷歌搜索如此有價(jià)值的一個(gè)主要原因不是這些數(shù)據(jù)的量有多大,而是人們對(duì)谷歌很誠(chéng)實(shí)。**人們會(huì)對(duì)朋友、愛人、醫(yī)生、調(diào)查人員乃至他們自己說(shuō)謊,但在谷歌網(wǎng)站,他們可能會(huì)分享令人尷尬的信息。

**最重要的是,為了從大數(shù)據(jù)中獲得見解,問(wèn)題必須問(wèn)到點(diǎn)上。**正如你不能隨意用望遠(yuǎn)鏡望向夜空就發(fā)現(xiàn)冥王星一樣,你也不能下載一大堆數(shù)據(jù)就指望可以發(fā)現(xiàn)人性的秘密。

本書將會(huì)展示如何最合理地使用大數(shù)據(jù),并詳細(xì)解釋大數(shù)據(jù)為什么會(huì)這么強(qiáng)大。在探討這些話題之前,我們需要討論一個(gè)更加基本的問(wèn)題:我們到底為什么需要數(shù)據(jù)

第一部分 大數(shù)據(jù),小數(shù)據(jù)

第一章 你的直覺出錯(cuò)了

好的數(shù)據(jù)科學(xué)遠(yuǎn)沒(méi)有人們想象的那么復(fù)雜。事實(shí)上,最好的數(shù)據(jù)科學(xué)便是一種出乎意料的直覺。為什么數(shù)據(jù)科學(xué)可以憑直覺感知呢?數(shù)據(jù)科學(xué)的核心在于發(fā)現(xiàn)不同模式以及預(yù)測(cè)一個(gè)變量如何影響其他變量。人們一直在做這類事情。

如果最好的數(shù)據(jù)科學(xué)的方法通常既具有本能性又具有直覺性,那么一個(gè)關(guān)于大數(shù)據(jù)價(jià)值的根本問(wèn)題就來(lái)了。如果人類天生就是數(shù)據(jù)科學(xué)家,如果僅憑直覺就能研究數(shù)據(jù)科學(xué),那么為什么我們還需要電腦或統(tǒng)計(jì)軟件呢?為什么我們還需要KS –檢驗(yàn)?zāi)?#xff1f;我們就不能相信直覺嗎?

哥倫比亞大學(xué)和微軟的研究提供了嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)科學(xué)與電腦相結(jié)合的明顯例證**,該例證告訴我們有些事僅憑直覺是永遠(yuǎn)無(wú)法了解的。這個(gè)例子也說(shuō)明數(shù)據(jù)集大小的重要性。有時(shí)候我們的經(jīng)驗(yàn)不足,無(wú)法通過(guò)直覺得出結(jié)論。**

盡管直覺也許常常讓我們感覺很了解這個(gè)世界的運(yùn)作方式,但這種感覺往往是不確切的。我們需要用數(shù)據(jù)使其清晰化。

在沒(méi)有電腦幫助的情況下,我們的直覺有時(shí)確實(shí)讓人眼前一亮,但直覺有可能釀成大錯(cuò),我們傾向于夸大個(gè)人經(jīng)驗(yàn)的作用。用數(shù)據(jù)科學(xué)家的話說(shuō)就是,我們總會(huì)給自己的數(shù)據(jù)加權(quán),總是過(guò)于重視一個(gè)特別的數(shù)據(jù)點(diǎn)——我們自己。

**我們總會(huì)高估所有令人印象深刻的事物的作用。**換句話說(shuō),**當(dāng)我們憑借自己的親耳所聞或親身經(jīng)歷來(lái)判定這個(gè)世界的運(yùn)作模式時(shí),通常都會(huì)出錯(cuò)。**雖然最好的數(shù)據(jù)科學(xué)方法通常是具有直覺性的,但其結(jié)果多是反直覺的。數(shù)據(jù)科學(xué)采用既具本能性又具直覺性的人工流程(先發(fā)現(xiàn)模式,而后理解其內(nèi)涵)并向其中注入更多功能,這樣我們可能會(huì)看到這個(gè)世界的運(yùn)作方式與我們之前想象的完全不同。

NBA球員家庭背景案例:是在貧窮家庭長(zhǎng)大的孩子更有可能進(jìn)入NBA,還是在中產(chǎn)階層家庭長(zhǎng)大的孩子更有可能?
第一個(gè)相關(guān)數(shù)據(jù)就是每名運(yùn)動(dòng)員的出生地。我記錄了20世紀(jì)80年代美國(guó)每個(gè)縣出生的黑人男孩和白人男孩的數(shù)量。隨后,我又記錄了其中有多少人成功進(jìn)入了NBA。我將這一數(shù)字和每個(gè)縣的平均家庭收入做了對(duì)比,還掌握了各縣的種族人口統(tǒng)計(jì)數(shù)據(jù)(這是另一本書的主題),最后我發(fā)現(xiàn)黑人進(jìn)入NBA的可能性比白人大40倍。數(shù)據(jù)顯示,如果一個(gè)孩子出生在富裕的縣,他就有更多的機(jī)會(huì)進(jìn)入NBA。

我又調(diào)查了NBA球員的家庭背景。這些信息是從新聞報(bào)道和社交網(wǎng)絡(luò)中找到的。這種方法相當(dāng)耗時(shí),不論是縣級(jí)的出生數(shù)據(jù)還是作為特定樣本的那些球員的家庭背景都無(wú)法提供所有NBA球員童年的完美信息。

后來(lái)我又想起了一個(gè)數(shù)據(jù)點(diǎn),這個(gè)數(shù)據(jù)點(diǎn)可以為個(gè)人背景調(diào)查提供有效線索,是由羅蘭·弗賴爾(Roland Fryer)和史蒂芬·列維特(Steven Levitt)這兩位經(jīng)濟(jì)學(xué)家在一篇論文中提出的——黑人的名字能夠體現(xiàn)其社會(huì)經(jīng)濟(jì)背景。富裕家庭的父母傾向于給孩子取一個(gè)常見的名字,而那些貧困家庭的單身母親則更有可能給孩子取一個(gè)獨(dú)特的名字。

截至目前,我們已經(jīng)搜集了三份不同的證據(jù):出生地、得分王母親的婚姻狀況和球員的名字。三份證據(jù)都不夠完美,但都印證了相同的結(jié)果——社會(huì)經(jīng)濟(jì)地位越高,意味著進(jìn)入NBA的可能性就越大。也就是說(shuō),傳統(tǒng)的觀念是錯(cuò)誤的。

數(shù)據(jù)科學(xué)家的目標(biāo)是了解世界。一旦發(fā)現(xiàn)了反直覺性的結(jié)果,我們就可以運(yùn)用更多的數(shù)據(jù)科學(xué)知識(shí)來(lái)解釋為什么世界并非我們看到的那樣。

第二部分 大數(shù)據(jù)的力量

第二章 弗洛伊德是正確的嗎

西格蒙德·弗洛伊德的理論是正確的嗎?有奧地利裔英國(guó)哲學(xué)家卡爾·波普爾(Karl Popper)對(duì)這一問(wèn)題做出了明確回答,他高調(diào)宣稱我們無(wú)法驗(yàn)證弗洛伊德的理論。也就是說(shuō),沒(méi)有任何辦法可以驗(yàn)證這些理論的真?zhèn)巍?/p>

過(guò)去我們沒(méi)有辦法將弗洛伊德的理論應(yīng)用于實(shí)際測(cè)試中。現(xiàn)在有辦法了。數(shù)據(jù)科學(xué)證實(shí)弗洛伊德的許多理論是毫無(wú)根據(jù)的——這門科學(xué)將他的許多著名理論應(yīng)用于測(cè)驗(yàn)中。

再來(lái)看看弗洛伊德式失言。弗洛伊德假定人們用失誤(口誤或筆誤)來(lái)表達(dá)自己的潛意識(shí),通常和性相關(guān)。

可以使用大數(shù)據(jù)來(lái)檢驗(yàn)這一理論嗎?有這樣一種辦法:看看我們的失誤(失言)是否有性的傾向。這就是我要研究微軟研究人員搜集的那4萬(wàn)多個(gè)打字錯(cuò)誤的數(shù)據(jù)集的原因。這個(gè)數(shù)據(jù)集中包含人們打錯(cuò)字后立即糾正的錯(cuò)誤。

為了找到答案,我首先使用了微軟的數(shù)據(jù)集來(lái)模擬人們錯(cuò)誤替換特定字母的頻率。我計(jì)算了用字母s替換字母t和用字母h替換字母g這兩種情況的頻率。其次,我創(chuàng)建了一個(gè)模擬人類犯錯(cuò)方式的計(jì)算機(jī)程序,我們可以稱之為Error Bot。

通過(guò)比較Error Bot和粗心的人類,我們能了解到什么呢?在以人類替換字母的方式制造出數(shù)百萬(wàn)個(gè)錯(cuò)誤之后,Error Bot犯了許多弗洛伊德性質(zhì)的錯(cuò)誤。

重點(diǎn)來(lái)了,毫無(wú)潛意識(shí)的Error Bot和人類一樣,也會(huì)犯與性相關(guān)的錯(cuò)誤。這個(gè)研究警示我們,就像許多社會(huì)學(xué)家常說(shuō)的一樣,我們還需要做更多的研究。也就是說(shuō),這種與性相關(guān)的錯(cuò)誤并不是人們故意為之的,而是無(wú)意間發(fā)生的。

弗洛伊德關(guān)于失誤可以揭示人們潛意識(shí)需求的理論被證實(shí)是毫無(wú)根據(jù)的——并且根據(jù)我的數(shù)據(jù)分析,這個(gè)理論根本就是錯(cuò)誤的。

請(qǐng)記住,我們已經(jīng)說(shuō)過(guò),單純的一堆堆數(shù)據(jù),其本身并不會(huì)自動(dòng)生成任何見解。數(shù)據(jù)大小本身被高估了。那么,為什么大數(shù)據(jù)又如此強(qiáng)大呢?為什么它又可以掀起一場(chǎng)“如何看待自己的革命”呢?我認(rèn)為,大數(shù)據(jù)有四大獨(dú)特功能,對(duì)弗洛伊德的這一分析提供了一個(gè)很好的例證。

提供新型數(shù)據(jù)是大數(shù)據(jù)的第一大功能。有關(guān)各種主題的獨(dú)特?cái)?shù)據(jù)來(lái)源為我們打開了一扇窗,通往過(guò)去僅存在于我們猜測(cè)中的領(lǐng)域。

提供可靠的數(shù)據(jù)是大數(shù)據(jù)的第二大功能。在前數(shù)字時(shí)代,人們?cè)谌饲把陲椫约盒哂趩X的想法。在數(shù)字時(shí)代,他們?cè)谌饲叭匀粚⑦@些想法隱藏起來(lái),但沒(méi)能瞞過(guò)互聯(lián)網(wǎng),尤其是谷歌和色情網(wǎng)站這種保護(hù)他們隱私的網(wǎng)站。

允許我們放大人群子集是大數(shù)據(jù)的第三大功能。因?yàn)楝F(xiàn)在有了如此多的數(shù)據(jù),所以即便只有一小群人也可以提取有意義的信息。

允許我們進(jìn)行許多因果試驗(yàn)是大數(shù)據(jù)的第四大功能。不僅可以測(cè)試相關(guān)性,而且可以測(cè)試因果性。

第三章 數(shù)據(jù)重構(gòu)

谷歌搜索能否像房?jī)r(jià)和流感的晴雨表一樣,成為失業(yè)率調(diào)查的試紙呢?僅僅依靠谷歌搜索,我們能否得知有多少人失業(yè),能否在政府核對(duì)出調(diào)查結(jié)果之前統(tǒng)計(jì)出可靠數(shù)據(jù)呢?

我發(fā)現(xiàn),與消遣相關(guān)的綜合性搜索可以追蹤失業(yè)率,并能成為預(yù)測(cè)失業(yè)率的完美模板的一部分。這個(gè)例子說(shuō)明了大數(shù)據(jù)的第一個(gè)功能——提供新型數(shù)據(jù)。通常,大數(shù)據(jù)的價(jià)值不在于它的大小,而在于它可以為你的研究提供新的信息,提供過(guò)去從未有人搜集到的信息。

谷歌的成功是建立在對(duì)一種新型數(shù)據(jù)的搜集之上的。與谷歌一樣,所有人都試圖使用數(shù)據(jù)來(lái)了解世界。大數(shù)據(jù)革命并不在于數(shù)據(jù)的量,而在于數(shù)據(jù)的質(zhì)。

本章的要點(diǎn):**新的非常規(guī)數(shù)據(jù)的巨大價(jià)值。**其中傳達(dá)的原理也有助于我們理解這場(chǎng)以數(shù)字為根基的數(shù)據(jù)革命。

以身體為數(shù)據(jù)

馬主如何才能選到一匹能賺大錢的馬呢?過(guò)去,人們認(rèn)為預(yù)測(cè)一匹馬能否成功的最好辦法是分析它的血統(tǒng)。除了血統(tǒng)外,賽馬代理人還會(huì)考慮其他信息。例如,他們會(huì)分析兩周歲馬的步態(tài),并以眼觀馬。

塞德對(duì)傳統(tǒng)的相馬方式毫無(wú)興趣,他只對(duì)數(shù)據(jù)感興趣。他計(jì)劃要測(cè)量賽馬的各種屬性,看看其中哪些與它們的表現(xiàn)相關(guān)。

塞德發(fā)現(xiàn),一般來(lái)說(shuō),賽馬的左心室越大,在比賽中成績(jī)就越好,但是,如果左心室如此之大,其他器官卻很小,則可能是患有疾病的征兆。美國(guó)法老王所有關(guān)鍵器官的大小都高于平均水平,左心室更是超大。數(shù)據(jù)表示,85號(hào)是十萬(wàn)里挑一甚至百萬(wàn)里挑一的好馬!

數(shù)據(jù)科學(xué)家可以從塞德的項(xiàng)目中學(xué)到什么呢?**首先,或許也是最重要的一點(diǎn),如果你想嘗試使用新的數(shù)據(jù)來(lái)革新一個(gè)領(lǐng)域,那么最好是進(jìn)入一個(gè)舊方法不見效的領(lǐng)域。**被塞德?lián)魯〉哪切┏撩杂谘y(tǒng)的賽馬代理人為該領(lǐng)域留下了很大的改進(jìn)空間。被谷歌打敗的那些癡迷于數(shù)據(jù)的搜索引擎也為該領(lǐng)域留下了進(jìn)步空間。
其次,試圖做預(yù)測(cè)時(shí),不必太擔(dān)心模型的工作原理。塞德在做的是預(yù)測(cè)工作,而不是解釋工作。在預(yù)測(cè)工作中,你只需要知道什么東西有用,無(wú)須知道為什么。

**最后一個(gè)啟示是,在確定什么是數(shù)據(jù)時(shí),你必須抱有開放而又靈活的心態(tài)。**傳統(tǒng)的賽馬代理人并非不知道數(shù)據(jù)。他們也會(huì)仔細(xì)檢查比賽次數(shù)和血統(tǒng)圖表。塞德的天才之處在于,**他會(huì)尋找他人從未關(guān)注過(guò)的數(shù)據(jù),還會(huì)考量非傳統(tǒng)的數(shù)據(jù)來(lái)源。**對(duì)一位數(shù)據(jù)科學(xué)家來(lái)說(shuō),一個(gè)全新的獨(dú)特視角是一定會(huì)帶來(lái)回報(bào)的。

文字?jǐn)?shù)據(jù)

兩位學(xué)者想知道語(yǔ)言到底是不是理解偏好的關(guān)鍵點(diǎn)?

從“美利堅(jiān)合眾國(guó)”(TheUnited States are…)與“美國(guó)”(The United States is…)在不同年份出現(xiàn)在書中的頻率說(shuō)明美國(guó)民族認(rèn)同感是如何形成的。

通過(guò)男性和女性首次約會(huì)時(shí)說(shuō)話的方式,我們就能預(yù)測(cè)他們會(huì)不會(huì)還有第二次約會(huì)。

總結(jié)

以上是生活随笔為你收集整理的《人人都在说谎:赤裸裸的数据真相》读书笔记1的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。