日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

新书上市 | 世界名校数据挖掘经典《斯坦福数据挖掘教程(第3版)》

發(fā)布時(shí)間:2024/3/26 编程问答 57 豆豆
生活随笔 收集整理的這篇文章主要介紹了 新书上市 | 世界名校数据挖掘经典《斯坦福数据挖掘教程(第3版)》 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

題圖?| 作者為?Scott ?Ullman

《斯坦福數(shù)據(jù)挖掘教程(第3版)》上架之后,這是我們第一次整篇文章介紹這本書。

這本書相當(dāng)受歡迎(前兩個(gè)版本累計(jì)銷量超過 5 萬冊(cè)),尤其是受學(xué)校青睞——在此也說聲抱歉,出于出版時(shí)間的原因,很多學(xué)校依然采用了舊版作為教材;同時(shí)也請(qǐng)知悉,新版已上架,正在使用這本書作為教材的學(xué)校可以考慮更新了。

實(shí)際上,這本書已經(jīng)在大家面前出過 2 次鏡了,一次是 2020 年圖靈獎(jiǎng)公布的次日?qǐng)D靈君用一篇文章講了講圖靈獎(jiǎng)得主之一 Jeffrey Ullman 和這本書「不一樣的」故事;一次是 423 活動(dòng)那次,這本書在沒有趕上大促優(yōu)惠的情況下進(jìn)入了新書暢銷榜單。

除了是一本暢銷多年的世界名校數(shù)據(jù)挖掘入門經(jīng)典書,《斯坦福數(shù)據(jù)挖掘教程(第3版)》之于 Jeffrey Ullman ?和弟子 Anand Rajaraman 還有特別的意義。那就是這本書原本只是作為開源電子版出版的,后來才有了紙質(zhì)書的誕生,個(gè)中原因大家可以在文末鏈接閱讀相關(guān)文章。

好了,回到這本書,我們繼續(xù)說說它的緣起。本書源于Ullman 及弟子? Rajaraman 在斯坦福大學(xué)教授多年的一門季度課程——「多年」真的不是隨便叫叫的,我去這本書的網(wǎng)站上看了看,斯坦福大學(xué)開設(shè)這門課程,最早可以追溯到 2000 年,著實(shí)佩服。

課程名為“Web 挖掘”(編號(hào) CS345A),原本是為高年級(jí)研究生設(shè)計(jì)的,沒成想高年級(jí)本科生也非常感興趣,于是現(xiàn)在就成為本科生和研究生兼修的一門課程。Jure Leskovec 到斯坦福大學(xué)任職后,共同對(duì)相關(guān)材料進(jìn)行了重新組織。他開設(shè)了一門有關(guān)網(wǎng)絡(luò)分析的新課程 CS224W, 并為 CS345A 增加了一些內(nèi)容,重新編號(hào)為 CS246。三位作者還開設(shè)了一門大規(guī)模數(shù)據(jù)挖掘的項(xiàng)目課程 CS341。目前本書包含了以上三門課程的所有教學(xué)內(nèi)容。

圖書核心特色

這本書核心的特色是:它是一本數(shù)據(jù)挖掘領(lǐng)域全景路線圖式的入門參考技術(shù)書,下面解釋一下關(guān)鍵詞。

1.全景路線圖??

一方面可以讓你了解數(shù)據(jù)挖掘這個(gè)大領(lǐng)域下的各個(gè)小領(lǐng)域;

另一方面讓你可以縱覽整個(gè)數(shù)據(jù)構(gòu)建模型的過程,這個(gè)過程中你會(huì)遇到什么問題,尤其是從普通規(guī)模數(shù)據(jù)到極大規(guī)模數(shù)據(jù)發(fā)生了哪些狀況,你的解決方案是如何轉(zhuǎn)換的。

2.入門?

跟上面一條緊密關(guān)聯(lián)。普通書入門從簡(jiǎn)單操作開始,一步步來,讀者見樹木而不見森林,好書入門從全景圖開始,教讀者抓核心內(nèi)容,對(duì)整個(gè)領(lǐng)域了然于胸之后深入自己感興趣的關(guān)鍵點(diǎn)。而這本書介紹的正是高手入門之道,書中并沒有每個(gè)細(xì)分領(lǐng)域的詳細(xì)講解,但是為你展示了最新的參考論文和進(jìn)階資料,方便你進(jìn)一步探索。

3.技術(shù)?

雖然有概念,但并非聚焦于概念,而是教你怎么用,可直接應(yīng)用于實(shí)際的大規(guī)模數(shù)據(jù)挖掘工作——海量 Web 數(shù)據(jù)是目前大數(shù)據(jù)挖掘工作的核心,數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)專家都不可錯(cuò)過。

接下來讓我們來詳細(xì)看看書中的內(nèi)容。

圖書核心內(nèi)容

本書是關(guān)于數(shù)據(jù)挖掘的,但是主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘。“極大規(guī)模”的意思是,這些數(shù)據(jù)大到無法在內(nèi)存中存放。因?yàn)楸緯攸c(diǎn)強(qiáng)調(diào)數(shù)據(jù)的規(guī)模,所以例子大多來自 Web 本身或者 Web 上導(dǎo)出的數(shù)據(jù)。另外,本書從算法的角度來看待數(shù)據(jù)挖掘,即數(shù)據(jù)挖掘是將算法 應(yīng)用于數(shù)據(jù),而不是使用數(shù)據(jù)來“訓(xùn)練”某種類型的機(jī)器學(xué)習(xí)引擎。

本書的主要內(nèi)容包括:

(1) 分布式文件系統(tǒng)和 MapReduce,其中后者用于創(chuàng)建在極大規(guī)模數(shù)據(jù)集上成功應(yīng)用的并行算法;

(2) 相似性搜索,包括最小哈希和局部敏感哈希的關(guān)鍵技術(shù);

(3) 數(shù)據(jù)流處理以及針對(duì)快速到達(dá)、須立即處理且易丟失的數(shù)據(jù)的專用算法;

(4) 搜索引擎技術(shù),包括谷歌的 PageRank、鏈接作弊檢測(cè)以及計(jì)算網(wǎng)頁導(dǎo)航度(hub)和權(quán)威度(authority)的 HITS 方法;

(5) 頻繁項(xiàng)集挖掘,包括關(guān)聯(lián)規(guī)則、購物籃分析、A-Priori 算法及其改進(jìn);

(6) 極大規(guī)模高維數(shù)據(jù)集的聚類算法;

(7) Web 應(yīng)用中的兩個(gè)關(guān)鍵問題——廣告管理和推薦系統(tǒng);

(8) 對(duì)極大規(guī)模的圖(特別是社會(huì)網(wǎng)絡(luò)圖)的結(jié)構(gòu)進(jìn)行分析和挖掘的算法;

(9) 通過降維來獲得大規(guī)模數(shù)據(jù)集的重要性質(zhì)的技術(shù),包括 SVD 和隱性語義索引;

(10) 可以應(yīng)用于極大規(guī)模數(shù)據(jù)的機(jī)器學(xué)習(xí)算法,包括感知機(jī)、支持向量機(jī)、梯度下降法、決策樹和神經(jīng)網(wǎng)絡(luò);

(11) 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí),包括最重要的幾個(gè)特例——卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)。

用思維導(dǎo)圖展示一下圖書的內(nèi)容。

(放大可查看大圖)

作譯者團(tuán)隊(duì)

這本《斯坦福數(shù)據(jù)挖掘教程》與《數(shù)據(jù)挖掘?qū)д?#xff08;完整版)》同為國(guó)內(nèi)讀者最喜愛的數(shù)據(jù)挖掘入門書之一。作者團(tuán)超級(jí)強(qiáng)大,第一作者是 AI 領(lǐng)域無人不知的 Jure Leskovec,他在圖神經(jīng)網(wǎng)絡(luò)方面的研究用“頂尖”形容不為過。第三作者 Jeffrey Ullman 為 2020 年圖靈獎(jiǎng)得主,因在編程語言實(shí)現(xiàn)領(lǐng)域?qū)A(chǔ)算法和理論的貢獻(xiàn)而獲獎(jiǎng)。

在翻譯上,由國(guó)內(nèi)知名? NLP 專家王斌老師擔(dān)綱翻譯,王斌老師獨(dú)自翻譯了前兩個(gè)版本。到第 3 版,曾就讀于斯坦福大學(xué) Jure 實(shí)驗(yàn)室的王達(dá)侃老師加入,共同翻譯。

Jure Leskovec(尤雷·萊斯科夫

近年來最優(yōu)秀的 AI 科學(xué)家之一(其實(shí)沒有“之一”這兩個(gè)字,估計(jì) 99% 人也不會(huì)反對(duì),從這里你就知道 Jure 的實(shí)力了,有其他很多媒體專門寫過??Jure?有多強(qiáng)大,回頭我們轉(zhuǎn)載一篇文章來看看)。

Pinterest 公司首席科學(xué)家,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系副教授,研究方向?yàn)榇笮蜕缃缓托畔⒕W(wǎng)絡(luò)的數(shù)據(jù)挖掘。

他的研究成果獲得了很多獎(jiǎng)項(xiàng),如 Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship 和 Okawa Foundation Fellowship,還獲得了很多最佳論文獎(jiǎng),同時(shí)也被《紐約時(shí)報(bào)》《華爾街日?qǐng)?bào)》《華盛頓郵報(bào)》《連線》及 NBC、CBC 等流行的社會(huì)媒體刊載。

他還創(chuàng)建了斯坦福網(wǎng)絡(luò)分析平臺(tái)(SNAP)。


Anand Rajaraman阿南德·拉賈拉曼

數(shù)據(jù)庫和 Web 技術(shù)領(lǐng)域領(lǐng)軍者,硅谷連續(xù)創(chuàng)業(yè)者和風(fēng)險(xiǎn)投資人,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授。

自 1996 年起創(chuàng)立過多家公司,這些公司先后被亞馬遜、谷歌和沃爾瑪集團(tuán)收購,而他本人歷任亞馬遜技術(shù)總監(jiān)、沃爾瑪負(fù)責(zé)全球電子商務(wù)業(yè)務(wù)的副總裁。之后創(chuàng)立了風(fēng)投公司 Milliways Ventures 和 Rocketship VC,投資過 Facebook、Lyft 等眾多公司。

作為學(xué)者,他主要研究數(shù)據(jù)庫系統(tǒng)、Web 和社交媒體,他的研究論文在學(xué)術(shù)會(huì)議上獲得了多個(gè)獎(jiǎng)項(xiàng),他在 2012 年被《快公司》雜志列入“商界最具創(chuàng)造力 100 人”。

Jeffrey Ullman杰弗里·厄爾曼

計(jì)算機(jī)科學(xué)家,美國(guó)國(guó)家工程院院士,2020 年圖靈獎(jiǎng)得主。

早年在貝爾實(shí)驗(yàn)室工作,之后任教于普林斯頓大學(xué),十年后加入斯坦福大學(xué)直至退休,一生的科研、著書和育人成果卓著。

他是 ACM 會(huì)員,曾獲 SIGMOD 創(chuàng)新獎(jiǎng)、高德納獎(jiǎng)、馮諾依曼獎(jiǎng)等多項(xiàng)科研大獎(jiǎng);合著有“龍書”《編譯原理》、數(shù)據(jù)庫名著《數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)》等多部經(jīng)典著作。

Ullman 培養(yǎng)了很多了不起的學(xué)生,其中包括谷歌聯(lián)合創(chuàng)始人 Sergey Brin,本書第二作者也是他的得意弟子。目前擔(dān)任 Gradiance 公司 CEO。

王斌博士
小米 AI 實(shí)驗(yàn)室主任,NLP 首席科學(xué)家。中國(guó)中文信息學(xué)會(huì)理事,《中文信息學(xué)報(bào)》編委。

加入小米公司之前,是中科院研究員、博導(dǎo)及中科院大學(xué)教授。譯有《信息檢索導(dǎo)論》《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》和《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》等書。

王達(dá)侃
優(yōu)刻得 AI 部門負(fù)責(zé)人,曾任 WeWork Research & Applied Science ?中國(guó)區(qū)負(fù)責(zé)人,并曾在 LinkedIn、Twitter 和微軟亞洲研究院負(fù)責(zé) AI 以及大數(shù)據(jù)方向的研發(fā)工作。

碩士畢業(yè)于斯坦福大學(xué)計(jì)算機(jī)系,本科畢業(yè)于上海交通大學(xué) ACM 班。

國(guó)內(nèi)外讀者好評(píng)

| Amazon 讀者

斯坦福大學(xué)“海量數(shù)據(jù)挖掘”公開課課參考書

我買這本書是為了參加斯坦福大學(xué) MMDS 的在線課程,但后來決定全面閱讀這本書(課程不包括一些高級(jí)主題)。這本書的內(nèi)容是非常容易理解的。例如,在第 5 章中,作者介紹了 PageRank 算法,不同于一般書通過概率和線性代數(shù)(馬爾科夫鏈和特征向量)來介紹它,他們稍微介紹了一下理論,之后提供了許多例子,所以這本書的實(shí)用性深得我心。概率論和線性代數(shù)方面的知識(shí)會(huì)有幫助,但不強(qiáng)求,不過知道一些非常基本的概念,如矩陣乘法等是必需的。

這本書涵蓋的主題相當(dāng)廣泛,從 MapReduce 和位置敏感哈希(LSH),再到圖和大規(guī)模機(jī)器學(xué)習(xí)算法。朋友們,值得擁有。

數(shù)據(jù)挖掘就看這本書(某大學(xué)教授)

這本書是我在數(shù)據(jù)挖掘方法方面的首選參考書。名聲在外的作者團(tuán)隊(duì)們對(duì)于自己的寫作主題門兒清。這些材料來自于作者所教授的幾門斯坦福大學(xué)計(jì)算機(jī)科學(xué)課程。就第 3 版而言,寫作清晰、簡(jiǎn)潔,無重大錯(cuò)誤。

本書涵蓋了許多最常用的數(shù)據(jù)挖掘方法的理論和實(shí)踐方面。作者不僅討論了這些算法如何工作的理論,還對(duì)其局限性和常見的失敗進(jìn)行了深入探討。

我把這本書作為我教授的課程的補(bǔ)充教材。該書的處理水平適合高級(jí)本科生和初級(jí)研究生。

| 豆瓣讀者

真正講大數(shù)據(jù)處理思路的書

最好的數(shù)據(jù)挖掘圖書之一?

回到圖書

作者:Jure Leskovec,Anand Rajaraman,Jeffrey Ullman

譯者:王斌 , 王達(dá)侃

| 圖書特色

  • 當(dāng)今 AI 領(lǐng)域最知名的學(xué)者之一Jure Leskovec、2020 年圖靈獎(jiǎng)得主 Jeffrey Ullman 及弟子作品

  • 國(guó)內(nèi)知名 NLP 專家王斌、AI 青年學(xué)者王達(dá)侃執(zhí)筆翻譯

  • “數(shù)據(jù)挖掘全景式入門參考書”,源自斯坦福大學(xué)公開課“CS246:海量數(shù)據(jù)挖掘”“CS224W:圖機(jī)器學(xué)習(xí)”和“CS341:項(xiàng)目實(shí)戰(zhàn)課”

  • 配套資源豐富,包括開源英文原書 PDF、PPT、視頻講解

本書源自斯坦福大學(xué)公開課“CS246:海量數(shù)據(jù)挖掘”“CS224W:圖機(jī)器學(xué)習(xí)”和“CS341:項(xiàng)目實(shí)戰(zhàn)課”,主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘。書中包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項(xiàng)集挖掘、聚類算法、廣告管理及推薦系統(tǒng)、社會(huì)網(wǎng)絡(luò)圖挖掘和大規(guī)模機(jī)器學(xué)習(xí)等主要內(nèi)容。第3版新增了決策樹、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等內(nèi)容。幾乎每節(jié)都有對(duì)應(yīng)的習(xí)題,以此來鞏固所講解的內(nèi)容。讀者還可以從網(wǎng)上獲取相關(guān)拓展資料。

數(shù)據(jù)挖掘是數(shù)據(jù)時(shí)代的一項(xiàng)必殺技

這本書可以帶你入門

贈(zèng)?書?福?利

你的工作跟數(shù)據(jù)有關(guān)嗎?大部分工作時(shí)間耗費(fèi)在了什么地方?

你是否學(xué)習(xí)過數(shù)據(jù)挖掘,有什么難點(diǎn)?

評(píng)論區(qū)挑選 2 位用戶, 每人送出《斯坦福數(shù)據(jù)挖掘教程(第3版)》1 本。

活動(dòng)截止時(shí)間:2021 年 5 月 6 日 12:00 。

推 薦 閱 讀

《2020 年圖靈獎(jiǎng)得主 Ullman :做開源電子書,讓肯掏錢買書的老實(shí)人免費(fèi)讀》

圖 靈 社 群


總結(jié)

以上是生活随笔為你收集整理的新书上市 | 世界名校数据挖掘经典《斯坦福数据挖掘教程(第3版)》的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。