日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据vs计算机

發(fā)布時(shí)間:2025/1/21 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据vs计算机 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大數(shù)據(jù)有兩個(gè)方向,一個(gè)是偏計(jì)算機(jī)的,另一個(gè)是偏經(jīng)濟(jì)的。你學(xué)過Java,所以你可以偏將計(jì)算機(jī)

基礎(chǔ)
1. 讀書《Introduction to Data Mining》,這本書很淺顯易懂,沒有復(fù)雜高深的公式,很合適入門的人。
另外可以用這本書做參考《Data Mining : Concepts and Techniques》。第二本比較厚,也多了一些數(shù)據(jù)倉庫方面的知識。
如果對算法比較喜歡,可以再閱讀《Introduction to Machine Learning》。
當(dāng)然,還有《機(jī)器學(xué)習(xí):實(shí)用案例解析》

2. 實(shí)現(xiàn)經(jīng)典算法。有幾個(gè)部分:
a. 關(guān)聯(lián)規(guī)則挖掘 (Apriori, FPTree, etc.)
b. 分類 (C4.5, KNN, Logistic Regression, SVM, etc.)
c. 聚類 (Kmeans, DBScan, Spectral Clustering, etc.)
d. 降維 (PCA, LDA, etc.)
e. 推薦系統(tǒng) (基于內(nèi)容的推薦,協(xié)同過濾,如矩陣分解等)
然后在公開數(shù)據(jù)集上測試,看實(shí)現(xiàn)的效果。可以在下面的網(wǎng)站找到大量的公開數(shù)據(jù)集:UCI Machine Learning Repository/

3. 熟悉幾個(gè)開源的工具: Weka (用于上手); LibSVM, scikit-learn, Shogun

4. 到 Kaggle: Go from Big Data to Big Analytics/ 上參加幾個(gè)101的比賽,學(xué)會(huì)如何將一個(gè)問題抽象成模型,并從原始數(shù)據(jù)中構(gòu)建有效的特征 (Feature Engineering).

到這一步的話基本幾個(gè)國內(nèi)的大公司都會(huì)給你面試的機(jī)會(huì)。

進(jìn)階篇:

1. 讀書,下面幾部都是大部頭,但學(xué)完進(jìn)步非常大。
a.《Pattern Recognition and Machine Learning》
b.《The Elements of Statistical Learning》
c.《Machine Learning: A Probabilistic Perspective》
第一本比較偏Bayesian;第二本比較偏Frequentist;第三本在兩者之間,但我覺得跟第一本差不多,不過加了不少新內(nèi)容。當(dāng)然除了這幾本大而全的,還有很多介紹不同領(lǐng)域的書,例如《Boosting Foundations and Algorithms》,《Probabilistic Graphical Models Principles and Techniques》;以及理論一些的《Foundations of Machine Learning》,《Optimization for Machine Learning》等等。這些書的課后習(xí)題也非常有用,做了才會(huì)在自己寫Paper的時(shí)候推公式。

2. 讀論文。包括幾個(gè)相關(guān)會(huì)議:KDD,ICML,NIPS,IJCAI,AAAI,WWW,SIGIR,ICDM;以及幾個(gè)相關(guān)的期刊:TKDD,TKDE,JMLR,PAMI等。跟蹤新技術(shù)跟新的熱點(diǎn)問題。當(dāng)然,如果做相關(guān)research,這一步是必須的。例如我們組的風(fēng)格就是上半年讀Paper,暑假找問題,秋天做實(shí)驗(yàn),春節(jié)左右寫/投論文。

3. 跟蹤熱點(diǎn)問題。例如最近幾年的Recommendation System,Social Network,Behavior Targeting等等,很多公司的業(yè)務(wù)都會(huì)涉及這些方面。以及一些熱點(diǎn)技術(shù),例如現(xiàn)在很火的Deep Learning。

4. 學(xué)習(xí)大規(guī)模并行計(jì)算的技術(shù),例如MapReduce、MPI,GPU Computing。基本每個(gè)大公司都會(huì)用到這些技術(shù),因?yàn)楝F(xiàn)實(shí)的數(shù)據(jù)量非常大,基本都是在計(jì)算集群上實(shí)現(xiàn)的。

5. 參加實(shí)際的數(shù)據(jù)挖掘的競賽,例如KDDCUP,或 Kaggle: Go from Big Data to Big Analytics/ 上面的競賽。這個(gè)過程會(huì)訓(xùn)練你如何在一個(gè)短的時(shí)間內(nèi)解決一個(gè)實(shí)際的問題,并熟悉整個(gè)數(shù)據(jù)挖掘項(xiàng)目的全過程。

6. 參與一個(gè)開源項(xiàng)目,如上面提到的Shogun或scikit-learn還有Apache的Mahout,或?yàn)橐恍┝餍兴惴ㄌ峁└佑行Э焖俚膶?shí)現(xiàn),例如實(shí)現(xiàn)一個(gè)Map/Reduce平臺下的SVM。這也是鍛煉Coding的能力。(轉(zhuǎn))

?

以下回答出自我之前的一個(gè)總結(jié):想從事大數(shù)據(jù)、海量數(shù)據(jù)處理相關(guān)的工作,如何自學(xué)打基礎(chǔ)?
想做數(shù)據(jù)處理尤其是大數(shù)據(jù)量處理的相關(guān)工作必須兼具計(jì)算機(jī)科學(xué)基礎(chǔ)和統(tǒng)計(jì)基礎(chǔ)

如果你有機(jī)會(huì)在學(xué)校學(xué)習(xí)這些課程或者自學(xué),會(huì)對你的職業(yè)目標(biāo)有幫助。

基礎(chǔ)中的基礎(chǔ):
線性代數(shù),概率論

核心知識:
數(shù)理統(tǒng)計(jì)
預(yù)測模型
機(jī)器學(xué)習(xí)

計(jì)算機(jī):
  • 數(shù)學(xué)軟件:強(qiáng)大矩陣運(yùn)算和優(yōu)化功能的matlab,專而精的mathematica。
  • 語言:fortran(強(qiáng)大的計(jì)算語言,充分優(yōu)化的現(xiàn)成代碼),R(相比于matlab,java,c,R是個(gè)高富帥),python.
  • 可視化
統(tǒng)計(jì):時(shí)間序列分析
應(yīng)用回歸分析
多元統(tǒng)計(jì)分析

強(qiáng)烈推薦:Distance Education § Harvard University Extension School 和哈佛的學(xué)生一起學(xué)習(xí)Data Science。

課后問題的材料:CS109 Data Science

相關(guān)問題:

  • Data Science: What are some good free resources to learn data science?
  • Where can I learn pandas or numpy for data analysis?
  • What are some good resources for learning about statistical analysis?
  • Data Science: How do I become a data scientist?
  • What are some good resources for learning about machine learning?
另外,這是我的知乎專欄,會(huì)不斷更新數(shù)據(jù)科學(xué)的文章,歡迎關(guān)注。Introduction to DαΓαSciεηce - DαΓαSciεηce - 知乎專欄

總結(jié)

以上是生活随笔為你收集整理的大数据vs计算机的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。