生活随笔
收集整理的這篇文章主要介紹了
大数据与复杂网络
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
寫這篇文章,有兩個原因:
看了李院士的《大數據研究的科學價值》,有些感觸。我自己做了一段時間社交,也有一些想法。之前也寫過復雜網絡的東西,但是都非常膚淺,沒有真正的理解復雜網絡,近期看了一些資料,有了進一步的理解。 李院士的文章,是從科學家的角度,理解大數據的價值。從文章中,我了解到以下幾點:
數據inside:未來數據將數據轉換為產品或者服務的人。分析即服務:Aaas。構建一個統一的數據分析平臺,提供豐富的api,供數據分析師進行分析,挖掘金礦。是一件很有用,同時也很有錢途的事業。大數據的存儲、計算、挖掘分析的技術,還需要更進一步的發展。一些同學,規劃自己的職業生涯,把這個作為儲備,現在開始學習,是一個非常好的選擇。我之前做過一些存儲相關的東西,存儲還是要往多層方向發展。在大數據中的個體之間存在著關系,有可能大數據的本質就是復雜網絡的本質。為研究指名了一個方向。第四范式:之前的研究都需要有模型,在大數據的背景之下:所有的模型都是錯誤的,進一步說,沒有模型你也可以成功。文章中,李院士提到大數據的本質,可能就是復雜網絡的本質。這是因為大數據個體之間都是關系的。舉個例子,互聯網。個體是網頁,網頁和網頁之間通過超鏈接互相鏈接,當然也可能有單向的。互聯網就是一個復雜網絡。其中的關系已經被驗證了意義的重大——PageRank算法——搜索引擎的核心之一。另一方面,大數據的產生,整體分為兩類:1)生物科學中,人腦細胞、神經元,基因等等。都是大數據。2)還有就是社會群體產生的。國內現在火熱的微博。就每天會產生很大量的數據。在這兩類中,我們都要考慮個體之間的關系,都有一些參數和性質:平均路徑長度、度分布、聚集系數、核數和介數等。這些都可以歸結到復雜網絡的研究當中。不過,大數據的研究剛剛開始,其本質是否就是復雜網絡所能解釋的還很難說。復雜網絡本身也在發展演變的過程中,幾年之后,那時的復雜網絡也不是現在的樣子。但是,社交網絡確確實實是復雜網絡的體現。所以,通過復雜網絡的理論,研究大數據,研究社交網絡,一定是一個很好的方向。 說了半天的復雜網絡,到底復雜網絡是什么呢?這里,我只說說我對復雜網絡的淺顯理解。也歡迎大家指點、討論。我們一般所說的復雜網絡具備兩個特點:
看起來很玄的兩個詞,那么該如何理解呢?無尺度的概念,比較好理解:就是網絡中的度分布滿足冪律分布。冪律分布可以理解度的分布比較集中。我們以新浪微博為例,粉絲上千萬那的人非常少,百萬的人也非常少。更多的是幾百粉絲的。直白一點說,就是粉絲非常多的人很少,很集中。粉絲比較少的,分布就比較廣,比較多。我之前做微博數據分析的時候,有統計過幾乎所有用戶的粉絲數分布的。完全符合冪律的分布。如果大家需要,可以和我進一步討論之類。我也可以找找之前的統計數據。 小世界我覺得需要從兩個角度考慮:第一個,就是網絡中兩點的平均最短路徑很小。著名的米爾格拉姆實驗的第一個結果就是:六度分隔。意思就是在我們的世界上,你想聯系任何一個人,你不認識的,平均就需要找5、6個人就可以了。隨著社會的發展,facebook等社交網絡興起,這個度越來越小。有報道說,已經是4.5個人就可以了。這個事情比較有意思,前些日子,還有個開發者做了一個微博應用,計算你到某個明星的距離。很多人會想,是不是很遠,是不是計算很復雜?其實都不是的,小世界的特性告訴我們,這個值會很小。同時,即使在線讀取關注,深度搜索的暴力方式解決,這也是很快的。第二個,不僅僅平均最短路徑很小,如果消息在網絡中傳播,會以很大的概率,通過最短路徑傳播到目的地。這個很重要,這個是根本。這個是,現在微博上進行微博營銷的根本所在。如果沒有這個特性,通過轉發,甚至是大號的轉發,很難出現傳播爆發的情況,很難讓更多的人知道。所以這個很重要,這個也是米爾格拉姆試驗的第二個重要的結果。 其實上面兩個結果,都有對應的模型,能夠很好的證明,而且,在實際的社交網絡中,也得到的驗證。大家感興趣,可以自己研究。 那么大數據,我們作為程序員、作為研究者,能夠做什么呢?其實前面也說過了,主要就三點:
存儲計算算法我們圍繞著這三塊進行,無論是工程開發者,還是研究者,都可以在這個過程中發現問題,歸納共性,提煉本質,然后上升到科學的高度。 我目前還沒有李老師的高度,我也是圍繞著微博做了一些復雜網絡相關的研究。我希望,以后,我的工作,也能夠為大數據科學進步,起到一點點作用。那我的工作,就真的有價值了。 下面是我自己感興趣的一些點,歡迎大家討論:
復雜網絡社團結構的發現,對應社交網絡中的圈子挖掘。社交網絡中,特定領域,人物影響力的排名。社交網絡中,信息傳播的研究社交網絡用戶關系的存儲其中,1、2、4我做了比較多的嘗試,1、2效果還不錯,4沒有好的方法。3目前只是了解階段,還沒有開始動手。 僅以此文,拋磚引玉。 【完】
轉載于:https://www.cnblogs.com/sing1ee/archive/2012/11/05/2765065.html
總結
以上是生活随笔為你收集整理的大数据与复杂网络的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。