空间数据挖掘与空间大数据的探索与思考(三)
生活随笔
收集整理的這篇文章主要介紹了
空间数据挖掘与空间大数据的探索与思考(三)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
地理的分析核心是來源于所謂的空間統計學,空間統計學有四個最基本的概念:空間概率、概率密度、不確定性和統計推斷。
第一個概念是空間概率,空間概率是一種符合地理學第一定律的聯合概率。
說道聯合概念,先得聊聊經典統計學里面的聯合概率。舉一個簡單的例子,一個女生要找想男朋友,問我有沒有啥資源可以介紹 ?我問你需要什么樣的男生?她說她的要求很簡單,就三個。第一個要求要長得高一點;第二個要求是長得稍微帥一點;第三個要求就是要稍微有錢一點,總之,就是三個字“高富帥”。
我說,三個條件實際上都不難,首先是高,這個很容易解決,十個人里面總有一個高個子吧,特別在北方,這個概率還能再高點。帥也不是問題,拋開個人的審美觀念的不同,帥的人至少也有十分之一吧;最后有錢,現在中國現在經濟這么發達,在北京擠地鐵的都是百萬富翁甚至千萬富翁……十個人里面選一個,已經很容易了。
那么三個條件的概率都是十分之一,那是不是表示十個人里面就有一個是她的真命天子呢?所謂的聯合概率,就是兩件事情同時發生的概率,實際上應該是“十分之一的高乘以十分之一的帥乘以十分之一的富”。因此同時滿足高、帥、富這三個條件的人只占千分之一的概率,要求一點也不低。最后再扣掉諸如已婚人士、年紀不適合的等等,那就真的不是那么好找了。
這是傳統的聯合概率,那么空間概率是什么呢?我們來看下圖,
圖上有4個點,如果說A點發生滑坡的概率是二分之一,B點發生滑坡的概率也是二分之一,那么A、B兩點同時發生滑坡的概率是不是二分之一乘以二分之一等于四分之一呢?肯定不是,因為根據地理學第一概率,任何事物之間都是有聯系的,這種聯系跟距離相關,即“萬物皆相關,越臨近,關系越緊密”。也就是說如果A點發生滑坡,很容易就會影響到B點,所以這兩點同時發生滑坡的概率應該是大于四分之一小于二分之一,這就是所謂的地理學的聯合概率。那么同樣的,A點、B點、C點同時發生滑坡的概率是不是也是相乘呢?肯定不是,要大于八分之一的。
?
第二個概念是概率密度。概率密度是指事件點處在任何一個定義區域的概率等于鐘表面在這個區域上的體積,越靠近中心,定位點的密度越大。
?
這個在空間分析上有深入的研究和應用,就比如插值,理論上樣本點越多,插值的結果就越精確,離采樣點越近的預測值,精度就越高,這個精度的準確率,就相當于上面給出這個概率密度。
第三個概念是不確定性。我們知道,測量是有不確定性的,但是在GIS里,不確定性是會發生傳遞的,每一點的不確定性都會傳遞到下一個點當中去。我們做測量時,每測一節,這一節產生的誤差也會傳遞到下一節的測量中。這些不確定性,也有可能是應為觀察位置不同而產生的,也正好是所謂的空間異質性的主要研究內容。
最后一個概念是統計推斷,統計推斷是科學研究最重要的工具之一,那么空間中的統計推斷和傳統的統計推斷有什么不同呢?傳統的統計推斷只用保證隨機性就可以了;但是空間統計的抽樣需要保證樣本之間原始的空間相關性,保證抽樣不破壞數據的空間異質性。同樣一批數據,抽樣以后分布的疏密不同,能否保持原有的空間關系,都是需要去考慮的。以上四個概念基本上被認為是空間統計學里面的基礎理論。
我們回過頭來看數據,在1880年,詹姆斯·加菲爾德(美國第20任總統)說過這樣一句話:“傳統來說,歷史學家們是以一種總體的方式來研究一個國家,他們只能給我們講述帝王將相以及戰爭的歷史。”小學、中學所有歷史課文上面講的都是各種戰爭以及偉大人物的故事,但關于人民本身——我們龐大社會中每個生命的成長、各種力量、細節等等都是歷史學家們講述不出來的。而普查把我們的觀點放大到民房、家庭、工廠等任何地方,使新的歷史記錄成為可能。也就是從1880年開始,美國認識到數據將成為我們新的歷史記錄方式。中國現能獲得的最早成系統的真實數據是日偽時期的地質圖,2015年抗戰勝利七十周年紀念時,國家地質調查局曾公布了一批資料,是從甲午中日戰爭開始,日本的測繪人員在中國探礦的資料。現在我們經常在做研究時發現,中國的數據太難獲取了,想找十年前的數據根本找不到,而美國可以找到一百年前的數據。中國真正開始收集數據是在1995年,因為1995年中國的互聯網正式接入國際互聯網,那時中國的信息高速公路剛剛開通,有大量的數據往服務器上發送。現在我們的數據會越來越全,國家已經把它提到一個戰略性的高度。
數據如此重要,下面我們來看看全球最大的兩個數據中心。
第一個是Facebook北歐數據中心,它是民用型數據中心,這個數據中心在挪威的北極圈里,提供5億人的數據存儲。最為人稱道的是它的環保,利用北極圈的冷氣對服務器進行冷卻,每年可以節約幾百萬的電費支出。
第二個叫做猶他數據中心,是軍用型數據中心,其全稱為“情報體系綜合性國家計算機安全計劃數據中心”,所屬機構是NSA(美國國家安全局)。美國棱鏡計劃的所有數據都存放在這個數據中心,可以提供YB(YB是1024TB級的4次方,1YB,相當于1萬億個1TB的家用硬盤)。當時做了一個最簡單的盤算,把這個數據中心所有硬盤全部壘起來,可以繞地球到月球一圈,它每年運營所需能源需要中國三峽發電站年發電量的六十分之一。
在這個數據中心,監控和處理全球互聯網的所有數據:美國的科學家做過這樣一個實驗,他們在全球的任意一個節點上使用公用的賬號郵箱發出任何一封匿名郵件(郵件包含一些敏感關鍵詞,比如 “恐怖襲擊”、“真主萬歲”什么的),那么他們的提出的技術要求是:在24小時之內,這封信的信息出現在中情局的情報里。可見這個數據中心強大的信息收集和分析能力有多么厲害。
蝦神從大學畢業之后出來干軟件行業,大部分是都在做電子政務類的項目,那么國家每年花那么多錢,做了那么多項目,最后到底想要什么?
每年幾十億上百億的信息化費用,最后需要的那些代碼么?還是購買的服務器呢?十年前的軟件代碼還有在運行么?五年前的服務器,估計也早就淘汰了。但是有些東西留下來了,就是在系統運行過程中的數據,不管過了多久,都還著它的價值。正如加菲爾德說的,數據成為了記錄歷史的新的方式。
第一個概念是空間概率,空間概率是一種符合地理學第一定律的聯合概率。
說道聯合概念,先得聊聊經典統計學里面的聯合概率。舉一個簡單的例子,一個女生要找想男朋友,問我有沒有啥資源可以介紹 ?我問你需要什么樣的男生?她說她的要求很簡單,就三個。第一個要求要長得高一點;第二個要求是長得稍微帥一點;第三個要求就是要稍微有錢一點,總之,就是三個字“高富帥”。
我說,三個條件實際上都不難,首先是高,這個很容易解決,十個人里面總有一個高個子吧,特別在北方,這個概率還能再高點。帥也不是問題,拋開個人的審美觀念的不同,帥的人至少也有十分之一吧;最后有錢,現在中國現在經濟這么發達,在北京擠地鐵的都是百萬富翁甚至千萬富翁……十個人里面選一個,已經很容易了。
那么三個條件的概率都是十分之一,那是不是表示十個人里面就有一個是她的真命天子呢?所謂的聯合概率,就是兩件事情同時發生的概率,實際上應該是“十分之一的高乘以十分之一的帥乘以十分之一的富”。因此同時滿足高、帥、富這三個條件的人只占千分之一的概率,要求一點也不低。最后再扣掉諸如已婚人士、年紀不適合的等等,那就真的不是那么好找了。
這是傳統的聯合概率,那么空間概率是什么呢?我們來看下圖,
圖上有4個點,如果說A點發生滑坡的概率是二分之一,B點發生滑坡的概率也是二分之一,那么A、B兩點同時發生滑坡的概率是不是二分之一乘以二分之一等于四分之一呢?肯定不是,因為根據地理學第一概率,任何事物之間都是有聯系的,這種聯系跟距離相關,即“萬物皆相關,越臨近,關系越緊密”。也就是說如果A點發生滑坡,很容易就會影響到B點,所以這兩點同時發生滑坡的概率應該是大于四分之一小于二分之一,這就是所謂的地理學的聯合概率。那么同樣的,A點、B點、C點同時發生滑坡的概率是不是也是相乘呢?肯定不是,要大于八分之一的。
?
第二個概念是概率密度。概率密度是指事件點處在任何一個定義區域的概率等于鐘表面在這個區域上的體積,越靠近中心,定位點的密度越大。
?
這個在空間分析上有深入的研究和應用,就比如插值,理論上樣本點越多,插值的結果就越精確,離采樣點越近的預測值,精度就越高,這個精度的準確率,就相當于上面給出這個概率密度。
第三個概念是不確定性。我們知道,測量是有不確定性的,但是在GIS里,不確定性是會發生傳遞的,每一點的不確定性都會傳遞到下一個點當中去。我們做測量時,每測一節,這一節產生的誤差也會傳遞到下一節的測量中。這些不確定性,也有可能是應為觀察位置不同而產生的,也正好是所謂的空間異質性的主要研究內容。
最后一個概念是統計推斷,統計推斷是科學研究最重要的工具之一,那么空間中的統計推斷和傳統的統計推斷有什么不同呢?傳統的統計推斷只用保證隨機性就可以了;但是空間統計的抽樣需要保證樣本之間原始的空間相關性,保證抽樣不破壞數據的空間異質性。同樣一批數據,抽樣以后分布的疏密不同,能否保持原有的空間關系,都是需要去考慮的。以上四個概念基本上被認為是空間統計學里面的基礎理論。
我們回過頭來看數據,在1880年,詹姆斯·加菲爾德(美國第20任總統)說過這樣一句話:“傳統來說,歷史學家們是以一種總體的方式來研究一個國家,他們只能給我們講述帝王將相以及戰爭的歷史。”小學、中學所有歷史課文上面講的都是各種戰爭以及偉大人物的故事,但關于人民本身——我們龐大社會中每個生命的成長、各種力量、細節等等都是歷史學家們講述不出來的。而普查把我們的觀點放大到民房、家庭、工廠等任何地方,使新的歷史記錄成為可能。也就是從1880年開始,美國認識到數據將成為我們新的歷史記錄方式。中國現能獲得的最早成系統的真實數據是日偽時期的地質圖,2015年抗戰勝利七十周年紀念時,國家地質調查局曾公布了一批資料,是從甲午中日戰爭開始,日本的測繪人員在中國探礦的資料。現在我們經常在做研究時發現,中國的數據太難獲取了,想找十年前的數據根本找不到,而美國可以找到一百年前的數據。中國真正開始收集數據是在1995年,因為1995年中國的互聯網正式接入國際互聯網,那時中國的信息高速公路剛剛開通,有大量的數據往服務器上發送。現在我們的數據會越來越全,國家已經把它提到一個戰略性的高度。
數據如此重要,下面我們來看看全球最大的兩個數據中心。
第一個是Facebook北歐數據中心,它是民用型數據中心,這個數據中心在挪威的北極圈里,提供5億人的數據存儲。最為人稱道的是它的環保,利用北極圈的冷氣對服務器進行冷卻,每年可以節約幾百萬的電費支出。
第二個叫做猶他數據中心,是軍用型數據中心,其全稱為“情報體系綜合性國家計算機安全計劃數據中心”,所屬機構是NSA(美國國家安全局)。美國棱鏡計劃的所有數據都存放在這個數據中心,可以提供YB(YB是1024TB級的4次方,1YB,相當于1萬億個1TB的家用硬盤)。當時做了一個最簡單的盤算,把這個數據中心所有硬盤全部壘起來,可以繞地球到月球一圈,它每年運營所需能源需要中國三峽發電站年發電量的六十分之一。
在這個數據中心,監控和處理全球互聯網的所有數據:美國的科學家做過這樣一個實驗,他們在全球的任意一個節點上使用公用的賬號郵箱發出任何一封匿名郵件(郵件包含一些敏感關鍵詞,比如 “恐怖襲擊”、“真主萬歲”什么的),那么他們的提出的技術要求是:在24小時之內,這封信的信息出現在中情局的情報里。可見這個數據中心強大的信息收集和分析能力有多么厲害。
蝦神從大學畢業之后出來干軟件行業,大部分是都在做電子政務類的項目,那么國家每年花那么多錢,做了那么多項目,最后到底想要什么?
每年幾十億上百億的信息化費用,最后需要的那些代碼么?還是購買的服務器呢?十年前的軟件代碼還有在運行么?五年前的服務器,估計也早就淘汰了。但是有些東西留下來了,就是在系統運行過程中的數據,不管過了多久,都還著它的價值。正如加菲爾德說的,數據成為了記錄歷史的新的方式。
總結
以上是生活随笔為你收集整理的空间数据挖掘与空间大数据的探索与思考(三)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用什么软件测试mate9的闪存_荣耀v9
- 下一篇: 【深度好文】多任务模型中的DataLoa