日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...

發(fā)布時(shí)間:2025/3/15 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

2015年《大數(shù)據(jù)》高被引論文Top10文章展示


【編者按】本刊將把2015年《大數(shù)據(jù)》高被引論文Top10的文章陸續(xù)發(fā)布,歡迎大家關(guān)注!本文為高被引Top10論文的No.2,刊登在2015年第4期。引用格式如下:

李濤, 曾春秋, 周武柏, 等. 大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘[J]. 大數(shù)據(jù), 2015041.

LI T, ZENG C Q, ZHOU W B, et al.?Data mining in the era of big data: from the application perspective[J]. Big Data Research, 2015041.

李?濤1,2,曾春秋1,2,周武柏1,2,周綺鳳3,鄭?理1,2

1.?南京郵電大學(xué)計(jì)算機(jī)學(xué)院?南京?210023;2.?美國(guó)佛羅里達(dá)國(guó)際大學(xué)?邁阿密?33199;

3.?廈門大學(xué)自動(dòng)化系?廈門?361005

摘要:介紹了大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘的特點(diǎn)、任務(wù)及難點(diǎn),分析了大數(shù)據(jù)挖掘的核心架構(gòu),提出大數(shù)據(jù)的核心和本質(zhì),即應(yīng)用、算法、數(shù)據(jù)和平臺(tái)4個(gè)要素的有機(jī)結(jié)合。在此基礎(chǔ)上介紹了本團(tuán)隊(duì)研究設(shè)計(jì)的大數(shù)據(jù)挖掘系統(tǒng)FIU-Miner。該系統(tǒng)是一個(gè)用戶友好并支持在分布式環(huán)境中進(jìn)行高效率計(jì)算和算法快速集成的數(shù)據(jù)挖掘系統(tǒng)平臺(tái),使得數(shù)據(jù)分析人員能夠快速有效地進(jìn)行各類數(shù)據(jù)挖掘任務(wù)。最后,介紹了基于FIU-Miner的3個(gè)典型的成功應(yīng)用案例:高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能數(shù)據(jù)挖掘。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;FIU-Miner;高端制造業(yè);空間數(shù)據(jù)挖掘;商務(wù)智能

doi:?10.11959/j.issn.2096-0271.2015041

Data mining in the era of big data: from the application perspective

Li Tao1,2, Zeng Chunqiu1,2, Zhou Wubai1,2, Zhou Qifeng3, Zheng Li1,2

1. School of Computer Science & Technology, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;

2. School of Computer Science, Florida International University, Miami 33199, USA;

3. Department of Automation, Xiamen University, Xiamen 361005, China

Abstract:?The technical characteristics, tasks, and difficulties of data mining in big data era were introduced. The system architecture of large-scale data mining was analyzed. Then, the developed FIU-Miner which is a fast, integrated, and user-friendly system for data mining, was introduced. FIU-Miner supports user-friendly rapid data mining task configuration, flexible cross-language program integration, and effective resource management in heterogeneous environments. Finally three successful real-world applications of FIU-Miner: advanced manufacturing data mining, spatial data mining, and business intelligence data mining, were presented to demonstrate its efficacy and effectiveness.

Key words:?big data, data mining, FIU-Miner, advanced manufacturing, spatial data mining, business intelligence

5 ?FIU-Miner應(yīng)用實(shí)例二:空間數(shù)據(jù)挖掘

FIU-Miner?已被成功應(yīng)用于TerraFlyGeocloud[11],支持多種在線空間數(shù)據(jù)分析的平臺(tái)。

5.1 ?空間數(shù)據(jù)挖掘

隨著衛(wèi)星科技的發(fā)展及移動(dòng)設(shè)備的普及,獲取一個(gè)對(duì)象實(shí)時(shí)完整的空間信息變得越來越容易。為了能夠從中實(shí)時(shí)性地獲取有用信息,需要有效的方法進(jìn)行空間數(shù)據(jù)挖掘。空間數(shù)據(jù)挖掘是從大型空間數(shù)據(jù)庫(kù)里發(fā)現(xiàn)有趣的、不知道的但非常有價(jià)值的模式的一個(gè)過程。但由于空間數(shù)據(jù)類型和空間關(guān)系的復(fù)雜性,從空間數(shù)據(jù)庫(kù)里挖掘有趣和有價(jià)值的模式比從傳統(tǒng)數(shù)據(jù)庫(kù)里挖掘難度更大。

5.2 ?TerraFlyGeocloud介紹

空間數(shù)據(jù)挖掘可以應(yīng)用在很多領(lǐng)域,?包括水資源管理、交通管理、災(zāi)難管理、犯罪分析、疾病分析和房地產(chǎn)等。一個(gè)典型的空間挖掘系統(tǒng)應(yīng)支持以下功能:在線的空間數(shù)據(jù)分析、空間數(shù)據(jù)可視化和空間數(shù)據(jù)查詢。這里,介紹一個(gè)具體的空間數(shù)據(jù)挖掘系統(tǒng):美國(guó)佛羅里達(dá)國(guó)際大學(xué)(FIU)?計(jì)算機(jī)學(xué)院的高性能數(shù)據(jù)研究中心實(shí)驗(yàn)室開發(fā)的TerraFlyGeoCloud?系統(tǒng)。TerraFlyGeoCloud是建立在TerraFly系統(tǒng)之上的、支持多種在線空間數(shù)據(jù)分析的一個(gè)平臺(tái)。圖8和圖9分別給出了TerraFlyGeoCloud?的系統(tǒng)界面和工作流程。

圖8 ?TerraFlyGeoCloud 系統(tǒng)界面

圖9 ?分析工作流程

為了方便使用,TerraFlyGeoCloud?還提供了一種支持類SQL語句的空間數(shù)據(jù)查詢語言MapQL。它不但支持類SQL語句,更重要的是可根據(jù)用戶的不同要求,渲染和畫圖查詢得到空間數(shù)據(jù),比如學(xué)校周邊一定距離內(nèi)所有的開放住宅、離某條公路一定距離內(nèi)所有的賓館、特定地區(qū)的交通情況及不同郵政區(qū)域的平均收入情況等。MapQL的實(shí)現(xiàn)如圖10(a)所示,其中MapQL語句是整個(gè)過程的輸入,如圖10(b)所示,輸出則是通過MapQL引擎渲染得到的可視化地圖,如圖10(c)所示。

下面簡(jiǎn)要講述一下使用MapQL的具體過程。如圖10(a)所示,第一步語法檢查,保證語法符合語法規(guī)則,不出現(xiàn)關(guān)鍵字拼寫錯(cuò)誤;第二步語義檢查,確保MapQL?將要訪問的數(shù)據(jù)是正確并存在的。接下來,系統(tǒng)會(huì)進(jìn)行語句解析并把包含樣式信息的解析結(jié)果存入空間數(shù)據(jù)庫(kù)中。樣式信息包括“渲染什么”及“在哪渲染”。當(dāng)所有的樣式信息保存入庫(kù)時(shí),?系統(tǒng)就會(huì)為接下來的渲染創(chuàng)建樣式配置對(duì)象。最后,從空間數(shù)據(jù)庫(kù)里加載樣式信息,并根據(jù)樣式信息為每個(gè)對(duì)象進(jìn)行渲染。比如想查詢佛羅里達(dá)國(guó)際大學(xué)周圍的房?jī)r(jià),可通過如圖10(b)的MapQL語句查詢,結(jié)果如圖10(c)。

圖10 ?MapQL的實(shí)現(xiàn)、語句查詢及可視化地圖

MapQL提供了一個(gè)比地理信息系統(tǒng)應(yīng)用程序編程接口(API)更友好的界面,使得開發(fā)人員和終端用戶能夠便捷自如地使用TerraFly地圖,同時(shí)能夠靈活地創(chuàng)建自己的地圖。

除了支持地理信息系統(tǒng)的各種應(yīng)用外,TerraFly平臺(tái)還有豐富的GIS數(shù)據(jù)集,?包括美國(guó)和加拿大的道路數(shù)據(jù)、美國(guó)人口普查和社會(huì)經(jīng)濟(jì)數(shù)據(jù)、1 500萬企業(yè)的統(tǒng)計(jì)和管理記錄、200萬專業(yè)醫(yī)生的數(shù)據(jù)、各種公共場(chǎng)所的數(shù)據(jù)集和全球環(huán)境數(shù)據(jù)等,?用戶可以通過TerraFlyGeoCloud瀏覽、使用和挖掘這些數(shù)據(jù)集。

5.3 TerraFlyGeocloud使用難點(diǎn)

通過對(duì)TerraFlyGeoCloud的進(jìn)一步使用和研究,發(fā)現(xiàn)了如下幾個(gè)問題。這些問題非常典型,普遍存在于這類空間數(shù)據(jù)挖掘系統(tǒng)中。

(1)寫MapQL查詢語句的難度。雖然大多數(shù)開發(fā)人員熟悉SQL語句,可以很快地寫MapQL查詢。但對(duì)不熟悉SQL的用戶而言,學(xué)習(xí)MapQL還是比較困難的。所以,?對(duì)絕大多數(shù)用戶而言,利用MapQL來完成空間分析任務(wù)仍然比較困難。

(2)空間分析任務(wù)的復(fù)雜性。一個(gè)典型的空間分析任務(wù)往往涉及幾個(gè)子任務(wù)。此外,這些子任務(wù)之間并不是完全獨(dú)立的。其中一些子任務(wù)的輸出往往是其他子任務(wù)的輸入。根據(jù)這種依賴關(guān)系,一個(gè)空間數(shù)據(jù)分析任務(wù)可以自然地表示為一個(gè)工作流。但構(gòu)造和管理這樣一個(gè)復(fù)雜的工作流程是空間數(shù)據(jù)分析的一個(gè)難點(diǎn)。

(3)順序執(zhí)行空間數(shù)據(jù)分析的工作流的效率往往很低。盡管一個(gè)工作流中的子任務(wù)并不是互相依賴,但這些子任務(wù)只能由最終用戶來順序執(zhí)行。這種順序執(zhí)行的方式?jīng)]有充分利用分布式計(jì)算環(huán)境來并行執(zhí)行獨(dú)立的子任務(wù)和優(yōu)化系統(tǒng)性能。

這3個(gè)問題給空間數(shù)據(jù)挖掘系統(tǒng)帶來了很大的局限,限制了用戶對(duì)系統(tǒng)的有效使用。將FIU-Miner?與TerraFlyGeocloud結(jié)合來解決這些問題。首先,根據(jù)序列模式挖掘算法從TerraFlyGeoCloud的MapQL查詢?nèi)罩局邪l(fā)現(xiàn)順序查詢模式[11]。然后利用這些順序查詢模式,在FIU-Miner里面構(gòu)建空間數(shù)據(jù)分析任務(wù)的工作流。最后使用FIU-Miner來最大化子任務(wù)的并行執(zhí)行,?優(yōu)化工作流的執(zhí)行效率。

TerraFlyGeocloud+FIU-Miner系統(tǒng)架構(gòu)如圖11所示。主要有4層:用戶界面層、地理空間服務(wù)層、計(jì)算服務(wù)層和空間數(shù)據(jù)存儲(chǔ)和管理層。其中,從MapQL的查詢?nèi)罩局型诰虿樵兡J绞且粋€(gè)關(guān)鍵的步驟,這個(gè)步驟發(fā)生在地理空間服務(wù)層。挖掘出的順序查詢模式可以用來產(chǎn)生查詢模板和構(gòu)造空間分析的工作流。序列模式里面的每個(gè)查詢對(duì)應(yīng)于工作流里面的一個(gè)子任務(wù)。FIU-Miner在計(jì)算服務(wù)層,主要負(fù)責(zé)工作流的構(gòu)建、管理、調(diào)度和執(zhí)行。

圖11 ?TerraFlyGeocloud+FIU-Miner 系統(tǒng)架構(gòu)

5.4 應(yīng)用實(shí)例

利用FIU-Miner,系統(tǒng)可以通過構(gòu)建空間數(shù)據(jù)分析的工作流來優(yōu)化分析流程, 提高分析效率。下面通過一個(gè)詳細(xì)的房產(chǎn)投資案例來展示[12]

房產(chǎn)投資案例的目的是要尋找具有良好升值潛力的房產(chǎn)。如果一棟房產(chǎn)本身價(jià)值很低,但它周圍的房產(chǎn)卻相對(duì)來說比其高,那么對(duì)此房產(chǎn)進(jìn)行投資將是一個(gè)非常不錯(cuò)的選擇。根據(jù)歷史查詢數(shù)據(jù),通過序列模式挖掘,發(fā)現(xiàn)這個(gè)任務(wù)一般有下面幾個(gè)步驟:

●?計(jì)算不同地區(qū)的平均價(jià)格,比較鄰近地區(qū)的價(jià)格,確定感興趣的地區(qū);

●?對(duì)感興趣的地區(qū)進(jìn)行空間自相關(guān)分析,確定候選地區(qū);

● ?驗(yàn)證候選地區(qū)罪案率和平均收入,?確定選擇結(jié)果; 

● ?在地圖上對(duì)結(jié)果進(jìn)行可視化。

這個(gè)任務(wù)的工作流如圖12所示。工作流里面所有的子任務(wù)都是由FIU-Miner來調(diào)度并在分布式環(huán)境中執(zhí)行的。

圖12 ?房產(chǎn)投資案例的工作流程

5.5?應(yīng)用亮點(diǎn)評(píng)述

上述實(shí)際案例中,將FIU-Miner應(yīng)用于空間數(shù)據(jù)挖掘,解決了空間數(shù)據(jù)挖掘中寫MapQL查詢語句困難、空間分析任務(wù)復(fù)雜性高及順序執(zhí)行空間數(shù)據(jù)分析工作流效率低這3個(gè)主要的難題。用戶可以輕松地從TerraFlyGeoCloud的MapQL查詢?nèi)罩局邪l(fā)現(xiàn)順序查詢模式,并利用這些順序查詢模式,在FIU-Miner里面構(gòu)建空間數(shù)據(jù)分析任務(wù)的工作流。最后使用FIU-Miner強(qiáng)大的分布式處理能力,提高工作流的執(zhí)行效率。

基于FIU-Miner的TerraFlyGeoCloud?在線空間數(shù)據(jù)挖掘系統(tǒng),已成功應(yīng)用于地理(如國(guó)土邊界、水位圖等)、自然(颶風(fēng)數(shù)據(jù)分析)、經(jīng)濟(jì)(如房產(chǎn)價(jià)格分析、人均收入等數(shù)據(jù)分析)、醫(yī)療(肝癌、關(guān)節(jié)炎等疾病數(shù)據(jù)分析)、社會(huì)(犯罪數(shù)據(jù)聚類等分析)等眾多領(lǐng)域,受到政府、企業(yè)、研究機(jī)構(gòu)及個(gè)人的極大重視。


6 ?FIU-Miner應(yīng)用實(shí)例三:庫(kù)存管理數(shù)據(jù)挖掘

FIU-Miner作為庫(kù)存管理數(shù)據(jù)挖掘平臺(tái)已被成功應(yīng)用于企業(yè),成為商務(wù)智能數(shù)據(jù)挖掘應(yīng)用中一個(gè)典范[13]

6.1?庫(kù)存管理數(shù)據(jù)挖掘任務(wù)

庫(kù)存管理是指對(duì)制造業(yè)或服務(wù)業(yè)生產(chǎn)、經(jīng)營(yíng)全過程的各種物品、產(chǎn)品以及其他資源進(jìn)行管理和控制,使其儲(chǔ)備保持在經(jīng)濟(jì)合理的水平上。高效、可靠的庫(kù)存管理可以為制定合理的貨物安全庫(kù)存量和訂貨量提供可靠的依據(jù),提高企業(yè)管理人員的決策質(zhì)量,從而減小資金的占用和缺貨損失,提高企業(yè)的經(jīng)濟(jì)效益。當(dāng)今的零售業(yè),?供應(yīng)商往往需要給不同的地區(qū)存儲(chǔ)大量的貨物,且交易活動(dòng)復(fù)雜頻繁,必須提前合理規(guī)劃好庫(kù)存方案。現(xiàn)有的庫(kù)存管理系統(tǒng)(如InFlow和Inventoria)僅僅應(yīng)用傳統(tǒng)的統(tǒng)計(jì)分析方法分析現(xiàn)存的庫(kù)存數(shù)據(jù),對(duì)當(dāng)前的庫(kù)存信息分布進(jìn)行跟蹤監(jiān)控。進(jìn)行庫(kù)存決策時(shí)僅考慮單一算法模型,而無法根據(jù)綜合分析歷史數(shù)據(jù)和市場(chǎng)的實(shí)際狀況快速做出正確決策方案。因此,如何利用大數(shù)據(jù)挖掘技術(shù)開發(fā)智能庫(kù)存管理平臺(tái),?實(shí)現(xiàn)高效可靠的庫(kù)存預(yù)測(cè)、庫(kù)存異常檢測(cè)及庫(kù)齡分析等任務(wù),成為當(dāng)前大型零售企業(yè)亟需解決的問題。

6.2?庫(kù)存管理數(shù)據(jù)挖掘挑戰(zhàn)

隨著庫(kù)存管理數(shù)據(jù)日益龐大,庫(kù)存管理系統(tǒng)處理問題的難度也在不斷攀升。以國(guó)內(nèi)某大型電子消費(fèi)產(chǎn)品制造企業(yè)的兩大類電視產(chǎn)品(液晶和等離子)交易為例,其庫(kù)存管理數(shù)據(jù)挖掘面臨的主要挑戰(zhàn)如下。

(1)交易記錄繁多:現(xiàn)代大型零售企業(yè)業(yè)務(wù)規(guī)模龐大,產(chǎn)生的交易記錄繁多,從2011年1月到2013年12月有將近6 000萬條,約50 GB數(shù)據(jù)。

(2)屬性關(guān)系復(fù)雜:庫(kù)存數(shù)據(jù)屬性繁多,記錄中包含種類眾多的屬性,有將近200個(gè);數(shù)據(jù)層次繁多,在不同數(shù)據(jù)維度上,記錄可屬于不同的層次;庫(kù)存數(shù)據(jù)和屬性相關(guān)性復(fù)雜等。

(3)處理速度緩慢:現(xiàn)有數(shù)據(jù)分析工具大多基于內(nèi)存,無法加載龐大數(shù)據(jù)集,?對(duì)數(shù)據(jù)輸入格式要求嚴(yán)格,適用性不強(qiáng),?運(yùn)行速度慢,無法響應(yīng)大數(shù)據(jù)的要求。

因此,現(xiàn)代庫(kù)存管理需要采用大數(shù)據(jù)挖掘技術(shù)開發(fā)高效、可靠、能處理大規(guī)模數(shù)據(jù)的智能庫(kù)存管理系統(tǒng)。

6.3?具體例子

筆者的研究團(tuán)隊(duì)開發(fā)了基于FIU-Miner?的智能庫(kù)存管理系統(tǒng)iMiner[13],該系統(tǒng)為智能庫(kù)存管理定制了專門的數(shù)據(jù)挖掘算法,實(shí)現(xiàn)了多個(gè)功能模塊,開發(fā)了大規(guī)模的數(shù)據(jù)分析平臺(tái)系統(tǒng)。

6.3.1?系統(tǒng)概況

圖13展示了iMiner系統(tǒng)整體框架、各功能層次和模塊。系統(tǒng)自底向上分為物理資源層、任務(wù)和系統(tǒng)管理層、數(shù)據(jù)分析層、用戶界面層。該系統(tǒng)分析平臺(tái)建立在支持高效數(shù)據(jù)分析的分布式系統(tǒng)——FIU-Miner中。這一分析平臺(tái)可提供高效率的數(shù)據(jù)分析處理工作流,并且可以有效地集成多種數(shù)據(jù)分析工具和語言,如R、Weka、Python、Hadoop等。數(shù)據(jù)分析層包括了數(shù)據(jù)預(yù)處理和各類數(shù)據(jù)挖掘算法,其中關(guān)鍵因素提取算法有助于提取對(duì)入庫(kù)/出庫(kù)量產(chǎn)生較大影響的因素或者對(duì)物料異常情況有決定性影響的因素;分布式K?近鄰算法有助于查找入庫(kù)/出庫(kù)行為相似的物料;分布式回歸分析有助于對(duì)大盤及具體物料的入庫(kù)/出庫(kù)量進(jìn)行有效預(yù)測(cè)。

圖13 ?iMiner系統(tǒng)架構(gòu)

系統(tǒng)主要聚焦于庫(kù)存預(yù)測(cè)、庫(kù)存異常檢測(cè)、庫(kù)齡挖掘三大核心功能,通過綜合評(píng)價(jià)和集成各種算法的輸出使得分析結(jié)果更加穩(wěn)定和準(zhǔn)確。用戶界面層囊括了多種庫(kù)存分析結(jié)果的展示,用戶可以通過屬性選擇來查看不同的分析結(jié)果,也可以通過對(duì)個(gè)別參數(shù)的修改來更新分析結(jié)果,實(shí)現(xiàn)實(shí)時(shí)的人機(jī)互動(dòng)。展示結(jié)果不僅有列表顯示,還提供了各種直觀的圖表顯示,更有利于用戶接收到數(shù)據(jù)整體分布、趨勢(shì)和關(guān)鍵信息點(diǎn)。

6.3.2?系統(tǒng)功能模塊

iMiner主要包含庫(kù)存預(yù)測(cè)(inventory forecasting)、庫(kù)存異常檢測(cè)(inventory anomaly detection)及庫(kù)齡分析(inventory aging analysis)三大功能模塊,如圖14所示。

圖14 ?iMiner主要功能模塊

(1)庫(kù)存預(yù)測(cè)

庫(kù)存管理中,精確和可信的庫(kù)存預(yù)測(cè)是關(guān)鍵。高效、可靠的預(yù)測(cè)可以大大減少庫(kù)存負(fù)荷,降低額外的貨物維護(hù)和損耗。庫(kù)存數(shù)據(jù)為標(biāo)準(zhǔn)的時(shí)序數(shù)據(jù),數(shù)據(jù)量大、時(shí)間跨度長(zhǎng)、涵蓋面廣、規(guī)律性差。iMiner?采用一種動(dòng)態(tài)預(yù)測(cè)模型,首先根據(jù)歷史數(shù)據(jù)對(duì)出庫(kù)的基數(shù)進(jìn)行預(yù)測(cè),而后結(jié)合出庫(kù)數(shù)據(jù)的長(zhǎng)期趨勢(shì)、周期性因素及事件性因素對(duì)基數(shù)進(jìn)行動(dòng)態(tài)調(diào)整,從而得到最終的預(yù)測(cè)結(jié)果。

? ?(2)庫(kù)存異常檢測(cè)

對(duì)庫(kù)存指標(biāo)進(jìn)行監(jiān)控而達(dá)到異常檢測(cè)的目的,是庫(kù)存管理中不可或缺的部分。iMiner提供了多種庫(kù)存指標(biāo)的實(shí)時(shí)監(jiān)控(如庫(kù)存周轉(zhuǎn)率、庫(kù)存周轉(zhuǎn)天數(shù)、存銷比、周轉(zhuǎn)提升率、庫(kù)存資金周轉(zhuǎn)率)和不同粒度下的指標(biāo)查詢(如按時(shí)間周期包括按周和按月、按指定公司和物料、按指定物料類別和公司、按指定物料類別等)。同時(shí),?系統(tǒng)從庫(kù)存數(shù)據(jù)多個(gè)角度入手,及時(shí)、準(zhǔn)確地發(fā)現(xiàn)庫(kù)存的波動(dòng);采用相關(guān)物料的協(xié)同異常判定,使得對(duì)于異常結(jié)果的判定更有意義,系統(tǒng)還能夠同時(shí)準(zhǔn)確判定整體性指標(biāo)變化和個(gè)別指標(biāo)異常。

(3)庫(kù)齡分析

庫(kù)齡挖掘是為了防止貨物積壓,提前發(fā)現(xiàn)潛在積壓貨物,減小貨物積壓投資。iMiner系統(tǒng)利用統(tǒng)計(jì)回歸模型實(shí)現(xiàn)庫(kù)齡分析,并提供了庫(kù)齡分析的基本工具和高級(jí)工具。基本工具允許用戶可視化分析給定貨物的庫(kù)齡分布,比較不同貨物中當(dāng)前的和歷史的庫(kù)齡變化,高級(jí)工具能夠幫助用戶找到與積壓相關(guān)的貨物屬性。iMiner系統(tǒng)中,庫(kù)齡挖掘主要包含了庫(kù)齡相關(guān)分類和標(biāo)準(zhǔn)、庫(kù)齡計(jì)算、庫(kù)齡金額計(jì)算以及安全庫(kù)存的計(jì)算等功能模塊。

6.4?應(yīng)用亮點(diǎn)評(píng)述

iMiner是一種新的智能庫(kù)存管理系統(tǒng),該系統(tǒng)能夠幫助大型供應(yīng)商實(shí)現(xiàn)高效的庫(kù)存管理,著力解決大數(shù)據(jù)時(shí)代現(xiàn)有庫(kù)存管理面臨的兩大關(guān)鍵問題。

(1)大規(guī)模庫(kù)存數(shù)據(jù)分析

iMiner系統(tǒng)分析平臺(tái)建立在支持高效數(shù)據(jù)分析的分布式系統(tǒng)——FIU-Miner中。這一分析平臺(tái)是在分布式環(huán)境中管理所有的交易數(shù)據(jù),因此,iMiner能夠自動(dòng)配置和執(zhí)行大規(guī)模庫(kù)存數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析任務(wù)。

(2)復(fù)雜庫(kù)存任務(wù)管理

iMiner結(jié)合多種先進(jìn)的數(shù)據(jù)挖掘算法來分析庫(kù)存數(shù)據(jù)。在實(shí)踐中,系統(tǒng)采用多種回歸模型,結(jié)合時(shí)間序列分析方法來實(shí)現(xiàn)庫(kù)存預(yù)測(cè);運(yùn)用情境感知異常檢測(cè)算法來識(shí)別異常貨物;利用統(tǒng)計(jì)回歸模型來進(jìn)行庫(kù)齡分析。從而實(shí)現(xiàn)高效、準(zhǔn)確的復(fù)雜庫(kù)存任務(wù)管理。

基于FIU-Miner的iMiner商務(wù)智能庫(kù)存管理平臺(tái)已經(jīng)應(yīng)用于企業(yè),成功解決了產(chǎn)品出庫(kù)預(yù)測(cè)、指標(biāo)異常檢查、庫(kù)齡挖掘等對(duì)企業(yè)產(chǎn)品生產(chǎn)和經(jīng)濟(jì)效益有重要影響的實(shí)際問題。

7 ??結(jié)束語

大數(shù)據(jù)的復(fù)雜特征對(duì)數(shù)據(jù)挖掘在理論和算法研究方面提出了新的要求和挑戰(zhàn)。大數(shù)據(jù)是現(xiàn)象,核心是挖掘數(shù)據(jù)中蘊(yùn)含的潛在信息,并使它們發(fā)揮價(jià)值。數(shù)據(jù)挖掘是理論技術(shù)和實(shí)際應(yīng)用的完美結(jié)合。

本文通過目前業(yè)界對(duì)大數(shù)據(jù)的理解和認(rèn)識(shí),結(jié)合筆者及其研究團(tuán)隊(duì)多年來對(duì)大數(shù)據(jù)挖掘的深入理論研究及廣泛的應(yīng)用研究,綜合凝練出大數(shù)據(jù)的核心架構(gòu),?即大數(shù)據(jù)挖掘的本質(zhì)是應(yīng)用、算法、數(shù)據(jù)和平臺(tái)4個(gè)要素的有機(jī)結(jié)合。在此架構(gòu)下,?從應(yīng)用的角度重點(diǎn)介紹了研究團(tuán)隊(duì)開發(fā)的能夠快速、有效地進(jìn)行各類數(shù)據(jù)挖掘任務(wù)的數(shù)據(jù)挖掘系統(tǒng)FIU-Miner,并具體介紹了基于FIU-M i ner的高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能數(shù)據(jù)挖掘3個(gè)典型的應(yīng)用案例。FIU-Miner在這些領(lǐng)域的成功應(yīng)用也說明了提出的數(shù)據(jù)挖掘核心架構(gòu)的效用。


致謝

本文總結(jié)介紹了筆者研究團(tuán)隊(duì)近幾年開展的與大數(shù)據(jù)相關(guān)的部分研究和成果。基于這些研究,給出了對(duì)大數(shù)據(jù)的理解和看法,希望能起到拋磚引玉的目的。在這些相關(guān)研究中,筆者研究團(tuán)隊(duì)得到了許多人的幫助和機(jī)構(gòu)的資助,在此表示衷心感謝。

首先,要大力感謝長(zhǎng)虹集團(tuán)以及其相關(guān)科研人員Bing Duan、Ming Lei、Pengnian Wang、Jun Tang、?Dong Liu。他們不僅為筆者研究團(tuán)隊(duì)的科研提供了資助,而且其相關(guān)研究人員為筆者研究團(tuán)隊(duì)提供了非常多寶貴的專業(yè)領(lǐng)域知識(shí)指導(dǎo)。

其次,要深深感謝美國(guó)佛羅里達(dá)國(guó)際大學(xué)的Knowledge Discovery and Research Group(KDRG)研究組的成員:Dr Lei Li、Dr Yexi Jiang、Mr Wei Xue、Dr Jingxuan Li、Dr Chao Shen、Mr Hongtai Li、Dr Liang Tang、Mr Long Wang和Mr Longhui Zhang。他們?cè)谙嚓P(guān)的研究及項(xiàng)目中付出了辛勤的勞動(dòng),提供了許多寶貴的反饋。

最后,要感謝美國(guó)佛羅里達(dá)國(guó)際大學(xué)的Naphtali Rishe教授以及其帶領(lǐng)的High Performance Database Research Center?(HPDRC)研究組里的成員: Mr Mingjin Zhang、Ms Huibo Wang、Dr Yun Lu、Mr Yudong Guang、Mr Chang Liu和Mr Erik Edrosa。他們?cè)赥errayFlyGeocloud項(xiàng)目上與筆者研究團(tuán)隊(duì)開展了非常有成效的合作。

考文獻(xiàn):

[1]?嚴(yán)霄鳳,?張德馨.?大數(shù)據(jù)研究[J].?計(jì)算機(jī)技術(shù)與發(fā)展, 2013, 23(4): 168~172.

YAN X F, ZHANG D X. Big data research[J]. Computer Technology and Development, 2013, 23(4): 168~172.

[2]?李國(guó)杰.?對(duì)大數(shù)據(jù)的再認(rèn)識(shí)[J].?大數(shù)據(jù), 2015001.

LI G J. Further understanding of big data[J]. Big Data Research, 2015001.

[3]?李濤.?數(shù)據(jù)挖掘的應(yīng)用與實(shí)踐:?大數(shù)據(jù)時(shí)代的案例分析[D].?廈門:?廈門大學(xué)出版社, 2013.

LI T. Data Mining Where Theory Meets Practice[D]. Xiamen: Xiamen Press, 2013.

[4] HALL M, FRANK E, HOLMES G, et al. The Weka data mining software: an update[J]. SIGKDD Explorations, 2009, 11(1): 10 ~18.

[5] OWEN S, ANIL R, DUNNING T, et al. Mahout in Action[J]. Shelter Island: Manning Publications, 2011.

[6] PREKOPCSAK Z, MAKRAI G, HENK T, et al. Radoop: analyzing big data with rapid mine rand hadoop[C]//Proceedings of Rapid Miner Community Meetingand Conference, Dublin, Ireland, 2011.

[7] YU L, ZHENG J, WU B, et al. Bc-pdm: data mining, social network analysis and text mining system based on cloud computing[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’12 ), Beijing, China, 2012.

[8] ZENG C Q, JIANG Y X, ZHENG L, et al. Fiu-Miner: a fast, integrated, and user-friendly system for data mining in distributed environment[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’13), Chicago, Illinois, USA, 2013: 1506~1509.

[9] LEI D, HITT M A, GOLDHAR J D. Advanced manufacturing technology: organizational design and strategic flexibility[J]. Organization Studies, 1996, 17(3): 501~523.

[10] ZHENG L, ZENG C Q, LI L, et al. Applying data mining techniques to address critical process optimization needs in advanced manufacturing[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’14), New York, USA, 2014: 1739~1748.

[11] ZHANG M J, WANG H B, LU Y, et al. TerraFly GeoCloud: an online spatial data analysis and visualization system[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2015, 6(3).

[12] ZENG C Q, LI H T, WANG H B, et al. Optimizing online spatial data analysis with sequential query patterns[C]//Proceedings of the 15th IEEE International Conference on Information Reuse and Integration, San Francisco, CA, USA, 2014.

[13] LI L, SHEN C, WANG L, et al. iMiner: mining inventory data for intelligent management[C]//Proceedings of the 23rd ACM International Conference on?Information and Knowledge Management, Shanghai, China, 2014.

李濤,男,南京郵電大學(xué)計(jì)算機(jī)學(xué)院、軟件學(xué)院院長(zhǎng),南京郵電大學(xué)大數(shù)據(jù)研究院院長(zhǎng)。2004年7月獲美國(guó)羅徹斯特大學(xué)(University of Rochester)計(jì)算機(jī)科學(xué)博士學(xué)位,2004-2014年先后任美國(guó)佛羅里達(dá)國(guó)際大學(xué)(Florida International University)計(jì)算機(jī)學(xué)院助理教授、副教授(終身教授)、教授(full professor)、研究生主管(graduate program director)。由于在數(shù)據(jù)挖掘及應(yīng)用領(lǐng)域成效顯著的研究工作,曾多次獲得各種榮譽(yù)和獎(jiǎng)勵(lì),其中包括2006年美國(guó)國(guó)家自然科學(xué)基金委頒發(fā)的杰出青年教授獎(jiǎng),2010年IBM大規(guī)模數(shù)據(jù)分析創(chuàng)新獎(jiǎng),并于2009年獲得佛羅里達(dá)國(guó)際大學(xué)最高學(xué)術(shù)研究獎(jiǎng)。

曾春秋,男,美國(guó)佛羅里達(dá)國(guó)際大學(xué)計(jì)算機(jī)科學(xué)博士生,南京郵電大學(xué)計(jì)算機(jī)學(xué)院大數(shù)據(jù)項(xiàng)目組成員。2009年7月—2012年1月為阿里巴巴(中國(guó))網(wǎng)絡(luò)技術(shù)有限公司高級(jí)數(shù)據(jù)工程師。主要研究興趣包括大規(guī)模分布式數(shù)據(jù)挖掘和系統(tǒng)管理,發(fā)表多篇頂級(jí)數(shù)據(jù)挖掘國(guó)際期刊和會(huì)議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍的編寫工作。

周武柏,男,美國(guó)佛羅里達(dá)國(guó)際大學(xué)計(jì)算機(jī)科學(xué)博士生,南京郵電大學(xué)計(jì)算機(jī)學(xué)院大數(shù)據(jù)項(xiàng)目組成員。主要研究興趣包括數(shù)據(jù)挖掘和計(jì)算機(jī)系統(tǒng)管理,發(fā)表多篇頂級(jí)數(shù)據(jù)挖掘國(guó)際期刊和會(huì)議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍的編寫工作。

周綺鳳,女,博士,廈門大學(xué)自動(dòng)化系副教授。2002年起從事數(shù)據(jù)挖掘及智能系統(tǒng)方面的研究工作,2014—2015年在美國(guó)佛羅里達(dá)國(guó)際大學(xué)訪學(xué),主要研究興趣包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘及其在可持續(xù)發(fā)展等領(lǐng)域的應(yīng)用。

鄭理,男,2014年在美國(guó)佛羅里達(dá)國(guó)際大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位,南京郵電大學(xué)計(jì)算機(jī)學(xué)院項(xiàng)目研究員。主要研究興趣包括信息檢索、推薦系統(tǒng)及災(zāi)難信息管理,發(fā)表多篇頂級(jí)數(shù)據(jù)挖掘國(guó)際期刊和會(huì)議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍編寫。

總結(jié)

以上是生活随笔為你收集整理的2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。