當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读--异常检测中实时大数据处理的研究挑战

發布時間：2023/12/16 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读--异常检测中实时大数据处理的研究挑战小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

異常檢測中實時大數據處理的研究挑戰

0、引言：
1、給出一些與大數據處理挑戰相關的現有機器學習算法模型框架：
- 1.1、[Zhou、Pan、Wang 和 Vasilakos (2017)](https://www.sciencedirect.com/science/article/abs/pii/S0925231217300577)
- 1.2、[Fernández、Carmona、del Jesus 和 Herrera (2016)](https://www.atlantis-press.com/journals/ijcis/25868762)
- 1.3、[Suthaharan (2014)](http://refhub.elsevier.com/S0268-4012%2818%2930165-8/sbref0550)
2、分析通過機器學習算法進行異常檢測的實時大數據處理及其局限性：
- 2.1、[McNeil、Shetty、Guntu 和 Barve (2016)](https://www.sciencedirect.com/science/article/pii/S1877050916302873)
- 2.2、[Lobato、Lopez 和 Duarte (2016)](http://refhub.elsevier.com/S0268-4012%2818%2930165-8/sbref0395)
- 2.3、[Gon?alves、Bota 和 Correia (2015)](http://refhub.elsevier.com/S0268-4012%2818%2930165-8/sbref0245)
- 2.4、[（Cui & He，2016）](http://refhub.elsevier.com/S0268-4012%2818%2930165-8/sbref0155)
- 2.5、[Rettig、Khayati、Cudré-Mauroux 和 Piórkowski（2015 年）](http://refhub.elsevier.com/S0268-4012%2818%2930165-8/sbref0480)
- 2.6、[Liu and Nielsen (2016)](http://refhub.elsevier.com/S0268-4012%2818%2930165-8/sbref0380)
- 2.7、不足：
3、異常檢測的實時大數據處理技術中最重要的研究挑戰：
- 3.1 . 冗余
- 3.2 . 計算成本
- 3.3 . 輸入數據的性質
- 3.4 . 噪聲和缺失值
- 3.5 . 參數選擇
- 3.6 . 架構不足
- 3.7 . 數據可視化
- 3.8 . 數據的異質性
- 3.9 . 準確性
4、研究方向的建議
【參考文獻】

原創申明：未經許可，禁止以任何形式轉載，若要引用，請標注鏈接地址
全文共計5278字，閱讀大概需要3分鐘
歡迎關注我的個人公眾號：不懂開發的程序猿

0、引言：

現有的大多數分析都普遍評估了大數據處理、異常檢測或機器學習技術，主要集中在批處理而不是實時加工。相比之下，我們主要關注使用機器學習進行異常檢測的實時大數據處理技術。

圖：實時大數據生成、處理和異常檢測的順序

1、給出一些與大數據處理挑戰相關的現有機器學習算法模型框架：

1.1、Zhou、Pan、Wang 和 Vasilakos (2017)

提出了一個大數據機器學習 (MLBiD) 框架，該框架遵循預處理、學習和評估階段。此外，它還確定了該領域未來幾年的各種挑戰和機遇。他們還提出了一種具有監督、無監督學習、強化和數據可用性的分類法。此外，他們總結了幾個研究問題，包括新的大數據機器學習架構，無縫支持海量異構數據的實時處理。

1.2、Fernández、Carmona、del Jesus 和 Herrera (2016)

解決了與當前算法的數據分布和并行化以及模糊表示相關的各種問題。以及不同的大數據技術挑戰，如 Hadoop 生態系統（HDFS、HBASE、YARN、Map Reduce 編程）、Spark 主要概念彈性分布式數據集（RDD）、FlinkML，包括數據預處理、監督學習和推薦系統。

1.3、Suthaharan (2014)

專注于將大數據和機器學習結合起來處理網絡入侵流量時的各種問題和挑戰。由于網絡入侵檢測中的時間敏感應用和預測，它需要非常強大的大數據技術來解決最近的問題。以及與大數據相關的一些主要問題，例如網絡拓撲、通信和安全性。

2、分析通過機器學習算法進行異常檢測的實時大數據處理及其局限性：

在許多其他異常檢測模型中，機器學習得到了最廣泛的應用，而越來越多的網絡流量成為現有系統的限制，因為它需要執行復雜的計算。

2.1、McNeil、Shetty、Guntu 和 Barve (2016)

分析了檢測移動設備中惡意軟件的可用工具。這些工具未能集成群組用戶分析，這有助于對目標惡意軟件檢測進行自動化的行為驅動動態分析。此外，他們提出了可擴展的實時異常檢測和移動設備中目標惡意軟件的通知 (SCREDENT) 架構，以實時分類、檢測和預測目標惡意軟件。即便如此，對所提議架構的評估未能給出有希望的結果。

2.2、Lobato、Lopez 和 Duarte (2016)

審查了現有的安全方法，例如安全信息和事件管理 (SIEM) 構建，以單點處理數據收集和處理。除此之外，它還會產生大量的誤報。此外，他們還提出了一種使用蒸汽處理和機器學習實時檢測威脅的架構。這種架構結合了通過批處理對過去可用的數據集進行實時流式傳輸的好處，并減少了人對系統的參與。所提出的系統還有助于檢測已知和零日攻擊，以進行攻擊分類和異常。然而，盡管有公開可用的數據集（例如 KDD 數據集），但已發現所提出的系統在用于實驗的數據集的準確性上較弱。

2.3、Gon?alves、Bota 和 Correia (2015)

在復雜的網絡基礎設施中提出了挑戰，其中包含存儲在大量日志文件中的大量設備信息。因此，從該日志中提取有意義的信息是一項艱巨的任務。使用機器學習和數據挖掘技術評估各種基礎設施設備的安全日志以發現行為不端的主機的新方法。建議的方法有兩個階段。首先執行一組定義和配置檢測機制的步驟，其次在運行時執行檢測機制。然而，實驗設置是通過批處理進行的，輸出效率不夠準確，還需要高度的人工干預來自動化一些過程。

2.4、（Cui & He，2016）

提出了模型來處理使用 Hadoop、HDFS、Mapreduce、云和機器學習算法檢測異常的更好性能。此外，weka 接口用于模型中，通過樸素貝葉斯、決策樹和支持向量機算法評估準確性和效率。事實上，云基礎設施和實時輸入數據流的實施并沒有得到很好的解決。

2.5、Rettig、Khayati、Cudré-Mauroux 和 Piórkowski（2015 年）

解決了檢測流數據異常的挑戰，主要關注通用性和可擴展性。他們提出了使用熵和皮爾遜相關性來評估具有兩個指標的在線異常檢測的新方法。此外，大數據流組件，如 Kafka 隊列和Spark Stream，用于確保通用性和可擴展性問題。盡管如此，復雜的過程僅限于由數據處理，并且周期性批處理的持續時間也很長。

2.6、Liu and Nielsen (2016)

提出了一種使用內存分布式框架來檢測異常的方法。該框架包含Spark Stream和 lambda 系統。它的主要優點是支持可擴展的實時流式傳輸以進行實時檢測。但是，該框架需要更長的時間來訓練模型。因此，實時任務的調度是未知的。

2.7、不足：

上述所有討論的方法及其局限性都需要重新評估框架設計以支持異常檢測。特別是，使用機器學習進行異常檢測的高級實時大數據分析將為異常檢測帶來有希望且更好的性能和準確性。

3、異常檢測的實時大數據處理技術中最重要的研究挑戰：

3.1 . 冗余

實時處理從各種網絡傳感器生成的大量數據是大數據管理中的一個關鍵因素，尤其是由于先前生成的數據不斷重復。
盡管現有的大數據處理技術，如 Hadoop 和 Spark 框架已經被開發用于處理跨多個集群的數據復制，但這些技術仍然不足以解決與數據冗余、數據質量、不一致和維護存儲成本相關的挑戰（Bhadani 和 Jothimani，2016 年）。此外，這些技術缺乏模式來最大限度地減少冗余，并且不足以存儲大量數據（Hashem 等人，2015 年）。因此，設計一個能夠解決和最小化旨在滿足當前和未來需求的冗余問題的框架變得至關重要。

3.2 . 計算成本

許多研究都集中在合并或合并幾種技術以提高異常檢測的性能，這導致計算成本增加（Lin et al., 2015）。此外，高維度與大樣本量相結合會產生計算成本高和算法不穩定性等問題（Fan, Han, & Liu, 2014）。因此，將大數據技術與云一起使用將通過結合并行和分布式處理來解決計算成本問題，這有助于構建多個集群，從而最大限度地降低計算成本。高芯片和處理器的大規模生產降低了它們的成本，因此這些硬件的使用將增加系統的能力，有助于實時處理大量數據，從而降低計算成本。

3.3 . 輸入數據的性質

在構建的任何模型的一個方面，首先要研究的是輸入數據的性質。輸入數據是數據實例的集合，如對象、記錄、點、向量、模式、事件、案例、樣本、觀察、實體。它們是每個數據實例的各種屬性集，例如變量、特征、特征、字段和維度。它有兩種不同類型的屬性，例如二元、分類或連續。每個數據實例大多屬于單變量或多變量類別。輸入數據的多樣性使得異常檢測技術難以選擇適當的算法來處理該特定數據。基本上，異常檢測技術將根據該應用程序中屬性的性質而有所不同（Chandola et al., 2009）。這個問題將通過開發混合無監督機器學習算法來解決。

3.4 . 噪聲和缺失值

網絡傳感器中的流數據由不同類型的數據組成，例如二進制、離散、連續、音頻、視頻和圖像。由于數據的傳入速度，通過通信通道從各種部署的傳感器收集的這些數據包括噪聲和缺失值（Chandola 等人，2009 年）。噪聲和缺失值可能會在異常檢測中產生較高的誤報率。大量不相關的特征會在輸入數據中產生噪聲，從而繞過真正的異常 ( Erfani et al., 2016 )。這些問題將通過在檢測框架中加入自動噪聲清理模塊來解決。自動清理模塊還將通過向數據集添加 NA 來解決缺失值問題。

3.5 . 參數選擇

找到任何機器學習算法的參數都可能具有挑戰性（Mirsky 等人，2017 年）。特別是在處理實時異常檢測時，在選擇它們之前必須考慮單參數、多參數和超參數。此外，在演化過程的早期階段運行良好的一組參數可能在后期階段表現不佳，反之亦然（Sarker, Elsayed, & Ray, 2014）。參數是決定算法性能的主要因素之一。此外，它會對模型的訓練產生巨大的影響或延遲。或者，我們可以使用無參數算法來識別流、有向、二分圖中的節點分區，并監控它們隨時間的演變以檢測事件（Akoglu、Tong 和 Koutra，2015 年）。采用偏心技術之類的技術將解決這一挑戰，因為它將最大限度地減少參數選擇。

3.6 . 架構不足

現有架構能夠處理批處理中的異常檢測，并且數據量較小，但是它們無法實時處理大數據。組織正在努力構建大數據架構以更好地執行，但是當涉及到實時數據時，它與大數據根本上是不同的架構。實時架構的組件必須合并應用程序和分析，以提出新的工作環境方式，同時滿足動態數據（快速）和靜態數據（大）的需求。不與現有企業數據集成時，大數據架構效率低下；就像在大數據關聯分析之前無法完成分析一樣（Katal、Wazid 和 Goudar，2013）。將各種大數據技術與混合機器學習算法相結合將解決架構問題。

3.7 . 數據可視化

處理和分析的數據或報告需要由用戶可視化，并且必須從報告中提供洞察力。然而，挑戰在于選擇適當的可視化技術，以便從各種連接設備進行異常檢測。多種可視化技術用于異常檢測可視化的設計，從簡單圖形到 2D 和 3D 視圖。當涉及到 2D 和 3D 時，熱圖、散點圖、平行坐標和節點鏈接圖很容易展示輸出。3D 交互需要用戶完全理解數據才能旋轉縮放顯示（Shiravi, Shiravi, & Ghorbani, 2012）。在框架中嵌入可用的開源可視化技術可以解決這個問題，此外，該框架使系統能夠自動選擇合適的可視化技術。

3.8 . 數據的異質性

非結構化數據代表了幾乎所有正在生成的數據，例如社交媒體交互、錄制的會議、PDF 文檔的處理、傳真傳輸、電子郵件等等。結構化數據總是以高度機械化和可管理的方式組織起來。它顯示了與數據庫的良好集成，但非結構化數據完全是原始的和無組織的。使用非結構化數據很麻煩，當然也很昂貴。將所有這些非結構化數據轉換為結構化數據也是不可行的。無監督混合機器學習算法的使用將解決異構數據問題。混合機器學習算法和實時大數據技術的結合將有助于將傳入的數據聚類到不同的類別，最終有助于輕松識別數據類型，

3.9 . 準確性

盡管現有技術能夠檢測異常，但由于準確性問題，結果的依賴性仍然不可靠。在某些情況下，以高計算處理和時間為代價產生更好的準確性。這個問題將通過將實時大數據技術與混合機器學習算法相結合來解決，混合機器學習算法作為一種替代強大的元學習工具出現，可以準確分析現代應用程序生成的大量數據，并且內存和功耗更少。

4、研究方向的建議

【參考文獻】

[1] Habeeb R A A, Nasaruddin F, Gani A, et al. Real-time big data processing for anomaly detection: A survey[J]. International Journal of Information Management, 2019, 45: 289-307.
[2] Thudumu S, Branch P, Jin J, et al. A comprehensive survey of anomaly detection techniques for high dimensional big data[J]. Journal of Big Data, 2020, 7(1): 1-30.
[3] 張浩. 一種新型分類算法及其在網絡入侵檢測中的應用研究[D].北京郵電大學,2018.
[4] 何經緯,劉黎志,彭貝,付星堡.基于Spark并行SVM參數尋優算法的研究[J].武漢工程大學學報,2019,41(03):283-289.
[5] 吳思遠. 基于支持向量機的網絡流量分類技術研究[D].南京郵電大學,2019.DOI:10.27251/d.cnki.gnjdc.2019.000104.
[6] 劉建蘭,覃仁超,何夢乙,熊健.基于大數據技術的網絡異常行為檢測模型[J].計算機測量與控制,2020,28(03):62-66+71.DOI:10.16526/j.cnki.11-4762/tp.2020.03.014.
[7] 邵金鑫,行艷妮,南方哲,趙鑫,馬廷淮,錢育蓉.改進CK-means+算法及并行實現[J].計算機工程與設計,2022,43(05):1240-1248.DOI:10.16208/j.issn1000-7024.2022.05.006.
[8] Othman S M, Ba-Alwi F M, Alsohybe N T, et al. Intrusion detection model using machine learning algorithm on Big Data environment[J]. Journal of big data, 2018, 5(1): 1-12.
[9] Zhang H, Dai S, Li Y, et al. Real-time distributed-random-forest-based network intrusion detection system using Apache spark[C]//2018 IEEE 37th international performance computing and communications conference (IPCCC). IEEE, 2018: 1-7.
[10] Awan M J, Farooq U, Babar H M A, et al. Real-time DDoS attack detection system using big data approach[J]. Sustainability, 2021, 13(19): 10743.
[11] Kulariya M, Saraf P, Ranjan R, et al. Performance analysis of network intrusion detection schemes using Apache Spark[C]//2016 International Conference on Communication and Signal Processing (ICCSP). IEEE, 2016: 1973-1977.

總結

以上是生活随笔為你收集整理的论文阅读--异常检测中实时大数据处理的研究挑战的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：修复dhcp client服务器,无法开
下一篇：延时调用的时候要注意