日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

生成技术在人工智能平台中的应用探索

發布時間:2025/3/15 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 生成技术在人工智能平台中的应用探索 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

點擊上方藍字關注我們

生成技術在人工智能平臺中的應用探索

夏正勛,?楊一帆,?羅圣美,?趙大超,?張燕,?唐劍飛

星環信息科技(上海)有限公司,上海 200233

摘要隨著人工智能(AI)技術的發展,AI應用進入了快速普及期,面對快速增長的市場需求,AI平臺有必要引入自動化方法提升開發效率。在分析生成技術研究進展、AI平臺現狀及挑戰的基礎上,基于生成技術實現了AI平臺的前后端適配、性能優化、模型安全提升等核心工作的自動化。新方法可以根據上下文的需要,生成數據或代碼,以一種更靈活的方式滿足AI應用及內核優化的需求,避免了大量的手工工作,有效提升了開發效率,降低了開發成本。

關鍵詞?生成技術?;?人工智能?;?自動化

論文引用格式:

夏正勛,楊一帆,羅圣美, 等.生成技術在人工智能平臺中的應用探索[J]. 大數據, 2020, 6(6): 119-128.

XIA Z X, YANG Y F, LUO S M, et al. Application and exploration of automatic generation technology in artificial intelligence platform[J]. Big Data Research, 2020, 6(6): 119-128.


1 引言

隨著人工智能(artificial intelligence, AI)技術的快速發展,特別是在深度學習(deep learning,DL)技術的推動下,人工智能的應用需求呈爆發式增長。AI平臺是AI功能的載體,多樣化的應用需求對AI平臺提出了越來越高的要求,在不同的發展時期,AI平臺有不同的關注點。在發展初期,AI平臺關注其基礎能力實現,如對訓練及推理的支持能力、支持的算法種類等。在應用普及期,AI平臺關注其落地能力,如性能優化、可視化管理、虛擬化支持等。近年來,AI進入快速推廣期,AI平臺更關注其商用成本及對創新特性的支持能力,如AI硬件支持種類、數據安全特性支持等。

為了滿足不同階段的不同需求,AI平臺需要不斷優化升級,增強功能,這導致AI平臺處理流程越來越復雜,增加了AI平臺優化改造的難度及工作量。為此,需要一種更靈活的AI平臺內核實現手段支持新功能的開發,而生成技術可以根據上下文的需要生成數據或代碼,以一種更靈活的方式滿足AI上層應用的需求及內核自身的改進需求,提高AI平臺的靈活性及穩定性,快速實現AI平臺的自我優化。

2 生成技術的當前研究方向與現狀

生成技術可以根據上下文的需要生成符合特定規則的內容(如代碼、數據等),具體包含代碼生成技術、參數空間生成技術、數據樣本生成技術等。

代碼生成技術應用于GNU編譯器套件(GNU compiler collection,GCC)、低級虛擬機(low level virtual machine, LLVM)、Clang(C language family frontend for LLVM)等編譯器中。代碼生成模塊作為編譯器前端(frontend)的一部分,從語法和詞法分析處理模塊獲得抽象語法樹,并向編譯器后端(backend)提供字節碼,是連接編譯器前端和后端的紐帶,該過程如圖1所示。

圖1???代碼生成在編譯器處理流程中的位置

受益于代碼生成技術,編譯器可以將不同的編程語言(如C、C++、Java等)的源碼輸出為統一的中間表示(intermediate representation,IR),并針對中間表示進行統一優化,提升代碼執行效率。另外,代碼生成部分也為不同的編譯器后端提供標準化的字節碼輸入,使編譯器能夠在不改變源代碼的情況下,實現同一份源碼支持多個編譯器后端(如x86硬件平臺后端、PowerPC硬件平臺后端、ARM硬件平臺后端等),使程序具備跨平臺的支持能力。近些年,隨著深度學習技術的發展,出現了眾多深度學習框架,如Caffe、TensorFlow、PyTorch、MXNet等,不同深度學習框架輸出的模型相互之間并不兼容。為解決這一問題,華盛頓大學計算機科學與工程學院于2016年發布了NNVM(neural network virtual machine)編譯器,NNVM借鑒了LLVM的思想,通過代碼生成技術為不同的深度學習框架模型提供統一的深度學習中間表示(deep learning intermediate representation,DLIR)語言,不需要編碼即可支持多種深度學習框架模型跨硬件平臺的推理執行。

參數空間生成技術主要應用于AI算法的超參數自動調優階段。在AI的上下文中,超參數需要在開始學習過程之前進行設置,而不是通過訓練得到參數數據。通常情況下,超參數主要依據工程師的經驗配置,當參數數量增多時,參數組合情況倍增,人工配置難以取得很好的效果,因此超參數自動化調優技術的出現減輕了AI工程師的負擔,使其將工作重心從煩瑣、重復的選型和調參任務轉移到數據分析上。超參數自動化調優技術通常包含參數空間的生成與參數空間的優化選擇兩個階段,參數空間的生成是從理想狀態下的所有參數組合中選擇有潛力的候選配置,參數空間可以基于規則方法生成或基于元學習技術方法生成。參數空間的優化選擇階段可以采用的方法有基于強化學習的超參數優化方法、基于改進粒子群算法的深度學習超參數優化方法、基于貝葉斯新型深度學習超參數優化方法等。

數據樣本生成技術通常指自主學習原始樣本的分布規律,生成新的數據樣本,例如目標檢測場景中數據集的半自動生成、基于生成對抗網絡(generative adversarial network,GAN)的小樣本數據的生成等。在AI安全領域,對抗樣本的生成技術指在原有樣本的像素上添加擾動的方法,使包括卷積神經網絡在內的深度學習模型的準確率顯著降低。數據樣本生成技術的應用豐富了AI訓練數據集,解決了訓練樣本數量和樣本多樣性不足的問題,有效地提升了模型的精度及魯棒性。

3 生成技術在AI平臺中的應用及系統實現

AI平臺是提供“算法、算力、數據”基礎能力的平臺,在AI平臺之上是AI的各類行業應用。艾瑞咨詢發布的《2019年中國人工智能產業研究報告》將AI的服務分為基礎層服務、技術層服務、產品與解決方案服務,AI平臺主要涵蓋基礎層服務及技術層服務。具體而言,基礎層服務主要包含AI芯片、AI框架、AI邊緣設備、AI容器云服務、AI數據服務等;技術層服務主要包含計算機視覺、語音識別、自然語言處理、知識圖譜、機器學習等算法及模型服務等。AI平臺的建立有助于降低技術門檻,讓所有人都能享受到AI技術進步帶來的紅利。

但AI技術的快速發展及其相關應用的快速普及也為AI平臺帶來了新的挑戰。無論是新型算法、新型硬件的支持還是更高的AI安全可靠性要求,均需要從AI的基礎層、技術層進行創新,而這不可避免地會對AI平臺的原有架構、流程及功能做出變更。依靠傳統人工編碼的方式支持AI平臺新特性的開發,工作量大,開發周期長,對新需求的響應速度較慢。本文對生成技術在AI平臺進行應用實踐及探索思考,期望能夠為AI平臺的架構設計及技術實現提供一種新的思路,快速響應內外部需求的柔性擴展。本文將生成技術應用于AI平臺的模型支持、運行時(runtime)等核心模塊,包括自動化前后端適配、自動化調優、自動對抗學習等功能模塊,從而可以根據上下文的需要,自動地生成數據或代碼,避免了大量的手工工作,有效地提升了AI平臺的開發效率,降低了開發成本。

3.1 基于代碼生成技術的自動化前后端適配

代碼生成技術是一種利用程序生成代碼的技術,與人工編寫代碼相比,代碼生成技術有效解決了人工編寫代碼工作量大、耗時長的問題,提高了軟件開發效率。近些年,隨著AI軟硬件的快速演進發展,特別是國產軟硬件的發展,為了能夠實現AI平臺對各類深度學習框架(如TensorFlow、MXNet、PyTorch、PaddlePaddle、MindSpore等前端框架)的廣泛兼容,同時實現對后端AI硬件的廣泛支持,基于代碼生成技術實現了自動化前后端適配子系統,自動化前后端適配流程如圖2所示。


圖2???自動化前后端適配流程

首先,針對不同的學習框架,自動化前后端適配子系統提供不同的解析腳本對模型進行解析,以提取模型中的網絡結構定義、網絡參數及超參數等信息。統一IR是自動化前后端適配子系統定義的中間表示,統一IR考慮了所有深度學習框架模型的算子支持情況,統一IR可以與模型中的算子一一對應,對應關系被預定義在算子匹配規則表中。算子匹配規則表示例如圖3所示,其中冒號前為模型中的算子,冒號后為統一IR中的算子。

圖3???算子匹配規則表示例

自動化前后端適配子系統在遍歷神經網絡的過程中,使用代碼生成技術,根據算子匹配規則表的匹配關系,生成統一的計算圖,如圖4所示。


圖4???統一計算圖示例

自動化前后端適配子系統可針對計算圖進行圖級別的優化,這些優化包含重復子句消除、計算簡化、卷積計算核合并、計算節點合并等。自動化前后端適配子系統根據不同的目標硬件平臺選擇不同的硬件runtime,同樣基于代碼生成技術將統一計算圖生成為特定硬件的執行程序。如果目標硬件為NVIDIA GPU,則選擇的runtime為統一計算架構(compute unified device architecture,CUDA);如果目標硬件為AMD GPU,則選擇的runtime為RCOM。接著就可以調用與硬件對應的編譯器對執行代碼進行優化、編譯,最終生成可以在不同硬件平臺上運行的可執行模塊。

綜上,基于代碼生成技術的應用,依據簡單的前后端類型配置信息,自動化前后端適配子系統可以自動地將不同深度學習框架模型轉化為在特定硬件上的可執行代碼,減少了大量的模型轉換、硬件適配工作,提升了AI平臺的開發效率及易用性。

3.2 基于參數空間生成技術的自動化調優

超參數是AI模型中的框架參數,如聚類算法中的類別數目、矩陣乘法中的數據形狀的定義等。超參數與訓練過程中學習到的權重參數不一樣,其通常由人工設置,不斷試錯調整,這往往會花費大量的時間。因此,基于參數空間生成及參數空間搜索的自動化參數優化技術可以實現超參數調優自動化,不需要人工參與,速度更快,性能更優。其核心思想是:建立一個足夠大的搜索空間,保證可能的參數組合全部被包含在這個搜索空間里;快速地搜索這個空間,獲取最優的參數組合,可以利用隨機搜索、網格搜索、遺傳算法、極端梯度提升樹(extreme gradient boosting,XGBoost)方法對參數空間進行檢索。

下面以矩陣乘法為例,說明自動化調優過程中參數空間生成的應用,其計算過程如圖5所示。

圖5???二維矩陣乘法示例

如圖5所示,考慮到內存空間有限,對于大型的矩陣乘法,通常采用分片計算的方式。在計算過程中,參與單次計算的3個數據塊均能夠在緩存中被連續訪問,這可以有效地減少上下文切換,極大地提升計算效率。但不同的AI芯片的緩存配置不同,因此人工配置難以達到最優計算性能,需要依靠自動化方法實現最優參數搜索的工作。通常首先以2n為基本單位對輸出數據的每個維度進行分割,如的計算,分割后結果為,輸出塊的形狀(shape)共有10種,[32,16]表示。接著以2n為基本單位對k軸做分割,k同樣有10種取值,因此生成的參數組合空間中的參數組合數目為100種。

在具體應用中,參數空間的生成方式與參數搜索方法有關。例如,使用網格搜索方法需要生成所有參數組合,并對所有參數組合進行遍歷,這并不是一種高效的參數優化方式;使用隨機搜索方法,可能效果特別差,也可能效果特別好,在嘗試次數與網格搜索方法的嘗試次數相同的情況下,通常隨機搜索方法的最值會更大,變化幅度也更大,但這不會影響最終結果。在實現隨機搜索時可以進行優化,過濾可能出現過的參數組合,避免重復生成及重復計算。使用遺傳算法進行參數調優時,開始可以使用隨機生成方法對“種群”進行初始化工作,在優化過程中完成參數的“復制”“交叉”“變異”等處理,當嘗試總次數大于參數空間總數時,“遺傳”結束。使用XGBoost方法對參數空間進行搜索時,每一批計算的參數組合中的95%可以遍歷生成,5%可以隨機生成。另外,不同場景中的參數生成規則可能不同,因此還需要對參數生成規則做一定的管理,在插件式管理的基礎上可以組合出更強的參數生成能力。

在AI平臺中,與自動化參數調優子系統類似的還有自動網絡設計及調優子系統,網絡生成技術通過神經網絡基礎算子的堆疊組合,改變算子間的鏈接權重或拓撲結構等生成規則,構建神經網絡架構空間,然后在生成的網絡架構空間中使用遺傳算法、XGBoost等方法完成網絡架構的優化選擇。

3.3 基于數據樣本生成技術的自動對抗學習

隨著AI技術的深入應用,人們越來越關注AI自身的安全性問題。2018年,360安全研究院發布的《AI安全風險白皮書》指出:深度學習框架中對抗機器學習的惡意樣本生成、訓練數據的污染等可能導致AI驅動的識別系統出現混亂,形成漏判或者誤判,甚至導致系統崩潰或被劫持。Kurakin A等人提出了大規模對抗機器學習系統,通過將對抗樣本加入訓練過程,增強模型的抗攻擊能力。在分析對抗樣本及數據毒化等AI攻擊方法的基礎上,結合對抗學習理念,可以構建商用化的AI對抗學習子系統,其系統處理流程如圖6所示。

圖6???AI對抗學習子系統流程

AI對抗學習子系統基于數據樣本生成技術,針對特定的模型及原始樣本生成能夠誤導模型判斷的對抗樣本,對抗樣本的生成過程是在原樣本上生成能夠讓模型做出誤判的微小擾動的過程。具體而言,這類擾動可以通過梯度方法或仿射平面方法等白盒方法生成,如FGSM、C&Wattacks、DeepFool等,或者通過生成網絡方法、差分進化算法等黑盒方法生成,如UPSET、ANGRI、Houdini、One-Pixel等。對抗樣本生成器可以使用上述方法生成對抗樣本,對抗樣本的特點是與正常樣本偏差很小,但模型輸出結果偏差很大,通過將對抗樣本加入學習過程,可以提升模型的抗攻擊能力。這個過程是一個自動化的持續學習過程,通過不斷地生成、訓練,持續提升模型的安全性。同樣的思路,對于數據毒化的攻擊來說,可以通過毒化樣本生成器生成毒化樣本,這類樣本的特點是與正常樣本偏差比較大,但模型輸出結果偏差很小。將毒化樣本加入學習過程,可以提升模型抗毒化的能力。在模型訓練的過程中引入對抗攻擊,從而提升模型對對抗攻擊的魯棒性是一種行之有效的提升模型安全性的方法,但理論上也存在局限性。該方法需要使用高強度的對抗樣本,網絡架構也需要具有充足的表達能力,并且不能排除存在新對抗樣本的可能性。

4 應用案例

AI、大數據等互聯網技術和互聯網企業的發展,為電網公司進行企業轉型提供了鮮明的指引,電網企業需要使用新的技術手段對整體業務進行賦能。以星環信息科技(上海)有限公司的Sophon AI平臺在某世界500強電力集團公司智能巡檢項目中的應用為例,其應用場景如圖7所示。


圖7???輸電線路智能巡檢應用場景

本項目涵蓋了固定攝像頭、無人機、直升機、機器人、移動作業、衛星遙感等空天一體化全方位巡檢方式,采集數據日增量達TB級。為了支撐當前的線路智能巡檢要求,在變電站一級部署了大量嵌入式邊緣計算設備,邊緣設備有兩種型號EDGE100及EDGE200,其中EDGE100處理器為ARM Cortex-M系列處理器,EDGE200處理器為RISC-V定制處理器,操作系統均為CentOS7。原模型既有TensorFlow模型也有PyTorch模型,運行在Windows x86服務器之上,本項目中需要將AI模型從x86服務器平臺遷移至嵌入式設備。遷移過程通常會遇到如下問題:

● 模型需要對軟硬件環境重新進行適配;

● 嵌入式設備處理能力不足,需要優化模型,提升計算效率,使模型能夠正常運行。

按通常做法,需要通過人工方式分別將不同框架模型遷移到不同硬件平臺,再進行性能調優,這些工作通常需要投入大量資源,從開發到功能上線周期較長,耗時耗力。Sophon AI平臺基于代碼生成技術實現了自動化前后端適配功能,基于代碼生成技術可以將主流深度學習框架的模型轉換為統一的IR,實現跨學習框架的模型快速適配。在此基礎上,同樣基于代碼生成技術,Sophon AI平臺可將統一的IR生成適配不同硬件的執行代碼,從而實現跨硬件平臺的模型快速遷移。借助Sophon AI平臺自動化前后端適配、自動化調優的能力,本項目中紅外發熱點檢測、桿塔傾斜檢測、絕緣子脫落檢測等模型在6 h之內實現了模型遷移、部署、微調的工作,相對于傳統人工遷移的方式,大大縮短實施時間。此外Sophon AI平臺還基于參數空間生成技術實現了超參自動優化功能,相對于按經驗配置,自動優化的參數配置更能最大化發揮EDGE100、EDGE200設備的計算性能,優化后單圖片識別的平均處理時長由5.13 ms縮短至4.52 ms,推理效率平均提升了11.9%。本項目的成功實施推動了AI技術在電力電網領域的應用,也驗證了生成技術在AI平臺中的應用價值。

5 結束語

多框架模型的支持、多硬件平臺的支持、模型計算性能調優、模型安全性的提升是AI平臺的核心功能,本文在AI平臺基礎技術實現層面進行了思考與實踐,借助生成技術實現上述工作的自動化,避免了在代碼遷移、適配、調優、測試等工作環節的重復投入,具有現實的意義。代碼生成、參數生成、網絡生成、樣本生成等生成技術的應用使Sophon AI平臺靈活易用,基于生成技術從前后端適配、性能調優、安全提升等多個層面打造高效的AI開發平臺,避免了大量人工開發的工作,縮短了需求響應周期,全方面地提升了AI平臺的應用開發效率。面向未來,從更高的要求出發,AI系統還需要具備環境自適應性、自我進化能力,而生成技術具備適配上下文的需要、動態輸出合適對象的能力,這種柔性的動態生成能力相對于固化的應用功能,無疑更貼近新一代智能系統“自適應性”“自我進化”的需要。

作者簡介

夏正勛(1979-),男,星環信息科技(上海)有限公司高級研究員,主要研究方向為大數據、數據庫、人工智能、流媒體處理技術等 。

楊一帆(1985-),男,博士,星環信息科技(上海)有限公司產品總監、首席科學家,主要研究方向為統計(統計計算、生存分析、時間序列和生物信息)、機器學習中圖計算、強化學習等 。

羅圣美(1971-),男,博士,星環信息科技(上海)有限公司大數據研究院院長,主要研究方向為大數據、并行計算、云存儲、人工智能等 。

趙大超(1989-),男,星環信息科技(上海)有限公司產品研發經理,主要研究方向為大數據、人工智能等 。

張燕(1985-),女,星環信息科技(上海)有限公司大數據技術研究員,主要研究方向為大數據、人工智能等 。

唐劍飛(1986-),男,星環信息科技(上海)有限公司大數據技術標準研究員,主要研究方向為大數據、數據庫、圖計算等 。

聯系我們:

Tel:010-81055448

? ? ? ?010-81055490

? ? ? ?010-81055534

E-mail:bdr@bjxintong.com.cn?

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

轉載、合作:010-81055537

大數據期刊

《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中文科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年、2019年國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。

關注《大數據》期刊微信公眾號,獲取更多內容

總結

以上是生活随笔為你收集整理的生成技术在人工智能平台中的应用探索的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。