如何构建自己的AI助理
目錄
引語:
Serverless 和數據湖
AIGC 業務的場景和需求痛點
騰訊云存儲 AIGC 解決方案
加速數據訓練過程
全方位審核推理過程
管理推理結果
結語:
引語:
大家好我們是權知星球,開啟你獨特的知識星際之旅
AIGC在過去一年中取得了長足的進步,要跟上時代的步伐,必須面對模型訓練中的兩大難題:原始數據量大和訓練結果需要高精度。
換言之,針對數據和AI處理任務,如何高效又安全地完成,是每位開發者所面臨的挑戰。
最近我參加了騰訊技術開放日TechoDay的最新一期線上活動,讓我收獲了很多新的見解。
Serverless 和數據湖
數據湖就像是一個神奇的池塘,您可以在其中進行大規模的數據采集和存儲。它可以容納各種格式和類型的數據,包括結構化、非結構化和半結構化數據等等。需要時,您可以迅速地對數據進行處理和分析,就像在池塘里釣魚一樣,有鯉魚、有鮭魚、有鯊魚,多姿多彩。
Serverless就像是一位巫師,你不需要去管理服務器,就能夠編寫和部署應用程序。你只需告訴它你的意圖,它便會自動完成所有的魔法操作,讓你集中精力于業務邏輯和創新。
?
當Serverless技術應用于數據湖時,您可以以高度彈性和高效率的方式將數據輸入湖中,對數據進行格式轉換、壓縮和加密,使得數據可以在多個數據源和目的地之間自由地流動。
AIGC 業務的場景和需求痛點
《騰訊云工具指南》最新一期刊登了Serverless數據湖存儲在AIGC場景中架構與落地的詳細解讀,內容全面而實用,充滿干貨。
讓我們接下來詳細討論一下——
隨著近年人工智能的熱潮,你可能經常聽到機器學習、深度學習等新名詞,但對于非專業人士來說,這些概念可能顯得很遙遠,似乎與自己的工作關系不大。
在此之前,創作內容完全依賴用戶生成的內容(UGC)。雖然這可以發揮用戶的創造力,但效率卻很低。事實上,許多工作都有一定的規律性可循。因此,隨著計算機生成內容(CGC)的發展,能夠提高效率,但缺少創新性。
?
隨著基于機器學習、深度學習和自然語言生成技術的人工智能創新(AIGC)的出現,現在你可以自動使用AI來撰寫一封仿柳永風格的情書,創造出文字、圖像、音頻和視頻等各種創意內容,同時也可通過分析用戶行為來提高市場營銷效果。甚至還能幫你算出中彩票的概率,就像一個智能助手般的存在。這讓大家都開始驚呼:原來AI還有這么多好玩的用法!
?
要讓人工智能變得更加聰明,就需要為其提供大量高質量的知識。如何確保這一點?數據湖在機器學習和GPU訓練的各個階段都扮演著重要的角色。它需要收集來自各種數據源的各種格式的未經處理的原始數據并將其存儲在一個統一的數據庫中,以避免數據分散、重復和難以管理。在清洗、轉換、訓練和存儲過程中,需要GPU和高性能存儲設備的支持,因此對存儲的吞吐量也有極高的要求。
由于內容是由人工智能生成的,因此可能會產生政治敏感、色情暴力等不當內容的輸出。因此,為了避免被有關部門約談,需要進行嚴格的內容審核工作以控制風險。此外,如何有效地管理通過高成本訓練生成的內容,以便于內容的再利用和在企業之間分發,也需要進行綜合考慮。
?
騰訊云存儲 AIGC 解決方案
數據集下載與預處理
當我們討論機器學習模型的訓練時,就好像在談論一個孩子的成長,需要為其提供充足的營養和教育。在機器學習中,數據集就像孩子的食物,必須具備豐富性、代表性和可靠性,才能使模型變得更聰明,具備更強的預測能力。
?
常見的數據來源有多種,其中包括國內外公開數據、私有消息隊列和已有數據的中間件如關系型數據庫。
由于國內的限制,我們常常難以得到足夠高質量的數據集。為了獲得更全面、高質量的數據集,我們需要前往國外的網站獲取。
當然,需要遵守相關的法規和規定,以避免產生其他風險的發生。
然而,下載大量數據集所需的時間和帶寬資源相當消耗,常常遇到各種網絡問題,導致工作效率低下。
隨著去年OpenAI推出ChatGPT,各大獨角獸公司和垂直領域的企業紛紛加入,積極準備在人工智能領域分一杯羹。因此,必須提升每個環節的效率,才能脫穎而出。
?
數據分布在不同的地理位置,為了盡可能地實現就近處理,需要有全球多地區分布的具備TB級公網帶寬的計算存儲資源。因此,只有大公司才能夠承擔這種規模的工作,小公司或個人很難勝任。
所有涉及到的數據入湖、數據處理和數據出湖的組件,均可采用云原生和Serverless的方式進行高彈性和靈活的擴展。
加速數據訓練過程
在不同的領域中應用人工智能時,需要對其訓練性能進行不同的要求。COS即對象存儲服務,可作為數據底座,類似大型倉庫,可容納所有數據。而GooseFS分布式文件系統則可充當COS的加速層,提供快速的數據訪問服務,促進數據處理效率。GooseFS還能根據不同領域的場景配置不同級別的緩存,以提高訓練效率。
?
自動駕駛技術依賴于大量的數據來進行訓練和優化,進而提高其準確性和穩定性。以自動駕駛汽車為例,需要學習多種技能,如道路標志識別、障礙物識別、交通信號燈判斷、路徑規劃等,均需要大量數據的支持。此外,由于各地交通規則和道路情況的差異,還需要收集大量數據進行地域化訓練和優化。
?
如果只有幾個數據點用于自動駕駛汽車的訓練,那么它可能會表現得像一位經驗不足的司機,容易迷路、闖紅燈、發生碰撞等,這并非我們所期望的結果。因此,為了提高自動駕駛汽車的可靠性和安全性,就需要大量的數據用于訓練和優化,這就要求具備充足的算力和存儲空間來支持。
GooseFS利用全閃存緩存系統構建,滿足自動駕駛領域海量數據的訓練需求。該全閃存緩存系統由獨立的存儲集群構成,可實現快速數據讀取和寫入,極大地提升了訓練效率。
在圖像生成領域中,例如StableDiffusion,它的訓練目標是同時進行圖像分類和圖像生成。雖然圖像數據量也很大,但相對于自動駕駛領域,StableDiffusion所用的數據集要小得多。
?
GooseFS可利用GPU節點上搭載的NVMESSD作為緩存介質,結合超過百臺的規模,能夠構建PB級別的統一命名緩存空間,以滿足處理圖片訓練數據集的緩存需求。
ChatGPT3.5是一種基于自然語言處理的模型,旨在生成自然語言文本。然而,與自動駕駛領域相比,盡管自然語言的數據量很大,但其數據集要小得多。
?
針對這個訓練數據的規模,我們可以利用GPU節點的內存,構建一個基于內存的全局緩存系統-MEM-BasedGlobalCache。每個GPU節點只需提供一部分內存,整個GPU訓練集群就可以擁有達數十TB的緩存空間。而將訓練數據集緩存在內存中,能夠大幅提高數據訪問速度。
?
因此,不同的模型和領域所需的數據量來進行訓練和優化是不同的,這就需要我們根據實際情況進行選擇。與從對象存儲COS中直接讀取相比,這種方法可以提高數十倍的數據訪問速度。
全方位審核推理過程
合規內容的范疇主要包括數據來源、用戶提問以及由AI生成的回答。
記得前幾年,有一個視頻平臺上出現了一些涉及未成年人的不良內容,引起了很多人的注意。如果當時這些平臺有一個完善的內容審核系統,就可以在第一時間發現并刪除這些不良內容。
?
然而,內容種類繁多,包含文字、圖片、音視頻等,僅靠關鍵詞審核難以識別這些內容。利用OCR技術,可以對圖片或視頻中的文字進行識別審核。
有時候用戶會用模糊或隱喻意味的言語發布違規內容,例如辱罵、種族歧視等行為。若僅依靠關鍵詞審核,其實很難發現這些內容的存在。但是,借助上下文語境審核,我們就可以根據文章或評論的整體內涵來找出這些違規行為,并進行應有的處理。
路漫漫其修遠兮,技術對決中,進攻和防守雙方竭盡全力,只要能增加對手的攻擊成本,就算是贏家。
?
騰訊云數據萬象現已推出多項審核模板,覆蓋了諸如色情、政治、廣告和暴力等多種場景和類型。這些模板都以強大的人工智能技術和豐富的數據資源為基礎,能夠快速、準確地檢測到違規內容。此外,數據萬象還針對AIGC行業需求,專門定制了適用于該領域的模型和策略。
舉個例子,當用戶上傳一張圖片時,數據萬象將自動進行內容審核。如果圖片中存在色情內容,審核結果將會被標記為違規,并同時提供違規描述和違規截圖,方便用戶進行修正。
當然,如果用戶需要自定義審核規則,他們可以根據自己的業務需求和風險等級,制定不同的審核策略。這些自定義審核規則可以設置審核類型、審核場景、審核閾值等內容,從而提高審核效率和準確性。
數據萬象的審核機制猶如一名“安檢員”,負責保障用戶和公司的安全和合規,確保上傳的內容更加安全可靠。
管理推理結果
進行內容管理是必要的,因為由人工智能生成的內容往往存在很多問題,例如質量不一、真實性欠缺、版權問題等等,這就需要進行有效地管理和控制,以維護用戶和公司的權益。
本文以一家互聯網教育公司為例,該公司提供在線教育服務,需要大量的教育內容來支持其業務。為了提升教育內容的質量和效率,該公司應用了人工智能內容生成技術,創作了大量的教育文章、視頻和音頻。在這種情況下,內容管理十分重要,主要包括以下幾個方面:
●內容改善:通過修改由人工智能生成的內容,以提高其質量和可讀性。例如,對生成的文章進行削減、改寫和排版,從而增強文章的可讀性。
●內容保護:為保障由AI生成的內容的版權和知識產權,防止他人侵害和復制,采用數字水印等技術對教育內容進行保護。
●內容發布:利用人工智能生成的內容,在各種平臺和渠道上發布,以提高內容的曝光量和傳播效果。例如,把教育視頻發布到視頻網站,將教育文章發布到博客等。
借助內容管理,我們可以有效地控制和管理由人工智能生成的教育內容,從而提高內容的質量和可信度。
通過騰訊云企業網盤與數據萬象的結合,可以實現云原生和serverless的數據處理能力,比如圖像壓縮、版權保護、智能標簽和以圖搜圖等功能。這種一體化辦公生態可以輕松與騰訊云已有的辦公體系相接合,從而為用戶帶來智能化的辦公體驗。
該軟件能夠提供與Windows本地操作相同的體驗,支持協同辦公、移動辦公,同時也可以在公有云和私有云上進行靈活部署,大大提高協同工作效率。
結語:
騰訊云擁有強大的GPU計算能力,猶如一座超級計算機,可以協助用戶快速處理包括數據和AI任務在內的復雜工作。高效的存儲解決方案提供快速的數據傳輸速度,幫助用戶迅速獲取和傳輸數據,減少等待時間。此外,騰訊云還提供了全面的內容審查和管理工具,可協助用戶確保數據的安全和規范,從而使用戶更加信任并放心地使用騰訊云的服務。在云原生和Serverless的背景下,用戶無需關注服務器的設置和管理,能夠專注于數據和AI處理任務,從而解除很多煩擾。
總的來說,騰訊云在AIGC領域的算力、性能、內容審核和管理方面都是業界的各項標準,可以為企業提供更高效、更安全的數據和AI處理服務。
權知星球,開啟你獨特的知識星際之旅!點亮你的創造力,閃耀在知識的星光下,成為知識傳播的新時代先鋒!一起探索AI智能領域的奇妙世界,讓創意與智慧在這里綻放!
總結
以上是生活随笔為你收集整理的如何构建自己的AI助理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安川机器人便捷功能 直接打开(一)
- 下一篇: 强化学习处理自适应码流播放,爱奇艺AI推