隐私计算工程化之殇,为什么“久攻不破”?
Talk is cheap,show me the code!
這是編程界廣為流傳的一句話,空談無益,只以代碼見真章,要的是“實打實能用”。
而這句話似乎也映射了隱私計算領域的水溫之變。從2020年,數據被正式納入生產要素之日起,隱私計算便如張弦之箭,迎來了屬于它的東風,火爆效應之下,吸引了眾多賽跑者和入局者,Gartner更是連續兩年將隱私計算列入年度戰略科技趨勢之一,一時之間,隱私計算被加上了諸多光環。
一面是寄予厚望,另一面卻是熱鬧背后潛藏的隱憂,隱私計算的發展似乎并沒有達到我們對它的預期。
某國有大型金融機構的業務負責人高聲談(化名)向算力智庫直言:我們確實有對隱私計算產品的需求,也有意準備采購,目前在做標前測試,需要從一些量化的標準去考察,但測試結果卻并不如人意:很多隱私計算產品都不具備個性化建模等實際落地的工程化能力。
這也并不是算力智庫觀察到的一家之言,中國信通院云計算與大數據研究所大數據部副主任閆樹表示:目前隱私計算技術和解決方案還不夠成熟,在安全、性能和數據的互聯互通等方面仍存在挑戰,場景落地能力和工程化問題是為“大難關”。在日前算力智庫舉辦的隱私計算一體機沙龍上,聯通大數據金融行業中心產品總監周永明亦認為:這兩年隱私計算看到的全是單點的、嘗試性的,實驗性的進展,什么時候能真正達到商用級別,把規模做起來,這才是我更想看到的,也是行業更需要去努力的方向。
顯然,2年下來,市場態度開始變得審慎與克制,需求側對于隱私計算技術的訴求不再容易被風口裹挾,關注更多的是“是否可用”以及“是否好用”,而這也意味著隱私計算技術正面臨著一個臨界點,即能否從一項創新型的實驗技術走向大規模生產和商用。
1.飄在隱私計算上方的烏云
在這個臨界點的跨越上,有道久攻不破的關卡便是工業級別的工程化落地,如同“木桶短板,掣肘全局”。一位業內資深人士坦言道。
在前述算力智庫的采訪中,工程化落地能力正成為業內眾人口中的“高頻”詞匯,今年CB Insights中國發布的《2022年中國隱私計算技術與市場發展研究報告》亦指出:未來,隱私計算企業的工程化能力將成為行業焦點。
何謂工程化能力?這個詞或許并不陌生,但業界卻尚未看到對它清晰的界定。
“工程化能力”這個概念是為“表”,它的“里”包括很多面向和維度。**我認為隱私計算工程化能力是指將隱私計算產品從理論、原型到真正落地到客戶側產生業務價值的能力。**前幾年可能整個行業在理論、產品原型、開源標準化的制定上,很多公司都有不錯的積累,但要說真正落地到客戶側產生實際業務價值,我覺得是從去年才開始的,這個能力在今年的節點上將變得尤為重要,能否做好對客戶的產品化支撐,包括系統的交付能力、運維能力和升級能力,都是對隱私計算公司的重要考驗,螞蟻集團可信原生技術總監秦承剛在接受采訪時表示。
高聲談同樣認為,工程化能力的通俗解釋是:隱私計算產品具不具備直接上銀行生產環境的能力,最起碼應該包括幾方面,首先是兼容性,如果要設計硬件的話,硬件解決方案能不能和金融機構現有的軟硬件設備做兼容。其次是產品實用性和穩定性,設計軟件是否穩定可靠,能否支持大規模的數據吞吐量,目前尚未經歷大規模商用化驗證。再就是已接通合規數據源是否能夠滿足金融機構的業務需求,目前受個人信息保護法沖擊,三方數據市場面臨重構,合規數據源通過隱私計算實現數據價值輸出的情況少之又少。
但遺憾的是,現階段行業的隱私計算工程化能力仍普遍處于早期階段,一如隱私計算從1979年由Shamir 和Blakley 提出秘密分享的緣起開始,“工程化落地能力”便如飄在隱私計算大廈上空的烏云,由來已久,卻久未消散。
2.工程化能力的“失落”
工程化能力緣何“失落”?
在高聲談看來,首先是產品化層面,就目前觀察來看,整個隱私計算行業的產品化能力良莠不齊,仍處初期。以金融業務場景為例,主要表現在:一是產品易用性不行,拿數據清理這個環節而言,絕大部分產品是不支持個性化清理的或者說沒有類似這樣的功能,它就是一鍵式傻瓜生成模型,放進去三千個變量標簽,通過規則的入模變量只剩下不到十個,導致模型基本不可用。二就是產品穩定性問題,即在面對數億樣本甚至更大的數據量級時,隱私計算平臺的生產可用性是否仍有保障。目前,在隱私計算技術側,不管MPC也好,FL(聯邦學習)也好,都能預見到算力和網絡傳輸的瓶頸,現階段隱私計算主要是在一些機構內部或者是兩方、三方之間應用,處理的數據量較小,這個問題還不明顯??墒俏磥?#xff0c;多方數據交換需求的到來、5G和物聯網的發展所帶來的數據量急劇增大,隨著數據量爆發式的增長,不解決算力和通信問題,隱私計算的大規模應用無從談起。
在這點上,很多隱私計算廠商也已經深刻認識,螞蟻集團可信原生技術總監秦承剛亦坦言:進入到隱私計算領域以后,我們發現對于密碼學而言,今天不管是什么樣的密碼學都面臨著相同的問題,就是當這些密碼學在通用處理器上進行運算的時候,速度都很慢,不管是零知識證明或者混淆電路,還是同態加密。此前拿同態加密做調研的時候,就有了一個基本認識,同態加密在最差的情況下,和明文運算相比,大概要慢10萬倍,10萬倍是什么概念?就相當于把當前最新的英特爾Ice Lake處理器,直接打回到了幾十年前的8086處理器時代。
“不完美”的軟件固然是客觀bug,隱私計算廠商本身的局限性也是其因。
平心而論,當前很多隱私計算廠商普遍缺乏全局視角,高聲談直言不諱道,就好比“客戶要的是一盤菜,光只提供盤子不行,而需要將整盤菜炒好了,端上桌才行”。To B生意在于應該提供一個“能力樂高”,即一整套數據解決方案,而不是一個單點產品,比如能否對接可用的數據源,金融絕大部分場景,需要引入外部數據源,尤其是在數據建模過程中,數據需求量更甚,僅提供隱私產品往往是不夠的。再比如是否考慮到了數據方案的合規設計,數據授權鏈完整與否,客戶告知是否充分,數據存儲是否需要按照《個人信息保護法》的要求做全生命周期的目標管理等,這涉及到產品前端界面的調整以及與數據源方交互過程中需落實的法律合規條款。
其次,缺乏對場景的理解力,也是很多隱私計算企業“先天基因”的欠缺,現階段入局隱私計算賽道的主要選手大多數為初創型企業,多為技術出身,包括一些從AI公司或區塊鏈公司轉型過來的,基本很少扎根在業務場景一線,對場景的理解力不夠導致產品實用性不足,這是環環相扣的關系。還有一個不得不提的痛點就是技術路徑之間的融合和互聯互通,雖然從技術角度來看,隱私計算的每一條技術路線都有其自證的邏輯,但對于最終客戶來說,對這項技術信任的建立不能僅僅依靠技術論證本身。做好技術標準化,實現技術棧自主可控國產化,建立權威和監管機構認可的標準體系,也是隱私計算廠商需要推動和解決的問題。當然這也不能苛求于隱私計算廠商一己之力,需要行業多方共治共推。
此外,數據源的配合積極性不夠也一定程度上制約了產業落地,由于缺少激勵,數據源不愿配合需求方費時費力提供測試數據,加之因為《個保法》的出臺,合規的要求導致數據源共享的意愿更加淡薄。這些問題交織一起,才造成了今日工程化之困境,在這些問題都沒有解決之前,整個行業是不具備真正的生產和工程化實現的前提的。
那么“工程化之困”有何解?
在算力智庫的調研中發現,一條被廣泛共識的解題方向正在浮現出來。
3.軟硬結合或破開“工程化之困”
工程化的問題其實就是怎么能夠讓客戶最大化程度去優化性能和成本,華控清交總裁王勝利在日前的算力智庫隱私沙龍中一語總結到:成本太高,就通過工程化,將性能大幅提升,在性價比和計算成本之間取得平衡。
怎么平衡呢?業界開始將目光轉向軟硬結合。
其實可以發現,在幾年前,業界對于密碼學等軟件類解決方案的呼聲似乎更高,密碼學一度被視為隱私計算的“原教旨主義”,甚至能隱約看到一條潛在的鄙視鏈,做軟件要優于做硬件****,而現在風向變了,經過幾年的實踐檢驗,軟件在“計算性能”一途上并非最優解。
“我們認為隱私計算未來在可信安全、可信執行環境TEE以及算力加速上面,對硬件都一定是有依賴的。軟硬件結合一定會是可信隱私計算一個重要的技術領域,也一定會是數據密態時代行業的一個主流形態,而且我們也很早就開始作相關的布局,其實到今天的話,也證明我們當時的判斷差不多是對的”,秦承剛表示。在2021年9月便率先發布軟硬一體機的螞蟻集團,并且日前牽頭推進了全球首個隱私計算一體機國際標準立項,也確實印證了此點。
意識到硬件必要性的,不止螞蟻一家,目前業內已經有一批創業公司陸續扎入隱私計算軟硬結合的賽道,各家都在嘗試單點突破。比如星云Clustar主攻高性能算力提升,推出了隱私計算加速卡和軟硬一體機,融數聯智則瞄準芯片研發,數牘科技則推出了軟硬協同的隱私計算方案,據數牘科技介紹,經過結合硬件的可插拔的特性,能夠非常靈活的對一臺通用的服務器進行能力改造,將之變為隱私計算專用服務器,從而也提高了服務器資源和算力的利用效率,進一步降低計算資源開銷。
在軟硬結合的不斷探索中,隱私計算行業找到了一個共性切入口,即一體機, 一體機并非是新鮮概念,互聯網早已有之,華控清交公司總裁王勝利表示,一體機在理解層面,可以分為兩種,一種就是軟硬件的工程化設備,即所謂的Engineered System,以軟件為主,結合硬件加速,通過工程化的工作,最大化發揮軟件的優勢,但是它對硬件,沒有什么太多不可替代的依賴,這也符合IT基本特點,以開放和兼容為基礎。另一種,就是我們所說的Fusion(融合),就是將各種硬件物理的組合在一起,或者通過某種資源管理軟件把硬件做集成。前者以軟件基因為主,并不依賴一種專有的硬件設備,開放性好,使用維護便捷,容易得到廣泛的使用。后者相對而言會依賴某種專有的硬件設備,使用門檻高,形成一定的技術壁壘。隱私增強計算PEC(Privacy Enhancement Computation)選擇工程一體化系統的交付形態對于系統性能和整體擁有成本達到一個商用平衡,以及客戶后期維護管理帶來很多便利。性能成本不做優化,沒有兼容開放的IT技術在面對商業場景使用上會顯得困難重重。
高聲談也判斷:加入硬件化的解決方案,對于行業的長遠發展來說是有利無害的,純軟件的競爭會容易導致紅海,導致行業沒有底線,去年就已出現過10萬元賣源碼的惡性案件,若是這樣,這個行業還怎么玩?所以加入硬件之后,有利于固化一些利潤空間,對于隱私行業來說,是具有長期發展意義的。另外從甲方的需求來看,我們也非常希望可以看到硬件化的落地方案,一如我前面所說,在招投標過程中,甲方是會面臨決策風險和遷移成本問題,如果有硬件底座的話,最起碼有個交付物,不像純軟件解決方案,廠商若是倒閉,我們也無法繼續維護,也不懂底層密碼計算。如果是通用的硬件底座解決方案,我們再把其他廠商引入進來,遷移成本就會比較小,從這幾方面來看,行業的方向是一體機,這也是目前許多廠商一致認可的一個方案。
沖量在線CEO劉堯在日前結束的算力智庫隱私一體機沙龍中,亦認為“現在這個時間點軟硬件結合的一體機是解決隱私計算行業大規模商業化落地的核心密鑰。首先面向業務系統適配的瓶頸,隱私計算相關的產品、軟件算法或者硬件不可以作為新的孤島矗立在客戶的原有系統里,以及客戶原有的建模平臺、數據中臺的遷移和對接也非常重要。其次隱私計算廠商當下最需要解決的是底層硬件設備不同環境的差異化問題。而想要解決適配性與兼容性這兩大難題,通過軟硬件的結合方案,向上,無縫適配各種各樣的業務系統和數據治理流程。向下,打通各種各樣不同芯片、加速卡,形成軟硬件結合的一體化的能力?!眲虮硎?#xff0c;對于不同硬件生態的打通也同樣需要做大量的前置準備工作,而提到硬件,隱私計算廠商更需要關注的是適配信創環境。只有從軟件、硬件兩方面雙管齊下,持續攻關,才能保證一體機產品對各類客戶均能實現一鍵式部署,提高一體機應用的廣度、深度。
但軟硬結合,目前來看也不是坦途。
需要說明的是,軟硬結合與一體機,并不是畫等號的,一體機是軟硬結合的一種載體,盡管當下能夠有效緩解隱私計算工程化落地與工程化交付中的一些困難,可隨著未來數據規模和業務復雜度的逐年遞增,一體機還需再進一步的提升擴展性和拓展更豐富的產品形態,秦承剛強調到。
做軟硬結合,不管從周期,還是從為此付出的成本來看,都是既耗時又耗資源,比如我們做自主可控的TEE,前期投入了很多人力,大概花了2年才有最后的產品成型。而且交付軟件和交付硬件是不一樣的,交付硬件的話,會涉及到一個很長的供應鏈,需要同時做好供應鏈管理,這也直接導致了整個硬件領域“壁壘”的存在,一些中小型企業可能就會被阻擋在外。其實,我覺得不是所有的隱私計算公司都需要去做硬件,比如有的公司適合做軟件和密碼學算法,有的公司適合做硬件,大家可以找準自己的定位,形成一個良好的分工協作,對于整個行業來說,發展會更快也會更高效。秦承剛繼續表示到。
縱觀互聯網的歷史發展脈絡,任何技術往深了走,都會進入硬件領域,但置身于越來越紛繁復雜的國際形勢,全球微妙的競爭和對抗格局下,“去IOE化”(IBM的小型機、Oracle的數據庫,EMC的存儲設備)成為戰略級語境,2020年國家開始全面推廣信創產業,其中涉及芯片、服務器的國產替代,于隱私計算軟硬結合而言,也必須未雨綢繆,尋求芯片“國產自主可控”的后路,這是算力提升當中最艱難的部分,也將是隱私計算后半程突圍的機會。
總結
以上是生活随笔為你收集整理的隐私计算工程化之殇,为什么“久攻不破”?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据手册中的英语小屁孩
- 下一篇: The C Programming La