日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

浅谈BERT/Transformer模型的压缩与优化加速

發布時間:2024/10/8 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 浅谈BERT/Transformer模型的压缩与优化加速 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?作者 | 姚益武

單位 | 阿里巴巴集團

研究方向 | AI算法與工程架構

前言

BERT/Transformer?結構及其變體,已成為自然語言處理(NLP)、語音識別 (ASR)等領域的主流序列建模結構。并且,相比于卷積操作的局部特征提取能力、以及平移不變性,Self-Attention/Cross-Attention 的全局 Context 信息編碼或長時依賴建模能力,能夠使圖像/視覺模型具備更強的相關性建模能力(更好的全局視野)、與動態建模能力(領域或樣本適應性)。

因此在計算機視覺領域 (CV),Vision Transformer 模型結構(如 ViT、Deit、Swin-Transformer、PVT、SegFormer 與 DETR 等)也日益流行、方興未艾。然而,Transformer 模型的高計算復雜度與參數量,限制了模型的推理部署(包括服務端與移動端應用),其計算、存儲與運行時內存等資源開銷都成為限制因素(存在大量密集計算算子、與訪存算子,如 BatchMatMul、LayerNorm、Transpose/Reshape 等)。例如,從標準 Transformer layer 的 Tensor 處理結構來看,MHA 的 Context 特征計算與特征長度的平方、Embedding 特征維度成正比:

Standard Self-Attention (X=Y) / Cross-Attention (X!=Y):

?Standard FFN:

本文從以下幾個維度舉例說明,解析 Bert/Transformer 模型的加速方法,體現了從建模依賴、數據依賴到硬件依賴的優化層次:

  • 模型結構精簡化與知識蒸餾

  • 模型量化(Quantization)

  • 網絡結構搜索(NAS: Network Architecture Search)

  • 計算圖優化(計算圖等價變換)

  • 推理優化引擎(Faster Transformer / Torch-TensorRT / AICompiler)


模型結構精簡化與知識蒸餾

2.1 Lite-Transformer

論文標題:

Lite Transformer with Long-Short Range Attention

收錄會議:

ICLR 2020

論文鏈接:

https://arxiv.org/abs/2004.11886

代碼鏈接:

https://github.com/mit-han-lab/lite-transformer

Lite Transformer 是一種融合卷積與 Self-Attention?操作的、高效精簡的 Transformer 結構,可應用于 NMT、ASR 等序列生成任務。其核心是長短距離注意力結構(LSRA:Long-Short Range Attention),能夠有效融合卷積與 Attention 機制。

LSRA 將輸入 Embedding 沿 Feature 維度 split 成兩部分,其中一部分通過 GLU(Gate Linear Unit)、一維卷積,用以提取局部 Context 信息;而另一部分依靠 Self-attention,完成全局相關性信息編碼。一維卷積的引入,能夠減輕計算量與參數量。Lite Transformer 核心結構如下,首先將 FFN 的寬度攤平(flatten),其次引入 LSRA 以替換 Self-Attention:

2.2 SAN-M

論文標題:

SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition

收錄會議:

INTERSPEECH 2020

論文鏈接:

https://arxiv.org/abs/2006.01713

SAN-M 表示 Self-Attention 與 DFSMN 記憶單元的融合,是一種 Transformer ASR 模型。DFSMN 適合捕獲局部信息,Self-Attention 模塊具備較強的長時依賴建模能力,因此二者存在互補性。SAN-M 通過將兩個模塊的特性融合在一起,實現了優勢互補。Biasic Sub-layer 表示包含了 SAN-M 的 Self-Attention 模塊,DFSMN 添加在 values 后面,其輸出與Multi-head Attention(MHA)相加:

2.3 MiniLM(知識蒸餾)

論文標題:

MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers

論文鏈接:

https://arxiv.org/abs/2002.10957

代碼鏈接:

https://github.com/microsoft/unilm/tree/master/minilm

針對 NLP 任務,深度自注意力知識蒸餾(Deep Self-Attention Distillation),通過遷移 Teacher model 最后一層 Self-Attention 模塊的 Attention score 信息與 Value relation 信息,可有效實現 Student model 的誘導訓練。只遷移最后一層的知識,能夠直接遷移語義信息,顯得簡單有效、訓練速度更快;而且相比于層間特征遷移,不需要手動設計 Teacher-student 之間的層對應關系。Attention score 信息與 Value relation 信息的知識遷移如下:

Attention score transfer:

Value relation transfer:

若選擇的 Self-attention layer 為 LSRA,除了在 Multi-head Attention(MHA)分支遷移 Attention score 與 Value relation;在 CNN 分支需要遷移 Feature map 的信息,這里主要計算 AT loss:

式中 表示學生網絡里第 j 個網絡層的特征輸出, 表示 Teacher network 里第 j 個 group 的特征輸出。

2.4 Switch-Transformer

論文標題:

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

論文鏈接:

https://arxiv.org/abs/2101.03961

代碼鏈接:

https://github.com/tensorflow/mesh/blob/master/mesh_tensorflow/transformer/moe.py

針對內容理解與生成、以及多模態特征表征等 AI 任務,基于?MoE(Mixture of Experts)單元的大模型的參數規模不斷擴展(Switch-Transformer?是其中的典型代表之一),但大模型對算力的需求、被 MoE 的稀疏激活(Sparse activation)或動態路由(Dynamic routing)機制有效緩解。

MoE 單元屬于典型的 Sample 驅動型結構設計,使得 MoE-based 模型具備良好的動態建模能力(動態卷積、Self-Attention 等亦如是),因此 MoE 能夠非常好的適應多任務/多模態、甚至在線實時的場景應用需求。Switch-Transformer 的 MoE 單元結構如下,具體執行過程包括動態路由(Dynamic routing)、數據分派(Data dispatch)、專家計算(Expert computation)與結果合并(Result combine):

模型量化(Quantization)

3.1 Transformer ASR 模型壓縮

論文標題:

Extremely Low Footprint End-to-End ASR System for Smart Device

收錄會議:

INTERSPEECH 2021

論文鏈接:

https://arxiv.org/abs/2104.05784

針對 Transformer ASR,文章提出了聯合隨機稀疏與 PTQ 量化(KL 量化、ADMM 與混合精度設置)的壓縮策略,整體實現了 10 倍壓縮,且絕對精度損失約 0.5%。總體流程如下:

  • 模型稀疏化,更新 Weight 重要性,漸進式增加稀疏度:

  • KL 量化,計算 Activation 量化參數:

  • ADMM,優化 Weight 量化參數:

  • 混合精度量化設置,減少量化誤差:

此外,針對 Transformer 模型的量化,需要討論全網絡 INT8 量化與計算的意義:

全網絡 INT8 量化:

  • 同時減少計算密集算子與訪存密集算子的開銷;

  • 實現模型壓縮,INT8 模型是 FP32 模型的 1/4;

Fully INT8 Attention Path:

  • 基本的全 INT8 通路:

  • Dense layer 的輸入與輸出均為 INT8 Tensor;

    Reshape 與 Transpose 的操作對象為 INT8 Tensor,節省內存開銷:

    Dense+Reshape+Transpose、與 Transpose+Reshape+Dense 可以實現 Op fusion;

  • BatchMatMul、Softmax 的操作對象保留為 FP32 Tensor,確保模型預測精度;

Encoder的Self-Attention:

  • X=Y;

Decoder 的 Self-Attention:

  • X=Y,Batch_size=Batch_size * Beam_size,Seq_len=1;

  • k_dense 與 v_dense 的輸出會添加到 Cache,按照 INT8 類型搬運數據,可節省訪存開銷:

3.2 PTQ for Vision Transformer

論文標題:

Post-Training Quantization for Vision Transformer

論文鏈接:

https://arxiv.org/abs/2106.14156

代碼鏈接:

https://github.com/hahnyuan/PTQ4ViT

針對 Vision Transformer 的 PTQ 量化,分別針對 FFN 與 Self-Attention,提出了 Similarity-aware Quantization 與 Ranking-aware Quantization:

Similarity-aware Quantization:基于優化方式確定 Weight 與 Activation 量化的最優量化參數,并以 Pearson 相似度作為 Target loss;

Ranking-aware Quantization:在相似度 Loss 基礎之上,疊加 Attention map 的 Ranking loss 作為約束,以準確感知不同 Attention map 的重要性排序,確保 Self-attention 量化的有效性(優先保留重要 Attention map 的信息);

3.3 PTQ4ViT

參考博客文章:

https://blog.csdn.net/nature553863/article/details/121564248

3.4 Q-Bert

論文標題:

Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

收錄會議:

AAAI 2020

論文鏈接:

https://arxiv.org/abs/1909.05840

針對 NLP 任務(MNLI、SQuAD 等),Q-Bert 是首個實現 Bert 模型混合精度量化的 QAT 算法。Bert 模型是由 Embedding layer、Encoder layer 以及 Task-specific output layer 構成的前饋結構模型,且 Encoder layer 包含了 MHA 與 FFN 等子模塊。

不同的 Bert layer 體現了不同的量化敏感度(Quantization Sensitivity),配以不同的量化比特數,直接決定了量化后模型的預測精度。通常 Bert 的 Embedding layer 與 Output layer 的量化敏感度相對較高,故 Embedding layer 會配以較高的量化比特數(如 8bits),Output layer 則保留為 FP32 浮點實現。另外,盡管不同 Encoder layer 的結構相一致,但由于對 Context 信息編碼的貢獻有所區別,因此表現出不同的量化敏感性。

量化敏感度與混合精度量化:Q-Bert 采用線性均勻量化方式(min-max 量化),并通過 Dense layer 的 Hessian 信息(二階梯度)定義其量化敏感度:

式中 Hessian 矩陣特征值(Top eigenvalues)的均值,反映了針對同一個下游任務(相同訓練數據分布),不同 Dense layer 的量化敏感度;Hessian 矩陣特征值的標準差,反映了針對不同的下游任務(不同訓練數據分布),Dense layer 量化敏感度的占比。然后,基于不同 Dense layer 的量化敏感度排序,可確定 Bert 模型的混合精度量化配置,并進一步執行 QAT 微調訓練。

Group-wise量化:為了進一步提高量化后模型的精度,將 MHA 的 Q、K、V 與 O 權重矩陣按 Attention heads 分成不同的 Group,每個 Group 定義各自的量化范圍(min-max 范圍),從而更精細的保證不同 Group 的量化分辨率。而每個 Group 又可以根據實際需求、進一步劃分為不同的 Sub-group,以滿足更為苛刻的部署精度需求:?

網絡結構搜索(NAS)

4.1 AdaBert

論文標題:

AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural Architecture Search

收錄會議:

IJCAI 2020

論文鏈接:

https://arxiv.org/abs/2001.04246

針對 NLP 任務,AdaBert?通過可微分搜索、與知識蒸餾,實現卷積類型的 NLP 模型搜索:

搜索空間:類似于 DARTS 的 Cell 設計,實現搜索空間的構造;區別于 Vanilla CNN,DARTS 的 Cell 單元結構體現出了非規整性,可能不利于實際推理引擎的加速;

搜索策略:基于 Gumbel Softmax 實現網絡結構的隨機采樣(類似于 FBNet)、與可微分搜索,并且采樣概率隨著訓練的進行、逐漸銳化,逼近 Argmax 采樣;另外,基于 FLOPS 與 Model size 構造了 Efficiency-aware Loss,作為搜索訓練的資源約束,實現 Hardware-aware 搜索;

知識蒸餾:多層次、任務相關的知識遷移;

4.2 DynaBert

論文標題:

DynaBERT: Dynamic BERT with Adaptive Width and Depth

收錄會議:

NeurIPS 2020 (Spotlight)

論文鏈接:

https://arxiv.org/abs/2004.04037

代碼鏈接:

https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERT

針對 NLP 任務,DynaBert 模型壓縮策略可實現多個維度的壓縮搜索(主要是 Width 與 Depth 維度)。DynaBert 是一種動態可伸縮性質的 One-shot NAS:首先基于預訓練 Bert 模型(或其變體),進行多維度正則化訓練;正則化訓練之后,按照不同的資源約束需求,能夠進行網絡參數的裁剪、以獲得子網絡,并進行子網絡的微調訓練;從正則訓練、到子網絡微調,可協同知識蒸餾訓練,進一步保持子網絡的預測精度。主要步驟描述如下:

第一步:基于 Neuron與Attention head 的重要性,執行參數重排(Weight Re-wiring):

第二步:多階段微調訓練,實現寬度、與深度方向的自適應正則化:

4.3 NAS-Bert

參考博客文章:

NAS-Bert——確保One-shot與Task-agnostic:https://blog.csdn.net/nature553863/article/details/120764285

4.4 Evolved Transformer

論文標題:

Lite Transformer with Long-Short Range Attention

收錄會議:

ICLR 2020

論文鏈接:

https://arxiv.org/abs/2004.11886

代碼鏈接:

https://github.com/mit-han-lab/lite-transformer

針對序列生成任務,基于 NAS 搜索獲得的 Transformer 結構:

  • 搜索空間:包括兩個 Stackable cell,分別包含在 Transformer encoder 與 Transformer decoder。每個 Cell 由 NAS-style block 組成, 可通過左右兩個? Block 轉換輸入 Embedding、再聚合獲得新的 Embedding,進一步輸入到 Self-Attention 模塊。

  • 搜索策略:基于 EA(Evolutional Aligorithm)的搜索策略;

網絡結構如下,融合了一維卷積與 Attention 的特點:

4.5 HAT: Hardware-aware Transformer

論文標題:

HAT: Hardware-Aware Transformers for Efficient Natural Language Processing

收錄會議:

ACL 2020

論文鏈接:

https://arxiv.org/abs/2005.14187

代碼鏈接:

http://github.com/mit-han-lab/hardware-aware-transformers.git

對 Transformer 模型進行網絡結構搜索時,通常會面臨兩個關鍵問題:

  • FLOPS 不能完全代表 Transformer 模型的計算速度/實際執行效率,即只能間接反映硬件平臺特性;

  • 不同硬件設備上,與計算硬件或計算庫相適配的最優 Transformer 結構不盡相同;

針對序列生成任務,HAT(Hardware-aware Transformer)從搜索空間、搜索策略與搜索預測三方面加以分析:

搜索空間:Encoder-decoder Attention 的任意連接方式,以及 Transformer layer 內部結構(網絡深度、Attention head 數目、Width 等);

搜索策略:訓練了 SuperTransformer 作為超網絡,并在超網絡預訓練之后,結合資源約束,通過進化搜索算法(EA: Evolutional Algorithm)尋找最優子網絡;不同于權重共享型 NAS(如 FBNet、SPOS 等),HAT 是一種動態可伸縮類型的One-shot NAS;

搜索預測:單獨、離線訓練了 MLP 回歸模型作為 Cost model 或 Predicter,用于預測不同子網絡結構(Architecture embedding)、在指定硬件平臺上的執行速度 (GPU 或 CPU latency),并且回歸預測效果良好(以相關性系數作為Metric)。搜索預測的好處在于:一方面可直接、有效獲取硬件平臺特性,作為超網絡預訓練的資源約束;另一方面,在訓練或搜索階段,無需在硬件平臺上測量推理延遲,提升搜索效率,從而有利于跨平臺模型結構搜索;

4.6 AutoFormer

論文標題:

AutoFormer: Searching Transformers for Visual Recognition

收錄會議:

ICCV 2021

論文鏈接:

https://arxiv.org/abs/2107.00651

代碼鏈接:

https://github.com/microsoft/AutoML

針對 Vision Transformer 的結構搜索,AutoFormer 提出的 Weight entanglement,在不額外增加 Block choice 的前提下,通過通道寬度、網絡深度、Attention head 數目等多個維度的調整,實現了 Vision Transformer 模型的動態可伸縮預訓練與結構搜索。

Weight entanglement 的做法,類似于 BigNAS、FBNet-v2 的通道搜索,都不會額外增加通道維度的權重參數量。相比于手工設計的 CNN 模型(ResNet、ResNext、DenseNet)與 Vision Transformer 模型(ViT、Deit),AutoFormer 模型在相同資源開銷條件下、能夠獲得最好的識別精度。

AutoFormer?總體思路如上圖所示,是一種基于 Weight entanglement 的動態可伸縮搜索方法,其搜索維度包括 Attention heads、通道寬度與網絡深度。下面從搜索空間、搜索策略與搜索效率這些維度加以分析:

搜索空間:Embedding dimension、Q-K-V dimension、Attention heads、MLP ratio 與 Network depth;根據不同的資源約束,分別設置 Supernet-tiny、Supernet-small 與 Supernet-base 三個基本的 Template model;

搜索策略:基于 Weight entanglement 的 One-shot NAS,完成超網絡預訓練之后,通過進化算法執行子網絡搜索。包含 l 個網絡層的子網絡結構可按下式表示,表示第 i 層的 Block 結構,表示相應的權重參數:

而每個 Block 結構,都是按照 Weight entanglement 原則從超網絡采樣獲得,下式表示 n 個動態選擇范圍:

搜索效率:按照權重共享形式、完成超網絡預訓練,訓練效率高、且收斂速度快;另外,由于沒有引入額外的 Block choice,因此訓練時的 Memory cost 較低。

計算圖優化

5.1 LINM

LINM(Loop-invariant Node Motion)是一種計算圖等價變換技術,通過將 Transformer 模型涉及的自回歸解碼( Auto-regressive Decoding)的重復計算邏輯(Encoder-decoder Attention 的 k/v 計算、cache gather 等)移至 While-loop 之外,在確保計算功能不變的情況下,實現計算效率的提升:

5.2 MatMul替換為卷積

如果推理引擎的卷積算子具備很高的計算效率,并且為了避免一些不必要的訪存算子開銷,可以按如下計算圖等價變換,將 Dense layer 替換為 Conv1D layer:

5.3 QKV計算合并

MHA(Multi-head Attention)模塊在計算 Attention map 與 Context 編碼特征之前,需要基于輸入 Tensor 計算 QKV 矩陣、并 Split 成多份 Heads。可通過計算圖等價變換,將 QKV 計算合并到同一個 Dense layer,能夠充分利用 NPU 或 GPU 的并發計算特性:

1B,?N,?C?=?x.shape 2qkv?=?self.qkv(x).reshape(B,?N,?3,?self.sample_num_heads,?-1).permute(2,?0,?3,?1,?4) 3q,?k,?v?=?qkv[0],?qkv[1],?qkv[2]


推理優化引擎

6.1 Faster Transformer

GitHub鏈接:

https://github.com/NVIDIA/FasterTransformer

Faster Transformer?是 NVIDIA 針對標準 BERT/Transformer 做的推理優化庫,其發布時間線:

● 1.0版本:

  • 2019 年 7 月,開源了 FasterTransformer 1.0,針對? BERT 中的 Transformer Encoder 進行優化和加速;

  • 面向 BERT 分類、自然語言理解場景;

  • 底層由 CUDA 和 cuBLAS 實現,支持 FP16 和 FP32 計算,FP16 可充分利用 Volta 和 Turing 架構的 Tensor Core 計算單元;

  • 提供 C++ API、TF Op 與 TensorRT Plugin 三種接口;

  • 參考資料:https://zhuanlan.zhihu.com/p/73715272

●?2.0版本:

  • 2020 年 2 月,新增對 Transformer decoder 的優化和加速,包括 decoder與 decoding 兩種加速模式;

  • 面向生成式場景,如 NMT、文本內容生成與 ASR 等;

  • 底層由 CUDA 和 cuBLAS 實現,支持 FP16 和 FP32 計算模,FP16 可充分利用 Volta 和 Turing 架構的 Tensor Core 計算單元;

  • 提供 C++ API、TF Op 與 TensorRT Plugin 三種接口;

  • 參考資料:快無止盡!FasterTransformer 2.0讓Decoder不再是你的性能瓶頸

●?2.1版本:

  • 2020 年 6 月,引入 Effective Transformer 優化;通過 remove_padding 的支持,提高計算與訪存效率;

  • 并新增 PyTorch Op 接口;

  • 參考資料:https://github.com/bytedance/effective_transformer

●?3.0版本:

  • 2020 年 9 月,新增 BERT encoder 的 INT8 量化加速支持;

  • 僅支持 Turing 架構 GPU;

  • 同時支持 PTQ 與 QAT 方法,提供了 TF 量化工具;

  • 相比于 FP16 計算,約 20~30% 加速,但存在精度損失風險。

●?3.1版本:

  • 2020 年 12 月,新增對 PyTorch 使用 INT8 推理的支援;

  • 在 Turing 以后的 GPU 上,FP16 的性能比 3.0 提升了 10% ~ 20%;

  • INT8 的性能比 3.0 最多提升了 70%。

●?4.0版本:

  • 2021 年 4 月,新增對 GPT-3 等百億/千億級參數規模模型的多機多卡推理加速能力;

  • 新增 FP16 fused MHA 算子,同時支持 Volta 與 Turing 架構的 GPU;

  • 以及對解碼端 Kernel 的優化,可以省略已完成語句的計算,節省計算資源;

  • 參考資料:https://zhuanlan.zhihu.com/p/363517823;

●?支持矩陣:

Transformer 計算圖表示,主要包含三個部分的表示:

  • Encoder layer;

  • Decoder layer;

  • Decoding logic;

6.2 Torch-TensorRT

參考博客文章:

深度學習模型壓縮與優化加速(Model Compression and Acceleration Overview)

https://blog.csdn.net/nature553863/article/details/81083955

6.3 AICompiler

基于 AICompiler(AI 編譯優化),可通過 Op fusion 方式(算子融合),提升 Transformer 模型的執行效率。Op fusion 具備的好處主要是:1)首先,將多個零碎算子合并成計算功能等價的一個大算子,可減少密集的 Kernel launch 開銷 (CUDA 核函數啟動);2)其次,由于相鄰算子之間存在內存讀寫開銷,Op fusion 可有效減少密集的內存訪問開銷;3)最終通過算子實現的自動尋優、與代碼生成(CodeGen),可自動生成優化的可執行代碼。?

總結

深度學習領域的高性能計算,總結為如下公式:

高性能計算 = 高效率算法 + 模型壓縮 + 系統/硬件優化

可以單獨的強調其中一種優化策略,或者實現多種選項的聯合優化(例如 Hardware-aware NAS,壓縮與編譯聯合優化等),以滿足實際應用場景的部署需求。在工業界,包括阿里淘系 MNN、阿里云 PAI、華為昇騰計算、Open AI Lab 的 Tengine、百度 EasyDL 等平臺,在該領域均構建了相對完善的軟硬件技術棧,為開放、普惠的 AI 應用提供了堅實基礎。

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

總結

以上是生活随笔為你收集整理的浅谈BERT/Transformer模型的压缩与优化加速的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。