日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NEON加速

發布時間:2023/12/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NEON加速 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

NEON加速


NEON 技術是 ARM Cortex?-A 系列處理器的 128 位 SIMD(單指令,多數據)架構擴展,旨在為消費性多媒體應用程序提供靈活、強大的加速功能,從而顯著改善用戶體驗。它具有 32 個寄存器,64 位寬(雙倍視圖為 16 個寄存器,128 位寬。)
目前主流的iPhone手機和大部分android手機都支持ARM NEON加速,因此在編寫移動端算法時,可利用NEON技術進行算法加速,以長度為4的寄存器大小為例,相應的提速倍數約是原始的4倍。

NEON 指令可執行“打包的 SIMD”處理:

1 寄存器被視為同一數據類型的元素的矢量 2 數據類型可為:簽名/未簽名的 8 位、16 位、32 位、64 位單精度浮點 3 指令在所有通道中執行同一操作

如下圖所示:

本文主要介紹float32x4_t相關的結構及函數,
float32x4_t 可以理解為vector (4),同理typexN_t即為vector(N)。

在NEON編程中,對單個數據的操作可以擴展為對寄存器,也即同一類型元素矢量的操作,因此大大減少了操作次數。
這里以一個小例子來解釋如何利用NEON內置函數來加速實現統計一個數組內的元素之和。

以C++代碼為例:
原始算法代碼如下:

#include <iostream> using namespace std;float sum_array(float *arr, int len) {if(NULL == arr || len < 1){cout<<"input error\n";return 0;}float sum(0.0);for(int i=0; i<len; ++i){sum += *arr++;}return sum; }

對于長度為N的數組,上述算法的時間復雜度時O(N)。
采用NEON函數進行加速:

#include <iostream> #include <arm_neon.h> //需包含的頭文件 using namespace std;float sum_array(float *arr, int len) {if(NULL == arr || len < 1){cout<<"input error\n";return 0;}int dim4 = len >> 2; // 數組長度除4整數int left4 = len & 3; // 數組長度除4余數float32x4_t sum_vec = vdupq_n_f32(0.0);//定義用于暫存累加結果的寄存器且初始化為0for (; dim4>0; dim4--, arr+=4) //每次同時訪問4個數組元素{float32x4_t data_vec = vld1q_f32(arr); //依次取4個元素存入寄存器vecsum_vec = vaddq_f32(sum_vec, data_vec);//ri = ai + bi 計算兩組寄存器對應元素之和并存放到相應結果}float sum = vgetq_lane_f32(sum_vec, 0)+vgetq_lane_f32(sum_vec, 1)+vgetq_lane_f32(sum_vec, 2)+vgetq_lane_f32(sum_vec, 3);//將累加結果寄存器中的所有元素相加得到最終累加值for (; left4>0; left4--, arr++)sum += (*arr) ; //對于剩下的少于4的數字,依次計算累加即可return sum; }

上述算法的時間復雜度時O(N/4)
從上面的例子看出,使用NEON函數很簡單,只需要將依次處理,變為批處理(如上面的每次處理4個)。

上面用到的函數有:
float32x4_t vdupq_n_f32 (float32_t value)
將value復制4分存到返回的寄存器中

float32x4_t vld1q_f32 (float32_t const * ptr)
從數組中依次Load4個元素存到寄存器中

相應的 有void vst1q_f32 (float32_t * ptr, float32x4_t val)
將寄存器中的值寫入數組中

float32x4_t vaddq_f32 (float32x4_t a, float32x4_t b)
返回兩個寄存器對應元素之和 r = a+b

相應的 有float32x4_t vsubq_f32 (float32x4_t a, float32x4_t b)
返回兩個寄存器對應元素之差 r = a-b

float32_t vgetq_lane_f32 (float32x4_t v, const int lane)
返回寄存器某一lane的值

其他常用的函數還有:

float32x4_t vmulq_f32 (float32x4_t a, float32x4_t b)
返回兩個寄存器對應元素之積 r = a*b

float32x4_t vmlaq_f32 (float32x4_t a, float32x4_t b, float32x4_t c)
r = a +b*c

float32x4_t vextq_f32 (float32x4_t a, float32x4_t b, const int n)
拼接兩個寄存器并返回從第n位開始的大小為4的寄存器 0<=n<=3
例如
a: 1 2 3 4
b: 5 6 7 8
vextq_f32(a,b,1) -> r: 2 3 4 5
vextq_f32(a,b,2) -> r: 3 4 5 6
vextq_f32(a,b,3) -> r: 4 5 6 7

float32x4_t sum = vdupq_n_f32(0); float _a[] = {1,2,3,4}, _b[] = {5,6,7,8} ; float32x4_t a = vld1q_f32(_a), b = vld1q_f32(_b) ; float32x4_t sum1 = vfmaq_laneq_f32(sum, a, b, 0); sum + a**b[0] (0,0,0,0) + (1*5, 2*5, 3*5, 4*5) = (5, 10 ,15 ,20) float32x4_t sum2 = vfmaq_laneq_f32(sum1, a, b, 1); float32x4_t sum3 = vfmaq_laneq_f32(sum2, a, b, 2);

其他常用的函數可以參考開發網站
https://developer.arm.com/technologies/neon/intrinsics
NEON函數介紹:
https://blog.csdn.net/fengbingchun/article/details/38085781
總之,NEON學習入門很快,但如果想要更精深,就需要多花些時間和功夫在上面。

總結

以上是生活随笔為你收集整理的NEON加速的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。