SIMD即单指令多数据流(Single Instruction Multiple Data)指令集,是通过一条指令同时对多个数据进行运算的硬件加速技术,在传统计算,中使用标量运算一次只能对一对数据执行乘法操作,但是如果使用了SIMD加速,可同时对多对数据进行执行操作,常见的有x86体系下的sse/avx等

传统标量计算:

 SIMD加速计算:

 

这个过程和现代GPU计算有着相通之处,极大的利用并行计算能力

这个过程及其相似与向量计算过程,数据组织的时候,尽量将数据组织成纵向化或者向量化

 同样一条指令下面,并行进行了四个乘法计算,这一过程可以大大加速运算流程,在go语言源码中利用了大量该类计算方法

间隔简单的使用方法:

#include<stdio.h>
#include<emmintrin.h>

int  main()
{
	__m128 v1 = _mm_set_ps(1.0f, 2.0f, 3.0f, 4.0f);
	__m128 v2 = _mm_set_ps(5.0f, 6.0f, 7.0f, 8.0f);
 
	__m128 result = _mm_add_ps(v1, v2);
	printf("%f,%f,%f,%f",result[3],result[2],result[1],result[0]);
}

下面将举个例子利用流水线加速128组浮点数的加运算,来看看没有加速下的运行效率和使用SIMD优化下的效率

传统方式实现10000次128组浮点数的加法:

#include<iostream>
#include <chrono>


#define FNUM 128


int  main()
{	
	clock_t start,end;

	static_assert(FNUM%4==0, "error");
	float data0[FNUM];
	float data1[FNUM];
	float data2[FNUM];
    std::chrono::steady_clock::time_point  now = std::chrono::steady_clock::now();
    for(int x=0;x<10000;++x)
    {
	for(int i=0;i<FNUM;++i)
	{
		data2[i]=data1[i]+data0[i];
	}
	}
    auto t2 = std::chrono::steady_clock::now();
    std::chrono::duration<double> time_span = std::chrono::duration_cast<std::chrono::duration<double>>(t2 - now);
	std::cout<<time_span.count()<<std::endl;
}

由于现代计算机速度非常快,所以将这个过程执行10000次,以获取更加准确的时间

时间如下: 

通过SIMD实现10000次128组浮点数的加法:

#include<iostream>
#include <chrono>
#include<emmintrin.h>

#define FNUM 128

using namespace std;
using namespace std::chrono;

int  main()
{
	static_assert(FNUM%4==0, "error");
	float data0[FNUM];
	float data1[FNUM];
	float data2[FNUM];
	int step=FNUM/4;
    std::chrono::steady_clock::time_point  now = std::chrono::steady_clock::now();
    for(int i=0;i<10000;i++)
    {
	for(int i=0;i<step;++i)
	{
		__m128 v1 = _mm_set_ps(data0[i*step+0],data0[i*step+1],data0[i*step+2],data0[i*step+3]);
		__m128 v2 = _mm_set_ps(data1[i*step+0],data1[i*step+1],data1[i*step+2],data1[i*step+3]);
		__m128 result = _mm_add_ps(v1, v2);
	}
	}
    auto t2 = std::chrono::steady_clock::now();
    std::chrono::duration<double> time_span = std::chrono::duration_cast<std::chrono::duration<double>>(t2 - now);
	std::cout<<time_span.count()<<std::endl;
}

时间如下:

流水线加速和传统方法一样可能的原因:

在一些情况下,使用了流水线加速后计算速度可能会一样变得比原来更慢,原因在于现代编译器完成了大量优化工作,可能一些计算被编译器已经处理为了SIMD,所以会变得非常快

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐