// SSEIntrinsics.cpp : Defines the entry point for the console application.
#include "stdafx.h"
#include <cstdio>
#include <iostream>
#include <cmath>
#include <windows.h>
#include <xmmintrin.h>
//calc function cpp: z = x*x + y*y + 0.5
void ComputeArrayCpp(
float* pArray1, // [in] first source array
float* pArray2, // [in] second source array
float* pResult, // [out] result array
int nSize) // [in] size of all arrays
{
int i;
float* pSource1 = pArray1;
float* pSource2 = pArray2;
float* pDest = pResult;
for ( i = 0; i < nSize; i++ )
{
*pDest = (float)sqrt((*pSource1) * (*pSource1) + (*pSource2)
* (*pSource2)) + 0.5f;
pSource1++;
pSource2++;
pDest++;
}
}
//calc function sse: z = x*x + y*y + 0.5
void ComputeArrayCppSSE(
float* pArray1, // [in] first source array
float* pArray2, // [in] second source array
float* pResult, // [out] result array
int nSize) // [in] size of all arrays
{
int nLoop = nSize/ 4;
__m128 m1, m2, m3, m4;
__m128* pSrc1 = (__m128*) pArray1;
__m128* pSrc2 = (__m128*) pArray2;
__m128* pDest = (__m128*) pResult;
__m128 m0_5 = _mm_set_ps1(0.5f); // m0_5[0, 1, 2, 3] = 0.5
for ( int i = 0; i < nLoop; i++ )
{
m1 = _mm_mul_ps(*pSrc1, *pSrc1); // m1 = *pSrc1 * *pSrc1
m2 = _mm_mul_ps(*pSrc2, *pSrc2); // m2 = *pSrc2 * *pSrc2
m3 = _mm_add_ps(m1, m2); // m3 = m1 + m2
m4 = _mm_sqrt_ps(m3); // m4 = sqrt(m3)
*pDest = _mm_add_ps(m4, m0_5); // *pDest = m4 + 0.5
pSrc1++;
pSrc2++;
pDest++;
}
}
//init array with sin(rnd())
void init(float* a, int size)
{
for(int i = 0; i < size; i++)
{
float x = (float)rand()/RAND_MAX;
a[i] = sin(x);
}
}
int _tmain(int argc, _TCHAR* argv[])
{
setlocale(LC_ALL, "Russian");
const int MAX_SIZE = 10000000;
float *a = (float*)_aligned_malloc(sizeof(float)*MAX_SIZE, 16);
float *b = (float*)_aligned_malloc(sizeof(float)*MAX_SIZE, 16);
float *c = (float*)_aligned_malloc(sizeof(float)*MAX_SIZE, 16);
DWORD startTime, endTime;
startTime = GetTickCount();
init(a, MAX_SIZE);
init(b, MAX_SIZE);
endTime = GetTickCount();
printf("Инициализация массивов: %d мс\n", endTime - startTime);
startTime = GetTickCount();
ComputeArrayCpp(a, b, c, MAX_SIZE);
endTime = GetTickCount();
printf("Вычисление средствами C++: %d мс\n", endTime - startTime);
startTime = GetTickCount();
ComputeArrayCppSSE(a, b, c, MAX_SIZE);
endTime = GetTickCount();
printf("Вычисление средствами SSE: %d мс\n", endTime - startTime);
_aligned_free(a);
_aligned_free(b);
_aligned_free(c);
return 0;
}
Результат работы программы:
Инициализация массивов: 2855 мс
Вычисление средствами C++: 889 мс
Вычисление средствами SSE: 62 мс
Если Вы уже зарегистрированы на Портале - войдите в систему, если Вы еще не регистрировались - пройдите простую процедуру регистрации.