更なる高速化のためにSSE2に手を出してみる.CIPスキームの最内ループの元がこんなもん:
double const *v = VV + (La+Lb)*(k-1) + La; double *v2 = VV + (La+Lb)*(k-1); for(double const*const ve = VV + (La+Lb)*(k-1) + La + STEPLEN; ve != v; v2+=2, v+=2){ v2[0] = CA2 * v[-2] + CA1 * v[-1] + C0 * *v + CB1 * v[1]; v2[1] = DA2 * v[-2] + DA1 * v[-1] + D0 * *v + DB1 * v[1]; }
配列をインターリーブして使ってるが,長さ 2 のベクトルを一つ左の値と現在地の値で更新している.ちょうど 128bit のデータになってるから SSE2 にぴったりなので,SSE2を使ったコードが下.当然のごとく配列の alignment を 16byte に合わせておく.
__m128d A2 = _mm_setr_pd(CA2, DA2); __m128d A1 = _mm_setr_pd(CA1, DA1); __m128d A0 = _mm_setr_pd(C0 , D0 ); __m128d B1 = _mm_setr_pd(CB1, DB1); double const *v = VV + (La+Lb)*(k-1) + La; double *v2 = VV + (La+Lb)*(k-1); __m128d pv = _mm_load_pd(v-2); for(double const*const ve = VV + (La+Lb)*(k-1) + La + STEPLEN; ve != v; v2+=2, v+=2){ __m128d r = _mm_shuffle_pd(pv,pv,_MM_SHUFFLE2(0,0)); __m128d op = _mm_shuffle_pd(pv,pv,_MM_SHUFFLE2(1,1)); r = _mm_mul_pd(r, A2); op = _mm_mul_pd(op, A1); r = _mm_add_pd(r,op); pv = _mm_load_pd(v); op = _mm_shuffle_pd(pv,pv,_MM_SHUFFLE2(0,0)); op = _mm_mul_pd(op, A0); r = _mm_add_pd(r,op); op = _mm_shuffle_pd(pv,pv,_MM_SHUFFLE2(1,1)); op = _mm_mul_pd(op, B1); r = _mm_add_pd(r,op); _mm_store_pd(v2, r); }
xmm レジスタがもう一本あればもう少しスマートなのだが... 上のコードより場合によっては下のほうが速い.アセンブラ上は定数のうち一つをメモリから取るようになるが,並列に実行できる命令が増えるので速いのかな?
__m128d op1 = _mm_shuffle_pd(pv,pv,_MM_SHUFFLE2(0,0)); __m128d op2 = _mm_shuffle_pd(pv,pv,_MM_SHUFFLE2(1,1)); op1 = _mm_mul_pd(op1, A2); op2 = _mm_mul_pd(op2, A1); __m128d r = _mm_add_pd(op1,op2); pv = _mm_load_pd(v); op1 = _mm_shuffle_pd(pv,pv,_MM_SHUFFLE2(0,0)); op2 = _mm_shuffle_pd(pv,pv,_MM_SHUFFLE2(1,1)); op1 = _mm_mul_pd(op1, A0); op2 = _mm_mul_pd(op2, B1); op1 = _mm_add_pd(op1,op2); r = _mm_add_pd(r,op1);
うーむ,ここら辺になると Pentium4 の仕様を良く調べないと全く分からない.
- Newer: AWK - はじめ