東方算程譚

Oriental Code Talk ── επιστημηが与太をこく、弾幕とは無縁のシロモノ。

Blog 利用状況

投稿数 - 1078
記事 - 2
コメント - 34455
トラックバック - 363

ニュース

著作とお薦めの品々は

著作とお薦めの品々は
東方熱帯林へ。

わんくま

東京勉強会#2
C++/CLI カクテル・レシピ
東京勉強会#3
template vs. generics
大阪勉強会#6
C++むかしばなし
東京勉強会#7
C++むかしばなし
東京勉強会#8
STL/CLRによるGeneric Programming
TechEd 2007 @YOKOHAMA
C++・C++/CLI・C# 適材適所
東京勉強会#14
Making of BOF
東京勉強会#15
状態遷移
名古屋勉強会#2
WinUnit - お気楽お手軽UnitTest

CodeZine

@IT

AWARDS

Microsoft MVP
for Visual Developer - Visual C++

Wankuma MVP
for いぢわる C++

Nyantora MVP
for こくまろ中国茶

Xbox

Links

Bjarne Stroustrup's homepage

記事カテゴリ

SQLite

書庫

日記カテゴリ

2010年9月1日 #

東京だよおっかさん

プロダクト受け入れテストと次版の設計のため
急遽デッチ上げられたプロジェクトに飛び込むことになり、
机のお引越ししてました。

東京タワーすぐそば一等地26階角部屋、
こんなの↓を背にシゴトしてます。

右隅にスカイツリーがほんのり。

posted @ 19:18 | Feedback (0)

OpenCL(7) ホスト-デバイス間のやりとり

そゆわけで、先週日曜は兎さんとやきそば食って
悟空茶荘で茶ぁしばきながら愛と平和を熱く語るはずもなく、
GPGPUがどーしたこーしたなんつーおよそ茶席にはそぐわぬ
ネタで盛り上がったわけですが。

兎さん曰く：「ATI Streamてばホスト-デバイス間のデータ転送が速くねぇ」
...そぉなの?

GPGPUはホスト(マザボ)にぶっ挿したデバイス(グラボ)に対し
あれやこれやと命令投げて処理を行います。
で、ホストはデバイスの持ってるメモリに直接アクセスできません。
なので必要に応じてホスト→デバイス,ホスト←デバイスなメモリ転送
コマンドを発行し、その完了を待たにゃならんです。そのスピードがイマイチとのこと。

おうち帰ってやってみた。1024x1024個のfloat(=4MB)領域に対し1000回の
書き込み(ホスト→デバイス)と読み込み(ホスト←デバイス)にかかる時間を計ってみる。

#include <iostream>

#include <vector>
#include <string>
#include <utility>
#include <cassert>
#include <Windows.h>

#define __CL_ENABLE_EXCEPTIONS
#include <CL/cl.hpp>

using namespace std;

int main() try {
vector<cl::Platform> platforms;
cl::Platform::get(&platforms);
assert( !platforms.empty() );

cl_context_properties properties[] =
{ CL_CONTEXT_PLATFORM, (cl_context_properties)(platforms[0])(), 0};
cl::Context context(CL_DEVICE_TYPE_GPU, properties);

std::vector<cl::Device> devices = context.getInfo<CL_CONTEXT_DEVICES>();
assert( !devices.empty() );

const size_t N = 1024*1024;
vector<float> host_buffer(N, 0.0f);
cl::Buffer buffer(context, CL_MEM_READ_WRITE, N*sizeof(float));

cl::CommandQueue queue(context, devices[0]);

DWORD t0, t1;

// かきかき
t0 = GetTickCount();
for ( int i = 0; i < 1000; ++i ) {
queue.enqueueWriteBuffer(buffer, CL_TRUE, 0, N*sizeof(float), &host_buffer[0]);
}
t1 = GetTickCount();
cout << "Write 1000 times: " << (t1-t0) << "[ms]\n";

// よみよみ
t0 = GetTickCount();
for ( int i = 0; i < 1000; ++i ) {
queue.enqueueReadBuffer(buffer,CL_TRUE, 0, N*sizeof(float), &host_buffer[0]);
}
t1 = GetTickCount();
cout << "Read 1000 times: " << (t1-t0) << "[ms]\n";

} catch ( const cl::Error& err ) {
cerr << "OpenCL error " << err.err() << " :" << err.what() << endl;
}

ATI Stream SDK 2.2 / ATI Radeon HD5450 DDR2-512MB での結果:
Write 1000 times: 11766[ms]
Read 1000 times: 5313[ms]

ほほー、書き込みは読み込みの倍以上の時間がかかるですね。
ホスト-デバイス間のメモリ転送(特にホスト→デバイス)はパフォーマンスを落とすのか。

posted @ 19:16 | Feedback (315)