東方算程譚

Oriental Code Talk ── επιστημηが与太をこく、弾幕とは無縁のシロモノ。

目次

Blog 利用状況

ニュース

著作とお薦めの品々は

著作とお薦めの品々は
東方熱帯林へ。

あわせて読みたい

わんくま

  1. 東京勉強会#2
    C++/CLI カクテル・レシピ
  2. 東京勉強会#3
    template vs. generics
  3. 大阪勉強会#6
    C++むかしばなし
  4. 東京勉強会#7
    C++むかしばなし
  5. 東京勉強会#8
    STL/CLRによるGeneric Programming
  6. TechEd 2007 @YOKOHAMA
    C++・C++/CLI・C# 適材適所
  7. 東京勉強会#14
    Making of BOF
  8. 東京勉強会#15
    状態遷移
  9. 名古屋勉強会#2
    WinUnit - お気楽お手軽UnitTest

CodeZine

  1. Cで実現する「ぷちオブジェクト指向」
  2. CUnitによるテスト駆動開発
  3. SQLiteで組み込みDB体験(2007年版)
  4. C++/CLIによるCライブラリの.NET化
  5. C# 1.1からC# 3.0まで~言語仕様の進化
  6. BoostでC++0xのライブラリ「TR1」を先取りしよう (1)
  7. BoostでC++0xのライブラリ「TR1」を先取りしよう (2)
  8. BoostでC++0xのライブラリ「TR1」を先取りしよう (3)
  9. BoostでC++0xのライブラリ「TR1」を先取りしよう (4)
  10. BoostでC++0xのライブラリ「TR1」を先取りしよう (5)
  11. C/C++に対応した、もうひとつのUnitTestFramework ─ WinUnit
  12. SQLiteで"おこづかいちょう"
  13. STL/CLRツアーガイド
  14. マージ・ソート : 巨大データのソート法
  15. ヒープソートのアルゴリズム
  16. C++0xの新機能「ラムダ式」を次期Visual Studioでいち早く試す
  17. .NETでマンデルブロ集合を描く
  18. .NETでマンデルブロ集合を描く(後日談)
  19. C++/CLI : とある文字列の相互変換(コンバージョン)
  20. インテルTBBによる選択ソートの高速化
  21. インテルTBB3.0 によるパイプライン処理
  22. Visual C++ 2010に追加されたSTLアルゴリズム
  23. Visual C++ 2010に追加されたSTLコンテナ「forward_list」
  24. shared_ptrによるObserverパターンの実装
  25. .NETでマンデルブロ集合を描く(番外編) ── OpenCLで超並列コンピューティング
  26. StateパターンでCSVを読む
  27. 状態遷移表からStateパターンを自動生成する
  28. 「ソートも、サーチも、あるんだよ」~標準C++ライブラリにみるアルゴリズムの面白さ
  29. インテルTBBの同期メカニズム
  30. なぜsetを使っちゃいけないの?
  31. WPFアプリケーションで腕試し ~C++でもWPFアプリを
  32. C++11 : スレッド・ライブラリひとめぐり
  33. Google製のC++ Unit Test Framework「Google Test」を使ってみる
  34. メールでデータベースを更新するココロミ
  35. Visitorパターンで遊んでみたよ
  36. Collection 2題:「WPFにバインドできる辞書」と「重複を許す検索set」
  37. Visual C++ 2012:stateless-lambdaとSQLiteのぷち拡張
  38. 「Visual C++ Compiler November 2012 CTP」で追加された6つの新機能

@IT

  1. Vista時代のVisual C++の流儀(前編)Vista到来。既存C/C++資産の.NET化を始めよう!
  2. Vista時代のVisual C++の流儀(中編)MFCから.NETへの実践的移行計画
  3. Vista時代のVisual C++の流儀(後編) STL/CLRによるDocument/Viewアーキテクチャ
  4. C++開発者のための単体テスト入門 第1回 C++開発者の皆さん。テスト、ちゃんとしていますか?
  5. C++開発者のための単体テスト入門 第2回 C++アプリケーションの効率的なテスト手法(CppUnit編)
  6. C++開発者のための単体テスト入門 第3回 C++アプリケーションの効率的なテスト手法(NUnit編)

AWARDS


Microsoft MVP
for Visual Developer - Visual C++


Wankuma MVP
for いぢわる C++


Nyantora MVP
for こくまろ中国茶

Xbox

Links

記事カテゴリ

書庫

日記カテゴリ

TBBで遊んでみたよ(11)

ネタ元 → [勉強会]セッション資料公開

かたっぱしからportしていただきました。ありがとさんすー
本業でJava漬けなもんだから休日はC++、TBBのthreadとtaskで遊ぶよ♪

インテルTBBによる選択ソートの高速化 では tbb::parallel_invoke
ソート範囲の前半部/後半部を同時並行実行したです。

これを フツーにスレッド使ってやってみる。 つまりこの:
 ソートする(こっから, ここまで) {
  こっから と ここまで を前半部[こっから..まんなか] と [まんなか..ここまで] に分割する。
  スレッド起こして ソートする(こっから, まんなか)
  スレッド起こして ソートする(まんなか, ここまで)
  スレッドの完了を待つ
 }
なんてな。

TBBには parallel_なんとか 関数が提供されてて、大抵の用途にはこいつらで事足ります。
が、parallel_なんとか では済まないケースもございます。TBBにはstd::threadコンパチのthread
があるんで、(この例ではparallel_invokeで書けるんだけども)thread使うとこんなコードになるです。


/*
 * 前半部/後半部に分け、それぞれをthreadでsortする
 */
void sort_thread_entry(vector<string>::iterator first, vector<string>::iterator last) {
    typedef vector<string>::difference_type difference_type;
    difference_type size = distance(first,last);
    // 要素数が cutoff 未満なら素直にselection_sort
    if ( size < cutoff ) {
        selection_sort(first, last);
    } // さもなくば
    else {
        vector<string>::iterator mid = first;
        advance(mid, size/2);
        // [first,mid) : 小さい要素群 と [mid,last) : 大きい要素群 に振り分けて
        nth_element(first, mid, last);
        // それぞれをソートするthreadを作り
        thread lo(&sort_thread_entry, first, mid);
        thread hi(&sort_thread_entry, mid, last);
        // 双方の完了を待つ
        lo.join();
        hi.join();
    }
}

...あのね、こんなことやっちゃダメですよ。
いやダメってことはないけど何事も限度てーもんがあって、こんなことしたら山ほどスレッド起こすことになります。
僕の環境では8!(40320)個の要素をソートしようとしたらば 32bit ではリソース枯渇して落ちてしまいました。

加えてこのコード、決して性能よくないんです。std::sortと比べてみたらば:
 quick sort ... 0.130405 [sec]
 sort_thread ... 0.63766 [sec]
2コア使ってるクセしてstd::sortに負けてます。
たくさんのスレッドを起こすことになり、
スレッドの切り替えにかかるオーバヘッドがバカにならんのでしょう。

実際TBBのマニュアルには:
 Threads are heavy weight entities on most systems, and running too many threads on
 a system can seriously degrade performance. Consider using a task based solution
 instead if practical.
 ぶっちゃけthreadは重いしさ、よぉけthread起こすとパフォーマンス低下がシャレならんのよ。
 んだから実務ではtask-baseにしとき。悪いこと言わんから。
明記されちょるです。
parallel_なんとかが使えないなら次善の策はtask使え。万策尽きたらthreadに手を伸ばしてもいい、と。

んじゃそのtask-baseゆーのんを使ってみると、だ。
 quick sort ... 0.130405 [sec]
 selection_sort ... 39.5528 [sec]
 sort_thread ... 0.63766 [sec]
 sort_task ... 0.0860738 [sec]
ってことで std::sort に勝つるです。4コア/8コアならもっと速くなるはずっす。


#include <iostream>
#include <string>
#include <vector>
#include <iterator>
#include <algorithm>
#include <functional>
#include <cassert>
#include <tbb/tbb.h>
#include <tbb/compat/thread> // std::thread の TBBによる実装
using namespace std;
// 単純選択ソート
template<typename InputIterator>
void selection_sort(InputIterator first, InputIterator last) {
    while ( first != last ) {
        iter_swap(first, min_element(first,last));
        ++first;
    }
}
static const int cutoff = 30;
/*
 * 前半部/後半部に分け、それぞれをthreadでsortする
 */
void sort_thread_entry(vector<string>::iterator first, vector<string>::iterator last) {
    typedef vector<string>::difference_type difference_type;
    difference_type size = distance(first,last);
    // 要素数が cutoff 未満なら素直にselection_sort
    if ( size < cutoff ) {
        selection_sort(first, last);
    } // さもなくば
    else {
        vector<string>::iterator mid = first;
        advance(mid, size/2);
        // [first,mid) : 小さい要素群 と [mid,last) : 大きい要素群 に振り分けて
        nth_element(first, mid, last);
        // それぞれをソートするthreadを作り
        thread lo(&sort_thread_entry, first, mid);
        thread hi(&sort_thread_entry, mid, last);
        // 双方の完了を待つ
        lo.join();
        hi.join();
    }
}
/*
 * 前半部/後半部に分け、それぞれをtaskでsortする
 */
class sort_task : public tbb::task {
public:
    typedef vector<string>::iterator iterator;
    typedef vector<string>::difference_type difference_type;
protected:
    iterator first;
    iterator last;
public:
    sort_task(iterator f, iterator l) : first(f), last(l) {}
    task* execute() {
        difference_type size = distance(first,last);
        // 要素数が cutoff 未満なら素直にselection_sort
        if ( size < cutoff ) {
            selection_sort(first, last);
        } // さもなくば
        else {
            iterator mid = first;
            advance(mid, size/2);
            // [first,mid) : 小さい要素群 と [mid,last) : 大きい要素群 に振り分けて
            nth_element(first, mid, last);
            // それぞれをソートするtaskを作り
            task* left_task = new( allocate_child() ) sort_task(first, mid);
            task* right_task = new( allocate_child() ) sort_task(mid, last);
            // 双方を起動して完了を待つ
            set_ref_count(3);
            spawn(*left_task);
            spawn_and_wait_for_all(*right_task);
        }
        return 0;
    }
};
int main() {
    vector<string> source;
    {
        string value = "ABCDEFGH";
        do {
            source.push_back(value);
        } while ( next_permutation(value.begin(), value.end()) );
        assert( is_sorted(source.begin(), source.end()) );
        random_shuffle(source.begin(), source.end());
    }
    {
        cout << "quick sort ... " << flush;
        vector<string> input = source;
        tbb::tick_count t = tbb::tick_count::now();
        sort(input.begin(), input.end());
        cout << (tbb::tick_count::now() - t).seconds() << " [sec]\n";
        assert( is_sorted(input.begin(), input.end()) );
    }
    {
        cout << "selection_sort ... " << flush;
        vector<string> input = source;
        tbb::tick_count t = tbb::tick_count::now();
        selection_sort( input.begin(), input.end());
        cout << (tbb::tick_count::now() - t).seconds() << " [sec]\n";
        assert( is_sorted(input.begin(), input.end()) );
    }
    {
        cout << "sort_thread ... " << flush;
        vector<string> input = source;
        tbb::tick_count t = tbb::tick_count::now();
        thread sort_th(&sort_thread_entry, input.begin(), input.end());
        sort_th.join();
        cout << (tbb::tick_count::now() - t).seconds() << " [sec]\n";
        assert( is_sorted(input.begin(), input.end()) );
    }
    {
        cout << "sort_task ... " << flush;
        vector<string> input = source;
        tbb::task* tsk = new(tbb::task::allocate_root()) sort_task(input.begin(), input.end());
        tbb::tick_count t = tbb::tick_count::now();
        tbb::task::spawn_root_and_wait(*tsk);
        cout << (tbb::tick_count::now() - t).seconds() << " [sec]\n";
        assert( is_sorted(input.begin(), input.end()) );
    }
}

投稿日時 : 2010年7月17日 23:36

コメントを追加

# re: TBBで遊んでみたよ(11) 2010/07/18 10:28 とっちゃん@おうち

いただけるものは全部戴いちゃいました。
おかげで、いろんな実行モジュールは用意できました。ありがとですー。

スレッドは無尽蔵に作るものじゃないので、そういう使い方はだめですね。

むしろ、たくさん作って何かするなら、Nativeなスレッド作っちゃったほうが効率いいですw<OSの切り替えに全部任せる
とはいえ、落ちるほどのスレッド数はだめですねw

32ビットなWindowsOSでやってる限りは200くらいが切り替えコストを無視できる上限ですね。
それを超えるなら、タスクライブラリに頼らないと無理。

ということで...
threadを使う用途があるとしたら、それは別アプリにしてもいいくらい独立性が高いが、Start/End くらいでデータのやり取りがあるシーケンシャルじゃなければ処理できないもの。
くらいですwww

# re: TBBで遊んでみたよ(11) 2010/07/21 21:40 Chiharu

Core i7 (論理コア8 (物理コア4+SMT)) だと...

quick sort ... 0.0251801 [sec]
selection_sort ... 6.43185 [sec]
sort_task ... 0.00684769 [sec]

こんな感じでした。sort_thread は落ちました。x86 ビルドだからかな。

並列プログラミングでスレッド起こすくらいなら、タスク使え、というのは当然だと思います。スレッド起こすオーバーヘッドがなければ、TBB なんていらないって話になっちゃうので。

並列プログラミング(Win32 API ですが)でスレッド起こすのは、自作アプリではやったことありますが、そのときは論理コア数分のスレッド起動終了をアプリの起動終了のタイミングで行い、途中はプロデューサ・コンシューマ・パターンでタスク管理やってました。結局 TBB 的な動作を実装することになってました。きっと並列プログラミングって、こういう挙動に落ち着くんでしょうね。

# YmuezGMBnAdPgEH 2011/09/28 9:24 http://oemfinder.com

niaxir Author, keep doing in the same way..!

タイトル
名前
URL
コメント