東方算程譚

Oriental Code Talk ── επιστημηが与太をこく、弾幕とは無縁のシロモノ。

Blog 利用状況

投稿数 - 1078
記事 - 2
コメント - 34432
トラックバック - 363

ニュース

著作とお薦めの品々は

著作とお薦めの品々は
東方熱帯林へ。

わんくま

東京勉強会#2
C++/CLI カクテル・レシピ
東京勉強会#3
template vs. generics
大阪勉強会#6
C++むかしばなし
東京勉強会#7
C++むかしばなし
東京勉強会#8
STL/CLRによるGeneric Programming
TechEd 2007 @YOKOHAMA
C++・C++/CLI・C# 適材適所
東京勉強会#14
Making of BOF
東京勉強会#15
状態遷移
名古屋勉強会#2
WinUnit - お気楽お手軽UnitTest

CodeZine

@IT

AWARDS

Microsoft MVP
for Visual Developer - Visual C++

Wankuma MVP
for いぢわる C++

Nyantora MVP
for こくまろ中国茶

Xbox

Links

Bjarne Stroustrup's homepage

記事カテゴリ

SQLite

書庫

日記カテゴリ

TBBで遊んでみたよ(11)

ネタ元 → [勉強会]セッション資料公開

かたっぱしからportしていただきました。ありがとさんすー
本業でJava漬けなもんだから休日はC++、TBBのthreadとtaskで遊ぶよ♪

インテルTBBによる選択ソートの高速化では tbb::parallel_invoke で
ソート範囲の前半部/後半部を同時並行実行したです。

これをフツーにスレッド使ってやってみる。つまりこの:
　ソートする(こっから, ここまで) {
　　こっからとここまでを前半部[こっから..まんなか] と [まんなか..ここまで] に分割する。
　　スレッド起こして ソートする(こっから, まんなか)
　　スレッド起こして ソートする(まんなか,　ここまで)
　　スレッドの完了を待つ
　}
なんてな。

TBBには parallel_なんとか 関数が提供されてて、大抵の用途にはこいつらで事足ります。
が、parallel_なんとかでは済まないケースもございます。TBBにはstd::threadコンパチのthread
があるんで、(この例ではparallel_invokeで書けるんだけども)thread使うとこんなコードになるです。


/*
 * 前半部/後半部に分け、それぞれをthreadでsortする
 */
void sort_thread_entry(vector<string>::iterator first, vector<string>::iterator last) {
    typedef vector<string>::difference_type difference_type;
    difference_type size = distance(first,last);
    // 要素数が cutoff 未満なら素直にselection_sort
    if ( size < cutoff ) {
        selection_sort(first, last);
    } // さもなくば
    else {
        vector<string>::iterator mid = first;
        advance(mid, size/2);
        // [first,mid) : 小さい要素群 と [mid,last) : 大きい要素群 に振り分けて
        nth_element(first, mid, last);
        // それぞれをソートするthreadを作り
        thread lo(&sort_thread_entry, first, mid);
        thread hi(&sort_thread_entry, mid, last);
        // 双方の完了を待つ
        lo.join();
        hi.join();
    }
}

...あのね、こんなことやっちゃダメですよ。
いやダメってことはないけど何事も限度てーもんがあって、こんなことしたら山ほどスレッド起こすことになります。
僕の環境では8!(40320)個の要素をソートしようとしたらば 32bit ではリソース枯渇して落ちてしまいました。

加えてこのコード、決して性能よくないんです。std::sortと比べてみたらば:
　quick sort ... 0.130405 [sec]
　sort_thread ... 0.63766 [sec]
2コア使ってるクセしてstd::sortに負けてます。
たくさんのスレッドを起こすことになり、
スレッドの切り替えにかかるオーバヘッドがバカにならんのでしょう。

実際TBBのマニュアルには:
　Threads are heavy weight entities on most systems, and running too many threads on
　a system can seriously degrade performance. Consider using a task based solution
　instead if practical.
　ぶっちゃけthreadは重いしさ、よぉけthread起こすとパフォーマンス低下がシャレならんのよ。
　んだから実務ではtask-baseにしとき。悪いこと言わんから。
と明記されちょるです。
parallel_なんとかが使えないなら次善の策はtask使え。万策尽きたらthreadに手を伸ばしてもいい、と。

んじゃそのtask-baseゆーのんを使ってみると、だ。
　quick sort ... 0.130405 [sec]
　selection_sort ... 39.5528 [sec]
　sort_thread ... 0.63766 [sec]
　sort_task ... 0.0860738 [sec]
ってことで std::sort に勝つるです。4コア/8コアならもっと速くなるはずっす。


#include <iostream>
#include <string>
#include <vector>
#include <iterator>
#include <algorithm>
#include <functional>
#include <cassert>
#include <tbb/tbb.h>
#include <tbb/compat/thread> // std::thread の TBBによる実装
using namespace std;
// 単純選択ソート
template<typename InputIterator>
void selection_sort(InputIterator first, InputIterator last) {
    while ( first != last ) {
        iter_swap(first, min_element(first,last));
        ++first;
    }
}
static const int cutoff = 30;
/*
 * 前半部/後半部に分け、それぞれをthreadでsortする
 */
void sort_thread_entry(vector<string>::iterator first, vector<string>::iterator last) {
    typedef vector<string>::difference_type difference_type;
    difference_type size = distance(first,last);
    // 要素数が cutoff 未満なら素直にselection_sort
    if ( size < cutoff ) {
        selection_sort(first, last);
    } // さもなくば
    else {
        vector<string>::iterator mid = first;
        advance(mid, size/2);
        // [first,mid) : 小さい要素群 と [mid,last) : 大きい要素群 に振り分けて
        nth_element(first, mid, last);
        // それぞれをソートするthreadを作り
        thread lo(&sort_thread_entry, first, mid);
        thread hi(&sort_thread_entry, mid, last);
        // 双方の完了を待つ
        lo.join();
        hi.join();
    }
}
/*
 * 前半部/後半部に分け、それぞれをtaskでsortする
 */
class sort_task : public tbb::task {
public:
    typedef vector<string>::iterator iterator;
    typedef vector<string>::difference_type difference_type;
protected:
    iterator first;
    iterator last;
public:
    sort_task(iterator f, iterator l) : first(f), last(l) {}
    task* execute() {
        difference_type size = distance(first,last);
        // 要素数が cutoff 未満なら素直にselection_sort
        if ( size < cutoff ) {
            selection_sort(first, last);
        } // さもなくば
        else {
            iterator mid = first;
            advance(mid, size/2);
            // [first,mid) : 小さい要素群 と [mid,last) : 大きい要素群 に振り分けて
            nth_element(first, mid, last);
            // それぞれをソートするtaskを作り
            task* left_task = new( allocate_child() ) sort_task(first, mid);
            task* right_task = new( allocate_child() ) sort_task(mid, last);
            // 双方を起動して完了を待つ
            set_ref_count(3);
            spawn(*left_task);
            spawn_and_wait_for_all(*right_task);
        }
        return 0;
    }
};
int main() {
    vector<string> source;
    {
        string value = "ABCDEFGH";
        do {
            source.push_back(value);
        } while ( next_permutation(value.begin(), value.end()) );
        assert( is_sorted(source.begin(), source.end()) );
        random_shuffle(source.begin(), source.end());
    }
    {
        cout << "quick sort ... " << flush;
        vector<string> input = source;
        tbb::tick_count t = tbb::tick_count::now();
        sort(input.begin(), input.end());
        cout << (tbb::tick_count::now() - t).seconds() << " [sec]\n";
        assert( is_sorted(input.begin(), input.end()) );
    }
    {
        cout << "selection_sort ... " << flush;
        vector<string> input = source;
        tbb::tick_count t = tbb::tick_count::now();
        selection_sort( input.begin(), input.end());
        cout << (tbb::tick_count::now() - t).seconds() << " [sec]\n";
        assert( is_sorted(input.begin(), input.end()) );
    }
    {
        cout << "sort_thread ... " << flush;
        vector<string> input = source;
        tbb::tick_count t = tbb::tick_count::now();
        thread sort_th(&sort_thread_entry, input.begin(), input.end());
        sort_th.join();
        cout << (tbb::tick_count::now() - t).seconds() << " [sec]\n";
        assert( is_sorted(input.begin(), input.end()) );
    }
    {
        cout << "sort_task ... " << flush;
        vector<string> input = source;
        tbb::task* tsk = new(tbb::task::allocate_root()) sort_task(input.begin(), input.end());
        tbb::tick_count t = tbb::tick_count::now();
        tbb::task::spawn_root_and_wait(*tsk);
        cout << (tbb::tick_count::now() - t).seconds() << " [sec]\n";
        assert( is_sorted(input.begin(), input.end()) );
    }
}

投稿日時 : 2010年7月17日 23:36

コメントを追加

# re: TBBで遊んでみたよ(11) 2010/07/18 10:28 とっちゃん＠おうち

いただけるものは全部戴いちゃいました。
おかげで、いろんな実行モジュールは用意できました。ありがとですー。

スレッドは無尽蔵に作るものじゃないので、そういう使い方はだめですね。

むしろ、たくさん作って何かするなら、Nativeなスレッド作っちゃったほうが効率いいですｗ＜OSの切り替えに全部任せる
とはいえ、落ちるほどのスレッド数はだめですねｗ

３２ビットなWindowsOSでやってる限りは２００くらいが切り替えコストを無視できる上限ですね。
それを超えるなら、タスクライブラリに頼らないと無理。

ということで...
threadを使う用途があるとしたら、それは別アプリにしてもいいくらい独立性が高いが、Start/End くらいでデータのやり取りがあるシーケンシャルじゃなければ処理できないもの。
くらいですｗｗｗ

# re: TBBで遊んでみたよ(11) 2010/07/21 21:40 Chiharu

Core i7 (論理コア8 (物理コア4+SMT)) だと...

quick sort ... 0.0251801 [sec]
selection_sort ... 6.43185 [sec]
sort_task ... 0.00684769 [sec]

こんな感じでした。sort_thread は落ちました。x86 ビルドだからかな。

並列プログラミングでスレッド起こすくらいなら、タスク使え、というのは当然だと思います。スレッド起こすオーバーヘッドがなければ、TBB なんていらないって話になっちゃうので。

並列プログラミング（Win32 API ですが）でスレッド起こすのは、自作アプリではやったことありますが、そのときは論理コア数分のスレッド起動終了をアプリの起動終了のタイミングで行い、途中はプロデューサ・コンシューマ・パターンでタスク管理やってました。結局 TBB 的な動作を実装することになってました。きっと並列プログラミングって、こういう挙動に落ち着くんでしょうね。

# YmuezGMBnAdPgEH 2011/09/28 9:24 http://oemfinder.com

niaxir Author, keep doing in the same way..!

タイトル		タイトルを入力してください
名前		名前を入力してください
URL
コメントコメントを入力してください
名前をブラウザに記憶する