東方算程譚

Oriental Code Talk ── επιστημηが与太をこく、弾幕とは無縁のシロモノ。

目次

Blog 利用状況

ニュース

著作とお薦めの品々は

著作とお薦めの品々は
東方熱帯林へ。

あわせて読みたい

わんくま

  1. 東京勉強会#2
    C++/CLI カクテル・レシピ
  2. 東京勉強会#3
    template vs. generics
  3. 大阪勉強会#6
    C++むかしばなし
  4. 東京勉強会#7
    C++むかしばなし
  5. 東京勉強会#8
    STL/CLRによるGeneric Programming
  6. TechEd 2007 @YOKOHAMA
    C++・C++/CLI・C# 適材適所
  7. 東京勉強会#14
    Making of BOF
  8. 東京勉強会#15
    状態遷移
  9. 名古屋勉強会#2
    WinUnit - お気楽お手軽UnitTest

CodeZine

  1. Cで実現する「ぷちオブジェクト指向」
  2. CUnitによるテスト駆動開発
  3. SQLiteで組み込みDB体験(2007年版)
  4. C++/CLIによるCライブラリの.NET化
  5. C# 1.1からC# 3.0まで~言語仕様の進化
  6. BoostでC++0xのライブラリ「TR1」を先取りしよう (1)
  7. BoostでC++0xのライブラリ「TR1」を先取りしよう (2)
  8. BoostでC++0xのライブラリ「TR1」を先取りしよう (3)
  9. BoostでC++0xのライブラリ「TR1」を先取りしよう (4)
  10. BoostでC++0xのライブラリ「TR1」を先取りしよう (5)
  11. C/C++に対応した、もうひとつのUnitTestFramework ─ WinUnit
  12. SQLiteで"おこづかいちょう"
  13. STL/CLRツアーガイド
  14. マージ・ソート : 巨大データのソート法
  15. ヒープソートのアルゴリズム
  16. C++0xの新機能「ラムダ式」を次期Visual Studioでいち早く試す
  17. .NETでマンデルブロ集合を描く
  18. .NETでマンデルブロ集合を描く(後日談)
  19. C++/CLI : とある文字列の相互変換(コンバージョン)
  20. インテルTBBによる選択ソートの高速化
  21. インテルTBB3.0 によるパイプライン処理
  22. Visual C++ 2010に追加されたSTLアルゴリズム
  23. Visual C++ 2010に追加されたSTLコンテナ「forward_list」
  24. shared_ptrによるObserverパターンの実装
  25. .NETでマンデルブロ集合を描く(番外編) ── OpenCLで超並列コンピューティング
  26. StateパターンでCSVを読む
  27. 状態遷移表からStateパターンを自動生成する
  28. 「ソートも、サーチも、あるんだよ」~標準C++ライブラリにみるアルゴリズムの面白さ
  29. インテルTBBの同期メカニズム
  30. なぜsetを使っちゃいけないの?
  31. WPFアプリケーションで腕試し ~C++でもWPFアプリを
  32. C++11 : スレッド・ライブラリひとめぐり
  33. Google製のC++ Unit Test Framework「Google Test」を使ってみる
  34. メールでデータベースを更新するココロミ
  35. Visitorパターンで遊んでみたよ
  36. Collection 2題:「WPFにバインドできる辞書」と「重複を許す検索set」
  37. Visual C++ 2012:stateless-lambdaとSQLiteのぷち拡張
  38. 「Visual C++ Compiler November 2012 CTP」で追加された6つの新機能

@IT

  1. Vista時代のVisual C++の流儀(前編)Vista到来。既存C/C++資産の.NET化を始めよう!
  2. Vista時代のVisual C++の流儀(中編)MFCから.NETへの実践的移行計画
  3. Vista時代のVisual C++の流儀(後編) STL/CLRによるDocument/Viewアーキテクチャ
  4. C++開発者のための単体テスト入門 第1回 C++開発者の皆さん。テスト、ちゃんとしていますか?
  5. C++開発者のための単体テスト入門 第2回 C++アプリケーションの効率的なテスト手法(CppUnit編)
  6. C++開発者のための単体テスト入門 第3回 C++アプリケーションの効率的なテスト手法(NUnit編)

AWARDS


Microsoft MVP
for Visual Developer - Visual C++


Wankuma MVP
for いぢわる C++


Nyantora MVP
for こくまろ中国茶

Xbox

Links

記事カテゴリ

書庫

日記カテゴリ

並列処理が向かないかもしれない例

ネタ元 → Multi-Core と Multi-Thread のコメント:
どこまでをバブルソートと呼ぶかにもよるけど、交換の仕方を調整すると並列にできますよ、という例。
http://ja.wikipedia.org/wiki/奇偶転置ソート
ただ並列にする処理の1つ1つがとても小さいので、有意な差は出るかどうかは謎。

やってみよぉぢゃありませんか。
# いやさとっちゃんが急遽倍尺でやらんならんそぉなので、ネタ出しに協力的意味でwww

1 7 6 5 8 2 4 3 があったとき、

[1] ふたつずつのペアをつくる。1 7 6 5 8 2 4 3
[2] それぞれのペアについて必要なら入れ替え 1 7 5 6 2 8 3 4
[3] ひとつずらしてペアをつくる 1 7 5 6 2 8 3 4
[4] それぞれのペアについて必要なら入れ替え1 5 7 2 6 3 8 4
[5] [1]~[4] をくりかえし。

[2],[4] の際、ペアの入れ替えは互いに独立だから並行処理できんぢゃん、と。


#include <iostream>
#include <algorithm>
#include <numeric>
#include <cassert>
#include <ppl.h>
#include <Windows.h>
using namespace std; using namespace Concurrency;
// 単スレッドで地道にソート






void
single_bubble_sort(int* data, int N) { bool swapped; auto swapper = [&](int i) { if ( data[i] > data[i+1] ) { iter_swap(data+i,data+i+1); swapped = true; } }; do { swapped = false; for ( int i = 0; i < N-1; i += 2 ) { swapper(i); } for ( int i = 1; i < N-1; i += 2 ) { swapper(i); } } while ( swapped ); }
// PPLで並行処理 void multi_bubble_sort(int* data, int N) { bool swapped; auto swapper = [&](int i) { if ( data[i] > data[i+1] ) { iter_swap(data+i,data+i+1); swapped = true; } }; do { swapped = false; parallel_for(0,N-1,2,swapper); // へーこー parallel_for(1,N-1,2,swapper); // しょり } while ( swapped ); }
int main() { const int N = 10000; int* src = new int[N]; iota(src, src+N, 10); random_shuffle(src,src+N); int* data = new int[N]; DWORD t0, t1;
copy(src,src+N,data); t0 = GetTickCount(); single_bubble_sort(data,N); t1 = GetTickCount(); assert( is_sorted(data,data+N) ); cout << (t1 - t0) << endl;
copy(src,src+N,data); t0 = GetTickCount(); multi_bubble_sort(data,N); t1 = GetTickCount(); assert( is_sorted(data,data+N) ); cout << (t1 - t0) << endl; delete[] data; delete[] src; }


こいつを実行するとですね:
171 (single)
2855 (multi)
なんともトホホな結果です。処理単位があまりにちんこいために、
スレッド/タスクこしらえたり切り替えたりのコストをペイできんのですな。
# dual-coreでの結果です。octa-coreくらいになればちっとはマシかも。

投稿日時 : 2010年6月22日 22:15

コメントを追加

# re: 並列処理が向かないかもしれない例 2010/06/23 7:38 甕星

キャッシュラインとかプリフェッチを意識しないと、メモリアクセスのペナルティが大きくて効果が出ない可能性もあるかと。この実装だと、それぞれのスレッドのアクセスするメモリが思いっきり被っていますよね。

# re: 並列処理が向かないかもしれない例 2010/06/23 7:39

おはようございます、相変わらずご無沙汰しております~。

C++とかPPLのりはびりに4コア(x64)でやってみました^^
http://bit.ly/defogO

109 (single) コツコツ
1107 (multi) 10倍おそーい
406 (parallel_invoke; おまけ) 3.7倍おそーい

# re: 並列処理が向かないかもしれない例 2010/06/23 9:01

寝ぼけててすみませんorz > parallel_invoke

# re: 並列処理が向かないかもしれない例 2010/06/23 14:10 とっちゃん

8コア(4コアHT)で試してみました(x86)。
single:94
multi:873
オーバーヘッドに勝てませんw

# 並列処理にするために&hellip; 2010/06/23 15:28 とっちゃん's Blog

並列処理にするために&hellip;

# re: 並列処理が向かないかもしれない例 2010/06/23 21:10 Chiharu

8コア(4コアHT)で試しました(x86)。
single: 125
multi: 827
マルチ スレッド版の処理時間で約 7 回分のシングル スレッド ソートができるのを見てしまうと、なんだかがっかり感漂いますねw
今回のケースは、コア間のキャッシュ競合が多発するので、コア共通キャッシュを持っていない CPU はより一層遅くなる気がします。最近の CPU だと Atom x2 とか、Core 2 Quad とか。

# re: 並列処理が向かないかもしれない例 2010/06/23 21:44 επιστημη

あー、ひとつのキャッシュ・ラインを複数のコアが奪い合うので、コア/キャッシュ間の調停に余計な手間がかかってそぉですねー
各コアが十分離れたペアを受け持つように仕向けられれば改善すっかもです。

# re: 並列処理が向かないかもしれない例 2010/06/23 23:10 なちゃ

趣向を変えて追いかけっこ版バブルソートで無理やりテスト(C# .NET Framework 4)
多分バグあり(発狂しそうになって細かい検証未実施)
http://ideone.com/JdzZ0
※動作上、きれいに処理を書くのはあきらめた。
2コア(Core2Duo、x86)
シングル: 247.724
マルチ: 237.016
シングル: 223.358
マルチ: 302.165
シングル: 218.757
マルチ: 254.364
シングル: 247.158
マルチ: 250.725
平均すればほぼ負けてます。

試す場合はハングアップ覚悟でどうぞ
※誰か4コアでどうなるか見てもらえるとうれしい…

# re: 並列処理が向かないかもしれない例 2010/06/23 23:19 なちゃ

あ、バブルソートのやり方に無駄があるけど普通に作るとバグりそうだったので半分あきらめてます(パラレル動作での比較が趣旨ってことで)

# re: 並列処理が向かないかもしれない例 2010/06/24 1:35 なちゃ

しつこくてごめんなさい。
ちとバグってたので修正です。
http://ideone.com/YsyEb

シングル: 217.819
マルチ: 176.840
シングル: 222.741
マルチ: 185.444
シングル: 206.946
マルチ: 171.195
シングル: 215.014
マルチ: 189.434
どうやらわずかに高速化できたようです。

# re: 並列処理が向かないかもしれない例 2010/06/24 11:53 とっちゃん

i7-920(4コアxHT)でなちゃさんのやつをやってみました。

シングル: 226.402
マルチ: 266.131
シングル: 209.183
マルチ: 49.992
シングル: 214.434
マルチ: 283.039
シングル: 208.542
マルチ: 51.031

ばらつきが大きいので、8コアだと効率悪いのかな?
で、プログラムを少しだけ書き換えて、ストップウォッチのスタート直前にSleep(100)を挟んでみたところ。。。

シングル: 241.231
マルチ: 281.851
シングル: 220.392
マルチ: 267.964
シングル: 224.049
マルチ: 266.684
シングル: 222.939
マルチ: 271.662
こうなりました。

で、分割数を4を最大にしたところ。。。

シングル: 269.951
マルチ: 88.259
シングル: 223.923
マルチ: 86.084
シングル: 229.616
マルチ: 86.883
シングル: 268.601
マルチ: 93.090

となりました。チャンクの関係ですね。
8だとリミットいっぱいでいっちゃうので都合が悪いみたい。

# OpenCL(4) ここまでのまとめ 2010/08/13 23:56 東方算程譚

OpenCL(4) ここまでのまとめ

# JwxUugRbQWUViVifP 2011/12/27 19:23 www.buytelescopes.com/

It`s really useful! Looking through the Internet you can mostly observe watered down information, something like bla bla bla, but not here to my deep surprise. It makes me happy..!

# WQkzBoidwjIcNNMmjZo 2011/12/29 20:43 http://www.healthinter.org/health/page/micardis.ph

Yeah, now it's clear !... And firstly I did not understand very much where there was the link with the title itself !!...

# OWcpqqILbDzaCWWTU 2012/01/07 9:09 http://www.luckyvitamin.com/m-1690-5-hour-energy

I read online (computer problems) positive feedback about your resource. Didnt even believe it, and now saw myself. It turned out that I was not fooled!...

# I have read several just right stuff here. Definitely price bookmarking for revisiting. I surprise how a lot effort you put to create any such fantastic informative web site. 2019/05/09 7:11 I have read several just right stuff here. Definit

I have read several just right stuff here. Definitely
price bookmarking for revisiting. I surprise how a lot
effort you put to create any such fantastic informative web site.

タイトル
名前
URL
コメント