東方算程譚

Oriental Code Talk ── επιστημηが与太をこく、弾幕とは無縁のシロモノ。

目次

Blog 利用状況

ニュース

著作とお薦めの品々は

著作とお薦めの品々は
東方熱帯林へ。

あわせて読みたい

わんくま

  1. 東京勉強会#2
    C++/CLI カクテル・レシピ
  2. 東京勉強会#3
    template vs. generics
  3. 大阪勉強会#6
    C++むかしばなし
  4. 東京勉強会#7
    C++むかしばなし
  5. 東京勉強会#8
    STL/CLRによるGeneric Programming
  6. TechEd 2007 @YOKOHAMA
    C++・C++/CLI・C# 適材適所
  7. 東京勉強会#14
    Making of BOF
  8. 東京勉強会#15
    状態遷移
  9. 名古屋勉強会#2
    WinUnit - お気楽お手軽UnitTest

CodeZine

  1. Cで実現する「ぷちオブジェクト指向」
  2. CUnitによるテスト駆動開発
  3. SQLiteで組み込みDB体験(2007年版)
  4. C++/CLIによるCライブラリの.NET化
  5. C# 1.1からC# 3.0まで~言語仕様の進化
  6. BoostでC++0xのライブラリ「TR1」を先取りしよう (1)
  7. BoostでC++0xのライブラリ「TR1」を先取りしよう (2)
  8. BoostでC++0xのライブラリ「TR1」を先取りしよう (3)
  9. BoostでC++0xのライブラリ「TR1」を先取りしよう (4)
  10. BoostでC++0xのライブラリ「TR1」を先取りしよう (5)
  11. C/C++に対応した、もうひとつのUnitTestFramework ─ WinUnit
  12. SQLiteで"おこづかいちょう"
  13. STL/CLRツアーガイド
  14. マージ・ソート : 巨大データのソート法
  15. ヒープソートのアルゴリズム
  16. C++0xの新機能「ラムダ式」を次期Visual Studioでいち早く試す
  17. .NETでマンデルブロ集合を描く
  18. .NETでマンデルブロ集合を描く(後日談)
  19. C++/CLI : とある文字列の相互変換(コンバージョン)
  20. インテルTBBによる選択ソートの高速化
  21. インテルTBB3.0 によるパイプライン処理
  22. Visual C++ 2010に追加されたSTLアルゴリズム
  23. Visual C++ 2010に追加されたSTLコンテナ「forward_list」
  24. shared_ptrによるObserverパターンの実装
  25. .NETでマンデルブロ集合を描く(番外編) ── OpenCLで超並列コンピューティング
  26. StateパターンでCSVを読む
  27. 状態遷移表からStateパターンを自動生成する
  28. 「ソートも、サーチも、あるんだよ」~標準C++ライブラリにみるアルゴリズムの面白さ
  29. インテルTBBの同期メカニズム
  30. なぜsetを使っちゃいけないの?
  31. WPFアプリケーションで腕試し ~C++でもWPFアプリを
  32. C++11 : スレッド・ライブラリひとめぐり
  33. Google製のC++ Unit Test Framework「Google Test」を使ってみる
  34. メールでデータベースを更新するココロミ
  35. Visitorパターンで遊んでみたよ
  36. Collection 2題:「WPFにバインドできる辞書」と「重複を許す検索set」
  37. Visual C++ 2012:stateless-lambdaとSQLiteのぷち拡張
  38. 「Visual C++ Compiler November 2012 CTP」で追加された6つの新機能

@IT

  1. Vista時代のVisual C++の流儀(前編)Vista到来。既存C/C++資産の.NET化を始めよう!
  2. Vista時代のVisual C++の流儀(中編)MFCから.NETへの実践的移行計画
  3. Vista時代のVisual C++の流儀(後編) STL/CLRによるDocument/Viewアーキテクチャ
  4. C++開発者のための単体テスト入門 第1回 C++開発者の皆さん。テスト、ちゃんとしていますか?
  5. C++開発者のための単体テスト入門 第2回 C++アプリケーションの効率的なテスト手法(CppUnit編)
  6. C++開発者のための単体テスト入門 第3回 C++アプリケーションの効率的なテスト手法(NUnit編)

AWARDS


Microsoft MVP
for Visual Developer - Visual C++


Wankuma MVP
for いぢわる C++


Nyantora MVP
for こくまろ中国茶

Xbox

Links

記事カテゴリ

書庫

日記カテゴリ

ヒープソート

ネタ元 → わんくま東京勉強会懇親会

Rの発言:
「ソートする時にさ、はじめにいっぺんデータを頭からなめて
偏り具合とかバラつき具合を調べておいて、最良のソートアルゴリズムを
選んで...」

これに周りのやつらが噛みつく:
「そんなもん、データ読み込むたんびにソートしとけば全部読み終わった
ときゃソート終わってんぢゃん」
R少なからず凹んだ様子。

"データ読み込むたんびにソート"の代表的な例が binary-tree や B-tree です。
が、もひとつ heap てーのがあります。heap だとデータ読み込むたんびに
半分ソートした状態を作ります。なんたらtree と違い、枝のポインタ(参照)
を必要としないのでコンパクトなのが売り。

indexを1から始めた可変長配列を用意します。
この配列 array[] に格納された要素は:
array[i] を親、array[i*2] と array[i*2+1] を子としたとき、
任意の親に対し、その二人の子より小さくない。

つまり
array[1] はその子: array[2],array[3] 以上、
array[2] はその子: array[4],array[5] 以上、
array[3] はその子: array[6],array[7] 以上、
array[4] はその子: array[8],array[9] 以上、
... てことになり、 つまるところ先頭要素 array[1] が最大要素となります。
この状態をヒープ状態と呼びましょう。
N-1個の要素が詰まったヒープに要素を追加するには:
- 末端に array[N] を追加する。
- array[N]の親array[N/2]と比較し、親<=子だったら入れ替える
- 親子を入れ替えちゃったらさらにその上位の親子の大小関係が狂う
 かもしれないので同様に比較/交換する。
 親子の交換が起こらなくなるまで繰り返す。
この処理は多くともlog2(N)の回数で終了します。

これを繰り返し、全要素を突っ込んだところで
ヒープ状態:"半分ソートされた状態"ができあがります。

ではソート。先頭要素が一番大きいことがわかってます。
こいつを取り出し、代わりに末端要素を入れちゃいます。
そうすると親子の大小関係が変化します。
自分と二人の子を比べ、一番大きいやつを新たな親として親子を入れ替えます。
そーすっと入れ替わった子と、さらにその子たちとのあいだで大小関係が狂うかも。
なので同様の処理を繰り返し、親子の交換が起こらなくなったら終了、
ヒープ状態が維持されます。
ほんでもって、再び先頭要素を取り出して...配列が空になるまで繰り返します。

要するに要素の大きな順で取り出すことができてます。ほらソートできた。

STL/CLRでこの様子を再現してみた。

#include <cliext/algorithm>
#include <cliext/vector>

using namespace System;
using namespace cliext;

int main() {
  Random r;
  vector<int> v;
  Console::WriteLine("前半");
  for ( int i = 0; i < 10; ++i) {
    int n = r.Next(10,50);
    Console::Write("{0} -- ", n);
    v.push_back(n);
    push_heap(v.begin(), v.end());
    for each ( int item in v ) {
      Console::Write("{0} ", item);
    }
    Console::WriteLine();
  }

  Console::WriteLine("後半");
  for ( int i = 0; i < 10; ++i ) {
    int n = v.front();
    Console::Write("{0} -- ", n);
    pop_heap(v.begin(), v.end());
    v.pop_back();
    for each ( int item in v ) {
      Console::Write("{0} ", item);
    }
    Console::WriteLine();
  }
}

---- 実行結果 ----
前半
18 -- 18
19 -- 19 18
11 -- 19 18 11
13 -- 19 18 11 13
12 -- 19 18 11 13 12
47 -- 47 18 19 13 12 11
39 -- 47 18 39 13 12 11 19
14 -- 47 18 39 14 12 11 19 13
41 -- 47 41 39 18 12 11 19 13 14
26 -- 47 41 39 18 26 11 19 13 14 12
後半
47 -- 41 26 39 18 12 11 19 13 14
41 -- 39 26 19 18 12 11 14 13
39 -- 26 18 19 13 12 11 14
26 -- 19 18 14 13 12 11
19 -- 18 13 14 11 12
18 -- 14 13 12 11
14 -- 13 11 12
13 -- 12 11
12 -- 11
11 --

投稿日時 : 2008年2月24日 11:22

コメントを追加

# re: ヒープソート 2008/02/24 17:06 れい

> 「そんなもん、データ読み込むたんびにソートしとけば全部読み終わった
> ときゃソート終わってんぢゃん」

データを総なめするのはO(N)。
データをソートするのはどんなによくてもO(Nlog(N))

量によっては総なめしたほうがよいときもありますよね。
メモリに入りきらないときも考えないといけないし。

# re: ヒープソート 2008/02/24 17:56 επιστημη

うん、整数値がキーならビン・ソートならO(N)やし。

# re: ヒープソート 2008/02/24 18:04 tatar

> 「そんなもん、データ読み込むたんびにソートしとけば全部読み終わった
> ときゃソート終わってんぢゃん」

言葉が良くないと思うのですが、「ソート済みの状態にソートされた状態を維持したまま新たにデータを追加する」という言い回しにしないと、Σ(k=1...N)(k・log(k)+insetのコスト)になったりて、≧O(N^2)という恐しいことになってしまいそうです。(冗談です)

で、結局のところ、最後のソートに時間がかかるのか、1データ追加の操作を少しずつ重くするかの違いしかないと思うのですけど…データ総なめすることで、定数項が改善されて高速になる可能性はあると思うです。

# re: ヒープソート 2008/02/24 18:35 平鍋

昔、エピさんと、miwa-net でやった議論を思い出して懐かし…。(そんだけ)

# re: ヒープソート 2008/02/24 18:49 NyaRuRu

>R少なからず凹んだ様子。

組み込み屋さんと Web 屋さんの会話みたいなので,割とそんな風景がよく見られますね.
問題のクラスが違えば戦略も全然違ってくるということで.

N を延々と大きくしていくと,一般的には R さん方向の戦略の方が強いと思います.
並列分散ソートでは,全数とはいわなくても,事前のランダムサンプリングは割と一般的ですよね.

# re: ヒープソート 2008/02/24 18:51 NyaRuRu

>R少なからず凹んだ様子。

組み込み屋さんと Web 屋さんの会話みたいなので,割とそんな風景がよく見られますね.
問題のクラスが違えば戦略も全然違ってくるということで.

N を延々と大きくしていくと,一般的には R さん方向の戦略の方が強いと思います.
MPI などを使うような並列分散ソートでは,全数とはいわなくても,事前のランダムサンプリングは割と使いますよね.
私が講義で習ったときはそう教わりましたけど.

# re: ヒープソート 2008/02/24 19:26 裏口

うろ覚えだけど、クイックSORTのアルゴリズム中にこのヒープSORTが組み込まれていたはず・・・。

# 元々メインフレーマなんでSORTはユーティリティ使用が
# メインでした。

# re: ヒープソート 2008/02/24 21:53 επιστημη

平鍋さんおひさっす。そーいやそんなこともありましらかしら。

よくできたソート実装は途中で戦術を切り替えてますね。
基本クイックだけどある程度要素数が減ったところで
少ない時に早いソートに切り替えたりとか、
基本マージだけどメモリの許す限り読んでクイックかけて
連の数をあらかじめ減らしたりとか。

# re: ヒープソート 2008/02/24 22:28 れい

> うん、整数値がキーならビン・ソートならO(N)やし。

あ。そうですね。
忘れてました。
事前走査できるならビンが有効かも判断できますね。

> うろ覚えだけど、クイックSORTのアルゴリズム中にこのヒープSORTが組み込まれていたはず・・・。

組み込まれてるっていうのとは違うような。
途中で切り替えるにしてもクイックからヒープは…切り替える利点が思いつきません。
やるならインサートとかバブルソートとかではないかなぁ。

# re: ヒープソート 2008/02/24 22:36 裏口

>組み込まれてるっていうのとは違うような。

確かに違うかも・・・。

# 参考アルゴリズム見ただけだから本当にうろ覚えですが
# クイックSORTの内部サブルーチンのコメントにヒープ
# SORTとストレートインサートSORTの記述があった記憶
# だけが残ってます。

# [.NET]ソートと統計 2008/02/26 0:05 NyaRuRuの日記

ソートの話をするときは,はじめに軽くネタを振ってオーディエンスの偏り具合とかバラつき具合を調べておいて,最良の話題を選びましょう Rの発言: 「ソートする時にさ、はじめにいっぺんデータを頭からなめて偏り具合とかバラつき具合を調べておいて、最良のソートアルゴリ

# re: ヒープソート 2008/02/26 1:53 Craf

アルゴリズムの本を読んで一通りソートアルゴリズムの名前や性質はわかってても、いざ使うとなると、
list.sort() とか std::sort(v.begin(), v.end())
で済んでしまう今日この頃…。
最初の話みたいに常にソートするならstd::setとかもありますし。
ことさら意識してヒープソートを使うのってどんな時なのでしょう。

タイトル
名前
URL
コメント