「ソート」の版間の差分
372行目: | 372行目: | ||
== メモリ使用パターンとインデックスソート == |
== メモリ使用パターンとインデックスソート == |
||
ソート対象の配列が主記憶を使い切るような(あるいは越えるような)大きさであった場合、より低速な[[補助記憶装置]]が使われるので、アルゴリズムのメモリ使用パターンが重要となる。そのような状況では、主記憶上ですべてソートできることを前提としたアルゴリズムは効率が極端に悪化する可能性がある。このような状況では、比較演算回数はあまり重要ではなくなり、ディスクとのメモリ領域の[[仮想記憶|スワップ]]回数が重要となる。したがって、なるべくスワップ回数を増やさないようにするために、配列全体を走査する回数や比較の局所性が比較回数よりも重要となる。 |
|||
例えば、再帰型の[[クイックソート]]は主記憶上では性能が良いが、ソート対象の配列が主記憶に収まらない場合はスワップが頻繁に発生して、性能が極端に低下する。したがって、そのような場合は比較回数が多くても他のアルゴリズムを使った方がよい。 |
|||
対策の一つとして、ソート対象の配列の要素が([[関係データベース]]のような)複雑なレコードだった場合、その配列をそのままソートするのではなく、比較的小さいインデックスを生成して、インデックスの配列をソートするという方法がある。インデックスをソートすれば、元の配列のソートは一回の走査で可能であるが、インデックス経由でアクセスするだけならそれをする必要もない。インデックスは元の配列のレコードよりも小さいので、メモリに収まる可能性が高くなり、スワップ問題を削減することができる。この方式を「タグソート(tag sort)」などと呼ぶこともある<ref>[http://www.pcmag.com/encyclopedia_term/0,2542,t=tag+sort&i=52532,00.asp tag sort Definition] PCMAG.COM</ref>。 |
|||
別の技法として、2つのアルゴリズムを組み合わせて、それぞれの利点を利用する方法がある。例えば、配列をチャンクに分割して個々のチャンクが主記憶上でソートできる大きさにする。チャンク内のソートはメモリ上で効率的に動作するソートアルゴリズムを使い、その結果を[[マージソート]]でマージする。これは、元の配列を単純にマージソートでソートするよりも効率が悪いが、全体をクイックソートでソートするよりもメモリ使用量が少なくてすむ。 |
|||
これらの技法を組み合わせることも可能である。あまりにも巨大なデータをソートする場合、インデックスのソートにも複数のアルゴリズムを組み合わせて[[仮想記憶]]の性質に合うよう設計する必要がある。 |
|||
== 運用上の手法 == |
== 運用上の手法 == |
||
鍵語(キーワード)の種類によっては、順序関係を決定する手続きが難しくなることがある。つまり、順序関係が巡回してしまって、ソートが止まらなくなるということが起きる。 |
|||
このことに対する解決法としては、[[プリンプトン322]]に記されているように<ref>まず六十進小数による整列キーを生成したのちに、その部分を削除しているらしい。したがって三千八百年前から使われている手法といえる。</ref>、「まず整列キーを生成しておいて、整列キーによって整列してしてから、整列キーを捨てる」という手法がある。このとき、第一整列キーを読み、第二整列キーを長音・撥音・拗音・カタカナ/ひらがなで表し、カナ文字の文字コードよりも前にある文字を挟むようにキーを生成すると、sort コマンド一発で辞書順整列ができる。、 |
このことに対する解決法としては、[[プリンプトン322]]に記されているように<ref>まず六十進小数による整列キーを生成したのちに、その部分を削除しているらしい。したがって三千八百年前から使われている手法といえる。</ref>、「まず整列キーを生成しておいて、整列キーによって整列してしてから、整列キーを捨てる」という手法がある。このとき、第一整列キーを読み、第二整列キーを長音・撥音・拗音・カタカナ/ひらがなで表し、カナ文字の文字コードよりも前にある文字を挟むようにキーを生成すると、sort コマンド一発で辞書順整列ができる。、 |
||
国語辞典の見出し語順の整列や、ビジネスアプリケーションにおける社名の読み順の整列などにはよく使われているが、「どうやっているか」は企業の外には出てこないため、かな漢字変換システムの開発者の間などに知られるブラックアートの一部とされている。 |
国語辞典の見出し語順の整列や、ビジネスアプリケーションにおける社名の読み順の整列などにはよく使われているが、「どうやっているか」は企業の外には出てこないため、かな漢字変換システムの開発者の間などに知られるブラックアートの一部とされている。 |
||
== シャッフルへの応用 == |
== シャッフルへの応用 == |
||
[[乱数]]生成と組みあわせることで、データの[[シャッフル (カード)|シャッフル]]を行なうことができる。具体的には、n 個のデータ(添字は 0 から n - 1 としよう)に対して作業用変数 m を用意し、m = 0 を初期値として、m 以上 n 未満の数から値を選び、その添字にあたるデータをデータ m と入れ替える、というものである。手間数は n の自乗にほぼ比例するため効率はよくないが、(乱数の質にもよるが)すべての順列が均等に現れるため、カードゲームの初期化において使われることがある<ref>インプレス編集部編/ |
[[乱数]]生成と組みあわせることで、データの[[シャッフル (カード)|シャッフル]]を行なうことができる。具体的には、n 個のデータ(添字は 0 から n - 1 としよう)に対して作業用変数 m を用意し、m = 0 を初期値として、m 以上 n 未満の数から値を選び、その添字にあたるデータをデータ m と入れ替える、というものである。手間数は n の自乗にほぼ比例するため効率はよくないが、(乱数の質にもよるが)すべての順列が均等に現れるため、カードゲームの初期化において使われることがある<ref>インプレス編集部編/島田正雄・藤本裕之・岡田章志・水谷独著『スーパーステレオステレオグラム』、株式会社インプレス、1993/05/01、ISBN4-8443-4609-1 C3055。p.78 に図解、p.82 にコードがある。</ref>。 |
||
島田正雄・藤本裕之・岡田章志・水谷独著『スーパーステレオステレオグラム』、株式会社インプレス、1993/05/01、ISBN4-8443-4609-1 C3055。p.78 に図解、p.82 にコードがある。</ref>。 |
|||
== 脚注 == |
== 脚注 == |
2023年8月8日 (火) 13:31時点における版
ソート (英: sort) は、データの集合を一定の規則に従って並べること[1]。日本語では整列(せいれつ)、並べ替え(ならべかえ)、分類(ぶんるい)などと訳される[1]。
主に配列や連結リストのような、リストデータ構造に分類されるコレクション(コンテナ)に格納されている要素データを、全順序関係によって並べ替えることを指す。また、単に「ソート」といった場合、値の小さい方から大きい方へ順に並べる昇順(しょうじゅん、英: ascending order)を指すことが多い。その反対に値を大きい方から小さい方へ順に並べることを降順(こうじゅん、英: descending order)という。
対象となるコレクションのデータ構造や必要とされる出力、また時間的コストと空間的コストの兼ね合いによって、ソートに使われるアルゴリズムは異なる。
概要
効率的なソートは、ソート済みのデータを必要とする他のアルゴリズム(探索やマージ)の最適化にとっても重要である。また、ソートされたデータの方が人間にとっても読みやすい。形式的には、その出力は以下の2つの条件を満たさなければならない。
- 設定された順序(昇順または降順)に対して、逆になるような順序の出力があってはならない。
- 出力は入力の並べ替えでなければならない。
情報工学や計算機科学の黎明期から、ソートは単純な問題でありながら効率的に解くことが難しく、そのためもあって盛んに研究されてきた。例えばバブルソートについては、早くも1956年には解析が行われている[2]。しかし、21世紀初にも新たなソートアルゴリズムが発明されている(例えば、Timsortは2002年に、図書館ソートは2004年に発表された)。すでに考案されているソートにも様々なアルゴリズムがあり、またアルゴリズムという概念を学習するのに最適なので、情報工学や計算機科学での入門的題材として広く親しまれている。例えば、分割統治法、データ構造、乱択アルゴリズム、計算量解析、O記法、時間と空間のトレードオフ、下限などが含まれる。
グラフィカルユーザインタフェース (GUI) においてよく使われるウィジェットのひとつとしてリストビュー (list view) が挙げられるが、各レコードのフィールドを表す任意のカラムについてリスト中のアイテムを昇順/降順ソートできるようになっていることが多い。
分類
計算機科学では、ソートアルゴリズムを次のように分類する。
安定ソート
同じ値に関して、ソート前の順序がソート後も維持されているソートを安定ソートという。
安定ソートでないソートであっても、ソート条件に元の順序を含めることで必ず安定ソートにすることが可能である。しかしながら、別途元の順序を記憶する領域が必要になることから、内部ソートであっても外部ソートになってしまう。(→#内部ソートと外部ソート)
内部ソートと外部ソート
ソートされるデータの格納領域を変更して処理を進めていくIn-placeのソートを内部ソートという。クイックソートのような再帰を利用するアルゴリズムは、再帰のために O(log n) の領域を必要とすることからIn-placeであるか否かは議論が分かれるところであるが、これも内部ソートに含めるのが一般的である。このことから内部ソートは、ソートされるデータの格納域以外には O(1) か O(log n) の領域しか必要としない。
逆に、ソートされるデータの格納領域以外に O(n) 以上の一時的な記憶領域が必要であるソートを外部ソートという。
メモリ使用量(およびその他の計算資源の使用量)による分類である。すべての内部ソートは、インデックスや参照、複製を作成して処理することで事実上の外部ソートにすることができる。アルゴリズムとしての本質ではないので一般的には無視されるが、高速化や柔軟な処理のために冗長な記憶領域を使用する場合がある。例えば、非安定ソートアルゴリズムで安定ソートを実現する場合など。(→#安定ソート)
比較ソート
個々の項目を比較演算で大小判定することを基本とするソートを比較ソートという。
比較ソートには#比較ソートの理論限界が存在する。
計算量
入力されるリストの項目数 n に基づいた計算量による分類。典型的なソートアルゴリズムでは、最善で O(n log n) 、最悪で O(n2) である。理想は O(n) である。
比較ソートでは、一般的な(ランダムに並んだ)データの並べ替えに対しては少なくとも O(n log n) の比較回数が必要である。(→#比較ソートの理論限界)
手法
汎用手法による分類。挿入、交換、選択、マージなどがある。交換ソートにはバブルソートやシェーカーソートやコムソートなどが含まれる。選択ソートにはヒープソートなどが含まれる。
再帰
再帰が必須、不可能、どちらでも可能、という分類。実装上の都合で再帰に関わる制限がある場合に注目される。
一覧
配列に格納されたn個のデータをソートする場合について、各アルゴリズムの性能を示す。 計算時間の表記に用いている記号 O(オー)については、ランダウの記号を参照。
以下の表で、n はソートすべきデータ要素数である。平均実行時間と最悪実行時間は時間計算量を示している。このとき、ソートキーの長さは一定と仮定しており、比較や交換といった操作は定数時間で行われるとする。メモリ使用量は、入力データの格納域以外に必要となる領域を示している。これらは、いずれも比較ソートである。
名称 |
平均計算時間 |
最悪計算時間 |
メモリ使用量 |
安定性 |
手法 |
備考 |
---|---|---|---|---|---|---|
バブルソート | ○ | 交換 | ||||
シェーカーソート | ○ | 交換 | ||||
コムソート | × | 交換 | コードサイズが小さくて済む。 | |||
ノームソート | ○ | 交換 | ||||
選択ソート | × | 選択 | 安定ソートとしても実装可能 | |||
挿入ソート | ○ | 挿入 | 最良計算時間がになる。 | |||
シェルソート | ≧ | × | 挿入 | 最悪やの数列が実用化されている。 | ||
2分木ソート | ○ | 挿入 | 平衡2分探索木を使った場合 | |||
図書館ソート | ○ | 挿入 | ||||
マージソート | ○ | マージ | 連結リストの場合は外部メモリ。 | |||
In-place マージソート | ○ | マージ | 実装例 | |||
ヒープソート | × | 選択 | ||||
スムースソート | — | × | 選択 | |||
クイックソート | × | パーティショニング | メモリはコールスタック(素朴な実装では になる) | |||
イントロソート | × | 混成 | メモリはコールスタック | |||
ペイシェンスソート | — | × | 挿入 | 以内にすべての最長増加部分列を探す。 | ||
ストランドソート | ○ | 選択 | ||||
奇偶転置ソート | ○ | 交換 | ||||
シェアソート | × | 交換 |
次の表は、比較ソート以外のソートアルゴリズムの一覧である。そのため、下限が O(n log n) で制限されない。k はキーの長さ、s は実装で使われるチャンクのサイズである。これらの一部は、キーが十分に長く、各要素のキーが重複しないことを前提としている。すなわち、n << 2k を仮定している(<< は「十分小さい」)。
名称 |
平均計算時間 |
最悪計算時間 |
メモリ使用量 |
安定性 |
n << 2k? |
備考 |
---|---|---|---|---|---|---|
鳩の巣ソート | ○ | ○ | ||||
バケットソート | ○ | × | 入力データは定義域に一様分布すると仮定 | |||
分布数えソート | ○ | ○ | ||||
LSD 基数ソート | ○ | × | ||||
MSD 基数ソート | × | × | ||||
スプレッドソート | × | × | n << 2k の場合の計算時間だが、それ以外の場合でもソート可能 | |||
逆写像ソート | ? | N/A | ? | ○ | × |
次の表は、あまりにも性能が悪いので通常は用いられないソートアルゴリズム、および特別なハードウェアが必要なソートアルゴリズムの一覧である。
名称 |
平均計算時間 |
最悪計算時間 |
メモリ使用量 |
安定性 |
大小比較 |
備考 |
---|---|---|---|---|---|---|
ボゴソート | ∞ | × | ○ | 平均時間はクヌースのシャッフルを使った場合 | ||
ボゾソート | ∞ | × | ○ | 平均時間はボゴソートの約半分に漸近する。 | ||
ストゥージソート | × | ○ | ||||
スリープソート | 値の最大値×プロセス起動単位時間(実際には誤差あり) | 同左 | ? | × | ? | 条件が特殊。実用の正確性が保証されない。 |
ビードソート | N/A | N/A | — | N/A | × | 専用ハードウェアが必要 |
単純パンケーキソート | × | ○ | 反転を定数時間で行えるものと仮定 | |||
ソーティングネットワーク | ○ | × | 大きさ の回路が必要。 | |||
バイトニックソート | × | × | 計算時間とメモリ使用量はソーティングネットワークとして実装したときの値 | |||
バッチャー奇偶マージソート | × | × | 計算時間とメモリ使用量はソーティングネットワークとして実装したときの値 |
比較ソートアルゴリズムの最悪計算量の下界
ソートを行う際、要素間の順序の決定を2要素の大小関係の比較処理のみを用いて行うことにする。この時、要素からなるリストをソートするアルゴリズムの最悪比較回数は回となる。すなわち、どんな比較ソートアルゴリズムであっても入力によっては(一般的な入力に対しては)漸近的に回の比較が必要となる。
この理由を説明する。ある比較ソートアルゴリズムが与えられた際、様々な入力に対する処理の手順を二分決定木として表すことができる。内部ノードは2要素の比較処理を表し、内部ノードから子ノードへの2本の枝は比較結果に応じた処理を表す。また、葉は処理の終了を表す。この時、木の高さが最悪比較回数となる。要素からなるリストが入力される時、どのような二分決定木を作ったとしても、木の高さがになることを示す。二分決定木の高さをとした時、木の形によらず、葉の数は以下になる。要素からなるリストの(添字の)置換は個存在するが、任意の入力に対してアルゴリズムが正しい出力をするためには、個の異なるリストを入力した際、それらがすべて異なる葉に到達できるようにしなければならない。よって、葉の数は以上でなければならない。以上より、である。スターリングの公式よりなので、。よって、。よって。
以上より、任意の比較ソートアルゴリズムの最悪計算量はとなる。すなわち、比較ソートアルゴリズムの最悪計算量の下界は漸近的にはとなる。
マージソート、ヒープソートなどの比較ソートアルゴリズムの最悪計算量はであるため、これらのアルゴリズムの最悪計算量は上記の下界と漸近的に一致していると言える。つまり、これらのアルゴリズムの最悪計算量は漸近的に最適である。
メモリ使用パターンとインデックスソート
ソート対象の配列が主記憶を使い切るような(あるいは越えるような)大きさであった場合、より低速な補助記憶装置が使われるので、アルゴリズムのメモリ使用パターンが重要となる。そのような状況では、主記憶上ですべてソートできることを前提としたアルゴリズムは効率が極端に悪化する可能性がある。このような状況では、比較演算回数はあまり重要ではなくなり、ディスクとのメモリ領域のスワップ回数が重要となる。したがって、なるべくスワップ回数を増やさないようにするために、配列全体を走査する回数や比較の局所性が比較回数よりも重要となる。
例えば、再帰型のクイックソートは主記憶上では性能が良いが、ソート対象の配列が主記憶に収まらない場合はスワップが頻繁に発生して、性能が極端に低下する。したがって、そのような場合は比較回数が多くても他のアルゴリズムを使った方がよい。
対策の一つとして、ソート対象の配列の要素が(関係データベースのような)複雑なレコードだった場合、その配列をそのままソートするのではなく、比較的小さいインデックスを生成して、インデックスの配列をソートするという方法がある。インデックスをソートすれば、元の配列のソートは一回の走査で可能であるが、インデックス経由でアクセスするだけならそれをする必要もない。インデックスは元の配列のレコードよりも小さいので、メモリに収まる可能性が高くなり、スワップ問題を削減することができる。この方式を「タグソート(tag sort)」などと呼ぶこともある[3]。
別の技法として、2つのアルゴリズムを組み合わせて、それぞれの利点を利用する方法がある。例えば、配列をチャンクに分割して個々のチャンクが主記憶上でソートできる大きさにする。チャンク内のソートはメモリ上で効率的に動作するソートアルゴリズムを使い、その結果をマージソートでマージする。これは、元の配列を単純にマージソートでソートするよりも効率が悪いが、全体をクイックソートでソートするよりもメモリ使用量が少なくてすむ。
これらの技法を組み合わせることも可能である。あまりにも巨大なデータをソートする場合、インデックスのソートにも複数のアルゴリズムを組み合わせて仮想記憶の性質に合うよう設計する必要がある。
運用上の手法
鍵語(キーワード)の種類によっては、順序関係を決定する手続きが難しくなることがある。つまり、順序関係が巡回してしまって、ソートが止まらなくなるということが起きる。 このことに対する解決法としては、プリンプトン322に記されているように[4]、「まず整列キーを生成しておいて、整列キーによって整列してしてから、整列キーを捨てる」という手法がある。このとき、第一整列キーを読み、第二整列キーを長音・撥音・拗音・カタカナ/ひらがなで表し、カナ文字の文字コードよりも前にある文字を挟むようにキーを生成すると、sort コマンド一発で辞書順整列ができる。、 国語辞典の見出し語順の整列や、ビジネスアプリケーションにおける社名の読み順の整列などにはよく使われているが、「どうやっているか」は企業の外には出てこないため、かな漢字変換システムの開発者の間などに知られるブラックアートの一部とされている。
シャッフルへの応用
乱数生成と組みあわせることで、データのシャッフルを行なうことができる。具体的には、n 個のデータ(添字は 0 から n - 1 としよう)に対して作業用変数 m を用意し、m = 0 を初期値として、m 以上 n 未満の数から値を選び、その添字にあたるデータをデータ m と入れ替える、というものである。手間数は n の自乗にほぼ比例するため効率はよくないが、(乱数の質にもよるが)すべての順列が均等に現れるため、カードゲームの初期化において使われることがある[5]。
脚注
出典
- ^ a b ASCII.jpデジタル用語辞典. “ソート”. コトバンク. 2020年6月1日閲覧。
- ^ Bubble Sort: An Archaeological Algorithmic Analysis Owen Astrachan
- ^ tag sort Definition PCMAG.COM
- ^ まず六十進小数による整列キーを生成したのちに、その部分を削除しているらしい。したがって三千八百年前から使われている手法といえる。
- ^ インプレス編集部編/島田正雄・藤本裕之・岡田章志・水谷独著『スーパーステレオステレオグラム』、株式会社インプレス、1993/05/01、ISBN4-8443-4609-1 C3055。p.78 に図解、p.82 にコードがある。
参考文献
- D. E. Knuth, The Art of Computer Programming, Volume 3: Sorting and Searching.
関連項目
外部リンク
- Sequential and parallel sorting algorithms - 各種アルゴリズムの説明と解析
- Ricardo Baeza-Yates' sorting algorithms on the Web
- 'Dictionary of Algorithms, Data Structures, and Problems'
- Slightly Skeptical View on Sorting Algorithms Softpanorama。古典的アルゴリズムについて論じ、クイックソートの代替となるアルゴリズムを提案。
- Sorting Revisited
- The Stony Brook Algorithm Repository コード例と解説
- William Cawley Gelling, Markus E. Nebel, Benjamin Smith and Sebastian Wild: "Multiway Powersort", (September 16, 2022)
ソートアルゴリズムの視覚化
- sort algorithm visualizer - 11種類のソートアルゴリズムについて各種初期条件でのソートの様子を視覚化
- いくつかのソートアルゴリズムを視覚化したJava applet
- Sort Animation - Javaアプレットによるバブルソート、挿入ソート、クイックソート、選択ソートのアニメーション図解
- xSortLab - 別のJavaアプレット。バブルソート、挿入ソート、クイックソート、選択ソート、マージソートをアニメーション化している。ソート対象を縦の棒で示している。
- Sorting contest - 8種類のソートアルゴリズムのアニメーションを一斉に実行でき、速度の違いを体感できる。