「データ圧縮」の版間の差分
編集の要約なし |
ファイル圧縮の節をコーデックから移動 |
||
83行目: | 83行目: | ||
[[1990年代]]後半になると、動画圧縮の分野でも国際的な標準規格である[[MPEG-2]]が標準化され、業務用分野から幅広く利用されるようになり、[[1990年代]]末頃には [[DVD]] プレーヤーとして家電製品にも採用されるようになった。 |
[[1990年代]]後半になると、動画圧縮の分野でも国際的な標準規格である[[MPEG-2]]が標準化され、業務用分野から幅広く利用されるようになり、[[1990年代]]末頃には [[DVD]] プレーヤーとして家電製品にも採用されるようになった。 |
||
⚫ | |||
*ファイル圧縮の各方式については、[[コーデック#ファイル圧縮のコーデック|ファイル圧縮のコーデック]]を参照。 |
|||
⚫ | |||
ファイル圧縮では圧縮前の状態に完全に復元可能な[[可逆圧縮]]が用いられる。 |
ファイル圧縮では圧縮前の状態に完全に復元可能な[[可逆圧縮]]が用いられる。 |
||
ファイル圧縮は、PC分野では[[1980年代]]後半頃から[[パソコン通信]]の発達とともに[[LHA]]や[[ZIP (ファイルフォーマット)|ZIP]]などの圧縮方式が誕生した。[[2000年代]]ではZIPが[[オペレーティングシステム]]の垣根を越えて幅広く使われている。 |
|||
* [[CAB]] (Cabinet archive) - Windowsが標準で利用できる圧縮形式 |
|||
* [[GCA]], [[DGCA]] (G Compression Archive) - テキストデータに強い国産圧縮形式 |
|||
* [[LHA]] (Lemple - 純国産の圧縮形式。[[LZH]]とも |
|||
* [[RAR]] - マルチメディア系の圧縮が得意な形式 |
|||
* [[StuffIt]] - [[Macintosh]]系列で利用される圧縮形式 |
|||
* [[ZIP (ファイルフォーマット)|ZIP]] - 事実上、世界標準の圧縮形式 |
|||
** [[JAR]] - [[Java言語]]のプラットフォームで用いられる |
|||
* [[7z]] - [[7-zip]]で扱うことの出来る多機能形式。オープンソース |
|||
* [[UNIX Compress]] - 初期のUNIXで標準で使われていた形式。特許権で問題があった |
|||
* [[gzip]] (GNU Zip) - |
|||
* [[bzip]] (bunzip) - 特許侵害のために配布が中止された高圧縮形式。[[算術圧縮]]使用 |
|||
* [[bzip2]] (bunzip ver.2) - 主にUNIXで使われるオープンソースの高圧縮形式 |
|||
===静止画像圧縮=== |
===静止画像圧縮=== |
2006年10月4日 (水) 13:38時点における版
データ圧縮(データあっしゅく)とは、あるデータをそのデータの実質的な性質を保ったまま、データ量を減らした別のデータに変換すること。高効率符号化ともいい、情報理論においては情報源符号化と呼ばれている。
主な目的は、データ転送における通信帯域やトラフィックの減少や、データ蓄積に必要な記憶容量の削減といった、資源の節約である。
なお、アナログ技術を用いた通信技術においては通信路の帯域を削減する効果を得るための圧縮ということで帯域圧縮ともいわれた。
データ圧縮には大きく分けて可逆圧縮と非可逆圧縮がある。また、バイナリデータを対象としたデータ圧縮方式の中には、複数のファイルを 一つにまとめて扱えるようにするアーカイブ機能を兼ね備えるものもある。
主な圧縮アルゴリズム
非ユニバーサル符号 | 連長圧縮 |
最小冗長符号 あるいは エントロピー符号 | シャノン符号化 |
ハフマン符号 | |
算術符号 | Range Coder |
Tunstall符号 | |
ユニバーサル符号 | |
再帰時間符号化法 | |
インターバル符号 | |
Move To Front(MTF) | |
整数の符号化 | |
Elias符号(ガンマ符号、デルタ符号、オメガ符号) | |
ゴロム符号(Golomb) | |
辞書式 | LZ77 |
LZMA | |
LZSS | |
LZB | |
LZX | |
LZO | |
LZ78 | |
LZS | |
LZW | |
LZT | |
LZC | |
BPE | |
ソートに基づく手法 | |
ブロックソーティング(BWT) | |
Move To Front(MTF) | |
統計型 | |
MDL符号 | |
CTW符号 | |
PPM | |
PPMZ | |
PPMd | |
PPMc | |
文法型 | |
SERQUITUR | |
MPM(by Kieffer et al.) | |
量子化 | |
スカラー量子化 | |
ベクトル量子化 | |
サブサンプリング | |
インターレース | |
サンプリングファクタ | |
自己相関性を利用した圧縮 | |
差分予測符号化 (DPCM) | |
フレーム間予測 | |
フレーム内予測 | |
フラクタル符号化 |
アナログ帯域圧縮
代表的なものとして、TV放送に用いられるNTSC、PALなどのコンポジット映像信号がある。これは、映像信号を輝度成分と色成分に分離し、さらに インターレースと呼ばれる方式を用いて放送信号の伝送に必要な帯域が少なくなるように工夫されている。
また、電話においても多重化するために帯域圧縮を行っている。 電話は300Hz~3600Hz程度が伝われば良いので、その範囲以外をカットすると言う手法が使われている。
さらに昔、電話の交換機と交換機の間をPAM(パルス符号化)を使い0.125μsに分割した信号を多重化して送っていた。後にPAM方式からPCM方式へ変わり、事実上デジタル方式に変わっている。
デジタル圧縮
デジタル圧縮の歴史
デジタル符号化されたデータの圧縮の歴史は意外と古く、1830年代に発明されたモールス信号に用いられるモールス符号も圧縮符号の一種である。これは、文字通信の中で比較的出現頻度の高いアルファベットに短い符号を割り当て、出現頻度の低いものには長い符号を割り当てることで、通信に要する手間を省いている。
その後、コンピュータの発達とともに、デジタル通信やファイルの保存でデータ圧縮の重要性が高まったことで研究が進み、1970年代後半頃からはデータ圧縮の要素技術に関する重要な特許も出願されるようになった。特許については、近年でも、オーディオ圧縮で用いられる MP3 のライセンスの問題や、ホームページの画像で広く用いられている GIF 画像のライセンス問題など多くの紛争を発生させており、それだけデジタル時代の重要な基幹技術であることを示している。
1980年代に入ると音声通信分野のデジタル化の動きが始まり、音声圧縮の分野ではADPCMなど初期の比較的単純な圧縮方式が実用化された。また、パーソナルコンピュータやパソコン通信 (ただし、日本では通信自由化以降) が普及するようになり、フリーソフトウェアの分野からも ZIP や LHA といった現在も幅広く使用されているファイル圧縮方式も誕生した。
1990年代前半に入ると、音声圧縮や画像圧縮の分野で2005年現在でも広く知られている多くのデータ圧縮方式が発表された。音声 (オーディオ) の分野では、1992年に登場したミニディスク (MD)に搭載されている ATRAC などがある。また、画像の分野では JPEG 圧縮方式が国際標準規格として勧告され、広く普及した。これらの背景には、集積回路 (IC) の生産技術や設計技術の発達で大規模で高度な処理が行える IC が比較的安価な製品でも搭載可能になった点や、パーソナルコンピュータの急速な性能向上でソフトウェア的な画像処理が容易に行えるようになった点も大きい。
また、動画圧縮の分野でも、この頃、TV会議システム用の動画圧縮方式 (H.261) や ビデオCDの圧縮方式 (MPEG-1) も標準化されている。また、パーソナルコンピュータ向けに企業独自の圧縮方式を採用したコーデックも登場するようになった。しかし、動画圧縮の分野では音声圧縮や画像圧縮に比べてさらに高度な技術が要求されるため、まだしばらくの間、業務用や限定的な用途に限られていた。これとは別に、デジタル時代の重要な基幹技術である動画圧縮技術には特許の権益に絡む思惑もあり、この方面でも標準化までに長い時間を要した。
1990年代後半になると、動画圧縮の分野でも国際的な標準規格であるMPEG-2が標準化され、業務用分野から幅広く利用されるようになり、1990年代末頃には DVD プレーヤーとして家電製品にも採用されるようになった。
ファイル圧縮
ファイル圧縮では圧縮前の状態に完全に復元可能な可逆圧縮が用いられる。
ファイル圧縮は、PC分野では1980年代後半頃からパソコン通信の発達とともにLHAやZIPなどの圧縮方式が誕生した。2000年代ではZIPがオペレーティングシステムの垣根を越えて幅広く使われている。
- CAB (Cabinet archive) - Windowsが標準で利用できる圧縮形式
- GCA, DGCA (G Compression Archive) - テキストデータに強い国産圧縮形式
- LHA (Lemple - 純国産の圧縮形式。LZHとも
- RAR - マルチメディア系の圧縮が得意な形式
- StuffIt - Macintosh系列で利用される圧縮形式
- ZIP - 事実上、世界標準の圧縮形式
- 7z - 7-zipで扱うことの出来る多機能形式。オープンソース
- UNIX Compress - 初期のUNIXで標準で使われていた形式。特許権で問題があった
- gzip (GNU Zip) -
- bzip (bunzip) - 特許侵害のために配布が中止された高圧縮形式。算術圧縮使用
- bzip2 (bunzip ver.2) - 主にUNIXで使われるオープンソースの高圧縮形式
静止画像圧縮
代表的なものとしては、インターネットのホームページで広く用いられるJPEG、GIFがある。
- 画像圧縮の各方式については、画像圧縮のコーデックを参照。
画像では、非可逆圧縮による高能率圧縮を行うものと、劣化を生じさせない可逆圧縮を用いるものがある。
非可逆圧縮では、例えば、JPEGの場合、一定の画素数のブロックに分割したデータを DCT(Discrete Cosine Transform : 離散コサイン変換) と呼ばれる演算で処理して符号化を行う。
画像圧縮アルゴリズムの評価には、レナなどの画像サンプルが広く使われている。
音声圧縮
代表的なものとしては、MP3 がある。
- 音声圧縮の各方式については、音声圧縮のコーデックを参照。
音声圧縮では、人の聴覚の特性を利用して高能率の非可逆圧縮を行うものが広く用いられている。MP3では1/3-1/4 ぐらいの圧縮ではほぼ識別できない程度の品質を維持することが出来る。
例えば、CD (44.1kHz, 16bitサンプリング、2チャンネル) のレート約1.4Mbps に対して 128kbpsのステレオ音声の圧縮データは約1/11に圧縮されている。
一方で、まったく劣化を生じさせない可逆圧縮方式を用いたものも増えてきている。
動画圧縮
代表的なものとしては、DVDに用いられる MPEG-2、次世代携帯電話などに用いられるMPEG-4 がある。
- 動画圧縮の各方式については、動画圧縮のコーデックを参照。
動画では1秒あたり30コマ程度の静止画像に加えて音声データも入る、単純な静止画像圧縮と音声圧縮を用いただけでは大容量のデータとなる。そのため、動画特有の圧縮を行う。