データ圧縮(データあっしゅく)とは、ある
データをそのデータの実質的な性質を保ったまま、データ量を減らした別のデータに変換すること。高効率
符号化ともいい、
情報理論においては
情報源符号化と呼ばれている。
主な目的は、データ転送における
トラフィックやデータ蓄積に必要な記憶容量の削減といった、資源の節約である。なお、
アナログ技術を用いた
通信技術においては通信路の
帯域幅を削減する効果を得るための圧縮ということで
帯域圧縮ともいわれた。
データ圧縮には大きく分けて
可逆圧縮と
非可逆圧縮がある。また、
バイナリデータを対象としたデータ圧縮方式の中には、複数のファイルを1つにまとめて扱えるようにする
アーカイブ機能を兼ね備えるものもある。
主な圧縮アルゴリズム
- 非ユニバーサル符号
-
整数の符号化
- 最小冗長符号あるいはエントロピー符号
- ユニバーサル符号
- 再帰時間符号化法
- 辞書式
- ソートに基づく手法
- 統計型
- 文法型
- SERQUITUR
- MPM(by Kieffer et al.)
- 量子化
- サブサンプリング
-
自己相関性を利用した圧縮
- 差分予測符号化 (DPCM)
- フレーム間予測
- フレーム内予測
- フラクタル符号化(フラクタル圧縮)
アナログ帯域圧縮
また、電話においても多重化するために帯域圧縮を行っている。電話は300
Hz - 3600 Hz程度が伝われば良いので、その範囲以外をカットする手法が使われている。
さらに昔、電話の交換機と交換機の間を
PAM(パルス振幅変調)方式を使い0.125μsに分割した信号を
多重化して送っていた。後にPAM方式から
PCM(パルス符号変調)方式へ変わり、事実上
デジタル方式に変わっている。
デジタル圧縮
デジタル圧縮の歴史
デジタル符号化されたデータの圧縮の歴史は意外と古く、
1830年代に発明された
モールス信号に用いられるモールス符号も圧縮符号の一種である。これは、文字通信の中で比較的出現頻度の高いアルファベットに短い符号を割り当て、出現頻度の低いものには長い符号を割り当てることで、
通信に要する手間を省いている。(しかし日本語のモールス符号はそうなっていない。モールス信号の項目を参照)
その後、
コンピュータの発達とともに、デジタル通信やファイルの保存でデータ圧縮の重要性が高まったことで研究が進み、
1970年代後半頃からはデータ圧縮の要素技術に関する重要な
特許も出願されるようになった。特許については、近年でも、オーディオ圧縮で用いられる
MP3のライセンスの問題や、
ウェブサイトの画像で広く用いられている
GIF画像のライセンス問題など多くの紛争を発生させており、それだけデジタル時代の重要な基幹技術であることを示している。
1990年代前半に入ると、音声圧縮や画像圧縮の分野で
2005年現在でも広く知られている多くのデータ圧縮方式が発表された。音声(
オーディオ)の分野では、
1992年に登場した
ミニディスク (MD) に搭載されている
ATRACなどがある。また、画像の分野ではJPEG圧縮方式が国際標準規格として勧告され、広く普及した。これらの背景には、
集積回路 (IC) の生産技術や設計技術の発達で大規模で高度な処理が行えるICが比較的安価な製品でも搭載可能になった点や、
パーソナルコンピュータの急速な性能向上でソフトウェア的な画像処理が容易に行えるようになった点も大きい。
また、動画圧縮の分野でも、この頃、
TV会議システム用の動画圧縮方式 (
H.261) や
ビデオCDの圧縮方式 (
MPEG-1) も標準化されている。また、
パーソナルコンピュータ向けに企業独自の圧縮方式を採用した
コーデックも登場するようになった。しかし、動画圧縮の分野では音声圧縮や画像圧縮に比べてさらに高度な技術が要求されるため、まだしばらくの間、業務用や限定的な用途に限られていた。これとは別に、デジタル時代の重要な基幹技術である動画圧縮技術には特許の権益に絡む思惑もあり、この方面でも標準化までに長い時間を要した。
ファイル圧縮
ファイル圧縮では圧縮前の状態に完全に復元可能な可逆圧縮が用いられる。
-
CAB (Cabinet archive)
- Windowsが標準で利用できる圧縮形式
-
GCA, DGCA (G Compression Archive)
- テキストデータに強い日本産圧縮形式
-
LHA (Lempel-Ziv & Huffman Archive か?)
- 純日本産の圧縮形式。LZHとも
-
RAR
- マルチメディア系の圧縮が得意な形式
-
StuffIt
-
Macintosh系列で利用される圧縮形式
-
Compact Pro
-
Macintosh系列で利用された圧縮形式。開発は終了している。
-
ZIP
- 事実上、世界標準の圧縮形式。
-
7z
-
7-zipで扱うことの出来る多機能形式。オープンソース
- pack
- UNIXの初期からある形式。今ではほとんど使われず、compressに取って代わられている。
-
compress
- packの置き換えとして商用UNIXで標準で使われている形式。
- gzip (GNU Zip)
- 商用UNIXに標準のcompressには特許の問題があり、フリーのUNIX用にcompressの代用品として開発された。
- bzip (bunzip)
- 特許侵害のために配布が中止された高圧縮形式。算術符号使用
- bzip2 (bunzip ver.2)
- 主にUNIXで使われるオープンソースの高圧縮形式
静止画像圧縮
代表的なものとしては、
インターネットの
ウェブサイトで広く用いられるJPEG、GIFがある。非可逆圧縮による高能率圧縮を行うものと、劣化を生じさせない可逆圧縮を用いるものがある。
例えば、非可逆圧縮形式のJPEGの場合、一定の画素数のブロックに分割したデータを
離散コサイン変換 (Discrete Cosine Transform, DCT) と呼ばれる演算で処理して符号化を行う。
画像圧縮アルゴリズムの評価には、
レナなどの画像サンプルが広く使われている。
音声圧縮
音声圧縮では、人の
聴覚の特性を利用して高能率の非可逆圧縮を行うものが広く用いられている。非可逆圧縮の代表的な方式として
MP3がある。
CDの音声データ (1411.2k
bps: 44.1kHz, 16bit, 2ch) を128kbpsのMP3形式に圧縮した場合、圧縮率は約1/11となる。MP3では1/3-1/4ぐらいの圧縮率で原音との差がほぼ識別できない程度の品質を維持することが出来ると言われている。
動画圧縮
動画では1秒あたり30コマ程度の静止画像に加えて音声データも入る、単純な静止画像圧縮と音声圧縮だけではデータ量が膨大となるため、以下のような動画特有の圧縮を行う場合がある。
関連項目
*