電子書籍リンク:デジタル画像処理(中)第3版 (1).pdf 学習対象章:1、2、4、6.1-6.2、8。第8章はJPEGコーデックの詳細説明と併用して理解すると良い。コーデックの基本的な処理フローを把握する。
まずPythonに十分な理解が必要。選択肢として電子書籍:Pythonプログラミング:入門から実践まで.pdf PyTorchの学習には、B站の関連講座:李沐のAI学習チャンネル - 動きながら学ぶディープラーニング PyTorch版 - ビリビリ動画 (bilibili.com) を活用。特に00~29.2、31、33~37、47、47.2を重点的に学習する。
論文とコード(CompressAI)を組み合わせて、独自のモデルを訓練し、RD曲線を描画してみよう。
一般的なトレーニング・検証データセット:ImageNet/COCO 一般的なテストデータセット:24枚のKodak画像。元画像の端部に異常があるため、時折正方形に切り取られた画像を使用することもある。
Ballé, J., et al. (2015). "Density modeling of images using a generalized normalization transformation." arXiv preprint arXiv:1511.06281.
AI コーデックでよく使われる活性化層GDN。関連コード:CompressAI/compressai/layers/gdn.py at master · InterDigitalInc/CompressAI (github.com)
Ballé, J., et al. (2016). "End-to-end optimized image compression." arXiv preprint arXiv:1611.01704.
AI コーデックの基本構造を紹介。JPEGコーデックと比較しながら学習すると効果的。変換、量子化、エントロピー符号化といった共通プロセスを理解し、RD損失関数の仕組みを習得する。関連コード:CompressAI/compressai/models/google.py at a4ae2eeef7bdb1b84ba076ac0d650b523f3fa882 · InterDigitalInc/CompressAI · GitHub
Ballé, J., et al. (2018). "Variational image compression with a scale hyperprior." arXiv preprint arXiv:1802.01436.
基本構造に超先験(hyper)を追加。関連コード:CompressAI/compressai/models/google.py at a4ae2eeef7bdb1b84ba076ac0d650b523f3fa882 · InterDigitalInc/CompressAI · GitHub
Minnen, D., et al. (2018). "Joint autoregressive and hierarchical priors for learned image compression." Advances in neural information processing systems.
自回帰(autoregressive)と超先験の統合。関連コード:CompressAI/compressai/models/google.py at a4ae2eeef7bdb1b84ba076ac0d650b523f3fa882 · InterDigitalInc/CompressAI · GitHub
注:CompressAIはLinux環境ではpipで直接インストール可能だが、Windows用パッケージは提供されていない。以下の手順に従ってインストールする:
pip install .を実行する。