トロント大学がILSVRCコンテストで優勝した際の畳み込みニューラルネットワークに関する論文

「ImageNet classification with deep convolutional neural networks」の画像検索結果
Figure 1. 本論文で提唱しているアーキテクチャ [1]
(論文[1]のFigure 2より引用)

トロント大学の研究チームが2012年度のILSVRC(Image Net Large Scale Visual Recognition Challenge)コンテストで圧倒的に低いエラー率を達成して優勝した際の畳み込みニューラルネットワークに関する論文です。2010年度のコンテストの120万の高解像度画像を1000の異なるクラスに分類するために、大規模で深い畳み込みニューラルネットワークをトレーニングし、テストデータでは、トップ1およびトップ5のエラー率が37.5%と17.0%を達成した、と論文内で報告しています。

論文で提案しているアーキテクチャーは6,000万のパラメーターと650,000のニューロンを持つニューラルネットワークは、5つの畳み込み層で構成され、そのうちのいくつかは最大プール層、最後の1000ウェイソフトマックスを持つ3つの完全に接続された層が続きます。トレーニングを高速化するために、非飽和ニューロンと畳み込み演算の非常に効率的なGPU実装を使用しています。
完全に接続された層の過剰適合を減らすために、非常に効果的であることが証明された「ドロップアウト」と呼ばれる最近開発された正則化方法を採用したそうです。このドロップアウトという手法は、論文中に記載されているように確率0.5で各隠れニューロンの出力をゼロに設定することで構成されているそうです。

結果、ILSVRCの2012年度コンテストでこのモデルのバリアントを入力し、2位のエントリで達成された26.2%と比較して、15.3%のトップ5テストエラー率を達成したと報告しています。本手法の特徴は、特徴量抽出も機械学習で行なった点であり、近年のDeep Learningの盛り上がりのきっかけを作ったと言っても良い論文です。

[1] : Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).

URL : https://dl.acm.org/doi/10.5555/2999134.2999257