数字認識に使用される畳み込みニューラルネットワークであるLeNet-5アーキテクチャ

「Gradient based learning applied」の画像検索結果
Figure 1. 数字認識に使用される、畳み込みNNであるLeNet-5のアーキテクチャ [1]
(論文[1]のFigure 2より引用)

誤差逆伝播法アルゴリズムでトレーニングされた多層ニューラルネットワークは、勾配ベースの学習手法の成功例です。適切なネットワークアーキテクチャがあれば、勾配ベースの学習アルゴリズムを使用することで、最小限の前処理で手書き文字などの高次元パターンを分類できます。

AT&Tベル研究所の研究チームは、手書き文字認識に適用されるさまざまな方法をレビューし、標準の手書き数字認識タスクでそれらを比較しています。畳み込みニューラルネットワークは、2次元(2-D)形状の変動に対処するように特別に設計されており、他のすべての手法よりも優れていることが示されています。

実際のドキュメント認識システムは、フィールド抽出、セグメンテーション、認識、言語モデリングなどの複数のモジュールで構成されています。グラフ変換ネットワーク(GTN)と呼ばれる新しい学習パラダイムにより、勾配ベースの手法を使用してグローバルトレーニングし、全体的なパフォーマンス測定を最小限に抑えることができます。

オンライン手書き認識について説明もしており、実験では、グローバルトレーニングの利点と、グラフ変換ネットワークの柔軟性が実証されています。
また、銀行小切手を読み取るためのグラフ変換ネットワークについても説明しており、畳み込みニューラルネットワークの文字認識機能とグローバルトレーニングテクニックを組み合わせて使用​​し、商業的に展開することで、1日あたり数百万の小切手を読み取ることが可能だそうです。

[1] : LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE86(11), 2278-2324.

URL : https://ieeexplore.ieee.org/document/726791