画像認識に畳み込みニューラルネットワークを使用

11月 10, 2021
admin

この記事は、Cadence社のWebサイトに掲載されたものです。 979>

畳み込みニューラルネットワーク (CNN) は、他の手法と比較して多くの利点があるため、パターンおよび画像認識の問題で広く使用されています。 このホワイトペーパーでは、使用されるさまざまな層の説明を含む、CNNの基本をカバーしています。 交通標識認識を例にとり、一般的な問題の課題を論じ、標識認識率のわずかな低下に対して計算負荷とエネルギーをトレードオフできる、ケイデンス社が開発したアルゴリズムと実装ソフトウェアを紹介する。 CNNを組み込みシステムで使用する際の課題を概説し、Cadence® Tensilica® Vision P5 digital signal processor (DSP) for Imaging and Computer Visionとソフトウェアの主要な特徴として、多くのイメージングや関連認識タスクにおけるCNNアプリケーションに最適であることを紹介します。 接続には、学習プロセスで調整される数値の重みがあり、適切に学習されたネットワークは、認識すべき画像やパターンが提示されたときに正しく応答します。 ネットワークは、特徴を検出する「ニューロン」の複数の層で構成されている。 各層は、前の層からの入力の異なる組み合わせに反応する多くのニューロンを持つ。 図1に示すように、第1層は入力の原始的なパターンのセットを検出し、第2層はパターンのパターンを検出し、第3層はそれらのパターンのパターンを検出する、というように層が構築される。 典型的な CNN はパターン認識のために 5 から 25 の異なる層を使用する。

図 1: 人工ニューラルネットワーク

学習は、意図する出力応答がタグ付けされた、幅広い種類の代表的入力パターンの「ラベル付き」入力データセットを使って実行される。 学習は、汎用的な方法を用いて、中間および最終的な特徴ニューロンの重みを繰り返し決定する。 図2はブロックレベルでの学習プロセスを示している。

図2:ニューラルネットワークの学習

ニューラルネットワークは生物の神経系から着想を得たものである。 脳の基本的な計算単位はニューロンであり、それらはシナプスで接続されている。 図3は、生物学的なニューロンと基本的な数学モデルを比較したものである。

Figure 3: イラスト(上)とその数学モデル(下)

実際の動物の神経系において、ニューロンはその樹状突起から入力信号を受けて、軸に沿って出力信号が出ていると認識されています。 軸索は枝分かれし、シナプスを介して他のニューロンの樹状突起に接続する。 979>

ニューラルネットワークの計算モデルでは、軸索に沿って進む信号(たとえばx0)は、そのシナプスにおけるシナプス強度(たとえばw0)に基づいて、他のニューロンの樹状突起と乗数的に(たとえばw0x0)相互作用する。 シナプスの重みは学習可能であり、あるニューロンまたは別のニューロンの影響力を制御する。 樹状突起は信号をセル本体に伝え、そこで全ての信号が合計される。 最終的な和が指定された閾値を上回った場合、そのニューロンは発火し、スパイクをその軸索に沿って送信する。 計算機モデルでは、発火の正確なタイミングは重要ではなく、発火の頻度のみが情報を伝えると仮定している。 レートコードの解釈に基づいて、ニューロンの発火率は、軸索に沿ったスパイクの頻度を表す活性化関数ƒでモデル化される。 活性化関数の一般的な選択はシグモイドである。 要約すると、各ニューロンは入力と重みのドット積を計算し、バイアスを加え、トリガー関数として非線形性を適用する(たとえば、シグモイド応答関数に従う)

CNN は上記のニューラルネットの特殊なケースである。 CNNは1つ以上の畳み込み層、しばしばサブサンプリング層からなり、その後に標準的なニューラルネットワークと同様に1つ以上の完全連結層が続く。

CNNの設計は、脳の視覚機構、視覚野の発見が動機になっている。 視覚野には、受容野と呼ばれる視野の小さく重なり合った小領域で光を検出する役割を担う細胞が多く存在する。 これらの細胞は、入力空間に対する局所的なフィルタとして働き、より複雑な細胞はより大きな受容野を持つ。 CNNの畳み込み層は視覚野のセルが行う機能を実行する .

交通標識を認識するための典型的なCNNを図4に示す。 ある層の各特徴は局所受容野と呼ばれる前の層の小さな近傍に位置する特徴の集合から入力を受ける。

パターン/画像認識の伝統的なモデルでは、手作業で設計された特徴抽出器が入力から関連情報を集め、無関係な変量は除去する。 この抽出器には、学習可能な分類器、すなわち特徴ベクトルをクラスに分類する標準的なニューラルネットワークが続く。 しかし、それらは手作業で設計されたものではない。 コンボリューションフィルタのカーネルの重みは、学習プロセスの一部として決定される。 979>

図4:CNNの典型的なブロック図

CNNは画像やパターン認識、音声認識、自然言語処理、ビデオ解析など様々な分野で利用されている。 畳み込みニューラルネットワークが重要視されるようになった理由はいくつかある。 従来のパターン認識のモデルでは、特徴抽出器を手作業で設計していた。 CNNでは、特徴抽出に使われる畳み込み層と分類に使われる完全連結層の重みは、学習プロセスで決定される。 CNN の改良されたネットワーク構造は、メモリ要件と計算複雑度の要件の節約につながり、同時に、入力が局所的な相関を持つアプリケーション(たとえば、画像と音声)に対してより良い性能を与える。

CNN のトレーニングと評価のための計算資源の大きな要件は、グラフィック処理ユニット(GPU)、DSP、または CNN 計算の特異なパターンを実行する際に高いスループットと低エネルギーに最適化された他のシリコンアーキテクチャによって満たせる場合もある。 実際、Cadence 社の Tensilica Vision P5 DSP for Imaging and Computer Vision などの高度なプロセッサーは、CNN を高効率で実行するために必要な計算およびメモリ リソースをほぼ理想的に備えています。

パターンおよび画像認識アプリケーションでは、CNN を使用して最高の正解検出率 (CDR) が達成されてきました。 例えば、手書き数字のMNISTデータベースでは99.77%、3DオブジェクトのNORBデータセットでは97.47%、10以上のオブジェクトの5600画像では97.6%のCDRが達成された。 CNNは、他の検出アルゴリズムと比較して最高のパフォーマンスを発揮するだけでなく、犬の特定の品種や鳥の種のような細かいカテゴリにオブジェクトを分類するようなケースでは、人間よりも優れたパフォーマンスを発揮することさえある。 前処理段階は通常、入力の詳細、特にカメラシステムに依存し、ビジョンサブシステムの外部にあるハードウエア化されたユニットで実装されることが多い。 パイプラインの末端での意思決定は、通常、認識されたオブジェクトに対して行われます。複雑な決定を行うこともありますが、はるかに少ないデータで動作するため、これらの決定は通常、計算が難しく、メモリ集約的な問題ではありません。 979>

Figure 5: Vision algorithm pipeline

Layers of CNNs

CNN で複数の異なる層を重ねることにより、分類問題用の複雑なアーキテクチャが構築されます。 979>

コンボリューション層

コンボリューション操作は、入力の異なる特徴を抽出する。 最初の畳み込み層は、エッジ、線、角のような低レベルの特徴を抽出する。 より高いレベルの層はより高いレベルの特徴を抽出する。 図6はCNNで使われる3次元畳み込みの過程を示している。 入力はN×N×Dの大きさで、それぞれ
k×k×Dの大きさのH個のカーネルで別々に畳み込まれる。 入力を1つのカーネルで畳み込むと1つの出力特徴が得られ、H個のカーネルで畳み込むと独立にH個の特徴が得られる。 入力の左上から始めて、各カーネルを左から右へ1要素ずつ移動させる。 右上に到達したら、カーネルを下方向に1要素ずつ移動させ、再び左から右へ1要素ずつ移動させる。 この作業を
カーネルが右下隅に到達するまで繰り返す。 N=32、k=5の場合、カーネルが取れる位置は左から右へ28個、上から下へ28個である。 これらの位置に対応して、出力の各特徴は28×28(すなわち、(N-k+1)×(N-k+1))個の要素を含むことになる。 スライディングウィンドウ処理におけるカーネルの各位置に対して、入力のk×k×D要素とカーネルのk×k×D要素が要素ごとに乗算され累積される。 したがって、1つの出力特徴の1要素を作成するために、k×k×D回の乗算-積算操作が必要となる。

図6:畳み込み処理の図解

プーリング/サブサンプリング層

プーリング/サブサンプリング層は特徴の分解能を下げるものである。 これは、ノイズや歪みに対して特徴を強固にするものである。 プーリングには、最大プーリングと平均プーリングの2つの方法がある。 どちらの場合も、入力は重ならない2次元空間に分割される。 例えば、図4では、レイヤー2がプーリング層である。 各入力特徴は28×28であり、サイズ2×2の14×14の領域に分割される。 平均プーリングでは、領域内の4つの値の平均が計算される。 最大プーリングでは、4つの値の最大値が選択される。

図7はプーリング処理をさらに詳しく説明する。 入力は4×4のサイズである。 2×2サブサンプリングの場合、4×4画像はサイズ2×2の4つの非重複行列に分割される。 最大プーリングの場合、2×2 の行列の 4 つの値のうち最大値が出力となる。 平均プーリングの場合は、4つの値の平均が出力となる。 インデックスが (2,2) の出力では、平均化の結果は、最も近い整数に丸められた端数になることに注意してください。

図7:最大プーリングと平均プーリングの図解

非線形層

一般にニューラルネットワーク、特にCNNは、それぞれの隠れ層で起こりそうな特徴を明確に識別する信号を送るために非線形「トリガー」関数に依存している。 CNN は、この非線形トリガーを効率的に実装するために、整流線形ユニット (ReLU) や連続トリガー (非線形) 関数など、さまざまな特定の関数を使用することができます。 畳み込み層の受容野に影響を与えることなく、決定関数とネットワーク全体の非線形性を高めることができる。 CNNで用いられる他の非線形関数(例えば、双曲線正接、双曲線正接の絶対値、シグモイド)と比較して、ReLUの利点は、ネットワークの学習が何倍も速くなることである。 ReLU 機能は図 8 に示されており、矢印の上に伝達関数がプロットされています。

Figure 8: ReLU 機能の図解

Continuous trigger (Nonlinear) function

非線形層は各機能で要素毎に動作します。 連続トリガー関数は、双曲線タンジェント(図9)、双曲線タンジェントの絶対値(図10)、またはシグモイド(図11)である。 図12は、非線形性が要素ごとにどのように適用されるかを示している。

図9:双曲線正接関数のプロット

図10:双曲線正接関数絶対値のプロット

図11:図11:双曲線接関数(図9)のプロット シグモイド関数のプロット

図12:tanh処理の図解

Fully connected layers

完全連結層はCNNの最終層としてよく使われる。 これらの層は、数学的に前の層の特徴の重み付けを合計し、特定のターゲット出力結果を決定するための「材料」の正確な混合を示す。 完全連結層の場合、前の層のすべての特徴のすべての要素が、各出力特徴の各要素の計算に使用される。

図13は完全連結層Lを説明している。 L層Lは2つの特徴量を持ち、それぞれが1つの要素を持つ。

図13:完全連結層の処理

Why CNN?

ニューラルネットワークや他のパターン検出法は過去50年間存在してきたが、最近、畳み込みニューラルネットワーク分野で大きな発展があった。 このセクションでは、画像認識にCNNを使用する利点について説明します。

画像のずれや歪みに強い

CNNを使った検出は、カメラのレンズによる形の変化、異なる照明条件、異なるポーズ、部分的なオクルージョンの存在、水平・垂直方向のずれなどの歪みに強くなっている。 しかし、CNNは空間間で同じウェイト構成を用いるので、シフトに影響されない。 理論的には、完全連結層を用いてもシフト不変性を実現することができる。 しかし、この場合の学習の結果は、入力の異なる位置に同じウェイトパターンを持つユニットが複数存在することになる。 979>

Fewer memory requirements

この同じ仮説のケースで、特徴を抽出するために完全連結層を使用すると、サイズ32×32の入力画像と1000の特徴を持つ隠れ層は、106の係数のオーダーを必要とし、膨大なメモリ要件となる。 979>

Easier and better training

CNN に相当する標準的なニューラルネットワークを再び使用すると、パラメータ数がはるかに多くなるため、学習時間もそれに比例して長くなる。 CNNでは、パラメータ数が大幅に減るので、それに比例して学習時間も短縮される。 また、完全な学習を前提とすれば、CNNと同じ性能を持つ標準的なニューラルネットワークを設計することができる。 しかし、実際の訓練では、
CNNと同等の標準的なニューラルネットワークは、パラメータが多くなり、訓練過程でノイズが多く加わることになる。 したがって、CNNと等価な標準的なニューラルネットワークの性能は常に劣ることになる。

Recognition Algorithm for GTSRB Dataset

The German Traffic Sign Recognition Benchmark (GTSRB) is a multi-class, single image classification challenge held at the International Joint Conference on Neural Networks (IJCNN) 2011, with the requirements the following following requirements:

  • ドイツの道路標識を43クラスで51,840枚(図14、15)
  • 画像のサイズは15×15から222×193まで
  • 画像はクラスとトラックごとにグループ化し、トラックごとに最低30画像
  • 画像はカラー画像(RGB)、HOG特徴、Haar特徴、色ヒストグラム
  • 競技は分類アルゴリズムのみ
  • 競技は、分類アルゴリズムを対象とします。 フレーム内の注目領域を見つけるアルゴリズムは不要
  • テストシーケンスの時間情報は共有されていないので、分類アルゴリズムに時間次元は使えない

図14: GTSRB理想交通標識

図15: 障害のあるGTSRB交通標識

Cadence Algorithm for Traffic Sign Recognition in GTSRB Dataset

CadenceはGTSRBデータセットを用いて交通標識を認識するためにMATLABで様々なアルゴリズムを開発している. 正しい検出率は99.24%で、1つの標識に対してほぼ>5000万回の乗算加算を行う計算量は、図16の太い緑色の点で示されています。 ケイデンスは、当社独自の新しい階層型CNNアプローチを用いて、これよりはるかに優れた結果を達成しました。 このアルゴリズムでは、43の交通標識が5つのファミリーに分割されています。 合計で6つの小さなCNNを実装しています。 最初のCNNは受信した交通標識がどのファミリーに属するかを決定する。 標識のファミリーがわかると、検出されたファミリーに対応するCNN(残りの5つのうちの1つ)が実行され、そのファミリー内の交通標識を決定する。 このアルゴリズムを使用して、Cadence は 99.58% の正しい検出率を達成しました。これは、GTSRB でこれまでに達成した最高の CDR です。

性能と複雑さのトレードオフのためのアルゴリズム

組み込みアプリケーションにおける CNN の複雑さを制御するために、Cadence は固有値分解を用いて、学習済みの CNN をその正準次元まで削減する独自のアルゴリズムも開発しています。 このアルゴリズムを使用することで、性能を低下させることなく、あるいはCDRの減少を小さく制御しながら、CNNの複雑さを劇的に減少させることができた。 図16は達成された結果を示している。

図16:GTSRBデータセットにおける交通標識を検出するためのさまざまなCNN構成の性能対複雑さのプロット

図16の緑の点は、ベースライン構成である。 この構成は、参考文献1で提案された構成にかなり近い。 979>

  • 左から2番目の点は、1.03%のエラーレートに対して1フレームあたり147万MACを必要とする、すなわち、。 エラー率0.27%の増加に対して、MACの必要数は36.14倍に減少している。
  • 左端の点は、エラー率2.26%を達成するためにフレームあたり0.61MMACを必要とし、すなわち、MAC数は86.4倍に減少する。
  • 青色の点は単一レベルCNNであり、赤の点は階層的CNNの場合である。 8062>

CNNs in Embedded Systems

図5に示すように、ビジョンサブシステムでは、CNNに加えて多くの画像処理が必要である。 画像処理をサポートする電力制限のある組み込みシステムで CNN を実行するには、次の要件を満たす必要があります。

  • 高い計算性能を利用できること。
  • 大きなロード/ストア帯域幅:分類目的で使用される完全連結層の場合、各係数は乗算で1回だけ使用される。 したがって、ロードストア帯域幅の要件は、プロセッサによって実行されるMACの数よりも大きい。 システムはより少ない電力を消費する必要がある。 この問題に対処するためには、固定小数点実装が必要であり、これは、可能な限り最小の有限のビット数を使用して性能要件を満たすという要件を課す。
  • Flexibility: 8062>

組み込みシステムでは計算リソースが常に制約となるため、ユースケースで性能のわずかな低下が許容される場合、性能のわずかな低下を抑制する代償として、計算複雑度の大幅な削減を達成できるアルゴリズムがあると便利である。 したがって、前のセクションで説明したように、複雑さとパフォーマンスのトレードオフを実現するアルゴリズムに関するケイデンスの研究は、組み込みシステムでCNNを実装する際に大きな関連性を持ちます。

CNNs on Tensilica Processors

Tensilica Vision P5 DSPは画像およびコンピュータビジョン処理向けに特別に設計された高性能かつ低電力のDSPです。 このDSPは、SIMDをサポートするVLIWアーキテクチャを採用しています。 最大96ビットの命令語に5つの発行スロットを持ち、毎サイクル、メモリから最大1024ビットのワードをロードすることができます。 内部レジスタと演算ユニットは512ビットから1536ビットで、データは8b、16b、24b、32b、または48bピクセルデータの16、32、または64スライスとして表される。

DSPは、前のセクションで述べたように、組み込みシステムでCNNを実装するためのすべての課題に対応している。 画像信号処理を実装するための高度なサポートに加え、DSPはCNNの全ステージに対する命令サポートを備えている。 畳み込み演算では、符号付き/符号なしデータに対して8b×8b、8b×16b、16b×16bの演算をサポートする乗算/積和演算をサポートする非常に豊富な命令セットを備えています。 1サイクルで8b×16b、8b×8bの乗算/積算演算を最大64回、16b×16bの乗算/積算演算を最大32回実行することができます。 最大プーリングとReLU機能のために、DSPは1サイクルで64個の8ビット比較を行う命令を備えています。 tanhやsignumのような有限の範囲を持つ非線形関数を実装するために、1サイクルで64個の7ビット値のルックアップテーブルを実装する命令を持っています。 ほとんどの場合、比較とルックアップテーブルの命令は、乗算/積算命令と並行してスケジュールされ、余分なサイクルはかかりません。

  • 大きなロード/ストア帯域幅:DSPは、1サイクルあたり最大2つの512ビット・ロード/ストア動作を実行することができます。 DSPは固定小数点マシンである。 さまざまなデータ型を柔軟に扱えるため、16ビットと8ビットの混合計算の性能とエネルギーの利点を、精度の損失を最小限に抑えて実現できる。 DSPはプログラマブルなプロセッサであるため、ファームウェアのアップグレードを実行するだけで、システムを新しいバージョンにアップグレードすることができます。
  • フローティング・ポイント。
  • Vision P5 DSPは、アセンブリ言語を記述する必要なく、SIMDおよびVLIWアーキテクチャをサポートする自動ベクトル化とスケジューリングを備えた高性能C/C++コンパイラを含む、ソフトウェア・ツール一式と共に提供されています。 この包括的なツールセットには、リンカー、アセンブラ、デバッガー、プロファイラー、グラフィカルな視覚化ツールも含まれています。 包括的な命令セットシミュレータ(ISS)により、設計者は迅速にシミュレーションを行い、性能を評価することができます。 大規模なシステムや長いテスト ベクターを扱う場合、高速で機能的な TurboXim シミュレーター オプションは、ISS の 40 倍から 80 倍の速度を達成し、ソフトウェア開発と機能検証を効率的に行います。

    Cadenceは、ドイツの交通標識認識用のDSPに単一層アーキテクチャのCNNを実装しています。 このアーキテクチャでは、データサンプルに16ビット、係数に8ビットの量子化を全層で行い、99.403%のCDRを達成した。 2つの畳み込み層、3つの完全連結層、4つのReLU層、3つの最大プーリング層、1つのtanh非線形層を持っています。 ケイデンス社は、すべての最大プーリング層、tanh層、ReLU層のサイクルを含む完全なネットワークで、平均38.58MAC/サイクルの性能を達成しました。 ケイデンスは、tanhおよびReLU機能のサイクルを含む第3層で、1サイクルあたり58.43MACというベストケースの性能を達成しました。 600MHz で動作するこの DSP は、1 秒間に 850 以上の交通標識を処理できます。

    The Future of CNNs

    ニューラルネットワーク研究の有望分野の中に、長短期記憶 (LSTM) を使用する再帰神経ネットワーク (RNNs) があります。 これらの分野は、音声認識や手書き文字認識のような時系列認識タスクにおいて、現在の最先端技術を提供している。

    結論

    CNN はパターン/画像認識問題で最高のパフォーマンスを発揮し、特定のケースでは人間をも凌駕する。 ケイデンスは、独自のアルゴリズムとアーキテクチャを使用して CNN で業界最高の結果を達成しました。 GTSRBの交通標識を認識するために階層型CNNを開発し、このデータセットで過去最高の性能を達成しました。 また、性能と複雑さのトレードオフのために別のアルゴリズムを開発し、2%以下のCDRの劣化で86倍の複雑さの低減を達成することができました。 テンシリカの画像処理・コンピュータビジョン用DSP「Tensilica Vision P5」は、画像信号処理に必要な機能に加え、CNNを実装するために必要な機能をすべて備えています。 このDSPを600MHzで動作させると、850以上の交通標識を認識することができます。 ケイデンス社のテンシリカ・ビジョンP5 DSPは、CNNを実行するのにほぼ理想的な機能を備えています。

    “Artificial Neural Network”. ウィキペディア https://en.wikipedia.org/wiki/Artificial_neural_network

    Karpathy, Andrej. 2015. “ニューラルネットワーク その1:アーキテクチャのセットアップ” CS231n Convolutional Neural Networks for Visual Recognition, Stanford Universityのノート。 http://cs231n.github.io/neural-networks-1/

    “コンボリューショナル・ニューラル・ネットワーク”. ウィキペディア https://en.wikipedia.org/wiki/Convolutional_neural_network

    Sermanet, Pierre, and Yann LeCun. 2011. “マルチスケールネットワークによる交通標識認識”. ニューヨーク大学クーラント数理科学研究所。 http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=6033589

    Ciresan, Dan, Ueli Meier, and Jürgen Schmidhuber. 2012. “画像分類のためのマルチカラム・ディープニューラルネットワーク” 2012 IEEE Conference on Computer Vision and Pattern Recognition (New York, NY: Institute of Electrical and Electronics Engineers (IEEE))。 http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=6248110

    Ciresan, Dan, Ueli Meier, Jonathan Masci, Luca M. Gambardella, and Jurgen Schmidhuber. 2011. “画像分類のための柔軟で高性能な畳み込みニューラルネットワーク”. Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Two: 1237-1242. 2013年11月17日取得。 http://people.idsia.ch/~juergen/ijcai2011.pdf

    Lawrence, Steve, C. Lee Giles, Ah Chung Tsoi, and Andrew D. Back.(ローレンス、スティーブ、C.リー・ジャイルズ、アー・チュン・ツォイ、アンドリュー・D・バック)。 1997. 「顔認識。 畳み込みニューラルネットワークのアプローチ”. IEEE Transactions on Neural Networks, Volume 8; Issue 1. http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=554195

    Russakovsky, O.ら. 2014. “ImageNet Large Scale Visual Recognition Challenge”. インターナショナル・ジャーナル・オブ・コンピュータ・ビジョン. http://link.springer.com/article/10.1007/s11263-015-0816-y#

    Ovtcharov, Kalin, Olatunji Ruwarse, Joo-Young Kim et al. 2015.2.22. “特殊なハードウェアを用いたディープコンボリューショナルネットワークの高速化”. マイクロソフトリサーチ。 http://research-srv.microsoft.com/pubs/240715/CNN%20Whitepaper.pdf

    Stallkamp, J., M. Schlipsing, J. Salmen, and C. Igel. “Man Vs. Computer: Benchmarking Machine Learning Algorithms For Traffic Sign Application”. IJCNN 2011. http://www.sciencedirect.com/science/article/pii/S0893608012000457

    Hochreiter, Sepp, and Jürgen Schmidhuber. 1997. “長短期記憶” Neural Computation, 9(8):1735-1780. ftp://ftp.idsia.ch/pub/juergen/lstm.pdf

    Graves, Alex. 2014. “Generating Sequences With Recurrent Neural Networks”(リカレントニューラルネットワークによるシーケンスの生成)。 http://arxiv.org/abs/1308.0850

    Schmidhuber, Jurgen. 2015. “リカレント・ニューラル・ネットワーク” http://people.idsia.ch/~juergen/rnn.html

    Olshausen, Bruno A., and David J. Field. 1996. “自然画像に対するスパースコードの学習による単純細胞受容野の特性の出現” ネイチャー381.6583: 607-609。 http://www.nature.com/nature/journal/v381/n6583/abs/381607a0.html

    Hinton, G. E. and Salakhutdinov, R. R.2006.(英語)。 “ニューラルネットワークによるデータの次元の削減” サイエンス vol.313 no.5786 pp. 504-507. http://www.sciencemag.org/content/suppl/2006/08/04/313.5786.504.DC1.

    Hinton, Geoffrey E. 2009. “ディープ・ビリーフ・ネットワーク” Scholarpedia, 4(5):5947.
    http://www.scholarpedia.org/article/Deep_belief_networks

    コメントを残す

    メールアドレスが公開されることはありません。