あなたの母国語でこのチートシートを見たいですか? GitHubで翻訳するのを手伝ってくれます!,br>
畳み込みニューラルネットワーク
リカレントニューラルネットワーク
ヒントとトリック
Afshine AmidiとShervine Amidiによる
概要
従来のCNNのアーキテクチャCnnとも呼ばれる畳み込みニューラルネットワークは、一般的に以下の層で構成される特定のタイプのニューラルネットワークである。
畳み込み層とプーリング層は、次のセクションで説明するハイパーパラメータに関して微調整することができます。,
層の種類
畳み込み層(CONV)畳み込み層(CONV)は、その次元に対して入力$I$をスキャンしているときに畳み込み演算を実行するフィルタを使用します。 そのハイパーパラメータには、フィルタサイズ$F$とstride$S$が含まれます。 結果の出力$O$は、機能マップまたは活性化マップと呼ばれます。
備考:畳み込みステップは1Dおよび3Dの場合にも一般化することができます。,
プーリング(プール)プーリング層(プール)は、通常、いくつかの空間不変性を行う畳み込み層の後に適用されるダウンサンプリング操作です。 特に、最大プーリングと平均プーリングは、それぞれ最大値と平均値が取られる特別な種類のプーリングです。,ionは、現在のビューの最大値を選択します
各プーリング操作は、現在のビューの値を平均します |
図 |
|
|
|
•検出されたフィーチャを保持します
•最も一般的に使用される
•ダウンサンプルフィーチャマップ •lenetで使用される |
完全接続(fc)完全接続レイヤー(fc)は、各入力がすべてのニューロンに接続されている平, 存在する場合、FC層は通常、CNNアーキテクチャの終わりに向かって見つかり、クラススコアなどの目的を最適化するために使用できます。
フィルターハイパーパラメーター
畳み込み層には、ハイパーパラメーターの背後にある意味を知ることが重要なフィルターが含まれています。,
フィルタの次元$C$チャンネルを含む入力に適用されるサイズ$F\times F$のフィルタは、サイズ$I\times I\times C$の入力に畳み込みを実行し、サイズ$O\times O\times1$の出力フィーチャマップ(アクティベーションマップとも呼ばれる)を生成する$F\times F\times C$ボリュームです。
備考:サイズ$F\times F$の$K$フィルタを適用すると、サイズ$O\times O\times K$の出力フィーチャマップが得られます。,
ストライド畳み込みまたはプーリング操作の場合、ストライド$S$は、各操作の後にウィンドウが移動するピクセル数を示します。
ゼロパディングゼロパディングは、入力の境界の両側に$P$ゼロを追加するプロセスを示します。,以下のled:
チューニングハイパーパラメータ
畳み込み層におけるパラメータの互換性$I$入力ボリュームサイズの長さ、$F$フィルタの長さ、$P$ゼロパディングの量、$S$ストライド、その次元に沿ったフィーチャマップの出力サイズ$O$は次のように与えられます。
\
モデルの複雑さを理解するモデルの複雑さを評価するには、アーキテクチャが持つパラメータの数を決定することがしばしば有用です。, 以下の例では、$F_1=F_2=3$と$S_1=S_2=1$となり、$R_2=1+2\cdot1+2\cdot1=5$となります。
一般的に使用されるアクティベーション関数
整流リニアユニットレイヤー(ReLU)は、ボリュームのすべての要素で使用されるアクティベーション関数$g$です。 ネットワークに非線形性を導入することを目的としています。, その変形は以下の表に要約されています:
Softmax softmaxステップは、スコア$x\in\mathbb{R}^n$のベクトルを入力として取り、出力確率$p\in\mathbb{R}^n$のベクトルをアーキテクチャの終わりにsoftmax関数を通して出力する一般化ロジスティック関数と見ることができます。 それは次のように定義されています:
\
オブジェクト検出
モデルのタイプオブジェクト認識アルゴリズムには3つの主要なタイプがあり、予測されるものの性質が異なります。, They are described in the table below:
Image classification |
Classification w., オブジェクトの確率を予測し、それが位置している |
•画像内のいくつかのオブジェクトまで検出します |
伝統的なCNN |
簡略化YOLO、R-CNN |
YOLO、R-CNN |
検出オブジェクト検出のコンテキストでは、オブジェクトの位置を特定するか、画像内のより複雑な形状を検出するかに応じて、さまざまな方法が使用されます。, P>
ユニオン上の交差点ユニオン上の交差点は、$textrm{IoU}$としても知られており、予測された境界ボックス$B_p$が実際の境界ボックス$B_a$よりもどれくらい正しく配置されているかを定量化する関数です。 これは次のように定義されています。
\
アンカーボックスアンカーボクシングは、重複する境界ボックスを予測するために使用される技術です。, 実際には、ネットワークは複数のボックスを同時に予測することができ、各ボックス予測は所与の幾何学的特性のセットを有するように制約される。 例えば、第一の予測は、潜在的に所与の形態の長方形の箱であり得るが、第二の予測は、異なる幾何学的形態の別の長方形の箱であり得る。
Non-max suppression non-max suppressionテクニックは、最も代表的なものを選択することによって、同じオブジェクトの重複する境界ボックスを削除することを目的としています。 確率予測が0より低いすべてのボックスを削除した後。,6、残っているボックスがある間、次のステップが繰り返されます:
特定のクラスのために、
•ステップ1:最大の予測確率を持つボックスを選択します。*ステップ2:前のボックスと$\textrm{IoU}\geqslant0.5$を持つボックスを破棄します。
yolo You Only Look Once(YOLO)は、次の手順を実行するオブジェクト検出アルゴリズムです。
•ステップ1:入力画像を$G\times G$グリッドに分割します。,*ステップ2:各グリッドセルについて、次の形式の$y$を予測するCNNを実行します。
\^T\in\mathbb{R}^{G\times G\times k\times(5+p)}}\]
ここで、$p_c$はオブジェクトを検出する確率、$b_x、b_y、b_h、b_w$は検出されたボーディングボックス$c_1、のプロパティです。..、c_p$は$p$クラスのどれが検出されたかの一つのホット表現であり、$k$はアンカーボックスの数です。*ステップ3:非max抑制アルゴリズムを実行して、重複する可能性のあるバウンディングボックスを削除します。,
畳み込みニューラルネットワークを備えたR-CNN領域(R-CNN)は、最初に画像をセグメント化して関連する可能性のあるバウンディングボックスを見つけ、次に検出アルゴリズムを実行してそれらのバウンディングボックス内の最も可能性の高いオブジェクトを見つけるオブジェクト検出アルゴリズムです。,
備考:元のアルゴリズムは計算コストがかかり、遅いですが、新しいアーキテクチャでは、高速R-CNNや高速R-CNNなどのアルゴリズムをより高速に実行できるようになりました。
顔検証と認識
モデルの種類モデルの二つの主要なタイプは、以下の表に要約されています:
顔検証 |
顔認識 |
•これは正しい人ですか?, •一対一ルックアップ |
•これはデータベース内の$K$人の一つですか? •一対多ルックアップ |
|
|
ワンショットラーニングワンショットラーニングは、与えられた二つの画像がどのように異なるかを定量化する類似関数を学習するために、限られた 二つの画像に適用される類似関数は、しばしば$d(\textrm{image1}、\textrm{image2})に注意されます。,$
\
ニューラルスタイル転送
モチベーションニューラルスタイル転送の目標は、与えられたコンテンツ$c$と与えられたスタイル$s$に基づいて画像$g$を生成することです。,
アクティベーション与えられたレイヤー$l$では、アクティベーションは$a^{}$に注目され、次元$n_H\times n_w\times n_c$
\(C)}-a^{(g)}||^2}\]
\}=\sum_{i=1}^{n_H^{}}\sum_{j=1}^{n_w^{}}a_{ijk}^{}a_{ijk}^{}a_{ijk}^{}a_{ijk}^{}a_{ijk}^{}a_{ijk}^{}a_{ijk}^{}a_{ijk}^{}”}^{}}\]備考:スタイル画像と生成された画像のスタイル行列は、それぞれ$G^{(S)}$と$G^{(G)}$と書かれています。,
\}(S,G)=\frac{1}{(2n_Hn_wn_c)^2}||G^{(S)}-G^{(G)}||_F^2=\frac{1}{(2n_Hn_wn_c)^2}\sum_{k,k”=1}^{n_c}\Big(G_{kk”}^{(S)}-G_{kk”}^{(G)}\Big)^2}\]div
全体的なコスト関数全体的なコスト関数は、コンテンツとスタイルのコスト関数の組み合わせであると定義され、パラメータ$\alpha、\beta$で重み付けされます。
\
備考:$\alpha$の値が大きいほど、モデルはコンテンツについてより気になり、$\beta$の値が大きいほどスタイルについてより気になります。,
計算トリックを使用したアーキテクチャ
生成的敵対ネットワーク生成的敵対ネットワークは、GANsとしても知られている生成的敵対ネットワークは、生成的および差別的モデルで構成され、生成されたイメージと真のイメージを区別することを目的とする差別的モデルに供給される最も真実な出力を生成することを目的とする。
備考:Ganのバリアントを使用するユースケースには、テキストから画像、音楽の生成、合成が含まれます。,
ResNet残差ネットワークアーキテクチャ(ResNetとも呼ばれます)は、学習誤差を減らすための層の数が多い残差ブロックを使用します。 残差ブロックは、次の特徴付け式を有する:
\}=g(a^{}+z^{})}\]
インセプションネットワークこのアーキテクチャは、インセプションモジュールを使用し、機能の多様化を通じてそのパフォーマンスを向上させるために、異なる畳み込みで試してみることを目的としています。 特に、計算負荷を制限するために$1\times1$畳み込みトリックを使用します。