par Afshine Amidi et Shervine Amidi
aperçu
Architecture D’un CNN traditionnel les réseaux de neurones convolutionnels, également connus sous le nom de CNN, sont un type spécifique de réseaux de neurones qui sont généralement »f4eafe5c3c »>
La couche de convolution et la couche de regroupement peuvent être affinées par rapport aux hyperparamètres décrits dans les sections suivantes.,
Types de couche
couche de Convolution (CONV) la couche de convolution (CONV) utilise des filtres qui effectuent des opérations de convolution pendant qu’elle analyse l’entrée I I $par rapport à ses dimensions. Ses hyperparamètres incluent la taille du filtre F F$ et la foulée $S.. La sortie résultante O O.est appelée feature map ou activation map.
Remarque: le produit de convolution étape peut être généralisée à la 1D et 3D cas ainsi.,
Pooling (POOL) la couche de pooling (POOL) est une opération de sous-échantillonnage, généralement appliquée après une couche de convolution, qui fait une certaine invariance spatiale. En particulier, la mise en commun maximale et moyenne sont des types spéciaux de mise en commun où la valeur maximale et moyenne est prise, respectivement.,ion sélectionne la valeur maximale de la vue actuelle
• Plus couramment utilisés
• Utilisé dans LeNet
Entièrement Connecté (FC) entièrement connecté couche (FC) fonctionne sur une stagnation de l’entrée où chaque entrée est connecté à tous les neurones., Si elles sont présentes, les couches FC sont généralement trouvées vers la fin des architectures CNN et peuvent être utilisées pour optimiser les objectifs tels que les scores de classe.
Filtre hyperparameters
Le produit de convolution de la couche contient des filtres pour laquelle il est important de connaître la signification derrière son hyperparameters.,
Dimensions d’un filtre Un filtre de taille $F\times F$ appliqué à une entrée contenant $C$ canaux est un $F \times F \times C$ volume qui effectue des circonvolutions sur une entrée de taille $I \times I \times C$ et le produit d’une fonction de sortie de la carte (également appelé activation de la carte) de taille $O \times O \times 1$.
Remarque: l’application de $K$ filtres de taille $F\times F$ résultats dans une fonction de sortie de la carte de taille $O \times O \times K$.,
foulée pour une opération convolutive ou de mise en commun, la foulée denotes S denotes désigne le nombre de pixels par lesquels la fenêtre se déplace après chaque opération.
Zero-padding Zéro-padding désigne le processus d’ajout de $P$ zéros de chaque côté des frontières de l’entrée.,led ci-dessous:
Tuning hyperparameters
Paramètre de compatibilité dans la convolution de la couche En notant $I$ la longueur de l’entrée de taille de volume, $F$ la longueur du filtre, $P$ le montant de zéro de remplissage, $S$ la foulée, puis la taille de sortie $O$ de la fonctionnalité de la carte le long de cette dimension est donnée par:
la Compréhension de la complexité du modèle afin d’évaluer la complexité d’un modèle, il est souvent utile pour déterminer le nombre de paramètres que son architecture aura., Dans une couche donnée d’un réseau de neurones à convolution, il se fait comme suit:
Dans l’exemple ci-dessous, nous avons $F_1 = F_2 = 3$ et $S_1 = S_2 = 1$, ce qui donne $R_2 = 1 + 2\cdot 1 + 2\cdot 1 = 5$.
Couramment utilisé des fonctions d’activation
Rectifier Unité Linéaire rectifié unité linéaire de la couche (ReLU) est une activation de la fonction $g$ qui est utilisé sur tous les éléments du volume. Il vise à introduire des non-linéarités dans le réseau., Ses variantes sont résumées dans le tableau ci-dessous:
Softmax L’étape softmax peut être vue comme une fonction logistique généralisée qui prend en entrée un vecteur de scores $x\in\mathbb{R}^n n et produit un vecteur de probabilité de sortie p p\in\mathbb{R}^n through via une fonction softmax à la fin de l’architecture. Il est défini comme suit:
détection D’objet
types de modèles il existe 3 principaux types d’algorithmes de reconnaissance d’objet, pour lesquels la nature de ce qui est prédit est différente., They are described in the table below:
Image classification | Classification w., | • détecte un objet dans une image • prédit la probabilité de l’objet et où il se trouve |
• détecte jusqu’à plusieurs objets dans une image • prédit les probabilités des objets et où ils se trouvent |
CNN traditionnel | Yolo simplifié, R-CNN | YOLO, R-CNN |
détection dans le contexte de la détection d’objet, différentes méthodes sont utilisées selon que nous voulons simplement localiser l’objet ou détecter une forme plus complexe dans l’image., Les deux principales sont résumées dans le tableau ci-dessous:
Intersection sur l’Union Intersection sur l’Union, également connu en tant que $\textrm{reconnaissance de dette}$ est une fonction qui permet de quantifier comment correctement positionné, selon les prévisions de la boîte englobante $B_p$ est au niveau de la boîte englobante $B_a$. Il est défini comme suit:
d’Ancrage des boîtes d’Ancrage de la boxe est une technique utilisée pour prédire le chevauchement des boîtes englobantes., En pratique, le réseau est autorisé à prédire plus d’une boîte simultanément, chaque prédiction de boîte étant contrainte d’avoir un ensemble donné de propriétés géométriques. Par exemple, la première prédiction peut potentiellement être une zone rectangulaire d’une forme donnée, tandis que le second sera une autre boîte rectangulaire d’une autre forme géométrique.
suppression Non-max la technique de suppression non-max vise à supprimer les boîtes de délimitation superposées en double d’un même objet en sélectionnant les plus représentatives. Après avoir supprimé toutes les cases ayant une prédiction de probabilité inférieure à 0.,6, les étapes suivantes sont répétées alors qu’il reste des cases:
pour une classe donnée,
• Étape 1: Choisissez la case avec la plus grande probabilité de prédiction.
• Étape 2: jetez toute boîte ayant un box\textrm{IoU} \ geqslant0.5 with avec la boîte précédente.
YOLO vous ne regardez Qu’une seule fois (YOLO) est un algorithme de détection d’objet qui effectue les étapes suivantes:
• Étape 1: divisez l’image d’entrée g grid grille.,
• Étape 2: Pour chaque cellule de la grille, exécuter un CNN qui prédit $y$ de la forme suivante:
où $p_c$ est la probabilité de détecter un objet, $b_x,b_y,b_h,b_w$ sont les propriétés de l’objet détecté bouding box, $c_1,…, c_p$ est une représentation à un chaud de laquelle des classes $p$ ont été détectées, et $k$ est le nombre de boîtes d’ancrage.
• Étape 3: Exécutez l’algorithme de suppression Non max pour supprimer toutes les boîtes de délimitation qui se chevauchent en double.,
la région R-CNN avec des réseaux de neurones convolutifs (R-CNN) est un algorithme de détection d’objet qui segmente d’abord l’image pour trouver des boîtes de délimitation pertinentes potentielles, puis exécute boîtes de délimitation.,
remarque: bien que l’algorithme d’origine soit coûteux et lent sur le plan informatique, des architectures plus récentes ont permis à l’algorithme de fonctionner plus rapidement, comme Fast R-CNN
vérification et reconnaissance des visages
Types de Modèles deux types principaux de modèles sont résumés dans le tableau ci-dessous:
vérification des visages | reconnaissance faciale |
• est-ce la bonne personne?,r• * recherche individuelle | |
Un Coup d’Apprentissage d’Un seul Coup d’Apprentissage est un visage de vérification de l’algorithme qui utilise un peu de formation définie à apprendre une fonction de similarité qui permet de quantifier la façon dont différents deux images. La fonction de similarité appliquée à deux images est souvent notée d d (\textrm {image 1}, \textrm {image 2}).,$
Neuronaux style de transfert
Motivation Le but de neurones style de transfert est de générer une image de $G$, basé sur un contenu donné, $C$ et un style de $S$.,
l’Activation Dans une couche donnée $l$, l’activation est noté $a^{}$ et est de dimensions $n_H\times n_w\times n_c$
Remarque: le style de la matrice pour le style de l’image et de l’image générée est noté $G^{(S)}$ et $G^{(G)}$, respectivement.,
l’Ensemble de la fonction de coût globale de La fonction de coût est définie comme étant une combinaison de style et le contenu des fonctions de coût, pondérée par les paramètres $\alpha,\beta$, comme suit:
Remarque: une valeur plus élevée de $\alpha$ rendra le modèle de soins de plus sur le contenu alors que plus d’une valeur de $\beta$ permettra de faire des soins plus sur le style.,
Architectures utilisant des astuces de calcul
réseau antagoniste génératif les réseaux antagonistes génératifs, également appelés GANs, sont composés d’un modèle génératif et d’un modèle discriminatif, où le modèle génératif vise à générer la sortie la plus véridique qui sera introduite dans le discriminatif qui vise à différencier l’image générée et
Remarque: les cas d’utilisation utilisant des variantes de GANs incluent le texte à l’image, la génération de musique et la synthèse.,
ResNet L’architecture réseau résiduelle (également appelée ResNet) utilise des blocs résiduels avec un nombre élevé de couches destinées à diminuer l’erreur d’apprentissage. Le bloc résiduel a l’équation de caractérisation suivante:
Inception Network cette architecture utilise des modules inception et vise à essayer différentes circonvolutions afin d’augmenter ses performances grâce à la diversification des fonctionnalités. En particulier, il utilise l’astuce de convolution $1\times1$ pour limiter la charge de calcul.