por Afshine Amidi y Shervine Amidi
Overview
arquitectura de una CNN tradicional las redes neuronales convolucionales, también conocidas como CNNs, son un tipo específico de redes neuronales que generalmente se componen de las siguientes capas:
la capa de convolución y la capa de agrupación se pueden ajustar con respecto a los hiperparámetros que se describen en las siguientes secciones.,
tipos de capa
capa de convolución (CONV) la capa de convolución (CONV) utiliza filtros que realizan operaciones de convolución mientras escanea la entrada I I respect con respecto a sus dimensiones. Sus hiperparámetros incluyen el tamaño del filtro F F and y stride S S.. La salida resultante $O.se denomina Mapa de entidades o mapa de activación.
Nota: la convolución paso puede ser generalizado para el 1D y 3D de casos así.,
Pooling (POOL) la capa de pooling (POOL) es una operación de downsampling, típicamente aplicada después de una capa de convolución, que hace cierta invariancia espacial. En particular, la agrupación máxima y media son tipos especiales de agrupación en los que se toma el valor máximo y medio, respectivamente.,ion selecciona el valor máximo de la vista actual
• utilizado en lenet
completamente conectado (FC) La capa completamente conectada (FC) opera en una entrada aplanada donde cada entrada está conectada a todas las neuronas., Si están presentes, las capas FC generalmente se encuentran hacia el final de las arquitecturas de CNN y se pueden usar para optimizar objetivos como las puntuaciones de clase.
Filtro hyperparameters
La convolución de la capa contiene filtros para lo cual es importante conocer el significado detrás de su hyperparameters.,
Dimensiones de un filtro, Un filtro de tamaño $F\times F$ aplicada a una entrada que contiene $C$ de los canales es una $F \times F \times C$ volumen que realiza circunvoluciones en una entrada de tamaño $I \times I \los tiempos de C$ y produce una salida de la función de mapa (también llamado mapa de activación) de tamaño $S \times O \1$.
nota: la aplicación de la $K$ filtros de tamaño $F\times F$ resultados en un resultado de la función de mapa de tamaño $S \times O \veces K$.,
Stride para una operación convolucional o de pooling, la stride den S Den denota el número de píxeles por los que se mueve la ventana después de cada operación.
Zero-padding Zero-padding denota el proceso de la adición de $P$ ceros a cada lado de los límites de la entrada.,led a continuación:
Tuning hyperparameters
Parámetro de compatibilidad en la convolución de la capa señalando $I$ la longitud de la entrada, el tamaño del volumen, $F$ la longitud del filtro, $P$ la cantidad de cero de relleno, $S$ de la zancada, a continuación, el tamaño de salida $O$ de la función de mapa a lo largo de esa dimensión está dada por:
la Comprensión de la complejidad del modelo con el fin De evaluar la complejidad de un modelo, a menudo es útil para determinar el número de parámetros que su arquitectura se tienen., En una determinada capa de un convolucional de la red neuronal, se realiza de la siguiente manera:
En el ejemplo de abajo, tenemos $F_1 = F_2 = 3$ y $S_1 = S_2 = 1$, lo que da $R_2 = 1 + 2\cdot 1 + 2\cdot 1 = 5$.
funciones de activación comúnmente utilizadas
unidad lineal rectificada la capa de unidad lineal rectificada (ReLU) es una función de activación g el volumen. Su objetivo es introducir la no linealidad en la red., Sus variantes se resumen en la siguiente tabla:
Softmax el paso softmax puede verse como una función logística generalizada que toma como entrada un vector de puntuaciones x x\in\mathbb{R}^n n y genera un vector de probabilidad de salida.p\in\mathbb{R}^n. a través de una función softmax al final de la arquitectura. Se define de la siguiente manera:
detección de objetos
tipos de modelos hay 3 tipos principales de Algoritmos de reconocimiento de objetos, para los cuales la naturaleza de lo que se predice es diferente., They are described in the table below:
Image classification | Classification w., del objeto | • Detecta un objeto en una imagen • Predice la probabilidad de objeto y donde se encuentra |
• Detecta varios objetos en una imagen • Predice probabilidades de objetos y dónde están ubicados |
Tradicional CNN | Simplificado de YOLO, R-CNN | YOLO, R-CNN |
Detección En el contexto de la detección de objetos, se utilizan distintos métodos dependiendo de si queremos localizar el objeto o detectar de una forma más compleja en la imagen., Las dos principales se resumen en la tabla a continuación:
Intersección sobre Unión Intersección sobre Unión, también conocido como $\textrm{IoU}$, es una función que cuantifica cómo colocado correctamente predijo cuadro delimitador $B_p$ es sobre la real caja de contorno $B_a$. Se define como:
cajas de anclaje el boxeo de anclaje es una técnica utilizada para predecir cajas delimitadoras superpuestas., En la práctica, a la red se le permite predecir más de una caja simultáneamente, donde cada predicción de caja está restringida a tener un conjunto dado de propiedades geométricas. Por ejemplo, la primera predicción puede ser potencialmente una caja rectangular de una forma dada, mientras que la segunda será otra caja rectangular de una forma geométrica diferente.
supresión No máxima la técnica de supresión no máxima tiene como objetivo eliminar los cuadros delimitadores superpuestos duplicados de un mismo objeto seleccionando los más representativos. Después de haber eliminado todas las casillas que tienen una predicción de probabilidad inferior a 0.,6, los siguientes pasos se repiten mientras quedan cajas:
para una clase dada,
• Paso 1: Elija la Caja con la mayor probabilidad de predicción.paso 2: deseche cualquier caja que tenga un I \ textrm{IoU} \ geqslant0.5 with con la caja anterior.
yolo You Only Look Once (YOLO) es un algoritmo de detección de objetos que realiza los siguientes pasos:
• Paso 1: Divide la imagen de entrada en una image G\por G grid cuadrícula.,
• * * * Paso 2: Para cada celda de la cuadrícula, ejecutar CNN que predice $y$ de la siguiente forma:
donde $p_c$ es la probabilidad de detectar un objeto, $b_x,b_y,b_h,b_w$ son las propiedades de las detectado bouding caja, $c_1,…, c_p is es una representación en caliente de cuál de las clases p p were se detectaron, y $k is es el número de cajas de anclaje.
* Paso 3: Ejecute el algoritmo de supresión no máxima para eliminar cualquier cuadro delimitador superpuesto duplicado potencial.,
r-CNN Region with Convolutional Neural Networks (R-CNN) es un algoritmo de detección de objetos que primero segmenta la imagen para encontrar cuadros delimitadores potenciales relevantes y luego ejecuta el algoritmo de detección para encontrar los objetos más probables cajas delimitadoras.,
observación: aunque el algoritmo original es computacionalmente caro y lento, las arquitecturas más nuevas permitieron que el algoritmo se ejecutara más rápido, como Fast R-CNN y Faster R-CNN.
verificación y reconocimiento facial
tipos de modelos dos tipos principales de modelos se resumen en la siguiente tabla:
verificación Facial | reconocimiento facial |
• ¿es esta la persona correcta?, * One-to-one lookup |
* Is this one of the K K persons persons in the database? • búsqueda de uno a muchos |
one shot learning one shot learning es un algoritmo de verificación facial que utiliza un conjunto de entrenamiento limitado para aprender una función de similitud que cuantifica cuán diferentes son dos imágenes dadas. La función de similitud aplicada a dos imágenes a menudo se observa d d (\textrm{imagen 1}, \textrm{imagen 2}).,$
Neural estilo de transferencia
la Motivación El objetivo de neurales estilo de transferencia es generar una imagen $G$ basándose en un contenido $C$ y un estilo determinado $S$.,
la Activación De una determinada capa $de l$, la activación se observó $a^{}$ y es de dimensiones $n_H\times n_w\times n_c$
Comentario: el estilo de la matriz para el estilo de la imagen y la imagen generada, se observó $G^{(S)}$ y $G^{(G)}$, respectivamente.,
Global de la función de costo El costo total de la función se define como una combinación de los contenidos y el estilo de funciones de costo, ponderados en función de los parámetros de $\alpha,\beta$, como sigue:
Comentario: un valor mayor de $\alpha$ va a hacer que el modelo de atención más sobre el contenido, mientras que un valor mayor de $\beta$ hará que se preocupan más por el estilo.,
arquitecturas que utilizan trucos computacionales
red adversaria generativa las redes adversarias generativas, también conocidas como GANs, se componen de un modelo generativo y un modelo discriminativo, donde el modelo generativo tiene como objetivo generar la salida más veraz que se alimentará en el discriminativo que tiene como objetivo diferenciar la imagen generada y la verdadera.
observación: los casos de uso que utilizan Variantes de GANs incluyen texto a imagen, generación de música y síntesis.,
ResNet la arquitectura de red Residual (también llamada ResNet) utiliza bloques residuales con un alto número de capas destinadas a disminuir el error de entrenamiento. El bloque residual tiene la siguiente ecuación de caracterización:
Inception Network esta arquitectura utiliza módulos inception y tiene como objetivo probar diferentes convoluciones para aumentar su rendimiento a través de la diversificación de características. En particular, utiliza el truco Conv 1\times1 Conv convolution para limitar la carga computacional.