div > gostaria de ver esta ficha na sua língua nativa? Pode ajudar-nos a traduzi-lo no GitHub!,br>
Por Afshine Amidi e Shervine Amidi
Descrição
a Arquitetura de um tradicional CNN Convolucionais redes neurais, também conhecido como CNNs, são um tipo específico de redes neurais, que são, geralmente composta das seguintes camadas:

A convolução camada e o agrupamento de camada pode ser afinado com respeito a hiperparâmetros que são descritas nas próximas seções.,
tipos de camada
camada de convolução (CONV) a camada de convolução (CONV) usa filtros que realizam operações de convolução como ele está digitalizando a entrada $I$ em relação às suas dimensões. Seus hiperparâmetros incluem o tamanho do filtro $f$ e stride $s$. A saída resultante $o$ é chamada de mapa de recursos ou mapa de ativação.

Nota: a convolução passo pode ser generalizado para a 1D e 3D casos bem.,
pool (POOL) a camada Pool (POOL) é uma operação de amostragem descendente, normalmente aplicada após uma camada de convolução, que faz alguma invariância espacial. Em particular, a agregação máxima e média são tipos especiais de agregação em que o valor máximo e médio é tomado, respectivamente.,íon seleciona o valor máximo da vista actual


• Mais comumente usados
• Usado em LeNet
Totalmente Ligado (FC) totalmente ligado camada (FC) opera em achatada de entrada, onde cada entrada é conectado a todos os neurônios., Se presente, camadas FC são geralmente encontradas no final das arquiteturas CNN e podem ser usadas para otimizar objetivos como pontuações de classe.

Filtro de hiperparâmetros
A convolução camada contém filtros para o que é importante saber o significado por trás de sua hiperparâmetros.,
dimensões de um filtro um filtro do tamanho $f\vezes f$ aplicado a uma entrada que contém$ c $ canais é um $F \vezes f \vezes c$ volume que executa convoluções numa entrada do tamanho $i \vezes I \vezes C$ e produz um mapa de funcionalidades de saída (também chamado de mapa de activação) do tamanho $O \vezes o \vezes 1$.

Observação: o aplicativo de us $K$ filtros de tamanho F $\times$ F. resulta em uma função de saída de mapa de tamanho $S \vezes O \vezes K$.,
Stride For a convolucional or a pooling operation, the stride $s$ denotes the number of pixels by which the window moves after each operation.

Zero-padding Zero-padding denota o processo de adição de $P$ zeros para cada lado dos limites da caixa de entrada.,led abaixo:
Ajuste de hiperparâmetros
Parâmetro de compatibilidade na convolução camada observando $I$ o comprimento do volume de entrada de tamanho, $F o comprimento do filtro, $P$ a quantidade de preenchimento de zero, $S$ passada, em seguida, o tamanho de saída $O$ do recurso de mapa, juntamente essa dimensão é dada por:

o Entendimento da complexidade do modelo, a fim de avaliar a complexidade de um modelo, muitas vezes é útil para determinar o número de parâmetros que será sua arquitetura de ter., Em uma determinada camada de um convolucionais rede neural, é feito da seguinte forma:
No exemplo abaixo, temos $F_1 = F_2 = 3$ e $S_1 = S_2 = 1$, o que dá $R_2 = 1 + 2\cdot 1 + 2\cdot 1 = 5$.

Comumente usado ativação de funções
Rectificado Unidade Linear retificada unidade linear (camada de ReLU) é uma função de ativação $g$ é usado em todos os elementos de volume. Visa introduzir Não linearidade na rede., Suas variantes são resumidos na tabela abaixo:
Softmax A softmax passo pode ser visto como uma generalizada função logística que tem como entrada um vetor de escores de $x\in\mathbb{R}^n$ e saídas de um vetor de saída probabilidade de $p\in\mathbb{R}^n$ através de uma função softmax no final da arquitetura. É definido da seguinte forma:
detecção de objectos
tipos de modelos existem 3 tipos principais de algoritmos de reconhecimento de objectos, para os quais a natureza do que é previsto é diferente., They are described in the table below:
Image classification | Classification w., do objeto | • Detecta um objeto em uma imagem • Prevê probabilidade de objeto e onde ele está localizado |
• Detecta vários objetos em uma imagem • Prevê probabilidades de objetos e onde eles estão localizados |
Tradicional CNN | Simplificado YOLO, R-CNN | YOLO R-a CNN |
Detecção No contexto de detecção de objetos, diferentes métodos são utilizados, dependendo se é só deseja localizar o objeto ou detectar um formato mais complexo na imagem., Os dois principais são resumidas na tabela abaixo:
Intersecção mais de União, Interseção ao longo da União, também conhecido como $\textrm{IoU}$ é uma função que quantifica como correctamente posicionada uma previsão de caixa delimitadora $B_p$ é mais real do caixa delimitadora $B_a$. Ele é definido como:

caixas Âncora Âncora de boxe é uma técnica usada para prever a sobreposição de caixas delimitadoras., Na prática, a rede é autorizada a prever mais de uma caixa simultaneamente, onde cada previsão de caixa é constrangida a ter um determinado conjunto de propriedades geométricas. Por exemplo, a primeira previsão pode potencialmente ser uma caixa retangular de uma determinada forma, enquanto a segunda será outra caixa retangular de uma forma geométrica diferente.
supressão Não-max a técnica de supressão não-max tem como objetivo remover caixas de ligação duplicadas de um mesmo objeto, selecionando as mais representativas. Após ter removido todas as caixas com uma previsão de probabilidade inferior a 0.,6, the following steps are repeated while there are boxes remaining:
For a given class,
* Step 1: Pick the box with the largest prediction probability.
* Passo 2: descartar qualquer caixa que tenha um $\textrm{IoU}\geqslant0.5$ com a caixa anterior.

YOLO Você Apenas Olhar uma Vez (YOLO) é um objeto de detecção algoritmo que executa os seguintes passos:
• Passo 1: Divida a imagem de entrada em $G\vezes G$ grade.,
• Passo 2: Para cada célula da grelha, executar um CNN que prevê $y$ a seguinte forma:
onde $p_c$ é a probabilidade de detecção de um objeto, $b_x,b_y,b_h,b_w$ são as propriedades do detectados bouding box, $c_1,…,c_p$ é uma representação one-hot de qual das classes $p$ foram detectadas, e $k$ é o número de caixas de âncora.
• Step 3: Run the non-max suppression algorithm to remove any potential duplicate bounding boxes.,

I-a CNN Região com Convolucionais Redes Neurais (R-CNN) é um objeto algoritmo de detecção de que segmentos primeiro a imagem para encontrar potenciais relevantes caixas delimitadoras e, em seguida, executar o algoritmo de detecção de encontrar mais provável objetos dessas caixas delimitadoras.,

Observação: embora o algoritmo original é computacionalmente caro e lento, novas arquiteturas habilitado o algoritmo para correr mais rápido, tais como Fast-R-a CNN e mais Rápido do R-a CNN.
> Face de verificação e reconhecimento
Tipos de modelos de Dois principais tipos de modelos estão resumidas na tabela abaixo:
Face de verificação | reconhecimento de Rosto |
• esta É a pessoa correta?, • pesquisa de um para um |
• esta é uma das pessoas $K$ na base de dados? • Um-para-muitos de pesquisa |
![]() |
![]() |
Um Tiro a Aprendizagem de Um Tiro de Aprendizagem é um cara de verificação algoritmo que usa um limitado conjunto de treinamento para aprender uma função de similaridade que quantifica quão diferente duas imagens são. A função de semelhança aplicada a duas imagens é frequentemente notada como $d (\textrm{image 1}, \textrm{image 2}).,$


Neural estilo de transferência
a Motivação, O objetivo do neurais estilo de transferência é para gerar uma imagem de G $$ com base em um determinado conteúdo de $C$ e um determinado estilo de $S$.,

Ativação Em um determinado layer $l$, a ativação é observado $a^{}$ e é de dimensões $n_H\vezes n_w\vezes n_c$
Comentário: o estilo de matriz para o estilo de imagem e a imagem gerada são observados $G^{(S)}$ e $G^{(G)}$, respectivamente.,
em Geral, função custo, O custo total da função é definido como sendo uma combinação de conteúdo e de estilo de funções de custo, ponderada pelos parâmetros de $\alpha,\beta$, da seguinte forma:
Comentário: um valor maior de $\alpha$ vai fazer o modelo de cuidados mais sobre o conteúdo, enquanto um valor maior de $\beta$ fará se preocupam mais com o estilo.,
usando Arquiteturas computacionais truques
Generativo Contraditório Rede Generativo contraditório redes, também conhecido como GANs, é composta de um gerador e um discriminatório do modelo, onde o gerador modelo visa a gerar a mais confiável de saída que serão alimentados no discriminatório, que visa diferenciar o gerado e verdadeira imagem.

observação: casos de Uso usando variantes de GANs incluem texto para imagem, geração de música e síntese.,
ResNet a arquitetura de rede Residual (também chamada de ResNet) usa blocos residuais com um elevado número de camadas destinadas a diminuir o erro de treinamento. O bloco residual tem a seguinte equação de caracterização:
Rede inicial esta arquitetura usa módulos iniciais e tem como objetivo dar uma tentativa de diferentes convoluções, a fim de aumentar o seu desempenho através da diversificação de recursos. Em particular, ele usa o truque de convolução $1\times1$ para limitar a carga computacional.