CS 230 - Convolutional Neurale Netværk Cheatsheet

Vil du gerne se dette cheatsheet på dit modersmål? Du kan hjælpe os med at oversætte det på GitHub!,br>

Convolutional Neurale Netværk

Tilbagevendende Neurale Netværk

Tips og tricks

Ved Afshine Amidi og Shervine Amidi

Oversigt

Optimering af et traditionelt CNN Convolutional neurale netværk, også kendt som CNNs, er en bestemt type af neurale netværk, der generelt består af følgende lag:

foldning lag og samle lag kan finjusteres med hensyn til hyperparameters, der er beskrevet i de næste afsnit.,

typer af lag

Convolution layer (CONV) convolution layer (CONV) bruger filtre, der udfører convolution operationer, da det scanner input $i$ med hensyn til dens dimensioner. Dens hyperparametre omfatter filterstørrelse $F$ og stride $s$. Den resulterende output $O$ kaldes feature map eller aktivering kort.

Bemærkning: foldning trin kan generaliseres til 1D-og 3D-tilfælde samt.,Pooling (POOL) pooling-laget (POOL) er en Do .nsampling-operation, der typisk anvendes efter et foldningslag, hvilket gør en vis rumlig invariance. Især er MA.og gennemsnitlig pooling særlige former for pooling, hvor henholdsvis maksimums-og gennemsnitsværdien tages.,ion vælger den maksimale værdi for den aktuelle visning

Hver sammenlægning drift gennemsnit af værdierne af den aktuelle visning Illustration

• Bevarer opdaget funktioner
• Mest almindeligt brugte • Downsamples har kort
• Bruges i LeNet

Fuldt Tilsluttet (FC) er fuldt forbundet lag (FC) fungerer på en flad indgang, hvor hver indgang er tilsluttet til alle neuroner., Hvis det er til stede, findes FC-lag normalt mod slutningen af CNN-arkitekturer og kan bruges til at optimere mål såsom klassescore.

Filter hyperparameters

foldning lag indeholder filtre, som det er vigtigt at kende betydningen bag sin hyperparameters.,

Dimensioner af et filter er Et filter af størrelsen $F\ \ gange F$ anvendes til en indgang, der indeholder $C$ kanaler, er en $F \ \ gange F \times C$ volumen, der udfører vindinger på et input af størrelsen $I \gange jeg \times C$ og producerer et output funktion kort (også kaldet aktivering kort) størrelse $O \gange O \gange 1$.

Kommentar: anvendelsen af $K$ filtre af størrelsen $F\ \ gange F$ resulterer i en output-funktion kort af størrelsen $O \gange O \times K$.,for en konvolutionel eller pooling-operation angiver stride $s$ antallet af Pi .els, som vinduet bevæger sig efter hver operation.

Zero-padding Zero-padding betegner den proces for at tilføje $P$ nuller til hver side af grænserne af input.,ført under:

Tuning hyperparameters

Parameter kompatibilitet i foldning lag Ved at bemærke, $I$ længden af input volume size, $F$ længden af filteret, $P$ mængden af zero-padding, $S$ skridtlængde, så output size $O$ i funktion, kort langs denne dimension er givet ved:

en Forståelse af kompleksiteten af modellen med henblik På at vurdere kompleksiteten af en model, er det ofte nyttigt at bestemme antallet af parametre, der i sin arkitektur vil have., I et givet lag af en convolutional neurale netværk, det sker som følger:

I eksemplet nedenfor har vi $F_1 = F_2 = 3$ og $S_1 = S_2 = 1$, hvilket giver $R_2 = 1 + 2\cdot 1 + 2\cdot 1 = 5$.

Almindeligvis anvendes aktivering funktioner

Udbedret Lineær Enhed rektificeret lineær enhed lag (ReLU) er en aktivering af funktionen $g$, der er anvendt på alle elementer i mængden. Det sigter mod at indføre ikke-linearitet i netværket., Dens varianter er opsummeret i tabellen nedenfor:

Softmax Den softmax trin kan ses som en generel logistisk funktion, der tager som input en vektor af scorer $x\in\mathbb{R}^n$ – og udgange en vektor af output sandsynlighed $s\in\mathbb{R}^n$ gennem en softmax funktion ved slutningen af arkitektur. Det er defineret som følger:

Objektdetektion

typer af modeller der er 3 hovedtyper af objektgenkendelsesalgoritmer, for hvilke arten af det, der forudsiges, er anderledes., They are described in the table below:

Image classification	Classification w., af objekt	• Opdager et objekt i et billede • Forudsiger sandsynligheden for objektet, og hvor det er lokaliseret	• Registrerer op til flere objekter i et billede • Forudsiger sandsynligheden for objekter, og hvor de er placeret,
Traditionelle CNN	Forenklet YOLO, R-CNN	YOLO, R-CNN

Afsløring I forbindelse med object detection, er der benyttet forskellige metoder afhængigt af, om vi ønsker blot at finde det objekt, eller registrere en mere kompleks form i billedet., De to vigtigste er opsummeret i tabellen nedenfor:

Krydset over Eu-Krydset over Union, også kendt som $\textrm{IoU}$, er en funktion, der kvantificerer hvordan korrekt placeret i en forudsagt boks $B_p$ er over den faktiske boks $B_a$. Det er defineret som:

Anker kasser Anker boksning er en teknik, der bruges til at forudsige overlappende afgrænser kasser., I praksis har netværket lov til at forudsige mere end en boks samtidigt, hvor hver boksforudsigelse er begrænset til at have et givet sæt geometriske egenskaber. For eksempel kan den første forudsigelse potentielt være en rektangulær kasse med en given form, mens den anden vil være en anden rektangulær kasse med en anden geometrisk form.

Non-ma.suppression teknikken non-ma. suppression sigter mod at fjerne overlappende overlappende afgrænsningsfelter af et samme objekt ved at vælge de mest repræsentative. Efter at have fjernet alle kasser med en sandsynlighed forudsigelse lavere end 0.,6 gentages følgende trin, mens der er bokse tilbage:

for en given klasse,
• Trin 1: Vælg boksen med den største forudsigelsessandsynlighed.
• Trin 2: Kass anyr enhver boks med en $\te .trm{IOU}\ge .slant0.5$ med den forrige boks.

YOLO Du Kun Ser én Gang (YOLO) er et objekt opdagelse algoritme, der udfører de følgende trin:

• Step 1: Opdele input billede i en $G\gange G$ nettet.,
• Trin 2: For hver grid celle, skal du køre en CNN, der forudsiger $y$ af følgende form:

\^T\in\mathbb{R}^{G\gange G\times k\gange(5+p)}}\]

hvor $p_c$ er sandsynligheden for at detektere et objekt, $b_x,b_y,b_h,b_w$ er de egenskaber af de fundne bouding boksen, $c_1,…, c_p$ er en en-hot repræsentation af hvilken af$ p $ klasserne blev opdaget, og $k$ er antallet af ankerbokse.
• Trin 3: Kør ikke-ma.undertrykkelse algoritme til at fjerne eventuelle dublerede overlappende grænsekasser.,

F-CNN-Regionen med Convolutional Neurale Netværk (R-CNN) er et objekt opdagelse algoritme, der første segmenter billedet for at finde potentielle relevante afgrænser kasser og derefter køre den opdagelse algoritme til at finde det mest sandsynlige objekter i dem, der afgrænser kasser.,

Bemærk: selv om den oprindelige algoritme er beregningsmæssigt dyre og langsomme, nyere arkitekturer aktiveret algoritme til at køre hurtigere, såsom Hurtig R-CNN og Hurtigere R-CNN.

Ansigt kontrol og anerkendelse

Typer af modeller To hovedtyper af modeller, som er opsummeret i tabellen nedenfor:

Ansigt kontrol	ansigtsgenkendelse
• Er det den rigtige person?, * En-til-en-opslag	• er dette en af $K$ – personerne i databasen? • En-til-mange opslag

Et Skud Læring Et Skud Læring er et ansigt kontrol algoritme, der benytter en begrænset uddannelse for at lære en lighed funktion, der kvantificerer, hvor forskellige to billeder. Lighedsfunktionen, der anvendes på to billeder, bemærkes ofte $D (\TE .trm{billede 1}, \te .trm{billede 2}).,$

Neurale stil overførsel

Motivation målet af neurale stil overførsel er at generere et billede $G$ er baseret på et givet indhold $C$ og en given style $S$.,

Aktivering I et givet lag $l$, aktivering bemærkes, $a^{}$ og er af dimensioner $n_H\gange n_w\gange n_c$

\(C)}-en^{G)}||^2}\]

\}=\sum_{i=1}^{n_H^{}}\sum_{j=1}^{n_w^{}}a_{ijk}^{}a_{ijk”}^{}}\]

Bemærkning: stil matrix for den stil, image og det genererede billede er noteret $G^{(S)}$ og $G^{(G)}$ hhv.,

\}(S,G)=\frac{1}{(2n_Hn_wn_c)^2}||G^{(S)}-G^{(G)}||_F^2=\frac{1}{(2n_Hn_wn_c)^2}\sum_{k,k”=1}^{n_c}\Big(G_{kk”}^{(S)}-G_{kk”}^{(G)}\Big)^2}\]

de Samlede omkostninger funktion De samlede omkostninger funktion er defineret som værende en kombination af indhold og stil omkostninger funktioner, som er vægtet med parametre $\alpha\beta$, som følger:

Bemærkning: en højere værdi af $\alpha$ vil gøre den model, der bekymrer sig mere om indhold, mens en højere værdi af $\beta$ vil gøre det bekymrer sig mere om den stil.,

Arkitekturer hjælp af computational tricks

Generativ Kontradiktorisk Netværk Generativ kontradiktorisk netværk, også kendt som GANs, er sammensat af en generativ og en diskriminerende model, hvor den generative model har til formål at skabe den mest sandfærdige output, som vil indgå i det diskriminerende, der tager sigte på at differentiere den genererede og sande billede.

bemærkning: Brug tilfælde, der bruger varianter af GANs, inkluderer tekst til billede, musikgenerering og syntese.,

ResNet den resterende netværksarkitektur (også kaldet ResNet) bruger resterende blokke med et stort antal lag, der er beregnet til at mindske træningsfejlen. Den resterende blok har følgende karakterisering af ligningen:

\}=g(a^{}+z^{})}\]

Oprettelse Netværk, der bruger Denne arkitektur starten moduler, og sigter mod at give en prøve på forskellige vindinger for at øge sin ydeevne gennem funktioner diversificering. Især bruger den$ 1\times1 $ convolution-tricket til at begrænse beregningsbyrden.

Convolutional Neurale Netværk cheatsheet Star