rețele neuronale convoluționale cheatsheet Star

doriți să vedeți această cheatsheet în limba maternă ? Ne puteți ajuta să-l traducem pe GitHub!,br>

Convoluțional Rețele Neuronale
Rețele Neuronale Recurente
Sfaturi și trucuri

De Afshine Amidi și Shervine Amidi

Prezentare

Arhitectura tradițională CNN Convoluțional rețele neuronale, de asemenea, cunoscut sub numele de CNNs, sunt un anumit tip de rețele neuronale, care sunt, în general, compus din următoarele straturi:

strat de convoluție și punerea în comun strat poate fi reglat fin cu privire la hyperparameters care sunt descrise în următoarele secțiuni.,

tipuri de straturi

strat de convoluție (CONV) stratul de convoluție (CONV) utilizează filtre care efectuează operații de convoluție, deoarece scanează intrarea $i$ în ceea ce privește dimensiunile sale. Hiperparametrele sale includ dimensiunea filtrului $F$ și stride $s$. Rezultatul rezultat $o$ se numește Harta caracteristică sau harta de activare.

Remarca: convoluția pas pot fi generalizate la 1D și 3D cazuri.,Pooling (POOL) pooling layer (POOL) este o operație de downsampling, aplicată de obicei după un strat de convoluție, care face o anumită invarianță spațială. În special, Max și pooling medie sunt tipuri speciale de pooling în cazul în care valoarea maximă și medie este luată, respectiv.,ion selectează valoarea maximă a curentului de vedere

Fiecare gruparea de funcționare mediile valorilor actuale de vedere Ilustrare • Păstrează detectat caracteristici
• cel Mai frecvent utilizate • sub-eșantionează caracteristică harta
• Folosit în LeNet

pe Deplin Conectat (FC), pe deplin conectat strat (FC) funcționează pe o aplatizate de intrare în cazul în care fiecare intrare este conectat la toți neuronii., Dacă este prezent, straturile FC se găsesc de obicei spre sfârșitul arhitecturilor CNN și pot fi utilizate pentru optimizarea obiectivelor, cum ar fi scorurile de clasă.

Filtru hyperparameters

convoluția strat conține filtre pentru care este important să se cunoască sensul din spatele său hyperparameters.,dimensiunile unui filtru un filtru de dimensiune $F \ times F$ aplicat unei intrări care conține $c $ channels este un $f \times F \times c$ volum care efectuează convoluții pe o intrare de dimensiune $i \times I \times C$ și produce o hartă caracteristică de ieșire (numită și harta de activare) de dimensiune $o \times o \times 1$.

Remarca: cererea de $K$ filtre de dimensiune $F\ori F$ rezultatele într-o ieșire caracteristică hartă de dimensiuni $O \ori \ori K$.,

Stride pentru o operație convoluțională sau de pooling, stride $s $ indică numărul de pixeli cu care fereastra se mișcă după fiecare operație.

Zero-Zero padding-padding denotă procesul de adăugare a $P$ zerouri pentru fiecare parte a limitelor de intrare.,condus de mai jos:

Tuning hyperparameters

Parametru de compatibilitate în convoluție strat De remarcat $I$ lungimea de intrare mărimea volumului, $F$ lungimea filtrului, $P$ cantitatea de zero padding, $S$ pasului, atunci mărimea de ieșire $O$ a caracteristica hartă de-a lungul acestui parametru este dat de:

\

Înțelegerea complexității modelului, În scopul de a evalua complexitatea unui model, este de multe ori util pentru a determina numărul de parametri care arhitectura va avea., Într-un anumit strat dintr-un convoluțional rețele neuronale, aceasta se face după cum urmează:

\

În exemplul de mai jos, avem $F_1 = F_2 = 3$ și $S_1 = S_2 = 1$, care dă $R_2 = 1 + 2\cdot 1 + 2\cdot 1 = 5$.

Frecvent utilizate funcții de activare

Rectificat Liniar Unitatea De rectificat liniar unitate strat (ReLU) este o funcție de activare $g$, care este folosit pe toate elementele de volum. Scopul său este de a introduce non-linearități în rețea., Variantele sale sunt rezumate în tabelul de mai jos:

Softmax La softmax pas poate fi văzut ca un generalizate logistic funcție care are ca intrare un vector de scoruri $x\in\mathbb{R}^n$ și ieșirile un vector de ieșire probabilitatea p $\in\mathbb{R}^n$ printr-o softmax funcție la sfârșitul arhitectura. Acesta este definit după cum urmează:

\

detectarea obiectelor

tipuri de modele există 3 tipuri principale de algoritmi de recunoaștere a obiectelor, pentru care natura a ceea ce este prezis este diferită., They are described in the table below:

Image classification Classification w., de obiect • Detectează un obiect într-o imagine
• Prezice probabilitatea de obiect și unde se află
• Detectează până la mai multe obiecte într-o imagine
• Prezice probabilitatea de obiecte și în cazul în care acestea sunt situate
Tradiționale CNN Simplificată YOLO, R-CNN YOLO, R-CNN

Detectarea În contextul de detectare a obiectelor, sunt utilizate diferite metode, în funcție de dacă vrem doar să localizeze obiectul sau detecta o formă mai complexă în imagine., Cele două cele mai importante sunt rezumate în tabelul de mai jos:

Intersecția peste Uniunii Intersecția peste Uniune, de asemenea, cunoscut sub numele de $\textrm{IoU}$, este o funcție care cuantifică cât de corect poziționat prezis o casetă de încadrare $B_p$ e peste real casetă de încadrare $B_a$. Acesta este definit ca:

\

Ancora cutii de Ancorare box este o tehnică utilizată pentru a prezice care se suprapun casetele de încadrare., În practică, rețelei i se permite să prezică mai mult de o casetă simultan, unde fiecare predicție a cutiei este constrânsă să aibă un set dat de proprietăți geometrice. De exemplu, prima predicție poate fi o cutie dreptunghiulară a unei forme date, în timp ce a doua va fi o altă cutie dreptunghiulară a unei forme geometrice diferite.suprimarea Non-max tehnica de suprimare non-max are ca scop eliminarea casetelor de delimitare suprapuse duplicate ale aceluiași obiect prin selectarea celor mai reprezentative. După ce a eliminat toate casetele cu o probabilitate de predicție mai mică decât 0.,6, următorii pași se repetă în timp ce există cutii rămase:

pentru o anumită clasă,
• Pasul 1: Alegeți caseta cu cea mai mare probabilitate de predicție.
* Pasul 2: aruncați orice casetă care are un $\textrm{IoU}\geqslant0.5$ cu caseta anterioară.

YOLO Te Uiți Numai o Dată (YOLO) este un obiect algoritm de detectare care efectuează următorii pași:

• Pas 1: Împărțiți imaginea de intrare într-un $G\ori G$ grilă.,
• Pas 2: Pentru fiecare celulă de rețea, rula un CNN care prezice $y$ de forma următoare:

\^T\in\mathbb{R}^{G\ori G\ori k\ori(5+p)}}\]

unde $p_c$ este probabilitatea de a detecta un obiect, $b_x,b_y,b_h,b$ sunt proprietățile de detectat bouding cutie, $c_1,…, c_p$ este o reprezentare la cald a căror dintre clasele $P$ au fost detectate, iar $k$ este numărul de cutii de ancorare.
* Pasul 3: rulați algoritmul de suprimare non-max pentru a elimina orice potențial duplicat cutii de delimitare suprapuse.,

R-CNN Regiune cu Convoluțional Rețele Neuronale (R-CNN) este un obiect algoritm de detectare prima segmente de imagine pentru a găsi potențiale relevante de încadrare cutii și apoi executați algoritm de detectare a găsi cele mai probabile obiecte de încadrare în aceste cutii.,

Observație: deși inițial algoritmul de calcul este costisitoare și lentă, mai noi arhitecturi a permis algoritm pentru a rula mai repede, cum ar fi Fast-R-CNN și mai Repede R-CNN.

Fata de verificare și recunoaștere

Tipuri de modele Două tipuri principale de model sunt rezumate în tabelul de mai jos:

Fata de verificare recunoaștere a Feței
• Este aceasta persoana corecta?,
* unu-la-unu căutare
• este aceasta una dintre persoanele $k$ în baza de date?
• Unul-la-mai-mulți de căutare

O Lovitură de Învățare O Lovitură de Învățare este o fata de verificare algoritm care folosește un număr limitat de set de formare pentru a învăța o similitudine funcție care cuantifică cât de diferită dat două imagini sunt. Funcția de similitudine aplicată la două imagini este adesea notată $d (\textrm{image 1}, \ textrm{image 2}).,$

\

Neuronale stil de transfer

Motivația scopul de a neuronale stil de transfer este de a genera o imagine $G$ bazează pe un conținut dat $C$ și un anumit stil $S$.,

Activare Într-un anumit strat $l$, activarea este menționat $o^{}$ și este de dimensiuni $n_H\ori n_w\ori n_c$

\(C)}-o^{(G)}||^2}\]

\}=\sum_{i=1}^{n_H^{}}\sum_{j=1}^{n_w^{}}a_{ijk}^{}a_{ijk”}^{}}\]

Remarca: stilul matrix pentru stilul de imagine și imaginea generată sunt notate $G^{(S)}$ și $G^{(G)}$, respectiv.,

\}(S,G)=\frac{1}{(2n_Hn_wn_c)^2}||G^{(S)}-G^{(G)}||_F^2=\frac{1}{(2n_Hn_wn_c)^2}\sum_{k,k”=1}^{n_c}\Big(G_{kk”}^{(S)}-G_{kk”}^{(G)}\Big)^2}\]

costul total funcție de costul total funcția este definită ca fiind o combinație de conținut și stil cost funcții, ponderată cu parametrii $\alpha,\beta$, după cum urmează:

\

Remarca: o valoare mai mare de $\alpha$ va face modelul pasă mai mult despre conținutul în timp ce o valoare mai mare de $\beta$ va pasa mai mult despre stil.,

Arhitecturi de calcul folosind trucuri

Generative Contradictorialității Rețea Generative contradictorialității rețele, de asemenea, cunoscut sub numele de GANs, sunt compuse dintr-un generator și un discriminativă model, în cazul în care generative model are ca scop generarea de cele mai veridice ieșire, care va fi alimentat în discriminativă care are ca scop diferențierea generate și true image.

observație: cazurile de utilizare folosind variante de Gan includ text în imagine, generarea de muzică și sinteza.,ResNet arhitectura de rețea reziduală (numită și ResNet) utilizează blocuri reziduale cu un număr mare de straturi menite să reducă eroarea de antrenament. Blocul rezidual are următoarea ecuație de caracterizare:

\}=g(A^{}+z^{})}\]

Inception Network această arhitectură folosește module inception și își propune să încerce diferite convoluții pentru a-și crește performanța prin diversificarea caracteristicilor. În special, folosește trucul de convoluție $1\times1$ pentru a limita sarcina computațională.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *