konvoluční neuronové sítě cheatsheet Star

Chtěli byste vidět tento cheatsheet ve vašem rodném jazyce? Můžete nám pomoci překládat to na GitHub!,br>

Konvoluční Neuronové Sítě
Rekurentních Neuronových Sítí
Tipy a triky

Afshine Amidi a Shervine Amidi

Přehled

Architektura tradiční CNN Konvoluční neuronové sítě, také známý jako CNNs, jsou specifickým typem neuronových sítí, které jsou obecně složen z následujících vrstev:

konvoluční vrstvy a sdružování vrstva může být vyladěn s ohledem na hyperparameters, které jsou popsány v následujících oddílech.,

typy vrstev

convolution layer (CONV) convolution layer (CONV) používá filtry, které provádějí konvoluční operace, protože skenuje vstup $i$ s ohledem na jeho rozměry. Jeho hyperparametry zahrnují velikost filtru $F$ a krok $s$. Výsledný výstup $o$ se nazývá mapa funkcí nebo aktivační mapa.

Poznámka: konvoluce krok lze zobecnit pro 1D a 3D případy stejně.,

Sdílení (BAZÉN) sdružování vrstva (BAZÉN) je převzorkování operace, obvykle aplikován po konvoluční vrstva, která má některé prostorové invariance. Zejména max a průměrné sdružování jsou speciální druhy sdružování, kde se bere maximální a průměrná hodnota.,ion vybere maximální hodnota proudu, zobrazení

Každý sdružování provoz průměry hodnot aktuální zobrazení Ilustrace • Zachovává zjištěné vlastnosti
• Nejčastěji se používá • Downsamples funkce mapy
• Používá se v LeNet

Plně Připojen (FC) plně propojené vrstvy (FC) funguje na zploštělé vstup, kde každý vstup je spojen se všemi neurony., Pokud jsou přítomny, vrstvy FC se obvykle nacházejí na konci architektur CNN a mohou být použity k optimalizaci cílů, jako jsou skóre třídy.

Filtr hyperparameters

konvoluční vrstva obsahuje filtry pro které je důležité znát význam za jeho hyperparameters.,

Rozměry filtru filtr o velikosti $F\times F$ aplikován na vstupní obsahující $C$ kanálů je $F \times F \krát C$ objem, který provádí závitů na vstupní velikosti $I \times I \krát C$ a produkuje výstupní funkce map (také tzv. aktivační mapa) velikost $Ó \times O \times 1$.

Poznámka: aplikace $K$ filtry o velikosti $F\times F$ výsledky ve výstupní funkce mapy o velikosti $Ó \times O \times K$.,

krok pro konvoluční nebo sdružovací operaci, krok $s$ označuje počet pixelů, kterými se okno pohybuje po každé operaci.

Nulové-Žádné polstrování-polstrování označuje proces přidávání $P$ nul na každé straně hranice vstupu.,led níže:

Ladění hyperparameters

Parametr kompatibility v konvoluční vrstvu za zmínku $I$ je délka vstupní hlasitosti velikost, $F$ je délka filtru, $P$ množství žádné polstrování, $S$ do kroku, pak výstupní velikost $O$ z funkce mapy podél této dimenze je dána:

\

Pochopení složitosti modelu s cílem posoudit složitost modelu, je často užitečné zjistit počet parametrů, které jeho architektura bude mít., V daném vrstva konvoluční neuronové sítě, to se provádí takto:

\

V příkladu níže máme $F_1 = F_2 = 3$ a $S_1 = S_2 = 1$, který dává $R_2 = 1 + 2\cdot 1 + 2\cdot 1 = 5$.

Běžně používané aktivační funkce

Opraveny Lineární Jednotka opraveny lineární jednotky vrstva (ReLU) je aktivační funkce $g$, který je použit na všechny elementy objemu. Jejím cílem je zavedení nelinearit do sítě., Jeho varianty jsou shrnuty v tabulce níže:

Softmax Na softmax krok lze chápat jako zobecněné logistické funkci, která bere jako vstup vektor skóre $x\in\mathbb{R}^n$ a výstupy vektor výstupní pravděpodobnosti $p\in\mathbb{R}^n$ přes softmax funkce na konci architektury. To je definováno takto:

\

detekce Objektů

Typy modelů jsou 3 hlavní typy rozpoznávání objektů algoritmy, pro jejichž povahu, co se předpokládá, je jiný., They are described in the table below:

Image classification Classification w., objektu • Detekuje objekt v obrázku
• Předpovídá pravděpodobnost, že objekt a, kde se nachází
• Rozpozná až několik objektů v obraze
• Předpovídá pravděpodobnost, že objekty, a kde se nachází
Tradiční CNN Zjednodušené YOLO, R-CNN YOLO, R-CNN

Detekce V kontextu detekce objektů, různé metody se používají v závislosti na tom, zda chceme jen najít objekt nebo detekovat složitější tvar v obraze., Dvě hlavní z nich jsou shrnuty v tabulce níže:

Průnik přes Unii Křižovatce nad Unie, také známý jako $\textrm{dlužní Úpis}$, je funkce, která kvantifikuje, jak správně umístěn předpověděl vymezovací rámeček $B_p$ je více než aktuální vymezovací rámeček $B_a$. To je definováno jako:

\

Kotva Kotva krabice boxu je technika používaná předpovídat překrývání bounding boxy., V praxi může síť předpovídat více než jednu krabici současně, kde je každá predikce krabice omezena na danou sadu geometrických vlastností. Například první predikce může být potenciálně obdélníková krabice daného tvaru, zatímco druhá bude další obdélníková krabice jiného geometrického tvaru.

non-max supression technika non-max potlačení má za cíl odstranit duplicitní překrývající ohraničující boxy stejného objektu výběrem nejreprezentativnějších. Po odstranění všech políček s predikcí pravděpodobnosti nižší než 0.,6, následující kroky se opakují, zatímco tam jsou boxy zbývající:

Pro danou třídu,
• Krok 1: Vyberte pole s největší predikce pravděpodobnosti.
* Krok 2: zlikvidujte jakékoli pole s $ \ textrm{IoU} \ geqslant0. 5$ s předchozím polem.

YOLO Byste se Podívat Jen Jednou (YOLO) je objekt, detekce algoritmus, který provede následující kroky:

• Krok 1: Rozdělte vstupní obraz do $G\krát G$ grid.,
• Krok 2: Pro každé buňce sítě, spuštění CNN předpovídá, že $y$ z následující formulář:

\^T\in\mathbb{R}^{G\krát G\times k\times(5+p)}}\]

kde $p_c$ je pravděpodobnost detekce objektu, $b_x,b_y,b_h,b$ jsou vlastnosti zjištěné bouding box, $c_1,…, c_p$ je jedno-horké znázornění, které z $P$ tříd byly detekovány, a $K$ je počet kotevních boxů.
* Krok 3: Spusťte algoritmus potlačení bez max, abyste odstranili případné duplicitní překrývající se ohraničující krabice.,

R-CNN Regionu s Konvoluční Neuronové Sítě (R-CNN) je objekt, detekce algoritmus, který první segmenty obrazu najít potenciální relevantní vymezovací rámeček, a pak spustit detekce algoritmus najít nejpravděpodobnější objekty v těchto bounding boxy.,

Poznámka: i když původní algoritmus je výpočetně drahé a pomalé, novější povolen algoritmus běžet rychleji, jako je Fast R-CNN a Rychlejší R-CNN.

Tvář ověřování a uznávání

Typy modelů Dva hlavní typy modelu jsou shrnuty v tabulce níže:

Plocha ověření rozpoznávání Obličeje
• Je to ta správná osoba?,
* One-to-one vyhledávání
* je to jeden z $k$ osob v databázi?
• One-to-many vyhledávání

Jeden Výstřel Učení Jeden Výstřel Učení je tvář ověřovací algoritmus, který používá omezenou sadu školení, naučit podobnost funkce, která kvantifikuje, jak různé dvěma danými obrázky. Funkce podobnosti aplikovaná na dva obrázky je často zaznamenána $d (\textrm{image 1}, \ textrm{image 2}).,$

\

Nervové styl převodu

Motivace cílem neuronové styl převod je vytvářet obraz $G$ na základě daného obsahu $C$ a daný styl $S$.,

Aktivace V dané vrstvě $l$, aktivace je třeba poznamenat $a^{}$ a má rozměry $n_H\times n_w\times n_c$,

\(C)}- ^{(G)}||^2}\]

\}=\sum_{i=1}^{n_H^{}}\sum_{j=1}^{n_w^{}}a_{ijk}^{}a_{ijk“}^{}}\]

Poznámka: styl matrix pro styl obrázek a vygenerovaný obrázek jsou uvedeny $G^{(Y)}$ a $G^{(G)}$, resp.,

\}(S,G)=\frac{1}{(2n_Hn_wn_c)^2}||G^{(S)}-G^{(G)}||_F^2=\frac{1}{(2n_Hn_wn_c)^2}\sum_{k,k“=1}^{n_c}\Big(G_{kk“}^{(S)}-G_{kk“}^{(G)}\Big)^2}\]

Celková nákladová funkce celkové náklady funkce je definována jako kombinace obsahu a stylu nákladové funkce, vážené podle parametrů $\alpha,\beta$, takto:

\

Poznámka: vyšší hodnota $\alpha$ bude model více starat o obsah, zatímco vyšší hodnota $\beta$, bude to víc záleží na stylu.,

Architektur pomocí výpočetní triky

Generativní Sporné Sítě Generativní sporné sítě, také známý jako GANs, jsou složeny z generativní a diskriminativní model, kde generativní model se zaměřuje na vytváření nejpravdivější výstup, který bude přiváděn do diskriminační, která se zaměřuje na rozlišování generovány a pravdivý obraz.

Poznámka: případy použití variant GANs zahrnují text na obrázek, generování hudby a syntézu.,

ResNet Zbytkové Síťové architektury (také volal ResNet) využívá zbytkové bloky s vysokým počtem vrstev možno snížit školení chyba. Zbytkový blok má následující charakterizují rovnice:

\}=g(a^{}+z^{})}\]

Založení Sítě Tato architektura používá vzniku modulů a zaměřuje se na to dávat vyzkoušet na různých závitů s cílem zvýšit jeho výkon prostřednictvím funkcí, diverzifikace. Zejména používá$ 1 \ times1 $ convolution trik omezit výpočetní zátěž.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *