Által Afshine Amidi, valamint Shervine Amidi
Áttekintés
Építészet hagyományos CNN Convolutional neurális hálózatok, más néven CNNs, vagy egy adott típusú neurális hálózatok, melyek általában összetétele a következő réteg:
A konvolúció réteget a réteg egyesítése finomhangolására tekintetében hyperparameters, amelyek leírása a következő részben.,
Típusú réteg
Konvolúció réteg (KONV) A konvolúció réteg (KONV) használja ezeket a szűrőket, hogy végre konvolúció műveletek, mint a beolvasás bemeneti $I$ tekintetében a méretek. Hiperparaméterei közé tartozik a $f$ és a stride $s$szűrő mérete. A kapott $o$ kimenetet funkciótérképnek vagy aktiválási térképnek nevezik.
megjegyzés: a konvolúciós lépés általánosítható az 1D és 3D esetekre is.,
Pooling (POOL) a pooling réteg (POOL) egy downsampling művelet, amelyet általában egy konvolúciós réteg után alkalmaznak, amely némi térbeli invarianciát tesz lehetővé. Különösen a max és az átlagos összevonás különleges típusú összevonás, ahol a maximális és az átlagos értéket veszik figyelembe.,ion kiválasztja a maximális értéke a jelenlegi nézet
• a leggyakrabban használt
• Használt LeNet
Teljesen Összekapcsolt (FC) A teljes csatlakoztatott réteg (FC) működik egy lapos bemeneti, ahol minden bemenethez van csatlakoztatva az összes neuronok., Ha jelen van, az FC rétegek általában a CNN architektúrák vége felé találhatók, és felhasználhatók olyan célok optimalizálására, mint például az osztálypontok.
szűrő hiperparaméterek
a konvolúciós réteg olyan szűrőket tartalmaz, amelyekhez fontos tudni a hiperparaméterek mögötti jelentést.,
a szűrő méretei a $f\times F$ méretű szűrő a $C$ csatornákat tartalmazó bemenetre alkalmazott $F \ times F \ times c$ kötet, amely a $i \times i \times C$ méretű bemeneten konvolúciókat hajt végre, és kimeneti funkciótérképet (más néven aktiválási térképet) készít $o \times o \times o \ times 1$méretben.
Megjegyzés: A $K$ F\times F $méretű szűrők alkalmazása egy $O \times O \times o \ times o \ times k$méretű kimeneti funkciótérképet eredményez.,
Stride egy konvolúciós vagy összevonási művelethez, az $S$ lépés azt a képpontszámot jelöli, amellyel az ablak minden művelet után mozog.
Zero-padding Zero-padding Nero-padding azt a folyamatot jelöli, hogy $p$ p $ nullákat adnak a bemenet határainak mindkét oldalához.,a led az alábbi:
a Tuning hyperparameters
a Paraméter kompatibilitási a konvolúció réteg Által megjegyezni, $I$ a hossza a bemeneti hangerő méret, $F$ a a szűrő hossza, $P$ összege nulla padding, $S$ a lépés, akkor a kimeneti méret $O$ a funkció térkép mentén dimenzió által adott:
a Megértés, a komplexitás, a modell értékelése érdekében a komplexitás egy modell, gyakran célszerű meghatározni, hogy a paraméterek száma, hogy az építészet lesz., Egy konvolúciós neurális hálózat egy adott rétegében a következőképpen történik:
az alábbi példában $f_1 = F_2 = 3$ és $s_1 = s_2 = 1$, ami $r_2 = 1 + 2\cdot 1 + 2\cdot 1 = 5$.
a Leggyakrabban használt funkciók aktiválása
Finomított Lineáris Egység A finomított lineáris egység réteg (ReLU) egy aktivációs függvény $g$ használt minden eleme a kötet. Célja a nem linearitás bevezetése a hálózatba., A változatokat az alábbi táblázatban foglaljuk össze:
Softmax a softmax lépés általánosított logisztikai függvénynek tekinthető, amely a $x\in\mathbb{R}^n$ pontszámok vektoraként veszi fel a $P\in\mathbb{R}^n$ kimeneti valószínűség vektorát az architektúra végén egy softmax függvény segítségével. Ez a következőképpen definiálható:
Objektumérzékelés
a modellek típusai 3 fő típusú objektumfelismerő algoritmus létezik, amelyek esetében az előrejelzett természet eltérő., They are described in the table below:
Image classification | Classification w., az objektum | • Észleli, hogy egy tárgy, egy kép • Jósolja valószínűsége, hogy a tárgy hol helyezkedik el |
• Észleli, akár több objektumot egy kép • Jósolja, valószínűségszámítás tárgyak, hol vannak található |
Hagyományos CNN | Egyszerűsített YOLO, R-CNN | YOLO, R-CNN |
Észlelési összefüggésben objektum észlelése, különböző módszereket használnak attól függően, hogy csak azt akarjuk, hogy keresse meg a tárgyat, vagy felismerni a bonyolultabb alakú a kép., A két legfontosabbat az alábbi táblázat foglalja össze:
kereszteződés az Union metszéspont felett az Union felett, más néven $ \ textrm{IoU}$, egy olyan funkció, amely számszerűsíti, hogy a $b_p$ előrejelzett határoló doboz mennyire helyesen van elhelyezve a $b_p$tényleges határoló doboz felett. A meghatározás a következő:
Horgonydobozok horgony boxing egy olyan technika, amelyet az átfedő határoló dobozok előrejelzésére használnak., A gyakorlatban, a hálózat hagyjuk megjósolni több mint egy doboz egyszerre, ahol minden doboz becslés van korlátozva, hogy egy adott sor geometriai tulajdonságok. Például az első becslés potenciálisan egy adott forma téglalap alakú doboza lehet, míg a második egy másik geometriai forma téglalap alakú doboza.
Non-max elnyomás a non-max elnyomás technika célja, hogy eltávolítsa ugyanazon objektum átfedő határolódobozait a legreprezentatívabb elemek kiválasztásával. Miután eltávolította az összes doboz, amelynek valószínűsége becslés kisebb, mint 0.,6, a következő lépéseket ismételjük meg, miközben vannak dobozok fennmaradó:
egy adott osztály,
* 1. lépés: Válassza ki a doboz a legnagyobb becslés valószínűsége.
* 2. lépés: dobjon el minden olyan dobozt, amelynek $ \ textrm{IoU} \ geqslant0. 5$ értéke van az előző mezővel.
YOLO csak egyszer néz ki (YOLO) egy objektumfelismerő algoritmus, amely a következő lépéseket hajtja végre:
• 1.lépés: ossza meg a bemeneti képet egy $g\times g$ rács.,
* 2. lépés: minden rácscellánál futtasson egy CNN-t, amely a következő űrlap $y$ – ját jósolja:
ahol $p_c$ egy objektum észlelésének valószínűsége, $b_x, b_y,b_h, b_w$ az észlelt bouding doboz, $c_1, tulajdonságai…,c_p$ egy egy forró ábrázolása, amely a $p$ osztályok észleltek, $k$ száma horgony dobozok.
* 3. lépés: futtassa a nem-max elnyomás algoritmust, hogy eltávolítsa az esetleges ismétlődő átfedő határoló dobozokat.,
r-CNN Régió konvolúciós neurális hálózatokkal (R-CNN) egy objektumérzékelő algoritmus, amely először szegmense a képet, hogy megtalálja a lehetséges releváns határoló dobozokat, majd futtassa a detektálási algoritmust, hogy megtalálja a legvalószínűbb objektumokat a azok a határoló dobozok.,
Megjegyzés: Bár az eredeti algoritmus számításilag drága és lassú, az újabb architektúrák lehetővé tették az algoritmus gyorsabb futtatását, mint például a gyors R-CNN és gyorsabb R-CNN.
Arcellenőrzés és felismerés
a modellek két fő típusát az alábbi táblázat foglalja össze:
arcellenőrzés | arcfelismerés |
• ez a megfelelő személy?, * egy-egy keresés |
* ez az egyik$ k $ személy az adatbázisban? • Egy-a-sok keresés |
Egy Lövés Tanulás Egy Lövés Tanulás arca ellenőrző algoritmus, amely egy korlátozott képzési állítani, hogy megtanulják a hasonlóság funkció, amely azt tükrözi, hogy mennyire más a két adott kép. A két képre alkalmazott hasonlósági függvény gyakran $d(\textrm{image 1}, \textrm{image 2}).,$
Neurális stílus átutalás
a Motiváció, A cél az idegi stílus átutalás, hogy létrehoz egy képet $G$ alapján egy adott tartalom, $C$, valamint egy adott stílus $S$.,
Aktiválás egy adott réteg $l$, az aktiválás kell jegyezni, $a^{}$ a méretek $n_H\alkalommal n_w\alkalommal n_c$
Megjegyzés: a stílus mátrix a stílus képet, majd a generált kép megjegyezte, $G^{(S)}$ illetve $G^{(G)}$ ill.,
a Teljes költség funkció A teljes költség funkcióval határozható meg, hogy egy kombinációja a tartalom, stílus költség funkciók súlyozott által paraméterek $\alpha\béta$, a következőképpen:
Megjegyzés: magasabb érték a $\alpha$ lesz, hogy a modell jobban érdekel a tartalom, míg egy magasabb értékű $\béta$ teszi, hogy jobban érdekel a stílus.,
Architektúrák használata számítógépes trükkök
Generatív Kontradiktórius Hálózati Generatív kontradiktórius hálózatok, más néven GANs, amely egy generatív egy diszkriminatív modell, ahol a generatív modell célja generál a legtöbb őszinte kimenet lesz táplálják be a diszkriminatív, amelynek az a célja, hogy különböztessük meg a generált igaz kép.
Megjegyzés,
ResNet a maradék hálózati architektúra (más néven ResNet) nagy számú réteggel rendelkező maradék blokkokat használ a képzési hiba csökkentésére. A maradék blokk a következő jellemző egyenlet:
Eredet Hálózat architektúra használ eredet modulok, valamint az a célja, hogy ad egy esélyt a különböző tekervényeit annak érdekében, hogy növelje a teljesítményt funkciók diverzifikáció. Különösen a $1\times1$ convolution trükköt használja a számítási teher korlátozására.