By Afshine Amidi ja Shervine Amidi
Yleistä
Arkkitehtuuri perinteinen CNN Convolutional neuroverkkojen, joka tunnetaan myös nimellä CNNs, ovat tietyntyyppistä neuroverkot, jotka ovat yleensä koostuu seuraavista kerroksista:
konvoluutio kerros ja jakava kerros voidaan hienosäätää suhteessa hyperparameters, jotka on kuvattu seuraavissa kohdissa.,
Tyypit kerros
Konvoluutio kerros (CONV) konvoluutio kerros (CONV) käyttää suodattimia, jotka suorittavat konvoluutio-operaatioita, koska se on skannaus input $I$ suhteessa sen mitat. Sen hyperparametrit sisältävät suodattimen koon $F$ ja stride $s$. Tuloksena olevaa tulosta $O$ kutsutaan ominaisuuskartaksi tai aktivointikartaksi.
Huomautus: konvoluutio vaihe voidaan yleistää 1D-ja 3D-tapauksissa.,
Yhdistäminen (ALLAS) yhdistämistä kerros (uima-ALLAS) on alasnäytteistys toiminta, tyypillisesti sovelletaan, kun konvoluutio kerros, joka tekee joitakin paikkatietojen invarianssi. Erityisesti Max-ja average pooling – yhdistelmät ovat erityisiä pooling-lajeja, joissa suurin ja keskimääräinen arvo otetaan vastaavasti.,ion valitsee suurin arvo nykyisen näkymän
• yleisimmin käytetty
• Käytetään LeNet
Täysin Kytketty (FC) täysin kytketty kerros (FC) toimii litteä tuloon, missä kumpikin tulo on kytketty kaikki neuronit., Jos läsnä, FC kerrokset löytyvät yleensä loppupuolella CNN arkkitehtuurit ja voidaan optimoida tavoitteita, kuten luokan pisteet.
Suodatin hyperparameters
konvoluutio kerros sisältää suodattimet, jota varten se on tärkeää tietää, merkitys takana sen hyperparameters.,
Mitat suodatin-suodattimen koko on $F\times F$ sovelletaan tuloon, joka sisältää $C$ kanavia on $F \times F \times C$ tilavuus, joka suorittaa convolutions tuloon koko $I \times I \times C$ ja tuottaa ominaisuus kartta (kutsutaan myös aktivointi kartta) koko $O \times O \times 1$.
Huomautus: sovellus on $K$ suodattimet koko $F\times F$ tuloksia lähtö ominaisuus kartta koko $O \times O \times K$.,
Voittajana Varten konvoluutio tai yhdistämällä toiminta, voittajana $S$ tarkoittaa pikselien määrä, jonka ikkuna liikkuu jokaisen operaation jälkeen.
Nolla-padding Nolla-padding tarkoittaa prosessia lisäämällä $P$ nollia kummallekin puolelle rajat input.,led alla:
Tuning hyperparameters
– Parametri yhteensopivuus konvoluutio kerros huomata, $en$ pituuden tulo tilavuus kokoa, $F$ pituus suodatin, $P$ määrä nolla täyte, $S$ stride, niin lähtö koko $O$ ominaisuus karttaa pitkin, että ulottuvuus on annettu:
Ymmärtäminen monimutkaisuus malli, jotta voidaan arvioida monimutkaisuus malli, se on usein hyödyllistä määrittää useita parametreja, jotka sen arkkitehtuuri on., Tietyssä kerros konvoluutio neuroverkko, se tehdään seuraavasti:
alla olevassa esimerkissä, meillä on $F_1 = F_2 = 3$ ja $S_1 = S_2 = 1$, joka antaa $R_2 = 1 + 2\cdot 1 + 2\cdot 1 = 5$.
Yleisesti käytetty aktivointi toiminnot
Korjattu Lineaarinen Yksikkö korjattu lineaarinen yksikkö kerros (ReLU) on aktivointi toiminto $g$, että käytetään kaikkien osien tilavuus. Sen tarkoituksena on tuoda verkostoon muita kuin lineaarisia piirteitä., Sen variantteja ovat esitetty alla olevassa taulukossa:
Softmax, Että softmax vaihe voidaan nähdä yleinen logistinen funktio, joka ottaa syötteenä vektori tulokset $x\in\mathbb{R}^n$ ja tuotosten vektori lähtö todennäköisyys $p\in\mathbb{R}^n$ kautta softmax-toiminto lopussa arkkitehtuuri. Se on määritelty seuraavasti:
Objektin havaitseminen
– Tyyppisiä malleja On 3 päätyyppiä esine tunnustamista algoritmit, joiden luonne, mitä on ennustettu, on erilainen., They are described in the table below:
Image classification | Classification w., esine | • Havaitsee esineen kuva • Ennustaa todennäköisyys esine ja missä se sijaitsee |
• Havaitsee jopa useita esineitä kuvassa • Ennustaa todennäköisyydet esineitä ja missä ne sijaitsevat |
Perinteinen CNN | Yksinkertaistettu YOLO, R-CNN | YOLO, R-CNN |
Havaitseminen yhteydessä objektin havaitseminen, eri menetelmiä käytetään riippuen siitä, onko haluamme vain etsi esine tai havaita monimutkaisempi muoto kuvan., Kaksi tärkeimmät ovat tiivisti alla olevassa taulukossa:
Risteyksen yli Unionin Risteyksen yli Unioni, joka tunnetaan myös nimellä $\textrm{Velkakirja}$, on funktio, joka määrittelee, miten oikein sijoitettu ennustettu bounding box $B_p$ on yli todellisen bounding box $B_a$. Se on määritelty seuraavasti:
Ankkuri laatikot Ankkuri nyrkkeily on tekniikka, jota käytetään ennustamaan päällekkäisiä rajaava laatikot., Käytännössä verkko on sallittu ennustaa enemmän kuin yksi laatikko samanaikaisesti, jos jokainen laatikko ennustaminen on pakko olla tietty joukko geometrisiä ominaisuuksia. Esimerkiksi, ensimmäinen ennustus voi mahdollisesti olla suorakulmainen laatikko tietyssä muodossa, kun taas toinen on toinen suorakulmainen laatikko erilainen geometrinen muoto.
Ei-max tukahduttaminen ei-max tukahduttaminen tekniikka pyritään poistamaan päällekkäisiä päällekkäisiä rajaava laatikot sama kohde valitsemalla edustavin niistä. Poistettuaan kaikki laatikot, joiden todennäköisyysennuste on pienempi kuin 0.,6. seuraavat vaiheet ovat toistuvia, kun on laatikot jäljellä:
tietyn luokan,
• Vaihe 1: Valitse laatikko, jossa suurin ennusteen todennäköisyys.
* Vaihe 2: hävitä mikä tahansa laatikko, jossa on $\textrm{IoU}\geqslant0.5$ edellisen laatikon kanssa.
YOLO katsot Vain Kerran (YOLO) on esine, havaitseminen algoritmi, joka suorittaa seuraavat vaiheet:
• Vaihe 1: Jaa input kuvan $G\times G$ verkkoon.,
• Vaihe 2: kunkin ruudukon soluun, suorita CNN ennustaa, että $y$ seuraavaa muotoa:
missä $p_c$ on todennäköisyys havaita objekti, $b_x,b_y,b_h,b$ ovat ominaisuuksia havaittu bouding laatikko, $c_1,…,c_p$ on yksi kuuma esitys, josta $p$ luokat havaittiin, ja $k$ on määrä ankkuri laatikot.
* Vaihe 3: Suorita non-max suppression algoritmi mahdollisten päällekkäisten pyöristysrasioiden poistamiseksi.,
T-CNN Alueen Convolutional neuroverkot (R-CNN) on esine, havaitseminen algoritmi, joka ensin segmentit kuvan löytää potentiaalia, jolla olisi merkitystä rajaava laatikot ja sitten ajaa tunnistus algoritmi löytää todennäköisin esineitä niitä rajaava laatikot.,
Huomautus: vaikka alkuperäinen algoritmi on laskennallisesti kallis ja hidas, uudemmat arkkitehtuurit käytössä algoritmi ajaa nopeammin, kuten Nopea R-CNN ja Nopeampi R-CNN.
Kasvot todentaminen ja tunnustaminen
– Tyyppisiä malleja on Kahta päätyyppiä: malli on tiivistetty taulukossa:
Kasvot todentaminen | kasvojentunnistus |
• Onko tämä oikea henkilö?, • Yksi-yhteen-haku |
• On tämä yksi $K$ henkilöiden tietokantaan? • Yksi-moneen-haku |
Yksi Laukaus Oppimisen Yksi Laukaus Oppiminen on kasvot tarkastus algoritmi, joka käyttää rajoitetun koulutuksen tarkoitus oppia samankaltainen toiminto, joka määrittelee kuinka erilaisia kaksi koska kuvat ovat. Kahteen kuvaan sovellettu samankaltaisuusfunktio mainitaan usein $d (\textrm{image 1}, \textrm{image 2}).,$
Hermo tyyli siirto
Motivaatio tavoite hermo tyyli siirto on tuottaa kuva, $G$, joka perustuu tietyn sisällön, $C$ ja tietyn tyylin $S$.,
Aktivointi tietyn kerroksen $l$, aktivointi on huomattava, $a^{}$ ja on mitat $n_H\times n_w\times n_c$
Huomautus: tyyliin matrix-tyyliin kuva ja luotu kuva on huomattava, $G^{(T)}$ ja $G^{(G)}$, vastaavasti.,
kokonaiskustannukset toiminnon kokonaiskustannukset toiminto on määritelty niin, että yhdistelmä sisältöä ja tyyliä kustannukset toiminnot, painotettu parametrit $\alpha,\beta$, seuraavasti:
Huomautus: korkeampi arvo $\alpha$ on tehdä malli välittävät enemmän sisältöä, kun taas suurempi arvo $\beta$ tekee se välittävät enemmän tyyliä.,
Arkkitehtuurit käyttäen laskennallisia temppuja
Generatiivinen Kontradiktorisen Verkko Generatiivinen kontradiktorisen networks, joka tunnetaan myös nimellä GANs, koostuvat generatiivinen ja erotteleva malli, jossa generatiivinen malli pyritään tuottamaan eniten totuudenmukainen tuotos, joka syötetään erotteleva jonka tarkoituksena on erottaa syntyy ja oikea kuva.
Huomautus: käytä tapauksissa käyttää variantteja GANs sisältää tekstiä, kuvan, musiikin tuotanto ja synteesi.,
ResNet Jäljellä Verkon arkkitehtuuri (kutsutaan myös ResNet) käyttää jäljellä lohkot, joissa on suuri määrä kerroksia tarkoitus vähentää koulutuksen virhe. Jäljellä oleva lohko on seuraavat kuvaavat yhtälö:
Lähtien Verkon arkkitehtuuri käyttää alusta moduulit, ja sen tavoitteena on antaa kokeilla eri convolutions jotta voidaan lisätä sen suorituskykyä ominaisuuksia monipuolistaminen. Erityisesti, se käyttää $1\times1$ konvoluutio temppu rajoittaa laskennallinen taakka.