ma az okostelefon-kamerákkal rendelkező emberek által készített fotók mennyisége megkérdőjelezi a strukturált kategorizálás határait. Egy ember számára nehéz kategorizálni az okostelefon-fényképek saját tárházát, sokkal kevésbé definiálni egy strukturált taxonómiát mindenki fotói számára.
a Facebook-on az emberek naponta milliárdnyi fényképet osztanak meg, ami kihívást jelent az időben visszafelé görgetni, hogy néhány nappal ezelőtt közzétett fényképeket találjanak, nem is beszélve hónapokról vagy évekkel ezelőtt., Annak érdekében, hogy az emberek könnyebben megtalálhassák a keresett fényképeket, a Facebook Fotókeresési csapata gépi tanulási technikákat alkalmazott, hogy jobban megértse, mi van a képen, valamint javítsa a keresési és visszakeresési folyamatot.
fotó keresés épült Unicorn, egy memória-és flash tároló indexelő rendszer célja, hogy keressen billió élek között több tízmilliárd felhasználó és szervezetek. Létrehozott néhány évvel ezelőtt, hogy a hatalom a szociális grafikon-aware Graph Search, Unicorn támogatja milliárd lekérdezések naponta bekapcsolja több komponenst Facebook.,
Graph Search épült letölteni tárgyakat a szociális grafikon alapján a köztük lévő kapcsolatok, mint például a “barátaim, akik élnek San Francisco.”Ez hatékonynak bizonyult, de mérnöki kihívásokat jelent, amikor a lekérdezést egy adott részhalmazra korlátozza, osztályozza és pontozza az eredményeket a relevancia szempontjából, majd átadja a legrelevánsabb eredményeket. Ennek a megközelítésnek a fokozása érdekében a Fotókeresők mély neurális hálózatokat alkalmaztak, hogy javítsák a képkeresések pontosságát a fénykép vizuális tartalma és a kereshető szöveg alapján.,
milyen keresésnek kell megértenie a fényképeket
A fényképek megértése a Facebook skáláján más kihívást jelent, mint az Imagenet Challenge verseny alacsony képfelismerési hibáinak bemutatásával szemben. Alkalmazott kutatás készített élvonalbeli mély tanulási technikák képes feldolgozás milliárd fotók kivonat kereshető szemantikai jelentése a hatalmas léptékű. A Facebook-ra feltöltött nyilvános fényképeket egy elosztott valós idejű rendszer dolgozza fel, a képmegértési motor.,
Az image understanding engine egy mély neurális hálózat, több millió tanulható paraméterrel. A motor a legmodernebb mélymaradványhálózatra épül, amelyet több tízmillió fotó felhasználásával képeztek jegyzetekkel. Ez automatikusan megjósolni a gazdag fogalmak, beleértve jelenetek, tárgyak, állatok, látnivalók, ruházati cikkek. A modelleket képezhetjük és hasznos információkat tárolhatunk idő előtt, ami lehetővé teszi az alacsony késleltetésű válaszokat a felhasználói lekérdezésekre.,
A kép megértése motort gyárt magas dimenziós float vektor a szemantikai jellemzők, amelyek túl számítási intenzív az indexelés, valamint a keresés a Facebook ez a skála. Kihasználva iteratív kvantálási s településen-érzékeny hasító technológia, a funkciók további tömörítve egy kis bitek száma, amely még ma is őrzi a legtöbb szemantika. A bit reprezentáció a képek kompakt beágyazása, amely közvetlenül alkalmazható a rangsorolásban, a visszakeresésben és a fotó deduplikációban., A kompakt beágyazások rangsorolják az eredmények sorrendjét a keresési lekérdezésre válaszul. Ez egy hasonló technikát alkalmazni, hogy a dokumentum felderítés, amelyre Egyszarvú eredetileg, a különböző algoritmusok alkalmazása a mély neurális hálózati réteg-specifikus keresés a nagyszabású gyűjtés a képeket. Az objektumcímkék és szemantikai beágyazások az Unicorn-t egy keresési lekérdezések indexével töltik fel. Fejlesztés alatt áll egy frissítés a kompakt beágyazások használatához az alacsony késleltetésű visszakereséshez.,
címkék és beágyazások használata a modellezéshez
a teljes fotótárolóra alkalmazott összetett rangsorolási modell nem lehetséges, mivel a Facebook skálája és az emberek elvárásai gyors választ adnak a lekérdezéseikre. A címkékre és beágyazásokra alkalmazott relevanciamodell becsüli a relevanciát, és alacsony késleltetésű lekérdezési eredményeket eredményez.
koncepció relevanciája
a relevanciát gazdag lekérdezési és fotókoncepciójelekkel értékelik úgy, hogy összehasonlítják a koncepciókészleteket egy hasonlósági funkcióval., Például a lekérdezés fogalmak közvetlenül összefügg, hogy egy fotó koncepciók a lekérdezés “Central Park”, hogy támogassák a témában képeket, majd távolítsa el off-topic fotók során a rangsorban.
beágyazási relevancia
a lekérdezés és az eredmény közötti összefüggés közvetlen mérése gyakran nem elegendő a relevancia pontos előrejelzéséhez. A kifejlesztett relevanciamodell kihasználja a multimodális tanulást egy lekérdezés és egy kép közös beágyazásának megtanulására.,
a modell bemenetei a lekérdezés beágyazó vektorai és a fotó eredménye. A képzés célja az osztályozási veszteség minimalizálása. Minden vektort egy mély neurális hálózat több rétege képez együtt és dolgozza fel egy bináris jel előállítására, ahol a pozitív eredmény egyezést, a negatív pedig egy nem egyezést jelöl. A lekérdező – és fotóbeviteli vektorokat külön hálózataik állítják elő, potenciálisan különböző rétegekkel. A hálózatok képezhetők vagy finomhangolhatók a beágyazási réteg paramétereivel együtt.,
beágyazása rangsor veszteség
a fent leírt megközelítés relevanciájának meghatározására egy lekérdezés és egy fotó fogalmazták meg, mint egy osztályozási probléma. A rangsor fő célja azonban a legjobb sorrend meghatározása a fotó eredmények halmazához. Túlmentünk a besoroláson, és olyan rangsor-veszteséget alkalmaztunk, amely egyszerre dolgozza fel a releváns és nem releváns eredményeket egyetlen lekérdezéshez.
ahogy ez az ábra mutatja, a modell jobb oldala a bal oldali rész mély példánya; vagyis azonos hálózati struktúrával és paraméterekkel rendelkezik., A képzés során egy lekérdezést, valamint annak két eredményét a bal, illetve a jobb komponensekbe táplálják. A pozitív kép rangsorolva magasabb, mint a negatívan rangsorolt kép egy adott lekérdezés. Ez a képzési stratégia jelentős nyereséget mutat a minőségi mutatók rangsorolásában.
lekérdezési megértés a Fotókereséshez
a fotó corpus egyszarvúval kereshető, a képmegértési motor által alkalmazott beágyazásokkal., A bittérkép elkülönül a lekérdezéstől és a lekérdezéstől, kivéve a fénykép lekéréséhez használt indexet, ha a beágyazásokra alkalmazott lekérdezési szemantika nagy valószínűséggel releváns. A lekérdezés szemantikájának megértésében szerepet játszó főbb jeleket az alábbiakban foglaljuk össze:
lekérdezési szándékok azt sugallják, hogy milyen típusú jeleneteket kell letölteni. Például egy olyan lekérdezésnek, amelynek célja az állat megszerzése, központi témaként meg kell mutatnia az állat fényképeit.,
a szintaktikai elemzés segít megérteni egy mondat nyelvtani összetevőit, beszédrészeit, szintaktikai kapcsolatait és szemantikáját. A keresési lekérdezések általában nem tartják be az írott nyelv nyelvtanát, a meglévő paszterek pedig rosszul teljesítenek. Az általunk használt state-of-the-art technikák képzés neurális része beszéd tőrök a keresési lekérdezések.
az entitás összekapcsolása segít azonosítani az egyes fogalmakkal kapcsolatos fényképeket, amelyeket gyakran egy oldal képvisel; például helyek vagy TV-műsorok.
a lekérdezési ismeretek átírása a fogalmak kibontásához egy lekérdezés szemantikai értelmezését biztosítja., A fogalmak nemcsak kiterjesztik a lekérdezés jelentését, hanem áthidalják a lekérdezés és az eredmény által használt különböző szókincsek közötti szakadékot is.
a lekérdezés beágyazása a lekérdezés folyamatos vektortér-ábrázolása. A word2vec vektoros ábrázolása a szavak átvitelén keresztül tanulható meg, amely hasonló lekérdezéseket térképez a közeli pontokhoz.
Verticals and query rewriting
amikor valaki beírja a lekérdezést, és eléri a keresést, egy kérés keletkezik és elküldésre kerül a szervereinkre. A kérés először a webes szintre kerül, amely különböző kontextuális információkat gyűjt a lekérdezésről., A lekérdezés és a kapcsolódó környezet egy felső aggregátor réteghez kerül elküldésre, amely újraírja a lekérdezést egy s-kifejezésre, amely ezután leírja, hogyan lehet letölteni egy dokumentumkészletet az indexkiszolgálóról.
a lekérdezési szándék alapján egy neurális hálózati modell segítségével egy kiváltó mechanizmust alkalmaznak annak eldöntésére, hogy mely függőlegesek — például hírek, fényképek vagy videók — relevánsak a kevésbé releváns függőlegeken feldolgozott felesleges kérések elkerülése érdekében., Például, ha valaki megkérdezi a “vicces macskák” kifejezést, akkor a szándék a vertikális fotókból további eredményeket keres, majd kihagyja a függőleges hírek lekérdezési eredményeit.
Ha a Halloweenről szóló lekérdezés mind a nyilvános fotók, mind a Halloween jelmezben lévő barátok fényképeinek szándékát kiváltja, akkor mind a nyilvános, mind a közösségi fotó függőlegeseket keresni fogják. A keresők barátai között megosztott fotók, valamint a relevánsnak minősített nyilvános fotók visszakerülnek. Két független kérést azért tesznek, mert a közösségi fotók rendkívül személyre szabottak, és saját speciális visszakeresést és pontozást igényelnek., A fotó magánéletét védi a Facebook rendszerszintű adatvédelmi ellenőrzéseinek alkalmazása az eredményekre. Az alábbi ábra egy modult ábrázol, ahol a felső rész társadalmi, az alsó pedig nyilvános.
Első szakasz rangsor
Miután az index szerverek letölteni dokumentumok szerint az s-kifejezés, a gép-megtanultam, első lépcsőben közlegény alkalmazzák azokat a dokumentumokat., A legmagasabb pontszámokkal rendelkező felső m-dokumentumokat visszaküldik a rack aggregátor réteghez, amely elvégzi az összes kapott dokumentum egyesítését, majd visszaadja a felső N eredményeket a felső aggregátor réteghez. Az első szakasz rangsorolásának fő célja annak biztosítása, hogy a rack aggregátorhoz visszaküldött dokumentumok megőrizzék a lekérdezés relevanciáját. Például a “kutya” lekérdezéshez a kutyákkal készített fényképeket magasabbra kell rangsorolni, mint a kutyák nélküliek. A visszakeresési és rangsorolási szakasz összetettségéből adódó késleltetés kiegyensúlyozott, hogy a releváns fényképeket ezredmásodpercek sorrendjében szolgálja ki.,
második szakasz újbóli rangsorolása
miután a rangsorolt dokumentumokat visszaadták a felső aggregátornak, egy másik jelszámítási, deduplikációs és rangsorolási körön mennek keresztül. A teljes eredmény eloszlását leíró jeleket kiszámítjuk, felderítve a külső eredményeket. Ezután a dokumentumokat vizuálisan hasonló eredményekkel deduplikálják a kép ujjlenyomataival. A mély neurális hálózat ezután pontozza és rangsorolja a fotó eredményeinek végső sorrendjét. A gyűjtemény rangsorolt fotók, a továbbiakban a modul, majd át az eredmények oldalon UI.,
finomhangoló relevancia rangsor a Fotókereséshez
a lekérdezés relevanciájának értékelése egy fotóra, és fordítva a fotókeresés alapvető problémája, amely túlmutat a szövegalapú lekérdezések átírásának és egyeztetésének hatókörén. Ez megköveteli, hogy átfogó megértése a lekérdezés, szerző, post szöveg, vizuális tartalom a fotó eredménye., Speciális jelentősége modellek beépítése a state-of-the-art rangsor, természetes nyelvi feldolgozás, valamint a számítógépes látás technikákat fejlesztettek ki, hogy finomítsa a jelentőségét azok az eredmények, ad nekünk egy regény kép osztályozási rendszer képes kiadni gyorsan, releváns találatokat a skála.