Pod kapotou: vyhledávání fotografií – Facebook Engineering

objem fotografií pořízených lidmi s fotoaparáty smartphonu dnes zpochybňuje limity strukturované kategorizace. Pro jednu osobu je obtížné kategorizovat vlastní úložiště fotografií smartphonu, mnohem méně definovat strukturovanou taxonomii pro fotografie každého.

na Facebook lidé sdílejí miliardy fotografií každý den, což je náročné posunout se zpět včas a najít fotografie zveřejněné před několika dny, natož před měsíci nebo lety., Pomoci lidem najít fotografie, které hledáte snadněji, Facebook Photo Search tým aplikované techniky strojového učení, aby lépe pochopit, co je v obrázku, stejně jako zlepšit vyhledávání a získávání procesu.

Photo Search byl postaven s Jednorožcem, v paměti a flash úložiště a indexování systém navržen tak, aby vyhledávání biliony hrany mezi desítky miliard uživatelů a subjektů. Vytvořeno před několika lety k moci sociální graf-aware Graf Vyhledávání, Jednorožec podporuje miliard dotazů za den, napájení více součástí v Facebook.,

Graph Search byl vytvořen pro načtení objektů ze sociálního grafu na základě vztahů mezi nimi, například „moji přátelé, kteří žijí v San Franciscu.“To se ukázalo být efektivní, ale představuje technické problémy, když omezující dotaz do příslušné podskupiny, třídění a vyhodnocování výsledků pro relevanci, a pak přináší nejrelevantnější výsledky. K rozšíření tohoto přístupu použil tým pro vyhledávání fotografií hluboké neuronové sítě ke zlepšení přesnosti vyhledávání obrázků na základě vizuálního obsahu na fotografii a prohledávatelného textu.,

Co hledat musí pochopit, o fotky

Pochopení fotografie na Facebook je měřítko představuje jinou výzvu ve srovnání s prokazují nízkou image-rozpoznávání míry chyb v Imagenet Challenge soutěž. Aplikovaný výzkum vyrábí špičkové hluboké techniky učení schopné zpracovat miliardy fotografií extrahovat vyhledávání sémantický význam v obrovském měřítku. Každá z veřejných fotografií nahraných na Facebook je zpracována distribuovaným systémem v reálném čase zvaným image understanding engine.,

motor pro porozumění obrazu je hluboká neuronová síť s miliony naučitelných parametrů. Motor staví na špičkové zbytkové síti využívající desítky milionů fotografií s anotacemi. Může automaticky předpovídat bohatou sadu konceptů, včetně scén, objektů, zvířat, atrakcí a oděvních předmětů. Můžeme trénovat modely a ukládat užitečné informace dopředu, což umožňuje odpovědi s nízkou latencí na dotazy uživatelů.,

obraz porozumění motor produkuje vysoce-dimenzionální float vektorů sémantické vlastnosti, které jsou příliš výpočetně náročná pro indexování a vyhledávání na Facebook měřítku. Využitím iterativní kvantizace a technologie hašování citlivé na lokalitu jsou funkce dále komprimovány do malého počtu bitů, které stále zachovávají většinu sémantiky. Bitová reprezentace se používá jako kompaktní vkládání fotografií, které lze přímo použít při hodnocení, vyhledávání a deduplikaci fotografií., Kompaktní vkládání řadí pořadí výsledků v reakci na vyhledávací dotaz. To je podobné metody použité k dokumentu vyhledávání a načítání, pro které Jednorožec byl původně vytvořen, s různými algoritmy aplikované na hluboké neuronové sítě vrstvy specifické pro vyhledávání v rozsáhlé kolekci snímků. Značky objektů a sémantické vkládání naplňují Unicorn indexem vyhledávacích dotazů. Aktualizace pro použití kompaktních vkládání pro vyhledávání s nízkou latencí je ve vývoji.,

Pomocí značek a embeddings pro modelování

komplexní hodnocení model aplikovat na celou fotografii obchodě, není možné vzhledem k tomu, Facebook je rozsah a očekávání lidí pro rychlé odpovědi na jejich dotazy. Model relevance aplikovaný na značky a vkládání odhaduje relevanci a vytváří výsledky dotazu s nízkou latencí.

relevance konceptu

Relevance je hodnocena pomocí signálů s bohatým dotazem a konceptem fotografií porovnáním koncepčních sad s funkcí podobnosti., Například koncepty dotazu přímo korelují s koncepty fotografie pro dotaz „Central Park“ k propagaci fotografií na téma a odstranění fotografií mimo téma během hodnocení.

Vkládání význam

Přímo měření pojem korelace mezi dotazu a výsledek často není dost, aby přesně předpovědět význam. Model relevance, který byl vyvinut, využívá multimodální učení, aby se naučil společné vkládání mezi dotazem a obrázkem.,

vstupy do modelu jsou vkládání vektory dotazu a fotografii výsledku. Cílem školení je minimalizovat ztrátu klasifikace. Každý vektor je spolu trénovali a zpracovány pomocí několika vrstev hluboké neuronové sítě produkovat binární signál, kde pozitivní výsledek značí shodu a negativní označuje non-match. Vektory pro zadávání dotazů a fotografií jsou vytvářeny jejich samostatnými sítěmi, potenciálně s různým počtem vrstev. Sítě mohou být vyškoleny nebo vyladěny společně s parametry vkládací vrstvy.,

vkládání se ztrátou hodnocení

přístup popsaný výše k určení relevance Mezi dotazem a fotografií je formulován jako klasifikační problém. Hlavním cílem žebříčku je však určit nejlepší pořadí pro sadu výsledků fotografií. Překročili jsme klasifikační formulaci a použili jsme školení se ztrátou hodnocení, která zpracovává dvojici relevantních a nerelevantních výsledků pro jeden dotaz současně.

jak je znázorněno na tomto obrázku, pravá část modelu je hluboká kopie levé části; to znamená, že sdílí stejnou síťovou strukturu a parametry., Během tréninku je dotaz a jeho dva výsledky přiváděny do levé a pravé součásti. Pozitivní obraz je hodnocen vyšší než negativně hodnocený obrázek pro daný dotaz. Tato strategie školení ukazuje významné zisky v metrikách kvality hodnocení.

Dotaz porozumění aplikovat na Fotografii Vyhledávání

fotografie korpus je vyhledávat s Jednorožcem, s embeddings nanáší obraz porozumění motoru., Rastrový obrázek je odtržený od dotazu a vyhledávání, s výjimkou indexu používá k načtení fotografií, pokud sémantika dotazu aplikuje na embeddings produkovat vysokou pravděpodobností relevantní. Některé z hlavních signálů, které hrají roli při pochopení sémantiky dotazu, jsou shrnuty níže:

záměry dotazu naznačují, které typy scén bychom měli načíst. Například dotaz s úmyslem získat zvíře by měl ukázat výsledky fotografií se zvířetem jako ústřední téma.,

syntaktická analýza pomáhá pochopit gramatické složky věty, části řeči, syntaktické vztahy a sémantické. Vyhledávací dotazy obvykle nedodržují gramatiku psaného jazyka a stávající analyzátory fungují špatně. Používáme nejmodernější techniky pro trénink neuronové části řečových taggerů na vyhledávací dotazy.

Entity linking nám pomáhá identifikovat fotografie o konkrétních konceptech, často reprezentovaných stránkou; například místa nebo televizní pořady.

přepisování znalostí dotazu pro extrahování konceptů poskytuje sémantickou interpretaci dotazu., Pojmy nejen rozšiřují význam dotazu, ale také překlenují mezeru mezi různými slovníky používanými dotazem a výsledkem.

vkládání dotazu je spojitá vektorová reprezentace prostoru dotazu. To se učí prostřednictvím přenosu učení na vrcholu word2vec vektorové reprezentace slov, který mapuje podobné dotazy k blízkým bodům.

Vertikály a dotaz přepisování

Když někdo napíše dotaz a hity vyhledávání, žádost je generována a odeslána na naše servery. Požadavek nejprve přejde na webovou úroveň, která shromažďuje různé kontextové informace o dotazu., Dotaz a související souvislosti pošlou do horní agregátor tier, která přepíše dotaz do s-výraz, který pak popisuje, jak načíst soubor dokumentů z indexu serveru.

na Základě dotazu záměr, spouštěcí mechanismus je zaměstnán pomocí neuronové sítě model se rozhodnout, který z vertikál — například, zprávy, fotky, či videa — jsou důležité, aby se zabránilo zbytečné žádosti zpracované na méně relevantní vertikály., Například, pokud osoba dotazuje termín „legrační kočky,“ záměr by Hledat a vrátit další výsledky z fotografií vertikální a přeskočit dotazování výsledky z vertikální zprávy.

Pokud dotaz na Halloween vyvolá záměr veřejných fotografií i fotografií přátel v Halloweenských kostýmech, budou prohledávány jak veřejné, tak sociální fotografické vertikály. Fotografie sdílené mezi přáteli hledajícího a veřejnými fotografiemi hodnocenými jako relevantní budou vráceny. Dva nezávislé požadavky jsou vyrobeny, protože sociální fotografie jsou vysoce personalizované a vyžadují vlastní specializované vyhledávání a bodování., Soukromí fotografií je chráněno použitím systémových kontrol soukromí Facebook k výsledkům. Níže uvedený diagram zobrazuje modul, kde je horní část sociální a spodní část je veřejná.

První etapa pořadí

Poté, co index servery načíst dokumenty podle s-výraz, stroj-naučil první fázi ranker je aplikován na ty dokumenty., Horní m dokumenty s nejvyšším skóre jsou zasílány zpět do úrovně agregátoru rack, který provádí sloučení všech dokumentů, které obdrží,a poté vrátí výsledky top N na nejvyšší úroveň agregátoru. Hlavním cílem hodnocení v první fázi je zajistit, aby dokumenty vrácené do agregátoru regálů zachovaly relevanci pro dotaz. Například pro dotaz „pes“ by fotografie se psy měly být hodnoceny výše než ty bez psů. Latence ze složitosti fáze vyhledávání a hodnocení je vyvážená tak, aby sloužila příslušným fotografiím v řádu milisekund.,

Druhá fáze re-pořadí

Po řadí dokumenty jsou vráceny na vrchol agregátor, jdou přes další kolo signály výpočet, deduplikace, a pořadí. Signály popisující rozdělení celého výsledku se vypočítají a detekují odlehlé výsledky. Dále jsou dokumenty deduplikovány vizuálně podobnými výsledky pomocí otisků prstů. Hluboká neuronová síť pak skóre a řadí konečné pořadí výsledků fotografií. Sbírka hodnocených fotografií, označovaných jako modul, je pak předána do uživatelského rozhraní stránky s výsledky.,

Jemné ladění relevance žebříčku pro Photo Search

posouzení dotazu relevance k fotografii a naopak je jádro problému Fotografii Vyhledávání, které přesahuje rozsah tohoto textu-na základě dotazu přepisování a odpovídající. Vyžaduje komplexní pochopení dotazu, autora, textu příspěvku a vizuálního obsahu výsledku fotografie., Pokročilé relevance modelů začlenit state-of-the-art pořadí, zpracování přirozeného jazyka, počítačové vidění techniky byly vyvinuty doladit relevance těchto výsledků, což nám román obraz taxonomie systém schopen dodávat rychle, relevantní výsledky na stupnici.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *