Under hætten: fotosøgning-Facebook Engineering

i dag udfordrer mængden af fotos taget af personer med smartphone-kameraer grænserne for struktureret kategorisering. Det er vanskeligt for en person at kategorisere deres eget lager af smartphone-fotos, meget mindre at definere en struktureret taksonomi for alles fotos.

på Facebook deler folk milliarder af fotos hver dag, hvilket gør det udfordrende at rulle tilbage i tide for at finde fotos, der blev sendt for et par dage siden, endsige måneder eller år siden., For at hjælpe folk med at finde de fotos, de leder efter lettere, anvendte Facebook ‘ s Fotosøgningsteam maskinindlæringsteknikker for bedre at forstå, hvad der er i et billede, samt forbedre søgnings-og hentningsprocessen.

Foto-Søgning blev bygget med Enhjørning, en in-memory-og flash-lagring, indeksering system designet til at søge billioner af kanter mellem snesevis af milliarder af brugere og enheder. Oprettet for et par år siden for at drive den sociale graf-a .are graf søgning, understøtter Unicorn milliarder af forespørgsler om dagen, der driver flere komponenter i Facebook.,

graf søgning blev bygget for at hente objekter fra den sociale graf baseret på forholdet mellem dem, såsom “mine venner, der bor i San Francisco.”Dette har vist sig at være effektivt, men præsenterer tekniske udfordringer, når man begrænser forespørgslen til en relevant delmængde, sorterer og scorer resultaterne for relevans og derefter leverer de mest relevante resultater. For at øge denne tilgang anvendte Fotosøgningsteamet dybe neurale netværk for at forbedre nøjagtigheden af billedsøgninger baseret på visuelt indhold på billedet og søgbar tekst.,

hvilken søgning skal forstå om fotos

forståelse af fotos på Facebook ‘ s skala præsenterer forskellige udfordringer sammenlignet med at demonstrere lave billedgenkendelsesfejlfrekvenser i Imagenet Challenge-konkurrencen. Anvendt forskning har produceret avancerede dybe læringsteknikker, der er i stand til at behandle milliarder af fotos for at udtrække søgbar semantisk betydning i enorm skala. Hver af de offentlige billeder uploadet til Facebook behandles af et distribueret realtidssystem kaldet image understanding engine.,

image understanding engine er et dybt neuralt netværk med millioner af lærbare parametre. Motoren bygger oven på det avancerede dybe restnetværk, der er trænet ved hjælp af titusinder af millioner fotos med kommentarer. Det kan automatisk forudsige et rigt sæt koncepter, herunder scener, objekter, dyr, attraktioner og beklædningsgenstande. Vi kan træne modeller og gemme nyttige oplysninger på forhånd, hvilket muliggør svar med lav latenstid på brugerforespørgsler.,

billedet forståelse motor producerer høj-dimensionelle float vektorer af de semantiske funktioner, der er for regnekraft, til indeksering og søgning på Facebook ‘ s skala. Ved at udnytte iterativ kvantisering og lokalitetsfølsom hashing-teknologi komprimeres funktionerne yderligere til et lille antal bits, der stadig bevarer det meste af semantikken. Bitrepræsentationen bruges som den kompakte indlejring af de fotos, der kan anvendes direkte i ranking, hentning og foto deduplikering., De kompakte indlejringer rangerer rækkefølgen af resultater som svar på søgeforespørgslen. Det er en lignende teknik anvendt til dokumentsøgning og hentning, som Unicorn oprindeligt blev oprettet til, med forskellige algoritmer anvendt på de dybe neurale netværkslag, der er specifikke for at søge i en stor samling af billeder. Objektmærkerne og semantiske indlejringer befolker enhjørning med et indeks for søgeforespørgsler. En opdatering til at bruge kompakte indlejringer til hentning med lav latens er under udvikling.,

ved Hjælp af tags og embeddings for modellering

En kompleks placering model, der anvendes til hele fotoforretning er ikke muligt, da Facebook ‘ s skala, og folks forventninger til et hurtigt svar på deres spørgsmål. En relevansmodel anvendt på tags og indlejringer estimerer relevans og producerer lav latenstid forespørgselsresultater.

Konceptrelevans

relevans vurderes med rige forespørgsels-og fotokoncept-signaler ved at sammenligne konceptsættene med en lighedsfunktion., For eksempel er forespørgselskoncepterne direkte korreleret med et fotos koncepter for forespørgslen “Central Park” for at promovere on-topic-fotos og fjerne off-topic-fotos under rangeringen.

Indlejringsrelevans

direkte måling af konceptkorrelationen mellem en forespørgsel og et resultat er ofte ikke nok til nøjagtigt at forudsige relevans. Relevansmodellen, der blev udviklet, udnytter multimodal læring for at lære en fælles indlejring mellem en forespørgsel og et billede.,

indgangene til modellen er indlejringsvektorer for forespørgslen og fotoresultatet. Formålet med uddannelse er at minimere klassificering tab. Hver vektor trænes sammen og behandles af flere lag i et dybt neuralt netværk for at producere et binært signal, hvor et positivt resultat betegner en kamp, og negativt en betegner en ikke-match. Forespørgsels-og fotoindgangsvektorerne produceres af deres separate netværk, potentielt med et andet antal lag. Netværkene kan trænes eller finjusteres sammen med parametrene for indlejringslaget.,

indlejring med ranking tab

fremgangsmåden beskrevet ovenfor for at bestemme relevansen mellem en forespørgsel og et foto er formuleret som et klassifikationsproblem. Hovedmålet med rangeringen er imidlertid at bestemme den bedste ordre for sæt af fotoresultater. Vi gik ud over klassificeringsformulering og brugte træning med et rangeringstab, der behandler et par relevante og ikke-relevante resultater for en enkelt forespørgsel på samme tid.

som vist i denne figur er den højre del af modellen en dyb kopi af den venstre del; det vil sige, den deler den samme netværksstruktur og parametre., Under træning føres en forespørgsel og dens to resultater ind i henholdsvis venstre og højre komponenter. Det positive billede rangeres højere end det negativt rangerede billede for en given forespørgsel. Denne træningsstrategi viser betydelige gevinster i rangeringskvalitetsmålinger.

Forespørgselsforståelse anvendt til fotosøgning

fotokorpuset kan søges med enhjørning, med de indlejringer, der anvendes af billedforståelsesmotoren., Bitmapet adskilles fra forespørgsel og hentning bortset fra det indeks, der bruges til at hente billedet, hvis forespørgselssemantikken anvendt på indlejringerne giver en høj sandsynlighed for relevans. Nogle af de vigtigste signaler, der spiller en rolle i forståelsen af semantikken i forespørgslen, er opsummeret nedenfor:

Forespørgselsformål antyder, hvilke typer scener vi skal hente. For eksempel skal en forespørgsel med det formål at få et dyr vise fotoresultater med Dyret som et centralt emne.,syntaktisk analyse hjælper med at forstå en sætnings grammatiske bestanddele, dele af tale, syntaktiske relationer og semantisk. Søgeforespørgsler overholder normalt ikke grammatikken i et skriftligt sprog, og eksisterende parsere klarer sig dårligt. Vi bruger avancerede teknikker til at træne neurale dele af taletaggere på søgninger.

Enhedslinking hjælper os med at identificere fotos om specifikke koncepter, ofte repræsenteret af en side; for eksempel steder eller TV-Sho .s.omskrivning af forespørgselsviden til at udtrække koncepter giver en semantisk fortolkning af en forespørgsel., Begreber ikke kun udvide forespørgslen betydning, men også bygge bro mellem forskellige ordforråd bruges af forespørgsel og resultat.

Forespørgselsindlejring er en kontinuerlig vektorrumsrepræsentation af forespørgslen. Det læres via transfer learning oven på representationord2vec vektor repræsentation af ord, som kortlægger lignende forespørgsler til nærliggende punkter.

vertikaler og omskrivning af forespørgsler

når nogen skriver en forespørgsel og rammer søgning, genereres en anmodning og sendes til vores servere. Anmodningen går først til webeb-tier, som indsamler forskellige kontekstuelle oplysninger om forespørgslen., Forespørgslen og den tilhørende kontekst sendes til et top aggregator-niveau, der omskriver forespørgslen til et s-udtryk, som derefter beskriver, hvordan man henter et sæt dokumenter fra indeksserveren.

baseret på forespørgselsformålet anvendes en udløsningsmekanisme ved hjælp af en neuralt netværksmodel til at bestemme, hvilke vertikaler — for eksempel nyheder, fotos eller videoer — der er relevante for at undgå unødvendige anmodninger, der behandles på mindre relevante vertikaler., For eksempel, hvis en person spørger udtrykket “sjove katte,” hensigten ville søge og returnere flere resultater fra fotos lodret og springe forespørgsler resultater fra ne .s lodret.

Hvis en forespørgsel om Halloween udløser både den hensigt, for offentlige billeder og fotos af venner i Halloween-kostumer, både de offentlige og sociale foto brancher, vil der blive søgt. Fotos, der deles blandt søgerens venner og offentlige fotos, der er rangeret som relevante, returneres. To uafhængige anmodninger fremsættes, fordi sociale fotos er meget personlige og kræver deres egen specialiserede hentning og scoring., Photo privacy er beskyttet ved at anvende Facebook ‘ s systemwideide privacy controls til resultaterne. Diagrammet nedenfor viser et modul, hvor den øverste sektion er social og bunden er offentlig.

første trin ranking

Når indeksserverne henter dokumenter i henhold til S-udtrykket, anvendes den maskinlærede første trin ranker på disse dokumenter., De øverste m-dokumenter med de højeste score sendes tilbage til rack aggregator-niveauet, som udfører fusionssorten af alle dokumenter, den modtager, og returnerer derefter de øverste n-resultater til top aggregator-niveauet. Hovedmålet med den første trins placering er at sikre, at dokumenterne, der returneres til rackaggregatoren, bevarer relevansen af forespørgslen. For eksempel for forespørgslen “hund” skal billederne med hunde rangeres højere end dem uden hunde. Latensen fra kompleksiteten af hentning og ranking fase er afbalanceret til at tjene relevante billeder på rækkefølgen af millisekunder.,

anden fase ranking

når de rangerede dokumenter er returneret til den øverste aggregator, går de gennem en anden runde med signalberegning, deduplikering og rangering. Signalerne, der beskriver fordelingen af hele resultatet, beregnes og detekterer afsidesliggende resultater. Dernæst dedupliceres dokumenterne af visuelt lignende resultater ved hjælp af billedfingeraftryk. Et dybt neuralt netværk scorer og rangerer derefter den endelige rækkefølge af fotoresultaterne. Samlingen af rangerede fotos, benævnt et modul, overføres derefter til resultatsiden UI.,

Fin-tuning relevant placering for Photo Search

Den vurdering af en forespørgsel, der er relevant for et foto, og vice versa, er et centralt problem for Foto-Søgning, der rækker ud over anvendelsesområdet for tekst-baserede query omskrivning og matchning. Det kræver en omfattende forståelse af forespørgslen, forfatteren, postteksten og det visuelle indhold af fotoresultatet., Avancerede relevansmodeller, der inkorporerer avanceret placering, naturlig sprogbehandling, og computervisionsteknikker blev udviklet til at finjustere relevansen af disse resultater, hvilket giver os et nyt billedta .onomisystem, der er i stand til at levere hurtigt, relevante resultater i skala.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *