i Dag, volumet av bilder tatt av folk med kameraer smartphones utfordrer grensene for strukturert kategorisering. Det er vanskelig for en person å kategorisere sin egen samling av bilder smarttelefon, mye mindre å definere en strukturert taksonomi for alle bilder.
På Facebook, folk deler milliarder av bilder hver dag, noe som gjør det utfordrende å bla bakover i tid for å finne bilder lagt ut for noen dager siden, la alene måneder eller år siden., Å hjelpe folk til å finne bilder de er på jakt etter lettere, Facebook ‘ s Photo Søk team brukt maskinen lære teknikker for å bedre forstå hva som er i et bilde, samt forbedre søk og gjenfinning prosessen.
Bilde Søket ble bygget med Enhjørning, en i-minnekort og flash-lagring og indeksering system utviklet for å søke etter billioner av kantene mellom titalls milliarder av brukere og enheter. Opprettet for et par år siden til å drive den sosiale graf-klar Graph Search, Enhjørningen støtter milliarder av søk per dag slår flere komponenter i Facebook.,
Grafen Søk ble bygget for å hente gjenstander fra den sosiale grafen basert på relasjoner mellom dem, som for eksempel «Mine venner som bor i San Francisco.»Dette har vist seg å være effektive, men presenterer tekniske utfordringene ved å begrense søket til et relevant utvalg, sortering og scoring resultatene for relevans, og deretter levere de mest relevante resultatene. For å forsterke denne tilnærmingen, Foto Søk team anvendt dyp nevrale nettverk for å forbedre nøyaktigheten av bildet søk basert på visuelt innhold i foto og søkbar tekst.,
Hva søker du trenger å forstå om bilder
Forstå bilder på Facebook skala presenterer ulike utfordring sammenlignet med demonstrere lave bilde-anerkjennelse feil priser i Imagenet Challenge konkurransen. Anvendt forskning har produsert cutting-edge dyp lære teknikker som kan behandle milliarder av bilder for å trekke ut søkbar semantisk mening på enorm skala. Hver av de offentlige bilder som lastes opp til Facebook er blitt behandlet av en distributed real-time system kalt bildet forståelse motor.,
bilde forståelse motoren er en dyp nevrale nettverk med millioner av learnable parametere. Motoren bygger på toppen av state-of-the-art dyp gjenværende nettverk trent bruker titalls millioner av bilder med kommentarer. Det kan automatisk forutsi et rikt sett av begreper, inkludert scener, gjenstander, dyr, attraksjoner og klær. Vi kan trene modeller og lagre nyttig informasjon i forkant av tid, noe som gjør at low-latency svar på brukerens spørsmål.,
bilde forståelse motoren produserer high-dimensjonale flyte vektorer av semantiske funksjoner som er for beregninger intensiv for indeksering og søking på Facebook skala. Ved å utnytte iterativ kvantisering og lokaliteten er følsomme for nummerering teknologi, funksjoner er mer komprimert til et lite antall bits som har bevart mest av semantikk. Litt representasjon som er brukt som kompakt innebygging av bilder som kan bli direkte ansatt i rangeringen, henting og bilde deduplisering., Den kompakte embeddinger rang rekkefølgen av resultater i respons til søk. Det er en lignende teknikk som anvendes for å dokumentere søk og gjenfinning, som Unicorn ble opprinnelig opprettet, med ulike algoritmer brukes til dyp nevrale nettverk lag bestemt å søke en omfattende samling av bilder. Objektet koder og semantisk embeddinger fylle Unicorn med en indeks for søk. En oppdatering for å bruke kompakt embeddinger for lavlatens henting er under utvikling.,
ved Hjelp av koder og embeddinger for modellering
En kompleks rangering modell som anvendes til hele bildet butikken er ikke mulig gitt Facebook skala og folks forventninger om rask respons på sine henvendelser. En relevant modell som anvendes til koder og embeddinger estimater relevans og produserer lav latens søkeresultater.
– Konseptet relevans
Relevansen vurderes med rik spørring og foto konseptet signaler ved å sammenligne konseptet stiller med en likhet funksjon., For eksempel spørringen konsepter er direkte korrelert til et bilde er konsepter for spørringen «Central Park» for å fremme on-topic bilder og fjerne off-topic bilder under rangeringen.
Innebygging relevans
Direkte måling konseptet korrelasjon mellom en spørring og et resultat ofte er ikke nok til å forutsi nøyaktig relevans. Relevansen modellen som ble utviklet utnytter multimodal lære å lære en felles forankringen mellom en spørring og et bilde.,
input til modellen er innebygging vektorer av spørringen, og bildet resultat. Målet med opplæringen er å minimere klassifisering tap. Hver vektor er trent sammen og behandlet av flere lag i en dyp nevrale nettverk til å produsere et binært signal, hvor et positivt resultat indikerer en kamp og negative betegner et ikke-kampen. Spørringen og fotoinput-vektorer er produsert av sine egne nettverk, potensielt med et ulikt antall lag. Nettverkene kan være trenet eller finjustert sammen med parametere for innebygging lag.,
Innebygging med rangering tap
Den tilnærmingen som er beskrevet ovenfor for å avgjøre relevans mellom en spørring og et bilde er formulert som en klassifisering problem. Men, det viktigste målet for rangeringen er å finne den beste rekkefølgen for å sette av foto resultater. Vi gikk utover klassifisering formulering og brukes trening med en rangering tap som behandler et par relevante og ikke-relevante resultater for en enkelt spørring på samme tid.
Som vist i denne figuren, den høyre delen av modellen er en dyp kopi av den venstre delen, som er det aksjer det samme nettverket struktur og parametere., Under trening, en spørring og de to resultatene er matet inn i venstre og høyre komponenter, henholdsvis. Det positive bildet er rangert høyere enn negativt rangert bildet for en gitt spørring. Denne opplæringen strategien viser betydelige gevinster i rangeringen kvalitet beregninger.
Spørring forståelse brukt til Foto Søk
bilde corpus er søkbare med Unicorn, med embeddinger brukt av bildet forståelse motor., Bitmap er disassociated fra søk og gjenfinning bortsett fra indeksen brukes til å hente bildet hvis spørringen semantikk brukt til embeddinger produsere en høy sannsynlighet for relevans. Noen av de viktigste signalene som spiller en rolle i å forstå semantikk av spørringen er oppsummert nedenfor:
Spørring praktiske foreslå hvilke typer scener vi skal hente. For eksempel, en spørring med den hensikt å få et dyr skal vise bilde resultater med dyret som et sentralt tema.,
Syntaktisk analyse hjelper til å forstå en setning er grammatisk bestanddeler, deler av talen, syntaktiske forhold, og semantisk. Søk vanligvis ikke overholder grammatikk av en skriftlig språk, og eksisterende parsere fungerer dårlig. Vi bruker state-of-the-art teknikker for opplæring av nevrale del av tale taggers på søk.
Enhet som knytter hjelper oss med å finne bilder om bestemte konsepter, ofte representert ved en side, for eksempel, steder eller TV-serier.
Omskriving spørring kunnskap til å trekke ut konsepter gir en semantisk tolkning av en spørring., Begrepene ikke bare utvide søket mening, men også bygge bro mellom ulike vocabularies brukes av spørring og resultat.
Spørring innebygging er en kontinuerlig vector space representasjon av spørringen. Det er lært via overføre læring på toppen av word2vec vektor representasjon av ord, som kart lignende spørsmål til nærliggende punkter.
Vertikaler og søke å skrive
Når noen skriver en spørring og treffer søk, en forespørsel som er generert og sendt til våre servere. Forespørselen først går til web-tier, som samler ulike kontekstuelle informasjon om spørringen., Spørringen og tilhørende kontekst blir sendt til en topp aggregator tier som omskriver søk i en s-uttrykk, som deretter beskriver hvordan du kan hente ut et sett av dokumenter fra index server.
Basert på spørringen hensikt, en utløsende mekanismen er brukt ved hjelp av en nevrale nettverk modell for å bestemme hvilke kategorier — for eksempel nyheter, bilder eller videoer som er relevante for å unngå unødvendige forespørsler behandles på mindre relevante kategorier., For eksempel, hvis en person spørringer begrepet «morsomme katter,» hensikten ville søke og gå tilbake flere resultater fra bilder vertikalt og hoppe spørring resultater fra nyheter vertikal.
Hvis du har et spørsmål om Halloween utløser både den hensikt for offentlige bilder og bilder av venner i Halloween-kostymer, både offentlige og sosiale bilde vertikaler vil bli søkt. Bilder som er delt mellom søkerens venner og offentlige bilder rangert som er relevante vil bli returnert. To uavhengige forespørsler blir gjort fordi sosiale bilder er svært personlig og krever sine egne spesialiserte henting og scoring., Foto personvern er beskyttet ved å bruke Facebook er totalt privacy controls for resultatene. Diagrammet nedenfor viser en modul hvor den øverste delen er sosiale og bunnen er offentlig.
Første-etappe rangering
Etter at indeksen servere hente dokumenter i henhold til s-uttrykk, maskin-lærte første-etappe ranker er brukt i disse dokumentene., Topp M dokumenter med de høyeste poengsummene blir sendt tilbake til rack aggregator tier, som utfører fletting sortering av alle dokumenter som det mottar og deretter returnerer topp N-resultater til toppen aggregator tier. Det viktigste målet i den første fasen ranking er å sørge for at dokumenter som skal returneres til stativet aggregator bevare relevans i forhold til spørringen. For eksempel, for spørringen «hund»,» bilder med hunder bør bli rangert høyere enn de uten hunder. Ventetid fra kompleksiteten av henting og rangering scenen er balansert til å levere relevante bilder på rekkefølgen av millisekunder.,
Andre-scenen re-ranking
Etter rangerte dokumentene returneres til toppen aggregator, kan de gå gjennom en ny runde av signaler beregning, deduplisering, og ranking. Signalene som beskriver fordelingen av hele resultatet er beregnet, oppdage ytre resultater. Neste, dokumenter deduplicated av visuelt lignende resultater ved hjelp av image fingeravtrykk. En dyp nevrale nettverk da score og rangerer den endelige rekkefølgen på bilde resultater. Innsamling av rangert bilder, referert til som en modul, sendes deretter til resultater side UI.,
Fin-tuning relevans rangering for Foto Søk
vurderingen av en spørring relevans til et bilde, og vice versa, er kjernen av problemet Foto Søk som strekker seg utover omfanget av tekst-baserte spørring omskriving og matching. Det krever en helhetlig forståelse av spørringen, forfatter, post tekst og visuelle innholdet av bildet som resultat., Avansert relevans modeller med state-of-the-art rangering, natural language processing og maskin visjon teknikker som ble utviklet for å finjustere relevansen av disse resultatene, noe som gir oss en roman bilde taksonomiske system i stand til å levere rask, relevant resultater i stor skala.