astăzi, volumul de fotografii realizate de persoane cu camere de smartphone contestă limitele clasificării structurate. Este dificil pentru o persoană să-și clasifice propriul depozit de fotografii de smartphone, cu atât mai puțin să definească o taxonomie structurată pentru fotografiile tuturor.
pe Facebook, oamenii împărtășesc miliarde de fotografii în fiecare zi, ceea ce face dificilă derularea înapoi în timp pentru a găsi fotografii postate acum câteva zile, să nu mai vorbim de luni sau ani în urmă., Pentru a ajuta oamenii să găsească mai ușor fotografiile pe care le caută, echipa de căutare Foto Facebook a aplicat tehnici de învățare automată pentru a înțelege mai bine ce se află într-o imagine, precum și pentru a îmbunătăți procesul de căutare și regăsire.căutarea fotografiilor a fost construită cu Unicorn, un sistem de indexare în memorie și stocare flash conceput pentru a căuta trilioane de margini între zeci de miliarde de utilizatori și entități. Creat în urmă cu câțiva ani pentru a alimenta căutarea graficului social, Unicorn acceptă miliarde de interogări pe zi, alimentând mai multe componente în Facebook.,căutarea grafurilor a fost construită pentru a prelua obiecte din graficul social pe baza relațiilor dintre ele, cum ar fi „prietenii mei care locuiesc în San Francisco.”Acest lucru s-a dovedit a fi eficient, dar prezintă provocări inginerie când constrângerea de interogare la un subset relevant al, de sortare și de notare rezultatele pentru relevanta, precum și pentru a livra cele mai relevante rezultate. Pentru a spori această abordare, echipa de căutare foto a aplicat rețele neuronale profunde pentru a îmbunătăți acuratețea căutărilor de imagini pe baza conținutului vizual din fotografie și a textului care poate fi căutat.,
ce Căutare trebuie să înțeleagă despre fotografii
înțelegerea fotografiilor la scara Facebook prezintă o provocare diferită în comparație cu demonstrarea unor rate de eroare scăzute de recunoaștere a imaginilor în competiția Imagenet Challenge. Cercetarea aplicată a produs tehnici de învățare profundă de ultimă oră capabile să proceseze miliarde de fotografii pentru a extrage semnificație semantică căutabilă la scară enormă. Fiecare dintre fotografiile publice încărcate pe Facebook este procesată de un sistem distribuit în timp real numit image understanding engine.,
motorul de înțelegere a imaginii este o rețea neuronală profundă cu milioane de parametri care pot fi învățați. Motorul se bazează pe rețeaua reziduală profundă de ultimă generație, antrenată folosind zeci de milioane de fotografii cu adnotări. Poate prezice automat un set bogat de concepte, inclusiv scene, obiecte, animale, atracții și articole de îmbrăcăminte. Putem instrui modele și stoca informații utile din timp, ceea ce permite răspunsuri cu latență redusă la întrebările utilizatorilor.,
imaginea de înțelegere motor produce high-dimensional float vectori de trăsături semantice care sunt prea calcul intensiv pentru indexarea și căutarea de la Facebook e scară. Prin folosirea iterativ de cuantificare și localitate-sensibile hashing tehnologie, caracteristici suplimentare sunt comprimate într-un număr mic de biți, care încă mai păstrează cele mai multe dintre semantica. Reprezentarea bitului este utilizată ca încorporarea compactă a fotografiilor care pot fi folosite direct în clasament, regăsire și deduplicare foto., Încorporările compacte clasifică ordinea rezultatelor ca răspuns la interogarea de căutare. Este o tehnică similară aplicată căutării și recuperării documentelor, pentru care Unicorn a fost inițial creat, cu algoritmi diferiți aplicați straturilor profunde ale rețelei neuronale specifice căutării unei colecții de imagini la scară largă. Etichetele obiect și încorporările semantice populează Unicorn cu un index pentru interogările de căutare. O actualizare pentru a utiliza încorporări compacte pentru recuperarea latenței reduse este în curs de dezvoltare.,
utilizarea etichetelor și încorporărilor pentru modelare
Un model de clasificare complex aplicat întregului magazin foto nu este posibil, având în vedere scara Facebook și așteptările oamenilor pentru un răspuns rapid la întrebările lor. Un model de relevanță aplicat etichetelor și încorporărilor estimează relevanța și produce rezultate de interogare cu latență scăzută.relevanța conceptului
relevanța este evaluată cu interogări bogate și semnale de concept foto prin compararea seturilor de concepte cu o funcție de similitudine., De exemplu, conceptele de interogare sunt corelate direct cu conceptele unei fotografii pentru interogarea „Central Park” pentru a promova fotografii la subiect și a elimina fotografii off-topic în timpul clasamentului.
încorporarea relevanței
măsurarea directă a corelației conceptului dintre o interogare și un rezultat adesea nu este suficientă pentru a prezice cu exactitate relevanța. Modelul de relevanță care a fost dezvoltat exploatează învățarea multimodală pentru a învăța o încorporare comună între o interogare și o imagine.,
intrările la model sunt vectorii încorporați ai interogării și rezultatul fotografiei. Obiectivul instruirii este de a minimiza pierderea de clasificare. Fiecare vector este antrenat împreună și procesat de mai multe straturi ale unei rețele neuronale profunde pentru a produce un semnal binar, unde un rezultat pozitiv denotă o potrivire și unul negativ denotă un non-potrivire. Vectorii de interogare și de intrare foto sunt produși de rețelele lor separate, potențial cu un număr diferit de straturi. Rețelele pot fi instruite sau reglate fin împreună cu parametrii stratului de încorporare.,abordarea descrisă mai sus pentru a determina relevanța între o interogare și o fotografie este formulată ca o problemă de clasificare. Cu toate acestea, scopul principal al clasamentului este de a determina cea mai bună comandă pentru setul de rezultate foto. Am trecut dincolo de formularea clasificării și am folosit instruirea cu o pierdere de clasament care procesează o pereche de rezultate relevante și non-relevante pentru o singură interogare în același timp.după cum se arată în această figură, partea dreaptă a modelului este o copie profundă a părții din stânga; adică împărtășește aceeași structură și parametri de rețea., În timpul antrenamentului, o interogare și cele două rezultate ale acesteia sunt introduse în componentele din stânga și, respectiv, din dreapta. Imaginea pozitivă este clasată mai sus decât imaginea clasată negativ pentru o anumită interogare. Această strategie de formare arată câștiguri semnificative în clasamentul valorilor de calitate.
Interogare înțelegere aplicate Foto de Căutare
foto corpus este căutat cu Unicorn, cu embeddings aplicate de imagine înțelegere a motorului., Bitmap-ul este disociat de interogare și regăsire, cu excepția indexului utilizat pentru a prelua fotografia dacă semantica interogării aplicată încorporărilor produce o probabilitate mare de relevanță. Câteva dintre principalele semnale care joacă un rol în înțelegerea semanticii interogării sunt rezumate mai jos:
intențiile interogării sugerează ce tipuri de scene ar trebui să regăsim. De exemplu, o interogare cu intenția de a obține un animal ar trebui să arate rezultatele fotografiilor cu animalul ca subiect central.,analiza sintactică ajută la înțelegerea componentelor gramaticale ale unei propoziții, a părților de vorbire, a relațiilor sintactice și semantice. Interogările de căutare nu respectă, de obicei, gramatica unei limbi scrise, iar analizatorii existenți au performanțe slabe. Noi folosim tehnici de stat-of-the-art pentru formarea parte neuronale de taggers vorbire pe interogări de căutare.Entity linking ne ajută să identificăm fotografii despre concepte specifice, adesea reprezentate de o pagină; de exemplu, locuri sau emisiuni TV.
rescrierea cunoștințelor de interogare pentru a extrage concepte oferă o interpretare semantică a unei interogări., Conceptele nu numai că extind sensul interogării, ci și elimină decalajul dintre diferitele vocabulare utilizate de interogare și rezultat.
query embedding este o reprezentare continuă a spațiului vectorial al interogării. Acesta este învățat prin transfer de învățare pe partea de sus a word2vec reprezentare vectorială a cuvintelor, care hărți interogări similare la punctele din apropiere.
verticalele și rescrierea interogărilor
când cineva tastează o interogare și accesează căutarea, o solicitare este generată și trimisă serverelor noastre. Cererea merge mai întâi la nivelul web, care colectează diverse informații contextuale despre interogare., Interogarea și contextul asociat sunt trimise la un nivel agregator de top care rescrie interogarea într-o expresie s, care descrie apoi cum să preluați un set de documente de pe serverul de index.
pe baza intenției de interogare, un mecanism de declanșare este utilizat folosind un model de rețea neuronală pentru a decide care verticale — de exemplu, știri, fotografii sau videoclipuri — sunt relevante pentru a evita solicitările inutile procesate pe verticale mai puțin relevante., De exemplu, dacă o persoană interoghează termenul „pisici amuzante”, intenția ar căuta și returna mai multe rezultate din fotografiile verticale și ar sări peste interogarea rezultatelor din știrile verticale.dacă o interogare despre Halloween declanșează atât intenția pentru fotografii publice, cât și fotografiile prietenilor în costume de Halloween, vor fi căutate atât verticalele foto publice, cât și cele sociale. Fotografiile partajate între prietenii căutătorului și fotografiile publice clasificate ca relevante vor fi returnate. Două solicitări independente sunt făcute deoarece fotografiile sociale sunt foarte personalizate și necesită propria lor recuperare și notare specializată., Confidențialitatea fotografiilor este protejată prin aplicarea rezultatelor controalelor de confidențialitate la nivel de sistem ale Facebook. Diagrama de mai jos prezintă un modul în care secțiunea de sus este socială, iar partea de jos este publică.
Prima etapă de rang
După indicele serverele de preluare a documentelor potrivit s-exprimare, masina-aflat la prima etapă ranker este aplicat la aceste documente., Documentele top M cu cele mai mari scoruri sunt trimise înapoi la nivelul agregator rack, care efectuează un fel de îmbinare a tuturor documentelor pe care le primește și apoi returnează rezultatele top N la nivelul agregator top. Scopul principal al clasamentului din prima etapă este să vă asigurați că documentele returnate agregatorului rack păstrează relevanța interogării. De exemplu, pentru interogarea „câine”, fotografiile cu câini ar trebui să fie clasate mai sus decât cele fără câini. Latența din complexitatea etapei de regăsire și clasare este echilibrată pentru a servi fotografii relevante de ordinul milisecundelor.,
re-clasarea în a doua etapă
după ce documentele clasate sunt returnate agregatorului de top, acestea trec printr-o altă rundă de calcul, deduplicare și clasare a semnalelor. Semnalele care descriu distribuția întregului rezultat sunt calculate, detectând rezultatele periferice. În continuare, documentele sunt deduplicate de rezultate similare vizual folosind amprente de imagine. O rețea neuronală profundă marchează și clasează ordinea finală a rezultatelor fotografiei. Colecția de fotografii clasate, denumite un modul, este apoi trecut la UI pagina de rezultate.,
reglaj Fin relevanța ranking pentru Fotografie de Căutare
evaluarea de o relevanță are pentru o fotografie și invers este o problema de bază de Fotografie de Căutare, care se extinde dincolo de domeniul de aplicare de text pe bază de interogare rescrierea și de potrivire. Este nevoie de o înțelegere cuprinzătoare a interogării, autor, post text, și conținutul vizual al rezultatului foto., Avansate relevanța modele încorporează stat-of-the-art clasament, procesarea limbajului natural, și de viziune de calculator tehnici au fost dezvoltate pentru a ajusta relevanța acestor rezultate, oferindu-ne un roman de imagine sistem de taxonomie capabil de a oferi rapid, rezultate relevante la scară largă.