후드:사진 검색 Facebook 엔지니어링

,오늘 볼륨의 사람들이 찍은 사진으로 스마트폰의 카메라 도전의 한계를 구축한 분류. 그것은 어려운 한 사람을 분류하는 자신의 저장소의 스마트폰 사진,훨씬 적은을 정의 구조적 분류에 대한 모든 사람의 사진.

On Facebook,사람들이 공유하는 수십억의 사진,매일 그것을 만드는 도전적인 스크롤 뒤에는 시간을 찾아 사진을 몇 일 전에 혼자 달이나 몇 년 전입니다., 하는 데 도움이 사람들을 찾아 사진을 더 쉽게 Facebook 의 사진을 검색 팀이 적용한 기계 학습 기법을 보다 명확하게 이해하기 위해서 뿐만 아니라 이미지 개선의 검색 프로세스.

사진이 검색되었으로 내장 유니콘서는 플래시 메모리 저장소 인덱싱 시스템 디자인을 검색 조는 가장자리의 간에는 수십 억의 사용자와 entities. 만들어 몇 년 전에 전력을 사회적 그래프 인식 그래프 검색,유니콘을 지원하는 수십억의 쿼리가 하루 전에 여러 구성 요소를 Facebook.,

그래프이 검색되었장하는 개체를 검색하는 사회 그래프 사이의 관계를 기반으로,그와 같이”라고 나서 샌프란시스코.”이것은 검증된 효과적인 것만 제공 엔지니어링 도전할 때 제한 쿼리를 관련 하위 집합으로 정렬하고 득점을 결과에 대한 관련성,그리고 다음을 전달하는 가장 관련성 높은 결과를 제공합니다. 을 증강하는 이 방법이 사진 검색 팀이 적용한 깊은 신경 네트워크의 정확성을 향상시키기 위해 이미지 검색 기반으로 영상 콘텐츠에 사진 및 검색 가능한 텍스트입니다.,

어떤 검색 요구에 대해 이해하는 사진을

이해에 사진 Facebook 규모의 제공 다른 도전에 비해 함께 보여주는 낮은 이미지-인식 오류가 요금에 Imagenet Challenge competition. 응용 연구가 생산하는 최첨단 깊은 학습 기법을 처리할 수 있는 수십억의 사진을 추출물 검색할 수 있는 의미에는 엄청난 규모이다. Facebook 에 업로드 된 공개 사진 각각은 이미지 이해 엔진이라는 분산 된 실시간 시스템에 의해 처리됩니다.,

이미지 이해 엔진은 수백만 개의 학습 가능한 매개 변수가있는 깊은 신경망입니다. 엔진은 주석이있는 수천만 장의 사진을 사용하여 훈련 된 최첨단 심층 잔여 네트워크 위에 구축됩니다. 장면,사물,동물,관광 명소 및 의류 품목을 포함한 풍부한 개념 세트를 자동으로 예측할 수 있습니다. 모델을 교육하고 유용한 정보를 미리 저장할 수 있으므로 사용자 쿼리에 대한 대기 시간이 짧은 응답이 가능합니다.,

이미지를 이해 엔진 생성 높은 차원 플로트 벡터의 의미하는 기능도 계산에 대한 집중적인 인덱싱 및에서 검색 Facebook 의 규모이다. 을 활용하여 반복적 양자화와 지역 민감한 해싱하는 기술,기능이 추가로 압축된 소수의 비트는 여전히 보존하는 가장 의미입니다. 비트 표현은 순위,검색 및 사진 중복 제거에 직접 사용될 수있는 사진의 소형 임베딩으로 사용됩니다., 컴팩트 임베딩은 검색 쿼리에 대한 응답으로 결과 순서의 순위를 매 깁니다. 그것은 유사한 기술을 적용하여 문서를 검색하는 유니콘가 원래 만든 다른 적용되는 알고리즘을 깊은 신경 네트워크 계층에 특정한 검색 큰 규모의 컬렉션의 이미지입니다. 개체 태그 및 의미 임베딩은 유니콘을 검색 쿼리의 인덱스로 채 웁니다. 대기 시간이 짧은 검색을 위해 소형 임베딩을 사용하는 업데이트가 개발 중입니다.,

태그를 사용하고 포함해 모델링

복잡한 순위 모델에 적용된 전체 사진 저장이 가능하지 않은 주어진 Facebook 의 규모로 사람들의 기대에 대한 빠른 응답을 쿼리를 처리합니다. 태그 및 임베딩에 적용된 관련성 모델은 관련성을 추정하고 지연 시간이 짧은 쿼리 결과를 생성합니다.

개념 관련

관련성 평가와 함께 풍부한 쿼리와 사진이 개념에 의해 신호 비교하는 개념 설정과 유사성은 기능이다., 예를 들어,쿼리를 개념은 직접적인 연관성이 사진의 개념에 대한 쿼리를”중앙 공원을 촉진하는 방법”을 참조하십시에 항목을 사진을 제거 off-topic 사진 동안 순위가 있습니다.

포함한 관련성

직접 측정하는 개념이 사이의 상관 관계를 쿼리하고 그 결과 자주는 아니지만 충분히 정확하게 예측하는 관련이 없는 것입니다. 개발 된 관련성 모델은 쿼리와 이미지 사이의 공동 임베딩을 배우기 위해 다중 모드 학습을 이용합니다.,

입력 모델에는 포함하의 벡터 쿼리와 사진 결과입니다. 훈련의 목적은 분류 손실을 최소화하는 것입니다. 각 벡터 함께 훈련 및 처리에 의해 여러 층의 깊은 신경 네트워크를 생산하는 바이너리,신호는 긍정적 결과를 나타낸다고 부정적인 중 하나를 나타냅 non-일치합니다. 쿼리 및 사진 입력 벡터는 별도의 네트워크에 의해 생성되며 잠재적으로 다른 수의 레이어가 있습니다. 네트워크는 임베딩 레이어의 매개 변수와 함께 훈련되거나 미세 조정될 수 있습니다.,

포함 순위 손실

이 방법 위에서 설명을 결정 관련 검색어와 사진을 공식화했으로 분류 문제입니다. 그러나 순위의 주요 목표는 사진 결과 집합에 가장 적합한 순서를 결정하는 것입니다. 우리는 넘어 갔 분류 수립 및 사용되는 훈련과 순위 손실을 처리하는 한 쌍의 관련성 및 비-관련성에 대한 쿼리를 동시에.

이 그림에서 알 수 있듯이,오른쪽 부분의 모델은 깊이의 복사본을 왼쪽 부분은,그것을 공유하는 동일한 네트워크 구조와 매개 변수입니다., 훈련하는 동안 쿼리와 그 두 결과는 각각 왼쪽 및 오른쪽 구성 요소에 공급됩니다. 긍정적 인 이미지는 주어진 쿼리에 대해 부정적으로 순위가 매겨진 이미지보다 높은 순위가 매겨집니다. 이 교육 전략은 품질 메트릭의 순위에 상당한 이득을 보여줍니다.

쿼리를 이해에 적용되는 사진을 검색

사진 코퍼스 검색 유니콘으로의 포함에 의해 적용되는 이미지를 이해 엔진입니다., 비트맵와 연결되어 있지 않습니다.쿼리 및 검색을 제외하고 사용되는 인덱스를 검색하 사진 경우 쿼리를 의미를 적용하여 포함을 생성 가능성이 높은 관련성. 몇몇의 주요 신호를 재생하는 역할을 이해의 의미를 쿼리를 요약하면 다음과 같습니다.

쿼리를 의도를 제안하는 유형의 장면 우리는 해야를 식별하는 데 도움이됩니다. 예를 들어,동물을 얻으려는 의도가있는 쿼리는 동물과 함께 사진 결과를 중심 주제로 표시해야합니다.,

구문 분석은 문장의 문법적 구성 요소,품사,구문 관계 및 의미 론적 이해를 돕습니다. 검색 쿼리는 일반적으로 서면 언어의 문법을 준수하지 않으며 기존 파서는 제대로 수행되지 않습니다. 우리는 검색 쿼리에 음성 태거의 신경 부분을 훈련 최첨단 기술을 사용합니다.

엔티티는 링크를 식별하는 데 도움이 사진에 대한 구체 개념,종종로 표시되는 페이지 예를 들면,장소,또는 TV 를 보여줍니다.

개념을 추출하기 위해 쿼리 지식을 다시 작성하는 것은 쿼리의 의미 론적 해석을 제공합니다., 개념은 쿼리 의미를 확장 할뿐만 아니라 쿼리와 결과에 사용되는 다른 어휘 간의 격차를 해소합니다.

쿼리 임베딩은 쿼리의 연속 벡터 공간 표현입니다. 그것은 가까운 지점에 유사한 쿼리를 매핑 단어의 word2vec 벡터 표현의 상단에 전송 학습을 통해 학습됩니다.

수직 및 쿼리 재 작성

누군가가 쿼리를 입력하고 검색을 치면 요청이 생성되어 서버로 전송됩니다. 요청은 먼저 쿼리에 대한 다양한 문맥 정보를 수집하는 웹 계층으로 이동합니다., 쿼리와 관련된 컨텍스트 전송하는 최고 집계층 다시 쓰는 쿼리로는 s-식음을 설명하는 방법을 검색 설정에서 문서의 인덱스 서버입니다.

쿼리를 기반으로 의도,방아쇠를 당기는 메커니즘을 고용하여 신경 네트워크 모델을 결정하는 수직 예를 들어,뉴스,사진 또는 동영상들은 관련 불필요한 요청을 처리에 관련성이 적습니다., 예를 들어,사람의 경우 쿼리를 용어는”재미있는 고양이”의도 검색하고 더 많은 결과를 반환에서는 사진 수직 및 건너뛰기를 쿼리하는 결과 뉴스에서 수직입니다.

경우 쿼리에 대한 할로윈 트리거 모두 의도에 대한 공개 사진 및 사진을 친구의 할로윈 의상을 모두 공개하고 사회적 사진 카테이 검색합니다. 검색 자의 친구 사이에서 공유 된 사진과 관련성이 높은 것으로 순위가 매겨진 공개 사진이 반환됩니다. 두 개의 독립적인 요청이 있기 때문에 사회의 사진은 매우 개인하고 필요로 하는 전문 검색 및 점수가 있습니다., 진 개인정보 보호를 적용하여 Facebook 의 시스템 전체 개인 정보 보호 컨트롤 결과입니다. 아래 다이어그램은 상단 섹션이 소셜이고 하단이 공개 된 모듈을 보여줍니다.

첫 번째 단계 순위

후 인덱스 서버에서 문서를 검색에 따라 s-식 machine-배운 첫 번째 단계 ranker 에 적용되는 그 문서입니다., 위 M 문서 높은 점수는 없다는 것을 보여주기 위해 선반 aggregator 층 수행합 병합 정렬 모든 문서의를 받은 다음 반환 상단 N 결과를 최고 aggregator 계층입니다. 1 단계 순위의 주요 목표는 랙 애그리 게이터로 반환 된 문서가 쿼리와의 관련성을 유지하는지 확인하는 것입니다. 예를 들어”개”쿼리의 경우 개가있는 사진은 개가없는 사진보다 순위가 높아야합니다. 검색 및 순위 단계의 복잡성에서 대기 시간은 밀리 초의 순서에 관련 사진을 제공하기 위해 균형된다.,

두 번째 단계는 다시 순위

후 위 서류는 반환 상단 aggregator,그들의 또 다른 라운드를 통해 신호를 계산,중복 제거,그리고 순위가 있습니다. 전체 결과의 분포를 설명하는 신호가 계산되어 외곽 결과를 감지합니다. 다음으로,문서는 이미지 지문을 사용하여 시각적으로 유사한 결과를 중복 제거합니다. 그런 다음 깊은 신경망은 사진 결과의 최종 순서를 채점하고 순위를 매 깁니다. 그런 다음 모듈이라고 불리는 순위가 매겨진 사진 모음이 결과 페이지 UI 로 전달됩니다.,

미세 조정하는 연관성 사진을 검색

의 평가 쿼리의 관련성 사진이 반대로 핵심적인 문제점의 사진을 검색하는 것이다:의 범위를 넘어 텍스트 기반의 쿼리를 다시 쓰기와 일치합니다. 쿼리,작성자,게시물 텍스트 및 사진 결과의 시각적 내용에 대한 포괄적 인 이해가 필요합니다., 고급 관련성 모델을 통합하 state-of-the-art 순위,자연언어 처리 및 컴퓨터 시각 기술이 개발되었을 정밀 조정의 관련성 그 결과,주는 우리 소설은 이미지 분류 시스템을 제공 할 수있는 빠르고,관련성이 높은 결과에서는 규모입니다.