今日、スマートフォンのカメラを持つ人々が撮影した写真の量は、構造化された分類の限界に挑戦 一人の人がスマートフォンの写真の独自のリポジトリを分類することは困難であり、すべての人の写真の構造化された分類法を定義することは
Facebookでは、人々は毎日何十億もの写真を共有しており、数日前に投稿された写真を見つけるために時間内に後方にスクロールすることは困難です。, 人々が探している写真をより簡単に見つけられるようにするために、Facebookの写真検索チームは、機械学習の手法を適用して、画像の内容をよりよく理解し、検索と検索プロセスを改善しました。
写真検索は、数千億のユーザーとエンティティの間の何兆ものエッジを検索するように設計されたインメモリおよびフラッシュストレージインデックスシステムであるUnicornで構築されました。 ソーシャルグラフ認識グラフ検索に電力を供給するために数年前に作成されたUnicornは、Facebookの複数のコンポーネントに電力を供給する一日あたりのクエリ,
グラフ検索は、”サンフランシスコに住む私の友人”など、それらの間の関係に基づいてソーシャルグラフからオブジェクトを取得するために構築され”これは効果的であることが証明されていますが、クエリを関連するサブセットに制限し、関連性のある結果をソートしてスコアリングし、最も関連性の このアプローチを強化するために、写真検索チームはディープニューラルネットワークを適用して、写真の視覚コンテンツと検索可能なテキストに基づく画像検索,
検索が写真について理解する必要があるもの
Facebookの規模で写真を理解することは、Imagenet Challenge競争で低い画像認識エラー率を実証することと比 応用研究は、膨大な規模で検索可能な意味的意味を抽出するために数十億の写真を処理することができる最先端の深い学習技術を生み出しました。 Facebookにアップロードされた公開写真は、画像理解エンジンと呼ばれる分散リアルタイムシステムによって処理されます。,
画像理解エンジンは、何百万もの学習可能なパラメータを持つ深いニューラルネットワークです。 エンジンは、アノテーション付きの数千万枚の写真を使用して訓練された最先端の深い残留ネットワークの上に構築されています。 シーン、オブジェクト、動物、アトラクション、衣類などの豊富な概念セットを自動的に予測できます。 モデルを訓練し、有用な情報を事前に保存することができ、ユーザーのクエリに対する低遅延の応答を可能にします。,
画像理解エンジンは、Facebookのスケールでのインデックス作成や検索には計算量が多すぎる意味的特徴の高次元の浮動小数点ベクトルを生成します。 反復量子化と局所性に敏感なハッシュ技術を活用することにより、機能はさらに、ほとんどのセマンティクスを保持する少数のビットに圧縮されま ビット表現は、ランキング、検索、および写真重複排除に直接使用できる写真のコンパクトな埋め込みとして使用されます。, コンパクトな埋め込みは、検索クエリに応答して結果の順序をランク付けします。 これは、ユニコーンがもともと作成された文書検索および検索に適用される同様の技術であり、大規模な画像コレクションを検索するためのディープニューラルネットワーク層に異なるアルゴリズムを適用した。 のオブジェクトのタグおよび意味的埋め込みの読み込みユニコーンネットワークのための検索クエリ. 低遅延の検索にコンパクトな埋め込みを使用する更新プログラムは開発中です。,
モデリングにタグと埋め込みを使用する
Facebookの規模とクエリへの迅速な応答に対する人々の期待を考えると、写真ストア全体に適用される複雑 タグおよび埋め込みに適用される関連性モデルは、関連性を推定し、低遅延のクエリ結果を生成します。
概念の関連性
関連性は、概念セットを類似関数と比較することによって、豊富なクエリおよび写真の概念信号で評価されます。, たとえば、クエリの概念は、トピック上の写真を宣伝し、ランキング中にトピック外の写真を削除するために、クエリ”セントラルパーク”の写真の概念に直接相関されます。
関連性の埋め込み
クエリと結果との概念相関を直接測定するだけでは、関連性を正確に予測するには不十分です。 開発された関連性モデルは,クエリと画像の間の共同embeddingめ込みを学習するためにマルチモーダル学習を利用する。,
モデルへの入力は、クエリと写真の結果の埋め込みベクトルです。 学習の目的は、分類損失を最小限に抑えることです。 各ベクトルは一緒に訓練され、深いニューラルネットワークのいくつかの層によって処理され、正の結果は一致を示し、負の結果は一致しないことを示すバイナリ信号を生成する。 クエリと写真入力ベクトルは、潜在的に異なる数の層を持つ別々のネットワークによって生成されます。 ネットワークは、埋め込み層のパラメータと一緒に訓練または微調整することができます。,
ランキング損失を伴う埋め込み
クエリと写真との関連性を決定するための上記のアプローチは、分類問題として定式化される。 ただし、ランキングの主な目的は、写真の結果のセットの最適な順序を決定することです。 私たちは、分類定式化を超えて、単一のクエリに対して関連性のある結果と関連性のない結果のペアを同時に処理するランキングロスを伴うトレーニングを使用しました。
この図に示すように、モデルの右側の部分は左側の部分の深いコピーです。, トレーニング中に、クエリとその二つの結果がそれぞれ左と右のコンポーネントに供給されます。 正のイメージは、特定のクエリの負のイメージよりも高くランク付けされます。 このトレーニ
写真検索に適用されるクエリ理解
写真コーパスは、画像理解エンジンによって埋め込みが適用されたUnicornで検索可能です。, 埋め込みに適用されたクエリセマンティクスが関連性の高い確率を生成する場合、ビットマップは写真の取得に使用されるインデックスを除いて、クエリおよび検索と関連付けられません。 クエリのセマンティクスを理解する上で役割を果たす主要なシグナルのいくつかを以下に要約します。
クエリインテントは、どのタイプのシーンを取り出すべきかを提案します。 たとえば、動物を取得することを目的としたクエリでは、その動物を中心とした写真の結果を表示する必要があります。,
構文分析は、文の文法構成要素、品詞、構文関係、および意味を理解するのに役立ちます。 検索クエリは通常、書かれた言語の文法を観察せず、既存のパーサーのパフォーマンスが不十分です。 我々は、検索クエリ上の品詞タガーの神経を訓練するための最先端の技術を使用しています。
エンティティリンクは、場所やテレビ番組など、多くの場合、ページによって表される特定の概念についての写真を識別するのに役立ちます。
概念を抽出するためにクエリ知識を書き換えることは、クエリの意味的解釈を提供する。, 概念は、クエリの意味を拡張するだけでなく、クエリと結果で使用されるさまざまな語彙間のギャップを埋めます。
クエリ埋め込みは、クエリの連続ベクトル空間表現です。 これは、類似のクエリを近くのポイントにマッピングする単語のword2vecベクトル表現の上に転送学習を介して学習されます。
業種とクエリの書き換え
誰かがクエリを入力して検索をヒットすると、要求が生成され、サーバーに送信されます。 要求は最初にweb層に行き、web層はクエリに関するさまざまなコンテキスト情報を収集します。, クエリと関連するコンテキストは、クエリをs式に書き換える最上位のアグリゲータ層に送信され、インデックスサーバーから一連のドキュメントを取得
クエリの意図に基づいて、ニューラルネットワークモデルを使用して、関連性の低い業種で処理される不要な要求を避けるために、ニューラルネットワーク, たとえば、人が”funny cats”という用語を照会すると、意図は写真の垂直からより多くの結果を検索して返し、ニュースの垂直からの結果の照会をスキップします。
ハロウィーンに関するクエリが、公開写真とハロウィーンの衣装を着た友人の写真の両方の意図を引き起こす場合、公開写真とソーシャル写真の両 検索者の友人の間で共有された写真や、関連するものとしてランク付けされた公開写真は返されます。 二つの独立した要請が社会の写真の高いナノサイエンス-ナノテ必要とし、自己の専門検索と先制点を奪われます。, 写真のプライバシーの保護をFacebookのシライバシーコントロールします。 下図のように描モジュールの先頭部は社会の底ます。
第一段階ランキング
インデックスサーバーがs式に従って文書を取得した後、機械学習第一段階ランカーがそれらの文書に適用されます。, スコアが最も高い上位Mドキュメントはrack aggregator層に送り返され、受信したすべてのドキュメントのマージソートを実行し、上位N結果を最上位aggregator層に返します。 第一段階のランク付けの主な目的は、ラックアグリゲーターに返されたドキュメントがクエリとの関連性を維持することを確認することです。 たとえば、”dog”というクエリの場合、犬のいる写真は犬のいない写真よりも高くランク付けされる必要があります。 検索とランキング段階の複雑さからの待ち時間は、ミリ秒単位で関連する写真を提供するためにバランスがとられています。,
第二段階の再ランク付け
ランク付けされたドキュメントがトップアグリゲータに返された後、シグナル計算、重複排除、ランク付けの別のラウンド 結果全体の分布を記述する信号が計算され、外れた結果が検出されます。 次に、画像フィンガープリントを使用して、視覚的に類似した結果の重複排除を行います。 深い神経ネットワークをスコアの順位付の最後の写真。 ランク付けされた写真のコレクションは、モジュールと呼ばれ、結果ページUIに渡されます。,
写真検索の関連性ランキングの微調整
写真に対するクエリの関連性の評価は、テキストベースのクエリの書き換えとマッチング これは、クエリ、作成者、投稿テキスト、および写真の結果の視覚的なコンテンツの包括的な理解が必要です。, これらの結果の関連性を微調整するために、最先端のランキング、自然言語処理、およびコンピュータビジョン技術を組み込んだ高度な関連性モデルを開発し、迅速かつ関連性の高い結果を大規模に提供することができる新しい画像分類システムを与えた。