本文へスキップ

オブジェクト検出

200以上の新しいオブジェクトクラスを備えたオブジェクト検出サブシステムは、Lightshipのコンテクスト・アウェアネス機能を強化し、現実世界のオブジェクトが画面に現れると動的に更新されるセマンティックラベル付きの2Dバウンディングボックスを作成します。 それぞれのバウンディングボックスについて、サブシステムは画像の中央の正方形クロップを処理し、次にすべてのサブクラスについて独立した予測を行い、検出された物体がそれぞれのサブクラスに属する確率を返す。 また、Lightshipのオブジェクト検出では、人物、手、人間の顔に対する検出のトレーニング方法を説明するモデルカードも提供されています。

Image with Bounding Boxes around Detected Objects

基本的な使い方

Lightship の ARObjectDetectionManager をシーンに配置し、ObjectDetectionsUpdated イベントを購読することで、開発者はリアルタイムの検出情報を XRDetectedObjects の形式で受け取ることができます。 MetadataInitialized`イベントをリッスンして、モデルが使用可能になったときにオブジェクトクラスのリストを受け取ることもできます。

また、ARObjectDetectionManagerのフレームレートを調整することで、パフォーマンスを節約したり、より高速にオブジェクトを検出したりすることができる。

Image displaying ARObjectDetectionManager properties

オブジェクト検出カテゴリー

備考

各クラスの確率は独立して計算されますが、各カテゴリーのサブクラスは、それぞれのカテゴリークラスをトレーニングするために使用されます。 このため、オブジェクトは特定のサブクラスではなく、カテゴリークラスに属するとして検出されることがあります。 例えば、フレンチホルンは、 フレンチホルン金管楽器楽器 というカテゴリークラスに属する確率が高いと判定されます。

カテゴリーサブクラス
航空機飛行機、ヘリコプター、熱気球、パラシュート、ロケット
建物の特徴ドア、ドアハンドル、窓
車、タクシー
屋外家具樽、ベンチ、看板、消火栓、旗、駐車メーター、彫刻、雪だるま、街灯、信号機、ゴミ箱
車両車両、自転車、船、バス、車、カート、オートバイ、タクシー、電車、トラック、車輪、車椅子
水の特徴噴水、プール
アクセサリーリュックサック、メガネ、ハンドバッグ、傘
衣類コート、ドレス(ワンピース)、シャツ、ショーツ、スカート、靴下、スーツ、ネクタイ、ズボン
靴類靴類、ローラースケート
帽子類帽子類、フェドラ帽
楽器アコーディオン、金管楽器、ドラム、フルート、ギター、ピアノ、弦楽器、バイオリン
楽器フレンチホルン、サクソフォン、トロンボーン、トランペット
弦楽器バンジョー、チェロ、ハープ、ギター、バイオリン
食べ物食品、りんご、バナナ、ベリー、パン、ブロッコリー、ケーキ、にんじん、チーズ、柑橘類、ココナッツ、デザート、ドーナツ、たまご、ファストフード、ぶどう、ハンバーガー、ホットドッグ、アイスクリーム、キノコ、洋梨、ピザ、かぼちゃ、サンドウィッチ、寿司、トマト
ベリーベリー、ラズベリー、いちご
柑橘類柑橘類、グレープフルーツ、レモン、ライム、オレンジ
デザートデザート、ケーキ、ドーナツ、アイスクリーム
ファストフードファストフード、フライドポテト、ホットドッグ、ピザ、ハンバーガー、サンドウィッチ
かぼちゃかぼちゃ、ズッキーニ
飲料(ドリンク)飲料(ドリンク)、温かい飲み物(ホットドリンク)、ジュース
温かい飲み物(ホットドリンク)お茶、コーヒー(カップに入っている場合に認識される)
電化製品ヘアードライヤー、電子レンジ、オーブン、冷蔵庫、トースター
調理鍋フライパン、圧力鍋、スロークッカー(低温調理器)、ワッフルメーカー、中華鍋
屋内家具家具、ベッド、椅子、クリスマスツリー、ソファ、カーテン、ポスター、棚、収納棚、テーブル
水差し水差し、ティーポット(急須)
ランプランプ、ろうそく
家庭設備浴槽、暖炉、シンク、水栓、トイレ
その他本、ボトル、ボウル、箱、大砲、箸、効果、カップ、植木鉢、フォーク、ナイフ、ペン、枕、皿、鉢植え、はさみ、頭蓋骨、スプーン、缶詰、歯ブラシ、ワイングラス
画面画面、コンピュータ・ディスプレイ、タブレット、テレビ
スポーツボールスポーツボール、サッカーボール、ラグビーボール、テニスボール
スポーツ用品野球バット、野球グローブ、フリスビー、凧、パドル、スケートボード、スキー、スノーボード、テニスラケット
テクノロジーカメラ、時計、コンピューター・キーボード、コンピューター・マウス、ヘッドフォン、マイク、電話、リモコン、腕時計
おもちゃおもちゃ、人形、テディベア
動物動物、アルパカ、クマ、大型ネコ科動物、鳥、ラクダ、猫、牛、ワニ、鹿、犬、イルカ、象、魚、カエル、キリン、金魚、カバ、馬、クラゲ、カンガルー、パンダ、オウム、豚、ホッキョクグマ、ウサギ、爬虫類、サイ、アザラシ、羊、甲殻類、リス、カメ、水鳥、クジラ、シマウマ
大型ネコ科動物チーター、ジャガー、ヒョウ、ライオン、オオヤマネコ、トラ
鳥、オウム、水鳥
ラクダ科アルパカ、ラクダ、リャマ
ワニワニ、アリゲーター
鹿アンテロープ、鹿、ムース
花、バラ、ひまわり
ロバ、馬、ラバ
昆虫昆虫、蝶
魚、金魚、クラゲ、マンタ、タツノオトシゴ、甲殻類、イカ
爬虫類爬虫類、ワニ、カメ
海生哺乳類アザラシ、アシカ、セイウチ
山羊、羊
甲殻類カニ、ロブスター、カキ、エビ、カタツムリ、ヒトデ
カメカメ、ウミガメ、リクガメ
水鳥アヒル、ガチョウ、白鳥
人物人物、人の顔、人の手

Person Detection Model Card v0.4

モデルの詳細

  • モデルの最終更新日: 2024年2月29日
  • モデルバージョン: v0.4
  • ライセンス: Lightshipの利用規約をご参照ください。

技術仕様

オブジェクト検出モデルは、一連のバウンディングボックスを返し、そのボックスが人物、人の手、または人の顔である確率を報告します。

使用目的

想定されるユースケース

  • 画像内の人物(具体的には人の手や顔)を識別する。
  • 画像内の人物、人の手、または人の顔の有無をクエリで確認する。

認定ユーザー

Niantic Lightshipを通じた拡張現実開発者。

対象外のユースケース

このモデルを使用して、次のことを行うことは できません

  • 個人を追跡する
  • 個人を識別または認識する

要素

Lightship ARDKに含まれるすべてのオブジェクト検出(人物の検出を含む)に対して、以下の要素が適用されます。

  • スケール: オブジェクトやクラスがカメラから非常に離れている場合、検出されないことがあります。
  • 照明 : 極端な光条件下では、全体的な性能に影響を及ぼす可能性があります。
  • ビューポイント : 学習時に捉えられていない極端なカメラビューは、誤検知やクラスの混同につながる恐れがあります。
  • オクルージョン: 他のオブジェクトで覆われているオブジェクトは、検出されないことがあります。
  • モーションブラー(被写体のぶれ) : 高速なカメラやオブジェクトの動きは、モデルのパフォーマンス低下につながる場合があります。
  • ちらつき: 時間的に隣接するフレーム間の予測で「ジッタリング」効果が生じることがあります。

特に人物の検出に関しては、コンピュータービジョン技術における既知の問題に基づいて、次のサブグループに関する考えられる要因を特定します。

  • 地理的地域
  • 肌の色
  • 性別
  • 身体姿勢 : 身体姿勢によっては、トレーニングコーパスへの出現頻度が低く、予測が難しい場合があります。
  • その他: 年齢、ファッションスタイル、アクセサリー、体の変化など。

公平性の評価

Niantic では、Lightshipのテクノロジーのインクルージョンと公平性を実現するために、モデルの構築や評価、展開において平等性と公平性の厳格な基準に従っています。私たちは、人物検出の公平性について、「識別されたさまざまなサブグループを描写した画像に対して均等に良好なパフォーマンスを発揮するモデルは、公平な予測を行っている」と定義しています。 評価結果では、最初の3つの主要なサブグループ(地理的地域、肌の色、性別)における人間のチャンネル(人物、人の手、人の顔)のパフォーマンスの測定を重視しています。

測定器とデータセットの詳細

私たちのベンチマークデータセットは、スマートフォンの背面カメラを使用して世界中で撮影された5,650枚の画像で構成されており、以下の仕様を備えています。

  • 1枚の画像につき、1名の人物のみ描写されます。
  • 環境は屋内外を問いません。
  • 撮影デバイスに制限はありません。
  • オクルージョンはありません。

画像には次の属性がラベル付けされています。

  • 地理的地域 : 国連による世界地理区分に基づき、ヨーロッパの小地域とミクロネシア、ポリネシア、メラネシアは統合しています:
    • 北アフリカ
    • 東アフリカ
    • 中東アフリカ
    • 南部アフリカ
    • 西アフリカ
    • カリビアン
    • 中央アメリカ
    • 南アメリカ
    • 北アメリカ
    • 中央アジア
    • 東アジア
    • 東南アジア
    • 南アジア
    • 西アジア
    • ヨーロッパ
    • 豪州・ニュージーランド
    • メラネシア、ミクロネシア、ポリネシア
  • 肌の色: : following the Fitzpatrick scaleに基づき、画像にはサブグループ1~6のアノテーション(注釈)が付けられています。 肌の色は、各画像に写っている人物が自己申告した値です。
  • 性別 : 画像に付けられたアノテーション(注釈)は、自己申告された性別です。

指標

Niantic では、オブジェクト検出モデルを評価するための標準的な指標として、Intersection over Union (IoU)を使用しています。 この指標では、次のように計算されます。

IoU =(予測ボックスと実際のボックスの重なり)/(予測ボックスと実際のボックスの和)

報告されたIoUは、別途記載のない限り、参照するサブグループに属する画像の平均値(mean IoUまたはmIoU)です。

公平性の判断基準

特定のサブグループの性能(mIoU)が、全サブグループの平均から3標準偏差以上離れている場合、そのモデルの予測は公平性に欠けると見なされます。

結果

地理的評価

17の地域全体の平均性能は78.74%、標準偏差は1.22%で、 各地域の性能は[76.92%, 82.17%]の範囲に収まっています。 平均値と最も低い性能の地域との最大差は1.83%で、これはNiantic の公平性判断基準である3標準偏差(3 x 1.22% = 3.65%)の範囲内であることを示しています。

地域mIoU標準偏差画像数
北アフリカ78.26%15.04%301
東アフリカ77.41%17.11%336
中東アフリカ77.30%15.72%322
南部アフリカ79.09%14.93%368
西アフリカ79.04%13.26%364
カリビアン79.01%12.20%412
中央アメリカ79.44%13.79%415
南アメリカ78.39%14.21%397
北アメリカ79.09%13.00%335
中央アジア79.52%12.56%229
東アジア77.60%15.37%346
東南アジア77.86%14.86%333
南アジア79.34%12.15%353
西アジア78.80%14.91%370
ヨーロッパ79.40%13.14%320
豪州・ニュージーランド76.92%18.13%374
メラネシア、ミクロネシア、ポリネシア82.17%11.08%75
すべての画像の平均値78.55%14.55%5650
すべての地域の平均値78.74%1.22%-

肌の色に関する評価結果

6つの肌の色全体の平均性能は78.58%、標準偏差は0.24%で、 各サブグループの肌の色の性能は[78.23%, 78.97%]の範囲に収まっています。 平均値と最も低い性能の肌の色のサブグループとの最大差は0.34%で、これはNiantic の公平性判断基準である3標準偏差(3 x 0.24% = 0.71%)の範囲内であることを示しています。

肌の色(フィッツパトリック・スケール)mIoU標準偏差画像数
178.59%12.00%247
278.49%14.59%1919
378.61%14.39%1463
478.23%16.52%457
578.97%13.60%706
678.56%14.67%858
すべての画像の平均値78.55%14.55%5650
すべての肌の色の平均値78.58%0.24%-

性別に関する評価結果

評価されたすべての性別サブグループの平均性能は78.53%で、[78.01%, 79.05%]の範囲に収まっています。 平均値と最も低い性能の性別のサブグループとの最大差は0.52%で、これはNiantic の公正性判断基準である3標準偏差(3 x 0.74% = 2.22%)の範囲内であることを示しています。

他者から見た性別mIoU標準偏差画像数
女性78.01%15.08%2585
男性79.05%13.96%3065
すべての画像の平均値78.55%14.55%5650
性別における平均値78.53%0.74%-

倫理的配慮

  • プライバシー: モデルがARDKで使用される際、推論はデバイス上でのみ実行され、画像がユーザーデバイスから転送されることはありません。
  • 人命: このモデルは、拡張現実アプリケーション内でのエンターテインメントを目的として設計されており、 人命にかかわる重大な判断を行うためのものではありません。
  • バイアス : 学習用データセットは、多様性についての監査が行われていないため、ベンチマークでは表面化しなかったバイアスが存在する可能性があります。

注意点と推奨事項

  • Niantic のアノテーション(注釈付き)データセットには、男性/女性という二値データの性別のみが含まれています。 多様な性別で評価するには、さらなるデータが必要です。
  • 理想的な肌色の評価データセットには、カメラの詳細情報に加え、照明や湿度などの環境要素も含めることが推奨されます。 また、フィッツパトリックスケールには、人間の肌の色を完全には表現できないという限界があります。
  • このモデルカードは、Mitchell, Margaretらによる「Model cards for model reporting」に基づいており、 公平性、説明責任、および透明性に関する会議の議事録に含まれています。 2019. Link