オブジェクト検出
200以上の新しいオブジェクトクラスを備えたオブジェクト検出サブシステムは、Lightshipのコンテクスト・アウェアネス機能を強化し、現実世界のオブジェクトが画面に現れると動的に更新されるセマンティックラベル付きの2Dバウンディングボックスを作成します。 それぞれのバウンディングボックスについて、サブシステムは画像の中央の正方形クロップを処理し、次にすべてのサブクラスについて独立した予測を行い、検出された物体がそれぞれのサブクラスに属する確率を返す。 また、Lightshipのオブジェクト検出では、人物、手、人間の顔に対する検出のトレーニング方法を説明するモデルカードも提供されています。
基本的な使い方
Lightship の ARObjectDetectionManager
をシーンに配置し、ObjectDetectionsUpdated
イベントを購読することで、開発者はリアルタイムの検出情報を XRDetectedObjects の形式で受け取ることができます。 MetadataInitialized`イベントをリッスンして、モデルが使用可能になったときにオブジェクトクラスのリストを受け取ることもできます。
また、ARObjectDetectionManager
のフレームレートを調整することで、パフォーマンスを節約したり、より高速にオブジェクトを検出したりすることができる。
オブジェクト検出カテゴリー
各クラスの確率は独立して計算されますが、各カテゴリーのサブクラスは、それぞれのカテゴリークラスをトレーニングするために使用されます。 このため、オブジェクトは特定のサブクラスではなく、カテゴリークラスに属するとして検出されることがあります。 例えば、フレンチホルンは、 フレンチホルン
、金管楽器
、楽器
というカテゴリークラスに属する確率が高いと判定されます。
カテゴリー | サブクラス |
---|---|
航空機 | 飛行機、ヘリコプター、熱気球、パラシュート、ロケット |
建物の特徴 | ドア、ドアハンドル、窓 |
車 | 車、タクシー |
屋外家具 | 樽、ベンチ、看板、消火栓、旗、駐車メーター、彫刻、雪だるま、街灯、信号機、ゴミ箱 |
車両 | 車両、自転車、船、バス、車、カート、オートバイ、タクシー、電車、トラック、車輪、車椅子 |
水の特徴 | 噴水、プール |
アクセサリー | リュックサック、メガネ、ハンドバッグ、傘 |
衣類 | コート、ドレス(ワンピース)、シャツ、ショーツ、スカート、靴下、スーツ、ネクタイ、ズボン |
靴類 | 靴類、ローラースケート |
帽子類 | 帽子類、フェドラ帽 |
楽器 | アコーディオン、金管楽器、ドラム、フルート、ギター、ピアノ、弦楽器、バイオリン |
楽器 | フレンチホルン、サクソフォン、トロンボーン、トランペット |
弦楽器 | バンジョー、チェロ、ハープ、ギター、バイオリン |
食べ物 | 食品、りんご、バナナ、ベリー、パン、ブロッコリー、ケーキ、にんじん、チーズ、柑橘類、ココナッツ、デザート、ドーナツ、たまご、ファストフード、ぶどう、ハンバーガー、ホットドッグ、アイスクリーム、キノコ、洋梨、ピザ、かぼちゃ、サンドウィッチ、寿司、トマト |
ベリー | ベリー、ラズベリー、いちご |
柑橘類 | 柑橘類、グレープフルーツ、レモン、ライム、オレンジ |
デザート | デザート、ケーキ、ドーナツ、アイスクリーム |
ファスト フード | ファストフード、フライドポテト、ホットドッグ、ピザ、ハンバーガー、サンドウィッチ |
かぼちゃ | かぼちゃ、ズッキーニ |
飲料(ドリンク) | 飲料(ドリンク)、温かい飲み物(ホットドリンク)、ジュース |
温かい飲み物(ホットドリンク) | お茶、コーヒー(カップに入っている場合に認識される) |
電化製品 | ヘアードライヤー、電子レンジ、オーブン、冷蔵庫、トースター |
調理鍋 | フライパン、圧力鍋、スロークッカー(低温調理器)、ワッフルメーカー、中華鍋 |
屋内家具 | 家具、ベッド、椅子、クリスマスツリー、ソファ、カーテン、ポスター、棚、収納棚、テーブル |
水差し | 水差し、ティーポット(急須) |
ランプ | ランプ、ろうそく |
家庭設備 | 浴槽、暖炉、シンク、水栓、トイレ |
その他 | 本、ボトル、ボウル、箱、大砲、箸、効果、カップ、植木鉢、フォーク、ナイフ、ペン、枕、皿、鉢植え、はさみ、頭蓋骨、スプーン、缶詰、歯ブラシ、ワイングラス |
画面 | 画面、コンピュータ・ディスプレイ、タブレット、テレビ |
スポーツボール | スポーツボール、サッカーボール、ラグビーボール、テニスボール |
スポーツ用品 | 野球バット、野球グローブ、フリスビー、凧、パドル、スケートボード、スキー、スノーボード、テニスラケット |
テクノロジー | カメラ、時計、コンピューター・キーボード、コンピューター・マウス、ヘッ ドフォン、マイク、電話、リモコン、腕時計 |
おもちゃ | おもちゃ、人形、テディベア |
動物 | 動物、アルパカ、クマ、大型ネコ科動物、鳥、ラクダ、猫、牛、ワニ、鹿、犬、イルカ、象、魚、カエル、キリン、金魚、カバ、馬、クラゲ、カンガルー、パンダ、オウム、豚、ホッキョクグマ、ウサギ、爬虫類、サイ、アザラシ、羊、甲殻類、リス、カメ、水鳥、クジラ、シマウマ |
大型ネコ科動物 | チーター、ジャガー、ヒョウ、ライオン、オオヤマネコ、トラ |
鳥 | 鳥、オウム、水鳥 |
ラクダ科 | アルパカ、ラクダ、リャマ |
ワニ | ワニ、アリゲーター |
鹿 | アンテロープ、鹿、ムース |
花 | 花、バラ、ひまわり |
馬 | ロバ、馬、ラバ |
昆虫 | 昆虫、蝶 |
魚 | 魚、金魚、クラゲ、マンタ、タツノオトシゴ、甲殻類、イカ |
爬虫類 | 爬虫類、ワニ、カメ |
海生哺乳類 | アザラシ、アシカ、セイウチ |
羊 | 山羊、羊 |
甲殻類 | カニ、ロブスター、カキ、エビ、カタツムリ、ヒトデ |
カメ | カメ、ウミガメ、リクガメ |
水鳥 | アヒル、ガチョウ、白鳥 |
人物 | 人物、人の顔、人の手 |
Person Detection Model Card v0.4
モデルの詳細
- モデルの最終更新日: 2024年2月29日
- モデルバージョン: v0.4
- ライセンス: Lightshipの利用規約をご参照ください。
技術仕様
オブジェクト検出モデルは、一連のバウンディングボックスを返し、そのボックスが人物、人の手、または人の顔である確率を報告します。
使用目的
想定されるユースケース
- 画像内の人物(具体的には人の手や顔)を識別する。
- 画像内の人物、人の手、または人の顔の有無をクエリで確認する。
認定ユーザー
Niantic Lightshipを通じた拡張現実開発者。
対象外のユースケース
このモデルを使用して、次のことを行うことは できません。
- 個人を追跡する
- 個人を識別または認識する
要素
Lightship ARDKに含まれるすべてのオブジェクト検出(人物の検出を含む)に対して、以下の要素が適用されます。
- スケール: オブジェクトやクラスがカメラから非常に離れている場合、検出されないことがあります。
- 照明 : 極端な光条件下では、全体的な性能に影響を及ぼす可能性があります。
- ビューポイント : 学習時に捉えられていない極端なカメラビューは、誤検知やクラスの混同につながる恐れがあります。
- オクルージョン: 他のオブジェクトで覆われているオブジェクトは、検出されないことがあります。
- モーションブラー(被写体のぶれ) : 高速なカメラやオブジェクトの動きは、モデルのパフォーマンス低下につながる場合があります。
- ちらつき: 時間的に隣接するフレーム間の予測で「ジッタリング」効果が生じることがあります。
特に人物の検出に関しては、コンピ ュータービジョン技術における既知の問題に基づいて、次のサブグループに関する考えられる要因を特定します。
- 地理的地域
- 肌の色
- 性別
- 身体姿勢 : 身体姿勢によっては、トレーニングコーパスへの出現頻度が低く、予測が難しい場合があります。
- その他: 年齢、ファッションスタイル、アクセサリー、体の変化など。
公平性の評価
Niantic では、Lightshipのテクノロジーのインクルージョンと公平性を実現するために、モデルの構築や評価、展開において平等性と公平性の厳格な基準に従っています。私たちは、人物検出の公平性について、「識別されたさまざまなサブグループを描写した画像に対して均等に良好なパフォーマンスを発揮するモデルは、公平な予測を行っている」と定義しています。 評価結果では、最初の3つの主要なサブグループ(地理的地域、肌の色、性別)における人間のチャンネル(人物、人の手、人の顔)のパフォーマンスの測定を重視しています。
測定器とデータセットの詳細
私たちのベンチマークデータセットは、スマートフォンの背面カメラを使用して世界中で撮影された5,650枚の画像で構成されており、以下の仕様を備えています。
- 1枚の画像につき、1名の人物のみ描写されます。
- 環境は屋内外を問いません。
- 撮影デバイスに制限はありません。
- オクルージョンはありません。
画像には次の属性がラベル付けされています。
- 地理的地域 : 国連による世界地理区分に基づき、ヨーロッパの小地域とミクロネシア、ポリネシア、メラネシアは統合しています:
- 北アフリカ
- 東アフリカ
- 中東アフリカ
- 南部アフリカ
- 西アフリカ
- カリビアン
- 中央アメリカ
- 南アメリカ
- 北アメリカ
- 中央アジア
- 東アジア
- 東南アジア
- 南アジア
- 西アジア
- ヨーロッパ
- 豪州・ニュージーランド
- メラネシア、ミクロネシア、ポリネシア
- 肌の色: : following the Fitzpatrick scaleに基づき、画像にはサブグループ1~6のアノテーション(注釈)が付けられています。 肌の色は、各画像に写っている人物が自己申告した値です。
- 性別 : 画像に付けられたアノテーション(注釈)は、自己申告された性別です。
指標
Niantic では、オブジェクト検出モデルを評価するための標準的な指標として、Intersection over Union (IoU)を使用しています。 この指標では、次のように計算されます。
IoU =(予測ボックスと実際のボックスの重なり)/(予測ボックスと実際のボックスの和)
報告されたIoUは、別途記載のない限り、参照するサブグループに属する画像の平均値(mean IoUまたはmIoU)です。
公平性の判断基準
特定のサブグループの性能(mIoU)が、全サブグループの平均から3標準偏差以上離れている場合、そのモデルの予測は公平性に欠けると見なされます。
結果
地理的評価
17の地域全体の平均性能は78.74%、標準偏差は1.22%で、 各地域の性能は[76.92%, 82.17%]の範囲に収まっています。 平均値と最も低い性能の地域との最大差は1.83%で、これはNiantic の公平性判断基準である3標準偏差(3 x 1.22% = 3.65%)の範囲内であることを示しています。
地域 | mIoU | 標準偏差 | 画像数 |
---|---|---|---|
北アフリカ | 78.26% | 15.04% | 301 |
東アフリカ | 77.41% | 17.11% | 336 |
中東アフリカ | 77.30% | 15.72% | 322 |
南部アフリカ | 79.09% | 14.93% | 368 |
西アフリカ | 79.04% | 13.26% | 364 |
カリビアン | 79.01% | 12.20% | 412 |
中央アメリカ | 79.44% | 13.79% | 415 |
南アメリカ | 78.39% | 14.21% | 397 |
北アメリカ | 79.09% | 13.00% | 335 |
中央アジア | 79.52% | 12.56% | 229 |
東アジア | 77.60% | 15.37% | 346 |
東南アジア | 77.86% | 14.86% | 333 |
南アジア | 79.34% | 12.15% | 353 |
西アジア | 78.80% | 14.91% | 370 |
ヨーロッパ | 79.40% | 13.14% | 320 |
豪州・ニュージーランド | 76.92% | 18.13% | 374 |
メラネシア、ミクロネシア、ポリネシア | 82.17% | 11.08% | 75 |
すべての画像の平均値 | 78.55% | 14.55% | 5650 |
すべての地域の平均値 | 78.74% | 1.22% | - |
肌の色に関する評価結果
6つの肌の色全体の平均性能は78.58%、標準偏差は0.24%で、 各サブグループの肌の色の性能は[78.23%, 78.97%]の範囲に収まっています。 平均値と最も低い性能の肌の色のサブグループとの最大差は0.34%で、これはNiantic の公平性判断基準である3標準偏差(3 x 0.24% = 0.71%)の範囲内であることを示しています。
肌の色(フィッツパトリック・スケール) | mIoU | 標準偏差 | 画像数 |
---|---|---|---|
1 | 78.59% | 12.00% | 247 |
2 | 78.49% | 14.59% | 1919 |
3 | 78.61% | 14.39% | 1463 |
4 | 78.23% | 16.52% | 457 |
5 | 78.97% | 13.60% | 706 |
6 | 78.56% | 14.67% | 858 |
すべての画像の平均値 | 78.55% | 14.55% | 5650 |
すべての肌の色の平均値 | 78.58% | 0.24% | - |
性別に関する評価結果
評価されたすべての性別サブグループの平均性能は78.53%で、[78.01%, 79.05%]の範囲に収まっています。 平均値と最も低い性能の性別のサブグループとの最大差は0.52%で、これはNiantic の公正性判断基準である3標準偏差(3 x 0.74% = 2.22%)の範囲内であることを示しています。
他者から見た性別 | mIoU | 標準偏差 | 画像数 |
---|---|---|---|
女性 | 78.01% | 15.08% | 2585 |
男性 | 79.05% | 13.96% | 3065 |
すべての画像の平均値 | 78.55% | 14.55% | 5650 |
性別における平均値 | 78.53% | 0.74% | - |
倫理的配慮
- プライバシー: モデルがARDKで使用される際、推論はデバイス上でのみ実行され、画像がユーザーデバイスから転送されることはありません。
- 人命: このモデルは、拡張現実アプリケーション内でのエンターテインメントを目的として設計されており、 人命にかかわる重大な判断を行うためのものではありません。
- バイアス : 学習用データセットは、多様性についての監査が行われていないため、ベンチマークでは表面化しなかったバイアスが存在する可能性があります。