本文へスキップ

オブジェクト検出

200以上の新しいオブジェクトクラスを備えたオブジェクト検出サブシステムは、Lightshipのコンテクスト・アウェアネス機能を強化し、現実世界のオブジェクトが画面に現れると動的に更新されるセマンティックラベル付きの2Dバウンディングボックスを作成します。 それぞれのバウンディングボックスについて、サブシステムは画像の中央の正方形クロップを処理し、次にすべてのサブクラスについて独立した予測を行い、検出された物体がそれぞれのサブクラスに属する確率を返す。 また、Lightshipのオブジェクト検出では、人物、手、人間の顔に対する検出のトレーニング方法を説明するモデルカードも提供されています。

Image with Bounding Boxes around Detected Objects

基本的な使い方

Lightshipの ARObjectDetectionManager をシーンに配置し、 ObjectDetectionsUpdated イベントをサブスクライブします。これで、リアルタイムの検出情報をXRDetectedObjectsの形式で受け取ることができます。 また、 MetadataInitialized イベントをリッスンすれば、モデルが使用可能になったときにオブジェクトクラスのリストを受け取ることができます。

パフォーマンス負荷を抑えたり、迅速にオブジェクトを検出できるように、 ARObjectDetectionManager のフレームレートを調整することもできます。

Image displaying ARObjectDetectionManager properties

オブジェクト検出カテゴリー

バウンディングボックス内の対象を識別する際に、ニューラルネットワークが参照するカテゴリーは206種類あります。

カテゴリー一覧
カテゴリー説明
人間_顔人間の顔
人間_手人間の手
人物人物、男、女、少年、少女、人体
頭蓋骨頭蓋骨
航空機航空機、飛行機、ヘリコプター、ロケット、パラシュート
自転車自転車、固定式自転車、一輪車
ボートボート、水上バイク、はしけ、ゴンドラ、カヌー、ジェットスキー、潜水艦、個人用浮揚装置
バスバス
車、スノーモービル、ゴルフカート、戦車、除雪車、救急車、バン、リムジン、タクシー、バス、トラック
カートカート
オートバイオートバイ
タクシータクシー
電車電車
トラックトラック
車両車両、自動車、陸上車両、スノーモービル、ゴルフカート、戦車、電車、除雪車、救急車、自転車、一輪車
ホイールホイール、タイヤ、自転車ホイール
車椅子車椅子
ベンチベンチ
ビルボードビルボード、スコアボード
クリスマス_ツリークリスマス_ツリー
ドアドア
ドア_ハンドルドア_ハンドル
消火_剤消火_剤
フラグフラグ
パーキング_メーターパーキング_メーター
ポスターポスター、フォトフレーム
彫刻彫刻、胸像、ブロンズ像
街路_灯街路_灯
信_号信_号
交通_標識交通_標識、停止の標識
廃棄物_コンテナ廃棄物_コンテナ、ゴミ箱、ゴミ箱
水_景物水_景物、スイミング_プール、ジャグジー、噴水
窓(屋内と屋外の両方)
バックパックバックパック
衣類衣類、スポーツユニフォーム
コートコート、ジャケット
ドレスドレス
フェドーラ帽フェドーラ帽、日よけ帽、カウボーイハット
靴類靴類、ローラースケート、ブーツ、ハイヒール、サンダル
眼鏡眼鏡、サングラス、ゴーグル
ハンドバッグハンドバッグ、ブリーフケース、ピクニックバスケット、荷物、バッグ
帽子類帽子類、ハット、カウボーイハット、フェドーラ帽、ソンブレロ、日よけ帽、水泳帽、ヘルメット、自転車用ヘルメット、サッカー用ヘルメット
ローラー_スケートローラー_スケート
シャツシャツ
ショーツショーツ
スカートスカート、ミニスカート
靴下靴下
スーツスーツ
スーツケーススーツケース、ブリーフケース
ネクタイネクタイ
ズボンズボン、ジーンズ
野球_バット野球_バット
野球_グローブ野球_グローブ
フットボールフットボール(サッカー)
フリスビーフリスビー、フライングディスク
パドルパドル
ラグビー_ボールラグビー_ボール
スケートボードスケートボード
スキースキー
スノーボードスノーボード
スポーツ_ボールスポーツ_ボール、ボール、サッカーボール、クリケットボール、バレーボール、テニスボール、ラグビーボール
サーフボードサーフボード
テニス_ボールテニス_ボール
テニス_ラケットテニス_ラケット、卓球ラケット、ラケット
アコーディオンアコーディオン
金管_楽器金管_楽器、フレンチホルン、サクソフォーン、トロンボーン、トランペット
ドラムドラム
フルートフルート、ハーモニカ、オーボエ
ギターギター
楽_器楽_器、オルガン、バンジョー、チェロ、ドラム、フレンチホルン、ギター、ハープ、チェンバロ、ハーモニカ、オーボエ、
ピアノピアノ、オルガン、チェンバロ、鍵盤楽器
弦_楽器弦_楽器、ギター、バンジョー、チェロ、ハープ、バイオリン
バイオリンバイオリン
リンゴリンゴ
バナナバナナ
ベリーベリー、ストロベリー、ラズベリー
ブロッコリーブロッコリー
ニンジンニンジン
柑橘類柑橘類、オレンジ、レモン、グレープフルーツ
ココナッツココナッツ
食べ物食べ物、ファーストフード、ホットドッグ、フライドポテト、ワッフル、パンケーキ、ブリトー、スナック、プレッツェル、ポップコーン、クッキー、
ぶどうぶどう
マッシュルームマッシュルーム
かぼちゃかぼちゃ、ズッキーニ
トマトトマト
飲料(ドリンク)ドリンク、ビール、カクテル、コーヒー、ジュース、紅茶、ワイン、ボトル
ホット_ドリンクホット_ドリンク、紅茶、コーヒー
ジュースジュース
パンパン
ケーキケーキ、タルト、マフィン
チーズチーズ
デザートデザート、アイスクリーム、ケーキ、デザート、マフィン、ドーナツ、ベーグル、クッキー、ビスケット、ワッフル、パンケーキ、
ドーナツドーナツ、ドーナツ、ベーグル、プレッツェル
ファスト_フードファスト_フード、ホット_ドッグ、フライド_ポテト、ピザ、ブリトー、ハンバーガー、サンドイッチ
フライド_ポテトフライド_ポテト
ハンバーガーハンバーガー
ホット_ドッグホット_ドッグ
アイス_クリームアイス_クリーム
ピザピザ
サンドイッチサンドイッチ、サブマリン・サンドイッチ、ブリトー
寿司寿司
ベッドベッド、幼児用ベッド、犬用ベッド
椅子椅子、スツール
ソファカウチソファ、ソファ、スタジオカウチソファ、2人用ソファ、ソファベッド
家具家具、椅子、キャビネット、机、ワインラック、ソファ、ソファベッド、2人用ソファ、衣装ダンス、ナイトテーブル、
棚、ワインラック、本棚、スパイスラック
収納_キャビネット収納_キャビネット、ワードローブ、食器棚、クローゼット、キャビネット、ファイルキャビネット、チェスト、バスルームキャビネット
テーブルテーブル、ダイニングテーブル、机、テーブル、コーヒーテーブル、キッチンテーブル、ビリヤードテーブル、カウンター、ナイトテーブル、
バスタブバスタブ
暖炉暖炉、薪ストーブ
電子レンジ電子レンジ
オーブンオーブン
冷蔵庫冷蔵庫
画面画面、テレビ、コンピューターモニター、タブレットコンピューター
シンクシンク
蛇口蛇口、シャワー
トースタートースター
トイレトイレ、ビデ
風船風船
たるたる
ボトルボトル
ボウルボウル、ミキシングボウル
カメラカメラ、双眼鏡
ろうそくろうそく
大砲大砲
時計時計、壁掛け時計、目覚まし時計
コインコイン
コンピューター_キーボードコンピューター_キーボード、キーボード
コンピューター_マウスコンピューター_マウス
料理用_鍋料理用_鍋、フライパン、中華鍋、ワッフルメーカー、スロークッカー、圧力鍋
カップカップ、マグカップ、コーヒーカップ
カーテンカーテン、ブラインド
人形人形
植木鉢植木鉢、花瓶
フォークフォーク
ヘア_ドライヤーヘア_ドライヤー
ヘッドフォンヘッドフォン
水差し水差し、計量カップ、ティーポット、カクテルシェーカー、ピッチャー、ビーカー、やかん
ナイフナイフ、キッチンナイフ、ピザカッター、ノミ、短剣、剣
ランプランプ、ランタン、ろうそく、電球、懐中電灯、トーチ、シーリングファン
ノートパソコンノートパソコン
マイクマイク
ペンペン、鉛筆
電話電話、電話機、携帯電話、スマートフォン、コード付き電話、iPod
皿、ソーサー、大皿、ケーキスタンド
鉢_植え鉢_植え、観葉植物
リモートコントローラーリモートコントローラー、リモコン
ハサミハサミ
雪だるま雪だるま
スプーンスプーン、おたま、へら
ティーポットティーポット、やかん
テディ_ベアテディ_ベア
ブリキ_缶ブリキ_缶、クッキングスプレー
歯ブラシ歯ブラシ
おもちゃおもちゃ、人形、サイコロ、フライングディスク、テディベア
腕時計腕時計
ワイン_グラスワイン_グラス
バラバラ
ヒマワリヒマワリ
動物動物、イカ、貝、カキ、ロブスター、エビ、カニ、鳥、カササギ、キツツキ、アオカケス、ダチョウ、
鳥、カササギ、キツツキ、アオカケス、ダチョウ、ペンギン、ワタリガラス、ニワトリ、ワシ、フクロウ、アヒル、カナリア、ガチョウ、
オウムオウム
水_鳥水_鳥、アヒル、ガチョウ、白鳥
蝶、蛾、蝶
昆虫昆虫、ダニ、ムカデ、等脚類、蜂、甲虫、てんとう虫、蟻、蛾と蝶、毛虫、蝶
イルカイルカ
魚、金魚、サメ、「エイとスケート」、タツノオトシゴ、イカ
金魚金魚
クラゲクラゲ
海生哺乳類アザラシ、アシカ、ゼニガタアザラシ、セイウチ
甲殻類貝、ロブスター、カキ、エビ、カニ、ヒトデ、カタツムリ
クジラクジラ
アルパカアルパカ
熊、ヒグマ
大型_猫科動物大型_猫科動物、オオヤマネコ、ジャガー、トラ、ライオン、ヒョウ、チーター
ラクダラクダ
牛、雄牛、畜牛
ワニワニ、アリゲーター
鹿鹿、レイヨウ
カエルカエル
キリンキリン
カバカバ
馬、ロバ、ラバ
カンガルーカンガルー
パンダパンダ
ホッキョク_グマホッキョク_グマ
ウサギウサギ
爬虫類爬虫類、トカゲ、ヘビ、カメ、ウミガメ、ワニ、カエル
サイサイ
羊、山羊
リスリス
カメカメ、リクガメ、ウミガメ
シマウマシマウマ
備考

これらのカテゴリーの一部は、他の206のカテゴリーのいずれかにも該当します。例えば、「猫」や「犬」などはいずれも「動物」カテゴリーに含まれます。 ニューラルネットワークは、206のカテゴリーごとに独立して予測を行います。 例えば、ニューラルネットワークは、猫のバウンディングボックスを「猫」と「動物」の両方として予測します。その信頼度は比較的高いものの、それぞれ異なる可能性があり、常にどちらかの信頼度が他より高くなるとは限りません。 そのため、アプリケーションが特定のタイプのオブジェクト(この場合、「cat」または「animal」)を探す場合は、最も信頼度が高いカテゴリー分類だけを見るのではなく、各バウンディングボックスで信頼度の高い上位数カテゴリーも確認するようにしてください。

スーパー-カテゴリー一覧
カテゴリーカバー
車、タクシー
車両車両、自動車、電車、自転車、タクシー、オートバイ、バス、トラック
靴類靴類、ローラースケート
帽子類帽子類、フェドラ帽
スポーツボールスポーツボール、サッカーボール、ラグビーボール、テニスボール
楽器金管楽器、弦楽器、ピアノ、アコーディオン、ドラム、フルート
弦楽器弦楽器、ギター、バイオリン
食べ物食べ物、リンゴ、バナナ、ベリー、ブロッコリー、ニンジン、柑橘類、ココナッツ、卵、ブドウ、梨、カボチャ、トマト、パン、ケーキ、チーズ、デザート、ドーナツ、ファストフード、ハンバーガー、ホットドッグ、アイスクリーム、ピザ、サンドイッチ、寿司
飲料(ドリンク)飲料(ドリンク)、温かい飲み物(ホットドリンク)、ジュース
デザートデザート、ケーキ、アイスクリーム、ドーナツ
ファストフードファストフード、フライドポテト、ホットドッグ、ピザ、ハンバーガー、サンドウィッチ
家具家具、ベッド、椅子、ソファ、棚、収納棚、テーブル
水差し水差し、ティーポット(急須)
ランプランプ、ろうそく
おもちゃおもちゃ、人形、テディベア
花、バラ、ひまわり
動物動物、鳥、オウム、水鳥、イルカ、魚、金魚、クラゲ、アザラシ、貝、クジラ、アルパカ、熊、大型猫科動物、ラクダ、猫、牛、ワニ、鹿、犬、象、カエル、キリン、カバ、馬、カンガルー、パンダ、豚、ホッキョクグマ、ウサギ、爬虫類、サイ、羊、リス、亀、シマウマ
鳥、オウム、水鳥
昆虫昆虫、蝶
魚、金魚
爬虫類爬虫類、ワニ、カエル、カメ

Person Detection Model Card v0.4

モデルの詳細

  • モデルの最終更新日: 2024年2月29日
  • モデルバージョン: v0.4
  • ライセンス: Lightshipの利用規約をご参照ください。

技術仕様

オブジェクト検出モデルは、一連のバウンディングボックスを返し、そのボックスが人物、人の手、または人の顔である確率を報告します。

使用目的

想定されるユースケース

  • 画像内の人物(具体的には人の手や顔)を識別する。
  • 画像内の人物、人の手、または人の顔の有無をクエリで確認する。

認定ユーザー

Niantic Lightshipを通じた拡張現実開発者。

対象外のユースケース

このモデルを使用して、次のことを行うことは できません

  • 個人を追跡する
  • 個人を識別または認識する

要素

Lightship ARDKに含まれるすべてのオブジェクト検出(人物の検出を含む)に対して、以下の要素が適用されます。

  • スケール: オブジェクトやクラスがカメラから非常に離れている場合、検出されないことがあります。
  • 照明 : 極端な光条件下では、全体的な性能に影響を及ぼす可能性があります。
  • ビューポイント : 学習時に捉えられていない極端なカメラビューは、誤検知やクラスの混同につながる恐れがあります。
  • オクルージョン: 他のオブジェクトで覆われているオブジェクトは、検出されないことがあります。
  • モーションブラー(被写体のぶれ) : 高速なカメラやオブジェクトの動きは、モデルのパフォーマンス低下につながる場合があります。
  • ちらつき: 時間的に隣接するフレーム間の予測で「ジッタリング」効果が生じることがあります。

特に人物の検出に関しては、コンピュータービジョン技術における既知の問題に基づいて、次のサブグループに関する考えられる要因を特定します。

  • 地理的地域
  • 肌の色
  • 性別
  • 身体姿勢 : 身体姿勢によっては、トレーニングコーパスへの出現頻度が低く、予測が難しい場合があります。
  • その他: 年齢、ファッションスタイル、アクセサリー、体の変化など。

公平性の評価

Niantic では、Lightshipのテクノロジーのインクルージョンと公平性を実現するために、モデルの構築や評価、展開において平等性と公平性の厳格な基準に従っています。私たちは、人物検出の公平性について、「識別されたさまざまなサブグループを描写した画像に対して均等に良好なパフォーマンスを発揮するモデルは、公平な予測を行っている」と定義しています。 評価結果では、最初の3つの主要なサブグループ(地理的地域、肌の色、性別)における人間のチャンネル(人物、人の手、人の顔)のパフォーマンスの測定を重視しています。

測定器とデータセットの詳細

私たちのベンチマークデータセットは、スマートフォンの背面カメラを使用して世界中で撮影された5,650枚の画像で構成されており、以下の仕様を備えています。

  • 1枚の画像につき、1名の人物のみ描写されます。
  • 環境は屋内外を問いません。
  • 撮影デバイスに制限はありません。
  • オクルージョンはありません。

画像には次の属性がラベル付けされています。

  • 地理的地域 : 国連による世界地理区分に基づき、ヨーロッパの小地域とミクロネシア、ポリネシア、メラネシアは統合しています:
    • 北アフリカ
    • 東アフリカ
    • 中東アフリカ
    • 南部アフリカ
    • 西アフリカ
    • カリビアン
    • 中央アメリカ
    • 南アメリカ
    • 北アメリカ
    • 中央アジア
    • 東アジア
    • 東南アジア
    • 南アジア
    • 西アジア
    • ヨーロッパ
    • 豪州・ニュージーランド
    • メラネシア、ミクロネシア、ポリネシア
  • 肌の色: : following the Fitzpatrick scaleに基づき、画像にはサブグループ1~6のアノテーション(注釈)が付けられています。 肌の色は、各画像に写っている人物が自己申告した値です。
  • 性別 : 画像に付けられたアノテーション(注釈)は、自己申告された性別です。

指標

Niantic では、オブジェクト検出モデルを評価するための標準的な指標として、Intersection over Union (IoU)を使用しています。 この指標では、次のように計算されます。

IoU =(予測ボックスと実際のボックスの重なり)/(予測ボックスと実際のボックスの和)

報告されたIoUは、別途記載のない限り、参照するサブグループに属する画像の平均値(mean IoUまたはmIoU)です。

公平性の判断基準

特定のサブグループの性能(mIoU)が、全サブグループの平均から3標準偏差以上離れている場合、そのモデルの予測は公平性に欠けると見なされます。

結果

地理的評価

17の地域全体の平均性能は78.74%、標準偏差は1.22%で、 各地域の性能は[76.92%, 82.17%]の範囲に収まっています。 平均値と最も低い性能の地域との最大差は1.83%で、これはNiantic の公平性判断基準である3標準偏差(3 x 1.22% = 3.65%)の範囲内であることを示しています。

地域mIoU標準偏差画像数
北アフリカ78.26%15.04%301
東アフリカ77.41%17.11%336
中東アフリカ77.30%15.72%322
南部アフリカ79.09%14.93%368
西アフリカ79.04%13.26%364
カリビアン79.01%12.20%412
中央アメリカ79.44%13.79%415
南アメリカ78.39%14.21%397
北アメリカ79.09%13.00%335
中央アジア79.52%12.56%229
東アジア77.60%15.37%346
東南アジア77.86%14.86%333
南アジア79.34%12.15%353
西アジア78.80%14.91%370
ヨーロッパ79.40%13.14%320
豪州・ニュージーランド76.92%18.13%374
メラネシア、ミクロネシア、ポリネシア82.17%11.08%75
すべての画像の平均値78.55%14.55%5650
すべての地域の平均値78.74%1.22%-

肌の色に関する評価結果

6つの肌の色全体の平均性能は78.58%、標準偏差は0.24%で、 各サブグループの肌の色の性能は[78.23%, 78.97%]の範囲に収まっています。 平均値と最も低い性能の肌の色のサブグループとの最大差は0.34%で、これはNiantic の公平性判断基準である3標準偏差(3 x 0.24% = 0.71%)の範囲内であることを示しています。

肌の色(フィッツパトリック・スケール)mIoU標準偏差画像数
178.59%12.00%247
278.49%14.59%1919
378.61%14.39%1463
478.23%16.52%457
578.97%13.60%706
678.56%14.67%858
すべての画像の平均値78.55%14.55%5650
すべての肌の色の平均値78.58%0.24%-

性別に関する評価結果

評価されたすべての性別サブグループの平均性能は78.53%で、[78.01%, 79.05%]の範囲に収まっています。 平均値と最も低い性能の性別のサブグループとの最大差は0.52%で、これはNiantic の公正性判断基準である3標準偏差(3 x 0.74% = 2.22%)の範囲内であることを示しています。

他者から見た性別mIoU標準偏差画像数
女性78.01%15.08%2585
男性79.05%13.96%3065
すべての画像の平均値78.55%14.55%5650
性別における平均値78.53%0.74%-

倫理的配慮

  • プライバシー: モデルがARDKで使用される際、推論はデバイス上でのみ実行され、画像がユーザーデバイスから転送されることはありません。
  • 人命: このモデルは、拡張現実アプリケーション内でのエンターテインメントを目的として設計されており、 人命にかかわる重大な判断を行うためのものではありません。
  • バイアス : 学習用データセットは、多様性についての監査が行われていないため、ベンチマークでは表面化しなかったバイアスが存在する可能性があります。

注意点と推奨事項

  • Niantic のアノテーション(注釈付き)データセットには、男性/女性という二値データの性別のみが含まれています。 多様な性別で評価するには、さらなるデータが必要です。
  • 理想的な肌色の評価データセットには、カメラの詳細情報に加え、照明や湿度などの環境要素も含めることが推奨されます。 また、フィッツパトリックスケールには、人間の肌の色を完全には表現できないという限界があります。
  • このモデルカードは、Mitchell, Margaretらによる「Model cards for model reporting」に基づいており、 公平性、説明責任、および透明性に関する会議の議事録に含まれています。 2019. Link