本文へスキップ

オブジェクト検出

200以上の新しいオブジェクトクラスを備えたオブジェクト検出サブシステムは、Lightshipのコンテクスト・アウェアネス機能を強化し、現実世界のオブジェクトが画面に現れると動的に更新されるセマンティックラベル付きの2Dバウンディングボックスを作成します。 それぞれのバウンディングボックスについて、サブシステムは画像の中央の正方形クロップを処理し、次にすべてのサブクラスについて独立した予測を行い、検出された物体がそれぞれのサブクラスに属する確率を返す。 また、Lightshipのオブジェクト検出では、人物、手、人間の顔に対する検出のトレーニング方法を説明するモデルカードも提供されています。

Image with Bounding Boxes around Detected Objects

基本的な使い方

Lightshipの ARObjectDetectionManager をシーンに配置し、 ObjectDetectionsUpdated イベントをサブスクライブします。これで、リアルタイムの検出情報をXRDetectedObjectsの形式で受け取ることができます。 また、 MetadataInitialized イベントをリッスンすれば、モデルが使用可能になったときにオブジェクトクラスのリストを受け取ることができます。

パフォーマンス負荷を抑えたり、迅速にオブジェクトを検出できるように、 ARObjectDetectionManager のフレームレートを調整することもできます。

Image displaying ARObjectDetectionManager properties

オブジェクト検出カテゴリー

ニューラルネットワークがバウンディングボックス内で探すカテゴリーは206種類ある。

カテゴリー一覧
カテゴリー説明
人間顔人面
人間の手ヒトの手
person人、男、女、少年、少女、人体
頭蓋骨頭蓋骨
航空機航空機、飛行機、ヘリコプター、ロケット、パラシュート
自転車自転車、固定式自転車、一輪車
ボートボート、水上バイク、はしけ、ゴンドラ、カヌー、ジェットスキー、潜水艦、個人用浮揚装置
バスバス
車、スノーモービル、ゴルフカート、戦車、除雪車、救急車、バン、リムジン、タクシー、バス、トラック
カートカート
オートバイオートバイ
タクシータクシー
電車電車
トラックトラック
車両車両、自動車、陸上車両、スノーモービル、ゴルフカート、戦車、列車、除雪車、救急車、自転車、一輪車
ホイールホイール、タイヤ、自転車ホイール
車椅子車椅子
ベンチベンチ
ビルボードビルボード、スコアボード
クリスマスツリークリスマスツリー
ドアドア
ドアハンドルドアハンドル
消火剤消火剤
フラグフラグ
パーキングメーターパーキングメーター
ポスターポスター、フォトフレーム
彫刻彫刻、胸像、ブロンズ像
街路灯街路灯
トラフィックライトトラフィックライト
トラフィックサイン交通標識
廃棄物コンテナwaste_container、ゴミ箱、ゴミ箱
ウォーター・フィーチャー水場、プール、ジャグジー、噴水
ウィンドウ
バックパックバックパック
衣類ウェア、スポーツユニフォーム
コートコート、ジャケット
ドレスドレス
フェドラフェドラ、サンハット、カウボーイハット
履物靴、ローラースケート、ブーツ、ハイヒール、サンダル
グラスメガネ、サングラス、ゴーグル
ハンドバッグハンドバッグ、ブリーフケース、ピクニックバスケット、荷物、バッグ
ヘッドウェアヘッドウェア、ハット、カウボーイハット、フェドラ、ソンブレロ、サンハット、スイムキャップ、ヘルメット、自転車用ヘルメット、サッカー用ヘルメット
ローラースケートローラースケート
シャツシャツ
ショーツショーツ
スカートスカート、ミニスカート
靴下靴下
スーツスーツ
スーツケーススーツケース、ブリーフケース
ネクタイネクタイ
ズボンズボン、ジーンズ
ベースボール・バットベースボール・バット
ベースボールグローブベースボールグローブ
フットボールたまけり
フリスビーフリスビー、フライングディスク
パドルパドル
ラグビー_ボールラグビー_ボール
スケートボードスケートボード
スキースキー
スノーボードスノーボード
スポーツ_ボールスポーツ_ボール、ボール、サッカー、クリケットボール、バレーボール、テニスボール、ラグビーボール
サーフボードサーフボード
テニスボールテニスボール
テニスラケットテニスラケット、卓球ラケット、ラケット
アコーディオンアコーディオン
金管楽器金管楽器、フレンチホルン、サクソフォン、トロンボーン、トランペット
ドラムドラム
フルートフルート、ハーモニカ、オーボエ
ギターギター
楽器musical_instrument、オルガン、バンジョー、チェロ、ドラム、フレンチホルン、ギター、ハープ、チェンバロ、ハーモニカ、オーボエ、
ピアノピアノ、オルガン、チェンバロ、鍵盤楽器
string_instrumentstring_instrument、ギター、バンジョー、チェロ、ハープ、バイオリン
ヴァイオリンヴァイオリン
アップルアップル
バナナバナナ
ベリーベリー、ストロベリー、ラズベリー
ブロッコリーブロッコリー
キャロットキャロット
シトラス柑橘類、オレンジ、レモン、グレープフルーツ
ココナッツココナッツ
食品食べ物, ファーストフード, ホットドッグ, フライドポテト, ワッフル, パンケーキ, ブリトー, スナック, プレッツェル, ポップコーン, クッキー、
ぶどうぶどう
マッシュルームマッシュルーム
ペアペア
パンプキンかぼちゃ、ズッキーニ
トマトトマト
飲むドリンク, ビール, カクテル, コーヒー, ジュース, 紅茶, ワイン, ボトル
ホットドリンクホットドリンク、紅茶、コーヒー
ジュースジュース
パンパン
ケーキケーキ、タルト、マフィン
チーズチーズ
デザートデザート, アイスクリーム, ケーキ, デザート, マフィン, ドーナツ, ベーグル, クッキー, ビスケット, ワッフル, パンケーキ、
ドーナツドーナツ、ドーナツ、ベーグル、プレッツェル
ファーストフードファストフード、ホットドッグ、フライドポテト、ピザ、ブリトー、ハンバーガー、サンドイッチ
フライドポテトフライドポテト
ハンバーガーハンバーガー
ホットドッグホットドッグ
アイスクリームアイスクリーム
ピザピザ
サンドイッチサンドイッチ、サブマリン・サンドイッチ、ブリトー
寿司寿司
ベッドベッド、幼児用ベッド、犬用ベッド
椅子椅子、スツール
ソファーカウチソファ, ソファ, スタジオカウチソファ, ラブシート, ソファベッド
家具家具、椅子、キャビネット、机、ワインラック、ソファ、ソファベッド、ラブソファ、ワードローブ、ナイトテーブル、
棚, ワインラック, 本棚, スパイスラック
収納キャビネット収納_キャビネット、ワードローブ、食器棚、クローゼット、キャビネット、ファイリングキャビネット、チェスト、バスルームキャビネット
テーブルテーブル、ダイニングテーブル、デスク、テーブル、コーヒーテーブル、キッチンテーブル、ビリヤードテーブル、カウンタートップ、ナイトテーブル、
バスタブバスタブ
暖炉暖炉、薪ストーブ
マイクロウェーブ電子レンジ
オーブンオーブン
冷蔵庫冷蔵庫
スクリーンスクリーン、テレビ、コンピューターモニター、タブレットコンピューター
シンクシンク
タップ蛇口、シャワー
トースタートースター
トイレトイレ、ビデ
バルーンバルーン
バレルバレル
書籍書籍
ボトルボトル
ボウルボウル、ミキシングボウル
ボックスボックス
カメラカメラ、双眼鏡
キャンドルキャンドル
大砲大砲
クロック時計、壁掛け時計、目覚まし時計
コインコイン
コンピュータ・キーボードコンピュータ_キーボード、キーボード
コンピュータマウスコンピュータマウス
クッキング・パンクッキングパン、フライパン、中華鍋、ワッフルアイロン、スロークッカー、圧力鍋
カップカップ、マグカップ、コーヒーカップ
カーテンカーテン、ブラインド
ドールドール
植木鉢植木鉢、花瓶
フォークフォーク
ヘアドライヤーヘアドライヤー
ヘッドフォンヘッドフォン
ジャグ水差し、計量カップ、ティーポット、カクテルシェーカー、ピッチャー、ビーカー、やかん
ナイフナイフ、キッチンナイフ、ピザカッター、ノミ、短剣、剣
ランプランプ、ランタン、キャンドル、電球、懐中電灯、トーチ、シーリングファン
ラップトップラップトップ
マイクマイク
ペンペン、鉛筆
電話電話、携帯電話、携帯電話、スマートフォン、コード付き電話、iPod
プレート皿、ソーサー、大皿、ケーキスタンド
鉢植え鉢植え, 観葉植物
リモートリモート、リモコン
ハサミハサミ
スノーマンスノーマン
スプーンスプーン、おたま、へら
ティーポットティーポット、ケトル
テディベアテディベア
ブリキ缶ブリキ缶、クッキングスプレー
歯ブラシ歯ブラシ
おもちゃおもちゃ、人形、サイコロ、フライングディスク、テディベア
時計時計
ワイングラスワイングラス
バラバラ
サンフラワーサンフラワー
動物動物、イカ、貝、カキ、ロブスター、エビ、カニ、鳥、カササギ、キツツキ、アオカケス、ダチョウ、
鳥、カササギ、キツツキ、アオカケス、ダチョウ、ペンギン、ワタリガラス、ニワトリ、ワシ、フクロウ、アヒル、カナリア、ガチョウ、
オウムオウム
ウォーターバード水鳥、アヒル、ガチョウ、白鳥
蝶、蛾、蝶
昆虫昆虫、ダニ、ムカデ、等脚類、蜂、甲虫、てんとう虫、蟻、蛾と蝶、毛虫、蝶
ドルフィンドルフィン
魚、金魚、サメ、「エイとスケート」、タツノオトシゴ、イカ
金魚金魚
クラゲクラゲ
シールアザラシ、アシカ、ゼニガタアザラシ、セイウチ
貝、ロブスター、カキ、エビ、カニ、ヒトデ、カタツムリ
ホエールホエール
アルパカアルパカ
ベアクマ、ヒグマ
ビッグキャットビッグキャット、オオヤマネコ、ジャガー、トラ、ライオン、ヒョウ、チーター
ラクダラクダ
cow, bull, cattle
クロコダイルワニ、アリゲーター
鹿鹿、カモシカ
ドッグドッグ
カエルカエル
ジラフジラフ
カバカバ
馬、ロバ、ラバ
カンガルーカンガルー
パンダパンダ
ブタブタ
ポーラー・ベアポーラー・ベア
ウサギウサギ
爬虫類爬虫類、トカゲ、ヘビ、カメ、ウミガメ、ワニ、カエル
サイサイ
シープひつじ、やぎ
リスリス
亀、亀、海亀
ゼブラゼブラ
備考

例えば、"猫"、"犬"、その他いくつかのカテゴリーは "動物 "のカテゴリーに含まれる。 ニューラルネットワークは、206のカテゴリーごとに独立した予測を行う。 例えば、ニューラルネットワークは、猫のバウンディングボックスが「猫」と「動物」の両方であると、比較的高い信頼度で予測するが、おそらくは異なる。 したがって、アプリケーションが特定のタイプのオブジェクト(この場合、"cat "または "animal "のいずれか)を探している場合は、各バウンディング・ボックスについて、最も信頼度の高いカテゴライズだけをチェックするのではなく、最初のいくつかの最も信頼度の高いカテゴライズをチェックするようにしてください。

スーパーカテゴリー一覧
カテゴリーカバー
車、タクシー
車両車、自動車、電車、自転車、タクシー、オートバイ、バス、トラック
履物靴類、ローラースケート
ヘッドウェア帽子類、フェドラ帽
スポーツボールスポーツボール、サッカーボール、ラグビーボール、テニスボール
楽器金管楽器、弦楽器、ピアノ、アコーディオン、ドラム、フルート
弦楽器弦楽器、ギター、バイオリン
食品食べ物, リンゴ, バナナ, ベリー, ブロッコリー, ニンジン, 柑橘類, ココナッツ, 卵, ブドウ, 洋ナシ, カボチャ, トマト, パン, ケーキ, チーズ, デザート, ドーナツ, ファストフード, ハンバーガー, ホットドッグ, アイスクリーム, ピザ, サンドイッチ, 寿司
飲む飲料(ドリンク)、温かい飲み物(ホットドリンク)、ジュース
デザートデザート、ケーキ、アイスクリーム、ドーナツ
ファーストフードファストフード、フライドポテト、ホットドッグ、ピザ、ハンバーガー、サンドウィッチ
家具家具、ベッド、椅子、ソファ、棚、収納棚、テーブル
ジャグ水差し、ティーポット(急須)
ランプランプ、ろうそく
おもちゃおもちゃ、人形、テディベア
花、バラ、ひまわり
動物動物、鳥、オウム、水鳥、イルカ、魚、金魚、クラゲ、アザラシ、貝、クジラ、アルパカ、熊、大きな猫、ラクダ、猫、牛、ワニ、鹿、犬、象、カエル、キリン、カバ、馬、カンガルー、パンダ、豚、北極グマ、ウサギ、爬虫類、サイ、羊、リス、亀、シマウマ
鳥、オウム、水鳥
昆虫昆虫、蝶
魚、金魚
爬虫類爬虫類、ワニ、カエル、カメ

Person Detection Model Card v0.4

モデルの詳細

  • モデルの最終更新日: 2024年2月29日
  • モデルバージョン: v0.4
  • ライセンス: Lightshipの利用規約をご参照ください。

技術仕様

オブジェクト検出モデルは、一連のバウンディングボックスを返し、そのボックスが人物、人の手、または人の顔である確率を報告します。

使用目的

想定されるユースケース

  • 画像内の人物(具体的には人の手や顔)を識別する。
  • 画像内の人物、人の手、または人の顔の有無をクエリで確認する。

認定ユーザー

Niantic Lightshipを通じた拡張現実開発者。

対象外のユースケース

このモデルを使用して、次のことを行うことは できません

  • 個人を追跡する
  • 個人を識別または認識する

要素

Lightship ARDKに含まれるすべてのオブジェクト検出(人物の検出を含む)に対して、以下の要素が適用されます。

  • スケール: オブジェクトやクラスがカメラから非常に離れている場合、検出されないことがあります。
  • 照明 : 極端な光条件下では、全体的な性能に影響を及ぼす可能性があります。
  • ビューポイント : 学習時に捉えられていない極端なカメラビューは、誤検知やクラスの混同につながる恐れがあります。
  • オクルージョン: 他のオブジェクトで覆われているオブジェクトは、検出されないことがあります。
  • モーションブラー(被写体のぶれ) : 高速なカメラやオブジェクトの動きは、モデルのパフォーマンス低下につながる場合があります。
  • ちらつき: 時間的に隣接するフレーム間の予測で「ジッタリング」効果が生じることがあります。

特に人物の検出に関しては、コンピュータービジョン技術における既知の問題に基づいて、次のサブグループに関する考えられる要因を特定します。

  • 地理的地域
  • 肌の色
  • 性別
  • 身体姿勢 : 身体姿勢によっては、トレーニングコーパスへの出現頻度が低く、予測が難しい場合があります。
  • その他: 年齢、ファッションスタイル、アクセサリー、体の変化など。

公平性の評価

Niantic では、Lightshipのテクノロジーのインクルージョンと公平性を実現するために、モデルの構築や評価、展開において平等性と公平性の厳格な基準に従っています。私たちは、人物検出の公平性について、「識別されたさまざまなサブグループを描写した画像に対して均等に良好なパフォーマンスを発揮するモデルは、公平な予測を行っている」と定義しています。 評価結果では、最初の3つの主要なサブグループ(地理的地域、肌の色、性別)における人間のチャンネル(人物、人の手、人の顔)のパフォーマンスの測定を重視しています。

測定器とデータセットの詳細

私たちのベンチマークデータセットは、スマートフォンの背面カメラを使用して世界中で撮影された5,650枚の画像で構成されており、以下の仕様を備えています。

  • 1枚の画像につき、1名の人物のみ描写されます。
  • 環境は屋内外を問いません。
  • 撮影デバイスに制限はありません。
  • オクルージョンはありません。

画像には次の属性がラベル付けされています。

  • 地理的地域 : 国連による世界地理区分に基づき、ヨーロッパの小地域とミクロネシア、ポリネシア、メラネシアは統合しています:
    • 北アフリカ
    • 東アフリカ
    • 中東アフリカ
    • 南部アフリカ
    • 西アフリカ
    • カリビアン
    • 中央アメリカ
    • 南アメリカ
    • 北アメリカ
    • 中央アジア
    • 東アジア
    • 東南アジア
    • 南アジア
    • 西アジア
    • ヨーロッパ
    • 豪州・ニュージーランド
    • メラネシア、ミクロネシア、ポリネシア
  • 肌の色: : following the Fitzpatrick scaleに基づき、画像にはサブグループ1~6のアノテーション(注釈)が付けられています。 肌の色は、各画像に写っている人物が自己申告した値です。
  • 性別 : 画像に付けられたアノテーション(注釈)は、自己申告された性別です。

指標

Niantic では、オブジェクト検出モデルを評価するための標準的な指標として、Intersection over Union (IoU)を使用しています。 この指標では、次のように計算されます。

IoU =(予測ボックスと実際のボックスの重なり)/(予測ボックスと実際のボックスの和)

報告されたIoUは、別途記載のない限り、参照するサブグループに属する画像の平均値(mean IoUまたはmIoU)です。

公平性の判断基準

特定のサブグループの性能(mIoU)が、全サブグループの平均から3標準偏差以上離れている場合、そのモデルの予測は公平性に欠けると見なされます。

結果

地理的評価

17の地域全体の平均性能は78.74%、標準偏差は1.22%で、 各地域の性能は[76.92%, 82.17%]の範囲に収まっています。 平均値と最も低い性能の地域との最大差は1.83%で、これはNiantic の公平性判断基準である3標準偏差(3 x 1.22% = 3.65%)の範囲内であることを示しています。

地域mIoU標準偏差画像数
北アフリカ78.26%15.04%301
東アフリカ77.41%17.11%336
中東アフリカ77.30%15.72%322
南部アフリカ79.09%14.93%368
西アフリカ79.04%13.26%364
カリビアン79.01%12.20%412
中央アメリカ79.44%13.79%415
南アメリカ78.39%14.21%397
北アメリカ79.09%13.00%335
中央アジア79.52%12.56%229
東アジア77.60%15.37%346
東南アジア77.86%14.86%333
南アジア79.34%12.15%353
西アジア78.80%14.91%370
ヨーロッパ79.40%13.14%320
豪州・ニュージーランド76.92%18.13%374
メラネシア、ミクロネシア、ポリネシア82.17%11.08%75
すべての画像の平均値78.55%14.55%5650
すべての地域の平均値78.74%1.22%-

肌の色に関する評価結果

6つの肌の色全体の平均性能は78.58%、標準偏差は0.24%で、 各サブグループの肌の色の性能は[78.23%, 78.97%]の範囲に収まっています。 平均値と最も低い性能の肌の色のサブグループとの最大差は0.34%で、これはNiantic の公平性判断基準である3標準偏差(3 x 0.24% = 0.71%)の範囲内であることを示しています。

肌の色(フィッツパトリック・スケール)mIoU標準偏差画像数
178.59%12.00%247
278.49%14.59%1919
378.61%14.39%1463
478.23%16.52%457
578.97%13.60%706
678.56%14.67%858
すべての画像の平均値78.55%14.55%5650
すべての肌の色の平均値78.58%0.24%-

性別に関する評価結果

評価されたすべての性別サブグループの平均性能は78.53%で、[78.01%, 79.05%]の範囲に収まっています。 平均値と最も低い性能の性別のサブグループとの最大差は0.52%で、これはNiantic の公正性判断基準である3標準偏差(3 x 0.74% = 2.22%)の範囲内であることを示しています。

他者から見た性別mIoU標準偏差画像数
女性78.01%15.08%2585
男性79.05%13.96%3065
すべての画像の平均値78.55%14.55%5650
性別における平均値78.53%0.74%-

倫理的配慮

  • プライバシー: モデルがARDKで使用される際、推論はデバイス上でのみ実行され、画像がユーザーデバイスから転送されることはありません。
  • 人命: このモデルは、拡張現実アプリケーション内でのエンターテインメントを目的として設計されており、 人命にかかわる重大な判断を行うためのものではありません。
  • バイアス : 学習用データセットは、多様性についての監査が行われていないため、ベンチマークでは表面化しなかったバイアスが存在する可能性があります。

注意点と推奨事項

  • Niantic のアノテーション(注釈付き)データセットには、男性/女性という二値データの性別のみが含まれています。 多様な性別で評価するには、さらなるデータが必要です。
  • 理想的な肌色の評価データセットには、カメラの詳細情報に加え、照明や湿度などの環境要素も含めることが推奨されます。 また、フィッツパトリックスケールには、人間の肌の色を完全には表現できないという限界があります。
  • このモデルカードは、Mitchell, Margaretらによる「Model cards for model reporting」に基づいており、 公平性、説明責任、および透明性に関する会議の議事録に含まれています。 2019. Link