オブジェクト検出

200以上の新しいオブジェクトクラスを備えたオブジェクト検出サブシステムは、Lightshipのコンテクスト・アウェアネス機能を強化し、現実世界のオブジェクトが画面に現れると動的に更新されるセマンティックラベル付きの2Dバウンディングボックスを作成します。それぞれのバウンディングボックスについて、サブシステムは画像の中央の正方形クロップを処理し、次にすべてのサブクラスについて独立した予測を行い、検出された物体がそれぞれのサブクラスに属する確率を返す。また、Lightshipのオブジェクト検出では、人物、手、人間の顔に対する検出のトレーニング方法を説明するモデルカードも提供されています。

Image with Bounding Boxes around Detected Objects

基本的な使い方

Lightshipの ARObjectDetectionManager をシーンに配置し、 ObjectDetectionsUpdated イベントをサブスクライブします。これで、リアルタイムの検出情報をXRDetectedObjectsの形式で受け取ることができます。また、 MetadataInitialized イベントをリッスンすれば、モデルが使用可能になったときにオブジェクトクラスのリストを受け取ることができます。

パフォーマンス負荷を抑えたり、迅速にオブジェクトを検出できるように、 ARObjectDetectionManager のフレームレートを調整することもできます。

Image displaying ARObjectDetectionManager properties

オブジェクト検出カテゴリー

バウンディングボックス内の対象を識別する際に、ニューラルネットワークが参照するカテゴリーは206種類あります。

カテゴリー一覧

カテゴリー	概要
人間_顔	人間の顔
人間_手	人間の手
人物	人物、男、女、少年、少女、人体
頭蓋骨	頭蓋骨
航空機	航空機、飛行機、ヘリコプター、ロケット、パラシュート
自転車	自転車、固定式自転車、一輪車
ボート	ボート、水上バイク、はしけ、ゴンドラ、カヌー、ジェットスキー、潜水艦、個人用浮揚装置
バス	バス
車	車、スノーモービル、ゴルフカート、戦車、除雪車、救急車、バン、リムジン、タクシー、バス、トラック
カート	カート
オートバイ	オートバイ
タクシー	タクシー
電車	電車
トラック	トラック
車両	車両、自動車、陸上車両、スノーモービル、ゴルフカート、戦車、電車、除雪車、救急車、自転車、一輪車
ホイール	ホイール、タイヤ、自転車ホイール
車椅子	車椅子
ベンチ	ベンチ
ビルボード	ビルボード、スコアボード
クリスマス_ツリー	クリスマス_ツリー
ドア	ドア
ドア_ハンドル	ドア_ハンドル
消火_剤	消火_剤
フラグ	フラグ
パーキング_メーター	パーキング_メーター
ポスター	ポスター、フォトフレーム
彫刻	彫刻、胸像、ブロンズ像
街路_灯	街路_灯
信_号	信_号
交通_標識	交通_標識、停止の標識
廃棄物_コンテナ	廃棄物_コンテナ、ゴミ箱、ゴミ箱
水_景物	水_景物、スイミング_プール、ジャグジー、噴水
窓	窓（屋内と屋外の両方）
バックパック	バックパック
衣類	衣類、スポーツユニフォーム
コート	コート、ジャケット
ドレス	ドレス
フェドーラ帽	フェドーラ帽、日よけ帽、カウボーイハット
靴類	靴類、ローラースケート、ブーツ、ハイヒール、サンダル
眼鏡	眼鏡、サングラス、ゴーグル
ハンドバッグ	ハンドバッグ、ブリーフケース、ピクニックバスケット、荷物、バッグ
帽子類	帽子類、ハット、カウボーイハット、フェドーラ帽、ソンブレロ、日よけ帽、水泳帽、ヘルメット、自転車用ヘルメット、サッカー用ヘルメット
ローラー_スケート	ローラー_スケート
シャツ	シャツ
ショーツ	ショーツ
スカート	スカート、ミニスカート
靴下	靴下
スーツ	スーツ
スーツケース	スーツケース、ブリーフケース
ネクタイ	ネクタイ
ズボン	ズボン、ジーンズ
傘	傘
野球_バット	野球_バット
野球_グローブ	野球_グローブ
フットボール	フットボール（サッカー）
フリスビー	フリスビー、フライングディスク
凧	凧
パドル	パドル
ラグビー_ボール	ラグビー_ボール
スケートボード	スケートボード
スキー	スキー
スノーボード	スノーボード
スポーツ_ボール	スポーツ_ボール、ボール、サッカーボール、クリケットボール、バレーボール、テニスボール、ラグビーボール
サーフボード	サーフボード
テニス_ボール	テニス_ボール
テニス_ラケット	テニス_ラケット、卓球ラケット、ラケット
アコーディオン	アコーディオン
金管_楽器	金管_楽器、フレンチホルン、サクソフォーン、トロンボーン、トランペット
ドラム	ドラム
フルート	フルート、ハーモニカ、オーボエ
ギター	ギター
楽_器	楽_器、オルガン、バンジョー、チェロ、ドラム、フレンチホルン、ギター、ハープ、チェンバロ、ハーモニカ、オーボエ、
ピアノ	ピアノ、オルガン、チェンバロ、鍵盤楽器
弦_楽器	弦_楽器、ギター、バンジョー、チェロ、ハープ、バイオリン
バイオリン	バイオリン
リンゴ	リンゴ
バナナ	バナナ
ベリー	ベリー、ストロベリー、ラズベリー
ブロッコリー	ブロッコリー
ニンジン	ニンジン
柑橘類	柑橘類、オレンジ、レモン、グレープフルーツ
ココナッツ	ココナッツ
卵	卵
食べ物	食べ物、ファーストフード、ホットドッグ、フライドポテト、ワッフル、パンケーキ、ブリトー、スナック、プレッツェル、ポップコーン、クッキー、
ぶどう	ぶどう
マッシュルーム	マッシュルーム
梨	梨
かぼちゃ	かぼちゃ、ズッキーニ
トマト	トマト
飲料（ドリンク）	ドリンク、ビール、カクテル、コーヒー、ジュース、紅茶、ワイン、ボトル
ホット_ドリンク	ホット_ドリンク、紅茶、コーヒー
ジュース	ジュース
パン	パン
ケーキ	ケーキ、タルト、マフィン
チーズ	チーズ
デザート	デザート、アイスクリーム、ケーキ、デザート、マフィン、ドーナツ、ベーグル、クッキー、ビスケット、ワッフル、パンケーキ、
ドーナツ	ドーナツ、ドーナツ、ベーグル、プレッツェル
ファスト_フード	ファスト_フード、ホット_ドッグ、フライド_ポテト、ピザ、ブリトー、ハンバーガー、サンドイッチ
フライド_ポテト	フライド_ポテト
ハンバーガー	ハンバーガー
ホット_ドッグ	ホット_ドッグ
アイス_クリーム	アイス_クリーム
ピザ	ピザ
サンドイッチ	サンドイッチ、サブマリン・サンドイッチ、ブリトー
寿司	寿司
ベッド	ベッド、幼児用ベッド、犬用ベッド
椅子	椅子、スツール
ソファ	カウチソファ、ソファ、スタジオカウチソファ、2人用ソファ、ソファベッド
家具	家具、椅子、キャビネット、机、ワインラック、ソファ、ソファベッド、2人用ソファ、衣装ダンス、ナイトテーブル、
棚	棚、ワインラック、本棚、スパイスラック
収納_キャビネット	収納_キャビネット、ワードローブ、食器棚、クローゼット、キャビネット、ファイルキャビネット、チェスト、バスルームキャビネット
テーブル	テーブル、ダイニングテーブル、机、テーブル、コーヒーテーブル、キッチンテーブル、ビリヤードテーブル、カウンター、ナイトテーブル、
バスタブ	バスタブ
暖炉	暖炉、薪ストーブ
電子レンジ	電子レンジ
オーブン	オーブン
冷蔵庫	冷蔵庫
画面	画面、テレビ、コンピューターモニター、タブレットコンピューター
シンク	シンク
蛇口	蛇口、シャワー
トースター	トースター
トイレ	トイレ、ビデ
風船	風船
たる	たる
本	本
ボトル	ボトル
ボウル	ボウル、ミキシングボウル
箱	箱
カメラ	カメラ、双眼鏡
ろうそく	ろうそく
大砲	大砲
箸	箸
時計	時計、壁掛け時計、目覚まし時計
コイン	コイン
コンピューター_キーボード	コンピューター_キーボード、キーボード
コンピューター_マウス	コンピューター_マウス
料理用_鍋	料理用_鍋、フライパン、中華鍋、ワッフルメーカー、スロークッカー、圧力鍋
カップ	カップ、マグカップ、コーヒーカップ
カーテン	カーテン、ブラインド
人形	人形
植木鉢	植木鉢、花瓶
フォーク	フォーク
ヘア_ドライヤー	ヘア_ドライヤー
ヘッドフォン	ヘッドフォン
水差し	水差し、計量カップ、ティーポット、カクテルシェーカー、ピッチャー、ビーカー、やかん
ナイフ	ナイフ、キッチンナイフ、ピザカッター、ノミ、短剣、剣
ランプ	ランプ、ランタン、ろうそく、電球、懐中電灯、トーチ、シーリングファン
ノートパソコン	ノートパソコン
マイク	マイク
ペン	ペン、鉛筆
電話	電話、電話機、携帯電話、スマートフォン、コード付き電話、iPod
枕	枕
皿	皿、ソーサー、大皿、ケーキスタンド
鉢_植え	鉢_植え、観葉植物
リモートコントローラー	リモートコントローラー、リモコン
ハサミ	ハサミ
雪だるま	雪だるま
スプーン	スプーン、おたま、へら
ティーポット	ティーポット、やかん
テディ_ベア	テディ_ベア
ブリキ_缶	ブリキ_缶、クッキングスプレー
歯ブラシ	歯ブラシ
おもちゃ	おもちゃ、人形、サイコロ、フライングディスク、テディベア
腕時計	腕時計
ワイン_グラス	ワイン_グラス
花	花
バラ	バラ
ヒマワリ	ヒマワリ
動物	動物、イカ、貝、カキ、ロブスター、エビ、カニ、鳥、カササギ、キツツキ、アオカケス、ダチョウ、
鳥	鳥、カササギ、キツツキ、アオカケス、ダチョウ、ペンギン、ワタリガラス、ニワトリ、ワシ、フクロウ、アヒル、カナリア、ガチョウ、
オウム	オウム
水_鳥	水_鳥、アヒル、ガチョウ、白鳥
蝶	蝶、蛾、蝶
昆虫	昆虫、ダニ、ムカデ、等脚類、蜂、甲虫、てんとう虫、蟻、蛾と蝶、毛虫、蝶
イルカ	イルカ
魚	魚、金魚、サメ、「エイとスケート」、タツノオトシゴ、イカ
金魚	金魚
クラゲ	クラゲ
海生哺乳類	アザラシ、アシカ、ゼニガタアザラシ、セイウチ
甲殻類	貝、ロブスター、カキ、エビ、カニ、ヒトデ、カタツムリ
クジラ	クジラ
アルパカ	アルパカ
熊	熊、ヒグマ
大型_猫科動物	大型_猫科動物、オオヤマネコ、ジャガー、トラ、ライオン、ヒョウ、チーター
ラクダ	ラクダ
猫	猫
牛	牛、雄牛、畜牛
ワニ	ワニ、アリゲーター
鹿	鹿、レイヨウ
犬	犬
象	象
カエル	カエル
キリン	キリン
カバ	カバ
馬	馬、ロバ、ラバ
カンガルー	カンガルー
パンダ	パンダ
豚	豚
ホッキョク_グマ	ホッキョク_グマ
ウサギ	ウサギ
爬虫類	爬虫類、トカゲ、ヘビ、カメ、ウミガメ、ワニ、カエル
サイ	サイ
羊	羊、山羊
リス	リス
カメ	カメ、リクガメ、ウミガメ
シマウマ	シマウマ

備考

これらのカテゴリーの一部は、他の206のカテゴリーのいずれかにも該当します。例えば、「猫」や「犬」などはいずれも「動物」カテゴリーに含まれます。ニューラルネットワークは、206のカテゴリーごとに独立して予測を行います。例えば、ニューラルネットワークは、猫のバウンディングボックスを「猫」と「動物」の両方として予測します。その信頼度は比較的高いものの、それぞれ異なる可能性があり、常にどちらかの信頼度が他より高くなるとは限りません。そのため、アプリケーションが特定のタイプのオブジェクト（この場合、「cat」または「animal」）を探す場合は、最も信頼度が高いカテゴリー分類だけを見るのではなく、各バウンディングボックスで信頼度の高い上位数カテゴリーも確認するようにしてください。

スーパー-カテゴリー一覧

カテゴリー	カバー
車	車、タクシー
車両	車両、自動車、電車、自転車、タクシー、オートバイ、バス、トラック
靴類	靴類、ローラースケート
帽子類	帽子類、フェドラ帽
スポーツボール	スポーツボール、サッカーボール、ラグビーボール、テニスボール
楽器	金管楽器、弦楽器、ピアノ、アコーディオン、ドラム、フルート
弦楽器	弦楽器、ギター、バイオリン
食べ物	食べ物、リンゴ、バナナ、ベリー、ブロッコリー、ニンジン、柑橘類、ココナッツ、卵、ブドウ、梨、カボチャ、トマト、パン、ケーキ、チーズ、デザート、ドーナツ、ファストフード、ハンバーガー、ホットドッグ、アイスクリーム、ピザ、サンドイッチ、寿司
飲料（ドリンク）	飲料（ドリンク）、温かい飲み物（ホットドリンク）、ジュース
デザート	デザート、ケーキ、アイスクリーム、ドーナツ
ファストフード	ファストフード、フライドポテト、ホットドッグ、ピザ、ハンバーガー、サンドウィッチ
家具	家具、ベッド、椅子、ソファ、棚、収納棚、テーブル
水差し	水差し、ティーポット（急須）
ランプ	ランプ、ろうそく
おもちゃ	おもちゃ、人形、テディベア
花	花、バラ、ひまわり
動物	動物、鳥、オウム、水鳥、イルカ、魚、金魚、クラゲ、アザラシ、貝、クジラ、アルパカ、熊、大型猫科動物、ラクダ、猫、牛、ワニ、鹿、犬、象、カエル、キリン、カバ、馬、カンガルー、パンダ、豚、ホッキョクグマ、ウサギ、爬虫類、サイ、羊、リス、亀、シマウマ
鳥	鳥、オウム、水鳥
昆虫	昆虫、蝶
魚	魚、金魚
爬虫類	爬虫類、ワニ、カエル、カメ

Person Detection Model Card v0.4

モデルの詳細

モデルの最終更新日: 2024年2月29日
モデルバージョン: v0.4
ライセンス: Lightshipの利用規約をご参照ください。

技術仕様

オブジェクト検出モデルは、一連のバウンディングボックスを返し、そのボックスが人物、人の手、または人の顔である確率を報告します。

使用目的

想定されるユースケース

画像内の人物（具体的には人の手や顔）を識別する。
画像内の人物、人の手、または人の顔の有無をクエリで確認する。

認定ユーザー

Niantic Lightshipを通じた拡張現実開発者。

対象外のユースケース

このモデルを使用して、次のことを行うことは できません。

個人を追跡する
個人を識別または認識する

要素

Lightship ARDKに含まれるすべてのオブジェクト検出（人物の検出を含む）に対して、以下の要素が適用されます。

スケール: オブジェクトやクラスがカメラから非常に離れている場合、検出されないことがあります。
照明 : 極端な光条件下では、全体的な性能に影響を及ぼす可能性があります。
ビューポイント : 学習時に捉えられていない極端なカメラビューは、誤検知やクラスの混同につながる恐れがあります。
オクルージョン: 他のオブジェクトで覆われているオブジェクトは、検出されないことがあります。
モーションブラー（被写体のぶれ） : 高速なカメラやオブジェクトの動きは、モデルのパフォーマンス低下につながる場合があります。
ちらつき: 時間的に隣接するフレーム間の予測で「ジッタリング」効果が生じることがあります。

特に人物の検出に関しては、コンピュータービジョン技術における既知の問題に基づいて、次のサブグループに関する考えられる要因を特定します。

地理的地域
肌の色
性別
身体姿勢 : 身体姿勢によっては、トレーニングコーパスへの出現頻度が低く、予測が難しい場合があります。
その他: 年齢、ファッションスタイル、アクセサリー、体の変化など。

公平性の評価

Niantic では、Lightshipのテクノロジーのインクルージョンと公平性を実現するために、モデルの構築や評価、展開において平等性と公平性の厳格な基準に従っています。私たちは、人物検出の公平性について、「識別されたさまざまなサブグループを描写した画像に対して均等に良好なパフォーマンスを発揮するモデルは、公平な予測を行っている」と定義しています。評価結果では、最初の3つの主要なサブグループ（地理的地域、肌の色、性別）における人間のチャンネル（人物、人の手、人の顔）のパフォーマンスの測定を重視しています。

測定器とデータセットの詳細

私たちのベンチマークデータセットは、スマートフォンの背面カメラを使用して世界中で撮影された5,650枚の画像で構成されており、以下の仕様を備えています。

1枚の画像につき、1名の人物のみ描写されます。
環境は屋内外を問いません。
撮影デバイスに制限はありません。
オクルージョンはありません。

画像には次の属性がラベル付けされています。

地理的地域 : 国連による世界地理区分に基づき、ヨーロッパの小地域とミクロネシア、ポリネシア、メラネシアは統合しています：
- 北アフリカ
- 東アフリカ
- 中東アフリカ
- 南部アフリカ
- 西アフリカ
- カリビアン
- 中央アメリカ
- 南アメリカ
- 北アメリカ
- 中央アジア
- 東アジア
- 東南アジア
- 南アジア
- 西アジア
- ヨーロッパ
- 豪州・ニュージーランド
- メラネシア、ミクロネシア、ポリネシア
肌の色: : following the Fitzpatrick scaleに基づき、画像にはサブグループ1～6のアノテーション（注釈）が付けられています。肌の色は、各画像に写っている人物が自己申告した値です。
性別 : 画像に付けられたアノテーション（注釈）は、自己申告された性別です。

指標

Niantic では、オブジェクト検出モデルを評価するための標準的な指標として、Intersection over Union (IoU)を使用しています。この指標では、次のように計算されます。

IoU =（予測ボックスと実際のボックスの重なり）/（予測ボックスと実際のボックスの和）

報告されたIoUは、別途記載のない限り、参照するサブグループに属する画像の平均値（mean IoUまたはmIoU）です。

公平性の判断基準

特定のサブグループの性能（mIoU）が、全サブグループの平均から3標準偏差以上離れている場合、そのモデルの予測は公平性に欠けると見なされます。

結果

地理的評価

17の地域全体の平均性能は78.74%、標準偏差は1.22%で、各地域の性能は[76.92%, 82.17%]の範囲に収まっています。平均値と最も低い性能の地域との最大差は1.83%で、これはNiantic の公平性判断基準である3標準偏差（3 x 1.22% = 3.65%）の範囲内であることを示しています。

地域	mIoU	標準偏差	画像数
北アフリカ	78.26%	15.04%	301
東アフリカ	77.41%	17.11%	336
中東アフリカ	77.30%	15.72%	322
南部アフリカ	79.09%	14.93%	368
西アフリカ	79.04%	13.26%	364
カリビアン	79.01%	12.20%	412
中央アメリカ	79.44%	13.79%	415
南アメリカ	78.39%	14.21%	397
北アメリカ	79.09%	13.00%	335
中央アジア	79.52%	12.56%	229
東アジア	77.60%	15.37%	346
東南アジア	77.86%	14.86%	333
南アジア	79.34%	12.15%	353
西アジア	78.80%	14.91%	370
ヨーロッパ	79.40%	13.14%	320
豪州・ニュージーランド	76.92%	18.13%	374
メラネシア、ミクロネシア、ポリネシア	82.17%	11.08%	75
すべての画像の平均値	78.55%	14.55%	5650
すべての地域の平均値	78.74%	1.22%	-

肌の色に関する評価結果

6つの肌の色全体の平均性能は78.58%、標準偏差は0.24%で、各サブグループの肌の色の性能は[78.23%, 78.97%]の範囲に収まっています。平均値と最も低い性能の肌の色のサブグループとの最大差は0.34%で、これはNiantic の公平性判断基準である3標準偏差（3 x 0.24% = 0.71%）の範囲内であることを示しています。

肌の色（フィッツパトリック・スケール）	mIoU	標準偏差	画像数
1	78.59%	12.00%	247
2	78.49%	14.59%	1919
3	78.61%	14.39%	1463
4	78.23%	16.52%	457
5	78.97%	13.60%	706
6	78.56%	14.67%	858
すべての画像の平均値	78.55%	14.55%	5650
すべての肌の色の平均値	78.58%	0.24%	-

性別に関する評価結果

評価されたすべての性別サブグループの平均性能は78.53%で、[78.01%, 79.05%]の範囲に収まっています。平均値と最も低い性能の性別のサブグループとの最大差は0.52%で、これはNiantic の公正性判断基準である3標準偏差（3 x 0.74% = 2.22%）の範囲内であることを示しています。

他者から見た性別	mIoU	標準偏差	画像数
女性	78.01%	15.08%	2585
男性	79.05%	13.96%	3065
すべての画像の平均値	78.55%	14.55%	5650
性別における平均値	78.53%	0.74%	-

倫理的配慮

プライバシー: モデルがARDKで使用される際、推論はデバイス上でのみ実行され、画像がユーザーデバイスから転送されることはありません。
人命: このモデルは、拡張現実アプリケーション内でのエンターテインメントを目的として設計されており、人命にかかわる重大な判断を行うためのものではありません。
バイアス : 学習用データセットは、多様性についての監査が行われていないため、ベンチマークでは表面化しなかったバイアスが存在する可能性があります。

注意点と推奨事項

Niantic のアノテーション（注釈付き）データセットには、男性/女性という二値データの性別のみが含まれています。多様な性別で評価するには、さらなるデータが必要です。
理想的な肌色の評価データセットには、カメラの詳細情報に加え、照明や湿度などの環境要素も含めることが推奨されます。また、フィッツパトリックスケールには、人間の肌の色を完全には表現できないという限界があります。
このモデルカードは、Mitchell, Margaretらによる「Model cards for model reporting」に基づいており、公平性、説明責任、および透明性に関する会議の議事録に含まれています。 2019. Link

基本的な使い方​

オブジェクト検出カテゴリー​

Person Detection Model Card v0.4​

モデルの詳細​

技術仕様​

使用目的​

想定されるユースケース​

認定ユーザー​

対象外のユースケース​

要素​

公平性の評価​

測定器とデータセットの詳細​

指標​

公平性の判断基準​

結果​

地理的評価​

肌の色に関する評価結果​

性別に関する評価結果​

倫理的配慮​

注意点と推奨事項​