バージョン： 3.7

物体検出

オブジェクト検出サブシステムは、実世界のオブジェクトが画面上に現れると動的に更新される、意味的にラベル付けされた2Dバウンディングボックスを作成することで、Lightshipのコンテキスト認識機能を強化します。それぞれのバウンディングボックスについて、サブシステムは画像の中央の正方形クロップを処理し、次にすべてのサブクラスについて独立した予測を行い、検出された物体がそれぞれのサブクラスに属する確率を返す。また、Lightship Object Detectionでは、人、人の手、人の顔の検出がどのように学習されたかを説明する以下のモデルカードも提供している。

Image with Bounding Boxes around Detected Objects

基本的な使い方

Lightshipの ARObjectDetectionManager をシーンに配置し、ObjectDetectionsUpdatedイベントをサブスクライブすることで、開発者はXRDetectedObjectsの形式でリアルタイムの検出情報を受け取ることができます。また、MetadataInitialized イベントをリッスンして、モデルが使用可能になったときにオブジェクトクラスのリストを受け取ることができます。

また、 ARObjectDetectionManager のフレームレートを調整することで、パフォーマンスを節約したり、より高速にオブジェクトを検出したりすることができます。

Image displaying ARObjectDetectionManager properties

オブジェクト検出カテゴリー

備考

各クラスの確率は独立に計算されるが、各カテゴリのサブクラスは、それらが属するカテゴリクラスを学習するために使用される。このため、オブジェクトは特定のサブクラスではなく、カテゴリークラスのメンバーとして検出することができる。例えば、フレンチホルンであれば、そのオブジェクトが french horn, brass instrument, musical instrument クラスに属している可能性が高いことを返す。

カテゴリー	サブクラス
航空機	飛行機、ヘリコプター、熱気球、パラシュート、ロケット
建物の特徴	ドア、ドアハンドル、窓
車	車、タクシー
屋外用家具	樽、ベンチ、看板、消火栓、旗、パーキングメーター、彫刻、雪だるま、街灯、信号機、ゴミ箱
車両	乗り物、自転車、ボート、バス、車、カート、オートバイ、タクシー、電車、トラック、車輪、車椅子
ウォーターフィーチャー	噴水、プール

アクセサリー	リュックサック、メガネ、ハンドバッグ、傘
衣類	コート、ドレス、シャツ、ショーツ、スカート、靴下、スーツ、ネクタイ、ズボン
フットウェア	フットウェア、ローラースケート
ヘッドウェア	ヘッドウェア、フェドラ

楽器	アコーディオン、金管楽器、ドラム、フルート、ギター、ピアノ、弦楽器、バイオリン
金管楽器	フレンチホルン、サクソフォン、トロンボーン、トランペット
弦楽器	バンジョー、チェロ、ハープ、ギター、ヴァイオリン

フード	食べ物, リンゴ, バナナ, ベリー, パン, ブロッコリー, ケーキ, ニンジン, チーズ, 柑橘類, ココナッツ, デザート, ドーナツ, 卵, ファストフード, ブドウ, ハンバーガー, ホットドッグ, アイスクリーム, キノコ, 梨, ピザ, カボチャ, サンドイッチ, 寿司, トマト.
ベリー	ベリー、ラズベリー、ストロベリー
シトラス	柑橘類、グレープフルーツ、レモン、ライム、オレンジ
デザート	デザート, ケーキ, ドーナツ, アイスクリーム
ファーストフード	ファーストフード、フライドポテト、ホットドッグ、ピザ、ハンバーガー、サンドイッチ
パンプキン	カボチャ
ドリンク	ドリンク、ホットドリンク、ジュース
ホットドリンク	紅茶、コーヒー（カップに入れると認識される）

家電製品	ヘアードライヤー、電子レンジ、オーブン、冷蔵庫、トースター
調理鍋	フライパン、圧力鍋、スロークッカー、ワッフルアイロン、中華鍋
室内家具	家具、ベッド、椅子、クリスマスツリー、ソファ、カーテン、ポスター、棚、収納棚、テーブル
水差し	水差し、ティーポット
ランプ	ランプ、キャンドル
ホーム	バスタブ、暖炉、シンク、蛇口、トイレ
その他	本、ボトル、ボウル、箱、大砲、箸、コイン、カップ、植木鉢、フォーク、ナイフ、ペン、枕、皿、鉢植え、はさみ、頭蓋骨、スプーン、ブリキ缶、歯ブラシ、ワイングラス
スクリーン	スクリーン、コンピュータ・ディスプレイ、タブレット、テレビ
スポーツボール	スポーツボール、サッカーボール、ラグビーボール、テニスボール
スポーツ用品	野球のバット、野球のグローブ、フリスビー、凧、パドル、スケートボード、スキー、スノーボード、テニスラケット
テック	カメラ、時計、コンピュータキーボード、コンピュータマウス、ヘッドフォン、マイク、電話、リモコン、時計
おもちゃ	おもちゃ、人形、テディベア

動物	動物, アルパカ, クマ, 大きな猫, 鳥, ラクダ, 猫, 牛, ワニ, 鹿, 犬, イルカ, 象, 魚, カエル, キリン, 金魚, カバ, 馬, クラゲ, カンガルー, パンダ, オウム, 豚, 北極熊, ウサギ, 爬虫類, サイ, アザラシ, 羊, 貝, リス, カメ, 水鳥, クジラ, シマウマ
大きな猫	チーター、ジャガー、ヒョウ、ライオン、オオヤマネコ、トラ
鳥	鳥、オウム、水鳥
ラクダ類	アルパカ、ラクダ、ラマ
クロコダイル	クロコダイル、アリゲーター
鹿	アンテロープ、鹿、ヘラジカ
花	花、バラ、ヒマワリ
馬	ロバ、馬、ラバ
昆虫	昆虫、蝶
魚	魚、金魚、クラゲ、マンタ、タツノオトシゴ、貝、イカ
爬虫類	爬虫類、ワニ、カメ
シール	アザラシ、アシカ、セイウチ
羊	ヤギ、ヒツジ
貝類	カニ、ロブスター、カキ、エビ、カタツムリ、ヒトデ
タートル	亀、海亀、亀
水鳥	鴨、雁、白鳥

人物	人、人の顔、人の手、

人物検出モデルカードv0.4

モデル詳細

モデル最終更新日2024-02-29
モデル・バージョン：v0.4
ライセンス：ライトシップの利用規約を参照。

技術仕様

物体検出モデルは、バウンディングボックスのセットを返し、そのボックスが人、人の手、人の顔である確率を報告する。

使用目的

想定される使用例

画像内の人物（具体的には人の手や顔）を識別する。
画像内の人、人の手、人の顔の有無を問い合わせる。

許可されたユーザー

Niantic Lightshipを通じた拡張現実開発者。

範囲外の使用例

このモデルには以下の機能はありません：

個人追跡
個人を特定または認識する

要因

以下の要素は、人物検出を含め、Lightship ARDKで提供されるすべての物体検出に適用されます：

**オブジェクト/クラスがカメラから非常に離れている場合、検出されないことがあります。
照明：極端な光の状態は、全体的なパフォーマンスに影響を与える可能性があります。
視点：トレーニング中に見たことのない極端なカメラビューは、検出のミスやクラスの混乱を引き起こす可能性がある。
**オブジェクトが他のオブジェクトに覆われていると、検出されないことがある。
モーションブラー：カメラやオブジェクトの速い動きは、モデルのパフォーマンスを低下させる可能性があります。
フリッカー：時間的に隣接するフレームの予測間に「ジッタリング」効果があるかもしれない。

特に人物検出については、コンピュータビジョン技術の既知の問題に基づき、以下のサブグループを含む潜在的な関連要因を特定する：

地域
肌の色
性別
体の姿勢：トレーニングコーパスに登場する頻度が低いため、特定の体の構成は予測しにくいかもしれない。
その他：年齢、ファッションスタイル、アクセサリー、身体の改造など。

公平性の評価

ナイアンティックでは、モデルを構築、評価、展開する際に、の平等性と公平性を厳格に実践することで、当社のテクノロジーが包括的で公平なものとなるよう努めています。我々は人物検出の公平性を次のように定義する：モデルが、識別された様々なサブグループが描かれた画像に対して、公平な予測を行う。評価結果は、、最初の3つの主要なサブグループ（地理的地域、肌の色、性別）に対する人間のチャンネル（人、人の手、人の顔）の結合のパフォーマンスを測定することに焦点を当てている。

装置とデータセットの詳細

我々のベンチマークデータセットは、スマートフォンのバックカメラを使って世界中で撮影された5650枚の画像で構成されている：

1枚の画像に描かれている人物は1人のみ。
屋内と屋外の両方の環境。
様々なデバイスで撮影。
咬合はない。

画像には以下の属性が付けられている：

地理的地域：UN geoschemeに基づき、ヨーロッパの小地域とミクロネシア、ポリネシア、メラネシアを統合したもの：
- 北アフリカ
- 東アフリカ
- 中東アフリカ
- 南部アフリカ
- 西アフリカ
- カリビアン
- 中央アメリカ
- 南米
- 北アメリカ
- 中央アジア
- 東アジア
- 南東アジア
- 南アジア
- 西アジア
- ヨーロッパ
- オーストラリアとニュージーランド
- メラネシア、ミクロネシア、ポリネシア
肌色：Fitzpatrick scaleに従い、画像はサブグループ1から6までアノテーションされている。肌色は、各画像の人物が自己申告した値である。
性別：画像には自己申告の性別が注記されている。

指標

物体検出モデルを評価するための標準的な指標は、Intersection over Union(IoU)である。これは次のように計算される：

IoU = (予測ボックスとg.t.ボックスの重なり) / (予測ボックスとg.t.ボックスの結合)

報告されたIoUは、特に断りのない限り、参照されたサブグループに属する画像の平均値（平均IoUまたはmIoU）である。

公平性の基準

特定のサブグループのパフォーマンス（mIoU）、全サブグループの平均から3標準偏差単位以上離れている場合、そのモデルは不当な予測をしていると見なされる。

結果

地理的評価

全17地域の平均成績は78.74％で、標準偏差は1.22％。すべての領域が(76.92%,82.17%)の範囲の性能を示した。平均と最も成績の悪い地域の最大差は1.83%であり、、3標準偏差（3x1.22% = 3.65%）という公平基準のしきい値の範囲内である。

地域	mIoU	標準偏差	画像数
北アフリカ	78.26%	15.04%	301
東アフリカ	77.41%	17.11%	336
中東アフリカ	77.30%	15.72%	322
南部アフリカ	79.09%	14.93%	368
西アフリカ	79.04%	13.26%	364
カリビアン	79.01%	12.20%	412
中央アメリカ	79.44%	13.79%	415
南米	78.39%	14.21%	397
北アメリカ	79.09%	13.00%	335
中央アジア	79.52%	12.56%	229
東アジア	77.60%	15.37%	346
南東アジア	77.86%	14.86%	333
南アジア	79.34%	12.15%	353
西アジア	78.80%	14.91%	370
ヨーロッパ	79.40%	13.14%	320
オーストラリアとニュージーランド	76.92%	18.13%	374
メラネシア、ミクロネシア、ポリネシア	82.17%	11.08%	75
平均（全画像）	78.55%	14.55%	5650
平均（地域全体）	78.74%	1.22%	-

肌色評価結果

全6色の肌色の平均パフォーマンスは78.58％で、標準偏差は0.24％。すべての肌色サブグループの結果は、[78.23%, 78.97%]の範囲であった。平均値と最も成績の悪かった肌色サブグループの最大差は0.34％で、公正さの基準である3標準偏差（3x0.24％＝0.71％）の範囲内である。

肌色（フィッツパトリック・スケール）	mIoU	標準偏差	画像数
1	78.59%	12.00%	247
2	78.49%	14.59%	1919
3	78.61%	14.39%	1463
4	78.23%	16.52%	457
5	78.97%	13.60%	706
6	78.56%	14.67%	858
平均（全画像）	78.55%	14.55%	5650
平均（肌色全体）	78.58%	0.24%	-

ジェンダー評価結果

すべての評価対象性別サブグループの平均成績は78.53%で、その範囲は[78.01%, 79.05%]である。平均とワーストの成績の差は0.52％で、公平性の基準である3標準偏差（3x0.74％＝2.22％）の範囲内である。

性別	mIoU	標準偏差	画像数
女性	78.01%	15.08%	2585
男性	79.05%	13.96%	3065
平均（全画像）	78.55%	14.55%	5650
平均（男女共通）	78.53%	0.74%	-

倫理的配慮

**プライバシーこのモデルがARDKで使用される場合、推論はデバイス上でのみ適用され、画像はユーザーデバイスから転送されません。
Human Life：このモデルは、拡張現実アプリケーション内でのエンターテインメントを目的として設計されています。これは、人間の生命に関わる重大な決断を下すために使用されるものではない。
バイアス：トレーニングデータセットの多様性は監査されていないため、ベンチマークでは表面化しないバイアスが存在する可能性があります。

注意点と推奨事項

私たちのアノテーション・データセットには二値性別しか含まれていない。さまざまな性別で評価するには、さらなるデータが必要だろう。
理想的な肌色評価データセットには、さらにカメラの詳細や、照明や湿度などの環境の詳細も含まれる。さらに、フィッツパトリック・スケールには限界がある。
このモデルカードは、Mitchell, Margaret, et al. "モデル報告のためのモデルカード "の研究に基づいている。公正、説明責任、透明性に関する会議録。 2019. リンク

基本的な使い方​

オブジェクト検出カテゴリー​

人物検出モデルカードv0.4​

モデル詳細​

技術仕様​

使用目的​

想定される使用例​

許可されたユーザー​

範囲外の使用例​

要因​

公平性の評価​

装置とデータセットの詳細​

指標​

公平性の基準​

結果​

地理的評価​

肌色評価結果​

ジェンダー評価結果​

倫理的配慮​

注意点と推奨事項​