物体検出
オブジェクト検出サブシステムは、実世界のオブジェクトが画面上に現れると動的に更新される、意味的にラベル付けされた2Dバウンディングボックスを作成することで、Lightshipのコンテキスト認識機能を強化します。 それぞれのバウンディングボックスに対して、サブシステムはすべてのサブクラスに対して独立した予測を行い、検出されたオブジェクトがそれぞれのサブクラスに属する確率を返す。 オブジェクト検出は、バウンディングボックスに人、人の手、人の顔が含まれているかどうかを検出するためのモデルカードも提供する。
オブジェクト検出カテゴリーにアクセスする方法については、オブジェクト検出を有効にする方法を参照してください。
オブジェクト検出カテゴリー
各クラスの確率は独立に計算されるが、各カテゴリのサブクラスは、それらが属するカテゴリクラスを学習するために使用される。 このため、オブジェクトは特定のサブクラスではなく、カテゴリークラスのメンバーとして検出することができる。 例えば、フレンチホルンであれば、そのオブジェクトが french horn
, brass instrument
, musical instrument
クラスに属している可能性が高いことを返す。
カテゴリー | サブクラス |
---|---|
航空機 | 飛行機、ヘリコプター、熱気球、パラシュート、ロケット |
車 | 車、タクシー |
車両 | 自動車、自転車、バス、自動車、オートバイ、タクシー、電車、トラック |
フットウェア | フットウェア、ローラースケート |
ヘッドウェア | ヘッドウェア、フェドラ |
楽器 | アコーディオン、金管楽器、ドラム、フルート、ピアノ、弦楽器 |
金管楽器 | フレンチホルン、サクソフォン、トロンボーン、トランペット |
弦楽器 | バンジョー、チェロ、ハープ、ギター、ヴァイオリン |
フード | 食べ物, リンゴ, バナナ, ベリー, パン, ブロッコリー, ケーキ, ニンジン, チーズ, 柑橘類, ココナッツ, デザート, ドーナツ, 卵, ファストフード, ブドウ, ハンバーガー, ホットドッグ, アイスクリーム, 梨, ピザ, カボチャ, サンドイッチ, 寿司, トマト. |
ベリー | ラズベリー、ストロベリー |
シトラス | グレープフルーツ、レモン、ライム、オレンジ |
デザート | デザート, ケーキ, ドーナツ, アイスクリーム |
ファーストフード | ファーストフード、フライドポテト、ホットドッグ、ピザ、ハンバーガー、サンドイッチ |
パンプキン | カボチャ |
ドリンク | ドリンク、ホットドリンク、ジュース |
ホットドリンク | 紅茶、コーヒー(カップに入れると認識される) |
クッキングパン | フライパン、圧力鍋、スロークッカー、ワッフルアイロン、中華鍋 |
家具 | 家具、ベッド、椅子、ソファ、棚、収納棚、テーブル |
水差し | 水差し、ティーポット |
ランプ | ランプ、キャンドル |
スクリーン | コンピュータ・ディスプレイ、タブレット、テレビ |
スポーツボール | スポーツボール、サッカーボール、ラグビーボール、テニスボール |
おもちゃ | おもちゃ、人形、テディベア |
ウォーター・フィーチャー | 噴水、プール |
動物 | 動物, アルパカ, クマ, 大きな猫, 鳥, ラクダ, 猫, 牛, ワニ, 鹿, 犬, イルカ, 象, 魚, カエル, キリン, 金魚, カバ, 馬, クラゲ, カンガルー, パンダ, オウム, 豚, 北極熊, ウサギ, 爬虫類, サイ, アザラシ, 羊, 貝, リス, カメ, 水鳥, クジラ, シマウマ |
アルパカ | アルパカ、ラマ |
ビッグ・キャット | チーター、ジャガー、ヒョウ、ライオン、オオヤマネコ、トラ |
鳥 | 鳥、オウム、水鳥 |
クロコダイル | クロコダイル、アリゲーター |
鹿 | アンテロープ、鹿、ヘラジカ |
花 | 花、バラ、ヒマワリ |
馬 | ロバ、馬、ラバ |
昆虫 | 昆虫、蝶 |
魚 | 魚、金魚、マンタ、タツノオトシゴ、イカ |
爬虫類 | 爬虫類、ワニ、カメ |
シール | アザラシ、アシカ、セイウチ |
羊 | ヤギ、ヒツジ |
貝類 | カニ、ロブスター、カキ、エビ、カタツムリ、ヒトデ |
タートル | ウミガメ、カメ |
ウォーター・バード | 鴨、雁、白鳥 |
人物検出モデルカードv0.3
モデル詳細
- モデル最終更新日2024-02-01
- モデル・バージョン:v0.3
- ライセンス:ライトシップの利用規約を参照。
技術仕様
物体検出モデルは、バウンディングボックスのセットを返し、そのボックスが人、人の手、人の顔である確率を報告する。
使用目的
想定される使用例
- 画像内の人物(具体的には人の手や顔)を識別する。
- 画像内の人、人の手、人の顔の有無を問い合わせる。
許可されたユーザー
Niantic Lightship](https://lightship.dev/)を通じた拡張現実開発者。
範囲外の使用例
このモデルには以下の機能はありません:
- 個人追跡
- 個人を特定または認識する
要因
以下の要素は、人物検出を含め、Lightship ARDKで提供されるすべての物体検出に適用されます:
- **オブジェクト/クラスがカメラから非常に離れている場合、検出されないことがあります。
- 照明:極端な光の状態は、全体的なパフォーマンスに影響を与える可能性があります。
- 視点:トレーニング中に見たことのない極端なカメラビューは、検出のミスやクラスの混同につながる可能性がある。
- **オブジェクトが他のオブジェクトに覆われていると、検出されないことがある。
- モーションブラー:カメラやオブジェクトの速い動きは、モデルのパフォーマンスを低下させる可能性があります。
- フリッカー:時間的に隣接するフレームの予測間に「ジッタリング」効果があるかもしれない。
特に人物検出については、コンピュータビジョン技術の既知の問題に基づき、以下のサブグループを含む潜在的な関連要因を特定する:
- 地域
- 肌の色
- 性別
- 体の姿勢:トレーニングコーパスに登場する頻度が低いため、特定の体の構成は予測しにくいかもしれない。
- その他:年齢、ファッションスタイル、アクセサリー、身体の改造など。
公平性の評価
ナイアンティ ックでは、モデルを構築、評価、展開する際に、 の平等性と公平性を厳格に実践することで、当社のテクノロジーが包括的で公平なものとなるよう努めています。 我々は人物検出の公平性を次のように定義する:モデルが、識別された様々なサブグループが描かれた画像に対して 、公平な予測を行う。 評価結果は、 、最初の3つの主要なサブグループ(地理的地域、肌の色、性別)に対する人間のチャンネル(人、人の手、人の顔)の結合のパフォーマンスを測定することに焦点を当てている。
装置とデータセットの詳細
我々のベンチマークデータセットは、スマートフォンのバックカメラを使って世界中で撮影された5650枚の画像で構成されている:
- 1枚の画像に描かれている人物は1人のみ。
- 屋内と屋外の両方の環境。
- 様々なデバイスで撮影。
- 咬合はない。
画像には以下の属性が付けられている:
- 地理的地域:UN geoschemeに基づき、ヨーロッパの小地域とミクロネシア、ポリネシア、メラネシアを統合したもの:
- 北アフリカ
- 東アフリカ
- 中東アフリカ
- 南部アフリカ
- 西アフリカ
- カリビアン
- 中央アメリカ
- 南米
- 北アメリカ
- 中央アジア
- 東アジア
- 南東アジア
- 南アジア
- 西アジア
- ヨーロッパ
- オーストラリアとニュージーランド
- メラネシア、ミクロネシア、ポリネシア
- 肌色:Fitzpatrick scaleに従い、画像はサブグループ1から6までアノテーションされている。 肌色は、各画像の人物が自己申告した値である。
- 性別:画像には自己申告の性別が注記されている。
指標
物体検出モデルを評価するための標準的な指標は、Intersection over Union(IoU)である。 これは次のように計算される:
IoU = (予測ボックスとg.t.ボックスの重なり) / (予測ボックスとg.t.ボックスの結合)
報告されたIoUは、特に断りのない限り、参照されたサブグループに属する画像の平均値(平均IoUまたはmIoU)である。
公平性の基準
特定のサブグループのパフォーマンス(mIoU) 、全サブグループの平均 から3標準偏差単位以上離れている場合、そのモデルは不当な予測をしていると見なされる。
結果
全17地域の平均成績は78.07%で、標準偏差は1.37%である。 すべてのリージョンが[75.40%, 80.80%]の範囲の性能を示した。 平均と最も成績の悪かった地域の最大差は2.67%で、 、公正基準のしきい値である3標準偏差(3x1.37% = 4.11%)の範囲内である。
地域 | mIoU | 標準偏差 | 画像数 |
---|---|---|---|
北アフリカ | 77.01% | 13.67% | 301 |
東アフリカ | 75.40% | 19.52% | 336 |
中東アフリカ | 76.06% | 14.96% | 322 |
南部アフリカ | 79.02% | 12.41% | 368 |
西アフリカ | 78.13% | 14.92% | 364 |
カリビアン | 77.31% | 13.35% | 412 |
中央アメリカ | 78.99% | 11.90% | 415 |
南米 | 78.41% | 14.32% | 397 |
北アメリカ | 77.90% | 14.11% | 335 |
中央アジア | 80.27% | 10.11% | 229 |
東アジア | 78.22% | 14.39% | 346 |
南東アジア | 76.83% | 14.03% | 333 |
南アジア | 78.73% | 11.88% | 353 |
西アジア | 78.50% | 14.03% | 370 |
ヨーロッパ | 78.37% | 14.10% | 320 |
オーストラリアとニュージーランド | 77.29% | 15.41% | 374 |
メラネシア、ミクロネシア、ポリネシア | 80.80% | 11.93% | 75 |
平均(全画像) | 77.91% | 14.18% | 5650 |
平均(地域全体) | 78.07% | 1.37% | - |
肌色評価結果
6つの肌色すべてにおける平均パフォーマンスは77.92%で、標準偏差は0.67%であった。 すべての肌色サブグループでは、[76.71%, 78.71%]の範囲内の結果が得られた。 平均と最も成績の悪かった肌色サブグループの最大差は1.21%で、公正さの基準である3標準偏差(3x0.67%=2.02%)の範囲内である。
肌色(フィッツパトリック・スケール) | mIoU | 標準偏差 | 画像数 |
---|---|---|---|
1 | 78.71% | 13.74% | 247 |
2 | 78.01% | 13.91% | 1919 |
3 | 77.97% | 13.75% | 1463 |
4 | 76.71% | 16.72% | 457 |
5 | 78.29% | 13.79% | 706 |
6 | 77.82% | 14.11% | 858 |
平均(全画像) | 77.91% | 14.18% | 5650 |
平均(肌色全体) | 77.92% | 0.67% | - |
ジェンダー評価結果
すべての評価対象性別サブグループの平均成績は77.88%で、その範囲は[77.28%, 78.47%]である。 平均とワーストの成績の差は0.59%で、公平性の基準である3標準偏差(3x0.84%=2.52%)の範囲内である。
性別 | mIoU | 標準偏差 | 画像数 |
---|---|---|---|
女性 | 77.28% | 14.92% | 2585 |
男性 | 78.47% | 13.40% | 3065 |
平均(全画像) | 77.91% | 14.18% | 5650 |
平均(男女共通) | 77.88% | 0.84% | - |
倫理的配慮
- **プライバシーこのモデルがARDKで使用される場合、推論はデバイス上でのみ適用され、画像はユーザーデバイスから転送されません。
- Human Life:このモデルは、拡張現実アプリケーション内でのエンターテインメントを目的として設計されています。 これは、人間の生命に関わる重大 な決断を下すために使用されるものではない。
- バイアス:トレーニングデータセットの多様性は監査されていないため、ベンチマークでは表面化しないバイアスが存在する可能性があります。
注意点と推奨事項
- 私たちのアノテーション・データセットには二値性別しか含まれていない。 さまざまな性別で評価するには、さらなるデータが必要だろう。
- 理想的な肌色評価データセットには、さらにカメラの詳細や、照明や湿度などの環境の詳細も含まれる。 さらに、フィッツパトリック・スケールには限界がある。
- このモデルカードは、Mitchell, Margaret, et al. "モデル報告のためのモデルカード "の研究に基づいている。 公正、説明責任、透明性に関する会議録。 2019. リンク