本文へスキップ

物体検出

オブジェクト検出サブシステムは、実世界のオブジェクトが画面上に現れると動的に更新される、意味的にラベル付けされた2Dバウンディングボックスを作成することで、Lightshipのコンテキスト認識機能を強化します。 各バウンディングボックスについて、サブシステムは画像の中央の正方形クロップをサーバーに送信し、サーバーは各サブクラスについて独立した予測を行い、検出された物体が各サブクラスに属する確率を返します。 また、Lightship Object Detectionでは、人、人の手、人の顔の検出がどのように学習されたかを説明する以下のモデルカードも提供している。

Image with Bounding Boxes around Detected Objects

基本的な使い方

LightshipのARObjectDetectionManagerをシーンに配置し、ObjectDetectionsUpdatedイベントをサブスクライブすることで、開発者はXRDetectedObjectsの形式でリアルタイムの検出情報を受け取ることができます。 また、MetadataInitializedイベントをリッスンして、モデルが使用可能になったときにオブジェクトクラスのリストを受け取ることができます。

また、ARObjectDetectionManagerのフレームレートを調整することで、パフォーマンスを節約したり、より高速にオブジェクトを検出したりすることができます。

Image displaying ARObjectDetectionManager properties

オブジェクト検出カテゴリー

備考

各クラスの確率は独立に計算されるが、各カテゴリのサブクラスは、それらが属するカテゴリクラスを学習するために使用される。 このため、オブジェクトは特定のサブクラスではなく、カテゴリークラスのメンバーとして検出することができる。 例えば、フレンチホルンであれば、そのオブジェクトが french horn, brass instrument, musical instrument クラスに属している可能性が高いことを返す。

カテゴリーサブクラス
航空機飛行機、ヘリコプター、熱気球、パラシュート、ロケット
建物の特徴ドア、ドアハンドル、窓
車、タクシー
屋外用家具樽、ベンチ、看板、消火栓、旗、パーキングメーター、彫刻、雪だるま、街灯、信号機、ゴミ箱
車両乗り物、自転車、ボート、バス、車、カート、オートバイ、タクシー、電車、トラック、車輪、車椅子
ウォーターフィーチャー噴水、プール
アクセサリーリュックサック、メガネ、ハンドバッグ、傘
衣類コート、ドレス、シャツ、ショーツ、スカート、靴下、スーツ、ネクタイ、ズボン
フットウェアフットウェア、ローラースケート
ヘッドウェアヘッドウェア、フェドラ
楽器アコーディオン、金管楽器、ドラム、フルート、ギター、ピアノ、弦楽器、バイオリン
金管楽器フレンチホルン、サクソフォン、トロンボーン、トランペット
弦楽器バンジョー、チェロ、ハープ、ギター、ヴァイオリン
フード食べ物, リンゴ, バナナ, ベリー, パン, ブロッコリー, ケーキ, ニンジン, チーズ, 柑橘類, ココナッツ, デザート, ドーナツ, 卵, ファストフード, ブドウ, ハンバーガー, ホットドッグ, アイスクリーム, キノコ, 梨, ピザ, カボチャ, サンドイッチ, 寿司, トマト.
ベリーベリー、ラズベリー、ストロベリー
シトラス柑橘類、グレープフルーツ、レモン、ライム、オレンジ
デザートデザート, ケーキ, ドーナツ, アイスクリーム
ファーストフードファーストフード、フライドポテト、ホットドッグ、ピザ、ハンバーガー、サンドイッチ
パンプキンカボチャ
ドリンクドリンク、ホットドリンク、ジュース
ホットドリンク紅茶、コーヒー(カップに入れると認識される)
家電製品ヘアードライヤー、電子レンジ、オーブン、冷蔵庫、トースター
調理鍋フライパン、圧力鍋、スロークッカー、ワッフルアイロン、中華鍋
室内家具家具、ベッド、椅子、クリスマスツリー、ソファ、カーテン、ポスター、棚、収納棚、テーブル
水差し水差し、ティーポット
ランプランプ、キャンドル
ホームバスタブ、暖炉、シンク、蛇口、トイレ
その他本、ボトル、ボウル、箱、大砲、箸、コイン、カップ、植木鉢、フォーク、ナイフ、ペン、枕、皿、鉢植え、はさみ、頭蓋骨、スプーン、ブリキ缶、歯ブラシ、ワイングラス
スクリーンスクリーン、コンピュータ・ディスプレイ、タブレット、テレビ
スポーツボールスポーツボール、サッカーボール、ラグビーボール、テニスボール
スポーツ用品野球のバット、野球のグローブ、フリスビー、凧、パドル、スケートボード、スキー、スノーボード、テニスラケット
テックカメラ、時計、コンピュータキーボード、コンピュータマウス、ヘッドフォン、マイク、電話、リモコン、時計
おもちゃおもちゃ、人形、テディベア
動物動物, アルパカ, クマ, 大きな猫, 鳥, ラクダ, 猫, 牛, ワニ, 鹿, 犬, イルカ, 象, 魚, カエル, キリン, 金魚, カバ, 馬, クラゲ, カンガルー, パンダ, オウム, 豚, 北極熊, ウサギ, 爬虫類, サイ, アザラシ, 羊, 貝, リス, カメ, 水鳥, クジラ, シマウマ
大きな猫チーター、ジャガー、ヒョウ、ライオン、オオヤマネコ、トラ
鳥、オウム、水鳥
ラクダ類アルパカ、ラクダ、ラマ
クロコダイルクロコダイル、アリゲーター
鹿アンテロープ、鹿、ヘラジカ
花、バラ、ヒマワリ
ロバ、馬、ラバ
昆虫昆虫、蝶
魚、金魚、クラゲ、マンタ、タツノオトシゴ、貝、イカ
爬虫類爬虫類、ワニ、カメ
シールアザラシ、アシカ、セイウチ
ヤギ、ヒツジ
貝類カニ、ロブスター、カキ、エビ、カタツムリ、ヒトデ
タートル亀、海亀、亀
水鳥鴨、雁、白鳥
人物人、人の顔、人の手、

人物検出モデルカードv0.4

モデル詳細

  • モデル最終更新日2024-02-29
  • モデル・バージョン:v0.4
  • ライセンス:ライトシップの利用規約を参照。

技術仕様

物体検出モデルは、バウンディングボックスのセットを返し、そのボックスが人、人の手、人の顔である確率を報告する。

使用目的

想定される使用例

  • 画像内の人物(具体的には人の手や顔)を識別する。
  • 画像内の人、人の手、人の顔の有無を問い合わせる。

許可されたユーザー

Niantic Lightshipを通じた拡張現実開発者。

範囲外の使用例

このモデルには以下の機能はありません:

  • 個人追跡
  • 個人を特定または認識する

要因

以下の要素は、人物検出を含め、Lightship ARDKで提供されるすべての物体検出に適用されます:

  • **オブジェクト/クラスがカメラから非常に離れている場合、検出されないことがあります。
  • 照明:極端な光の状態は、全体的なパフォーマンスに影響を与える可能性があります。
  • 視点:トレーニング中に見たことのない極端なカメラビューは、検出のミスやクラスの混乱を引き起こす可能性がある。
  • **オブジェクトが他のオブジェクトに覆われていると、検出されないことがある。
  • モーションブラー:カメラやオブジェクトの速い動きは、モデルのパフォーマンスを低下させる可能性があります。
  • フリッカー:時間的に隣接するフレームの予測間に「ジッタリング」効果があるかもしれない。

特に人物検出については、コンピュータビジョン技術の既知の問題に基づき、以下のサブグループを含む潜在的な関連要因を特定する:

  • 地域
  • 肌の色
  • 性別
  • 体の姿勢:トレーニングコーパスに登場する頻度が低いため、特定の体の構成は予測しにくいかもしれない。
  • その他:年齢、ファッションスタイル、アクセサリー、身体の改造など。

公平性の評価

ナイアンティックでは、モデルを構築、評価、展開する際に、 の平等性と公平性を厳格に実践することで、当社のテクノロジーが包括的で公平なものとなるよう努めています。 我々は人物検出の公平性を次のように定義する:モデルが、識別された様々なサブグループが描かれた画像に対して 、公平な予測を行う。 評価結果は、 、最初の3つの主要なサブグループ(地理的地域、肌の色、性別)に対する人間のチャンネル(人、人の手、人の顔)の結合のパフォーマンスを測定することに焦点を当てている。

装置とデータセットの詳細

我々のベンチマークデータセットは、スマートフォンのバックカメラを使って世界中で撮影された5650枚の画像で構成されている:

  • 1枚の画像に描かれている人物は1人のみ。
  • 屋内と屋外の両方の環境。
  • 様々なデバイスで撮影。
  • 咬合はない。

画像には以下の属性が付けられている:

  • 地理的地域UN geoschemeに基づき、ヨーロッパの小地域とミクロネシア、ポリネシア、メラネシアを統合したもの:
    • 北アフリカ
    • 東アフリカ
    • 中東アフリカ
    • 南部アフリカ
    • 西アフリカ
    • カリビアン
    • 中央アメリカ
    • 南米
    • 北アメリカ
    • 中央アジア
    • 東アジア
    • 南東アジア
    • 南アジア
    • 西アジア
    • ヨーロッパ
    • オーストラリアとニュージーランド
    • メラネシア、ミクロネシア、ポリネシア
  • 肌色Fitzpatrick scaleに従い、画像はサブグループ1から6までアノテーションされている。 肌色は、各画像の人物が自己申告した値である。
  • 性別:画像には自己申告の性別が注記されている。

指標

物体検出モデルを評価するための標準的な指標は、Intersection over Union(IoU)である。 これは次のように計算される:

IoU = (予測ボックスとg.t.ボックスの重なり) / (予測ボックスとg.t.ボックスの結合)

報告されたIoUは、特に断りのない限り、参照されたサブグループに属する画像の平均値(平均IoUまたはmIoU)である。

公平性の基準

特定のサブグループのパフォーマンス(mIoU) 、全サブグループの平均 から3標準偏差単位以上離れている場合、そのモデルは不当な予測をしていると見なされる。

結果

地理的評価

全17地域の平均成績は78.74%で、標準偏差は1.22%。 すべての領域が{76.92%, 82.17%}の範囲の性能を示した。 平均と最も成績の悪い地域の最大差は1.83%であり、 、3標準偏差(3x1.22% = 3.65%)という公平基準のしきい値の範囲内である。

地域mIoU標準偏差画像数
北アフリカ78.26%15.04%301
東アフリカ77.41%17.11%336
中東アフリカ77.30%15.72%322
南部アフリカ79.09%14.93%368
西アフリカ79.04%13.26%364
カリビアン79.01%12.20%412
中央アメリカ79.44%13.79%415
南米78.39%14.21%397
北アメリカ79.09%13.00%335
中央アジア79.52%12.56%229
東アジア77.60%15.37%346
南東アジア77.86%14.86%333
南アジア79.34%12.15%353
西アジア78.80%14.91%370
ヨーロッパ79.40%13.14%320
オーストラリアとニュージーランド76.92%18.13%374
メラネシア、ミクロネシア、ポリネシア82.17%11.08%75
平均(全画像)78.55%14.55%5650
平均(地域全体)78.74%1.22%-

肌色評価結果

全6色の肌色の平均パフォーマンスは78.58%で、標準偏差は0.24%。 すべての肌色サブグループの結果は、[78.23%, 78.97%]の範囲であった。 平均値と最も成績の悪かった肌色サブグループの最大差は0.34%で、公正さの基準である3標準偏差(3x0.24%=0.71%)の範囲内である。

肌色(フィッツパトリック・スケール)mIoU標準偏差画像数
178.59%12.00%247
278.49%14.59%1919
378.61%14.39%1463
478.23%16.52%457
578.97%13.60%706
678.56%14.67%858
平均(全画像)78.55%14.55%5650
平均(肌色全体)78.58%0.24%-

ジェンダー評価結果

すべての評価対象性別サブグループの平均成績は78.53%で、その範囲は[78.01%, 79.05%]である。 平均とワーストの成績の差は0.52%で、公平性の基準である3標準偏差(3x0.74%=2.22%)の範囲内である。

性別mIoU標準偏差画像数
女性78.01%15.08%2585
男性79.05%13.96%3065
平均(全画像)78.55%14.55%5650
平均(男女共通)78.53%0.74%-

倫理的配慮

  • **プライバシーこのモデルがARDKで使用される場合、推論はデバイス上でのみ適用され、画像はユーザーデバイスから転送されません。
  • Human Life:このモデルは、拡張現実アプリケーション内でのエンターテインメントを目的として設計されています。 これは、人間の生命に関わる重大な決断を下すために使用されるものではない。
  • バイアス:トレーニングデータセットの多様性は監査されていないため、ベンチマークでは表面化しないバイアスが存在する可能性があります。

注意点と推奨事項

  • 私たちのアノテーション・データセットには二値性別しか含まれていない。 さまざまな性別で評価するには、さらなるデータが必要だろう。
  • 理想的な肌色評価データセットには、さらにカメラの詳細や、照明や湿度などの環境の詳細も含まれる。 さらに、フィッツパトリック・スケールには限界がある。
  • このモデルカードは、Mitchell, Margaret, et al. "モデル報告のためのモデルカード "の研究に基づいている。 公正、説明責任、透明性に関する会議録。 2019. リンク