モデルカード: 人物のセグメンテーション(v0.11)
モデルの詳細
モデルの日付: 2022/7/25
モデルバージョン: 0.11
ライセンス: Lightshipの利用規約をご参照ください。
技術仕様
人物セグメンテーションモデルは、各ピクセルに対して、そのピクセルが人物の一部である確率を示す0から1までの浮動小数点値を返します。この値をしきい値処理することで、ピクセルごとに「人物」の有無を示すブールマスクが返ります。
使用目的
想定されるユースケース
Lightship ARDKを使用してアクセスする拡張現実(AR)アプリケーションで、人物の一般的なセマンティック セグメンテーションを行う。
カメラフィードの任意の指定ピクセルにおける人物の有無についてクエリを実行する。
セマンティックマスクを使用して、「人物」のスクリーンスペース効果を有効にする。
認定ユーザー
Niantic Lightshipを使用する拡張現実(AR)の開発者
対象外のユースケース
このモデルを使用して、次のことを行うことは できません。
個人をセグメント化する(インスタンスセグメンテーション)
個人を追跡する
個人を識別または認識する
要素
次の要素は、人物セグメンテーションを含む、Lightship ARDKで提供されるすべてのセマンティックセグメンテーションに適用されます。
スケール : オブジェクトやクラスとカメラの距離が離れている場合は、セグメント化されないことがあります。
照明 : 極端な光条件下では、全体的な性能に影響を及ぼす可能性があります。
ビューポイント : 学習時に捉えられていない極端なカメラビューは、誤検知やクラスの混同につながる恐れがあります。
オクルージョン : オブジェクトやクラスが他のオブジェクトで覆われている場合は、セグメント化されないことがあります。
モーションブラー(被写体のぶれ) : 高速なカメラやオブジェクトの動きは、モデルのパフォーマンス低下につながる場合があります。
フリッカー(ちらつき) : 予測はフレーム単位で行われ、時間的な平滑化やコンテクストは適用されません。そのため、時間的に隣接するフレームの予測間で「ジッタリング」効果が生じる可能性があります。
特に人物のセグメンテーションでは、コンピュータービジョン技術の既知の問題に基づき、サブグループを含む、考えられる関連要因を特定します。
地理的地域
肌の色
性別
身体姿勢 : 身体姿勢によっては、トレーニングコーパスへの出現頻度が低く、予測が難しい場合があります。
その他: 年齢、ファッションスタイル、アクセサリー(装飾品)、身体改造
公平性の評価
Nianticでは、モデルの構築や評価、展開を行う際に、平等性や公平性の慣習に厳密に従うことで、Nianticのテクノロジーの包括性や公平性を保つよう努めています。また、Nianticでは、人物のセグメンテーションの公平性を次のように定義しています。さまざまなサブグループが描写された画像で同等にパフォーマンスが発揮できる場合、モデルは公平な予測を行っています。評価結果は、最初の3つの主要なサブグループ(地理的地域、肌の色、性別)に対する人物セグメンテーションチャンネルの性能測定に重点を置いています。
測定器とデータセットの詳細
ベンチマークのデータセットは、スマートフォンの背面カメラで世界各地を撮影した5650枚の画像で構成されます。仕様は次のとおりです。
1枚の画像につき、1名の人物のみ描写される。
環境は屋内外を問わない。
撮影デバイスに制限はない。
オクルージョンなし。
さまざまなポーズで画像のフレーム内に全身が収まるようにする。
画像には次の属性がラベル付けされています。
地理的地域 : 国連による世界地理区分に基づき、ヨーロッパの小地域とミクロネシア、ポリネシア、メラネシアは統合しています。
北アフリカ
東アフリカ
中東アフリカ
南部アフリカ
西アフリカ
カリビアン
中央アメリカ
南アメリカ
北アメリカ
中央アジア
東アジア
東南アジア
南アジア
西アジア
ヨーロッパ
豪州・ニュージーランド
メラネシア、ミクロネシア、ポリネシア
肌の色 : 画像には、フィッツパトリック尺度に基づき、サブグループ1から6までのアノテーション(注釈)が付けられています。肌の色は、画像に写っている人物の自己申告による値です。
性別 : 画像に付けられたアノテーション(注釈)は、自己申告された性別です。
指標
セグメンテーションモデルを評価するための標準指標として、評価指数(IoU)を使用しています。この指標は次のように計算されます。
IoU = true_positives / (true_positives + false_positives + false_negatives)
報告されたIoUは、別途記載のない限り、参照するサブグループに属する画像の平均値(mean IoUまたはmIoU)です。
公平性の判断基準
特定のサブグループの性能(mIoU)が、すべてのサブグループ間の平均から3標準偏差以上離れている場合、モデルの予測は不当であるとみなされます。
結果
地理的評価
6つの肌の色全体の平均性能は83.84%で、標準偏差は1.26%でした。すべての肌の色のサブグループの性能は、[81.72%, 85.45%]の範囲内です。平均値と最低性能の肌の色のサブグループの最大差は2.13%で、Nianticの公正性の判断基準のしきい値である3標準偏差の範囲内に収まっています(3x1.26 = 3.78%)。
Region | mIoU | stdev | Number of images |
Northern Africa | 85.37% | 12.41% | 301 |
Eastern Africa | 83.61% | 14.82% | 336 |
Middle Africa | 84.57% | 14.83% | 322 |
Southern Africa | 83.15% | 15.62% | 368 |
Western Africa | 80.81% | 18.50% | 364 |
Caribbean | 84.52% | 13.95% | 412 |
Central America | 85.14% | 11.68% | 415 |
South America | 83.30% | 16.19% | 397 |
Northern America | 80.06% | 18.48% | 335 |
Central Asia | 87.07% | 10.81% | 229 |
Eastern Asia | 86.06% | 12.06% | 346 |
South Eastern Asia | 81.47% | 14.83% | 333 |
Southern Asia | 83.64% | 15.32% | 353 |
Western Asia | 85.94% | 13.37% | 370 |
Europe | 86.26% | 11.87% | 320 |
Australia and New Zealand | 82.34% | 14.84% | 374 |
Melanesia, Micronesia and Polynesia | 82.10% | 21.57% | 75 |
Average (across all images) | 83.86% | 14.89% | 5650 |
Average (across regions) | 83.85% | 2.06% | - |
肌の色に関する評価結果
6つの肌の色全体の平均性能は83.84%で、標準偏差は1.26%でした。すべての肌の色のサブグループの性能は、[81.72%, 85.45%]の範囲内です。平均値と最低性能の肌の色のサブグループの最大差は2.13%で、Nianticの公正性の判断基準のしきい値である3標準偏差の範囲内に収まっています(3x1.26 = 3.78%)。
Skin tone
(Fitzpatrick scale) |
mIoU | stdev | Number of images |
1 | 85.45% | 10.87% | 247 |
2 | 84.48% | 13.81% | 1919 |
3 | 84.14% | 14.20% | 1463 |
4 | 83.28% | 15.57% | 457 |
5 | 84.02% | 14.70% | 706 |
6 | 81.72% | 18.19% | 858 |
Average (across all images) | 83.86% | 14.83% | 5650 |
Average (across skin tones) | 83.85% | 1.26% | - |
性別に関する評価結果
評価されたすべての性別サブグループの平均性能は83.76%で、[82.58, 84.93]の範囲内です。平均値と最低性能の性別の差は1.18%で、公正性の判断基準である3標準偏差の範囲内に収まっています(3x1.66 = 4.98%)。
Perceived gender | mIoU | stdev | Number of images |
Female | 82.58% | 15.98% | 2585 |
Male | 84.93% | 13.70% | 3065 |
Average (across all images) | 83.86% | 14.83% | 5650 |
Average (across genders) | 83.76% | 1.18% | - |
倫理的配慮
プライバシー : このモデルは、人間が描写されている可能性のある画像で学習、評価されました。使用された画像はすべて、データがパブリックドメインで取得された際に、同意または匿名化されています。ARDKでこのモデルを使用する場合、推論はデバイス上でのみ適用され、ユーザーのデバイスから画像が転送されることはありません。
人命 : このモデルは、AR(拡張現実)アプリケーション内でのエンターテインメントを目的として設計されています。人命に関わるような判断をするために使用することは意図していません。
バイアス : 学習用データセットは、多様性についての監査が行われていないため、ベンチマークでは表面化しなかったバイアスが存在する可能性があります。
注意点と推奨事項
Nianticの注釈付きのデータセットに含まれているのは二値データの性別のみであり、男性または女性として表示しているに過ぎません。多様な性別で評価するには、さらなるデータが必要です。
肌の色の評価データセットに、カメラの詳細や、照明や湿度などの環境に関する詳細も含むのが理想的です。また、フィッツパトリック尺度は、人間の肌の色を完全に表現しているわけではないため、限界があります。