オックスフォード大らの研究チームが、教師学習無しで、単一ビュー画像から3D変形可能オブジェクトカテゴリを学習する方法を提案し、2020年度のCVPRに寄稿しています。この方法は、各入力画像を深度、入射光と反射光の比、視点、照明に分解するオートエンコーダに基づいているとのことです。
多くのオブジェクトカテゴリが少なくとも原則として対称的な構造を持っていることを使用し、シェーディングのために外観が対称的でなくても、照明に関する推論により、基礎となるオブジェクトの対称性を活用できることを示しています。さらに、モデルのその他のコンポーネントと端から端まで学習した対称確率マップを予測することで、おそらく対称ではないがおそらく対称であるオブジェクトをモデル化しています。
この方法が監督や事前の形状モデルなしで、単一ビューの画像から人間の顔、猫の顔、車の3D形状を非常に正確に復元できることを示しています。ベンチマークでは、2D画像対応のレベルで監視を使用する別の方法と比較して、優れた精度を示しており、今後は、深さマップを使用して正規の視点からの3D形状を表現するそうです。 より複雑なオブジェクトの場合は、モデルを拡張して、複数の標準ビューまたはメッシュやボクセルマップなどの異なる3D表現を使用することができるとしています。
Follow @aurordesign [1] : Wu, S., Rupprecht, C., & Vedaldi, A. (2020). Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1-10).