単眼3D人間の姿勢推定の精度は、画像がキャプチャされる視点に依存します。 ドローンなどの自由に移動するカメラはこの視点を制御できますが、最高の精度が得られる位置にカメラを自動的に配置すると、未解決の問題が残ります。
EPFLとMicrosoftの研究チームが、短いビデオシーケンスを前提として、3Dの人間の姿勢推定精度を最大化するために、将来のフレームをキャプチャするためにどの視点を選択するかを予測するアルゴリズムを開発し、2020年度のCVPRに寄稿しています。
このアプローチの根底にある重要なアイデアは、3Dボディポーズ推定の不確実性を推定する方法で、ディープラーニングベースのリグレッサと時間的な滑らかさに起因する不確実性のいくつかのソースを統合します。 本手法によるモーションプランナーは、改善された3Dボディポーズの見積もりを生成し、人の追跡と軌道に基づく既存のポーズよりも優れているか、一致すると主張しています。実装自体はPythonで行っており、PyTorchの自動微分を使用して、二次導関数を導出している、と記載しています。
Follow @aurordesign [1] : Kiciroglu, S., Rhodin, H., Sinha, S. N., Salzmann, M., & Fua, P. (2020). ActiveMoCap: Optimized Viewpoint Selection for Active Human Motion Capture. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 103-112).