[3D CV] Monocular Depth Estimation
$\bf{d} \in \mathbb{R}^{H \times W}$
- depth๋ $H \times W$๋ก ํํ๋ฉ๋๋ค. ์ค์ ์ฝ๋์์๋
(H,W)
2๊ฐ์ ์ฑ๋์ ๊ฐ์ง๋๋ค. - depth value๋ ์นด๋ฉ๋ผ๋ก๋ถํฐ 3D point๊น์ง์ ๊ฑฐ๋ฆฌ์ ๋๋ค. (์ผ๋ฐ์ ์ผ๋ก -1 ~ 1์ ๊ฐ์ ์๋)
๋๋ถ๋ถ์ depth sensor๋ near plane, far plane๊ฐ๋ ์ด ์์ต๋๋ค.
- LiDAR sensor๋ minimum distance, max distance๊ฐ ์์ต๋๋ค.
- near plane์ด 0.1 cm์ด๋ฉด 0.1cm์ด๋ด์ ์๋ ์ ๋ค์ ๋ํด์๋ real value๋ฅผ ์ฃผ์ง ์์ต๋๋ค.
depth sensor๋ก ์ป๋ ground truth๋ Light Sensor๋ก ๋น์ ์๊ณ ๋ฐ์ฌ๋์ด ๋์ค๋ ๊ฒ์ IR sensor (Infrared sensor, ์ ์ธ์ ์ผ์)๋ก captureํ์ฌ depth๋ฅผ ์ป์ต๋๋ค.
- depth sensor (realsense depth camera, LiDAR, etc.)๋ ํญ์ scene์ ์กด์ฌํ๋ material properties์ ์ํ์ฌ ๋ฐ์ฌ๋๋ ๋น์ ์ํฅ์ ๋ฐ์ต๋๋ค.
- ์ด๋ ๋ฐ์ฌ๋๋ ๋น์ด IR sensor์ ๋๋ฌํ ๋, ๊ทธ ๊ฐ์ด ๋๋ฌด ํฌ๊ฒ ๋ฐ์ฌ๋๋ฉด IR sensor๊ฐ captureํ ์ ์๋ value range๋ฅผ ๋์ด๊ฐ์ ํ์๊ฒ ๋์ต๋๋ค.
- ์์๋ก, ์๋ Ground Truth์์ relect๊ฐ ์ฌํ ์ฆ, shinyํ material์ ๋ํด์ ํ์๊ฒ ํ์๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
- realsense depth sensor๊ฐ์๊ฑธ๋ก ์ป์ Ground Truth normal๋ ๊ต์ฅํ ํ๋ฆฌํฐ๊ฐ ๋จ์ด์ง๋๋ค.
true depth needs scale
- fake depth๋ก ํํํ๊ณ , depth๋ฅผ rgb color๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
- ๋ฌธ์ ๋ ์นด๋ฉ๋ผ๋ถํฐ ๊ฐ์์ง๊น์ง ๊ฑฐ๋ฆฌ์ ์นด๋ฉ๋ผ๋ถํฐ ๊ฑด๋ฌผ๊น์ง ๊ฑฐ๋ฆฌ๋ ๋จ์๋ถํฐ๊ฐ ๋ค๋ฅธ๋ฐ, fake depth์์๋ -1 ~ 1๋ก normalizeํ์ฌ ํํํ๋ฏ๋ก, true depth๋ฅผ ์ ์๊ฐ ์์ต๋๋ค.
โscale ambiguity problemโ(์ค์ผ์ผ ๋ชจํธ์ฑ ๋ฌธ์ )์ ๊น์ด ์ถ์ ์์ ์์ฃผ ๋ฐ์ํ๋ ๋ฌธ์ ์ ๋๋ค.
- ์ด ๋ฌธ์ ๋ ์ฅ๋ฉด์์ ๊ฐ์ฒด์ ํฌ๊ธฐ๋ ๊ฑฐ๋ฆฌ๋ฅผ ์ถ์ ํ ๋ ์ค์ ๋ฌผ๋ฆฌ์ ํฌ๊ธฐ๋ ๊ฑฐ๋ฆฌ์ ๋น๊ตํ ์ ์๋ ๊ธฐ์ค์ด ์์ ๋ ๋ฐ์ํฉ๋๋ค.
- ๋ค์ ๋งํด, ๊น์ด ์ถ์ ๋ชจ๋ธ์ ๋ฌผ์ฒด ๊ฐ์ ์๋์ ์ธ ๊ฑฐ๋ฆฌ๋ ์ ์ ์ ์์ง๋ง, ์ด ๊ฑฐ๋ฆฌ๋ค์ด ์ค์ ์ธ๊ณ์์ ์ผ๋ง๋ ํฐ์ง, ์ฆ ์ ๋์ ์ธ ์ค์ผ์ผ์ ์ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
- ZoeDepth์ DepthAnything ๊ฐ์ ๋ชจ๋ธ๋ค์ ์ฅ๋ฉด์ ๊ฐ ํฝ์ ๋ง๋ค ๊น์ด๋ฅผ ์ถ์ ํ๋ ๋ฐ ์ง์คํ๊ณ ์์ต๋๋ค. ํ์ง๋ง ์ด ๊น์ด ์ ๋ณด๋ ์๋์ ์ผ ๋ฟ, ์ ๋์ ์ธ ๊ฑฐ๋ฆฌ๋ฅผ ์ ๊ณตํ์ง ์์ต๋๋ค.
- ๊ทธ๋์ ์ด๋ฌํ ๊น์ด ์ ๋ณด๋ฅผ ์ค์ ์ธ๊ณ์ ์ค์ผ์ผ๊ณผ ๋ง์ถ๊ธฐ ์ํด ๋น๊ต ๊ธฐ์ค์ด ํ์ํฉ๋๋ค. ์ฌ๊ธฐ์ โsparse SfM pointsโ์ ๋น๊ตํ๋ ๋ฐฉ๋ฒ์ด ์ฌ์ฉ๋ฉ๋๋ค.
- ์ด๋ SfM(Structure from Motion) ์๊ณ ๋ฆฌ์ฆ์ ํตํด ์ป์ ์ฅ๋ฉด์ ์ผ๋ถ ํฌ์ธํธ๋ค์ ์ ๋์ ์ธ ๊น์ด ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์ ์ฒด ๊น์ด ์ง๋์ ์ค์ผ์ผ์ ์กฐ์ ํ๋ ๋ฐฉ์์ ๋๋ค.
- SfM ํฌ์ธํธ๋ฅผ ์นด๋ฉ๋ผ ๋ทฐ์ ํฌ์ํ์ฌ ์ป์ sparse depth map์ ์ค์ผ์ผ๊ณผ ์ผ์นํ๋๋ก ์ ๋ ฌํฉ๋๋ค.
- ์ด๋ฅผ ์ํด, ๊ฐ ์ด๋ฏธ์ง์ ๋ํด scale parameter(a)์ shift parameter(b)๋ฅผ ๋ซํ ํํ์ ์ ํ ํ๊ท ์๋ฃจ์ ์ ์ฌ์ฉํ์ฌ ํด๊ฒฐํฉ๋๋ค
- DN-Splatter: Depth and Normal Priors for Gaussian Splatting and Meshing
Depth Evaluation Metrics
์ฌ๋์ด ํ์ชฝ ๋์ ์์ด์ ๋ค๋ฅธ ํ์ชฝ ๋์ผ๋ก๋ง ๋ฌผ์ฒด๋ฅผ ๋ณด๋ฉด, ๊ทธ ๋ฌผ์ฒด์ ๋ํ ๊น์ด๋ฅผ ์ถ์ ํ๋๋ฐ ๊ต์ฅํ ์ด๋ ต๋ค๊ณ ํฉ๋๋ค.
์ฌ๋์ฒ๋ผ scene์ ๋ํ ์ดํด๊ฐ ์์ผ๋ฉด, ํ์ชฝ ๋๋ง์ผ๋ก๋ ๊น์ด๋ฅผ ์ด๋์ ๋ ์ถ์ ํ ์๋ ์๊ธด ํ์ง๋ง ์ด๋ ต๋ค๊ณ ํฉ๋๋ค.
์ฆ, ํ๋์ ์ด๋ฏธ์ง๋ง ์ฌ์ฉํ์ฌ depth๋ฅผ ์ถ์ ํ๋ monocular depth estimation์ ์ํํ ๋, scene์ ๋ํ ์ดํด๊ฐ ์๋ ๋ชจ๋ธ์ด๋ผ๋ view๊ฐ ํ๋๋ง ์กด์ฌํ ๋๋ depth๋ฅผ ์ถ์ ํ๋ ๊ฒ์ด ์ด๋ ต๋ค๋ ์๋ฏธ์ ๋๋ค.
monocular depth estimation is a dense, structured regression task
- monocular depth estimation์ ๋ชจ๋ pixel์ ๋ํด depth value๋ฅผ predictionํด์ผํ๋ฏ๋ก denseํ task์ ๋๋ค.
- -1 ~ 1 ์ฌ์ด์ ๊ฐ ์ค์ ๋ง๋ depth value๋ก regressํด์ผํ๋ฏ๋ก regression task์ ๋๋ค.
Ground Truth Depth๋ depth sensor๋ก ์ดฌ์ํ ๊ฒ์ ์ฌ์ฉํฉ๋๋ค. (i.e. iPhone์ผ๋ก captureํ depth๋ฅผ gt๋ก ์ฌ์ฉํจ)
Sensor depth
- LiDAR ๋๋ ์ผ์๋ก ์ธก์ ํ ๊น์ด๊ฐ ํฌํจ๋ ๋ฐ์ดํฐ์ ์ depth map์ ๊น์ด ์ ๊ทํ๋ฅผ ์ง์ ์ ์ฉํฉ๋๋ค..
- ์ผ๋ฐ์ ์ธ ์์ ์ฉ ๊น์ด ์ผ์๋ ๋ฌผ์ฒด ๊ฒฝ๊ณ์ ๊ฐ์ฅ์๋ฆฌ๊ฐ ๋งค๋๋ฝ์ง ์์ผ๋ฉฐ ๋งค๋๋ฌ์ด ํ๋ฉด์์ ๋ถ์ ํํ ๊ฐ์ ์ ๊ณตํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
- ๋ฐ๋ผ์ ์ ์๋ค์ RGB ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ํ ๊น์ด ์ ๊ทํ๋ฅผ ์ํ gradient-aware depth loss๋ฅผ ์ ์ํ์์ต๋๋ค.
- ๋ฌผ์ฒด์ ๊ฐ์ฅ์๋ฆฌ์ ๊ฐ์ด ์ด๋ฏธ์ง gradient๊ฐ ํฐ ์์ญ์์๋ depth loss๊ฐ ๋ฎ์์ง๋ฉฐ, ๋งค๋๋ฌ์ด ์์ญ์์ ์ ๊ทํ๊ฐ ๋ ๊ฐํ๋ฉ๋๋ค.
์ฌ๊ธฐ์
\[g_{rgb} = \exp \left( - \nabla I \right)\]DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth Normalization
- Scene scale
- Dense Depth Priors for Neural Radiance Fields from Sparse Input Views ๊ทธ๋ฆผ ์ฐธ์กฐ
-
SfM๊ณผ Sparse Depth map ๊ด๊ณ
Leave a comment