8주차: PixelNeRF | Notion

0. 연구부채 해결하기

1. @Changwan Kim 연구원님 논문 발표

1-1. Q&A

Pixel NeRF가 NeRF에 CNN을 붙인 것과 비슷한 것인가?

PixelNeRF가 전반부와 후반부로 나뉘는데, CNN Encoder에 대해 다루는 전반부, 그리고 NeRF와 동일한 후반부로 구성되어 있어 맞는 것 같다.

CNN 에서 feature란 게 구체적으로 어떻게 정의되는지?

정확히는 모르겠다. CNN이라는 게 Filter로 학습을 하게 되는데, spatial한 정보를 학습한다는 게 CNN의 이미지 한 장의 위치 정보들을 학습한다. 기존의 Vanilla NeRF는 MLP를 지나서 RGB, density 정보를 예측한다. CNN NeRF는 CNN filter에 spatial data가 추가되고, CNN은 fine-tuning이 가능한데, 포크레인을 학습했어도 다른 자동차들을 학습할 때 더 잘 학습이 될 수 있다.

어떤 부분에서 수학적으로 막혔는지?

변수 표기법이나, 식들이 정확히 어떤 의미를 가지고 있는지 이해하기가 어려웠다.

pixelNeRF 코드도 보셨나요?

Github 올려주신 것 봤는데, 깊이 공부까지는 하지 않았다.

논문의 핵심이 Vanila NeRF는 CNN Encoder를 통해 학습 시간을 줄여주는 테크닉을 성준 연구원님이 발표하신 Plenoxels인데 적용될 수 있지 않을까?

Scene을 적게 쓰겠다는 목표를 가진 다른 논문들을 두 개 정도 더 읽었는데, Transformer, Depth를 각각 활용했는데, 부가적인 정보를 더 들고 모델의 성능을 높일 수 있을 것 같다.
Plenoxels의 상위버전이 Instant NeRF인 것 같은데, 이 경우에 CNN을 안 쓰는데 이유는 정확히 모르겠다. 3초정도 Rendering이 되는데, 학습 시간은 오래 걸려도 되는 입장이라 여러 집중하는 분야가 다를 것 같다.

3. 공지사항