대학원 준비

Indoor Scene Reconstruction From Monocular Video Combining Contextual and Geometric Priors(문맥 정보와 기하학적 사전 정보를 결합한 단안 비디오 기반 실내 장면 3D 재구성)

steezer 2025. 7. 7. 16:56

논문 정보

IEEE Access, 2024

저자: Kyungeun Cho, Yeongho Jeong, Jaemin Son

키워드: 실내 장면 3D 재구성, 단안 비디오, Vision Transformer(ViT), Multi-View Stereo(MVS), Cost Volume, 문맥 정보, 기하학 정보, 딥러닝


결과

정량적·정성적 성능 모두 우수
ScanNet v2, 7-scenes 등 실제 실내 데이터셋에서 평가한 결과, 기존의 CNN 및 기존 volumetric, MVS 기반 3D 재구성 방법 대비 chamfer distance, precision, recall, F-score 등에서 더 뛰어난 수치를 기록함.

구조적 세밀함 개선
문, 의자, 계단 등 복잡한 구조의 디테일까지 보다 선명하게 3D로 재구성함을 시각적으로 확인.
특히 텍스처가 부족하거나, 빛/반사가 강한 영역, 투명 객체 등 기존 방식에서 놓쳤던 부분까지 잘 복원함.

일반화 능력 확인
7-scenes 데이터셋 등에서 파인튜닝 없이도 강한 성능을 보이며, 다양한 환경에서 모델의 높은 일반화 성능을 입증함.

실험 및 결과 D

 

한계

계산 자원 및 메모리 사용량
ViT, MVS, cost volume 등 복잡한 신경망 구조를 결합해 실제 학습·추론 시 GPU 메모리 소모와 연산 시간이 크다는 점이 단점.

키프레임 수 제한
메모리 한계로 인해 한 번에 사용할 수 있는 키프레임 수(60장 등)가 제한되며, 장면 크기가 크거나 길이가 긴 영상에서는 처리 효율의 이슈가 있음.

완전성(Completeness) 한계
모든 평가 지표에서 최고점은 아니며, 특히 completeness 등 일부 항목에서는 경쟁 연구(예: Finerecon)보다 낮은 점수 기록.

특정 환경 미세 복원 한계
매우 미세하거나 경계가 불명확한 투명체, 완전히 그림자가 진 부분 등에서는 여전히 구조적 세부 재구성에 한계가 존재.

실험 및 결과 B, D, E

 

향후 과제

모델 경량화 및 최적화
실제 서비스·로봇·모바일 디바이스 등에서 쓸 수 있도록 메모리/속도 최적화, 모델 경량화(Pruning, Quantization 등) 연구 필요.

장면 크기 확장
더 넓고 복잡한 실내·실외 장면에서도 안정적으로 재구성할 수 있도록 키프레임 효율적 선택, 메모리 관리 등 연구가 필요함.

다양한 센서·멀티모달 융합
RGB 외에 저렴한 깊이 센서, IMU, 음성 등과의 융합 확장성 모색.

더 높은 완전성/정확도 달성
Completeness 등 남은 지표 개선, 극한 환경(낮은 조명, 빠른 움직임 등)에서의 견고성 확보.

실시간/온라인 재구성
현재는 오프라인 처리 중심이므로, 실시간 3D 재구성, 스트리밍 기반 재구성 기술도 향후 과제로 삼을 수 있음.

실험 및 결과 B, D, E


연구 배경 및 목적

연구 배경

 

기존 방법의 한계

전통적인 SLAM(Simultaneous Localization and Mapping) 방법들은 특징점 기반으로 작동하여 저텍스처 영역에서 성능이 제한적

반사 표면, 투명 재질, 반복 패턴이 있는 영역에서 특징 추출의 어려움

단안 비디오만으로는 깊이 정보 추정에 모호성 존재

 

딥러닝 기반 접근법의 등장

최근 딥러닝을 활용한 3D 재구성 방법들이 주목받고 있음

하지만 여전히 저텍스처 영역에서의 정확한 기하학적 세부사항 재구성은 도전적 과제

 

사전 정보 활용의 필요성

문맥적 정보(semantic context)와 기하학적 정보(geometric priors)를 결합하면 더 나은 결과를 얻을 수 있다는 가설

 

연구 목적

 

주요 목표

단안 비디오 입력만으로 실내 장면의 정확한 3D 재구성 실현

특히 저텍스처 영역에서의 기하학적 세부사항 복원 성능 향상

 

기술적 목표

사전 훈련된 Vision Transformer(ViT)의 문맥적 사전 정보 활용

다중 시점 스테레오 네트워크의 기하학적 사전 정보 통합

두 종류의 사전 정보를 효과적으로 융합하는 새로운 모듈 개발

 

성능 목표

기존 방법들 대비 챔퍼 거리, 정밀도, 재현율, F-점수 등의 평가 지표에서 우수한 성능 달성

실제 세계 데이터셋(ScanNet v2, 7-scenes)에서의 검증을 통한 실용성 입증

 

이 연구는 컴퓨터 비전과 3D 재구성 분야에서 문맥적 정보와 기하학적 정보의 융합이라는 새로운 접근법을 제시하여, 실내 환경의 정밀한 3D 모델링을 가능하게 하는 것을 목표로 한다.


연구 가설(암묵적)

문맥적 정보와 기하학적 정보의 상호보완성

사전 훈련된 ViT의 문맥적 사전 정보와 다중 시점 스테레오 네트워크의 기하학적 사전 정보를 결합하면 단독으로 사용할 때보다 더 나은 성능을 얻을 수 있다는 전제

 

저텍스처 영역 문제 해결 가능성

두 종류의 사전 정보를 적절히 융합하면 기존 방법들이 어려워하는 저텍스처 영역에서의 3D 기하학 추정 문제를 해결할 수 있다는 가정

 

딥러닝 기반 접근법의 우수성

전통적인 특징점 기반 SLAM 방법보다 딥러닝을 활용한 접근법이 복잡한 실내 환경에서 더 효과적이라는 전제


연구 대상 및 방법

연구 대상

 

데이터셋

ScanNet v2 데이터셋: 총 1,613개 실내 장면

훈련: 1,201개 장면

검증: 302개 장면

테스트: 100개 장면

7-scenes 데이터셋: 일반화 성능 평가용

 

입력 데이터

단안 비디오의 키프레임 시퀀스

카메라 포즈 및 내부 파라미터 정보

훈련 시: 20개 키프레임 + 키프레임당 7개 보조 프레임

추론 시: 최대 60개 키프레임

 

연구 방법

 

전체 아키텍처

키프레임 특징 추출 모듈: 문맥적 및 기하학적 특징 추출

다중 시점 특징 융합 모듈: 트랜스포머 기반 특징 통합

3D 재구성 모듈: 점유 및 TSDF 값 추정

 

핵심 기술

문맥적 특징 추출: 사전 훈련된 ViT-S (Dinov2) 활용

기하학적 특징 추출: SimpleRecon MVS 네트워크로 비용 볼륨 구성

특징 융합: CNN 기반 정제 모듈로 두 특징 통합

 

기술적 세부사항

복셀 크기: 4cm

그리드 해상도: 64×64×56

깊이 평면 수(D): 64

문맥적 특징 채널(C): 48

이미지 특징 차원: 60×80

 

분석 방법

 

정량적 평가 지표

완전성(Completeness): 재구성된 표면의 완성도

정확도(Accuracy): 재구성 정확성

챔퍼 거리(Chamfer Distance): 전체적인 기하학적 오차

정밀도(Precision): 예측의 정확성

재현율(Recall): 실제 구조의 복원율

F-점수: 정밀도와 재현율의 조화평균

 

정성적 평가

시각적 비교를 통한 재구성 품질 평가

저텍스처 영역, 반사 표면, 투명 재질에서의 성능 분석

기존 방법들(NeuralRecon, VisFusion, CVRecon, Finerecon)과의 비교

 

소거 연구(Ablation Study)

기준 모델: CNN 기반 특징 추출만 사용

CF 모듈 추가: 문맥적 특징 모듈 효과 검증

전체 모델: 문맥적 및 기하학적 특징 융합(CGFF) 모듈 포함

 

손실 함수

점유 손실(Lᵒ): 이진 교차 엔트로피

TSDF 손실(Lˢ): L1 손실

다중 시점 특징 융합 가중치 감독 손실(Lw): 투영 점유 손실


변수 유형

특징 벡터 변수

{Fᵢˡ}ⁿᵢ₌₁: 키프레임별 특징 벡터 집합

Fᶜ: 문맥적 특징 벡터 (ViT 기반)

Fᵍ: 기하학적 특징 벡터 (다중 시점 스테레오 기반)

v: 융합된 복셀 특징 벡터

 

인덱스 및 카운터 변수

n: 총 키프레임 개수

i: 키프레임 인덱스 (1부터 n까지)

l: 작업 유형 식별자 (o: 점유, s: TSDF)

 

손실 함수 변수

Lᵒ: 점유 예측 손실

Lˢ: TSDF 예측 손실

Lw: 특징 융합 가중치 감독 손실

 

3D 기하학적 표현 변수

TSDF 값: 각 복셀의 부호 거리 함수 값

점유 확률: 각 복셀의 점유 여부 확률

복셀 좌표: 3D 그리드 상의 위치 좌표

 

하이퍼파라미터

키프레임 수: 20개 (훈련), 최대 60개 (추론)

보조 프레임 수: 키프레임당 7개

복셀 해상도 및 그리드 크기


 

요약

이 논문은 단안(monocular) 비디오에서 3D 실내 장면을 재구성하는 새로운 방법을 제안한다. 주요 혁신점은 다음과 같다.

 

문제점 식별

기존의 CNN 기반 방법들은 저텍스처 영역, 반사 표면, 투명 재질 등에서 특징 추출에 한계가 있다.

 

핵심 접근법

사전 훈련된 Vision Transformer(ViT)를 활용하여 문맥적 특징을 추출

다중 시점 스테레오(MVS) 네트워크로 기하학적 특징(비용 볼륨) 생성

두 특징을 효과적으로 융합하는 새로운 모듈 설계

 

주요 성과

저텍스처 영역에서 더 정확한 기하학적 세부 사항 재구성

ScanNet v2와 7-scenes 데이터셋에서 기존 방법들보다 우수한 성능 달성

특히 챔퍼 거리, 정밀도, 재현율, F-점수 측면에서 개선

 

이 연구는 딥러닝 기반 3D 재구성 분야에 중요한 기여를 하며, 특히 문맥적 정보와 기하학적 정보를 결합하는 방식이 실내 장면 재구성의 품질을 크게 향상시킬 수 있음을 보여준다.


번역

초록

딥러닝을 활용한 단안 비디오에서의 3차원(3D) 실내 장면 재구성에 대한 최근 발전은 상당한 주목을 받고 있다.

그러나 기존 방법들은 3D 센서로부터 얻은 데이터를 사용한 재구성에 비해 여전히 불충분하다.

이는 주로 비디오 데이터가 명시적인 깊이 정보를 포함하지 않기 때문이다.

단안 비디오에서의 깊이 추론은 텍스처와 같은 시각적 단서에 의존하는데, 이는 조명, 반사, 재질 특성으로 인해 모호해질 수 있다.

대부분의 기존 방법들은 특징 추출을 위해 합성곱 신경망(CNN)을 사용하고 여러 시점에서의 특징을 통합하여 3D 특징을 생성한다.

그러나 CNN은 얕은 층에서의 제한된 인식 영역으로 인해 불명확한 시각적 단서가 있는 영역에서 효과적인 특징을 포착하지 못한다.

따라서 이러한 문제를 해결하기 위해, 본 연구는 사전 훈련된 비전 트랜스포머(ViT)를 활용하는 키프레임 특징 생성 모듈을 제안하며, 이는 전역적 인식을 통해 모호한 시각적 단서가 있는 영역에서 특징을 추론하고 합성한다.

또한 기하학적 특징으로 비용 볼륨을 생성하기 위해 사전 훈련된 다중 시점 스테레오 네트워크를 사용한다.

더불어, 이러한 기하학적 특징은 ViT에서 추출한 특징을 통해 더욱 향상된다.

제안된 접근법의 효과는 기존 방법들과 비교하여 실제 세계 데이터셋에서 입증된다.

색인어

딥러닝, 특징 추출, 3D 장면 재구성, 메시(mesh) 재구성, 비전 트랜스포머(vision transformer)

 

1. 서론

3D 재구성은 로봇 내비게이션[1], 3D 콘텐츠 생성[2], [3], 가상 현실[4]과 같은 응용 분야에 필수적이다.

재구성을 위한 3D 센서 사용은 높은 정확도와 속도를 제공한다.

그러나 이러한 센서는 종종 비싸고 휴대성이 부족하다.

대안으로, RGB 이미지나 순차적 비디오에서 3D 장면을 재구성하는 것은 모바일 폰과 같은 기기에 보편적으로 존재하는 RGB 카메라의 광범위한 가용성과 낮은 비용으로 인해 유리하다.

 

초기 3D 재구성 연구는 일반적으로 키프레임에 대한 깊이 이미지를 추정하고, 이를 절단된 부호화 거리 함수(TSDF) 볼륨[5]으로 융합하여 마칭 큐브 알고리즘[6]을 사용해 3D 삼각형 메쉬를 추출한다.

그러나 각 깊이 이미지가 독립적으로 또는 몇 개의 인접 프레임만으로 추정되기 때문에, 프레임 간 중첩 영역에서 깊이 추정 불일치가 자주 관찰되어 많은 아티팩트가 있는 메쉬가 생성된다[7].

이러한 측면에서 볼륨 기반 방법[8], [9]이 주목을 받고 있다.

이 방법들은 입력 RGB 이미지나 비디오 시퀀스에서 직접 점유 볼륨이나 TSDF를 추정한다.

 

초기에는 키프레임에서 2차원(2D) 이미지 특징이 추출되고 3D 복셀 볼륨에 역투영되어 3D 특징 볼륨을 생성한다.

이 볼륨은 다른 시점의 이미지 특징을 포함하지만, 특정 복셀은 모든 시점에서 가려져 이미지 특징이 없을 수 있다.

이후, 각 복셀 내의 다중 시점 특징을 일관된 특징으로 통합하기 위해 평균화[8], 가중 평균화[10], 트랜스포머 활용[11], 또는 게이트 순환 유닛(GRU)과의 특징 통합[12]과 같은 다양한 융합 전략이 사용된다.

3D CNN[8] 또는 희소 3D CNN[11]과 같은 기하학 디코더는 이 3D 특징 볼륨을 정제하고 점유 또는 TSDF 값과 같은 3D 기하학을 추정하여 깊이 기반 방법의 노이즈가 많은 표면을 완화한다.

이러한 발전에도 불구하고, 이 방법들은 종종 세부 사항이 부족한 과도하게 부드러운 표면을 생성한다.

특히 저텍스처 영역에서의 도전은 여전히 심각하며, 이는 이미지 특징 추출기로 얕은 CNN 네트워크가 사용되어 제한된 수용 영역으로 인해 모호한 특징이 발생하기 때문이다.

또한 반복적인 패턴, 반사 표면, 반사 재질이 있는 영역은 로컬 특징 표현 측면에서 상당한 도전을 제시하여 3D 재구성에 유용한 특징 추출을 복잡하게 한다.

 

3D 재구성에서 과도하게 부드러운 표면 문제를 해결하기 위해, 최근 방법[7], [13]은 추정된 깊이나 사전 훈련된 다중 시점 스테레오(MVS) 네트워크를 사용하여 구성된 비용 볼륨과 같은 기하학적 사전 정보를 통합하여 표면 세부 사항을 향상시켰다.

이러한 깊이 기반 방법은 다중 시점 매칭의 이점을 활용하며, 이는 가구의 가장자리와 같은 더 정의된 기하학적 구조를 생성할 수 있어 볼륨 기반 3D 재구성의 세부 사항을 향상시킨다.

그러나 사전 훈련된 네트워크에 의해 생성된 기하학적 사전 정보는 항상 신뢰할 수 있는 것은 아니며, 수정 없이 직접 사용하면 재구성 품질에 부정적인 영향을 미칠 수 있다.

따라서 이러한 사전 정보는 효과적인 활용을 위해 정제가 필요하다

예를 들어, CVRecon[13]은 CNN에 의해 추출된 특징을 사용하여 비용 볼륨 특징을 정제한다.

그러나 이 기술은 CNN의 제한된 수용 영역으로 인해 저텍스처 영역에서 종종 제한을 받으며, 이는 정확한 3D 기하학 추정을 복잡하게 할 수 있는 모호한 특징을 초래한다.

 

원래 자연어 처리를 위해 개발된 트랜스포머 모델[14]은 최근 몇 년 동안 상당한 주목을 받았으며 다양한 컴퓨터 비전 작업[15], [16]에서 주목할 만한 성공을 거두었다.

CNN과 달리, ViT는 주의 메커니즘과 위치 인코딩을 사용하여 문맥적 정보를 집계한다.

이 접근법은 모델이 전역적이고 위치별 세부 사항을 더 효과적으로 포착할 수 있게 한다.

결과적으로, ViT는 얕은 CNN이 로컬 수용 영역에 의존하기 때문에 어려움을 겪을 수 있는 저텍스처 영역에서도 관련 특징을 식별할 수 있다.

ViT의 전역적 관점은 전체 이미지의 문맥적 단서를 활용하여 충분한 텍스처가 없는 영역을 해석하는 데 특히 능숙하게 만든다.

따라서 이러한 도전적인 환경에서 특징 추출 능력이 향상된다.

 

이러한 문제를 해결하기 위해, 본 연구는 사전 훈련된 ViT[17]에서 추출한 문맥적 특징과 MVS 모듈[18]의 기하학적 특징을 활용하는 키프레임 특징 추출 모듈을 소개한다. 본 연구의 주요 기여는 다음과 같이 요약된다:

1. 저텍스처가 존재하는 영역에서 유용한 특징을 효과적으로 식별할 수 있는 사전 훈련된 ViT를 사용하여 키프레임 문맥적 특징을 추출한다.

이는 ViT의 전역적 문맥 집계 능력을 통해 달성되며, 이는 저텍스처 영역에서의 기하학 예측을 향상시킨다.

이는 모호한 결과를 산출할 수 있는 CNN 기반 특징 추출 방법과 대조된다.

2. 비용 볼륨으로 표현되는 기하학적 특징을 추출하고 사전 훈련된 ViT의 문맥적 사전 정보를 사용하여 이러한 특징을 향상시킨다.

향상된 비용 볼륨과 문맥적 특징은 포괄적인 3D 특징 볼륨을 구성하기 위해 융합된다.

이 통합은 재구성된 메쉬의 기하학적 세부 사항을 크게 향상시킨다.

3. 실제 세계 데이터셋을 사용하여 제안된 방법을 평가하고 여러 선도적인 방법과 비교했다.

이 비교는 우리의 접근법이 저텍스처 영역에서 상세한 기하학을 효과적으로 재구성할 수 있음을 보여주며, 기존 방법에 비해 우수성을 보여준다.

 

2. 관련 연구

A. 깊이 기반 3D 재구성

깊이 기반 3D 재구성 기술은 단일 시점과 MVS 방법으로 분류될 수 있다.

단일 시점 방법[15], [19], [20]은 문맥적 사전 정보[20]와 같은 단안 단서를 활용하여 단일 RGB 이미지에서 깊이를 예측한다.

그러나 추가 시점의 부재로 인해, 이러한 방법들은 일반적으로 상대적 깊이만 추정한다.

반면, MVS 방법[18], [21], [22], [23]은 기하학적 단서를 활용하여 여러 관점에서 캡처된 이미지로부터 3D 모델을 재구성한다.

이러한 방법들은 장면의 3D 점이 다른 시점으로 투영될 때, 해당 픽셀이 점의 색상과 텍스처와 같은 고유 속성으로 인해 시각적 유사성을 보인다는 기본 원칙으로 작동한다.

 

대부분의 MVS 방법은 알려진 카메라 포즈와 내부 파라미터를 사용하여 인접 이미지[24]나 그 특징[22], [23], [25]—수작업으로 만들어지거나 학습된—을 대상 이미지와 관련된 가설적 깊이 평면에 워핑하여 비용 볼륨을 구성한다.

이 비용 볼륨은 프레임 간 유사성을 측정하여 절대 깊이를 추정하기 위한 정보를 통합한다.

일반적으로, 계단식 네트워크[22]는 비용 볼륨을 거친 것에서 더 세밀한 해상도로 디코딩하여 깊이 이미지를 생성한다.

이러한 깊이 이미지는 TSDF 볼륨으로 융합되고, 마칭 큐브 알고리즘이 3D 삼각형 메쉬를 추출하는 데 사용된다.

 

MVS 기반 방법에서의 최근 발전은 날카로운 가장자리와 세밀한 디테일이 있는 메쉬 생성을 가능하게 했다[18], [26].

그러나 종종 제한된 수의 프레임에 의존하는 깊이 추정 과정은 여전히 다른 시점 간에 불일치를 초래한다.

이는 불일치한 깊이 추정으로 인해 후처리된 메쉬에 많은 아티팩트를 초래할 수 있다.

본 연구에서 제안하는 방법은 기하학적 특징으로 비용 볼륨을 활용하면서 개별 깊이 이미지를 사용하는 대신 직접 TSDF 볼륨을 추정함으로써 MVS 접근법을 개선한다.

이 접근법은 MVS 기반 방법에서 일반적으로 발생하는 불일치한 깊이 추정 관련 문제를 크게 완화한다.

 

B. 볼륨 기반 3D 장면 재구성

볼륨 기반 3D 장면 재구성 방법은 피드포워드 및 최적화 기반 접근법으로 분류될 수 있다.

최적화 기반 방법[1], [27], [28], [29]은 신경 방사장을 활용하여 장면별로 3D 특징 그리드를 최적화한다.

이러한 방법들은 해당 카메라 포즈와 내부 정보가 있는 장면의 충분한 이미지가 주어지면 미세한 기하학적 세부 사항을 생성할 수 있지만, 새로운 장면에 일반화할 수 없으며 장면당 몇 시간에서 며칠까지 광범위한 최적화 시간이 필요하다.

반면, 피드포워드 기반 방법[8], [9], [12], [30]은 대규모 3D 데이터셋에서 훈련되며 새로운 장면을 추론할 수 있다.

선구적인 예로는 Atlas[8]가 있으며, 여기서는 2D CNN을 사용하여 프레임별 이미지 특징을 추출한 다음, 이를 3D 특징 볼륨에 역투영하고 각 복셀 내에서 평균화하여 일관된 3D 복셀 특징을 생성한다.

이는 이후 TSDF 추정을 위해 3D CNN에 의해 처리된다.

이후 연구들은 다양한 다중 시점 융합 전략[9], [10], [11], [12], [31] 및 3D CNN 아키텍처[30]를 사용하여 이 프레임워크를 기반으로 기하학적 예측 정확도를 향상시켰다.

그러나 이러한 방법들은 종종 과도하게 부드러운 3D 메쉬를 초래한다.

 

기하학적 세부 사항을 향상시키기 위해, 특정 방법[7], [32]은 3D 재구성 프로세스에 기하학적 사전 정보를 도입했다.

예를 들어, Finerecon[7]은 추정된 깊이 이미지를 사용하여 TSDF 볼륨을 초기화하고, 이를 평균화된 역투영 이미지 특징과 연결했다.

이후, 결합된 복셀 특징은 점유 및 TSDF 값을 추정하기 위해 3D CNN에 의해 처리되었다.

DG-Recon[32]은 2D 특징을 추정된 깊이 표면으로부터 고정된 거리 내의 복셀에만 카메라 광선을 따라 역투영했다.

이는 복셀이 관련 없는 특징으로 오염되는 것을 방지하는 데 도움이 된다.

이러한 접근법들은 추정된 깊이 이미지에 의존했으며, 이는 추정된 깊이의 불완전성으로 인해 3D 특징 볼륨에 노이즈를 도입할 수 있다.

반면, CVRecon[13]은 더 정확한 3D 점유 및 TSDF 추정을 위해 2D CNN 이미지 특징으로 비용 볼륨을 정제했다.

이는 깊이 기반 방법의 특정 제한을 해결했다.

그러나 이미지 특징 추출기로 2D CNN을 사용하는 것은 특히 텍스처가 희소한 영역과 유리나 반사 표면과 같은 재질에서 단점이 있으며, 종종 부적절한 특징 매칭으로 인해 구조적 세부 사항이 누락된다.

 

본 연구에서 제안하는 방법은 사전 훈련된 ViT에서 추출한 문맥적 특징을 사용하여 기하학적 특징으로 표현되는 비용 볼륨을 정제함으로써 이러한 방법들을 개선한다.

이 접근법은 3D 복셀 특징을 구성하기 위해 기하학적 및 문맥적 특징 모두를 활용하여 저텍스처 영역, 반사 표면, 또는 투명한 재질을 포함하는 도전적인 시나리오에서 더 정확한 기하학적 예측을 보장한다.

3. 제안 방법

A. 개요

해당 카메라 포즈와 카메라 내부 정보가 있는 단안 비디오의 선택된 키프레임 {I}ᵢⁿᵢ₌₁이 주어지면, 본 연구는 단안 비디오에 묘사된 3D 장면을 재구성하는 것을 목표로 한다.

제안된 네트워크는 [7]을 기반으로 구축되었다.

이 섹션에서는 네트워크의 전체 아키텍처를 다시 살펴본다.

전체 아키텍처는 그림 1에 묘사된 대로 세 가지 모듈로 나눌 수 있다: 키프레임 특징 추출, 다중 시점 특징 융합, 3D 재구성.

 

키프레임 특징은 {Fᵢˡ}ⁿᵢ₌₁로 표시되며, 여기서 위첨자 l은 다른 기하학 추정 작업에 대한 특징을 나타낸다: o 값은 점유 추정을 나타내고 s는 TSDF 추정을 나타낸다.

논의를 단순화하기 위해, 이후로는 이러한 특징을 아래첨자 l 없이 참조한다.

이전 연구[7], [8], [12]에서는 CNN이 이미지 특징을 추출하는 데 사용되었으나, 이들은 종종 저텍스처 영역에서 적절한 세부 사항을 포착하지 못했다.

이를 해결하기 위해, 우리는 문맥적 및 기하학적 사전 정보를 모두 활용하는 새로운 키프레임 특징 추출 모듈을 도입하여 이러한 도전적인 영역에서 특징 추출 능력을 크게 향상시킨다.

문맥적 사전 정보는 기하학적 추정 작업에 특별히 맞춰진 사전 훈련된 ViT[17]에서 추출된다.

기하학적 사전 정보는 사전 훈련된 MVS 네트워크[18]를 통해 구성된 비용 볼륨 내에 캡슐화된다.

자세한 내용은 섹션 3-B와 3-C에서 설명된다.

 

키프레임 특징 {Fᵢ}ⁿᵢ₌₁은 공간적 일관성을 위해 그리드 샘플링과 보간법을 사용하여 전역 3D 복셀 볼륨에 역투영된다.

이 볼륨의 각 복셀은 다중 시점 특징 {fᵢ}ⁿᵢ₌₁을 포함한다.

복셀이 시점에 의해 가려질 때, 해당 시점의 특징은 영벡터로 초기화된다.

특정 시점에서 복셀이 가려질 때, 해당 특징 벡터는 영벡터로 초기화된다.

VoRTX[11]에 설명된 방법론을 따라, 각 복셀 내의 여러 시점의 특징은 각각 다중 헤드 주의 메커니즘이 있는 두 개의 층으로 구성된 트랜스포머 모듈을 사용하여 처리된다.

결과 특징은 융합 가중치 {wᵢ}ⁿᵢ₌₁을 계산하기 위해 MLP에 입력된다.

관찰되지 않은 복셀의 경우, 가중치는 그 영향을 무효화하기 위해 최소값으로 설정된다.

이러한 가중치는 SoftMax 층을 사용하여 정규화되어 다중 시점 특징의 가중 평균 융합을 일관된 복셀 특징 벡터 v로 용이하게 한다,

식 (1)에 요약된 대로.

 

v = (1/N) ∑ᵢⁿ₌₁ fᵢ * SoftMax(wᵢ) (1)

 

3D 기하학 추정 모듈은 [7]에 제시된 방법론과 일치하여, 동일한 키프레임 특징 추출 및 다중 시점 특징 융합 모듈 세트에 의해 생성된 두 개의 구별된 특징 볼륨을 처리한다.

이 볼륨들은 점유에 대해 Vᵒ로, TSDF 추정에 대해 Vˢ로 표시되며, 다른 모듈 가중치 세트로 생성되어, 그들의 절차적 기원은 동일하지만, 그들의 내용과 후속 사용은 특정 작업에 맞게 조정된다.

 

먼저, 점유 예측을 위한 3D 특징 볼륨인 Vᵒ는 각 복셀의 점유 상태를 결정하기 위한 분류 헤드가 장착된 3D CNN을 사용하여 처리된다.

점유된 것으로 식별된 복셀만 TSDF 값을 추정하기 위해 추가로 처리된다.

다음 단계는 TSDF 특징 볼륨인 Vˢ를 MLP에 공급하는 것을 포함한다.

이 MLP는 점유된 복셀에 대한 TSDF 값을 계산하기 위해 3D CNN 출력에서 보간된 특징을 통합한다.

이 계층적 처리는 TSDF 추정이 점유 결정에서 파생된 문맥적 데이터로 이루어지도록 보장하여 정확성과 효율성을 향상시킨다.

 

모델의 손실 함수는 세 가지 구성 요소를 통합한다: 점유 손실 Lᵒ, TSDF 손실 Lˢ, 다중 시점 특징 융합 가중치 감독 손실 Lw, 식 2에 나타난 대로.

 

L = Lᵒ + Lˢ + Lw (2)

 

여기서 점유 손실 Lᵒ는 지면 진실 점유 볼륨 O*와 예측된 점유 볼륨 O 사이의 이진 교차 엔트로피를 사용하여 계산된다:

 

Lᵒ = -O* log(O) (3)

 

TSDF 손실 Lˢ는 지면 진실 TSDF 볼륨 S*의 로그와 예측된 TSDF 볼륨 S의 로그 사이의 L1 손실을 사용하여 결정된다:

 

Lˢ = |log(S*) - log(S)| (4)

 

또한, 다중 시점 특징 융합 가중치는 VoRTX[11]에 의해 제안된 투영 점유 손실에 의해 감독되며, 식 5에 나타난 대로.

 

Lw = -log(Ow*) log σ(W) (5)

 

여기서 σ는 시그모이드 함수를 나타낸다.

Ow*는 복셀-투영-키프레임의 투영된 깊이와 지면 진실 깊이 사이의 거리가 미리 정의된 절단 거리 내에 있는지 평가하여 결정되는 지면 진실 투영 점유 값을 나타낸다.

거리가 이 범위 내에 있으면 1 값이 할당되고, 그렇지 않으면 0으로 설정된다.

이 투영 점유 확인은 복셀이 이미지 평면에 투영될 때 예상된 깊이와 일치하는지 확인하는 데 중요하며, 이는 모델이 관찰된 복셀에서 더 정확한 기하학적 통찰력을 얻을 수 있게 한다.

 

B. 문맥적 및 기하학적 특징 추출

이 섹션에서는 키프레임에 대한 문맥적 특징 {Fᶜᵢ}ⁿᵢ₌₁과 기하학적 특징 {Fᵍᵢ}ⁿᵢ₌₁의 추출에 대해 설명한다.

우리는 GPU 메모리의 제약을 수용하기 위해 선택된 ViT-S의 가장 작은 버전을 활용한다.

이 모델은 Dinov2 자기 감독 학습 알고리즘[17]을 사용하여 사전 훈련되었으며, 이는 일반적인 목적의 특징 추출에 매우 효과적이다.

ViT-S의 적응성은 깊이 추정 및 2D 의미 분할을 요구하는 작업에 특히 유리하다.

추출된 특징 {Fᶜᵢ}ⁿᵢ₌₁은 본질적으로 장면의 문맥적 사전 정보를 담고 있으며, 환경에 대한 포괄적인 이해를 캡슐화한다.

ViT-S는 384 채널의 이미지 특징을 생성하며, 이는 3D 재구성 작업에 직접 사용하기에는 계산적으로나 메모리 측면에서 집약적이다.

따라서, 우리는 채널 수를 줄이고 점유 및 TSDF 예측과 같은 특정 작업에 대한 특징을 정제하는 특징 어댑터 모듈을 통합한다.

이러한 작업에 대한 특징 어댑터 모듈은 동일한 아키텍처를 공유하지만, 각 특정 작업에 맞게 특징을 조정하기 위해 독립적으로 훈련되어 작업별 성능을 향상시킨다.

 

기하학적 특징 {Fᵍᵢ}ⁿᵢ₌₁의 추출을 계속하며, 우리는 [18]에 설명된 다중 시점 깊이 추정 기술을 채택하여 기하학적 사전 정보로 사용되는 비용 볼륨을 구성한다.

키프레임 이미지와 보조 프레임—카메라 포즈의 상대적 거리와 회전 차이에 기반하여 선택됨—은 이미지 특징을 추출하기 위해 ResNet18 모델[33]을 사용하여 처리된다.

이러한 특징들은 이미지 볼륨 전체에 걸쳐 일련의 깊이 평면을 가설화하는 데 사용된다.

이러한 깊이 평면의 3D 위치를 보조 프레임과 키프레임의 좌표계로 투영함으로써, 우리는 해당 이미지 특징을 샘플링한다.

점 곱과 같은 유사성 측정은 모든 깊이 레벨에서 샘플링된 특징 간의 일치도를 계산한다.

이러한 계산된 유사성은 광선 방향과 같은 추가적인 문맥적 정보와 함께 MLP를 사용하여 집계되고 정제되어 특징이 풍부한 비용 볼륨을 생성한다.

이 볼륨은 장면 내의 기하학적 관계를 효과적으로 캡슐화하여 정확한 3D 재구성을 위한 강력한 기반을 제공한다.

 

C. 문맥적 및 기하학적 특징 융합

얕은 CNN의 제한된 전역 수용 영역으로 인해, 비용 볼륨은 저텍스처 영역에서 기하학적 세부 사항을 효과적으로 포착하지 못한다.반면, ViT는 주의 깊은 전역 특징 집계 능력과 확장된 수용 영역으로 인해 이러한 영역에서 유용한 문맥적 사전 정보를 추출할 수 있다.

기하학적 특징을 향상시키기 위해, 우리는 문맥적 사전 정보로 기하학적 특징을 정제하는 모듈을 개발했으며, 이는 그림 2에 설명되어 있다.

 

문맥적 특징 Fᶜ ∈ RC×H×W, 여기서 C, H, W는 각각 문맥적 특징의 채널 수, 높이, 너비를 나타낸다.

기하학적 특징 Fᵍ ∈ RM×D×H×W는 유사하게 정의되며, 여기서 D는 깊이 평면의 수, M은 깊이 평면당 채널을 나타내고, H와 W는 각 특징의 차원을 나타낸다.

비용 볼륨의 각 깊이 평면에서, 단일 채널 {Fʳᵃʸᵢ}ᴰᵢ₌₁이 선택되어 기하학적 광선 특징 Fʳᵃʸ를 형성하기 위해 연결된다.

이 특징은 키프레임 이미지 평면과 평행한 깊이 평면을 통과하는 키프레임 카메라에서 방출되는 카메라 광선을 상징하며, 이는 깊이 존재의 확률 분포를 나타내며, 이상적으로는 각 광선에 대해 {dᵢ}ᴰᵢ₌₁ 중 하나의 깊이 값 d에서 피크를 이룬다.

 

그러나, 저텍스처 영역에서 특징을 매칭하는 CNN의 고유한 제한으로 인해, 이러한 기하학적 데이터는 ViT에서 추출된 풍부한 문맥적 특징으로 증강된다.

이 통합을 달성하기 위해, 기하학적 광선 특징은 문맥적 특징과 연결되어 결합된 특징 F̃ʳᵃʸ ∈ R(C+D)×H×W를 형성한다.

그런 다음 CNN 층이 이 연결된 특징을 처리하여 문맥적 정보에 의해 풍부해진 향상된 기하학적 광선 특징 F̂ʳᵃʸ ∈ RD×H×W를 생성한다.

 

이후, 이 향상된 기하학적 광선 특징 F̂ʳᵃʸ는 비용 볼륨의 각 깊이 평면의 특징과 병합된다.

각 깊이 평면 특징, i ∈ [1,D]에 대해 Fᶜᵍᵢ ∈ R(D+M)×H×W로 표시되며, 모든 평면에 걸쳐 동일한 아키텍처를 가지지만 독립적으로 훈련된 가중치를 가진 CNN에 의해 처리된다.

결과적인 처리된 깊이 평면 특징 F̃ᶜᵍᵢ ∈ RM×H×W는 원래 문맥적 특징과 연결되어 각 깊이 평면에 대한 결합된 문맥적 및 기하학적 특징 F̃ ∈ R(C+M)×H×W를 형성한다.

이러한 깊이 평면 특징들은 집합적으로 키프레임 특징 F̃ ∈ R(C+M)×D×H×W로 사용된다.

4. 실험 및 결과

A. 데이터셋

이전 연구[7], [8], [9], [13]에 따라, 우리는 제안된 방법을 총 1613개의 장면으로 구성된 ScanNet v2 데이터셋[36]에서 훈련했다.

공식 분할을 따라, 우리는 데이터셋을 1,201개의 훈련 장면, 302개의 검증 장면, 100개의 테스트 장면으로 나누었다.

모델은 훈련 세트에서만 훈련되었다.

Finerecon[7]에 설명된 접근법과 일치하게, 우리는 훈련을 위한 지면 진실 TSDF 볼륨과 지면 진실 점유 볼륨을 생성했다.

제안된 모델의 성능은 ScanNet v2와 7-scenes 데이터셋[37]의 테스트 세트를 사용하여 평가되었다.

 

B. 구현 세부 사항

훈련 중, 각 훈련 샘플은 20개의 키프레임으로 구성되었으며, [21]에 설명된 방법론에 따라 키프레임당 추가적인 7개의 보조 프레임이 선택되었다.

이 분야의 표준 관행에 맞춰, 우리는 4cm의 복셀 크기와 64 × 64 × 56의 그리드 해상도를 사용하여 3D 복셀 볼륨을 구성했다.

추론 중, 우리는 키프레임 수를 증가시키면 재구성된 메쉬 표면의 품질이 향상됨을 관찰했다.

이는 추가 키프레임이 더 많은 기하학적 정보를 제공하여 표면 세부 사항을 향상시키기 때문이다.

그러나 GPU 메모리 제한으로 인해, 우리는 키프레임 수를 60으로 설정했으며, 이는 테스트 세트의 모든 테스트 장면에서 사용할 수 있는 최대 수이다.

이는 메모리 사용량과 재구성 성능 사이의 균형을 보장한다.

 

훈련은 Adam 최적화기를 사용하여 6개의 RTX A6000 GPU에서 실행되었으며, 총 약 70시간이 소요되었다.

학습률은 처음 50,000회 반복에 대해 0.001로 설정되었고, 미세 조정 단계 동안 추가 10,000회 반복에 대해 0.0001로 감소되었다.

하이퍼파라미터 D와 C는 각각 64와 48로 설정되었으며, 이미지 특징 차원 H와 W는 각각 60과 80으로 설정되었다.

비용 볼륨 구성에 중요한 MVS 모듈은 SimpleRecon[18]의 사전 훈련된 가중치로 초기화되었으며, 이러한 가중치는 훈련 과정 전체에서 변경되지 않았다.

 

C. 평가 지표

우리는 3D 장면 재구성 연구[9], [32]에서 일반적으로 사용되는 광범위하게 사용되는 3D 기하학 지표를 채택하여 우리의 접근법의 성능을 평가했다.

지표에는 완전성(Comp), 정확도(Acc), 챔퍼 거리(CD), 정밀도(Prec), 재현율, F-점수가 포함된다.

 

D. 이전 방법과의 비교

우리는 정량적 및 정성적 측정을 모두 사용하여 제안된 방법을 기존의 최첨단 3D 재구성 방법과 비교하는 포괄적인 평가를 수행했다.

표 1에 나타난 대로, 우리의 방법은 ScanNet v2 데이터셋에서 챔퍼 거리, 정밀도, 재현율, F-점수 측면에서 우수한 성능을 보였다. 비록 우리 방법의 완전성과 정확도 지표가 각각 5.57과 4.32로 기록되어 가장 높은 평가를 받지는 않았지만, 이는 평가된 방법의 범위 내에서 경쟁력이 있다.

이러한 결과는 재구성 과정에 기하학적 사전 정보를 통합하는 이점을 강조하며, 이는 재구성의 정밀도와 충실도를 크게 향상시킨다.

 

그림 3에 설명된 정성적 결과는 복잡한 장면에서 세밀한 세부 사항을 정확하게 재구성하고 구조적 무결성을 유지하는 제안된 방법의 향상된 능력을 시각적으로 확인했다.

문의 정의, 의자의 정교한 가장자리, 계단의 정확한 표현에서 주목할 만한 개선이 관찰되었으며, 이 모든 것이 놀라운 명확성으로 묘사되었다.

재구성의 이러한 세부 사항은 다른 방법에 의해 종종 간과되거나 잘못 렌더링되는 미세한 특징을 해결하는 우리 방법의 능력을 강조한다.

 

7-scenes 데이터셋의 공식 테스트 세트를 사용하여 우리 모델의 일반화 능력에 대한 추가 평가가 수행되었다.

표 2에 나타난 대로 다른 볼륨 재구성 방법과 비교가 이루어졌다.

우리의 방법은 챔퍼 거리, 정밀도, 재현율, F-점수 측면에서 비교된 모든 방법을 능가했으며, 완전성 측면에서는 Finerecon에 약간 뒤처지고 정확도 측면에서는 중간 정도의 결과를 달성했다.

 

그림 4에 제시된 정성적 평가는 NeuralRecon과 VisFusion에 비해 기하학적 정확도의 상당한 개선과 CVRecon과 Finerecon에 비해 더 미세한 표면 세부 사항을 보여준다.

특히, 이러한 결과는 7-scenes 데이터셋에서 모델을 미세 조정하지 않고 달성되었으며, 이로써 제안된 방법의 강력한 일반화 능력을 검증했다.

 

E. 소거 연구

우리의 소거 연구는 제안된 방법 내의 개별 구성 요소의 기여를 체계적으로 분석하며, 그 결과는 표 3에 제시되어 있다.

이 연구는 사전 훈련된 ViT에서 파생된 문맥적 특징(CF) 모듈과 문맥적 및 기하학적 특징 융합(CGFF) 모듈의 영향을 기준 모델과 비교하여 평가했다.

 

표 3에 상세히 설명된 소거 연구는 주요 구성 요소를 점진적으로 도입하고 그 효과를 측정하여 ScanNet v2 데이터셋에서 제안된 방법의 성능에 대한 통찰력 있는 검사를 제공한다.

CF 모듈의 도입은 정확도를 5.67에서 4.95로, 챔퍼 거리를 5.67에서 5.35로, 정밀도를 0.74에서 0.77로 향상시켰다.

완전성과 재현율 점수는 더 나빠졌고, F-점수는 동일했다. 제안된 GCFF를 채택한 전체 모델은 완전성을 제외한 모든 지표에서 주목할 만한 개선을 보였다.

완전성은 약간 감소하여 5.57이 되었다.

그러나 정확도는 크게 향상되어 4.32로 떨어졌으며, 이는 더 정확한 실내 장면 재구성을 나타낸다.

또한, 이 방법은 4.94의 가장 낮은 챔퍼 거리를 달성하여 전체 재구성 품질의 상당한 증가를 반영했다.

정밀도는 더욱 증가하여 0.79가 되었고, 재현율은 0.72를 유지하여 구성 중 가장 높은 F-점수인 0.75를 산출했다.

이는 CGFF 모듈이 재구성 정확도를 향상시키는 효과를 확인하고 문맥적 및 기하학적 특징의 융합이 제안된 방법의 우수한 성능에 중요한 역할을 한다는 것을 나타냈다.

 

우리는 그림 5에 묘사된 대로 ScanNet v2 테스트 세트에서 소거 연구의 시각화 결과를 추가로 보여준다.

이러한 시각화는 제안된 방법이 다양한 조명 조건에서 복잡한 실내 환경을 정확하게 탐색하는 능력에 대한 설득력 있는 증거를 제공한다.

이미지 특징 추출을 위해 CNN에 의존하는 기준 방법은 높은 조명 변화가 있는 영역에서 특징을 정확하게 포착하는 데 어려움을 보였다.

예를 들어, 그림 5의 두 번째 행에 나타난 대로, 기준 방법은 테이블 위의 투명한 물 컵을 재구성하지 못했다.

이는 그것의 반사적 특성과 미묘한 가장자리 때문일 수 있다.

유사하게, 첫 번째 행에서, 기준은 텍스처가 부족한 영역인 고양이 등반 타워의 상단 표면을 효과적으로 재구성하지 못했다.

또한, 그림 5의 마지막 행에서, 고양이 등반 타워 다리의 어두운 영역은 그림자가 있는 영역에서 기준의 한계를 보여주며 잘 표현되지 않았다.

 

반면, 문맥적 사전 정보를 통합한 접근법은 이러한 도전적인 특징을 포착하는 데 상당한 개선을 보였지만, 일부 더 미세한 세부 사항은 여전히 포착되지 않았다.

CGFF를 포함한 우리 방법의 전체 구현은 기준 방법보다 기하학적 세부 사항의 더 강력한 재구성을 달성했다.

그것은 빛, 그림자, 투명성의 영향을 받는 객체의 기하학을 효과적으로 식별하고 보존하여 더 정확하고 상세한 재구성을 제공했다.

기준에서 완전히 향상된 방법으로의 진행은 실제 세계 3D 재구성 시나리오에 내재된 복잡성을 해결하는 데 있어 고급 특징 추출 및 융합 기술의 상당한 이점을 강조한다.

5. 결론

우리는 단안 비디오에서 3D 장면 재구성을 크게 발전시키는 새로운 키프레임 특징 추출 모듈을 제안했다.

사전 훈련된 ViT의 문맥적 사전 정보와 다중 시점 스테레오 네트워크의 기하학적 사전 정보를 통합함으로써, 우리는 저텍스처 영역에서 3D 기하학을 정확하게 추정하는 도전을 해결했다.

실제 세계 데이터셋을 사용한 실험 결과는 특히 모호한 시각적 단서에서 상세한 기하학을 생성하는 데 있어 기존 방법에 비해 명확한 우수성을 보여주었다.


개념

기본 딥러닝 및 신경망 개념
CNN

합성곱 신경망. 이미지, 비디오 등 2차원 데이터의 특징을 추출하는 데 특화된 딥러닝 신경망 구조
입력 이미지를 작은 영역(필터, 커널) 단위로 훑으며 공간 패턴(가령 가장자리, 모서리, 질감 등)을 계층적으로 뽑아냄
대표적으로 이미지 분류, 객체 탐지, 영상 분할 등에 널리 사용

비전 트랜스포머(ViT)

Transformer 구조를 이미지 분석에 도입한 딥러닝 모델
전통적인 CNN이 지역(로컬) 정보를 잘 다루는 반면, ViT는 이미지 전체(글로벌) 정보를 Self-Attention 메커니즘으로 효과적으로 처리함
이미지를 작은 패치로 분할하여 각각을 일종의 "단어"로 보고, 이들 사이의 관계를 파악해 전체 구조와 문맥까지 분석

ViT-S

Vision Transformer(ViT) 모델 중 Small(작은) 버전
기본 ViT보다 파라미터 수와 연산량이 적어, 메모리나 속도 제약이 있는 환경(GPU, 임베디드 등)에서 활용에 유리

딥러닝

수많은 인공 신경망 계층(층)을 쌓아 만든 학습 모델
입력(예: 이미지, 소리, 글)에서 자동으로 패턴, 규칙, 의미 등을 학습할 수 있도록 설계되어 있음
대량의 데이터와 높은 연산 성능을 바탕으로, 사람이 직접 정의하지 않은 매우 복잡한 문제까지 해결할 수 있

특징 추출

원본 데이터(이미지, 영상 등)에서 의미 있는 속성이나 패턴(특징)을 수치화하여 뽑아내는 과정
딥러닝 이전에는 사람 손으로 정의(예: SIFT, HOG 등)했으나 지금은 신경망이 데이터를 직접 보고 특징을 스스로 학습

게이트 순환 유닛(GRU)

RNN(순환 신경망) 계열 중 하나로, 입력 데이터를 시간축(연속적인 데이터, 예: 영상, 음성, 시계열 등)에 따라 효과적으로 처리할 수 있게 기억(keep)할 것과 버릴(forget) 것을 “게이트”로 조절함

MLP

여러 층으로 구성된 완전연결(fully-connected) 신경망
비선형 함수와 층을 반복적으로 쌓아 복잡한 관계도 학습할 수 있음

SoftMax

실수값 집합을 입력받아  각 값의 상대적인 확률(0~1, 전체 합 1)로 변환하는 함수
딥러닝에서 분류 문제 등에서 출력 확률 계산에 자주 사용

시그모이드 함수

임의의 실수값을 0~1 사이로 압축시켜주는 S자 형태의 함수
이진 분류, 확률 계산 등에 자주 쓰임

3D 재구성 관련 개념
3D 장면 재구성

2D 이미지나 영상 등 제한된 정보를 바탕으로, 실제 공간의 3차원 구조(형태, 거리, 표면 등)를 컴퓨터가 추정·복원하는 기술
로봇 내비게이션, 증강현실, 디지털 트윈 등 다양한 분야에서 활용

메시(mesh) 재구성

3D 모델링에서 공간을 삼각형(또는 사각형) 등의 작은 면(폴리곤)으로 쪼개어 연결한 데이터 구조
메시 형태는 3D 프린팅, 게임, VR/AR 등 실세계에 바로 적용 가능한 표준적 3D 표현 방법


절단된 부호화 거리 함수(TSDF) 볼륨

공간의 각 위치(복셀)에 대해, 그 점이 3D 표면에서 얼마나 떨어져 있는지 거리와 부호(표면 내부/외부)를 함께 저장한 3D 격자(볼륨) 데이터
‘Truncated’는 먼 거리 정보는 생략해 계산 효율을 높인다는 뜻

마칭 큐브 알고리즘

TSDF 등 3D 격자 데이터에서, 특정 임계값(주로 0)에서의 표면을 추출해 삼각형 메시로 변환하는 대표적인 알고리즘
CT, MRI 등 의료 영상 3D 재구성에도 활용

3D 복셀 볼륨

공간 전체를 아주 작은 입방체(복셀, 3D 픽셀)로 나누고 각 칸마다 데이터를 저장한 3차원 격자
MRI, CT, 3D 시뮬레이션 등에서 표준적으로 사용

키프레임

동영상이나 연속 이미지에서, 전체를 다 쓰지 않고 중요하거나 대표적인 시점(프레임)만 추려서 쓰는 이미지
재구성, 트래킹, 압축 등에서 효율적으로 정보 사용에 유리

다중 시점 및 스테레오 관련
다중 시점 스테레오 네트워크(MVS)

여러 장의 서로 다른 시점에서 촬영한 2D 이미지를 입력받아, 각 이미지에서 관측된 객체의 위치와 모양이 서로 어떻게 대응되는지 비교해 3D 장면의 입체적 구조(깊이 맵, 포인트 클라우드, 표면 등)를 추정하는 딥러닝 네트워크
포토그래메트리(photogrammetry) 기술의 딥러닝 버전으로 볼 수 있음

MVS 모듈

여러 시점에서 촬영한 이미지 간의 특징 대응과 매칭을 통해 3D 장면의 깊이/구조를 복원하는 딥러닝 신경망 모듈

단일 시점 방법

여러 장의 이미지가 아닌, 한 장의 이미지(혹은 한 대의 카메라)만으로 깊이·3D 정보를 추정하는 방법
정보가 부족해 난이도가 높으나, 실제 활용성(일상 카메라)도 높

단안 단서

한 대의 카메라(눈)만으로 추정할 수 있는 깊이/거리의 힌트
예: 겹침(가려짐), 선명도, 밝기, 원근, 그림자 등

처리 방법 및 기법
가중 평균화

평균을 낼 때, 단순히 모두 똑같이 더하는 것이 아니라 각 값의 중요도(가중치)에 따라 더 크게/작게 반영하여 평균을 계산하는 방식

계단식 네트워크

전체 작업을 여러 단계(또는 해상도)로 나눠, 처음엔 대략적 추정, 이후 점차 세밀하게 결과를 개선하는 신경망 구조

디코딩

압축, 변환, 암호화된 데이터를 원래의 실제 값이나 사람이 해석 가능한 형태로 되돌리는 과정

피드포워드 기반 방법

순방향(한 번만 연산) 신경망 구조
입력부터 출력까지 거꾸로 돌아가지 않고 단순·효율적으로 처리

융합 가중치

여러 데이터/특징을 합칠 때 각 항목에 부여하는 중요도 파라미터
더 중요한 값은 큰 가중치로, 덜 중요한 값은 작은 가중치로 반영

영벡터

모든 원소가 0인 벡터
데이터가 없거나 “비었음”을 수치로 표현할 때 사용

특징 및 정보 관련
문맥적 사전 정보

장면 내에서 전체 구조, 분위기, 공간적 맥락 등 넓은 정보를 미리 파악하여(또는 사전 지식으로 활용하여) 국지적 정보(일부 픽셀, 영역)만으로는 어려운 부분까지 보완해주는 데이터

문맥적 특징(CF)

이미지나 장면 전체의 구조, 공간적 관계, 분위기 등 넓은 영역에서 뽑아낸 특징
보통 ViT 등 글로벌 신경망에서 추출

문맥적 및 기하학적 특징 융합(CGFF)

문맥적 특징(CF)과 기하학적 특징(깊이, 위치, cost volume 등)을 딥러닝 네트워크에서 효과적으로 결합하여 단일 특징보다 더 풍부하고 정확한 3D 재구성을 가능하게 하는 모듈

학습 및 최적화
Dinov2 자기 감독 학습 알고리즘

라벨이 없는 이미지 데이터도 스스로 “비슷함/다름”을 구분하며 학습할 수 있게 설계된 최신 self-supervised 학습 프레임워크
대량 데이터에서 범용적인 특징을 학습하는 데 매우 효과적

Adam 최적화기

딥러닝에서 모델의 가중치를 효율적으로 업데이트하는 대표적 알고리즘
모멘텀, 적응적 학습률 등을 결합해 빠르고 안정적인 수렴을 도움

데이터셋 및 모델명
ScanNet v2 데이터셋

실내 공간을 다양한 방식으로 3D로 스캔한 대규모 공개 데이터셋
RGB 이미지, 깊이맵, 카메라 위치 등 정보가 포함되어 3D 재구성 연구의 표준 벤치마크로 널리 쓰임

7-scenes 데이터셋

7개의 서로 다른 실내 장면(사무실, 복도 등)을 여러 시점에서 촬영한 RGB-D 이미지/3D 정보가 포함된 데이터셋
3D 재구성, SLAM, 위치 추정 등에서 벤치마크로 활용

Atlas, Finerecon, DG-Recon, CVRecon

3D 재구성 연구 방법론들

 

Atlas

딥러닝 기반 3D 볼륨 재구성 연구에서 자주 인용되는 초기 CNN 기반 방법/논문
2D 특징을 3D 볼륨에 역투영·평균화 후, 3D CNN으로 재구성

 

Finerecon

깊이 지도와 이미지 특징을 결합해 TSDF 볼륨을 정밀하게 추정하는 최신 3D 재구성 딥러닝 모델/논문
표면 디테일, 정밀한 구조 복원에서 강점을 보임

 

DG-Recon

깊이 기반 3D 재구성 논문/모델
깊이 표면 근처 복셀에만 특징을 투영해 노이즈 감소를 목표로 함

 

CVRecon

CNN 기반 특징 추출과 cost volume 기법을 결합한 단안/다중 시점 3D 장면 재구성 논문 및 모델
저텍스처 영역에서의 성능 향상에 초점


VoRTX

Transformer 구조를 3D 복셀 기반 특징 융합에 적용한 방법론/논문
각 시점별 특징을 self-attention으로 통합, 보다 정교한 특징 벡터 생성

SimpleRecon, NeuralRecon, VisFusion

신경망 기반 3D 재구성 모델들

 

SimpleRecon

간단하지만 강력한 MVS 기반 3D 복원 신경망 아키텍처 및 오픈소스
최신 연구들에서 MVS 사전학습 네트워크로 널리 활용

 

NeuralRecon

MVS(다중 시점 스테레오)와 실시간 볼륨 융합 기술을 결합한 실시간 단안 3D 재구성 딥러닝 모델/논문

 

VisFusion

시각 정보 융합에 초점을 맞춘 3D 재구성 프레임워크
여러 소스의 정보(예: RGB, 깊이, 포인트클라우드 등)를 효과적으로 통합함


평가 지표
완전성(Comp)

재구성된 3D 표면이 실제 장면을 얼마나 빠짐없이(누락 없이) 복원했는지 평가하는 지표

정확도(Acc)

재구성된 3D 표면이 실제 표면과 얼마나 가까운지(오차가 얼마나 적은지) 평가하는 지표.

챔퍼 거리(CD)

재구성 결과와 실제 3D 표면 사이의 평균 거리를 계산하는 척도
값이 작을수록 두 구조가 더 비슷함을 의

정밀도(Prec)

재구성된 표면 중 실제로 “정답”에 해당하는 비율
(예: 예측한 점 중 진짜만 골랐는지)

재현율

실제 표면 중 재구성 결과로 “잘 찾아낸” 비율.
(예: 실제 구조를 얼마나 많이 건졌는지)

F-점수

정밀도와 재현율의 조화평균
두 지표 모두 높아야 F-score가 커짐

기타 기술 용어
컴퓨터 비전

컴퓨터가 사진, 영상 등 시각 정보를 “사람처럼” 해석·이해하는 학문/기술
이미지 분류, 객체 검출, 장면 분할, 3D 재구성, 증강현실 등 포함

아티팩트

3D 복원 과정에서 생기는 불필요한 노이즈, 이상 현상, 왜곡 등을 말함
예: 계단 현상, 엉뚱한 돌출, 잘못된 구멍 등