딥러닝 분석가 가리

CrossNet Review 본문

딥러닝 논문 리뷰

CrossNet Review

AI가리 2023. 7. 21. 15:22

"CrossNet: An End-to-end Reference-based
Super Resolution Network using Cross-scale Warping"

 

Abstract

  Reference-based Super-Resolution (RefSR)은 High-resolution (HR) 참조 영상이 주어졌을때 low-resolution (LR)영상을 초해상화 하는것이다. 이때 Ref와 LR은 해상도 차이가 나는 유사한 관점의 영상이다. 기존의 RefSR 방법은 patch matching 및 두 개의 독립적으로 정의된 목적 함수를 가진 합성 pipeline과 같은 계단식 방식으로 장동해 패치간의 정렬 오류, grid 효과 그리고 비효율적인 최적화로 이어진다. 이러한 문제를 해결하기 위해 cross-scale warping을 사용한 end-to-end의  CrossNet을 제안한다. CrossNet은 cross-scale warping layer를 가진 encoder와 LR과 Ref로 부터 추출된 multi-sca;e feature를 fusion 하는 decoder가 있다. Cross-scale warping layer는 Ref feature map과 LR feature map을 공간적으로 정렬하고 decoder는 두 영역의 feature map을 통합하여 합성된 HR 출력을 만든다. CrossNet은 pixel-level에서 공간적 정렬을 할 수 있다.

Introduction

  RefSR은 HR 참조 영상을 사용해 LR 영상을 초해상화 하는것이다. 이때 참조하는 영상은 LR과 해상도만 다른 유사한 영상이다. Ref 영상의 고해상도 정보를 사용하는것의 이점은 RefSR이 보통 SISR과 비교했을때 더 좋은 성능을 낼 수 있다는 것이다. RefSR은 light-field reconsturction과 giga-pixel video 합성에 있어 성공적으로 적용 되었지만, 시차와 해상도의 큰 차이 때문에 여전히 어려운 문제로 남아있다. 그래서 Ref의 고주파 정보를 LR로 성공적으로 전송하는것이 RefSR의 성공을 위한 필수적인 해결사항이다. 이는 RefSR에서 두가지 중요한 문제, 즉 두 입력 영상 간의 영상 대응 및 LR 영상의 고해상도 합성으로 이어진다. 

  초기 연구는, 두 입력 사이의 영상의 대응을 개발하기 위해,  HR 참조 영상에서 다운샘플링 된 패치의 gradient feature가 patch 기반 매칭에 사용되는 반면, patch 평균화는 영상 합성을 위해 설계되었다. 하지만, 초기 연구는 지나치게 단순화되고 다운샘플링된 대응 추정은 일치를 위해 고주파 정보를 활용하지 않는 반면, 합성 단계는 더 나은 융합을 위해 이전의 고해상도 이미지를 활용하지 않는다. 위의 두 문제점을 해결하기 위해 최근 연구는 초기 연구의 gradient feature를 CNN 학습 특징으로 대체하여 매칭 정확도를 향상 시킨 다음 patch 합성을 위해 SISR 알고리즘을 활용하는 추가 CNN을 제안한다. 하지만 기존 연구의 'patch matching + patch synthesis'는 제한적이다. 먼저, 채택된 sliding 평균화는 출력 영상을 흐리게 하고 노이즈를 발생시킨다. 게다가, patch기반 합성은 본질적으로 관점 변화로 인한 non-rigid 영상 변형을 처리할 수 없다. Patch 기반 알고리즘에 non-rigid 변형을 추가하기위해 기존 연구는 patch 합성 전에 non-uniform warping을 반복적으로 적용해 참조 영상을 풍부하게 한다. 하지만, LR과 HR간의 직접적인 warping은 부정확하다. 또한, patch 매칭과 warping의 이러한 반복적인 조합은 영상 합성에 엄청난 시간과 연산량을 초래한다. 

  그래서 본 논문에서는 CrossNet을 제안한다. CrossNet은 warping + synthesis에 기반한 end-to-end의 CNN이다. Patch 매칭의 아이디어를 삭제하고 warping으로 대체했으며 이것은 그림 1과 같다. 구조는 LR과 Ref 영상의 multi-scale feature map을 추출하는 encoder를 가지고 있다. Spatial transformer network 로 부터 유래된 warping module의 이점을 사용하고 HR 참조 영상 encoder에 통합한다. Patch 매칭 기반의 방법과 비교했을때, warping은 RefSR에서 parallax challenge의 극복하기 위한 non-rigid 변형을 지원한다. 게다가, encoder에서 multi-scale feature를 추출하고 warping을 사용해 multi-scale spatial 정렬을 수행한다. 도입된 multi-scale feature는 두 개의 영상에서 보완적인 sclae 정보를 캡처하여 RefSr의 큰 해사옫 격차 문제를 완화하는데 도움이 된다. 마지막으로, decoder는 특징을 집계하여 HR을 출력한다. 전반적으로, 제안하는 모델은 end-to-end 학습이 가능하며 flow estimator를 사전에 훈련할 필요가 없다.

Approach

  CrossNet은 Ref 영상의 정보와 LR 영상의 정보를 공간적으로 정렬시키는 fully convolutional cross-scale alignment 모듈이다. Cross-scale alignment 모듈을 따라 encoder-decoder는 end-to-end 간 RefSR을 직접 합성하기위해 제안되었고, fully convolutional fashion이다. 전체적인 네트워크 구조는 그림 2와 같다.

Fully Convolutional Cross-scale Alignment Module

  Ref 영상이 LR 영상과 다른 관점을 가지게 된 이후로 두 영상간의 spatial 정렬은 필수적이다. 기존 연구에서 이러한 대응은 모든 LR patch를 주변 Ref patch와 일치시킴으로써 추정한다. 그러나 이러한 희박하게 샘플링 되고 견고하지 않은 업샘플링된 대응은 다양한 깊이 또는 격차로 쉽게 실패할 수 있다.

Cross-scale warping

  Non-rigid image transformation을 수행하기 위해 cross-scale warping을 제안한다. Patch matching과 비교하여, depth plane이 locally 일정하다고 가정하지 않는다. 제안된 cross-scale warping 연산은 pixel-wise shift vector인 V에 의해 간주된다.

식 1

각 pixel 위치에 특정 shift vector를 할당하여 blocky와 blur 노이즈를 방지한다.

Cross-scale flow estimator

  그림 2에서 보여지는것 처럼 업샘플된 LR 영상과  이에 해당되는 Ref 영상이 주어지면, multi-scale에서 cross-scale 대응을 생성하기 위해 널리 사용되는 FlowNetS을 flow estimator로 채택한다. FlowNetS을 개선시키기 위해, 마지막의 x4 bilinear upsampling layer를 두개의 x2 upsmapling 모듈로 교체한다. 각 x2 upsampling 모듈은 deconvolution layer를 따르는 skip connection 구조를 포함한다. 이러한 추가 upsampling 절차를 통해 수정된 모델은 훨씬 더 미세한 정의로 flow-field를 예측할 수 있다. Multi-scale flow-fields를 생성하기 위한 수정된 flow estimator works는 다음과 같다.

식 2

LR↑은 SISR (EDSR) 방법으로 upsampled LR 영상이다.

End-to-end Network Structure

  Patch 매칭은 sliding window 방식을 사용해 pixel 단위 흐름을 계산한다. 이러한 매칭은 cross-scale flow field 추정을 위해 제안된 fully convolutional network와 비교했을 때 계산량이 많다. Cross-scale warping을 spatial alignment의 핵심 요소로 활용해 RefSR 합성을 위한 end-to-end network를 제안한다. 제안된 네트워크는 LR 영상으로 부터 multi-scale feature map을 추출하는 LR encoder, multiple scale Ref feature map을 추출하고 정렬하는 Ref encoder, U-Net 구조를 활용해 multi-scale feature를 fusion하고 합성하는 decoder로 구성된다. 네트워크 구조는 위의 그림 2와 같다.

LR image encoder

  주어진 LR 영상을 4개의 scale인 feature map을 추출하도록 LR image encoder를 설계한다. 구체적으로, 먼저 EDSR을 사용해 LR을 업샘플링 한다. 이후, 업샘플링된 영상은 stride가 1인 5x5 kernel conv를 지나 feature map을 뽑아낸다. 이후 다른 scale의 feature map은 stride를 조절해 추출한다. 이는 식 4와 같다.

식 4

LR 영상을 인코딩 하기 위해 독립적인 SISR을 사용하는것은 두가지 이점을 가지고 있다. 첫째, large-scale external datasets에서 검증된 SISR 방법은 LR image encoder가 보이지 않는 장면에서 더 잘 일반화하는데 도움이 된다. 둘째, 새로운 SotA SISR 방법을 시스템에 쉽게 통합하여 네트워크 구조를 변경하지 않고도 성능을 향상시킬 수 있다. 

Reference image encoder

  Ref 영상도 식 4 처럼 multiple sclae feature map을 추출한다. 이때, Ref encoder와 LR encoder가 서로 다른 weights를 가지게 하여 두가지 특징 집합이 서로를 보완하는데 도움이 된다. 이후, 공간적으로 정렬된 feature를 생성하기 위해 Ref image feature에 cross-scale flow를 사용해 backward warping 연산을 수행한다. 이는 식 5와 같다.

식 5

Decoder

  다른 scale에서  LR 영상의 feature와 warped Ref 영상의 feature를 추출한 후에, SR 합성과 fusion을 수행하기 위해 U-Net 처럼 생긴 decoder를 제안한다. 구체적으로, 각 scale의 warped feature와 LR 영상 feature 뿐만 아니라 i-1번째 에서 나온 decoder feature가 concat 되어 deconvolution layer를 지나나다. 이는 아래 식 6과 같다. ★은 deconvolution 이다.

식 6

Scale 0에서 decoder feature를 생성한 이후, 3개의 convolution layer를 지나 SR 을 생성한다.

식 7

Loss Function

  제안된 네트워크는 SR 출력을 합성하도록 직접 훈련될 수 있다. 예측된 영상과 GT HR 영상이 주어지면 이에 대한 loss function은 다음과 같이 작성될 수 있다.

식 8

Experiment

Implement details

  • Flower dataset : 총 3343장, train  3243, test 100
  • Light Field Video (LFVideo) dataset : train 1080, test 270
  • LR and Ref 영상은 8x8 angular grid로 부터 무작위로 선택, test 시 LR 영상은 angular position (i,i) {0<i<=7}, Ref 영상은 (0,0)을 선택해 RefSR 알고리즘을 평가
  • 모델 입력 크기는 32배 되어야 하므로, 두 데이터 셋의 영상은 320x512로 crop
  • x4, x8 SR 실험을 하며  iteration은 200K로 설정
  • Learning rate는 각 데이터 셋마다 1e-4, 7e-5로 설정, 150K 이후는 1e-5, 7e-6으로 설정, Optimizer는 Adam
  • RefSR 모델인 SS-Net, PatchMatch와 비교, SISR 모델인 SRCNN, VDSR, MDSR과 비교
  • 평가지표로는 PSRN과 SSIM 그리고 IFC 사용

Evaluation

  표 1은 CrossNet의 정량적 결과이다. 제안된 CrossNet은 다양한 세팅 (1,1), (7,7)과 다른 업샘플링 크기 그리고 다른 데이터셋에 대해 기존의 방법들 보다 2~4dB 높은 결과를 얻었다.

더 자세한 비교를 위해 다른 설정에 대한 PSNR 결과를 그림 3에 나타냈다. 기대한 바와 같이 RefSR의 접근 방식이 SISR 방법들 보다 더 좋은 결과를 얻었다. 하지만, RefSR 결과는 시차가 클 수록 해당 texture search가 어렵기 때문에 시차가 클 수록 성능이 악화 되었다. 반대로, SISR 방법은 다른 관점에 대해 'U' 모양의 성능을 보였다. 이것은 아마 모서리부터 invalid region이 커져 쉽게 초해상화 할 수 있기 때문이다. 마지막으로, 제안된 CrossNet이 다른 시차에도 일정한 성능을 보여준다.

  그림 4는 CrossNet을 다른 방법들과 비교한 정성적 결과이다. Reference 영상의 이점으로 RefSR 방법들이 SISR 보다 더 많은 texture와 high frequency를 가지고 있다.

Discussions

  한 가지 우려할 점은 loss가 이미지 합성을 위해 설계되어 흐름 추정을 위한 용어를 명시적으로 정의하지 않는것이다. 하지만, feature가 정렬된 이후, decoder가 고주파 세부 정보를 재구성하는데 매우 유용하기 때문에, 모델은 실제로 feature map을 unsupervised 방식으로 정렬하여 flow estimation을 예측하는 방법을 배운다. 정렬된 feature의 flow를 배우는것의 효율석을 검증하기 위해 flow field 중간을 시각화 하여 그림 5(d)에 나타낸다. 여기서 scale (x1, x2, x4, x8)의 flow 예측은 상당히 일관적 이지만, x16, x32에서는 노이즈가 있는 flow 예측이 관찰된다.

Conclusion

  • Large-scale SR문제를 해결하기위해 RefSR인 CrossNet을 제안
  • CrossNet은 encoder, cross-sccale warping, decoder로 구성
  • 실험결과에서는 다른 RefSR 모델이나 SISR 모델에 비해 2~4dB 향상

 

Paper

https://openaccess.thecvf.com/content_ECCV_2018/papers/Haitian_Zheng_CrossNet_An_End-to-end_ECCV_2018_paper.pdf

Comments