딥러닝 분석가 가리

Zero Shot SR review 본문

딥러닝 논문 리뷰

Zero Shot SR review

AI가리 2023. 1. 3. 22:02

"Zero-Shot" Super-Resolution using Deep Internal Learning

 

Abstract

지난 몇년동안 Deep Learning은 SR(Super-Resolution, 초고해상도)에서 뛰어난 성능을 보여주었다.

하지만, 지도학습 기반의 SR 방법은 특정한 데이터셋에서만 제한적이다.

  • HR(High-Resolution) 이미지로 부터 bicubic dwonscaling 방법과 같은 미리 정해진 방법으로 LR(Low-Resolution) 이미지 획득한다.

실제 LR 이미지는 위와 같은 방법을 따르는 경우는 드물기 때문에, SOTA 방법을 적용하면 SR의 결과가 좋지 않다.

그래서 "Zero-Shot" SR 방법을 소개한다.

  • Deep Learning에 의존하지만, 사전 학습된 것에는 의존하지 않는다.
  • Single 이미지 안에 있는 internal recurrence of information을 활용하고 test time에 입력 이미지 자체에서 추출된 예제로 small image-specific CNN을 학습한다. 즉, 각 이미지 마다 다른 setting을 선택한다.

이것으로 real old photos, noisy images, biological data 등 이미지 획득 과정이 불분명한 경우에도 SR이 가능하다.

 

1. Intorduction

SR은 최근 Deep Learning 기반의 방법을 사용하며 좋은 성능을 보였다.

외부 데이터로 부터 철저하게 훈련된 매우 깊고 잘 짜여진 CNN을 통해 성능 향상을 이루었지만, 지도학습 방법은 훈련 데이터와 같은 데이터에서는 좋은 성능을 보이지만, 다른 경우에는 좋지 않다는 단점이 있다.

예를들어 SR CNN은 주로 high quality natural images에서 특정한 downscaling kernel로 생성된 LR 이미지를 훈련에 사용한다.

  • Fig1 실제 LR 이미지를 다룰경우, 'non-ideal' 경우에 SotA SR의 성능이 좋지 않다.
  • Fig2 downscaling kernel이 non-ideal한 경우, aliasing effects을 포함하는 경우, sensor noise 혹은 compression artifacts를 포함하는 경우를 보여준다.

 

 

본 연구에서는 "Zero-Shot" SR(ZSSR)을 소개한다.

  • 사전에 학습된 이미지나 예시 없이 Deep Learning의 파워에만 의존한다.
  • 단일 이미지에서 internal recurrence of information을 사용해, test time에 small image-specific CNN을 훈련한다. 즉, LR 입력 이미지만을 사용해 훈련데이터가 추출된다.(internal self-supervision)
  • CNN은 이미지 별로 다른 setting에 적용된다.
  • SR이 이미지 획득 과정이 불분명한 실제 이미지에서도 잘 되도록 한다.

단일 이미지에서 recurrence of small pieces of information은 natural 이미지에서 매우 강력한 특성을 가진다.

  • 이것은 unsupervised SR, Blind-SR, Blind-Deblurring, Blind-Dehazing 등의 비지도적 영상 개선 방법의 기초가 된다.
  • 비지도방법은 image-specific information을 이용할 수 있지만, 주로 KNN 탐색을 활용해 small image patches의 유클리디안 유사성에 의존한다.
  • 즉, LR 이미지안에 존재하지 않는 patches나 새로운 암묵적으로 학습된 유사성 측정에 일반회될수 없고, 이미지 내부의 non-uniform한 크기의 반복 구조에도 적응할 수 없다.

image-specific CNN은 patch-based 방법에 제한되지 않고, cross-scale internal recurrence of image-specific information을 활용한다.

ZSSR의 기여는 다음과 같다.

  • ZSSR은 첫번째 CNN 기반의 비지도 SR 방법이다.
  • non-ideal 이미지도 다룰수 있고, 다양한 데이터 타입의 이미지에도 적용할 수 있다(처음 본 이미지 일지라도).
  • Pretraining이 필요없고, 컴퓨팅 자원이 적당한 환경에서 실행이 가능하다.
  • 이론적으로 어떠한 크기에서도 SR 적용이 가능하다.
  • 불분명한 이미지에도 적용할 수 있다.
  • 'non-ideal' 조건으로 획득한 이미지에 대해 SOTA SR결과를 보여주며, 'ideal' 조건에서도 기존의 SOTA 방법들과 비슷한 결과를 보여준다.

 

2. The Power of Internal Image Statistics

근본적인 연구 방법의 접근법은 natural 이미지가 strong internal data repetition을 가지는것이다.

  • 예를들어 scale이 같거나 다른 단일 이미지에서의 5X5, 7X7의 작은 이미지의 부분들은 반복적인 패턴을 보인다.

 

Fig3은 Internal patch recurrence 기반의 simple single-image SR이다.

External entropy 보다 Internal entopy가 훨씩 더 나은것을 보여준다.

 

3. Image-Specific CNN

Image-specific CNN은 predicitive power와 internal image-specific information의 low entropy를 딥러닝의 일반화 능력과 결합한다.

  • 학습시킨 external examples가 없을 때 주어진 test image I 에 대해, Image-Specific CNN이 잘 해결해 SR 문제를 잘 풀도록 만들었다.
  • test image에서 추출된 example을 활용해 CNN을 훈련한다.
  • 이러한 example은 LR 이미지를 dwonscaling해서 얻어지고, 스스로 저해상도 버전을 생성한다.
  • 상대적으로 가벼운 CNN을 사용해 test image I 를 저해상도 버전으로 재구성해 학습한다.
  • 그리고 나서, 학습된 CNN을 test image I 에 적용해, I 를 LR 입력으로 활용, 출력 HR을 나타낸다.
  • CNN은 fully convolutional이여서 다양한 크기의 이미지에 적용이 가능하다.

"training set"이 하나의 instance로 구성되어있어, LR-HR example을 더 추출하기 위해 I 에 데이터 증강을 한다.

훈련셋 예제를 8배 더 증가시키기 위해 훈련셋을 변형 하거나 4가지 각도(0, 90, 180, 270)으로 회전, 수평 수직 회전 등을 한다.

Robustness를 위해 large SR scale factors s 를 매우 작은 LR 이미지에 적용 했고, SR이 점진적으로 수행했다.

  • 몇개의 중간자 scale-factor(s1, s2, s3, ... , sm = s)에 적용된다.
  • 각 중간 크기의 si(점진적으로 학습되는 downscaled/rotated 버전) 에서, SR 이미지 HRi를 생성한다.
  • 이전의 smaller HR example들을 새로운 LR-HR 훈련셋을 생성하기 위해 next gradual scale factor si+1로 downscale 한다.
  • 이것을 원하는 해상도 s까지 반복한다.

3.1 Architecture & Optimization

외부로 부터 모아진 크고 다양한 LR-HR 이미지 예제로 학습되는 Supervised CNN은 크고 다양한 LR-HR 관계의 weights를 학습해야한다.

이러한 네트워크는 매우 deep하고 복잡하지만, 단일 이미지의 LR-HR의 다양한 관계는 상당히 작기 때문에, 훨씬 작고 간단한 image-specific 네트워크에 의해 인코딩 될 수 있다.

본 연구에서는 8개의 히든 layer와 64개의 channel을 가진 간단한 fully convolutional network를 사용한다.

  • ReLU 활성화 함수, L1 loss, Adam 최적화 함수 사용하고, 학습률은 0.001로 시작해 10^-6으로 끝난다. 입력은 출력크기고 interpolated(보간) 된다.
  • 학습률은 주기적으로 재구성 error의 linear fit를 계산하고, 만약 표준편차가 linear fit의 기울기보다 클 경우 10으로 나눈다.
  • 이전의 CNN 기반의 SR 방법과 같이, interpolated된 LR과 HR parent간의 잔차를 학습한다.
  • 제한된 receptive field에도 불구하고, ZSSR은 test image 내부의 non-local recurrence of information을 캡처할 수 있다.
  • 예를 들어 ZSSR이 그림 3의 LR 이미지에 적용되면, 비록 receptive field에 다른 handrail이 나타나지 않더라도, CNN은 LR test image의 handrail을 lower-res version으로 부터 복구하도록 훈련한다.
  • CNN이 test image를 스스로 복구 시킬때, 동일한 image-specific 필터를 사용하기 때문에 다른곳에서도 새로운 handrail을 복구할 수 있다.

학습단계를 가속화하고, test image 의 크기에 따른 runtime을 독립적으로 하기 위해 각 반복동안 랜던하게 선택된 father-son(HR supervision called HR fatehr, HR father downscaled called LR son) example pair로 부터 random crop of fixed size를 얻는다.

  • crop은 보통 128X128(샘플링된 이미지 페어가 더 작지 않은 경우) 이다.
  • 각 훈련 반복에서 샘플링된 LR-HR example pair의 확률은 non-uniform하고 HR-father의 크기에 비례한다.
  • HR-father와 test image I 의 크기 비율이 1에 가까울수록, sampling 될 확률이 증가한다.
  • 이것으로 합성보다 비합성 HR example이 높은 신뢰도를 반영한다.

마지막으로 geometric self-ensemble과 비슷한 방법을 사용한다. (test image I 의 8번 rotations+flips에 대해 8개의 서로 다른 출력을 생성하고 이를 결합)

  • 8개의 출력의 평균값을 사용하지 않고 중앙값을 사용하고, 게다가 이것을 back-projection(투영된 신호를 다시 반사시켜 복원하는 일련의 과정) 기술과 결합한다.
  • 각각의 8개의 출력 영상이 여러번의 back-projection을 거치고 최종적으로 중앙값 영상도 back-projection으로 보정된다.

3.2 Adapting to the Test Image

좋은 결과를 얻기 위해서는 각각 다른 degradation/settings에서 훈련된 specialized SR네트워크가 필요하다.

  • HR로 부터 얻어진 LR 이미지의 acquisition parameters가 모든 이미지로 부터(downscale kernel이 같은, high-quality imaging conditions) fixed 되어 있따면, 지금의 supervised SR 방법은 좋은 성능을 보일수 있다.
  • 하지만 실제로는 카메라와 센서가 다르고, 이미지를 모으는 조건이 다르기 때문에 획득 과정이 이미지 마다 다를수 있어 다른 downscaling kernel, 다른 noise characteristics, 다양한 compression artifact 등의 결과를 가진다.
  • 따라서, 모든 이미지의 배열과 setting을 고려하여 획득하고 훈련하는것은 실무적으로 불가능할 것이다.
  • 게다가 single supervised CNN은 모든 degradation/settings에서 잘 작동하기 힘들다.

이러한 환경에서는 image-specific 네트워크의 이점이 있을 수 있다.

  • test time에서 test image의 specific degradation/settings에 직접 맞춰진다.
  • 네트워크는 사용자로 부터 test time 시 다음과 같은 parameters를 받을 수 있다.
  • downscaling kernel(default dicubic kernel), SR scale-factor, 점진적인 scale 증가 횟수(default 6), LR과 HR 사이에 back-projection을 사용할지에 대한 여부(default yes), test image로 부터 추출된 LR-HR example pair의 LR son에 noise를 추가할지에 대한 여부(default no)

 

4. Experiments& Results

GPU : 2배 SR 할때 Tesla V100(9sec), K-80(54sec)

Data : BSD100

 

4.1 The 'Ideal' Case

  • Ideal case 는 ZSSR의 주 목적이 아니지만 SR benchmarks 데이터를 사용해 Ideal LR image에서도 테스트를 했다.
  • benchmarks는 HR version으로 부터 bicubic kernel downsampling을 한 LR image 이다.
  • Table 1 은 ZSSR이 다른 Supervised SR과 비교해도 좋은 성능을 달성한것을 보여준다.
  • 심지어 SRCNN 보다 ZSSR의 성능이 더 좋고, 몇몇의 경우에는 VDSR보다 좋은 성능을 보인다.
  • Unsupervised에서는 ZSSR이 이전 방법인 SelfExSR보다 좋은 성능을 보인다.
  • 게다가 very strong internal repetitive structures에서는 ZSSR이 VDSR과 (때때로)EDSR+보다 더 좋은 성능을 보인다.

 

4.2 'Non-ideal' Case

  • 실제 LR 이미지는 이상적으로 생성되지 않는 경향이 있다.
  • 본 연구에서는 non-ideal을 실험하기 위해 (1) non-ideal downscaling kernel(bicubic가 아닌), (2) 저화질의 LR 이미지(noise 가 있는), 두가지 방법으로 실험했다.
  • ZSSR은 다른 방법에 비해 1~2dB 더 좋은 성능을 보였다.

(A) Non-ideal downscaling kernels

  • 더 현실적인 blur kernels에 대해 테스트하는것이 목적이다.
  • BSD100 데이터로 부터 HR 이미지에 랜덤하게(적당한 크기의) 가우시안 kernel을 적용해 새로운 데이터를 만들었다.
  • 랜덤한 각과 길이에 대해 다음 식을 따른다.

  • 즉, 각 LR 이미지는 다른 랜덤 kernel에 의해 subsample 되었다.
  • Table 2에서는 이전에 좋은 성능을 보인 supervised SR 방법들과 unsupervised Blind-SR 방법의 성능을 비교한다.
  • 본 연구에서는 2가지 case에 대한 ZSSR도 고려한다. (1) unknown downscaling kernel의 더 현실적인 시나리오, (2) LR 이미지를 생성하는데 사용된 downscaling kernel과 함께 ZSSR에 적용
  • ZSSR이 다른 방법들보다 더 좋은 성능을 보인다.

 

(B) Poor-quality LR images

  • 다른 종류의 quality degradation에 대해 이미지를 실험했다.
  • ZSSR이 robustness 하게 unkown damage를 다루는지를 실험하기 위해 BSD100의 각 이미지를 선택해 랜덤한 종류의 이미지 저하를 적용했다. (1) Gaussian noise, (2) Speckle noise, (3) JPEG compression
  • Table 3는 ZSSR이 robust하고 supervised SR 방법은 bicubic 보간법 보다 성능이 좋지 않다.

 

Comparison to SRGAN

  • SRGAN 또한 ideal case로 훈련되었다.
  • SRGAN은 시각정보를 환각시키는 경향이 있어 ZSSR더 낮은 성능을 보이고(Table 1), non-ideal 에서는 매우 나쁜 성능을 보인다.

 

5. Conclusion

  • "Zero-Shot" SR의 컨셉, 외부의 예제나 사전 학습에 의존하지 않고 딥러닝을 힘으로 훈련되는, 을 소개했다.
  • Test time에서 오직 LR test 이미지로 부터 획득된 내부 예제에 기반하여 훈련된 작은 image-specific CNN을 통해 얻을수 있다.
  • non-ideal, unknown, 그리고 이미지별 획득 방법이 다른 과정을 통해 얻어진 real-world 이미지 SR을 수행한다.
  • ZSSR은 real-world 'non-ideal'에서 SotA를 달성하고, 최초의 unsupervised CNN-based SR 방법이다.

 

https://openaccess.thecvf.com/content_cvpr_2018/papers/Shocher_Zero-Shot_Super-Resolution_Using_CVPR_2018_paper.pdf   ZSSR paper

Comments