딥러닝 분석가 가리

Topology-Guided Multi-Class Cell Context Generation for Digital Pathology Review 본문

카테고리 없음

Topology-Guided Multi-Class Cell Context Generation for Digital Pathology Review

AI가리 2023. 7. 12. 21:19

"Topology-Guided Multi-Class Cell Context Generation
for Digital Pathology"

 

Abstract

  디지털 병리학에서 세포의 공간적 맥락은 암 진단이나 예후를 진단하는 cell classification에서 중요하다. 하지만, 이렇게 복잡한 세포 맥락을 모델링 하는것은 어렵다. 세포은 서로 다른 혼합물, 계통, 군집 및 홀을 형성한다. 이러한 구조적 패턴을 학습 가능한 방식으로 모델링 하기 위해 공간 통계 및 위상 데이터 문석에서 몇가지 수학적 도구를 소개한다. 그러한 구조적 설명자를 조건부 입력과 차별화 가능한 손실 모두와 같은 딥 생성 모델에 통합한다. 이러한 방식으로, 처음으로 고품질의 multi-class cell layout을 생성할 수 있다. Topology가 풍부한 cell layout을 데이터 증강에 사용하고 cell 분류와 같은 downstream 작업의 성능을 향상시킬수 있음을 보여준다.

Introduction

  딥러닝은 디지털 병리학의 학습 능력을 향상시켰다. 딥러닝 기반의 방법은 cell detection and classification, nuclei instance segmentation, survival prediction and patient outcome, interpretation of multiplex immunohistochemistry 그리고 immunofluorescence imagery 등과 같은 다양한 분야에서 성능을 향상 시켰다. 최근 급격한 발전에도 불구하고, 병리 영상 분석은 제한된 관찰 때문에 여전히 어렵다. 수많은 생물학적 요인에 의해 구동되는 고도로 이질적이고 복잡한 종양 microenvironment에 비해 사용가능한 annotated 영상은 여전히 부족하다. 훈련 데이터의 제한은 학습 알고리즘의 예측 능력을 제한한다. 이것을 해결하기 위한 해결법은 현실적인 병리 영상을 생성해 기존 데이터를 증강하는 생성 모델을 훈련하는 것이다. 

  병리 영상을 생성하는 것은 두가지 단계로 나뉜다. 1) generating spatial layout of cells 2) filling in stains and textures inside and outside cell nuclei masks. 대부분의 존재하는 방법들은 2)에만 초점을 둔다. 이런 방법들은 무작위로 세포 위치를 생성하거나 기존 영상에서 핵 mask를 직접 복사한다. 이러한 방법은 암 생물학에 대한 중요한 정보를 전달하는 풍부한 세포 공간 맥락을 배울 수 있는 기회를 놓친다. Spatial context는 서로 다른 유형의 종양, 림프구 등 세포가 서로 주변에 분포하는 방법뿐만 아니라 cluster, hole lineage와 같은 다른 구조적 패턴의 형태도 포함한다. 암 진단에서 spatial context가 중요하다는것은 증명되었다.

  세포 spatial context의 생물학적 중요성을 고려할 때, 세포 구성을 모델링하고 생성할 수 있는 것이 다양한 downstream 작업에 도움이 될 것이라고 가정한다. 복잡한 세포 spatial context를 모델링 하기 위한 주요 challenge는 세포의 유형과 좌표에 의존하는 정보를 제한한다. 이는 기본 분포를 학습하는 강력한 딥 러닝 방법에게도 어렵게 만든다. Spatial context를 더 잘 모델링 하려면, 원칙적인 mathematical machinery가 딥 러닝 프레임워크에 통합되어야 한다고 주장한다. 공식적으로, 공간적 통계로 부터 고전적인 K-함수 뿐만 아니라 multi-class cell과 그들의 구조적 패턴의 공간적 분포를 모델링 하기 위해 지속적인 상동성 이론을 도입한다. 이러한 수학적 constructs는 임상결과와 상관관계가 있다. 하지만, 병리 영상 생성에 사용된 적은 없다.

  저자는 이러한 spatial topological 설명자를 deep generative model에 통합한다. 생성 모델은 입력으로 병리 영상을 받고 유사한 spatial과 topological 특성을 가진 새로운 cell layout을 생성한다. Spatial characcteristics를 개선하기 위해 새로운 cell configuration loss를 제안한다. 이는 임상결과와 입력된 세포의 공간적 배열의 공간적 통계에 기반한다. Loss는 생성된것과 참조 cell configuration을 비교하고 지속성 다이어그램 이라고 하는 위상 측정 관점에서 위상을 일치시킨다. Loss는 생성된 cell 구성의 hole이 참조 cell 구성의 hole과 일대일로 일치하도록 한다. 즉, 유사한 모양과 밀도를 가지게 한다.

  지속성 다이어그램을 통한 직접적인 위상 매칭은 세포 유형 구성에 구애받지 않는다. 이것은 바람직하지 않다; Tumor cell hole과 stromal cell hole을 일치시키고 싶지 않다. 이것의 해결법으로 spatial statistics 측정, cross K-function을 loss에 통합한다. 이렇게 하면 서로 다른 종류의 cell로 구성된 hole들이 적절하게 매칭된다. 생성된 cell spatial configuration을 사용하여 nuclei mask, 염색 및 질감을 생성한다. 그림 1은 생성 pipeline을 묘사한것이고, 그림 2는 생성된 cell layout의 예시이다. 생성된 cell layout은 reference와 input 영상의 공간적 구조적 특징과 매우 유사하다.

Contribution

  • 병리 영상으로 부터 cell spatial context를 학습하는 생성 모델을 처음으로 제안
  • 공간적 통계와 위상에 기반한 multi-class spatial context 설명자를 도입, 이 설명자는 생성자의 조건부 입력으로 사용
  • 공간적 분포와 위상을 개선시키기 위해 새로운 cell configuration loss function을 제안, 손실함수는 생성된 cell layout의 hole과 참조 cell layout의 홀을 매칭
  • 생성된 layout이 데이터 증강을 위한 H&E image 생성에 사용될 수 있음을 보임

Method

  Cell layout, 이미지 도메인에 분산된 multi-class cell sets가 제공된다고 가정한다. 이러한 cell의 공간적 배열은 그들의 구조적 조직 뿐만 아니라, 다른 cell class간의 공간적 분포를 포함하고 있다. Reference layout이 주어지면, 제안된 방법은 비슷한 배열을 가진 multi-class cell layout을 생성한다. 생선된 layout은 데이터 증강을 포함한 다른 목적으로 사용되어질 수 있다. 제안된 모델은 입력으로 reference layout 뿐만 아니라, reference layout으로 부터 모아진 공간적 설명자의 집합을 받는다. 게다가, 생성자의 훈련을 위해 생성된 layout과 reference layout간의 위상적 특징을 매칭하는 loss function을 제안한다. Loss를 최소화 하는것으로 생성된 layout이 reference layout과 유사한 구조적 패턴을 갖는것을 보장한다.

Cell Configuration Descriptors

  Configuration descriptors는 1) reference cell layout의 cluster나 hole 같은 구조적인 패턴이나 2) 다른 유형의 cell 들이 어떻게 분포되어지는 지를 catpure 할 수 있다. 이러한 구조와 multi-class 분포는 조직학적 이미지를 검사할 수 있다. 저자는 이렇나 정보를 cross K-function 특징과 강화된 persistence diagram 특징을 두가지 설명자로 공식화 한다.

  Spatial statistics features: cross K-functions of cells. 다른 class의 cell간의 tumor cell 주위에 lymphocytes이 얼마나 가까운지 등의 상대적인 분포를 특성화 한다. 고전적인 spatial statistics인 cross K-function을 사용한다. 그림 4를 보면, source class와 target class 두개의 cell class가 주어지면 cross K-function은 source class cell의 서로 다른 반경 내에서 인접한 대상 class cell의 예상 개수를 측정한다. 이것을 수식으로 나타내면 아래와 같다. 

식 1

C_s, C_t는 각 source cell, target cell을 의미하고 A는 normalization이다. Cross K-function은 각 class의 각 pair를 계산한다. Source와 target이 같은 class를 나타낼때 K-function은 특정 class의 군집화된 정도를 측정한다. 실제로, 유한한 반지름 집합에서 샘플링하여 K-function을 벡터화 한다. K-function은 이전에 cell classification에 사용되었지만, cell configuration characterization과 cell layout generation에는 사용되지 않았다. 또한, 저자는 location-specific K-function을 사용한다. 이는 다음 식과 같다.

  Topological features: enriched cell persistence diagrams. 위상적인 feature 특성 차이와 cell layout의 hole 분포를 제안한다. 이런 위상적 구조는 cell layout의 고유한 구조적 특성화를 제공한다. 저자는 다양한 scale의 holes와 gap을 capture하는 persistent homology 이론을 사용한다. 세포 배열의 특성에 적응하기 위해 공간적 분포의 정보를 가진 persistent homology의 출력을 풍부하게 할 것은 제안한다. 이것으로 위상 구조가 더 잘 특징지어 진다. 

  Cell layout의 특성의 context를 포함한 persistent homology에 대해서 소개한다. Holes이 있는 cell layout C가 주어지면, cell로 부터 거리 변환을 먼저 계산한다. 이는 그림 3과 같다.

Holes는 본질적으로 거리 변환의 두드러진 local 최대치에 해당한다. 이런 두드러진 holes를 capture하기 위해, 이미지 도메인의 임계값을 설정한다. 임계값이 증가할때, 임계값 영역은 전체 이미지 도메인에서 빈 영역이 커진다. 기본적으로 반경 t가 증가하는 모든 cell을 중심으로 disk가 성장하는 과정을 시뮬레이션 한다. 이 과정을 통해 서로 다른 hole이 생기고, 결국에는 밀폐된다. Persistent homology는 모든 hole을 capture하고 그들의 정보를 persistence diagram 이라고 불리는 2D points set에 인코딩한다. Cell layout의 각 hole은 diagram내의 2D point에 해당되며, 이 점의 좌표는 hole의 태어난 시간과 죽은 시간(임계값) 이다. 긴 수명을 가진 holes은 더 두드러지게 여겨진다. Filtration과 persistence diagram에 대한 설명은 그림 3을 참조한다. 1D topology인 holes에만 초점을 맞춘다. Clusters of cells은 0D topology로 묘사된다. Spatial statistics feature가 cell cluster 구조를 암시적으로 특성화하기 때문에 0D topology가 필요하다고 생각하지 않는다. 

  Persistent homology는 cell layout에서 가능한 모든 holes을 capture 하지만, persistence diagram만으로는 hole을 자세히 설명하지 않는다. 직관적으로, diagram 안의 point의 출생 및 사망 시간은 경계와 hole의 크기에 따라 compactness을 측정할 뿐이다. 밀도와 공간 통계에 관한 추가 정보로 diagram을 풍부하게 만드는것을 제안한다. 특히, 각 hole에, 거리 변환의 해당 local 최대값에 초점을 맞춘다. Local 최대값은 hole이 사라지는 위치이고, 이것의 function value는 hole의 죽는 시간이다. 그것은 대략 hole의 중심을 나타낸다. Local 최대값에 대한 위치별 K-function(식 2)을 계산한다. 이것은 본질적으로 hole을 둘러싼 cell class 구성을 특징으로 한다. 또한, local 최대치, 즉 서로 다른 대역폭으로 추정된 cell kernel 밀도 함수에서 multi-scale cell 밀도 함수를 계산한다. 그림 5에서 보여진 바와 같이, 이러한 multi-scale 밀도 함수는 hole에 대한 상이한 scale에서의 cell 분포를 특징으로 한다.

Deep Cell Layout Generator

  Deep cell layout generator은 그림 6과 같다. Reference cell layout으로 부터 persistence diagram과 spatial statistics를 포함한 spatial 설명자를 추출한다. 서로 다른 cell class에 대해 서로 다른 diagram을 개별적으로 계산한다. 이러한 diagram을 모두 사용되었다. Genreator는 벡터화된 spatial descriptors와 style noise를 가져와서 생성된 layout의 점 좌표를 출력한다. Persistence diagram을 벡터화 하기 위해 지속성 범위 값의 사전 정의된 bucket이 있는 히스토그램으로 변환한다. 이렇게 하면 여러 점 집합에 걸친 persistence diagram 크기의 변동을 처리할 수 있다. 큰 1D topological feature은 작은 것에 비해 일반적으로 주파수가 작기 때문에, tail effect를 설명하기 위해 히스토그램의 log를 사용한다. Generator backbone model은 SP-GAN을 수정한 모델이다. 

Comments