본문 바로가기

DEVELOP_NOTE/ML

[차원축소]차원축소 모델 비교분석_의료

0) 의료데이터에서 기존 PCA와 같은 차원 축소 모델을 사용하지 않는 이유

  • PCA(주성분 분석)의 경우 선형 차원축소 방식으로, 의료 데이터와 같이 데이터가 교차되며 비선형 구조를 가지는 데이터의 차원을 축소하기에 적합하지 않음.
  • 이에, * 역 그래프 임베딩을 기반으로 한 기본 그래프 구조의 로컬 정보를 캡쳐하는 아래와 같은 모델이 주로 사용됨
    •  * 역 그래프 임베딩 : 기본 그래프 로컬 정보 구조(한마디로, 본래의 형태..?) 를 캡처하는 기법(모델)

 

1) DDRTree

구분 Desc
정의 고차원 공간의 데이터 포인트를 저차원의
장점
  • 고차원 데이터를 저차원 공간으로 축소하는 차원 축소 기능 제공
  •  그래프 임베딩을 통해 고유 그래프의 구조를 학습하여 명확한 그래프 구조 복구 가능
  • PCA, ICA, Isomap, LLE 기타 차원 축소 알고리즘보다 고차원의 고유구조에 대한 명시적인 복구가 가능.
  • 클러스터링 기능을 함께 제공하는 특징
단점
  • 10만개의 셀을 초과하는 데이터를 처리할 경우 속도가 매우 느림.
Parameter
  • dim = 축소할 차원
  • maxIter = 학습 횟수
  • sigma = 데이터간의 차이를 얼마나 민감하게 받아들일지에 대한 파라미터로 보임(클수록 민감)
    • 데이터간의 차이를 민감하게 받아들여서, 각 좌표간의 차이를 크게 반영하면(파마리터크게)각 포인트 사이의 거리가 멀어짐.
    • 데이터가 클수록 값도 커져야 함,
  • ncenter = 크게쓸수록 학습속도가 빨라지는걸봐서,,,weight의 값을 크게 가져가서 빨리 수렴하는것이 아닐까..
구현결과
+) SimplePPT

 

 

2) UMAP

구분 Desc
논문 UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction
github https://github.com/lmcinnes/umap (CPU, scikit-learn, Tensorflow 기반, 다만 매우빠르다고함 → 아직 미확인)
  • fashion MNIST (70000x784) 데이터에 대해 1분이내 embedding 생성했다고함
정의
  1. UMAP
    1. topological data분석으로 아이디어와 manifold learning 기술을 기반으로 한 차원축소 알고리즘
      1. topological data analysis
        1. 위상기반 데이터분석을 통한 접근방식으로 metric에 둔감하고 노이즈에 대한 차원감소 및 견고성을 제공하는 방식으로 동작하는 분석 방식
      2. manifold learning
        1. PCA와 같은 선형 프레임워크를 비선형 구조에 민감하도록 일반화 하려는 시도를 통해 생성된 학습 기법
Manifold Learning이란 고차원데이터가 있을 때 고차원 데이터를 데이터 공간에 뿌리면 샘플들을 잘 아우르는 subpsace가 있을 것이라 가정에서 학습을 진행하는 방법. 이렇게 찾은 manifold는 데이터의 차원을 축소시킬 수 있다.
장점
  • 시각화 및 분석을 위한 여러 패키지를 함께 제공
  • 빠른 임베딩 속도
단점  
기타
  • 클러스터링 사용할 경우 hdbscan 과 잘 호환됨
구현결과
(+) SimplePPT

 

 

3) DDRTree vs UMAP 비교 테스트 결과

  • 조건
    • 스코틀랜드 당뇨데이터 sample 1000명 데이터로 비교
    • 구심점의 개수(parameter)는 10개로 동일하게 설정
  • 비교결과
    1. 속도
      1. UMAP(6.07s) >> DDRTree(19.39s)
    2. 표현형 시각화 비교 (UMAP > DDRTree)
      1. 스펙트럼에서 각 표현형을 시각화 했을때, DDRTree의 경우 표현형의 수치별 환자가 분산되어있으나, UMAP의 경우 비교적 밀집되어있음
    3. 당뇨여부 시각화 비교 (UMAP >> DDRTree)
      1. DDRTree에 비하여 UMAP이 스펙트럼의 특정구간에 당뇨환자를 확연히 밀집하여 표현하고 있음.

 

 

추가) SimplePPT → 차원축소모델과 함께 활용 (본래 차원의 그래프 구조 학습을 통해 도출한 주요 포인트를 이어 트리를 시각화..)

구분 Desc
논문 Ref . Mao et al. (2015), SimplePPT: A simple principal tree algorithm, SIAM International Conference on Data Mining.
  1. 내용
    1. 실험내용
      1. 유방암 및 암관련 표현형 데이터를 활용하여 Gap statistic, Polygonal line, SCMS와 같은 기타 방법론과의 성능 비교 진행
    2. 성과
      1. 차원축소 시 나선형을 비롯한 여러 형태로 표현되는 표현형 스펙트럼이 기타 알고리즘 대비 가장 분명하게 표현됨
      2. 매니폴드 학습의 직관을 반대로 하여 주요 그래프의 표현을 위한 역 그래프 임베딩을 정의. 새로운 표현은 기본 그래프의 길이로 해석될 수 있습니다. 우리는 주 그래프의 길이에 대한 풍부성 제약으로 완화된 양자화 오류를 최소화하여 새로운 주 그래프 모델을 제안합니다. 일반화 경계도 파생됩니다.
      3. 데이터로부터 그래프 구조를 학습하기 위해 principaltree 모델이 제시됩니다. 그런 다음 주요 포인트와 트리 구조를 동시에 학습하는 단순 알고리즘을 제안합니다. 이론적이고 실증적인 수렴분석이 제시된다.
      4. 다양한 합성 데이터 세트와 고차원 유방암 유전자 발현 데이터 세트에 대한 광범위한 실험이 수행됩니다. 실험 결과는 제안된 주요 트리 방법이 기준선보다 성능이 우수하고 주어진 데이터 세트의 기본 구조를 복구할 수 있음을 보여줍니다.

github https://github.com/LouisFaure/simpleppt (GPU를 통한 가속 가능)
정의
  1. SimplePPT
    1. 역 그래프 임베딩 방식을 통해 기존 구조를 캡쳐하는 기법의 트리 학습 모델
    2. 논문 내용
      1. 실험내용
        1. 유방암 및 암관련 표현형 데이터를 활용하여 Gap statistic, Polygonal line, SCMS와 같은 기타 방법론과의 성능 비교 진행
      2. 성과
        1. 차원축소 시 나선형을 비롯한 여러 형태로 표현되는 표현형 스펙트럼이 기타 알고리즘 대비 가장 분명하게 표현됨
        2. 매니폴드 학습의 직관을 반대로 하여 주요 그래프의 표현을 위한 역 그래프 임베딩을 정의. 새로운 표현은 기본 그래프의 길이로 해석될 수 있습니다. 우리는 주 그래프의 길이에 대한 풍부성 제약으로 완화된 양자화 오류를 최소화하여 새로운 주 그래프 모델을 제안합니다. 일반화 경계도 파생됩니다.
        3. 데이터로부터 그래프 구조를 학습하기 위해 principaltree 모델이 제시됩니다. 그런 다음 주요 포인트와 트리 구조를 동시에 학습하는 단순 알고리즘을 제안합니다. 이론적이고 실증적인 수렴분석이 제시된다.
        4. 다양한 합성 데이터 세트와 고차원 유방암 유전자 발현 데이터 세트에 대한 광범위한 실험이 수행됩니다. 실험 결과는 제안된 주요 트리 방법이 기준선보다 성능이 우수하고 주어진 데이터 세트의 기본 구조를 복구할 수 있음을 보여줍니다.
장점
  • GPU 사용 가능
  • DDRTree의 경우 cell이 10만개를 초과할 경우 비실용적으로 느려지는데 반해 비교적 빠르고 궤적을 해석하기 용이함.
  • 기타 알고리즘 대비, 2차원으로 표현 시 스펙트럼의 구조가 가장 분명하게 표현됨
단점