데이터불균형 썸네일형 리스트형 [Imbalance Data] 불균형데이터를 극복하고 모델을 학습하는 방법 real world의 데이터를 분석하고 모델링을 하다보면, 가장 흔하게 발생하는 문제중 하나가 바로 'Imbalance Dataset'이다. 머신러닝 모델이 적절하게 학습하기 위해서는, 학습데이터가 예측하고자 하는 목적과 카테고리에 부합한 데이터가 균형있게 분포해야하고, 또 학습하기에 충분한 양을 가져야한다. 하지만 real world데이터에서는 불균형한 데이터의 사례가 매우 많다. 대표적으로 '이상거래 탐지(Fraud Detection)'를 예로들 수 있다. 횡령이나, 보이스피싱으로 발생하는 이상거래는 전체 거래중 0.1%도 되지않아, 대표적인 데이터불균형 사례로 꼽힌다. 이런 과제의 경우, 모델을 개발하고 정확도를 높이기 이전에, 불균형 데이터를 어떻게 처리할 것인지가 관건이 된다. 오늘은 이러한 불.. 더보기 이전 1 다음