본문 바로가기
머신러닝(ML)

군집(Clustering) VS 분류(Classification) 차이점??

by KwonSoonBin 2021. 10. 23.

공부한 내용을 정리하다가 궁금한 점이 생겼다. 군집과 분류의 차이점은 무엇일까?
얼핏 보기에는 대상을 구분하여 나눈다는 점에서 둘 다 비슷해 보인다.

 

1. 군집(Clustering)

군집분석은 비지도 학습의 방법으로 군집의 수, 속성 등 label이 사전에 설정되어있지 않을 때 사용하는 분석 방법이다.

군집분석이란 데이터 간의 유사도를 정의하고 그 유사도에 가까운 것부터 순서대로 합쳐가는 방법을 말한다.

 

ex) 3명(할머니, 20대 남자, 20대 여자) 이 있을 경우 

성별에 따른 분류 -> 할머니, 20대 여성 / 20대 남성

나이에 따른 분류 -> 20대 여성, 20대 남성 / 할머니

키에 따른 분류, 인상착의에 따른 분류 등등 다양한 label에 따라 군집화가 가능하다.

 

이처럼 군집은 label(category)이 없기 때문에 순수 데이터상의 특징으로 유사도를 정의하여 그룹을 만든다.

 

2. 분류(Classification)

분류는 군집과 다르게 지도 학습의 한 방법으로 label이 사전에 정의되어 있을 때 사용하는 분석 방법이다.

기존에 존재하는 데이터의 category관계를 파악하고, 새롭게 관측된 데이터의 category를 스스로 판별하는 과정이다.
다시말해 미리 labeling 된 데이터를 가지고 새로운 데이터를 분류하는 것이다.

 

정리

간단히 말하면 군집과 분류의 가장 큰 차이점은 label 의 유무이다.

군집의 정보를 모를 때 데이터 자체의 특성에 대해 알고자 하는 목적으로 하는 것이고,

분류는 label이 있을 때 새로운 데이터의 그룹을 예측하기 위한 목적으로 하는 분석기법이다.

 

 

 



참고: https://leedakyeong.tistory.com/entry/군집과-분류의-차이-difference-of-clustering-and-classification [슈퍼짱짱]

댓글