[머신러닝] K-최근접 이웃 (K-Nearest Neighbor)

티스토리 뷰

머신러닝

Gom Guard 2017. 11. 28. 19:20

최근접 이웃법은 한마디로 유유상종 이라고 할 수 있습니다. 새로운 데이터를 입력 받았을 때 가장 가까이 있는 것이 무엇이냐를 중심으로 새로운 데이터의 종류를 정해주는 알고리즘 입니다. 그림으로 살펴보겠습니다.
저 물음표에는 세모와 동그라미 중에 어떤게 들어갈까요?
최근접 이웃 알고리즘은 "?" 의 주변에 있는 것이 세모이기 때문에 세모라고 판단하는 알고리즘 입니다. 매우 간단하고 직관적인 알고리즘 입니다.

하지만 단순히 가장 가까이에 있는 것과 같게 선택하는 것이 옳은 분류가 될까요? 다음 경우를 살펴보겠습니다.
'?' 에서 가장 가까운 것은 파란 동그라미 입니다. 하지만 조금만 더 넓혀서 본다면 뭔가 부적절하다는 것이 느껴집니다.
이렇기 때문에 단순히 주변에 무엇이 가장 가까이 있는가를 보는 것이 아니라 주변에 있는 몇개의 것들을 같이 봐서 가장 많은 것을 골라내는 방식을 사용하게 됩니다. 이 방식을 KNN 이라고 부릅니다. KNN 에서 K 는 주변의 개수를 의미합니다.
K 가 1일때는 '?' 를 파란 동그라미라고 판단하겠지만 K 를 4로 변경한다면 빨간 세모라고 판단할 것입니다.
하지만 문제가 하나 있습니다. 과연 K 는 몇이어야 좋은 것일까. 최선의 k값을 선택하는 것은 데이터마다 다르게 접근해야합니다. 일반적으로 k 값이 커질수록 분류에서 이상치의 영향이 줄어들지만 분류자체를 못하게 되는 상황이 발생합니다. 일반적으로는 총데이터의 제곱근값을 사용하고 있으며 최적의 k 값을 찾기 위한 연구는 아직도 진행중입니다.

아래의 사진은 음식을 당도와 아삭함으로 구분한 예제 입니다.
토마토는 6,4 의 데이터를 가지고 있습니다. 과일, 단백질, 채소 중에 어떤 부분에 분류될까요?
다음 테이블은 토마토의 예측 결과표 입니다. k 의 값의 변화에 따라 예측이 달라지는 것을 알 수 있습니다.
사실 토마토는 채소인데 당도와 아삭함으로 구별해보았을 때는 과일이나 단백질로 주로 나오는 걸 알 수 있습니다. 보통 사람들이 처음에 토마토가 채소라는 것을 알고 놀라는 것을 보면 적절하게 분류했다고 할 수도 있을까요?

두번째 예제는 암진단 데이터 입니다. 데이터는 이곳 에서 받으시거나 확인하실 수 있습니다. 이 데이터는 32개의 컬럼을 가지고 있습니다. 그중 첫번째는 ID 이기 때문에 제외하고 두번째는 종속변수인 것을 고려하면 30개의 독립변수가 있는 것입니다. 첫번째 예제처럼 독립변수가 2개 정도라면 사람이 손으로도 구할 수 있으며 그래프를 그렸을 경우에는 더욱 직관적으로 이해할 수 있습니다. 하지만 이와 같이 컬럼이 30개가 된다면 머리로 계산해내는 것은 쉽지 않습니다.
총 569 개의 세포 정보가 입력 되어 있는데, 이 한정된 자료로 효과적인 모델을 만들어야 합니다. 추가 자료가 있다면 569개의 정보를 모두 모델 생성과정에 사용할 수 있겠지만 자료가 없다면 이 자료를 TRAIN 데이터와 TEST 데이터로 나누어 사용해야 보다 일반적인 모델을 만들 수 있습니다. 다시 말하지만 우리의 목적은 "레이블이 없는 데이터를 예측하는 것" 입니다.
1번부터 469번까지를 TRAIN 데이터로, 나머지 데이터를 TEST 데이터로 구성 한 뒤 KNN 알고리즘을 이용해서 분석해보았습니다.

따라서 96개는 제대로 분류 했고 4개는 잘못 분류 했기 때문에 정확도 96%의 모델이라고 말할 수 있습니다.
이번 예제의 경우에는 정확도가 높게 나왔지만 낮게 나왔을 경우 높이는 여러 방법들이 있습니다. Z - 점수 표준화 방법, 데이터 셔플 등 여러 기술을 통해 정확도를 높이는 방법들이 있습니다.

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함