머신러닝 2

[AI-14] 근접 영역 속에서 나를 찾도록 : k-Nearest Neighbors

k-NN 알고리즘(k-Nearest Neighbors)은 레이블이 지정되어 분류된 기존의 데이터 분포에 새로운 데이터를 배치시키면서 임의의 k값을 기준으로 근처에 위치한 데이터들이 갖는 레이블로 데이터를 분류하는 분류 방법이다. 일단은 레이블 개념이 등장하는 것부터 알 수 있듯이, 기본적으로 지도학습(Supervised Learning)에 속한다.그런데 분류하는 방법은 위에서 설명한 바와 같이 비지도학습인 군집분석(clustering)과 유사한 방식을 취한다. 즉 특별히 어떤 학습을 거치지 않고 마치 군집화하듯이 데이터 간의 거리를 계산해 그 분포로 데이터를 파악하는데, 이러한 접근이 '비지도학습적'으로 느껴질 수 있어 비지도학습으로 분류하거나 준지도학습(Semi-supervised)으로 따로 보려는 접..

[AI-08] 진흙 속에서 진주 찾기 : KDD

데이터는 일반적으로는 거의 맹목적일 정도로 가치 있는 재화처럼 여겨지지만 사실 의미가 부여될 수 없다면 그 자체로서는 객관적인 현상적 지표에 불과하다. 다만 당장은 가치가 없어보여도 데이터의 특성 상 어떤 것이 가치를 가지게 될 지 모르기 때문에 잠재적인 가치를 보는 것인데, 실제로는 데이터의 군집(Cluster), 상관관계(Correlation), 분류(Classification) 등을 통해 의미를 찾는 것이 중요하다. 이는 마치 흙 속에서 보물을 찾는 것과 비슷하며, 비유적으로 채굴(Mining)이라고 부른다. 우리가 흔하게 말하는 데이터 마이닝(Data Mining)이 그것이다. 그 중에서도 가장 전통적인 방법이 데이터 속에서 지식 찾기(KDD; Knowledge Discovery in Databa..

728x90
반응형