BAE(Certification)
1. 정형데이터 분석 - KNN(K-Nearest Neighbor)
K-NN 알고리즘은 해당 데이터와 가장 가까운 k개의 데이터들의 클래스로 분류하는 알고리즘이다. 보통 유클리드 거리, 맨하탄 거리, 민코우스키 거리 등을 사용하며, 기본적으로는 유클리드 거리를 사용한다. 근접 이웃 수는 k로 학습 난도와 훈련 데이터 개수에 따라 결정하며, 일반적으로 훈련 데이터 개수의 제곱근으로 설정한다. knn(train, test, cl, k) : cl - 훈련 데이터의 종속변수, k - 근접 이웃 수(기본 1) data = iris[, c("Sepal.Length", "Sepal.Width", "Species")] idx = sample(x=c("train", "valid", "test"), #학습, 검증, 테스트 데이터로 분할 size = nrow(data) replace = T..
2023. 5. 16. 15:07