728x90
회귀분석은 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정
lm(formula, data) : formula 종속변수 ~ 독립변수(다중 회귀인 경우, 여러개)
first_model = lm(Salary ~ AtBat + Hits + Walks + Cwalks + Division + PutOuts, data = hitters)
fit_model = step(first_model, direction = "backward") #후진소거법으로 모델에 적합한 변수선택
vif(fit_model) #다중공선성 확인 vif결과가 10이상이면 다중공선성 문제가 심각
second_model = lm(Salary ~ Hits + Cwalks + Division + PutOuts, data = hitters)
vif(second_model) #다중공선성이 해결되었음
summary(second_model) #F통계량 확인(높을 수록 유의), p값 확인(유의 수준 0.05안으로 되면 귀무가설 기각, 대립가설 채택)
728x90
'BAE(Certification)' 카테고리의 다른 글
1. 정형데이터 분석 - 나이브 베이즈(Naive Bayes) 분류 (0) | 2023.05.16 |
---|---|
1. 정형데이터 분석 - KNN(K-Nearest Neighbor) (0) | 2023.05.16 |
1. 정형데이터 분석 - 서포트 벡터 머신(SVM, Support Vector Machine) (0) | 2023.05.16 |
1. 정형데이터 분석 - 의사결정나무(decision tree) (0) | 2023.05.16 |
1. 정형데이터 분석 - 로지스틱 회귀 분석(Logistic Regression) (0) | 2023.05.16 |