반응형
http://www.dodomira.com/2016/05/29/564/
위의 블로그에서 의사 결정트리 및 프루닝에 관해 잘 설명해주셔서 필자는 그냥 코딩한 것들을 올려보고자 한다.
German credit 데이터를 이용하여 의사 결정트리 생성 및 프루닝을 다뤄본다.
1 2 3 4 5 6 7 8 9 10 11 12 13 | df <- read.csv('C:/Users/kkw56/Documents/R/GermanCredit.csv', header = TRUE, stringsAsFactors = FALSE, na.strings="") tmp <- factor() for(i in 1:length(df$RESPONSE)){ if(df$RESPONSE[i] == 1){ tmp <- c(tmp, "YES") } else{ tmp <- c(tmp, "NO") } } df$RESPONSE <- as.factor(tmp) | cs |
df의 RESPONSE를 factor로 바꾸어 진행한다.(의사 결정 트리에 이용하기 위해)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | library(caret) set.seed(55) intrain <- createDataPartition(y = df$RESPONSE, p = 0.8, list = FALSE) train <- df[intrain,] test <- df[-intrain,] library(tree) treemod <- tree(RESPONSE~. , data = train) plot(treemod) text(treemod) treepred <- predict(treemod, test, type='class') confusionMatrix(treepred, test$RESPONSE) | cs |
train에는 intrain에 있는 값들을 넣어주고 test에는 intrain에 없는 값들을 넣어준다.
즉, df$RESPONSE의 80퍼센트가 train에 들어가게 되고 20퍼센트가 test에 들어가게 된다.
그리고 의사결정트리를 생성해주고 마지막 treepred부분에서 현재 의사결정트리가 가지는 정확도등등을 받을 수 있다.
1 2 3 4 5 6 7 8 9 10 | # 프루닝 과정 cv.trees <- cv.tree(treemod, FUN=prune.misclass) plot(cv.trees) prune.trees <- prune.misclass(treemod, best=4) plot(prune.trees) text(prune.trees, pretty=0) treepred <- predict(prune.trees, test, type='class') confusionMatrix(treepred, test$RESPONSE) | cs |
위의 과정을 프루닝한 그래프를 보면 4일때가 최상이고 프루닝 후 의사결정트리 및 정확도를 파악할 수 있다.
프루닝 후 결과가 좀더 향상된 것을 알 수 있다.
반응형
'Basic > R' 카테고리의 다른 글
R언어 Random Forest (0) | 2018.06.27 |
---|---|
knn, 최적 k 선택, x-validation 실습 (0) | 2018.06.25 |
R언어 의사 결정 트리 및 다양한 개념 (0) | 2018.06.19 |
R언어 데이터 프레임 몇가지 예제 (0) | 2018.05.26 |
R언어 예제를 통한 몇가지 정리 (0) | 2018.05.25 |