Artificial.Intelligence

[AI-09] 데이터에서 자라난 무작위의 숲, Random Forest

De-v-signer 2024. 7. 30. 01:11

의사결정나무(Decision Tree)는 원본 데이터로부터 필터링을 거쳐 순도가 높은 데이터 그룹을 추출해가는 과정이다. 원본 데이터는 다양한 성질(불순도; Impurity)을 가지고 있기 때문에 목적에 맞게 사용하려면 적절한 분류와 그룹화가 필요한데, 이 과정을 시각화하면서 정리하는 방법이 의사결정나무이다.

의사결정나무는 뿌리마디로부터 줄기마디(중간마디), 잎마디(끝마디)의 순으로 '성장'하는데, 이 과정을 가지치기(pruning)라고 한다. 이 도식은 실제 나무와는 달리 위에서부터 아래로 자라는 형태로 표현되는데, 상위노드는 '부모마디'가 되며 하위노드는 '자식마디'가 된다. 그리고 뿌리마디를 제외한 잎마디까지의 전체 마디수가 '깊이(Depth)'가 된다.

Decision Tree (https://www.datacamp.com/tutorial/decision-tree-classification-python)

좋은 의사결정나무는 좋은 분할(가지치기)로부터 시작되는데, 좋은 분할이란 불순도 감소량이 커지는 분할이다. 즉, 동질성이 같은 집단으로, 이질성이 큰 집단으로 분류해 갈수록 더 좋은 분할이라고 할 수 있다.

의사결정나무는 직관적이고 해석하기 쉽다는 장점이 있지만, 그 단순함으로 인해 오차 발생 가능성과 주관적인 해석 가능성이 높다. 특히 정밀성을 높이면 과적합(overfitting)이 발생한다는 문제가 있는데, 그래서 적당한 수준의 가지치기를 통한 조정이 필요해 나무 자체만으로 정밀성을 높이는 데에는 한계가 있다.

이 한계를 극복하는 방법이 바로 랜덤포레스트(Random Forest)이다. 나무 한 개만으로는 정밀성을 높이려다 오히려 과적합으로 정밀성이 떨어지는 문제가 있기 때문에 나무 개체 내에서는 가지치기로 과적합 문제를 해결하는 대신 나무의 수를 늘려 그 정밀성 문제를 보완하는 방법이 있는데, 이를 배깅(Bagging)이라 한다. 랜덤포레스트(Random Forest)는 이 배깅에 더 무작위성을 더해 정밀성을 더 높이는 분석기법이다.

Bagging (https://gaussian37.github.io/ml-concept-bagging/)

배깅(Bagging)은 부트스트랩 결합하기(bootstrap aggregating)의 줄임말로, 말 그대로 여러 개의 부트스트랩을 합치는 분석기법이다. 부트스트랩(bootstrap)이란 모집단에서 복원추출을 통해 샘플링한 표본 데이터 그룹을 말하는데, 이렇게 추출한 여러 그룹을 의사결정나무 방법과 같은 수단으로 분석한 뒤, 나온 결과를 다수결로 종합(Voting)하여 결과를 냄으로써 하나의 모델에서 발생할 수 있는 오차를 보정하는 것이다.

Ramdom Forest(https://corporatefinanceinstitute.com/resources/data-science/random-forest/)

랜덤포레스트는 처음에 여러 개의 부트스트랩을 복원추출하는 부분(random subset of data)은 동일하지만, 각 모델에 모든 변수를 동일하게 적용하는 배깅과는 달리 변수를 한번 더 복원추출해 변수 역시도 무작위적(random feature)으로 만든다. 즉, 단순히 샘플이 다른 여러 개의 나무를 만들어 다수결로 종합하는 배깅과는 달리, 샘플이 다른 각 나무에 변수 역시도 다르게 적용하여 정말 무작위한 숲처럼 만든 뒤 그 결과를 종합하는 것이 랜덤포레스트 방법이다.

랜덤포레스트는 무작위성을 통해 분산(variance)을 감소시키고 일반화 성능을 향상하여, 결과적으로는 학습과 예측에서 더 정밀해지는 이점을 갖는다. 자연에서 발생하는 데이터는 무작위적이기 때문에, 그 무작위성을 강화하여 객관성을 높이고 최대한 자연과 닮은 분석 방법을 추구하는 게 어쩌면 당연할지도 모른다. 표본 추출이라는 방법, 그 대표성에 대한 의문과 위협은 오랫동안 추론통계의 영역을 괴롭혀왔다. 그리고 학습과 생성은 미래에 대한 예측과 추론의 영역이기에, 이러한 방법들이 좋은 참조와 답이 되는 것은 자연스러운 일이다.

반응형