본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

의사결정나무의 최적 분할 및 가지치기 옵션

이용수 184

영문명
Optimal Splitting and Pruning Option in Decision Tree Classification
발행기관
인문사회과학기술융합학회
저자명
이지현(Jihyun Lee) 김기태(Gitae Kim)
간행물 정보
『예술인문사회융합멀티미디어논문지』9권 5호, 907~914쪽, 전체 8쪽
주제분류
사회과학 > 사회과학일반
파일형태
PDF
발행일자
2019.05.31
4,000

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

의사결정나무 분류는 변수 즉 속성(Attribute)을 노드로 하여 나무를 형성해 가면서 데이터의 패턴과 규칙을 찾는 방법으로 속성인 노드에서 가지를 뻗어 나가는 분할(Splitting)방법과 속성들의 순서를 정하는 것으로 알고리즘이 구성된다. 또한 과적합을 방지하기 위해 의사결정나무의 크기를 줄이는 가지치기(Pruning)를 수행한다. 분할방법에 따라 의사결정나무의 알고리즘이 CART, CHAID, C5.0으로 나뉘고 가지치기를 하기 위한 다양한 옵션이 존재한다. 의사결정나무 분류 방법은 분할방법과 가지치기의 방식에 따라 성능에 차이가 존재한다. 또한 데이터의 종류에 따라 성능이 달라진다. 우리는 본 논문에서 어떠한 분할방법과 가지치기 옵션이 데이터의 형태에 적합한지를 비교 분석하여 데이터 형태에 따른 최적의 분할방법과 가지치기 옵션을 제시한다. 즉, 데이터 및 변수를 크기별로 분류하여 어떠한 분할 알고리즘 및 가지치기가 최적조건인지 분석한다. 또한 불균형 데이터에 대해서도 조사하여 불균형 정도를 네 단계로 구분하여 불균형 정도별로 분할 알고리즘과 가지치기에 대한 분석을 실시하여 최적의 조건을 찾는다. 본 연구결과는 어떠한 형태의 데이터가 주어질 때 유형에 따라 어떤 분할방법과 가지치기를 사용하는 것이 가장 적절한지 제공할 수 있어 다양한 문제와 분야에 응용될 수 있는 중요한 자료로 사용될 수 있다.

영문 초록

Decision tree classification is a method of finding patterns and rules of data by forming a tree by using variables(attributes) as nodes. In this method, an algorithm is formed by splitting a property that extends a branch at an attribute node and determining the order of attributes. Also, pruning is performed to reduce the size of the decision trees to prevent overfitting. The algorithm of decision tree is divided into CART, CHAID, and C5.0 according to the partitioning method. Also, performance varies depending on the type of pruning and the type of data. In this paper, we propose the optimal splitting and pruning conditions for types of data set by analyzing the performances of splitting and pruning combinations to solve various types of data set. For the analysis, the data type is categorized by small, medium and large sets in terms of size of records or size of attributes (number of variables or dimensions) or continuous or nominal data sets. We also investigate the optimal options of algorithm and pruning for imbalanced data set with classifying into four categories. Contributions of this paper are three folds. First, we present a comprehensive survey on the splitting and pruning methods for decision tree classification. Second, this paper provides optimal conditions of splitting and pruning methods for any data set in decision tree classification. Lastly, we show the viability of applying for many problems or fields.

목차

1. 서론
2. 기존연구 고찰
3. 데이터 유형별 분할 및 가지치기 최적조건
4. 결론

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

이지현(Jihyun Lee),김기태(Gitae Kim). (2019).의사결정나무의 최적 분할 및 가지치기 옵션. 예술인문사회융합멀티미디어논문지, 9 (5), 907-914

MLA

이지현(Jihyun Lee),김기태(Gitae Kim). "의사결정나무의 최적 분할 및 가지치기 옵션." 예술인문사회융합멀티미디어논문지, 9.5(2019): 907-914

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제