본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

불균형 자료의 분류분석 방법별 성능 비교와 접근 전략 연구

이용수 90

영문명
A Study on the Performance Comparison and Approach Strategy by Classification Methods of Imbalanced Data
발행기관
한국자료분석학회
저자명
유병주(Byung Joo Yoo)
간행물 정보
『Journal of The Korean Data Analysis Society (JKDAS)』Vol.23 No.1, 195~207쪽, 전체 13쪽
주제분류
자연과학 > 통계학
파일형태
PDF
발행일자
2021.02.28
4,360

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

불균형 자료에 대한 분류분석을 하기 위해서는 두 가지 선택의 문제에 직면하게 된다. 하나는 분류분석을 위한 모형의 선택이고 또 다른 하나는 불균형 문제를 해결하기 위한 방법의 선택이다. 그래서 이 논문에서는 훈련표본의 규모나 독립변수의 수, 불균형 정도 등과 같은 데이터의 특징을 고려한 불균형 자료에 대한 순차적인 접근 전략 문제를 다루었다. 이를 위해 이진 분류 분석의 대표적인 모형인 로지스틱 회귀모형, 서포트벡터 머신, 딥러닝 방법을 자료의 특성에 따른 분류 성능을 비교하기 위한 이론적 고찰과 모의실험을 시행하였다. 그리고 자료의 불균형을 해결하기 위한 개선 방법들과 조합했을 때 Tukey의 다중비교를 통하여 분류 성능이 좋은 최적의 결과를 얻기 위한 접근 전략을 식별하기 위한 모의실험을 하였다. 모의실험 결과 자료의 특성중 훈련표본의 수량과 불균형 여부가 지배적인 요소로 작동되는 것을 확인할 수 있었으며, 훈련 표본이 적은 경우는 로지스틱 회귀모형으로 접근하여 과대추출 방법으로 자료의 불균형 문제를 해결하는 방법이 좋고, 훈련표본이 많은 경우는 딥러닝 방법으로 접근하여 가중치 방법이나 과소추출 방법으로 자료의 불균형을 개선하는 방법이 성능이 우수한 추정 결과를 얻을 수 있는 접근 전략임을 확인하였다.

영문 초록

In order to perform a classification analysis on imbalanced data, we are faced with two choices. One is the selection of a model for classification analysis, and the other is the selection of a method to solve the imbalance problem. Therefore, in this paper, I dealt with the problem of sequential approach to imbalanced data, taking into account the characteristics of the data such as the size of the training sample, the number of independent variables, and the degree of imbalance. A simulation is conducted to compare the logistic regression model, support vector machine, and deep learning, which are representative models used for binary classification analysis, to compare the classification performance according to the characteristics of the data. In addition, a simulation was performed to identify the approach strategy for obtaining the optimal result with good classification performance through Tukey s multiple comparison when combined with the methods to resolve the imbalance problem. As a result of the simulation, it was confirmed that the number of acquired samples and the presence of imbalance among the characteristics of the data operate as the dominant factors. In the case of small data, the logistic regression model is the best when combine with the over-sampling method to solve the data imbalance problem. In the case of big data, it was confirmed that the deep learning is the best when combine with the weighed estimation or the under sampling method to resolve the data imbalance problem.

목차

1. 서론
2. 성능평가 지표와 불균형 문제
3. 분류분석을 위한 일반적인 모형 선택 기준
4. 불균형 문제 해결을 위한 추정 방법의 선택
5. 모의실험과 데이터별 접근 전략
6. 결론
References

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

유병주(Byung Joo Yoo). (2021).불균형 자료의 분류분석 방법별 성능 비교와 접근 전략 연구. Journal of The Korean Data Analysis Society (JKDAS), 23 (1), 195-207

MLA

유병주(Byung Joo Yoo). "불균형 자료의 분류분석 방법별 성능 비교와 접근 전략 연구." Journal of The Korean Data Analysis Society (JKDAS), 23.1(2021): 195-207

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제