학술논문
불균형 자료의 분류분석 방법별 성능 비교와 접근 전략 연구
이용수 90
- 영문명
- A Study on the Performance Comparison and Approach Strategy by Classification Methods of Imbalanced Data
- 발행기관
- 한국자료분석학회
- 저자명
- 유병주(Byung Joo Yoo)
- 간행물 정보
- 『Journal of The Korean Data Analysis Society (JKDAS)』Vol.23 No.1, 195~207쪽, 전체 13쪽
- 주제분류
- 자연과학 > 통계학
- 파일형태
- 발행일자
- 2021.02.28
4,360원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.
국문 초록
불균형 자료에 대한 분류분석을 하기 위해서는 두 가지 선택의 문제에 직면하게 된다. 하나는 분류분석을 위한 모형의 선택이고 또 다른 하나는 불균형 문제를 해결하기 위한 방법의 선택이다. 그래서 이 논문에서는 훈련표본의 규모나 독립변수의 수, 불균형 정도 등과 같은 데이터의 특징을 고려한 불균형 자료에 대한 순차적인 접근 전략 문제를 다루었다. 이를 위해 이진 분류 분석의 대표적인 모형인 로지스틱 회귀모형, 서포트벡터 머신, 딥러닝 방법을 자료의 특성에 따른 분류 성능을 비교하기 위한 이론적 고찰과 모의실험을 시행하였다. 그리고 자료의 불균형을 해결하기 위한 개선 방법들과 조합했을 때 Tukey의 다중비교를 통하여 분류 성능이 좋은 최적의 결과를 얻기 위한 접근 전략을 식별하기 위한 모의실험을 하였다. 모의실험 결과 자료의 특성중 훈련표본의 수량과 불균형 여부가 지배적인 요소로 작동되는 것을 확인할 수 있었으며, 훈련 표본이 적은 경우는 로지스틱 회귀모형으로 접근하여 과대추출 방법으로 자료의 불균형 문제를 해결하는 방법이 좋고, 훈련표본이 많은 경우는 딥러닝 방법으로 접근하여 가중치 방법이나 과소추출 방법으로 자료의 불균형을 개선하는 방법이 성능이 우수한 추정 결과를 얻을 수 있는 접근 전략임을 확인하였다.
영문 초록
In order to perform a classification analysis on imbalanced data, we are faced with two choices. One is the selection of a model for classification analysis, and the other is the selection of a method to solve the imbalance problem. Therefore, in this paper, I dealt with the problem of sequential approach to imbalanced data, taking into account the characteristics of the data such as the size of the training sample, the number of independent variables, and the degree of imbalance. A simulation is conducted to compare the logistic regression model, support vector machine, and deep learning, which are representative models used for binary classification analysis, to compare the classification performance according to the characteristics of the data. In addition, a simulation was performed to identify the approach strategy for obtaining the optimal result with good classification performance through Tukey s multiple comparison when combined with the methods to resolve the imbalance problem. As a result of the simulation, it was confirmed that the number of acquired samples and the presence of imbalance among the characteristics of the data operate as the dominant factors. In the case of small data, the logistic regression model is the best when combine with the over-sampling method to solve the data imbalance problem. In the case of big data, it was confirmed that the deep learning is the best when combine with the weighed estimation or the under sampling method to resolve the data imbalance problem.
목차
1. 서론
2. 성능평가 지표와 불균형 문제
3. 분류분석을 위한 일반적인 모형 선택 기준
4. 불균형 문제 해결을 위한 추정 방법의 선택
5. 모의실험과 데이터별 접근 전략
6. 결론
References
키워드
해당간행물 수록 논문
- 간호대학생의 인성요인이 의사소통능력에 미치는 영향
- Exploration of Availability as a Signal Indicator about Youden Index
- The Mediating Roles of Identification and Perceived Persuasive Intent in Narrative Persuasion
- 노년기 삶의 질(CASP-19)에 대한 종단적 분석
- 양파의 생구무게 예측을 위한 여러 가지 일반회귀모형의 성능 비교
- 외국인 유학생의 자기효능감, 사회적 지지요인, 전공 몰입도와 학업지속의도 간의 영향 관계 연구
- 데이터 마이닝 효과를 감안한 한국 주식수익률 예측가능성 검정
- 보훈의료 대상자별 의료이용 특성을 반영한 의료비 산정체계 개발
- 군집분석을 활용한 포스트휴먼 교양의 범주화에 관한 연구
- Sequencing Relationships among Five Species of Hydrocotyle Based on TrnL-TrnF Intergenic Spacer Gene
- Economic Sanctions and Militarized Disputes
- 표본선택모형을 이용한 직장만족도 결정요인 분석
- An Alternative Bivariate Negative Binomial Model based on Sarmanov family
- 수용자의 자살 유서 작성 예측요인 연구
- 현물시장과 선물시장의 수익률, 변동성 및 거래량의 전이효과에 관한 연구
- 고령운전자에 대한 선택반응 반복훈련 효과
- 한국어 음절 규칙이 시각적으로 제시된 영어 단어 재인에 미치는 영향
- IPA기법을 통한 흰여울문화마을의 관광활성화 연구
- 서포트 벡터 기계에서 메타 학습법에 대한 연구
- 자본금과 대출공급 관계에 미치는 은행 유동성 조달 수준의 차별적 영향
- 중년 이후 골관절염 성인의 건강 관련 삶의 질 영향 요인
- ARMA-GARCH-DCC 모형을 이용한 GOP모형 실증분석
- 주식시장 뉴스의 비교 연구
- 가계 재정구조가 보험 과소비에 미치는 영향 연구
- 정규분포와 지수분포하에서 구조방정식모형의 주요 적합도 지수에 대한 제1종오류 평가
- Drivers of Korea’s Gross Capital Flows
- A Research on Corporate Governance, Risk Taking Behavior, and Performance
- Asymmetric Dependence between Korean Sovereign CDS and VKOSPI
- 불균형 자료의 분류분석 방법별 성능 비교와 접근 전략 연구
- 산업의 이익 발생 프로세스 이질성과 이익의 주가 반영
- MH-SAMC 알고리즘을 이용한 소셜네트워크 분석
- 가족 구성원의 인터넷 자아효능감이 가족 구매결정 참여의도에 영향을 미치는 구조적 연구
- Time-Varying Long Memory Property in the Cryptocurrency Markets
- 스캔통계학을 이용한 국내 화재 발생 고위험군 탐색
- 대졸 초기 취업자의 직업만족도 변화에 관한 종단 연구
참고문헌
관련논문
자연과학 > 통계학분야 NEW
- 행사성 사업의 효과 분석 방안
- Journal of The Korean Data Analysis Society (JKDAS) Vol.26 No.2 목차
- OTT 서비스 확산 이후 유료방송 VOD 이용의 결정 요인 분석
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!