교보문고

학술논문

사회과학 대용량 자료 분석을 위한 벌점회귀모형과 결측처리기법의 성능 비교

이용수 237

영문명: A Monte-Carlo simulation on penalized regression and msising data techniques for social science large-scale data
발행기관: 한국교육평가학회
저자명: 노민정(Minjeong Rho) 유진은(Jin Eun Yoo)
간행물 정보: 『교육평가연구』제32권 제4호, 755~776쪽, 전체 22쪽
주제분류: 사회과학 > 교육학
파일형태: PDF
발행일자: 2019.12.30

5,440원

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의

국문 초록

본 몬테카를로 모의실험의 목적은 사회과학 분야의 대용량 자료 분석에 적합한 결측처리기법과 벌점회귀모형을 파악하는 것이었다. 먼저 KCYPS(Korean Chidren and Youth Panel Survey) 자료의 특징을 모방하여 340개 변수와 2,000명 자료를 생성하고 MAR 또는 MNAR 결측 메커니즘으로 결측을 발생시켰다. 다음으로 완전제거법, k-NN 대체법, 또는 EM 알고리즘 대체법으로 결측을 대체하고, 대체된 자료에 LASSO, adaptive LASSO, 또는 MCP 벌점회귀모형을 적용하였다. 결측 메커니즘(MAR, MNAR), 결측처리기법(완전제거법, k-NN, EM), 그리고 벌점회귀모형(LASSO, adaptive LASSO, MCP)으로 구성된 총 18개 조건에 대하여 100번 반복한 몬테카를로 모의실험을 실시하여 결측 대체, 변수 선택, 그리고 예측 성능을 비교하였다. 모형 평가 기준으로 결측 대체에 있어 일치율, 변수 선택의 경우 IC1, IC2, 그리고 예측 성능에 있어 정확도, AUC, Kappa 계수를 활용하였다. 연구 결과, 결측 대체에 있어서는 k-NN이 EM보다 우수하였으며, 완전제거법은 벌점회귀모형의 성능을 크게 저하시키는 것으로 확인되었다. MCP와 비교 시 LASSO와 adaptive LASSO의 변수 선택 및 예측 성능이 좋은 편이었다. 연구 결과를 바탕으로 후속 연구에 대하여 제언하였다.

영문 초록

The purpose of this Monte-Carlo simulation study was to investigate missing data techniques and penalized regression methods for social science large-scale data. Data of 340 variables and 2,000 observations were generated to emulate a social science panel data, KCYPS(Korean Children and Youth Panel Survey). The simulation conditions included missingness mechanisms (MAR, MNAR), missing data techniques (listwise deletion, k-NN, EM), and penalied regression methods (LASSO, adaptive LASSO, and MCP). As a result, the simulation had 18 condition combinations, and each condition had 100 replications. For evaluation criteria, agreement rates were used for the performance of missing data techniques and IC1 and IC2 were used for variable selection. Prediction accuracy, AUC, and Kappa were utilized for model evaluation criteria. With regard to missing data imputation, k-nn outperformed EM. Listwise deletion deteriorated the performance of penalized regression. LASSO and adaptive LASSO tended to outperform MCP in terms of variable selection and prediction. Further research topics were discussed accordingly.

키워드

벌점회귀모형 몬테카를로 모의실험 penalized regression LASSO adaptive LASSO MCP k-NN EM Monte-Carlo simulation

국문 초록

영문 초록

목차

키워드

해당간행물 수록 논문

참고문헌

관련논문

사회과학 > 교육학분야 BEST

사회과학 > 교육학분야 NEW

최근 이용한 논문

APA

MLA