학술논문
사회과학 대용량 자료 분석을 위한 벌점회귀모형과 결측처리기법의 성능 비교
이용수 237
- 영문명
- A Monte-Carlo simulation on penalized regression and msising data techniques for social science large-scale data
- 발행기관
- 한국교육평가학회
- 저자명
- 노민정(Minjeong Rho) 유진은(Jin Eun Yoo)
- 간행물 정보
- 『교육평가연구』제32권 제4호, 755~776쪽, 전체 22쪽
- 주제분류
- 사회과학 > 교육학
- 파일형태
- 발행일자
- 2019.12.30
5,440원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.
국문 초록
본 몬테카를로 모의실험의 목적은 사회과학 분야의 대용량 자료 분석에 적합한 결측처리기법과 벌점회귀모형을 파악하는 것이었다. 먼저 KCYPS(Korean Chidren and Youth Panel Survey) 자료의 특징을 모방하여 340개 변수와 2,000명 자료를 생성하고 MAR 또는 MNAR 결측 메커니즘으로 결측을 발생시켰다. 다음으로 완전제거법, k-NN 대체법, 또는 EM 알고리즘 대체법으로 결측을 대체하고, 대체된 자료에 LASSO, adaptive LASSO, 또는 MCP 벌점회귀모형을 적용하였다. 결측 메커니즘(MAR, MNAR), 결측처리기법(완전제거법, k-NN, EM), 그리고 벌점회귀모형(LASSO, adaptive LASSO, MCP)으로 구성된 총 18개 조건에 대하여 100번 반복한 몬테카를로 모의실험을 실시하여 결측 대체, 변수 선택, 그리고 예측 성능을 비교하였다. 모형 평가 기준으로 결측 대체에 있어 일치율, 변수 선택의 경우 IC1, IC2, 그리고 예측 성능에 있어 정확도, AUC, Kappa 계수를 활용하였다. 연구 결과, 결측 대체에 있어서는 k-NN이 EM보다 우수하였으며, 완전제거법은 벌점회귀모형의 성능을 크게 저하시키는 것으로 확인되었다. MCP와 비교 시 LASSO와 adaptive LASSO의 변수 선택 및 예측 성능이 좋은 편이었다. 연구 결과를 바탕으로 후속 연구에 대하여 제언하였다.
영문 초록
The purpose of this Monte-Carlo simulation study was to investigate missing data techniques and penalized regression methods for social science large-scale data. Data of 340 variables and 2,000 observations were generated to emulate a social science panel data, KCYPS(Korean Children and Youth Panel Survey). The simulation conditions included missingness mechanisms (MAR, MNAR), missing data techniques (listwise deletion, k-NN, EM), and penalied regression methods (LASSO, adaptive LASSO, and MCP). As a result, the simulation had 18 condition combinations, and each condition had 100 replications. For evaluation criteria, agreement rates were used for the performance of missing data techniques and IC1 and IC2 were used for variable selection. Prediction accuracy, AUC, and Kappa were utilized for model evaluation criteria. With regard to missing data imputation, k-nn outperformed EM. Listwise deletion deteriorated the performance of penalized regression. LASSO and adaptive LASSO tended to outperform MCP in terms of variable selection and prediction. Further research topics were discussed accordingly.
목차
Ⅰ. 서론
Ⅱ. 이론적 탐색
Ⅲ. 연구방법
Ⅳ. 연구결과
Ⅴ. 결론 및 제언
해당간행물 수록 논문
- 단위검사로 구성된 검사에서 다양한 다차원 문항반응이론 모형에 따른 동등화 결과 비교
- 문항수준 사후예측모형검증을 통한 다중 인지진단모형 활용가능성 탐색
- 사회과학 대용량 자료 분석을 위한 벌점회귀모형과 결측처리기법의 성능 비교
- 이요인 등급반응 모형을 위한 공통-문항 척도연계 방법
- 다층자료의 경향점수 추정 모형에 따른 처치효과 추정 결과의 비교
- CIPP 평가 모형의 지향 원칙과 국내 교육 분야 CIPP 평가 모형 활용 연구 고찰
- 키워드 네트워크 분석을 통한 「교육평가연구」의 최근 연구경향 분석
- 과학 실험수업에서 형성평가의 역할 탐색
- 초등교원의 종단 조언네트워크 결측자료 분석방법 비교
- 베이지안 문항반응이론 동등화에서 상위 사전정보 부여 방식들의 효과성 비교
참고문헌
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!