본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

베이지안 부분집합 회귀를 이용한 고차원 분할표 분석

이용수 11

영문명
The High-dimensional Contingency Table Analysis using Bayesian Subset Regression
발행기관
한국자료분석학회
저자명
전수영(Sooyoung Cheon)
간행물 정보
『Journal of The Korean Data Analysis Society (JKDAS)』Vol.19 No.4, 1841~1852쪽, 전체 12쪽
주제분류
자연과학 > 통계학
파일형태
PDF
발행일자
2017.08.31
4,240

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

최근 데이터의 양이 증가하면서 분할표의 변수의 수도 증가하여 변수들의 고차 상호작용효과에 관심이 많아지게 되었다. 하지만 변수의 수가 관측치 수만큼 커짐에 따라 과적합의 문제점이 발생하는 경우가 많다. 이를 극복하기 위해 본 연구는 베이지안 부분집합 회귀(Bayesian subset regression, BSR) 방법을 이용하여 고차원 분할표의 포아송 로그 선형 모형에서 고차 상호 작용효과 변수선택 방법을 제안하고자 한다. 제안된 BSR 방법에서 제시하는 최대 사후 모형은 최소 확장 베이지안 정보기준(extended Bayesian information criterion) 모형과 근사적으로 동등하다. BSR 사후분포로부터 효율적인 표본추출을 위해 확률적 근사 몬테카를로(stochastic approximation Monte Carlo) 알고리즘을 이용한다. 제안된 BSR 방법의 우수성을 보기 위해, 세 개의 분할표 자료에 대해 BSR 방법을 기존의 벌점화우도 방법들인 리지(ridge), 라소(lasso), 엘라스틱넷(elastic net) 방법들과 비교를 한다. 비교 결과 모든 예제에서 BSR에 의해 선택된 모형들이 변수의 수가 다른 방법에 비해 작으면서 가장 작은 제곱근 하나남기기 교차검증(root leave-one-out crossvalidation)값을 가짐에 따라 BSR 방법이 벌점화우도 방법들보다 우수함을 알 수 있었다. 또한 벌점화우도 방법들은 분할표의 차원이 커질수록 결과가 좋지 않았다.

영문 초록

As the amount of data has increased recently, the number of variables in the contingency table has increased, and the interest in the higher order interaction effect of the variables has increased. However, as the number of variables is slightly smaller than the number of observations, there is often an overfitting problem. This article proposes a method for selecting high-order interaction effect variables in the Poisson log linear model of high-dimensional contingency tables using Bayesian subset regression (BSR) method. The stochastic approximation Monte Carlo algorithm has been used for efficient sampling from the BSR posterior. In order to show the superiority of the proposed BSR method, we compared BSR with ridge, lasso and elastic net methods with three contingency table data. The results show that the BSR method is superior in all examples, and the models selected by BSR have the smallest root leave-one-out cross-validation value with a small number of variables. Also, it can be seen that the larger the dimension, the worse the results of the popular penalized likelihood methods are.

목차

1. 소개
2. 분할표에서의 베이지안 부분집합 회귀
3. BSR 표본 추출을 위한 SAMC 알고리즘
4. 실 자료 분석
5. 결론

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

전수영(Sooyoung Cheon). (2017).베이지안 부분집합 회귀를 이용한 고차원 분할표 분석. Journal of The Korean Data Analysis Society (JKDAS), 19 (4), 1841-1852

MLA

전수영(Sooyoung Cheon). "베이지안 부분집합 회귀를 이용한 고차원 분할표 분석." Journal of The Korean Data Analysis Society (JKDAS), 19.4(2017): 1841-1852

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제