학술논문
불균형 데이터에 대한 오버샘플링 효과 연구
이용수 37
- 영문명
- The Effect of Oversampling Method for Imbalanced Data
- 발행기관
- 한국자료분석학회
- 저자명
- 정현승(Hyun Seung Jeong) 강창완(Changwan Kang) 김규곤(Kyu Kon Kim)
- 간행물 정보
- 『Journal of The Korean Data Analysis Society (JKDAS)』Vol.10 No.4, 2089~2098쪽, 전체 10쪽
- 주제분류
- 자연과학 > 통계학
- 파일형태
- 발행일자
- 2008.08.30
4,000원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.
국문 초록
대용량 데이터로부터 의미있는 지식을 발견하는 마이닝 과정에서 모형구축을 위한 표본추출은 필수적이라 할 수 있다. 그러나 목표변수가 단지 두 가지의 결과만을 가지고 있고 관심 범주의 사례 수가 드물게 발생하는 경우가 있다. 이와 같이 전체 모집단에서의 목표변수의 관심 사례 집단의 비율이 매우 적은 경우에는 일반적으로 단순임의추출법이 아닌 오버샘플링 방법이 자료분석가들에게 추천되고 있다. 본 연구에서는 이러한 오버샘플링의 활용 지침을 위하여 사례집단의 비율에 따른 오버샘플링 효과를 분석하였으며 모의실험 결과는 다음과 같았다. 즉, 모집단에서의 사례집단과 대조집단의 불균형 비율이 1:5를 넘어서는 경우 오버샘플링 방법을 사용하는 것이 효과적이고 오버샘플링의 비율은 1:2와 1:3의 사이에서 가장 효과적인 결과를 도출 할 수 있는 것으로 연구되었다.
영문 초록
In data mining process, it is necessary for prediction modelling to sample data from the large dataset. However, when the particular events of interest are quite rare in the dataset, their consequences can be quite dramatic and quite often in a negative sense. That is, standard data mining schemes do not work well for rare class analysis. In this case, oversampling method is recommanded by many dataminers to solve these problems. In this paper, we study the effects of oversampling method and suggest the good rule of oversampling rate. Simulation results show that the optimal oversampling rate ranges from 1:2 to 1:3. This results will be helpful for the dataminers.
목차
1. 서론
2. 오버샘플링
3. 데이터 및 연구설계
4. 결론
참고문헌
키워드
해당간행물 수록 논문
- 미혼여성과 기혼여성의 유방자가검진 수행, 유방암 지식과 건강신념 차이 비교연구
- 임상간호사의 건강증진 생활양식 수행과 관련요인
- Comparative Studies of the Reliability Estimation for a Shared Load System with Rayleigh Lifetime Distribution
- 명상 및 음악치료가 고등학생의 정서적 불안정성과 우울에 미치는 효과
- 노년기의 성차에 따른 신체 인지도와 신체 만족도 비교
- 진동운동이 신체조성과 렙틴호르몬 및 지질성분에 미치는 영향
- 부산시 주거복합건축물의 입지특성과 관리방안에 관한 연구
- 마이크로마케팅 방법론 개발
- 반복측정 범주형 자료에 대한 주변확률분해
- 포아송 평균에 대한 베이지안 다중 가설 검정
- 운전자 특성에 따른 고속도로 시설물 이용 경향 분석
- 한국인의 성공적 노후에 대한 태도
- Bootstrap Median Control Chart
- 음이항 모형을 이용한 SMS 확산 요인에 관한 연구
- 분기공시와 법인세비용에 의한 이익조정에 대한 실증연구
- Statistical Validation for Short Count Traffic Counts Using Spatial Regression Model
- 시뮬레이션을 이용한 사고 위험도 범위의 불확실성 분석
- A Diagnostic Measure for Level Shifts in Time Series
- Phonological Recoding in Multi-syllabic Words : Using the Delaying Letter Priming Task
- 골프 참여자의 스포츠참여동기와 운동정서와의 관계분석
- 교육훈련투자와 생산성 향상
- 스트룹 패러다임을 이용한 공간-기반주의와 대상-기반주의의 상호작용 연구
- 서울시 아파트 가격 결정의 환경적 요인 분석
- 계층적 센서 네트워크 환경에 적합한 키 링을 이용한 안전한 키 설정 방식
- 초등학교 과학학습에서 e-PBL지원시스템 적용 효과분석
- 토지이용특성에 따른 도시환경만족도의 통계적 분석
- 국내 신증후군 출혈열의 감염분포와 유병자 수 추정
- 산부인과 진료의뢰서의 추정 진단명과 최종 진단명의 일치율에 관한 연구
- 다변량 의생명 자료분석을 위한 자기조직도의 활용 연구
- 삼단계 이수준 균형지분모형의 검정력 분석
- 조선족과 한족 및 한국 종업원의 일의 목표 비교 분석
- 표본추출이론에서 설계기반 추론과 모형기반 추론의 비교
- 양자화 정밀도 향상을 위한 양자화기 성능 분석
- 메모리 기반 협력적 필터링 알고리즘의 선호도 예측 특성에 관한 연구
- 부산시 도심부 건축물 높이 관리에 관한 연구
- A Study on the Regeneration of the Old City Center in Busan
- Growth and Demographic Characteristics of Seoul s Population
- 우리나라 교역조건의 결정요인에 대한 분석
- 불균형 데이터에 대한 오버샘플링 효과 연구
- Comparison of Performance of Optimal Portfolio based on Various Risk Estimations
- 특징점 자동 추출과 로버스트 형상분석을 이용한 영상정합의 비교
- 급식속성이 급식만족을 매개로 직무만족에 미치는 영향에 대한 실증적 연구
- 효용격차모형을 이용한 광안대교 비시장가치 추정
- Understanding the Consumer-Brand Relationship Quality : Its Relationship with Perceived Involvement and Restaurant Brand Choice
- 국민건강조사에서 무응답 대체에 관한 연구
참고문헌
관련논문
자연과학 > 통계학분야 NEW
- 행사성 사업의 효과 분석 방안
- Journal of The Korean Data Analysis Society (JKDAS) Vol.26 No.2 목차
- OTT 서비스 확산 이후 유료방송 VOD 이용의 결정 요인 분석
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!