학술논문
결측치를 포함한 데이터의 k-평균 군집분석 방법 비교
이용수 59
- 영문명
- Comparison of k-mean clustering with missing data
- 발행기관
- 한국자료분석학회
- 저자명
- 양대경(Daegyeong Yang) 명재성(Jasung Myung) 이승훈(Seunghoon Lee) 송주원(Juwon Song)
- 간행물 정보
- 『Journal of The Korean Data Analysis Society (JKDAS)』Vol.25 No.6, 2131~2142쪽, 전체 12쪽
- 주제분류
- 자연과학 > 통계학
- 파일형태
- 발행일자
- 2023.12.31
4,240원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

국문 초록
군집분석이란 개체 간 유사성을 포착하여 유사한 특징을 공유하는 개체들을 동일 군집으로 모으고 이질적인 개체들을 다른 군집을 정의해내는 비지도 학습 방법이다. 다양한 군집분석 방법이 제안되어 있으며 최적화 군집 방법 중 각 군집의 중심과 개체 간의 유클리디안 거리를 최소화하는 k-평균 군집분석은 가장 기본적인 방법으로 널리 사용되고 있다. 하지만 데이터에 결측이 존재하는 경우, 각 군집의 중심에서 결측이 발생한 개체까지의 거리를 계산하는 것이 불가능하므로 결측자료는 군집으로 분류되지 않는 문제가 발생하며 결측 자료를 제외한 군집분석의 결과는 예측하기 어렵다. 이러한 상황에 대해 대처하기 위해 결측치가 발생하더라도 관측된 정보만을 근거하여 군집분석을 수행하거나 결측치를 대체한 후 군집분석을 수행하는 다양한 방법들이 제안되어 있다. 본 연구에서는 결측 자료를 포함하고 있는 데이터에 대해 k-평균 군집분석을 수행할 방법들을 탐구하였으며, 모의실험을 통해 해당 방법들의 성능을 평가하였다. 모의실험을 통한 평가 결과, 결측치를 대체한 다음 k-평균 군집분석을 수행하는 것이 가장 좋은 성능을 보였으며, 결측치 대체 방법 중에서는 k-최근접 이웃(k-nearest neighbors) 대체가 가장 좋은 성능을 보였다.
영문 초록
Cluster analysis is an unsupervised learning method to find heterogeneous clusters that capture similarities among items and separate different items into different clusters. Various cluster analysis techniques have been proposed, and the k-means clustering method, which minimizes the sum of Euclidean distances between cluster centroids and individual entities, is widely recognized as a standard cluster analysis method. When data include missing values, it is challenging to conduct cluster analysis, because it is impossible to calculate distances between centroids of clusters and incomplete items, resulting in excluding classification of these items. Techniques have been suggested to handle missing values in k-means clustering, including conducting cluster analysis after imputation of missing values or cluster analysis based on available information. In this study, we explore methods to perform k-means cluster analysis on data with missing values and evaluate performance of these methods using a simulation. The results of simulation studies indicate that conducting k-means cluster analysis after imputation yields the better performance than the one based on available information. Among the various imputation methods, k-nearest neighbors imputation performed the best.
목차
1. 서론
2. 결측치를 포함한 데이터의 k-평균 군집분석
3. 모의실험
4. 토의
References
해당간행물 수록 논문
- Journal of The Korean Data Analysis Society (JKDAS) Vol.25 No.6 표지, 목차
- Nonparametric tests of extremes of daily maximum temperatures based on the breaking records: A case study in Seoul and Busan during 1961-2022
- Clinical Nurses' perceptions of hospice, person-centered care and well-dying
- 토픽모델링과 ERGM에 기반한 디지털 신기술에 대한 트위터 데이터의 키워드 분석
- 인자의 불확정성을 반영한 인자점수 추출 및 인자점수 회귀모형에의 응용
- 인과 포레스트를 이용한 벤처기업 사회적 활동의 매출액에 대한 효과 분석
- 국제물류주선업의 혁신요인과 혁신이 성과에 미치는 영향
- 직무과부하가 직무스트레스와 조직불공정성 및 반생산적과업행동에 미치는 영향
- 관절염 환자의 노쇠와 구강건강이 주관적 기대여명에 미치는 영향
- 게임에서 결과/과정 초점 유형과 디바이스에 따른 동기와 수행 차이
- Short-term Trading and Stock Mispricing
- Error Structure Analysis for Multiple Dual-polarization Radar using Ensemble Learning
- 유창성 장애의 언어치료 관련 경시적 계수자료의 유연한 분석
- 인공지능(AI)에 대한 고등학생 인식 조사
- 상사의 꼰대평가 우려가 피드백 회피 행동에 미치는 영향
- 온라인 배드민턴 레슨컨텐츠 이용동기가 인지된 유용성, 수용태도 및 온라인 구전에 미치는 영향
- 상사의 윤리적 리더십이 구성원의 조직몰입 및 직무성과에 미치는 영향
- 호텔·레스토랑 고객의 기술불안과 행동의도 간의 영향관계
- 코로나19와 자동차보험 대인·대물배상 손해율 변화
- 국민건강보험 빅데이터를 이용한 한국의 세대 간 소득이동성 연구
- 자궁경부암 진단 여성의 삶의 질 영향요인
- 간호대학생의 온라인 취업적응 실습교육 프로그램 효과
- 임상 간호사의 연명의료중단에 대한 태도와 역할 인식이 간호 소진에 미치는 영향
- 탄소배출권 거래가 전남지역 산업 생산활동에 미치는 영향
- 기업의 규모에 따라 법인세가 기업투자와 근로자 임금에 미치는 영향 분석
- 자율주행 차량의 스티어링 휠 디자인에 따른 사용자 경험 측정 도구 개발
- 딥러닝 기법을 이용한 공공기관 설문조사 주관식 문항 활용방안에 관한 연구
- 실질적 동등성에 근거한 유전자변형 벼의 안전성 평가
- 결측치를 포함한 데이터의 k-평균 군집분석 방법 비교
- Optimized Deep Learning Models Using Ensemble Learning for COVID-19 Detection on CT Scan Images
- BiVAE를 활용한 MBTI 기반 OTT 서비스 개인화 추천 시스템
- Are There Housing Bubbles in Seoul Metropolitan Areas?: Evidence from Right-Tailed Unit Root Test
- RSSI 데이터 기반 머신러닝 실내 측위 연구
- 실물옵션을 활용한 Olhson 모형 가치평가에 관한 연구
참고문헌
관련논문
자연과학 > 통계학분야 BEST
더보기자연과학 > 통계학분야 NEW
- Journal of The Korean Data Analysis Society (JKDAS) Vol.27 No.1 Contents
- A Research on ESG Commitment, Governance, and Firm Value
- 영상 콘텐츠 추천시스템을 위한 AWSGLD 알고리즘
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
