본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

연속형과 범주형 변수가 혼합된 데이터의 군집분석 연구

이용수 334

영문명
A Study on Cluster Analysis of Mixed Data with Continuous and Categorical Variables
발행기관
한국자료분석학회
저자명
한지수(Jisoo Han) 조형준(HyungJun Cho)
간행물 정보
『Journal of The Korean Data Analysis Society (JKDAS)』Vol.20 No.4, 1769~1780쪽, 전체 12쪽
주제분류
자연과학 > 통계학
파일형태
PDF
발행일자
2018.08.31
4,240

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

연속형 변수와 범주형 변수가 함께 존재하는 혼합형 데이터의 군집분석에서 연속형 변수의 경우에 유클리디안 거리처럼 자연스럽게 거리를 정의할 수 있지만, 범주형 변수, 특히 순서가 없는 명목형 변수의 경우에 개체 간 거리 측정이 모호하여 종종 배제되었다. 개체 간 거리를 기반으로 하는 군집분석 방법에서 개체 간 거리의 정의는 매우 핵심적인 문제이므로 명목형 변수의 합리적 정의는 신뢰할 수 있는 군집분석 위해서는 중요한 요소이다. 따라서 두 가지 형태의 변수가 함께 존재하는 경우에 범주형 변수의 거리 측정을 위해 모형화를 위해 종종 이용되는 가변수 변환 방법, 범주의 일치 여부에 따라 0-1로 거리를 부여하는 Gower의 방법, 그리고 변수의 수준 개수 정보를 활용하는 Eskin의 방법 도입하여 혼합형 데이터에 거리를 측정할 수 있도록 군집 분석 결과를 비교하였다. 거리 정의 방법에 의존하지 않는 공정한 비교를 위해 세 가지 평가 측도를 이용하였다. 그 결과, 군집의 퍼짐 정도 및 군집 별 개체의 불균형한 상황에서 Eskin의 방법의 성능이 우수하였다. 또한, 군집의 응집성, 재현성, 군집의 개수 정확도 측면에서 Eskin의 방법이 더 나은 성능을 보였다.

영문 초록

In cluster analysis for mixed data consisting of continuous and categorical variables, the natural definition of distances such as Euclidean distance can be utilized for continuous variables. In contrast, nominal variables have often been eliminated due to their ambiguity in spite many nominal variables exist in real data. Defining distance measures is essential in cluster analysis methodologies based on distances among objects; therefore, it is important to define distance measures reasonably. When there exist both types of variables, we employ and compare the dummy variable transformation method used for modeling, Gower’s method assigning distances according to matching of categories, and Eskin’s method utilizing their category levels. Three evaluation measures are used for fair comparison regardless of the definitions of distance measures. As a result, Eskin’s method performs better than the others in the unbalanced cases of object numbers and spread degrees. In addition, Eskin’s method is superior in the cohesion and reproducibility of clusters and finding of cluster numbers.

목차

1. 서론
2. 연구방법
3. 모의실험
4. 사례분석
5. 결론
References

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

한지수(Jisoo Han),조형준(HyungJun Cho). (2018).연속형과 범주형 변수가 혼합된 데이터의 군집분석 연구. Journal of The Korean Data Analysis Society (JKDAS), 20 (4), 1769-1780

MLA

한지수(Jisoo Han),조형준(HyungJun Cho). "연속형과 범주형 변수가 혼합된 데이터의 군집분석 연구." Journal of The Korean Data Analysis Society (JKDAS), 20.4(2018): 1769-1780

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제