본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

이분형 자료 분석을 위한 유사성 측도의 상한 및 하한의 설정에 관한 연구

이용수 2

영문명
A Study on the Upper and Lower Bounds of Similarity Measures for Binary Data Analysis
발행기관
한국자료분석학회
저자명
박희창(Hee-Chang Park)
간행물 정보
『Journal of The Korean Data Analysis Society (JKDAS)』Vol.16 No.6, 2987~2997쪽, 전체 11쪽
주제분류
자연과학 > 통계학
파일형태
PDF
발행일자
2014.12.30
4,120

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

빅 데이터 분석을 위한 데이터마이닝 기법 중의 하나인 군집분석은 다양한 특성을 지닌 관찰대상을 거리 또는 유사성 측도를 이용하여 동질적인 집단으로 분류한 후, 동일 군집에 속해 있는 공통된 특성을 조사하는데 이용되는 기법이다. 본 논문에서는 이분형 자료 분석을 위해 일반적으로 많이 활용되고 있는 음의 일치 빈도를 고려하지 않는 유사성 측도인 Ochiai의 S_Och, Sorgenfrei의 S_Sorg, Braun-Blanquet의 S_BB, Simpson의 S_{Sim}, Jaccard의 S_Jac, Anderberg의 S_And, Kulczynski의 S_Kul1 및 S_Kul2, 그리고 Czekanowsky-Sorensen의 S_Cze에 대해 상한 및 하한을 구하는 문제를 고려하였다. 그 결과, S_And는 S_Jac보다 항상 작은 값을 가지게 된다는 사실을 증명하였으며, 동시 발생 빈도 a와 불일치빈도 b와 c에 대해 bc의 값이 a(b+c)보다 큰 경우에는 S_And가 S_Sorg보다 크고 a가 max(b,c)보다 작으면 S_Kul1이 S_{Sim}보다 작다는 사실을 입증하였다. 또한 a가 min(b,c)보다 작으면 S_Kul1이 S_BB보다 작고, b와 c의 평균이 a보다 작으면 S_Kul1이 S_Cze보다 크고, (b+c)²의 값이 (a+b)(a+c)보다 작으면 S_Kul1이 S_Och보다 크며, b²과 c²의 평균값이 a²보다 작으면 S_Kul1이 S_Kul2보다 크다는 사실을 증명하였다. 또한 실제사례와 모의실험을 통해서 이들 측도들 간의 대소 관계를 구체적으로 확인하였다.

영문 초록

By Wikipedia, cluster analysis using distance and similarity measures the task of grouping a set of objects in such a way that objects in the same cluster are more similar to each other than to those in other clusters. It is a main task of exploratory data mining for big data analysis and used in many fields including information retrieval, pattern recognition, image analysis, and market survey. In this paper, we studied upper and lower bounds for binary similarity measures without negative matches such as Ochiai (S_Och), Sorgenfrei (S_Sorg), Braun-Blanquet (S_BB), Simpson (S_{Sim}), Jaccard (S_Jac), Anderberg (S_And), Kulczynski (S_Kul1, S_Kul2), and Czekanowsky-Sorensen (S_Cze) measures. And the comparative studies with these measures were shown by real data and simulated experiment. The results are as follows : (1) For co-occurrence frequency (a) and dismatches (b, c), S_And is always less than S_Jac. (2) If bc is greater than a(b+c), S_And is greater than S_Sorg. (3) If a is less than max(b,c), S_Kul1 is less than S_{Sim}. (4) If a is less than min(b,c) S_Kul1 is less than S_BB. (5) If the mean of b and c is less than a, S_Kul1 is greater than S_Cze. (6) If (b+c)² is less than (a+b)(a+c), S_Kul1 is greater than S_Och. (7) If the mean of b² and c² is less than a², S_Kul1 is greater than S_Kul2.

목차

1. 서론
2. 유사성 측도들의 상한 및 하한의 관계
3. 사례를 통한 고찰
4. 결론
References

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

박희창(Hee-Chang Park). (2014).이분형 자료 분석을 위한 유사성 측도의 상한 및 하한의 설정에 관한 연구. Journal of The Korean Data Analysis Society (JKDAS), 16 (6), 2987-2997

MLA

박희창(Hee-Chang Park). "이분형 자료 분석을 위한 유사성 측도의 상한 및 하한의 설정에 관한 연구." Journal of The Korean Data Analysis Society (JKDAS), 16.6(2014): 2987-2997

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제