학술논문
이분형 자료 분석을 위한 유사성 측도의 상한 및 하한의 설정에 관한 연구
이용수 4
- 영문명
- A Study on the Upper and Lower Bounds of Similarity Measures for Binary Data Analysis
- 발행기관
- 한국자료분석학회
- 저자명
- 박희창(Hee-Chang Park)
- 간행물 정보
- 『Journal of The Korean Data Analysis Society (JKDAS)』Vol.16 No.6, 2987~2997쪽, 전체 11쪽
- 주제분류
- 자연과학 > 통계학
- 파일형태
- 발행일자
- 2014.12.30
4,120원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.
국문 초록
빅 데이터 분석을 위한 데이터마이닝 기법 중의 하나인 군집분석은 다양한 특성을 지닌 관찰대상을 거리 또는 유사성 측도를 이용하여 동질적인 집단으로 분류한 후, 동일 군집에 속해 있는 공통된 특성을 조사하는데 이용되는 기법이다. 본 논문에서는 이분형 자료 분석을 위해 일반적으로 많이 활용되고 있는 음의 일치 빈도를 고려하지 않는 유사성 측도인 Ochiai의 S_Och, Sorgenfrei의 S_Sorg, Braun-Blanquet의 S_BB, Simpson의 S_{Sim}, Jaccard의 S_Jac, Anderberg의 S_And, Kulczynski의 S_Kul1 및 S_Kul2, 그리고 Czekanowsky-Sorensen의 S_Cze에 대해 상한 및 하한을 구하는 문제를 고려하였다. 그 결과, S_And는 S_Jac보다 항상 작은 값을 가지게 된다는 사실을 증명하였으며, 동시 발생 빈도 a와 불일치빈도 b와 c에 대해 bc의 값이 a(b+c)보다 큰 경우에는 S_And가 S_Sorg보다 크고 a가 max(b,c)보다 작으면 S_Kul1이 S_{Sim}보다 작다는 사실을 입증하였다. 또한 a가 min(b,c)보다 작으면 S_Kul1이 S_BB보다 작고, b와 c의 평균이 a보다 작으면 S_Kul1이 S_Cze보다 크고, (b+c)²의 값이 (a+b)(a+c)보다 작으면 S_Kul1이 S_Och보다 크며, b²과 c²의 평균값이 a²보다 작으면 S_Kul1이 S_Kul2보다 크다는 사실을 증명하였다. 또한 실제사례와 모의실험을 통해서 이들 측도들 간의 대소 관계를 구체적으로 확인하였다.
영문 초록
By Wikipedia, cluster analysis using distance and similarity measures the task of grouping a set of objects in such a way that objects in the same cluster are more similar to each other than to those in other clusters. It is a main task of exploratory data mining for big data analysis and used in many fields including information retrieval, pattern recognition, image analysis, and market survey. In this paper, we studied upper and lower bounds for binary similarity measures without negative matches such as Ochiai (S_Och), Sorgenfrei (S_Sorg), Braun-Blanquet (S_BB), Simpson (S_{Sim}), Jaccard (S_Jac), Anderberg (S_And), Kulczynski (S_Kul1, S_Kul2), and Czekanowsky-Sorensen (S_Cze) measures. And the comparative studies with these measures were shown by real data and simulated experiment. The results are as follows : (1) For co-occurrence frequency (a) and dismatches (b, c), S_And is always less than S_Jac. (2) If bc is greater than a(b+c), S_And is greater than S_Sorg. (3) If a is less than max(b,c), S_Kul1 is less than S_{Sim}. (4) If a is less than min(b,c) S_Kul1 is less than S_BB. (5) If the mean of b and c is less than a, S_Kul1 is greater than S_Cze. (6) If (b+c)² is less than (a+b)(a+c), S_Kul1 is greater than S_Och. (7) If the mean of b² and c² is less than a², S_Kul1 is greater than S_Kul2.
목차
1. 서론
2. 유사성 측도들의 상한 및 하한의 관계
3. 사례를 통한 고찰
4. 결론
References
키워드
해당간행물 수록 논문
- 장애자녀를 둔 부모의 돌봄 부담감과 삶의 질의 관계
- 맵리듀스를 사용한 최대흐름 알고리즘의 구현과 사례 연구
- 퇴원손상심층조사 자료를 이용한 근치적방광절제술 환자 조사연구
- 음의 연관성 분석을 위한 향상도의 표준화에 관한 연구
- 지역사회 거주노인의 식후 저혈압 발생 위험요인과 발생시점
- 일반화 Bass 확산 모형 및 계절 의류 신상품에의 응용
- 임의변수선택 기반 앙상블 판별분석에서 변수의 상대적 중요도에 관한 연구
- 간호대학생의 귀인성향, 자기효능감, 임상수행능력, 임상실습만족도의 관계
- 간호대학생을 위한 환자안전관리활동 측정도구에 대한 검증과 적용
- 해양스포츠산업의 저해요인, 매력요인, 만족도가 충성도에 미치는 영향
- 모 연령, 교육수준 및 출산순위에 따른 유아사망 불평등
- 공공조직의 순위 평가 방안
- 광역시도 지방개발공사의 자본구조정책과 경영성과
- 해양스포츠 참여자의 참여동기와 재미요인이 만족도에 미치는 영향
- Estimation for the Rayleigh Distribution Based on Multiply Type I Hybrid Censored Samples
- Simpson의 역설 존재 시의 비율 추정 및 비교를 위한 로짓 모형의 활용
- Awareness and Attitudes of Korean Health-related Majoring Students and Non-Health-related Majoring Students Towards Cardiopulmonary Resuscitation
- 노동조합이 가족친화제도의 도입과 활용에 미치는 영향
- 협력적 필터링에서 순위적합 향상을 위한 유의성 가중치에 관한 연구
- A Penalized Regression Based Repeat Sales Price Index Estimation
- 무료경로식당 이용 노인의 짠맛에 대한 미각판정과 짜게 먹는 식태도가 혈압에 미치는 영향
- SNS 환경에서 정보 공유 의도에 대한 이해
- 일반화선형모형을 이용한 생명보험 지급금 분석
- J도 G읍 고등학생의 건강증진행위 영향 요인
- 생활시간조사에 기반한 노인층 군집화와 군집별 시간량 사용행태분석
- 한국 암발생률의 모형화 및 추계
- 초등 저학년 저소득층 아동의 명사ㆍ동사 정의하기 능력
- 사회과학분야의 구조방정식모형에서 매개효과 검정 방법에 대한 논의
- 이분형 자료 분석을 위한 유사성 측도의 상한 및 하한의 설정에 관한 연구
- 페이스북 팬페이지의 동시댓글 데이터를 이용한 네트워크 분석
- Some Structural Aspects of Ridge Partial Least Squares Regression
- 산모가 지각한 남편의 분만 지지와 남편의 분만참여에 대한 태도가 분만경험에 미치는 영향
- A Note on the Nonparametric Tests for the Grouped Data
- Analysis of Multivariate Phenotypes by Canonical Correlation Biplot in Genetic Association Study
- 장소브랜드 태도 및 태도 확신이 재방문의도에 미치는 영향
- 정보거래량 불균형의 행태와 장중 주가 급등락과의 관계
- The Impact of Using SNS on the Korean Women’s Political Participation
- 대학 졸업유예의 효과 분석
- 임상간호사의 성찰적 사고 수준과 성찰 조건이 간호역량에 미치는 영향
- The Study on the Effect from Uncertainty of Financial Market on Profitability of Security Firms: Evidence from Korea
- ASEAN 선도 3개국의 경기변동요인과 위기 극복 정책
- 중독성 기호식품과 보건의료 간의 관계 연구
- 두 구성비 데이터 집단의 차이 추론을 위한 ALR 변환과 ILR 변환의 비교
- The Effects of Extra-Variation to the Estimation of Small-Area Proportions
- 임상간호사의 의료기관 인증제에 대한 인식도, 역할과부담, 전문직 자아개념이 환자안전관리활동에 미치는 영향
참고문헌
관련논문
자연과학 > 통계학분야 BEST
더보기자연과학 > 통계학분야 NEW
- Joint Modeling of Multi-Scale Stock Price using Hierarchical Hidden Markov Models
- Journal of The Korean Data Analysis Society (JKDAS) Vol.26 No.5 Contents
- 머신러닝 분류 모형을 이용한 Netflix 콘텐츠 시청 시간 예측
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!