텍스트 마이닝을 활용한 개인정보유출 보고서의 군집 분석

Cluster Analysis on Data Breach Reports via Text Mining
심현우(Hyunoo Shim)
간행물 정보
『Journal of The Korean Data Analysis Society (JKDAS)』Vol.21 No.2, 877~887쪽, 전체 11쪽
자연과학 > 통계학

국문 초록

사이버 위험은 2000년 이후 폭발적으로 급증해 오고 있는 새로운 형태의 위험이다. 특히, 2010년대 들어 온라인 상거래가 증가하고 개인정보의 활용도와 수요가 증가하면서, 개인정보의 보호된 이용에 비례하여 불법적인 유출도 증가하고 있다. 이러한 개인정보유출 위험은 큰 경제적 손실을 야기하고 있는데, 일반적으로 새로운 위험이 등장하였을 때 위험으로 인한 손실을 이해하기 위해서 보험에서 가장 먼저 할 수 있는 일은 그 위험을 분류하는 것이다. 하지만, 개인정보유출 사건들을 어떤 유형들로 분류할 수 있는지에 대한 통계적인 분석은 현재까지 미비한 상황이다. 이 논문에서 우리는 개인정보유출 사례들의 보고서 문서들을 텍스트 마이닝으로 분석하였으며, 분석결과는 개인정보유출 문서에서 의료, 금융, 교육 관련 단어군들이 각각 밀접한 연관성을 가진 단어들로 묶여질 수 있는 대표군들인 것을 나타낸다. 유클리드 거리를 유사도 측도로 사용하여 K-평균 군집분석을 수행한 결과, 5개의 군집으로 분류하는 것이 가장 적절하며, 의료, 금융, 교육, 종이문서, 일반 군집으로 개인정보유출 사례 문서들을 분류할 수 있음을 보여준다.

영문 초록

Cyber risk is a new category of risk that has explosively emerged since 2000. Along with the increase of online commerce and the increase of utilization of and demand for private information in 2010s, unlawful breaches of private information are increasing in proportion to secured uses of private information. This data breach risk has caused large economic losses, and in general, the first task that insurance can act in understanding losses caused by a new type of risk is to classify it. There has existed, however, little statistical analysis concerning with the categories of data breach cases. In this paper, we analyzed the texts of data breach case reports via text mining, and the analysis result reveals that in data breach reports, the word groups with regard to medical, financial, and educational sectors are the representative ones that have high association within them. The K-means cluster analysis using the Euclidean distance as a similarity measure shows that 5 clusters are the most appropriate number of clusters and that the texts of data breach cases can be clustered into medical, financial, educational, paper-document, and general groups.


1. 서론
2. 텍스트 마이닝 분석 방법
3. 자료
4. 단어 연관성 및 K-평균 군집 분석 결과
5. 결론


심현우(Hyunoo Shim). (2019).텍스트 마이닝을 활용한 개인정보유출 보고서의 군집 분석. Journal of The Korean Data Analysis Society (JKDAS), 21 (2), 877-887


