SNS 텍스트 데이터 기반 대전시 환경 관련 토픽 모델링 및 감성 분석

Topic modeling and sentiment analysis based on SNS text data related to the environment in Daejeon
간행물 정보
『Journal of The Korean Data Analysis Society (JKDAS)』Vol.25 No.3, 949~958쪽, 전체 10쪽
자연과학 > 통계학

국문 초록

본 연구는 포털 사이트 등에서 특정 주제에 대해 드러나는 게시글의 유형이나 주제가 어떻게 구성되고 있으며 관련하여 사용되는 감성 어휘들에 어떤 차이가 발생하는지를 분석하고자 하는 것이다. 특히 환경과 관련하여 SNS상에 게시하는 콘텐츠들의 주제를 파악하고 이러한 게시물의 주제와 정서적 감성어 사이에 어떤 관련성이 있는지를 파악해 보고자 한다. 이러한 연구를 위해 대도시의 하나인 대전을 고려하고 ‘대전 & 환경’이라는 키워드를 중심으로 SNS 텍스트 데이터에 대한 토픽 모델링(LDA)과 감성 분석을 실시하고자 한다. 먼저 포털 사이트의 블로그, 카페, 웹문서, 대전 지역신문 등으로부터 게시글의 주제, 내용 등을 포함한 소셜 미디어 데이터를 수집하고 전처리를 실시한 후, Python을 사용하여 게시물의 토픽(주제)에 대한 모델링을 실시하였으며 각 토픽별 사용하는 감성 어휘의 차이가 있는가를 검증하였다. 2018년 모 침대회사에서 판매한 침대에서 방사선 물질인 라돈이 기준치 이상으로 검출되었다는 사실이 알려지면서 큰 사회적 이슈가 되었으며 이 외에도 미세먼지, 석면, 공기 오염 등등 환경적 위험 요소들이 급증하면서 사람들의 환경에 대한 관심이 높아지고 있는 것이 본 연구를 하게 된 배경이다. 본 연구 결과 콘텐츠의 주제에 따라 사용하는 긍·부정 감성 어휘에 상당한 차이가 발생한다는 것을 확인할 수 있었으며 환경과 더불어 ‘건강식품’에 대한 관심이 많다는 새로운 인사이트(insight)를 얻게 된 것이 흥미롭다.

영문 초록

The purpose of this study is to analyze how the types of posting or topics that appear on specific topics on portal sites are composed and what differences occur in emotional vocabulary used in relation to them. Especially, in relation to the environment, the topics of content posted on SNS are identified, and the relationship between the topics of these posts and sentiment words sre identified. For this study, topic modeling (LDA) and sentiment analysis on SNS text data, focusing on the keywords of ‘Daejeon’, a large city, and environment'. First, social media data, including the topic and content of postings was collected from blogs, cafes, web documents, and Daejeon local newspapers on portal sites and then preprocessed. Using Python, modeling was performed on the topic of the post, and it was verified whether there was a difference in the emotional vocabulary used for each topic. Using Python, modeling was performed on the topic of the post, and it was tested whether there was a difference in the sentimental word used for each topic. In 2018, it became a big social issue when it became known that radon, a radioactive material, was detected above the standard in a bed sold by a bed company. In addition, as environmental risk factors such as fine dust, asbestos, and air pollution are rapidly increasing, people's interest in the environment is increasing, which is the background of this study. As a result of this study, it was confirmed that there is a significant difference in the positive and negative sentiment words used depending on the topic of the content. It was also interesting to gain a new insight that people are interested in 'healthy food' along with the environment.


1. 서론
2. 연구 모형
3. 텍스트 마이닝 및 실증 분석
4. 결론


서혜선. (2023).SNS 텍스트 데이터 기반 대전시 환경 관련 토픽 모델링 및 감성 분석. Journal of The Korean Data Analysis Society (JKDAS), 25 (3), 949-958


