본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

LDA 토픽 모델링의 적정 토픽 수 결정 방법 탐색

이용수 1172

영문명
Exploring methods for determining the appropriate number of topics in LDA: Focusing on perplexity and harmonic mean method
발행기관
한국교육평가학회
저자명
이대영(Dae Young Lee) 이현숙(Hyun Sook Yi)
간행물 정보
『교육평가연구』제34권 제1호, 1~30쪽, 전체 30쪽
주제분류
사회과학 > 교육학
파일형태
PDF
발행일자
2021.03.30
6,400

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

LDA 토픽 모델링으로 텍스트 자료의 토픽을 추출하고 그에 따라 문서를 분류하고자 할 때, 설정하는 토픽 수는 토픽 분류의 정확성과 타당성에 큰 영향을 미친다. 본 연구는 LDA에서 적정한 토픽 수를 정하는 방법으로 조화평균을 사용하는 방식과 혼잡도를 사용하는 방식을 비교 검토하였다. 이에 논문 초록, 뉴스 기사, 그리고 소설 자료를 대상으로 적정 토픽 수를 추출하였으며, 추출된 토픽 수에 대한 신뢰성과 적정성을 비교함으로써 적정한 토픽 수를 보다 합리적으로 정하는 방법이 무엇인지 탐색하였다. 토픽 선정의 적정성을 판정하는 데 있어서 통계적 정보를 바탕으로 결정할 수 있을 때 보다 적절하다는 관점에서 접근하였고, 반복 시행에 의해서도 수리적으로 안정된 토픽의 수를 정할 수 있을 때 더 신뢰성이 높다고 평가하였다. 적정성 평가 준거로는 LDA 모델의 𝛾 분포와 𝛽 분포를 검토하여 확률적으로 평가하였다. 연구 결과 첫째, 조화평균 방식이 혼잡도 방식보다 연구자의 주관적 판단에 의존하는 정도가 낮았다. 또한, 조화평균 방식은 LDA 모델의 α를 조절하여 토픽이 과대 추출되는 경향을 줄일 수 있었다. 둘째, 조화평균 방식은 𝛾 분포와 𝛽 분포 측면에서도 더 독립적이고 적정한 토픽 군집으로 분류할 수 있었다. 셋째, 조화평균 방식을 적용함에 있어서 코퍼스를 구성하는 문서 자료의 특성을 고려하여 적정한 α를 정해야 함을 알 수 있었다. 이와 같은 연구 결과를 바탕으로, 조화평균 방식의 특징과 확장 가능성, 연구의 제한점 등을 논의하였다.

영문 초록

When LDA topic modeling is used to extract topics from text data, exploring the optimal numberof topics is a critical role in establishing the validity and appropriateness of the classification. Thisstudy introduced and compared two methods for determining the number of topics in LDA: theharmonic mean and perplexity. To illustrate procedures of applying the two methods and to evaluatethe relative performance of each method over different data, four kinds of text data including theabstracts of research articles, news articles, and novel data were used. The major findings of this studyare as follows. First, the harmonic mean method was less dependent on the subjective judgment ofthe researcher than the perplexity method. In addition, the harmonic mean method was moreappropriate to facilitate the interpretation of the topics by providing a means to control the level ofα parameter in LDA that generates the most compact number of topics. Second, the harmonic meanmethod produced more independent and appropriate topic clusters in terms of 𝛾 and 𝛽 distributions.Third, in applying the harmonic mean method, an appropriate level of α parameter should becarefully determined in consideration of the characteristics of the documents in the corpus. Based onthe findings, strengths of the HM method along with the limitations of the present study werediscussed.

목차

Ⅰ. 서론
Ⅱ. 이론적 배경
Ⅲ. 연구방법
Ⅳ. 연구 결과
Ⅴ. 논의

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

이대영(Dae Young Lee),이현숙(Hyun Sook Yi). (2021).LDA 토픽 모델링의 적정 토픽 수 결정 방법 탐색. 교육평가연구, 34 (1), 1-30

MLA

이대영(Dae Young Lee),이현숙(Hyun Sook Yi). "LDA 토픽 모델링의 적정 토픽 수 결정 방법 탐색." 교육평가연구, 34.1(2021): 1-30

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제