본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

고교학점제 뉴스 기사를 활용한 LDA 토픽모델링의 적정 표본크기 분석 연구

이용수 75

영문명
Optimal sample size analysis for LDA topic modeling using news articles about high school credit system
발행기관
한국교육평가학회
저자명
전은정 최윤정
간행물 정보
『교육평가연구』제36권 제3호, 365~404쪽, 전체 40쪽
주제분류
사회과학 > 교육학
파일형태
PDF
발행일자
2023.09.30
7,600

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

본 연구는 LDA 토픽모델링 분석에 적합한 문서의 수를 알아보고자 하였다. 이를 위해 고교학점제 도입 발표 이후 2022년까지 고교학점제를 주제로 보도된 뉴스 기사 7,115건을 대상으로 샘플데이터를 생성하여 R 프로그램을 활용하여 토픽 분석 후 네 가지 방법을 통해 LDA 토픽모델링에 적합한 문서 수를 분석하고 결과를 종합하였다. 첫 번째, 문서 수에 따라 6가지 유형별 20개씩 총 120개의 샘플데이터를 생성하여 전체 문서를 대상으로 분석한 토픽과 일치도를 분석하였다. 두 번째, ROC곡선의 AUC를 통해 문서 수에 따른 전체 문서 토픽과 동일 토픽 분석력을 알아보았다. 세 번째, 문서 수별로 전체 문서 토픽과 동일한 토픽이 분석된 횟수를 비교하였다. 네 번째, 전체 문서 토픽별 문서의 할당률 및 가중치를 반영한 샘플데이터를 문서 수별 6가지 유형으로 생성하여 토픽 일치도를 비교하였다. 분석 결과 LDA 토픽모델링 분석을 위해서는 연구 대상인 문서 수가 최소 약 700건은 확보되어야 하고, 약 2,000건 이상의 문서가 확보될 경우 충분한 것으로 나타났다.

영문 초록

This study aimed to determine the number of documents suitable for LDA topic modeling analysis. Sample data was created from 7,115 news articles covering the high school credit system until 2022, following the announcement of the introduction of the high school credit system. Four different methods were employed for analysis. First, a total of 120 pieces of sample data, comprising 6 types with 20 pieces, were created, and the analyzed topics and concordance were examined for all documents. Second, through the AUC of the ROC curve, the discriminative power of all documents and the analysis of the same topic variables based on the number of documents were investigated. Third, the total document topics and the frequency of the same topic were analyzed in relation to the number of documents. Fourth, after analyzing the topics within the entire document, sample data reflecting the document ratio and weight by topic were created and compared based on the number of documents. The findings of this study indicate that a minimum of approximately 700 documents is required for robust LDA topic modeling analysis. Moreever, the analysis suggests that collecting over 2,000 documents provides sufficient data for reliable results.

목차

Ⅰ. 서론
Ⅱ. 연구방법
Ⅲ. 연구결과
Ⅳ. 결론 및 논의
참고문헌

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

전은정,최윤정. (2023).고교학점제 뉴스 기사를 활용한 LDA 토픽모델링의 적정 표본크기 분석 연구. 교육평가연구, 36 (3), 365-404

MLA

전은정,최윤정. "고교학점제 뉴스 기사를 활용한 LDA 토픽모델링의 적정 표본크기 분석 연구." 교육평가연구, 36.3(2023): 365-404

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제