학술논문
고교학점제 뉴스 기사를 활용한 LDA 토픽모델링의 적정 표본크기 분석 연구
이용수 137
- 영문명
- Optimal sample size analysis for LDA topic modeling using news articles about high school credit system
- 발행기관
- 한국교육평가학회
- 저자명
- 전은정 최윤정
- 간행물 정보
- 『교육평가연구』제36권 제3호, 365~404쪽, 전체 40쪽
- 주제분류
- 사회과학 > 교육학
- 파일형태
- 발행일자
- 2023.09.30
7,600원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

국문 초록
본 연구는 LDA 토픽모델링 분석에 적합한 문서의 수를 알아보고자 하였다. 이를 위해 고교학점제 도입 발표 이후 2022년까지 고교학점제를 주제로 보도된 뉴스 기사 7,115건을 대상으로 샘플데이터를 생성하여 R 프로그램을 활용하여 토픽 분석 후 네 가지 방법을 통해 LDA 토픽모델링에 적합한 문서 수를 분석하고 결과를 종합하였다. 첫 번째, 문서 수에 따라 6가지 유형별 20개씩 총 120개의 샘플데이터를 생성하여 전체 문서를 대상으로 분석한 토픽과 일치도를 분석하였다. 두 번째, ROC곡선의 AUC를 통해 문서 수에 따른 전체 문서 토픽과 동일 토픽 분석력을 알아보았다. 세 번째, 문서 수별로 전체 문서 토픽과 동일한 토픽이 분석된 횟수를 비교하였다. 네 번째, 전체 문서 토픽별 문서의 할당률 및 가중치를 반영한 샘플데이터를 문서 수별 6가지 유형으로 생성하여 토픽 일치도를 비교하였다. 분석 결과 LDA 토픽모델링 분석을 위해서는 연구 대상인 문서 수가 최소 약 700건은 확보되어야 하고, 약 2,000건 이상의 문서가 확보될 경우 충분한 것으로 나타났다.
영문 초록
This study aimed to determine the number of documents suitable for LDA topic modeling analysis. Sample data was created from 7,115 news articles covering the high school credit system until 2022, following the announcement of the introduction of the high school credit system. Four different methods were employed for analysis. First, a total of 120 pieces of sample data, comprising 6 types with 20 pieces, were created, and the analyzed topics and concordance were examined for all documents. Second, through the AUC of the ROC curve, the discriminative power of all documents and the analysis of the same topic variables based on the number of documents were investigated. Third, the total document topics and the frequency of the same topic were analyzed in relation to the number of documents. Fourth, after analyzing the topics within the entire document, sample data reflecting the document ratio and weight by topic were created and compared based on the number of documents. The findings of this study indicate that a minimum of approximately 700 documents is required for robust LDA topic modeling analysis. Moreever, the analysis suggests that collecting over 2,000 documents provides sufficient data for reliable results.
목차
Ⅰ. 서론
Ⅱ. 연구방법
Ⅲ. 연구결과
Ⅳ. 결론 및 논의
참고문헌
해당간행물 수록 논문
- 잠재전이분석에서 종단측정동일성 검증을 위한 적합도 지수 수행력 탐색
- 토픽 모델링을 활용한 「교육평가연구」 학술지의 연구 동향 분석
- 성장혼합모형에서 잠재계층과 연속형 결과변인 간 관계 추정방법의 비교
- 혼합효과 랜덤 포레스트를 적용한 청소년기 진로성숙도 발달 예측 변인 탐색
- 대학생의 성취목표와 학업참여가 자기평가 수행에 미치는 영향 탐색 및 성별에 따른 차이 분석
- 영과잉 자료의 측정동일성 검증
- 국어 교과 역량 측정도구 개발 및 타당화 연구
- 고교학점제 뉴스 기사를 활용한 LDA 토픽모델링의 적정 표본크기 분석 연구
- 프로그램 평가에서의 이해관계인의 관여
참고문헌
관련논문
사회과학 > 교육학분야 BEST
더보기사회과학 > 교육학분야 NEW
- 고3 다문화 학생이 지각한 학업성취도가 진로태도 준비성에 미치는 영향: 부모 진로 관련 행동의 조절효과
- 토픽모델링을 활용한 진로전담교사의 학교 진로교육에 관한 요구분석
- 키워드 네트워크 분석을 활용한 국내 잡 크래프팅 연구 동향 분석
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
