학술논문
단문의 주제 분석을 위한 LDA와 BTM 토픽모형 평가
이용수 245
- 영문명
- Evaluating LDA and BTM Topic Models for Short Texts
- 발행기관
- 한국자료분석학회
- 저자명
- 문길성(Gil-Seong Mun)
- 간행물 정보
- 『Journal of The Korean Data Analysis Society (JKDAS)』Vol.23 No.3, 1313~1326쪽, 전체 14쪽
- 주제분류
- 자연과학 > 통계학
- 파일형태
- 발행일자
- 2021.06.30
4,480원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.
국문 초록
토픽 모형은 대량의 문서 집합에서 잠재된 주제를 발견하기 위한 비지도학습의 하나이며, 가장 많이 이용되고 있는 모형은 LDA(Latent Dirichlet Allocation)인 것으로 알려져 있다. LDA는 문서 수준에서 단어의 동시 출현 패턴에 기반을 둔 모형이어서 길이가 긴 문서에서는 효과적으로 이용될 수 있으나, 트윗이나 인스턴트 메시지와 같은 길이가 짧은 문서에는 단어의 동시 출현이 희박하고 자주 사용되지 않는 단어의 출현으로 인하여 양질의 주제 추론이 어렵다는 한계가 있다. 이 문제를 개선하기 위한 하나의 대안으로 BTM(Bi-term Topic Model)이 있다. BTM은 bi-term을 사용하여 단어의 동시 발생을 모델링하고, 주제를 찾기 위하여 이러한 단어의 동시 발생 패턴을 bi-term의 말뭉치에서 집계한다. 본 연구의 목적은 LDA와 BTM의 성능을 비교하고 한국어 기반의 텍스트 데이터에서 BTM의 활용 가능성을 검토하는 데 있다. 이를 위하여 토픽의 질을 양적으로 측정할 수 있는 측도들을 검토하고 실제 자료에 적용하여 두 모형을 평가하였다. 평가결과, 주제 일관성과 문서 분류의 정확성 모두 BTM이 LDA 보다 우수한 것으로 나타났다. 이러한 결과는 단문에서 양질의 토픽을 추출하는 방법으로 BTM의 활용 가능성이 있음을 시사한다.
영문 초록
Topic modeling is an unsupervised technique for discovering the underlying topics that occur in a collection of documents, and one popular model is known as LDA (Latent Dirichlet Allocation). It can be used effectively on a variety of long document types because the model implicitly captures the document-level word co-occurrence patterns to reveal topics. The model, however, may have difficulty extracting topics due to the severe data sparsity in short texts such as tweets and instant messages. An alternative to improve this problem is to BTM (Bi-term Topic Model). BTM models the word co-occurrence by using the explicit bi-term, and aggregate these word co-occurrence patterns in the corpus for topic discovering. This study is to compare the performance of LDA and BTM and explore the availability of BTM in Korean-based text data. We reviewed the measures to quantitatively represent the quality of the topics, and evaluated the two models based on real data. As a result, BTM outperformed LDA on short texts, using topic coherence and document classification accuracy as performance measures. The results suggest the availability of BTM to extract topics from short texts.
목차
1. 서론
2. 관련 연구
3. 연구 방법
4. 모형 평가
5. 결론
References
키워드
해당간행물 수록 논문
- 간호대학생의 셀프리더십과 의사소통능력이 인성에 미치는 영향
- 지상파, 종편 뉴스 및 보수우파 유튜브 댓글 분석
- 외국인들의 국적별 한식구매행동의도에 미치는 영향요인에 관한 비교연구
- COVID-19 Vaccine Acceptance in the US and UK in the Early Phase of the Pandemic: AI-Generated Vaccines Hesitancy for Minors, and the Role of Governments
- 연속시간에서의 모호성 회피성향을 감안한 환위험프리미엄과 마팅게일 희귀분석
- 한국의 40세 이상 남녀의 소득, 결혼, Body Mass Index, 건강행태요인이 당뇨에 미치는 영향
- 함수형 자료 기법을 활용한 과채류의 시장요인과 환경요인의 연관성 분석
- 공유가치창출(CSV)이 사회적성과와 협력기업성과에 미치는 파급효과에 관한 연구
- 장기거주자의 출산율과 출산장려금
- 성격특질의 신경과학적 계량화 가능성
- 농산물 도매시장 등급별 기준 가격 제시에 관한 연구
- 개별통화별 환율변화율을 이용한 외화부채와 기업투자와의 관계
- 웹기반 온라인 주의 연구
- 분위회귀분석을 이용한 부산시 공동주택의 과세평가율 영향요인 분석
- Determinants of Dividend Payouts: The Relative Contribution of Dividend Predictors in KOSPI and KOSDAQ Firms
- 심리적 요인이 대졸청년층의 취업 성과에 미치는 영향
- 저출산이 지역 경제성장에 미치는 영향
- 회복마취간호사의 자율성과 역할갈등이 전문직 자아개념에 미치는 영향
- 은행의 대출건전성에 미치는 거시경제변수의 영향력 연구
- 사망원인통계 기반 농림어업 숙련 종사자의 손상사망 특성
- 주택연금 이용자들의 추천의향의 영향 요인 연구
- 민간의료보험이 노년층 의료서비스 이용에 미치는 영향: 만성질환 보유 여부에 따른 차이
- 아마추어 골퍼의 홀별 성적을 이용한 라운드 스코어 예측
- The Effect of Population Aging on Housing Price
- Species Composition of Benthic Macroinvertebrate and Water Evaluation at the Baekyeok Stream in Korea
- 정보 성분의 구간 추정량에 의한 연관규칙의 생성에 관한
- A Research on Corporate Reputation, Governance Structures, Risk Taking Behavior, and Performance
- QUAIDS 모형을 이용한 휘발유와 경유의 탄력성 추정
- 가계 소비지출구조의 패널 분석
- 여가 라이프스타일을 이용한 중국 대학생의 시장세분화 연구
- 어휘력과 작업기억이 청년과 노인의 문장 읽기 효율성에 미치는 영향
- 기하 브라운 모형을 따르는 KOSPI 주식들을 대상으로 손절매를 고려한 최적 페어 트레이딩 적용 및 성과
- 다문화 청소년 지지유형 분류 및 인지·정서발달 차이 분석
- 투자심리 민감도가 주가수익률 변동성에 미치는 영향
- 자동차전용도로 유지 및 해제에 대한 이용자 의사결정 영향연구
- 단문의 주제 분석을 위한 LDA와 BTM 토픽모형 평가
참고문헌
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!