학술논문
점별 상호정보량을 이용한 LDA 토픽모형 추론
이용수 28
- 영문명
- Inference of Latent Dirichlet Allocation Topic Model using PMI
- 발행기관
- 한국자료분석학회
- 저자명
- 남소희(Sohee Nam) 전수영(Sooyoung Cheon)
- 간행물 정보
- 『Journal of The Korean Data Analysis Society (JKDAS)』Vol.21 No.6, 2789~2800쪽, 전체 12쪽
- 주제분류
- 자연과학 > 통계학
- 파일형태
- 발행일자
- 2019.12.31
4,240원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.
국문 초록
LDA 토픽모형은 수많은 문서집합 내의 토픽을 추출하는 통계적 모형으로, 하나의 문서를 여러 단어들의 집합으로 간주하며 문서에서 높은 빈도로 동시에 발생하는 단어집합을 추출해주는 클러스터링기법의 일종이다. LDA 모형은 문서집합 내 단어들을 통해서 해당 토픽이 어떤 이슈인지 파악할 수 있으며 토픽들이 문서상에서 어떤 분포를 가지는지 계산할 수 있어 높은 성능과 편의성으로 토픽모형 분야에서 표준적인 방법으로 인식되고 있다. LDA 토픽모형추론을 위한 근사추론 연구는 Bag-of-Word 기반으로 각 단어의 가중치를 동등하게 보아 상대적 중요성을 고려하지 않는다. 본 연구는 단어의 상대적 중요성을 반영한 점별 상호정보량을 이용한 근사적인 사후분포를 이용하고, 사후분포로 부터 표본추출을 위해 깁스내 메트로폴리스-헤스팅스(PWMH-Gibbs) 알고리즘을 이용한 근사추론 방법을 제안하고자 한다. PWMH-Gibbs 알고리즘은 불용어 및 빈번하게 사용되는 단어를 제거하여 LDA 토픽모형의 성능을 향상시킨다. PWMH- Gibbs 알고리즘을 이용한 근사추론 방법은 실 자료 분석을 통해 제안된 방법이 더욱 정확한 결과를 제공하는 우수성을 보여 준다.
영문 초록
The LDA topic model is a statistical model for extracting topics within a large collection of documents. This model is a kind of clustering technique that considers a document as a set of multiple words and extracts a set of words that occur simultaneously in a document at a high frequency. Through the words in the document set, we can figure out which issues are related to the topic and calculate how the topics are distributed in the document. It is recognized as a standard method in the topic model field because of high performance and convenience. The methods of traditional approximation inference for the LDA topic model are not consider the relative importance of word based on Bag-of-Word. We propose an approximation inference method using PMI weighted Metropolis-Hastings within Gibbs (PWMH-Gibbs) with the relative importance of word. PWMH-Gibbs improves the performance of the LDA topic model by removing stopwords and common words. The numerical results indicate that PWMH-Gibbs can outperform callapsed Gibbs and MH within Gibbs producing much more accurate estimates.
목차
1. 서론
2. LDA 토픽모형 근사추론
3. PWMH-Gibbs 알고리즘을 이용한 LDA 근사추론
4. 모의실험 및 실증분석
5. 결론
References
키워드
해당간행물 수록 논문
- 영-불변 측도로서 변형된 불균형 비 측도의 제안
- SNS 중독에 영향을 미치는 요인
- 국내 은행의 무수익여신 결정요인에 관한 연구
- 연관성의 방향을 반영한 헬링거 측도의 활용
- SVR과 LSTM 모형의 토양습도 예측력 비교분석
- 감사위원회보고서의 자발적 공시 결정요인
- 지방은행의 경쟁력 확보를 위한 서비스 품질증진 방안에 대한 연구
- 확정기여형(DC) 퇴직연금의 라이프사이클 투자전략
- 디리슐레 확률과정과 스플라인을 이용한 베이지안 준모수적 구조방정식 모형 연구
- Spatial Randomness Applied to the Assessment of the Association Between a Disease and a Phenotype
- A Research on Corporate Governance and Risk Taking Behavior
- 비례 보고 비의 구간 추정에 의한 연관성 평가 방안
- Dividend Yield, Stock Returns, and Dividend Growth: Asian Developed Stock Markets
- 수소 선박 개발의 경제적 파급효과
- 텍스트 마이닝 기반 보건 분야에서의 블록체인 이슈 분석
- 한국 청년의 가족배경 및 경제활동과 혼인 결정
- 동태적 조건부 상관성을 이용한 미세먼지 자료분석
- 시간변화에 따른 TV방송 프로그램 장르 선호 패턴의 변화 분석
- 점별 상호정보량을 이용한 LDA 토픽모형 추론
- 유튜브 영상 네트워크 중심성 지표들에 대한 고찰
- 기본간호학 실습교육에서 간호학생의 학습유형에 따른 성찰일지 작성이 학업적 자기효능감과 학습태도에 미치는 효과
- 사회적 재난에 의한 간접외상 경험에서의 개인차
- Copula 모형을 이용한 국제원유가격과 투자심리의 관계 분석
- 소유구조에 따른 합병기업의 경제적 성과의 차이에 대한 분석
- A Study on Tests for Zero-Inflated Poisson Regression
- 시설오이의 생육에 영향을 미치는 최적 환경요인에 관한 연구
- 비상장기업의 연구개발비가 기업이익에 미치는 영향
- Exploring Independent Component Analysis Based on Ball Covariance
- Factors Related to Depressive Symptoms Among Middle-aged Women in Korea by Menopause
- 사회적 지지의 수혜 및 제공이 죄책감에 미치는 영향
- 보험회사 사업비행태의 변화와 산업구분별 차이에 관한 연구
- DEA를 이용한 육용종계 농가의 효율성 영향 요인에 관한 연구
- 국내 통신 수요탄력성 추정에 관한 연구
- 지역 축제의 고용 효과에 관한 실증 분석
- 블록 방법에 의한 적응적 영상 잡음제거 알고리즘
- 가상환경을 이용한 행위화가 기억인출에 미치는 영향
- 커널동등화 방법 고찰 및 점수동등화 비교 연구
- 환율 변동과 업종별 기업실적 및 주식수익률 간의 관계에 관한 연구
- 국내 A형간염 위험지역과 위험시기 탐색
- 심층 신뢰망을 이용한 바이오가스 생산량 예측
- 호텔종사원의 조직 내 무례가 감정소진, 정서적 몰입, 직무성과에 미치는 영향
- 유아발레 활동을 통한 자아존중감과 자기조절력이 사회성 기술에 미치는 영향
참고문헌
관련논문
자연과학 > 통계학분야 NEW
- 행사성 사업의 효과 분석 방안
- Journal of The Korean Data Analysis Society (JKDAS) Vol.26 No.2 목차
- OTT 서비스 확산 이후 유료방송 VOD 이용의 결정 요인 분석
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!