본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축

이용수 370

영문명
Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon
발행기관
한국스마트미디어학회
저자명
강승식(Seung-Shik Kang) 원혜진(HyeJin Won) 이민행(Minhaeng Lee)
간행물 정보
『스마트미디어저널』Vol9, No.4, 144~151쪽, 전체 8쪽
주제분류
공학 > 컴퓨터학
파일형태
PDF
발행일자
2020.12.30
4,000

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

모바일 환경에서 의사소통은 SMS 문자로 이루어진다. SMS 문자에서 사용되는 어휘들은 일반적인 한국어 문어체 문장에서 사용되는 어휘들과 다른 부류의 어휘들이 사용될 것으로 예상할 수 있다. 예를 들어, 일반적인 문어체의 경우 문장의 시작이나 끝맺음이 올바르고 문장의 구성요소가 잘 갖추어졌지만, SMS 문자 말뭉치의 경우 구성요소를 생략 및 간략한 표현으로 대체하는 경우가 많다. 이러한 어휘 사용 특성을 분석하기 위하여, 기존에 구축된 구어체 말뭉치와 문어체 말뭉치를 사용한다. 실험에서는 구어체 말뭉치인 SMS 문자 말뭉치와 네이버 영화평 말뭉치, 그리고 문어체 말뭉치인 한국어 문어체 원시 말뭉치의 어휘 사용 특성을 비교-분석한다. 말뭉치별 어휘 비교 및 분석을 위하여 품사 태그 형용사(VA)를 기준으로 하였고, 공연강도를 측정하기 위해 변별적 공연어휘소 분석 방법론을 사용하였다. 그 결과 ‘좋-’, ‘죄송하-’, ‘즐겁-’ 등 감정표현 형용사들이 SMS 문자 말뭉치에서 선호되는 반면, 네이버 영화평 말뭉치에서는 평가 표현과 관련된 형용사들이 선호되는 것을 확인할 수 있었다. 이러한 과정에서 추출된 공연강도가 높은 형용사를 기준으로 감정어휘 사전을 자동 구축하기 위하여 단어 임베딩 기법을 사용하였으며, 총 343,603개의 감성어휘를 자동 구축하였다.

영문 초록

In a mobile environment, communication takes place via SMS text messages. Vocabularies used in SMS texts can be expected to use vocabularies of different classes from those used in general Korean literary style sentence. For example, in the case of a typical literary style, the sentence is correctly initiated or terminated and the sentence is well constructed, while SMS text corpus often replaces the component with an omission and a brief representation. To analyze these vocabulary usage characteristics, the existing colloquial style corpus and the literary style corpus are used. The experiment compares and analyzes the vocabulary use characteristics of the colloquial corpus SMS text corpus and the Naver Sentiment Movie Corpus, and the written Korean written corpus. For the comparison and analysis of vocabulary for each corpus, the part of speech tag adjective (VA) was used as a standard, and a distinctive collexeme analysis method was used to measure collostructural strength. As a result, it was confirmed that adjectives related to emotional expression such as good- , sorry- , and joy- were preferred in the SMS text corpus, while adjectives related to evaluation expressions were preferred in the Naver Sentiment Movie Corpus. The word embedding was used to automatically construct a sentiment lexicon based on the extracted adjectives with high collostructural strength, and a total of 343,603 sentiment representations were automatically built.

목차

Ⅰ. 서론
Ⅱ. 말뭉치에 출현한 감정 어휘의 비교-분석
Ⅲ. 감정 어휘 사전의 구축
Ⅳ. 결론 및 향후 연구
REFERENCES

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

강승식(Seung-Shik Kang),원혜진(HyeJin Won),이민행(Minhaeng Lee). (2020).구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축. 스마트미디어저널, 9 (4), 144-151

MLA

강승식(Seung-Shik Kang),원혜진(HyeJin Won),이민행(Minhaeng Lee). "구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축." 스마트미디어저널, 9.4(2020): 144-151

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제