본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

사용자 사전과 형태소 토큰을 사용한 트랜스포머 기반 형태소 분석기

이용수 10

영문명
A Morpheme Analyzer based on Transformer using Morpheme Tokens and User Dictionary
발행기관
한국스마트미디어학회
저자명
김동현 김도국 김철희 신명선 서영덕
간행물 정보
『스마트미디어저널』Vol12, No.9, 19~27쪽, 전체 9쪽
주제분류
공학 > 컴퓨터학
파일형태
PDF
발행일자
2023.10.30
4,000

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

형태소는 한국어에서 의미를 가진 최소단위이기 때문에, 한국어 언어모델의 성능을 높이기 위해서는 정확한 형태소 분석기의 개발이 필요하다. 기존의 형태소 분석기는 대부분 어절 단위 토큰을 입력 값으로 학습하여 형태소 분석 결과를 제시한다. 하지만 한국어의 어절은 어근에 조사나 접사가 부착된 형태이기 때문에 어근이 같은 어절이어도 조사나 접사로 인해 의미가 달라지는 성향이 있다. 따라서 어절 단위 토큰을 사용하여 형태소를 학습하면 조사나 접사에 대한 오분류가 발생할 수 있다. 본 논문에서는 형태소 단위의 토큰을 사용하여 한국어 문장에 내재된 의미를 파악하고, Transformer를 사용한 시퀀스 생성 방식의 형태소 분석기를 제안한다. 또한, 미등록 단어 문제를 해결하기 위해 학습 말뭉치 데이터를 기반으로 사용자 사전을 구축하였다. 실험 과정에서 각 형태소 분석기가 출력한 형태소와 품사 태그를 함께 정답 데이터와 비교하여 성능을 측정하였으며, 실험 결과 본 논문에서 제시한 형태소 분석기가 기존 형태소 분석기에 비해 성능이 높음을 증명하였다.

영문 초록

Since morphemes are the smallest unit of meaning in Korean, it is necessary to develop an accurate morphemes analyzer to improve the performance of the Korean language model. However, most existing analyzers present morpheme analysis results by learning word unit tokens as input values. However, since Korean words are consist of postpositions and affixes that are attached to the root, even if they have the same root, the meaning tends to change due to the postpositions or affixes. Therefore, learning morphemes using word unit tokens can lead to misclassification of postposition or affixes. In this paper, we use morpheme-level tokens to grasp the inherent meaning in Korean sentences and propose a morpheme analyzer based on a sequence generation method using Transformer. In addition, a user dictionary is constructed based on corpus data to solve the out-of-vocabulary problem. During the experiment, the morpheme and morpheme tags printed by each morpheme analyzer were compared with the correct answer data, and the experiment proved that the morpheme analyzer presented in this paper performed better than the existing morpheme analyzer.

목차

Ⅰ. 서론
Ⅱ. 관련 연구
Ⅲ. 사용자 사전과 형태소 토큰을 사용한 Transformer 기반 형태소 분석기
Ⅳ. 실험 및 평가
Ⅴ. 결론
REFERENCES

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

김동현,김도국,김철희,신명선,서영덕. (2023).사용자 사전과 형태소 토큰을 사용한 트랜스포머 기반 형태소 분석기. 스마트미디어저널, 12 (9), 19-27

MLA

김동현,김도국,김철희,신명선,서영덕. "사용자 사전과 형태소 토큰을 사용한 트랜스포머 기반 형태소 분석기." 스마트미디어저널, 12.9(2023): 19-27

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제