본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

LSTM 기반의 sequence-to-sequence 모델을 이용한 한글 자동 띄어쓰기

이용수 97

영문명
(LSTM based sequence-to-sequence Model for Korean Automatic Word-spacing
발행기관
한국스마트미디어학회
저자명
이태석(Tae Seok Lee) 강승식(Seung Shik Kang)
간행물 정보
『스마트미디어저널』Vol7, No.4, 5~11쪽, 전체 7쪽
주제분류
공학 > 컴퓨터학
파일형태
PDF
발행일자
2018.12.31
4,000

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

자동 띄어쓰기 특성을 효과적으로 처리할 수 있는 LSTM(Long Short-Term Memory Neural Networks) 기반의 RNN 모 델을 제시하고 적용한 결과를 분석하였다. 문장이 길거나 일부 노이즈가 포함된 경우에 신경망 학습이 쉽지 않은 문제를 해결하기 위하여 입력 데이터 형식과 디코딩 데이터 형식을 정의하고, 신경망 학습에서 드롭아웃, 양방향 다층 LSTM 셀, 계층 정규화기법, 주목 기법(attention mechanism)을 적용하여 성능을 향상시키는 방법을 제안하였다. 학습 데이터로는 세종 말뭉치 자료를 사용하였으며, 학습 데이터가 부분적으로 불완전한 띄어쓰기가 포함되어 있었음에도 불구하고, 대량의 학습 데이터를 통해 한글 띄어쓰기에 대한 패턴이 의미 있게 학습되었다. 이것은 신경망에서 드롭아웃 기법을 통해 학습 모델의 오버피팅이 되지않도록 함으로써 노이즈에 강한 모델을 만들었기 때문이다. 실험결과로 LSTM sequence-to-sequence 모델이 재현율과 정확도를 함께 고려한 평가 점수인 F1 값이 0.94로 규칙 기반 방식과 딥러닝 GRU-CRF보다 더 높은 성능을 보였다.

영문 초록

We proposed a LSTM-based RNN model that can effectively perform the automatic spacing characteristics. For those long or noisy sentences which are known to be difficult to handle within Neural Network Learning, we defined a proper input data format and decoding data format, and added dropout, bidirectional multi-layer LSTM, layer normalization, and attention mechanism to improve the performance. Despite of the fact that Sejong corpus contains some spacing errors, a noise-robust learning model developed in this study with no overfitting through a dropout method helped training and returned meaningful results of Korean word spacing and its patterns. The experimental results showed that the performance of LSTM sequence-to-sequence model is 0.94 in F1-measure, which is better than the rule-based deep-learning method of GRU-CRF.

목차

Ⅰ. 서 론
ll 본 론
lll 결 론

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

이태석(Tae Seok Lee),강승식(Seung Shik Kang). (2018).LSTM 기반의 sequence-to-sequence 모델을 이용한 한글 자동 띄어쓰기. 스마트미디어저널, 7 (4), 5-11

MLA

이태석(Tae Seok Lee),강승식(Seung Shik Kang). "LSTM 기반의 sequence-to-sequence 모델을 이용한 한글 자동 띄어쓰기." 스마트미디어저널, 7.4(2018): 5-11

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제