본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

텍스트 분할을 적용한 KoBART 기반의 실시간 장문 뉴스 요약 시스템 구현

이용수 16

영문명
Implementation of KoBART-Based Real-Time Long-News Summarization System Using Text Segmentation
발행기관
한국산업기술융합학회(구. 산업기술교육훈련학회)
저자명
김명권(Myeong-Kwon Kim) 이상록(Sangrok Lee)
간행물 정보
『산업기술연구논문지』제29권 3호, 27~35쪽, 전체 9쪽
주제분류
공학 > 산업공학
파일형태
PDF
발행일자
2024.09.30
4,000

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

본 논문은 KoBART 모델을 기반으로 실시간 장문 뉴스 요약 시스템을 구현하였다. KoBART 모델은 토큰길이가 1024 이상의 뉴스에 대해 모델 특성상 요약이 불가하다. 이를 보완하기 위해 장문의 뉴스를 문단으로 분할하고, 분할된 문단을 요약한 후에 요약된 문장을 재요약하는 방식으로 구현하였다. 그리고, 공인된 AI 허브의 데이터셋으로 성능을 평가하여, 구현된 2단계 요약 방식의 타당성을 입증하였다. 하지만, AI 허브의 데이터셋에서 제공하는 뉴스의 토큰 길이가 대부분 1024 이하이므로, 허깅 페이스에서 제공하는 토큰 길이 1024 이상의 데이터셋을 적용하여 장문의 뉴스에 대한 요약 성능을 분석하였다. 토큰 길이가 1024 이상인 장문 뉴스를 512의 문단 크기로 분할하여 요약하면, 루지 스코어는 평균 33.99%이고, 요약 시 소요되는 실행시간은 0.8492초로 측정되었다. 따라서, 구현된 장문 뉴스 요약 시스템이 토큰 길이가 1024 이상의 장문 뉴스에서도 실시간 서비스가 가능함을 확인하였다.

영문 초록

In this study, a real-timelong-news summarization system is implemented based on the model. Owing to its characteristics, the KoBART model cannot summarize news with a token length of 1024 or more. Hence, we implemented a method of dividing long news into paragraphs, summarizing the divided paragraphs, and then resummarizing the summarized sentences. First, we evaluated the performance using an AI Hub dataset to validate the implemented two-stage summarization method. However, because the token length of most of the news provided in the AI Hub dataset is 1024 or less, we analyzed the performance for long news by applying the dataset provided by Hugging Face with a token length of 1024 or more. When summarizing long news with a token length of 1024 or more by dividing it into 512 paragraphs, the average Luge score is 33.99% and the runtime required for summarization is 0.8492 s. Therefore, we confirmed that the implemented long-news summarization system can provide real-time services, even for long news with a token length of 1024 or more.

목차

Ⅰ. 서 론
Ⅱ. 관련 연구
Ⅲ. 장문 뉴스 요약 시스템
Ⅳ. 시스템 성능 분석
Ⅴ. 결 론
ACKNOWLEDGEMENTS
References

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

김명권(Myeong-Kwon Kim),이상록(Sangrok Lee). (2024).텍스트 분할을 적용한 KoBART 기반의 실시간 장문 뉴스 요약 시스템 구현. 산업기술연구논문지, 29 (3), 27-35

MLA

김명권(Myeong-Kwon Kim),이상록(Sangrok Lee). "텍스트 분할을 적용한 KoBART 기반의 실시간 장문 뉴스 요약 시스템 구현." 산업기술연구논문지, 29.3(2024): 27-35

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제