본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안

이용수 16

영문명
A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing
발행기관
한국기록관리학회
저자명
송치호(Chiho Song)
간행물 정보
『한국기록관리학회지』제24권 제2호, 65~88쪽, 전체 24쪽
주제분류
사회과학 > 사회과학일반
파일형태
PDF
발행일자
2024.05.30
무료

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

본 연구는 인공지능의 하위분야인 자연어 처리(NLP)의 개체명 인식(NER)을 통하여 기록에 내재된 메타데이터 값과 기술 정보를 추출하는 방안에 대한 시험적 연구이다. 연구 대상은 1960~1970년대에 생산된 구로공단 수기 기록물(약 1,200 쪽, 8만여 단어)을 대상으로 하였다. 디지털화를 포함하는 전처리 과정과 함께 기록 텍스트에 대해서 구글의 BERT 언어 모델에 기반하여 구현되어 공개된 언어 API를 사용하여 개체명을 인식하였다. 그 결과로 구로공단의 과거 기록에 포함된 173개의 인명과 314개의 조직 및 기관 개체명을 추출할 수 있었고, 이는 기록의 내용에 대한 직접적인 검색어로 사용될 수 있다고 기대된다. 그리고 자연어 처리의 이론적 방법론을 반·비정형의 텍스트로 이루어진 실제 기록물에 적용할 때 발생하는 문제점을 파악하여 해결 방안과 고려해야 할 시사점을 제시했다.

영문 초록

This pilot study explores a method of extracting metadata values and descriptions from records using named entity recognition (NER), a technique in natural language processing (NLP), a subfield of artificial intelligence. The study focuses on handwritten records from the Guro Industrial Complex, produced during the 1960s and 1970s, comprising approximately 1,200 pages and 80,000 words. After the preprocessing process of the records, which included digitization, the study employed a publicly available language API based on Google’s Bidirectional Encoder Representations from Transformers (BERT) language model to recognize entity names within the text. As a result, 173 names of people and 314 of organizations and institutions were extracted from the Guro Industrial Complex’s past records. These extracted entities are expected to serve as direct search terms for accessing the contents of the records. Furthermore, the study identified challenges that arose when applying the theoretical methodology of NLP to real-world records consisting of semistructured text. It also presents potential solutions and implications to consider when addressing these issues.

목차

1. 서론
2. 기록관리와 자연어 처리
3. 자연어 처리의 적용: 구로공단 기록물을 중심으로
4. 시사점
5. 결론
참고문헌

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

송치호(Chiho Song). (2024).자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안. 한국기록관리학회지, 24 (2), 65-88

MLA

송치호(Chiho Song). "자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안." 한국기록관리학회지, 24.2(2024): 65-88

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제