학술논문
인공지능 기반 한문 번역을 위한 코퍼스 추출 및 정제 과정
이용수 113
- 영문명
- Corpus Extraction and Purification Process for AI-based Chinese Character Translation
- 발행기관
- 한국리터러시학회
- 저자명
- 전병구
- 간행물 정보
- 『리터러시 연구』14권 4호, 41~67쪽, 전체 27쪽
- 주제분류
- 사회과학 > 교육학
- 파일형태
- 발행일자
- 2023.08.31
6,040원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

국문 초록
인공지능의 영역이 날로 확대하는 시대에 AI를 활용하여 산적한 한문 고전을 번역할 수 있다면 얼마나 좋을지 상상만 해도 즐거운 일이다. 인공지능 번역을 상용화한다면 한문 번역에 들어가는 인력과 시간을 파격적으로 줄일 수 있기 때문이다. 이를 위해 여러 기관에서 인공지능을 활용한 한자 인식과 한문 번역 프로그램을 개발하면서 성능을 높이고 있다. 인공지능 한문 번역에 관해서는 기술 분야를 중심으로 연구가 집중되어 있고 코퍼스 추출 과정과 정제 과정에 관해서는 보고된 연구가 없다.
인공지능을 훈련하는 딥러닝(Deep Learning)을 위해서는 자동번역 데이터, 즉 한문원문과 번역문을 병렬로 연결한 코퍼스가 만들어져야 한다. 코퍼스를 만들기 위해서는 먼저 휴먼 번역을 통해 많은 코퍼스 자료를 추출하고, 상세한 지침을 바탕으로 정제 작업을 거쳐 양질의 코퍼스를 만든다. 여기에서는 추출된 코퍼스 자료가 어떻게 취사선택 되었는지 그 정제 과정을 확인하고자 하였다.
코퍼스 정제 과정을 확인한 결과 각종 제목과 항목, 명칭 등의 단어나, 도량형 단위 또는 사람 숫자를 모두 제외하였다. 지명, 인명, 관직, 장소, 품목, 연월일, 고유명사가 들어간 짧은 문장도 제거하였다. 또 문장 첫머리에 나오는 부사, 접속사, 시제, 발어사 등 한두 글자로 된 접두어도 삭제하였다. 추후 인공지능 기반 한문 번역을 위한 코퍼스 구축에서 이런 내용을 참작하여 추출작업을 한다면 번역 기간과 경비를 크게 단축할 수 있을 것으로 기대한다.
영문 초록
It is fun to imagine how good it would be to be able to translate a lot of Chinese classics by using AI in an era where the field of AI is expanding day by day. This is why commercialization of machine translation called artificial intelligence can drastically reduce the manpower and time spent on classical Chinese translation. To this end, various institutions are improving their performance by developing artificial intelligence Chinese character recognition and Chinese character translation programs. AI-based Chinese character translation, research is concentrated in the field of technology, and there are no reported studies on the corpus extraction process and purification process.
For deep learning, which trains artificial intelligence, automatic translation data, that is, corpus that connects Chinese text and translations in parallel, must be created. In order to make a corpus, a lot of corpus data is extracted through human translation, and a high-quality corpus is made through refining based on detailed guidelines. Here, we tried to confirm the purification process of how the extracted corpus data were selected.
As a result of checking the corpus purification process, words such as various titles, items, and names, metrological units or number of people were all excluded. Short sentences containing place names, human names, government posts, places, products, dates, and proper nouns were also removed because they were not appropriate as corpus. In addition, prefixes consisting of one or two letters, such as adverbs, conjunctions, tense, and pronounciation at the beginning of the sentence, were deleted. In the future, it is expected that the time and expense of translation will be greatly reduced if extraction is carried out in consideration of these contents in the construction of corpus for AI-based Chinese character translation.
목차
1. 머리말
2. 코퍼스 추출 과정
3. 코퍼스 정제 과정
4. 맺음말
키워드
해당간행물 수록 논문
- [서평] 메타 리터러시로서 미디어 리터러시의 발전과 확장성
- [서평] 플롯 유형론에 나타난 이야기 원형 찾기의 양상과 의미에 대한 소고
- 김수영 시의 리듬 연구
- 임기현의 「금강산유상일기」에 대한 연구
- 새로운 가사집 『금수강산유람기(錦繡江山遊覽記)』의 발굴과 자료적 가치
- 텍스트 난이도 측정을 위한 응집성 측정 변수 연구
- 쓰기 효능감과 쓰기 능력에 따른 초등 필자 유형 분석 연구
- 쓰기 능력 발달 척도 개발 및 타당화
- 독자의 읽기 중 딴생각(Mind Wandering)유발 요인 분석
- 2022 국어과 교육과정 ‘독서와 작문’의 쟁점과 과제
- K-드라마를 통한 ‘Big C·Little c’ 통합 교수·학습 방안
- 학문 목적 한국어 교육과정 연구 동향 분석과 제언
- 한국어 학습자를 위한 상호문화 교수·학습 설계가 문화지능 향상에 미치는 영향
- 학위논문 장르 교육에서 자기중심성 극복을 위한 위키(wiki) 활동 설계 방안
- 언어 네트워크 분석 방법을 활용한 한국어 강연 어휘 분석 연구
- 국외 대학 디지털 리터러시 수업 사례 검토
- 글쓰기 수업에 대한 학습자의 만족과 요구 분석
- 직소( Jigsaw) 협동학습을 적용한 자기소개서 교육 방법 및 사례 연구
- 대학 글쓰기 교육에 있어서 모듈 운영의 의의 분석
- 웹툰에 반영된 문화 리터러시
- 인컨텍스트 러닝을 통한 ChatGPT의 시적 표현 해석 가능성 연구
- 대학 글쓰기에서의 생성형 AI 활용 윤리에 대한 학부생 인식 연구
- 인공지능 기반 한문 번역을 위한 코퍼스 추출 및 정제 과정
- 생성형 AI 시대의 교양교육으로서 글쓰기 교육과 리터러시 역량
- 리터러시 연구 14권 4호 목차
- [서평] 더, 좋은 이야기를 기대하는 마음에 대하여
- [서평] 한국 근대미술의 요람, 서촌의 화가와 예술가들 이야기
참고문헌
관련논문
사회과학 > 교육학분야 BEST
더보기사회과학 > 교육학분야 NEW
- 고3 다문화 학생이 지각한 학업성취도가 진로태도 준비성에 미치는 영향: 부모 진로 관련 행동의 조절효과
- 토픽모델링을 활용한 진로전담교사의 학교 진로교육에 관한 요구분석
- 키워드 네트워크 분석을 활용한 국내 잡 크래프팅 연구 동향 분석
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
