학술논문
지질과학 분야 한국어 대규모 언어 모델 개발
이용수 6
- 영문명
- Development of a Large-scale Korean Language Model in the Field of Geosciences
- 발행기관
- 대한자원환경지질학회
- 저자명
- 이상호(Sang-ho Lee)
- 간행물 정보
- 『자원환경지질』57권 5호, 539~550쪽, 전체 12쪽
- 주제분류
- 자연과학 > 지질학
- 파일형태
- 발행일자
- 2024.10.31
4,240원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.
국문 초록
최근 대규모 생성형 언어 모델의 급격한 발달과 상용화가 이루어지면서 모델 출력의 적정성, 전문성 문제 및 데이터 보안 문제가 제기되고 있다. 특히 지질과학 유관 분야에서는 가공된 자료 및 전처리의 어려움과 개발 사례의 부족으로 인해 해당 분야에 특화된 한국어 언어 모델 개발은 아직 진행된 사례가 없다. 이에 따라 본 연구에서는 지질과학 분야에 특화된 한국어 언어 모델 개발을 위한 전반적인 과정을 수행하고 이를 평가함으로써 유관 분야에서의 적용 가능성을 알아보고자 하였다. 이를 위하여 지질과학 유관 분야의 학술 자료를 수집하고 전처리하여 언어 모델의 학습에 적합한 자료를 준비하고, 이를 Llama 2 모델에 적용하여 사전학습 및 미세조정을 수행하였다. 학습된 모델은 19종의 분야별 평가용 데이터셋을 이용하여 정량적으로 평가하였으며, 그 결과 원본 모델 대비 과학 관련 질의응답 및 및 한국어 지문 해석 관련 기능이 향상된 것으로 나타났다. 본 연구를 통해 개발된 언어 모델은 유관 분야에서 아이디어 창출과 같은 연구 생산성 제고에 기여할 수 있으며, 향후 언어 모델을 활용한 연구 및 활용을 활성화할 수 있을 것으로 기대된다.
영문 초록
With the rapid development and commercialization of large-scale generative language models, concerns regarding the appropriateness of model outputs, expertise, and data security have been emerged. In particular, Korean generative language models specialized in the field of geoscience have not yet been studied due to difficulties in data processing, preprocessing and a lack of development cases. This study conducted the entire process for developing a Korean language model specialized in the field of geoscience and evaluated its applicability in related fields. To achieve this, academic data related to geoscience were collected and preprocessed to create a dataset suitable for the training of the language model. The dataset was applied to the Llama2 model for the training. The trained model was quantitatively evaluated using 19 different evaluation datasets from various fields. The results demonstrated improved functionalities related to scientific question-answering and Korean text interpretation compared to the original model. The language model developed through this study can potentially enhance research productivity in the field of geoscience, offering benefits such as idea generation. The outcomes of this study are expected to stimulate further research and the utilization of generative language models in geoscience in the future.
목차
1. 서 론
2. 연구방법
3. 모델 평가
4. 결 론
Acknowledgements
References
키워드
해당간행물 수록 논문
- 인공위성 원격탐사 기반 메탄 배출 모니터링 기술 현황
- 공극 규모 반응성 운송 모델링의 연산 효율 향상을 위한 지화학 반응 대리 인공신경망 모형 개발
- Denoising Laplace-domain Seismic Wavefields using Deep Learning
- 폐광산 지반안정성 조사용 시추주상도의 분류 및 데이터베이스화를 위한 딥러닝 및 광학문자인식 기술의 적용
- 한국대지 XRD 실험자료 대상 k-평균 군집화 모델 적용성 분석
- 비소 오염토양의 효과적 정화를 위한 열수합성 마그네슘알루미늄-이중층수산화물/왕겨 하이드로차 나노복합체의 형성 및 이화학적 특성에 미치는 에이징 효과 규명
- 지질과학 분야 한국어 대규모 언어 모델 개발
- 광물자원 탐사를 위한 지구화학적 접근
- 딥러닝 기반 지하수위 예측 모델 개발에 있어 데이터 부족 문제 해결을 위한 전이학습의 응용
- 도심 습지의 생태계 서비스와 탄소 흡수 평가: 대전 갑천습지 사례 연구
- 몽골 울란바토르 복드칸 궁전 및 초이진 라마사원 벽돌과 기와의 재료학적 특성 및 고고과학적 의미
- 활석, 질석, 해포석, 사문석 등 석면함유 가능성이 있는 광물 함유 제품의 석면 분석 및 광물학적 특성
- Geochemical Characterisation of Magnesian Intrusives within High Grade Migmatite Gneiss Terrain: Insight from Plutons around Iwo Area, Southwest Nigeria
참고문헌
관련논문
자연과학 > 지질학분야 BEST
- 한국의 전기차 사용 후 배터리 재활용 및 재사용 효과 분석 연구
- 이산화탄소 포집/저장/활용 기술 특허 동향 분석
- 산불에 의한 지하수 토양 환경오염과 방사성 물질 분포 및 거동 영향 고찰
자연과학 > 지질학분야 NEW
- 인공위성 원격탐사 기반 메탄 배출 모니터링 기술 현황
- 공극 규모 반응성 운송 모델링의 연산 효율 향상을 위한 지화학 반응 대리 인공신경망 모형 개발
- Denoising Laplace-domain Seismic Wavefields using Deep Learning
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!