- 영문명
- Exploring the Possibility of Science-Inquiry Competence Assessment by ChatGPT-4: Comparisons with Human Evaluators
- 발행기관
- 한국교육학회
- 저자명
- 박소영 이병윤 함은혜 이유경 이성혜
- 간행물 정보
- 『교육학연구』제61권 제4호, 299~332쪽, 전체 34쪽
- 주제분류
- 사회과학 > 교육학
- 파일형태
- 발행일자
- 2023.06.30
6,880원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

국문 초록
본 연구는 교육학에서의 ChatGPT 활용 방안을 탐색하고자, 과학적 탐구 역량 과제 보고서에 대한 학생의 서술형 응답을 인간평가자와 ChatGPT-4에게 평가하게 한 후, 그 결과를 비교・분석하였다.
인간평가자와 ChatGPT-4가 각각 초등학교 5학년 학생 155명의 탐구 보고서를 22개의 채점항목으로 평가하였다. 두 평가자가 평정한 결과에 대해, 이차가중 카파계수와 상관계수를 가지고 평가일치도를 확인하였다. 연구결과, 인간평가자와 ChatGPT-4의 평가 총점 간 상관계수는 .74로 나타나, 높은 수준의 상관관계를 보이는 것으로 나타났다. 그러나 채점항목마다 두 평가자의 일치도는 다르게 나타났다(이차가중 카파계수 = .02∼.58; 상관계수 = .14∼.58). 또한 일치도에 따른 각 채점항목을 분석한 결과, 학생들이 수행한 실험 내용 자체에 대한 평가에서는 인간평가자와 ChatGPT-4 간의 평가일치도가 중간 수준 이상을 보였다. 그러나, ChatGPT-4는 학생들이 추가자료나 사전지식을 활용하였는지, 어떤 특정 기준(예: 자신이 세운 가설)과 비교하며 응답하였는지, 학생들이 과제를 수행하며 느낀 점 등을 반추하며 응답하였는지를 평가할 때, ChatGPT4가 인간평가자에 비해 관대한 채점기준을 적용하는 것으로 확인되었고, 관련한 채점항목에서는 인간평가자와 ChatGPT-4 간의 평가일치도가 상당히 낮게 나타났다. 본 연구에서는 단답형 응답뿐만 아니라 서술형 응답의 평가 자동화 가능성에 대해 ChatGPT-4를 활용하여 탐색하고, 인간평가자와 유사한 수준으로 평가할 수 있는 채점항목 등에 대해 확인하였다.
영문 초록
This study aimed to explore the potential applications of ChatGPT in the field of education by comparing and analyzing the assessment results of students’ descriptive responses to a science-inquiry task by human evaluators and ChatGPT-4. A total of 155 fifth-grade students’ reports were evaluated by both human evaluators and ChatGPT-4 using 22 scoring criteria. The agreement between the two evaluators was assessed using the weighted kappa coefficient and correlation coefficient. As a result, the correlation coefficient between the human evaluators’ total score and ChatGPT-4’s score appeared to be .74, indicating a high level of correlation. However, varying levels of agreement between the two evaluators was found across the scoring criteria (weighted kappa coefficient = .02-.58 and correlation coefficient = .14-.58). Upon analyzing the agreement levels for each scoring criterion, it was found that the evaluation agreement was at a moderate level for the criteria assessing the content of the students’ experiments. However, ChatGPT-4 appeared to apply more lenient scoring standards than the human evaluators when evaluating whether students utilized additional materials or prior knowledge, compared their responses to specific criteria (e.g., their hypotheses), and whether they reflected on their experiences while completing the tasks. The agreement was significantly lower for these scoring criteria. This study was able to explore the potential for automating the evaluation of descriptive responses using ChatGPT-4 and identifying scoring criteria that could be evaluated at a level similar to that of human evaluators.
목차
Ⅰ. 서론
Ⅱ. 이론적 배경
Ⅲ. 연구 방법
Ⅳ. 연구결과
Ⅴ. 논의 및 제언
키워드
해당간행물 수록 논문
- 평생교육 단과대학 재학생들의 그릿(Grit) 군집 유형과 학업성취도의 관계: 직무스트레스의 조절효과분석
- 다른 경험, 같은 인식: 가정배경이 다른 ‘코로나 학번’ 대학생들의 교육불평등에 대한 이야기
- 관계중심 직원몰입 척도 개발 및 타당화
- 고등학생의 대학 희망 전공과 선택 전공 일치 영향요인 탐색
- 랜덤 포레스트와 SHAP을 활용한 고등학생의 창의적 사고 예측변수 탐색
- 초・중・고등학생 대상 세계시민교육 프로그램에 대한 체계적 문헌고찰
- 중학생의 협동심에 영향을 미치는 주요 예측요인 탐색
- 설명 가능한 인공지능을 활용한 고등학생의 진로개발역량 예측변수의 기여도 평가
- 아서 슈나이더 일기에 나타난 전후 한국 고등교육 원조사업의 양상 분석
- ChatGPT-4의 과학적 탐구 역량 평가 가능성 탐색: 인간평가자와의 비교를 중심으로
- 중학생의 현실비행 및 사이버비행에 영향을 미치는 주요 예측변인 탐색
- 교사가 지각한 근무조건과 교사의 심리적 소진의 관계: 교사효능감의 매개효과와 학교급의 조절효과