학술논문
Relationships among Different Effect-Size Indexes for Inter-Rater Agreement between Human and Automated Essay Scoring
이용수 88
- 영문명
- Relationships among Different Effect-Size Indexes for Inter-Rater Agreement between Human and Automated Essay Scoring
- 발행기관
- 학습자중심교과교육학회
- 저자명
- 윤지여
- 간행물 정보
- 『학습자중심교과교육연구』제23권 18호, 901~919쪽, 전체 19쪽
- 주제분류
- 사회과학 > 교육학
- 파일형태
- 발행일자
- 2023.09.30
5,080원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

국문 초록
목적 영어 쓰기 평가에서 사람과 기계 채점자 간 일치도를 나타내는 효과 크기의 정도와 효과 크기 지수 간의 관계를 조사 분석하였다.
방법 목적을 달성하기 위하여 메타분석 방법을 사용하였다. 먼저, 문헌 탐색 및 포함 배제기준에 따라 연구 자료를 수집하였다. 선정된 연구 자료는 평가와 효과 크기 측면에 관하여 코딩하였고, 효과 크기와 분산을 계산하였다. 이질성 검사와 전체 모형 분석, 그리고조절변인 분석과 대조 분석을 위하여 R 소프트웨어 버전 3.3.2에서 metafor와 robumeta 패키지의 rma, robust, robu 기능을이용하였다.
결과 전체 무선 효과 모델의 결과에 따르면, 에세이 쓰기 평가에서 기계와 사람 채점 간 일치도는 평균 상관 계수는 .75, 평균 카파계수는 .48이며, 평균 근접 비율은 .99이었다. 그러나 위계 가중치 모델과 이질성 검사 결과, 이 지수들은 연구마다 차이가 있다는것을 보여주었다. 매개 변인을 통해 연구간 차이를 알아본 조절변인 분석과 대조 분석 결과, 상관 계수와 카파 계수는 6점 척도와3, 4, 5점 척도가 각각 통계적으로 유의한 차이를 보였다. 한편 정확과 근접 비율은 3, 4점 척도와 5, 6점 척도가 통계적으로 유의한차이를 보였다. 그리고 근접과 정확 비율은 평균 0.34의 차이를 보였으며 두 비율의 차이 분산은 0.004로 아주 적었다. 또한 상관계수와 카파도 평균 0.27의 차이를 보였으며 두 지수의 차이 분산도 0.003으로 아주 적었다.
결론 기계 채점은 사람 채점과 상대적 일관성과 절대적 일치도 측면에서 매우 비슷한 양상을 보인다. 선행연구에서 제시한 평가기준과 비교하였을 때, 상관 계수는 기준치보다 높고, 카파는 중간 정도이며, 근접 비율은 근접 일치도 비율 범위 내이다. 각 지수의일치도 크기는 연구 간 일관성이 없었다. 즉, 채점자 간 일치도는 연구 내 차이보다는 연구 간 차이에 의해 다르다는 것을 알 수 있다. 그래서 연구 간 차이를 설명할 수 있는 조절 변인을 위한 후속 연구가 필요하다. 영어 쓰기 평가에서 사람과 기계 채점자 간 일치도는사용한 척도의 영향을 받는다. 상관 계수, 카파, 정확 및 근접 비율은 상당히 강한 관련이 있다. 채점 척도와는 상관없이, 카파 계수는상관 계수보다 평균 0.27점이 낮으며, 정확 비율은 근접 비율보다 평균 0.34점이 낮게 나온다. 따라서, 채점자 간 일치도를 나타내는 지수들은 제각기 장단점이 있으므로, 영어 쓰기 평가의 자동 채점 연구에서는 채점자 간 일치도를 나타내는 다양한 지수들을 상호보완적으로 제시하는 것이 바람직하다.
영문 초록
Objectives The purpose of this study is to investigate the magnitudes of and relationships among different effect-size indexes for inter-rater agreement between human and machine scoring in writing assessments.
Methods The procedure of meta-analyses consists of data gathering, including literature search with criteria for inclusion and exclusion, and data analysis, including data cleaning and coding, after tests of heterogeneity for each index, hierarchical weighted models, and moderator and contrast analyses were conducted. Appropriate analyses were conducted using rma, robust, and robu functions in the metafor and robumeta packages in R software Version 3.3.2.
Results Based on the results, the overall random-effects means for correlations, kappa values, and adjacent proportions of agreement between automated and human scoring of essay writing were .75, .48, and .99, respectively. The results from hierarchical weighed models and heterogeneity tests indicate that the rates of agreement for each index were inconsistent across studies. According to moderator and contrast analyses, correlations and kappa values using 6-point scales significantly differed from those using 3-, 4-, and 5-point scales, respectively, at alpha level .05. On the other hand, the adjacent proportions of agreement on either 3- or 4-point scales significantly differed from the adjacent proportions of agreement on the 5- and 6-point scales, respectively, at alpha level .01. Regarding the exact and adjacent proportions of agreement, the average of discrepancies was 0.34 units, and the variance of discrepancies between exact and adjacent proportions of agreement was 0.004. Similarly, the mean of discrepancies between the correlation and kappa was 0.27, and the variance of discrepancies between the correlation and kappa was 0.003.
Conclusions According to this finding, machine scoring is similar to human scoring in terms of relative consistency and absolute consensus. Compared to the evaluation criteria suggested by prior studies, the degrees of inter-rater agreement seen in this study were above the thresholds for correlations, moderate agreement for kappa, and in the range of consensus rates for adjacent proportion agreement. The rates of agreement for each index were inconsistent across studies. This means that the all agreement indexes had relatively large between-studies differences compared to the between-effects differences within the studies. It is necessary to investigate if some moderators explain the between-studies differences. The number of score-scale points used for measuring inter-rater agreement between human and machine scoring influenced the agreement rates. The relationships across the four indexes (i.e., , , , and ) from the study appear to be reasonably strong and linear. Regardless of the number of points on the score scales, kappa values are 0.27 points lower than correlations. In addition, the mean exact proportions of agreements is 0.34 points lower than the mean adjacent proportions of agreements. Since each inter-rater agreement index has its own disadvantages, such as scale dependency, not showing the degree of identical matching and matching patterns, and so on, it is advised to report several inter-rater agreement indexes.
목차
Ⅰ. Introduction
Ⅱ. Literature Review
Ⅲ. Method
Ⅳ. Results
Ⅴ. Conclusion
References
키워드
해당간행물 수록 논문
- 학습자중심교과교육연구 제23권 18호 목차
- 유아교사와 부모의 관계에서 교권침해 경험의 현상학적 연구
- 영아교사의 임파워먼트가 직무스트레스에 미치는 영향
- A대학 이공계열 대학원생의 학습경험에 대한 인식과 실태 분석
- 영아주도놀이를 지원하는 교사의 성장과정에 대한 질적연구
- 지역사회 문화 탐방 필요도와 대학생활 적응 및 중도탈락 의도 간의 구조적 관계
- 프로젝트 기반 직업훈련에 대한 참여기업 인식 연구
- 중학교 과학 수업에서 학생 행위주체성 발현을 위한 문제중심학습 활용 프로그램 개발 및 적용
- 외국인 유학생의 교수학습지원에 관한 요구 분석 및 프로그램 설계 방안
- 문학기반학습이 간호대학생의 감성지능, 공감능력, 문제해결능력에 미치는 효과
- 대화형 생성 AI(인공지능) ChatGPT를 활용한 한국어 말하기 연구
- 고등학생이 지각한 사회적 지지와 학업무기력의 구조적 관계
- 헤어지식수준과 헤어 NCS모듈숙련도 및 직무수행능력 관계 연구
- 놀잇감과 영아의 성별에 따른 어머니의 공간 언어 사용 차이
- 2022 개정 교육과정의 ‘핵심 아이디어’에 대한 비판적 검토
- 인공지능(AI) 리터러시 함양을 위한 음악 내용요소 및 수행기대 개발
- 중도입국 초등학생의 문화적응 스트레스와 학교적응의 관계
- 일반 성인의 심폐소생술금지(DNR) 결정 태도에 영향을 미치는 요인
- 특성화 고등학교 학생들의 학년 변화에 따른 진로활동 유형별 인식과 진로성숙도와의 영향관계 분석
- 외국인 학부생의 시험 답안 쓰기 양상 연구
- 초등학교 6학년의 사회경제적 지위 인식과 미래에 대한 인식과의 관계에서 전반적인 행복감과 삶의 만족도의 직렬다중매개효과
- 신체 타악기를 활용한 리듬창작 수업 개발
- 아버지의 일-가정 양립이 주관적 행복감에 미치는 영향에서 양육스트레스의 매개효과
- 2022 개정 교육과정 고등학교 융합 선택 과목의 ‘핵심 아이디어’에 대한 의미연결망 분석
- 학습된 무기력과 비자기결정성 진로동기의 관계성 탐색
- 한국 노인의 삶의 만족도와 영향 요인은 시대에 따라 어떻게 변화했는가?
- 상담자의 공감수용이 모자관계 감정소통 변화에 미치는 내러티브탐색
- 미술교육 프로그램 개발 및 적용연구 동향 분석
- 대학생 공통핵심역량(전공역량) 진단도구 개발
- Relationships among Different Effect-Size Indexes for Inter-Rater Agreement between Human and Automated Essay Scoring
- 초기청소년기 자녀를 둔 취업모의 일-가정 양립이 주관적 행복감에 미치는 영향에서 사회적 지지의 조절효과
- 내면화된 수치심이 중년기 우울에 미치는 영향
- 온라인 영어 낭독이 초등 영어 읽기 정확성과 유창성에 미치는 영향
- 유치원 현장실습 경험을 통한 예비유아교사의 배움 탐구
- 학문 목적 한국어 학습자를 위한 온라인 토의·토론 수업 모형 설계
- 대학생 진로개발을 위한 진로교과목 효과성 검증 연구
- 대학생의 불안정 성인애착과 회복탄력성의 관계에서 미치는 사회적 지지의 매개효과
- 영유아 교사의 수업환경조절전략 활용능력과 수업역량의 관계에서 교수 창의성의 조절 효과
- 제한형 신경성 식욕부진증의 발병 및 치료 개시 요인에 관한 다중회귀분석
- 사회적 고립 청년의 긍정심리자본 배양을 위한 마음챙김기반 집단상담 프로그램의 효과
- 농촌 지역의 학교운영위원 경험에 대한 학부모의 내러티브 연구
- 대졸 초기경력자의 직장적응 변화에 대한 종단적 분석
- 소규모 어린이집의 학습공동체 운영 경험에 관한 질적연구
- 초등학교 1학년 담임교사의 「학교엄마」로 살아가기
- 아동·청소년의 공격성에 대한 부모 양육태도 메타분석
- 말뭉치 분석을 활용한 ‘붓다’, ‘쏟다’의 유의어 연구
- 외상 사건을 경험한 만 20세 이상 성인의 자기성찰과 외상 후 성장의 관계에서 의도적 반추의 조절효과
- 임상간호사의 공감능력과 간호조직문화인지가 임상의사결정능력에 미치는 영향
- VSD를 활용한 협력적 팀 중심의 AAC 중재가 자폐 범주성 장애 초등학생의 통합학급 수업참여도 및 의사소통 행동에 미치는 영향
- 노인의 사회활동 참여가 우울감에 미치는 영향
- 비대면 수업 환경에서 대학생이 인지하는 수업부담 요소와 학습에 미치는 영향 탐구
- 메타버스 및 인공지능(AI)을 기반으로 한 교육적 중재연구의 동향 및 분석
- 성인 남녀의 시간관이 외상 후 성장에 미치는 영향에서 회복탄력성의 매개효과
- 예비유아교사의 디지털 역량과 이용정도가 테크놀로지 자아효능감에 미치는 영향
- 청소년 게임이용문제와 주관적 행복감의 관계
- 장애통합보육을 실천하는 교사의 어려움과 제도적 방안연구
- 의과대학 임상실습 교육에 대한 학생·교수의 인식 비교 연구
- Analysis of Hot Issues and Trends in Korean Language Education Research in China: A Visual Analysis Based on CNKI Database
- 북버디(Book-Buddy)를 통한 그림책 읽기 활동이 유아의 또래 상호작용 및 읽기 흥미에 미치는 영향
- 한·중 냉각 형용사 대조 연구
- 직장어린이집 교실에서 일어나는 위험한 놀이에 관한 유아반 교사의 경험 연구
참고문헌
관련논문
사회과학 > 교육학분야 BEST
더보기사회과학 > 교육학분야 NEW
- 방과 후 수학 보드게임 활동이 초등학생의 연산 능력 향상에 미치는 효과
- 초등학생 어머니의 양육스트레스와 우울 간의 관계에서 자기효능감과 회복탄력성의 이중매개효과
- 지역 간 이주배경학생의 학업자아개념 및 지원 정책의 차이 탐색
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
