AI 자동채점 데이터셋 분석: 1,000쌍 채점결과·트레이닝 가치 시각화
AI 허브 '과정 중심 평가 데이터'는 초·중·고 서술형·논술형 답안을 루브릭대로 자동채점하도록 AI를 학습시키는 데이터셋입니다. Now Insight가 로컬 1,000쌍을 직접 집계한 결과 총 채점 평가요소는 3,462개, 전체 평균 점수 획득률은 78.2%였고, 학교급이 올라갈수록(초등 71.7%→고등 86.7%) 획득률이 높아졌습니다. 이 글은 채점 결과를 인라인 차트로 시각화하고, 구조화된 input→output 매핑이 왜 우수한 트레이닝 데이터인지 분석합니다.
이 데이터셋은 무엇인가요?
초·중·고 서술형·논술형 답안의 AI 자동채점 모델을 학습·평가하기 위해 구축한 '과정중심평가' 데이터셋입니다.
정식 명칭은 '과정 중심 평가 데이터'로, 2026년 데이터드리븐이 주관해 AI 허브에 공개했습니다. 원천 데이터는 학생이 작성한 답안 텍스트이고 라벨링 데이터는 채점 결과를 담은 JSON입니다. 핵심 아이디어는 단순합니다. 학생의 답안과 교사가 쓰는 루브릭을 함께 모델에 주면, 모델이 평가요소마다 '어느 수준에 해당하는지'와 '몇 점인지'를 매핑해 돌려줍니다. 즉 사람이 채점표를 보며 내리는 판단 과정을 데이터로 학습시키는 구조입니다. 생성 방식에는 LLM이 활용됐으며, 채점 결과가 루브릭의 평가요소·수준·점수와 일관되게 연결되도록 설계됐습니다. 그 덕분에 단답 정오 판별을 넘어, 서술의 논리·근거·구체성까지 단계적으로 평가하는 모델을 훈련할 수 있습니다. 규모는 1,000건, 이용은 내국인 한정 신청·승인·API 다운로드입니다.
채점 파이프라인은 어떻게 작동하나요?
학생 답안과 루브릭을 함께 입력하면, AI 모델이 평가요소별로 수준과 점수를 매핑해 채점 결과를 출력합니다.
데이터셋의 한 쌍은 이 파이프라인의 입력(input)과 정답 라벨(output)에 정확히 대응합니다. 모델은 자유 서술 답안을 정오로 가르는 대신, 루브릭이 정의한 각 평가요소마다 '어떤 수준 설명에 해당하는가'를 분류하고 그 수준에 묶인 점수를 부여합니다. 평가요소가 평균 3.46개이므로 한 답안에서 여러 개의 수준·점수 결정이 동시에 일어납니다. 출력은 평가요소별 근거(level)와 점수(score)로 분해돼 있어, 단순 총점이 아니라 '어디서 왜 깎였는지'까지 학습·검증할 수 있습니다. 아래 단계 카드는 입력에서 출력까지의 흐름을 도식화한 것입니다.
표본은 학교급·과목별로 어떻게 나뉘나요?
초등 330쌍, 중등·고등 각 335쌍이며, 각 학교급마다 국·수·사·과·영 5과목을 고르게 담았습니다.
학교급은 초등(코드 E)·중등(M)·고등(H) 3종, 과목은 국어·수학·사회·과학·영어 5종입니다. 초등은 과목당 66쌍, 중등·고등은 과목당 67쌍으로, 15개 학교급×과목 조합이 거의 균등하게 분포합니다. 합산하면 초등 330건(66×5), 중등 335건(67×5), 고등 335건(67×5)으로 정확히 1,000건입니다. 한 쌍은 학생 한 명의 답안과 그 채점 결과를 뜻하므로, 1,000건은 곧 1,000개의 채점 사례입니다. 이 균형 잡힌 구성은 특정 학교급·과목에 편향되지 않은 멀티태스크 학습·평가셋으로서 중요한 강점입니다. 아래 그룹 막대 차트와 표는 동일한 표본 수를 시각·텍스트로 함께 보여 줍니다.
표본 구성 — 학교급 × 과목별 쌍 수
초등 66 / 중등·고등 67쌍(과목당), 합계 1,000쌍
| 학교급 | 국어 | 수학 | 사회 | 과학 | 영어 | 소계 |
|---|---|---|---|---|---|---|
| 초등 (E) | 66 | 66 | 66 | 66 | 66 | 330 |
| 중등 (M) | 67 | 67 | 67 | 67 | 67 | 335 |
| 고등 (H) | 67 | 67 | 67 | 67 | 67 | 335 |
| 합계 | 200 | 200 | 200 | 200 | 200 | 1,000 |
AI 채점 점수는 어떻게 분포하나요?
1,000문항 중 59.8%가 80~100% 획득 구간에 몰려 있고, 20% 미만 저득점은 1.3%에 그쳤습니다.
각 문항의 획득률은 평가요소별 부여 점수 합을 총점으로 나눈 값(achieved/max)입니다. 분포는 80~100% 구간이 598건으로 가장 두껍고, 60~80% 216건, 40~60% 120건 순으로 고득점 쪽에 치우친 좌측 꼬리 형태입니다. 0~20% 13건, 20~40% 53건처럼 낮은 구간이 적다는 것은, 라벨이 무작위가 아니라 답안 충실도에 따라 합리적으로 분포함을 뜻합니다. 전체 평균 획득률은 78.2%입니다. 이런 분포 정보는 모델 학습 시 클래스 불균형을 점검하거나, 평가 단계에서 저득점 사례를 별도로 보강해야 할지 판단하는 근거가 됩니다. 아래 도넛 차트는 5개 구간의 비중을, 표는 정확한 건수와 비율을 보여 줍니다.
점수 획득률 분포 — 1,000문항
achieved/max 기준 5구간 비중 (평균 획득률 78.2%)
| 획득률 구간 | 문항 수 | 비율 |
|---|---|---|
| 0–20% | 13건 | 1.3% |
| 20–40% | 53건 | 5.3% |
| 40–60% | 120건 | 12.0% |
| 60–80% | 216건 | 21.6% |
| 80–100% | 598건 | 59.8% |
| 합계 · 평균 | 1,000건 | 78.2% |
학교급·과목에 따라 채점 결과가 다른가요?
학교급은 초등 71.7%에서 고등 86.7%로 올라가고, 과목은 사회(83.1%)가 가장 높고 영어(76.0%)가 가장 낮았습니다.
학교급별 평균 획득률은 초등 71.7%, 중등 75.9%, 고등 86.7%로 학년이 높을수록 뚜렷이 상승합니다. 이는 고학년일수록 루브릭 충족도가 높은 답안 비중이 크다는 의미로 읽힙니다. 과목별로는 사회 83.1%·과학 82.2%가 높고, 국어 77.2%·영어 76.0%가 상대적으로 낮습니다. 수학은 77.4%입니다. 이렇게 차원별로 분해된 라벨 통계는 모델이 특정 학교급·과목에서 과대·과소 채점하는 편향을 진단하는 데 직접 쓰입니다. 아래 두 막대 차트는 각각 학교급별·과목별 평균 획득률을 0~100% 스케일로 나타냅니다.
학교급별 평균 획득률
초등 71.7% / 중등 75.9% / 고등 86.7%
과목별 평균 획득률
국어 77.2 / 수학 77.4 / 사회 83.1 / 과학 82.2 / 영어 76.0 (%)
| 구분 | 값(%) | 구분 | 값(%) |
|---|---|---|---|
| 초등 | 71.7 | 국어 | 77.2 |
| 중등 | 75.9 | 수학 | 77.4 |
| 고등 | 86.7 | 사회 | 83.1 |
| 전체 평균 | 78.2 | 과학 | 82.2 |
| 영어 | 76.0 |
학교급 × 과목 교차에서는 어떤 패턴이 보이나요?
고등 수학(90.4%)이 가장 높고 초등 영어(59.1%)가 가장 낮아, 같은 과목도 학교급에 따라 채점 결과가 크게 갈립니다.
15개 조합을 교차하면 단일 차원 평균에 가려졌던 패턴이 드러납니다. 초등에서는 과학(82.5%)이 높고 영어(59.1%)·수학(63.8%)이 낮은 반면, 고등에서는 수학이 90.4%로 급등하고 과학 88.3%, 사회 86.9%로 전반적으로 높습니다. 중등은 사회(85.0%)가 두드러지고 과학(69.8%)이 상대적으로 낮습니다. 이처럼 셀마다 난이도·채점 경향이 달라, 멀티태스크 모델을 만들 때 조합별 성능을 따로 점검할 근거가 됩니다. 아래 히트맵형 표는 색이 아니라 숫자로 값을 직접 제공하며, 진하기는 보조 신호로만 씁니다.
학교급 × 과목 평균 획득률 히트맵 (%)
진할수록 높은 획득률 — 값은 각 셀 숫자로 표기
| 학교급 | 국어 | 수학 | 사회 | 과학 | 영어 |
|---|---|---|---|---|---|
| 초등 | 72.5 | 63.8 | 76.0 | 82.5 | 59.1 |
| 중등 | 78.3 | 72.1 | 85.0 | 69.8 | 72.7 |
| 고등 | 81.6 | 90.4 | 86.9 | 88.3 | 85.8 |
input과 output JSON은 어떤 필드로 이뤄지나요?
input은 루브릭과 학생 답안을, output은 평가요소별 수준·점수를 담은 채점 결과를 담습니다.
input JSON의 metadata에는 학교급(school_level), 과목 분류(subject_category), 과목명(subject_title), 총점(total_score), 채점 기준 rubric 배열이 들어갑니다. 루브릭의 각 항목은 평가요소명(element), 배점(max_score), 채점 수준 배열(levels)로 구성되며, 각 수준은 설명문과 점수를 함께 가집니다. input 필드에는 학생이 작성한 답안 원문이 들어 있습니다. output JSON의 output은 배열이며, 각 원소가 평가요소(element), 매핑된 채점 수준(level), 부여 점수(score)를 담습니다. 모델은 '루브릭 + 학생 답안'을 입력받아 '평가요소별 수준·점수'를 출력하도록 학습됩니다. 아래 표는 필드를 한눈에 정리한 것입니다.
| 파일 | 필드 | 설명 |
|---|---|---|
| input | metadata.school_level | 학교급 코드(E·M·H) |
| input | metadata.subject_category | 과목 분류 |
| input | metadata.subject_title | 과목명 및 평가 주제 |
| input | metadata.total_score | 해당 문항의 총점 |
| input | metadata.rubric[] | 평가요소(element)·배점(max_score)·수준(levels) 배열 |
| input | input | 학생이 작성한 서술형·논술형 답안 원문 |
| output | output[].element | 채점한 평가요소명 |
| output | output[].level | 답안이 매핑된 채점 수준 설명 |
| output | output[].score | 해당 수준에 따라 부여된 점수 |
실제 채점 사례는 어떤 모습인가요?
초등 과학 1번은 평가요소 3개(각 4점·총 12점)에 AI가 각 2점씩, 합 6/12점(획득률 50%)을 부여했습니다.
이 문항의 루브릭에는 세 가지 평가요소가 있습니다. '지구의 자전과 태양·달의 위치 변화'(4점), '지구의 공전과 별자리 변화'(4점), '한 달 동안 달의 모양 변화'(4점)로 총점은 12점입니다. 학생 답안은 '스텔라리움 천문대 가상 투어 가이드'를 주제로 한 서술형 글이었습니다. AI 채점 결과(output)는 세 평가요소 모두 "부분적으로 설명하나 구체적 예시·사례가 부족"한 수준으로 판정해 각 2점, 합 6/12점을 부여했습니다. 이처럼 모델은 정답 일치 여부가 아니라 '서술의 충실도'를 루브릭 수준에 맞춰 평가합니다. 평가요소별로 근거가 남기 때문에, 교사는 어느 부분에서 점수가 깎였는지 추적해 피드백에 활용할 수 있습니다.
// input_1.json (초등 과학, 요약)
{
"metadata": {
"school_level": "E",
"subject_category": "과학",
"subject_title": "과학 - 스텔라리움 가상 투어",
"total_score": 12,
"rubric": [
{ "element": "지구의 자전과 태양·달의 위치 변화",
"max_score": 4,
"levels": [ { "level": "정확하고 구체적으로 설명", "score": 4 },
{ "level": "부분적으로 설명하나 예시 부족", "score": 2 } ] }
// ... 평가요소 2개 더
]
},
"input": "(학생 답안 원문 텍스트)"
}
// output_1.json (채점 결과)
{
"output": [
{ "element": "지구의 자전과 태양·달의 위치 변화",
"level": "부분적으로 설명하나 예시 부족", "score": 2 },
{ "element": "지구의 공전과 별자리 변화",
"level": "부분적으로 설명하나 예시 부족", "score": 2 },
{ "element": "한 달 동안 달의 모양 변화",
"level": "부분적으로 설명하나 예시 부족", "score": 2 }
] // 합계 6 / 12 = 획득률 50%
}
트레이닝 데이터로서의 가치는 무엇인가요?
루브릭 기반 정답 라벨, 15개 멀티태스크 조합, 구조화된 input→output 매핑이 지도학습·평가셋에 그대로 부합합니다.
첫째, 라벨 품질이 높습니다. 채점 라벨이 단순 총점이 아니라 평가요소별 '수준 설명 + 점수'로 분해돼 있어, 모델이 무엇을 근거로 그 점수를 줘야 하는지까지 학습합니다. 3,462개 평가요소 라벨이 루브릭과 일관되게 연결돼 있어 노이즈가 적습니다. 둘째, 멀티태스크 구성입니다. 3개 학교급 × 5개 과목 = 15개 조합이 균등하게 분포해, 한 데이터셋으로 도메인별 일반화·전이 학습·조합별 평가를 동시에 수행할 수 있습니다. 셋째, 구조가 학습에 곧바로 맞습니다. 입력(답안+루브릭)→출력(요소별 수준·점수)이 명확한 지도학습 형태이고, 78.2% 평균 획득률과 좌측 꼬리 분포는 평가셋의 난이도·균형을 미리 가늠하게 해 줍니다. 이런 특성 덕분에 자동채점 모델 학습, 루브릭 설계 지원, 평가요소별 맞춤 피드백 생성의 기반 자원으로 활용됩니다.
| 강점 | 근거 | 학습 활용 |
|---|---|---|
| 라벨 품질 | 평가요소별 수준 설명 + 점수, 3,462개 라벨 | 점수 회귀·수준 분류 지도학습 |
| 멀티태스크 | 3 학교급 × 5 과목 = 15개 균등 조합 | 도메인 일반화·전이·조합별 평가 |
| 구조 적합성 | input(답안+루브릭) → output(요소별 매핑) | 그대로 입출력 쌍으로 사용 |
| 분포 정보 | 평균 획득률 78.2%, 5구간 분포 | 클래스 불균형·평가 난이도 진단 |
자주 묻는 질문
- 이 데이터셋의 정식 명칭과 규모는 무엇인가요?
- AI 허브에 공개된 '과정 중심 평가 데이터'이며, 2026년 데이터드리븐이 주관해 구축했습니다. 초·중·고 3개 학교급과 국·수·사·과·영 5개 과목을 교차해 총 1,000쌍, 채점 평가요소 3,462개로 구성됩니다.
- AI 자동채점 결과의 전체 평균 점수는 어느 정도인가요?
- 1,000문항의 평균 점수 획득률(achieved/max)은 78.2%입니다. 80~100% 구간이 598건(59.8%)으로 가장 많고, 20% 미만 저득점은 13건(1.3%)에 그쳤습니다.
- 학교급·과목에 따라 채점 결과가 어떻게 다른가요?
- 학교급은 초등 71.7%, 중등 75.9%, 고등 86.7%로 학년이 높을수록 상승합니다. 과목은 사회 83.1%·과학 82.2%가 높고 영어 76.0%가 가장 낮으며, 교차에서는 고등 수학(90.4%)이 최고, 초등 영어(59.1%)가 최저입니다.
- 왜 좋은 트레이닝 데이터인가요?
- 루브릭 기반의 평가요소별 수준·점수 라벨이 정밀하고, 15개 학교급×과목 멀티태스크 조합이 균등하며, input→output 매핑이 지도학습에 곧바로 맞기 때문입니다.
- 누가 다운로드할 수 있나요?
- 내국인만 신청·다운로드할 수 있으며, 승인 절차를 거쳐 내려받습니다. API 다운로드 서비스도 제공됩니다.
출처: AI 허브 '과정 중심 평가 데이터' (구축 주관: 데이터드리븐, 2026). 차트 수치는 Now Insight가 로컬 1,000쌍을 직접 집계한 값입니다.