Hot Issue

국내 AI, 수능 수학서 해외 모델에 ‘완패’…평균 20점대 그쳐

박지혜 기자
2025-12-16 07:58:30
기사 이미지
국내 AI, 수능 수학서 해외 모델에 ‘완패’…평균 20점대 그쳐 (사진=픽사베이)

국가대표 AI 개발에 나선 국내 기업들의 인공지능(AI) 모델이 수학능력시험 문제 풀이에서 해외 최상위 모델에 크게 뒤처지는 것으로 나타났다. 

김종락 서강대 수학과 교수 연구팀은 15일 과학기술정보통신부의 ‘독자 AI 파운데이션 모델 개발사업’에 참여하는 국내 5개 팀의 대형언어모델(LLM)과 해외 AI 모델 5종을 대상으로 한 성능 평가 결과를 공개했다.

연구팀은 수능 수학 20문항(공통과목·확률과 통계·미적분·기하 각 분야 최고난도 5문항)과 수리논술 30문항(국내 대학 10문항, 인도 대학 입시 10문항, 도쿄대 공대 대학원 입시 10문항)을 선별해 AI 모델들에게 풀게 했다.

평가 결과 구글의 ‘제미나이 3 프로 프리뷰’가 92점으로 가장 높은 점수를 받았다. 앤트로픽의 ‘클로드 오퍼스 4.5’(84점), xAI의 ‘그록 4.1 패스트’(82점) 등 해외 모델들은 모두 70점대 후반에서 90점대 초반을 기록했다.

반면 국내 모델 중에서는 업스테이지의 ‘솔라 프로-2’가 58점으로 가장 높았고, 네이버의 ‘HCX-007’, LG AI연구원의 ‘엑사원 4.0.1’, SK텔레콤의 ‘A.X 4.0’ 등은 20점대에 그쳤다. 엔씨소프트의 경량 모델 ‘라마 바르코 8B 인스트럭트’는 2점으로 최하위를 기록했다.

연구팀이 자체 개발한 ‘엔트로피매스’ 문제 세트에서도 결과는 비슷했다. 해외 모델들이 80점 이상을 받은 반면, 국내 모델은 7.1~53.3점에 머물렀다.

연구팀은 국내 모델들이 단순 추론만으로는 문제 해결이 어려워 계산 과정을 코드로 실행할 수 있는 파이썬 도구 사용을 허용했지만, 정답률이 크게 개선되지 않았다고 설명했다.

김종락 교수는 “국내 모델 수준이 해외 프런티어 모델에 비해 많이 뒤처짐을 알 수 있었다”고 평가했다.

국내 AI 업계는 이번 평가 결과에 강하게 반발했다. 평가에 사용된 모델의 특성과 개발 목적을 고려하지 않은 부적절한 비교라는 주장이다.

LG AI연구원 관계자는 “수학 문제를 푸는 데 파이썬을 툴로 사용하는 기능은 엑사원 모델에서 지원하지 않는다”며 “모델의 특성을 고려하지 않고 성능을 측정했다”고 반박했다. 이어 “자체 테스트 결과 올해 수능 수학 기준 92.11점을 기록했으며, 고난도 문항만 놓고 보면 88.75점을 획득했다”고 밝혔다.

엔씨소프트 관계자도 “이번 실험에 사용된 모델은 2년 전 공개된 메타의 라마 기반 경량 모델로, 현재 개발 중인 파운데이션 모델과는 성격이 다르다”고 설명했다.

네이버 관계자는 “큰 모델은 답을 내는 데 시간이 오래 걸리거나 비용이 많이 드는 문제가 있어, 서비스에 적용하는 것을 목표로 모델을 만들고 있다”며 “동일 규모 모델 대비 성능이 잘 나오게 만드는 기술을 먼저 확보하려 한다”고 말했다.

업계 한 관계자는 “국내 AI 개발사들의 목적은 AI 에이전트 같은 산업용·업무용 AI를 개발하는 것”이라며 “수능 수학으로 평가할 때 성적이 낮게 나올 수밖에 없다”고 지적했다.

전문가들은 국내 AI 모델의 저조한 성적이 모델 설계 방향뿐 아니라 개발 환경의 차이에서도 비롯됐다고 분석한다.

미국 빅테크 기업들은 최신 AI 모델 개발에 수십억 달러 규모의 자금을 투입하고, 전용 GPU 인프라와 대규모 연구 인력을 동시에 확충하고 있다. 반면 국내 모델들은 상대적으로 언어 이해나 효율성을 중시한 구조가 많아, 수학 문제 풀이에 필요한 다단계 추론과 계산 과정 처리에 한계가 있다는 것이다.

이번 평가에 사용된 해외 모델 중 4개는 미국의 대표 AI 기업들이 개발했으며, 딥시크 ‘V3.2’는 미국을 맹추격하는 중국 모델이다. 업계에 따르면 이들 모델은 국내 기업 모델보다 학습 데이터 규모에서 큰 차이가 난다.

또한 솔라 프로-2, 엑사원 4.0.1, HCX-007은 추론에 특화된 모델인 반면, SK텔레콤과 엔씨소프트의 모델은 추론형으로 설계되지 않았다. 추론형과 비추론형 모델은 설계 단계부터 차이가 있어, 벤치마크에 따라 성능 격차가 발생할 수 있다는 분석이다.

배경훈 부총리 겸 과기정통부 장관은 15일 세종시에서 가진 기자간담회에서 “독자 AI 파운데이션 모델을 개발하는 기업들은 그동안 사업적 목적에 맞게 AI 모델을 만들어왔고, 과학과 수학 등에 특화된 추론형 AI 모델 개발을 위한 데이터 학습이 부족했던 게 사실”이라고 인정했다.

이어 “예를 들어 화학 분야의 분자 구조식을 AI가 인식할 수 있는 형태로 데이터를 변환하는 등 분야별 특화 데이터를 만들어 학습시킨다면 글로벌 톱10에 해당하는 경쟁력을 가질 수 있다”고 밝혔다.

정부 주도의 국가대표 AI 프로젝트는 현재 5개 컨소시엄이 경쟁 중이며, 1차 평가 결과가 내년 1월 15일 발표되면 4개 팀으로 압축된다. 국가대표 AI 프로젝트가 초기 단계인 만큼, 이번 결과를 국내 기업을 대표하는 모델의 최종 성능으로 보기는 어렵다는 의견도 나온다.

연구팀은 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다고 밝혔다.​​​​​​​​​​​​​​​​

박지혜 기자 bjh@bntnews.co.kr