[팩플] "한국 간호사 윤리강령으로 옳은 것은?" 한국판 AI 시험 만든 네이버
네이버가 한국판 인공지능(AI) 시험을 만들었다. 한국어 거대언어모델(LLM)을 잘 평가할 수 있는 맞춤형 시험이다.
무슨 일이야
MMLU를 본따 개발된 K-MMLU는 한국어 AI 모델에 특화된 시험으로, 한국에 특화된 지식도 평가할 수 있다. 네이버에서 만든 LLM인 하이퍼클로바X는 K-MMLU 평가 항목 중 한국 특화 지식에서 제미나이 프로(42.94), GPT-4(54.89)보다 55.21로 더 높은 점수를 받았다. 한국 문화나 법‧제도를 묻는 질문에 있어선 하이퍼클로바X가 GPT-4보다 더 답을 잘 맞춘다는 뜻이다. 가령 ‘한국채택국제회계기준(K-IFRS)하에서 금융자산으로 분류되지 않는 것은?’ ‘한국 간호사 윤리강령의 항목에 대한 설명으로 옳은 것은?’과 같은 질문에도 답할 수 있는 것.
이게 왜 중요해
한국어 특화 LLM의 순위를 매기는 플랫폼도 있다. ‘오픈 Ko-LLM 리더보드’는 AI 스타트업 업스테이지와 한국지능정보사회진흥원(NIA)이 함께 구축한 한국어 LLM 평가 플랫폼이다. 글로벌 오픈소스 AI 플랫폼 허깅페이스의 ‘오픈 LLM 리더보드’의 한국판이라고 할 수 있다.
더 알면 좋은 것
김남영(kim.namyoung3@joongang.co.kr)
with the Korea JoongAng Daily
To write comments, please log in to one of the accounts.
Standards Board Policy (0/250자)