
KT가 ‘한국적 AI’의 철학을 담아 자체 개발한 언어모델 ‘믿:음 2.0’의 오픈소스를 AI 개발자 플랫폼 허깅페이스를 통해 공개할 예정이라고 3일 밝혔다. 사진은 KT 기술혁신부문 연구원들이 서초구 KT 우면연구센터에서 믿:음 2.0을 테스트하고 있는 모습. / 사진=KT
이미지 확대보기KT(대표이사 김영섭)는 AI 개발자 플랫폼 허깅페이스를 통해 믿:음 2.0 공개할 예정이라고 3일 밝혔다.
KT ‘믿:음’은 사전 학습부터 자체적으로 만든 한국적 독자 AI 모델이다. KT는 고품질 한국어 데이터를 준비하는 과정에서 모든 저작권을 확보해 신뢰성을 높였다고 설명했다. KT는 2023년 믿:음 1.0 버전의 스탠다드, 프리미엄 2종을 출시한 이래 KT AICC, 지니TV 등 다양한 서비스에 활용해 왔다.
이번에 KT가 선보이는 믿:음 모델은 ‘한국적 AI’라는 철학을 담았다. 구체적으로 ▲115억 파라미터 규모의 ‘믿:음 2.0 베이스’ ▲23억 파라미터 규모의 ‘믿:음 2.0 미니’ 2종이다. 모두 한국어와 영어를 지원한다.
믿:음 2.0 베이스는 범용 서비스에 적합한 모델로 한국 특화 지식과 문서 기반의 질의응답에 특화됐다. 믿:음 2.0 미니는 베이스 모델에서 증류한 지식을 학습한 소형 모델이다.
KT는 믿:음 모델이 한국어와 한국 문화, 사회 등의 분야에서 기존 국내외 주요 모델을 상회하는 이해력과 생성 성능을 입증했다고 강조했다. KT와 고려대학교가 공동 개발한 한국어 AI 역량 평가 지표인 ‘코-소버린(Ko-Sovereign)’ 벤치마크에서 유사 규모의 국내 기성 모델을 비롯해 글로벌 최고 수준의 오픈소스 모델을 능가하는 점수를 기록했다. 코-소버린은 한국적 AI 성능을 종합적으로 평가할 수 있도록 언어, 문화, 사회, 역사 등의 한국적 맥락을 정밀하게 반영한 전문가 수준의 문항으로 구성됐다.
또 KT는 믿:음 모델이 한국과 관련한 전문 지식의 이해도를 측정하는 대표적 벤치마크 ‘KMMLU’와 한국어 언어모델 평가 지표인 ‘HAERAE’에서도 믿:음은 국내외 주요 오픈소스 모델보다 더 우수한 성능을 기록했다고 설명했다.
KT는 국내 교육용 도서와 문학 작품 등의 발간물, 법률 및 특허 문서, 각종 사전 등 다양한 산업·공공·문화 영역에서 방대한 한국 특화 데이터를 확보해 믿:음 2.0 학습에 활용했다. 또 저작권 이슈가 있는 데이터는 모두 제거하는 등 고품질 데이터를 선별해 가공했다.
이외에도 한국어의 구조와 언어학적 특성을 반영한 토크나이저를 자체 개발하고, 필터링으로 줄어든 데이터 규모는 데이터 합성 방법론을 적용해 보완했다. AI 윤리성 및 신뢰성을 높이기 위해 국내외 정책과 가이드라인을 기반으로 전문가들과 함께 만든 ‘AI 영향 평가 체계’도 적용했다. 또 개발 단계에서 리벨리온과 협력해 국산 AI 반도체에서의 동작을 최적화했다.
KT는 믿:음 2.0 공개를 계기로 국내 AI 생태계에 한국적 AI 확산을 선도한다는 목표다. 마이크로소프트와의 협업으로 GPT-4에 한국적 사고를 추가 학습시키는 모델 또한 순차 공개할 예정이다.
신동훈 KT Gen AI Lab장(상무)은 “믿:음 2.0은 일반적인 생성 능력을 갖추면서도 한국의 문화와 언어를 깊이 이해하도록 고도화된 AI 모델”이라며 “이는 KT가 국내 사용자들에게 고성능 한국적 AI 모델에 대한 새로운 대안을 제시하는 한편 글로벌 경쟁력을 갖추게 될 중요한 발판이 될 것”이라고 말했다.
정채윤 한국금융신문 기자 chaeyun@fntimes.com