
‘KorQuAD 2.0’은 대규모 한국어 질의응답 데이터셋이다. 2018년 12월 'KorQuAD 1.0’이 오픈소스로 공개된 이후 현재 2.0은 리스트, 표 등이 포함된 HTML 문서의 이해, 길고 방대한 문서를 빠르게 처리하는 기술을 요구하는 등 난이도가 높아졌다.
카카오엔터프라이즈의 자연어처리 모델 ‘LittleBird-large’는 정확도 90.22점을 기록하며 1위에 올랐다. 정확도뿐만 아니라 처리 속도 역시 기존 1위 모델 대비 약 1.7배 빠른 수치를 기록해 기술력을 입증했다.
또한 모델 사이즈를 최적화해 추론 속도를 높이고 실용성을 제고하도록 함께 개발된 ‘LittleBird-base’ 모델은 정확도 88.57점으로 6위를 기록하며, 유사 성능의 타사 모델 대비 약 3.4배 빠른 속도로 데이터를 처리하는 성과를 거뒀다.
카카오엔터프라이즈는 해당 모델을 지속적으로 고도화해 검색, 챗봇을 비롯해 AI 컨텍센터인 ‘카카오 I 커넥트 센터’에 적용할 예정이다. 예를 들어 ‘카카오 I 커넥트 센터’에 적용하면서 AI 상담사가 해당 기계독해 모델을 적용한 지식 검색 시스템을 활용해 고객의 질의나 요청에 대해 한층 정확한 답변을 제공할 수 있게 된다.
카카오의 자체 언어모델은 지난 2019년에도 'KorQuAD 1.0’에서 1위에 오른 바 있다. 당시 카카오의 언어모델은 평가 주체인 인간의 문장 판별 및 독해 능력 수준(Human Performance)이라고 밝혀진 91.20점보다 0.65점 높은 91.85점을 받으며 AI가 인간보다 높은 점수를 기록한 최초의 사례로 기록되었다.
최동진 카카오엔터프라이즈 AI Lab & Service장은 “기계독해는 문서를 단순히 이해하는 것을 넘어 분석, 추론을 통해 최적화된 답을 제공하는 기술로, AI를 활용한 실서비스를 고도화하는데 직접적인 영향을 끼친다"며 “카카오엔터프라이즈는 앞으로 자연어처리는 물론 비전, 음성 등 다양한 영역에서 연구 역량을 강화해 나갈 것”이라고 밝혔다
정은경 기자 ek7869@fntimes.com