• 구독신청
  • My스크랩
  • 지면신문
FNTIMES 대한민국 최고 금융 경제지
ad

한컴, PDF 추출 핵심 기술 글로벌 오픈소스로 공개

정채윤 기자

chaeyun@

기사입력 : 2025-09-17 14:25

PDF 데이터 추출 엔진 ‘오픈데이터로더 PDF’
보안 위협 자동 감지·차단하는 기능 추가 예정

  • kakao share
  • facebook share
  • telegram share
  • twitter share
  • clipboard copy
한글과컴퓨터는 인공지능(AI) 학습・활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 전격 공개했다고 17일 밝혔다. / 사진=한컴

한글과컴퓨터는 인공지능(AI) 학습・활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 전격 공개했다고 17일 밝혔다. / 사진=한컴

이미지 확대보기
[한국금융신문 정채윤 기자] 한글과컴퓨터(이하 한컴)는 인공지능(AI) 학습・활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 전격 공개했다고 17일 밝혔다.

이번에 공개된 ‘오픈데이터로더 PDF’는 한컴이 오랜 기간 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진이다.

한컴 관계자는 “PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 형태이지만, 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않다”며 “이로 인해 ‘데이터 감옥’이라 불릴 만큼 AI 개발 과정에서 큰 제약이 따랐다”고 설명했다.

이에 한컴은 지난 7월 PDF 기술 전문 기업 듀얼랩과 오픈소스 기반 PDF 데이터로더를 공동 개발했다. 공동 개발한 오픈데이터로더 PDF는 PDF 문서 내 텍스트・표・이미지・레이아웃 정보를 높은 정확도와 빠른 성능으로 추출해, AI 학습에 즉시 활용할 수 있는 정형화된 데이터(JSON・Markdown・HTML)로 변환한다.

오픈데이터로더 PDF는 보안 위협을 자동 감지·차단하는 기능을 추가할 예정이다. 이를 통해 AI 학습 데이터의 안정성과 신뢰성을 동시에 보장한다는 구상이다.

한컴은 이번 오픈소스 공개를 단순한 기술 공유에 그치지 않고, AI 생태계 전반의 오픈소스 확산과 기술 고도화를 추진할 계획이다. 이를 위해 챗GPT・제미나이・랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고, 깃허브를 통한 글로벌 개발자 커뮤니티와의 협력을 이어갈 계획이다.

정지환 한컴 최고기술책임자(CTO)는 “AI 트랜스포메이션(AX) 시대, 오픈소스는 더 이상 선택이 아닌 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략”이라며 “이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고, 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다”고 말했다.

이어 그는연말에는 AI 기반 문서 인식 기술을 추가하는 오픈소스 프로젝트를 지속적으로 고도화하겠다 덧붙였다.

정채윤 한국금융신문 기자 chaeyun@fntimes.com
ad

가장 핫한 경제 소식! 한국금융신문의 ‘추천뉴스’를 받아보세요~

데일리 금융경제뉴스 FNTIMES - 저작권법에 의거 상업적 목적의 무단 전재, 복사, 배포 금지
Copyright ⓒ 한국금융신문 & FNTIMES.com

오늘의 뉴스

ad
ad
ad

한국금융 포럼 사이버관

더보기

FT카드뉴스

더보기
[카드뉴스] KT&G ‘Global Jr. Committee’, 조직문화 혁신 방안 제언
대내외에서 ESG 경영 성과를 인정받은 KT&G
국어문화원연합회, 578돌 한글날 맞이 '재미있는 우리말 가게 이름 찾기' 공모전 열어
[카드뉴스] 국립생태원과 함께 환경보호 활동 강화하는 KT&G
[카드뉴스] 신생아 특례 대출 조건, 한도, 금리, 신청방법 등 총정리...연 1%대, 최대 5억

FT도서

더보기