• 구독신청
  • My스크랩
  • 지면신문
FNTIMES 대한민국 최고 금융 경제지
ad

[이철흠 한국신용정보원 금융AI데이터센터장] 금융 AI, 데이터 관리에서 답을 찾다

편집국

기사입력 : 2025-06-30 05:00

금융 AI 성능과 신뢰성은 데이터가 좌우
고품질 데이터 기반 합성데이터 활용 필요

[이철흠 한국신용정보원 금융AI데이터센터장] 금융 AI, 데이터 관리에서 답을 찾다
얼마전 인기리에 방영됐던 ‘흑백요리사ʼ에서 필자가 인상깊게 본 장면이 있다. 유명 셰프들의 화려한 요리 스킬이나 창의적인 플레이팅도 눈길을 끌었지만, 그보다 더 인상깊었던 것은 재료를 고르고 대하는 셰프들의 진지한 모습이었다. 맛있는 음식은 좋은 재료로부터 출발한다는 기본 원리(그러나, 잘 잊게되는)를 잘 일깨워준 장면이라 할 수 있다.

흑백요리사가 보여줬던 기본 원리는 AI에도 똑같이 적용된다.

AI분야 세계 4대 석학 중 한 명인 앤드류 응 교수는 AI를 음식에 비유해 데이터 중심 AI의 중요성을 강조했다.

그는 AI 개발 과정에 음식 재료에 해당하는 데이터 준비 과정이 약 80%를 차지함에도, 대부분의 연구개발자들이 20%의 비중을 차지하는 모델 훈련(요리)에 99%의 노력을 집중하고 있다면서, 좋은 AI를 만들기 위해서는 원재료인 데이터의 품질을 높이는 데에 집중해야 한다고 주장했다. 그 근거로 모델 중심 접근법 대비 데이터 중심 접근법이 AI 성능 향상에 더 효과적임을 실증했고, 그 이후 데이터 중심 AI는 AI 개발에 있어 중요한 흐름이 되었다.

또다른 사례로, 얼마전 전 세계에 큰 충격을 주었던 중국의 딥시크 모델을 살펴보자. 딥시크의 놀라운 성능의 배경에는 모델 측면의 신기술을 적극적으로 채용한 점도 있지만, 잘 정제된 데이터셋을 이용해 강화학습을 통해 추론 성능을 크게 높인데 있었다는 것도 데이터의 중요성을 일깨워준다.

당시 한참 인터넷을 떠돌던 그림인 강물(Real Data)에 낚시대를 드리운 OpenAI와 Open AI가 잡은 물고기 통(ChatGPT)에 낚시대를 드리운 딥시크을 표현한 그림도 독자들은 잘 기억하실 것이다.

이처럼, 데이터사이언스 분야에 “Garbage in, Garbage out”이라는 유명한 격언이 있듯이 AI의 성능과 신뢰성은 원재료인 데이터가 좌우하며 그 중요성은 아무리 강조해도 지나치지 않다.

데이터가 중요한 것은 금융 AI라고 해서 다를 바 없다. 오히려, 다른 어떤 분야보다 데이터가 중요한 분야가 금융산업이라 볼 수 있다.

제조업 등 다른 분야는 실물을 기반으로 하기 때문에 데이터 외에도 다양한 접근 방식이 가능한 반면, 금융산업의 경우 고객을 파악할 수 있는 수단이 데이터 외에는 거의 없다. 특히 최근과 같이 비대면 금융거래 비중이 커지고 있는 상황에선 그 의존도가 더욱 커진다고 볼 수 있다.

그러나, 다양하고 방대한 데이터가 있는 것처럼 보이는 금융산업에는 역설적이게도 실제로 AI에 활용할 수 있는 데이터가 많지 않다. 금융 데이터는 거시경제상황 등 외부요인에 따른 불규칙성이 존재하고 이벤트성 데이터가 많으며, 개인정보보호 등의 각종 규제, 법적·윤리적 책임 문제(대출 거절 등)와 고객에 대한 설명가능성 등으로 인해 활용에 많은 제약이 따르기 때문이다.

그렇다면, 이러한 제약 조건 내에서 우수한 금융 AI를 만들기 위해 데이터가 갖춰야 할 품질 요건은 어떤 것이 있을까? 앤드류 응 교수 등의 의견을 종합해 정리하면, 일관성, 포괄성, 피드백, 정확성, 독창성, 균형성의 6가지를 뽑을 수 있다.

사실, 꼭 AI가 아니더라도, 이 6가지 요건은 모든 데이터가 가져야할 덕목이겠지만, 필자는 특히 금융 AI에 더 중요한 요건이 포괄성과 균형성이라 생각한다.

포괄성은 AI가 활용되는 모든 경우에 대해 예측가능하도록 데이터가 다양하고 넓은 커버리지를 갖고 있어야 한다는 의미이다. AI는 학습한 데이터를 벗어난 경우에 대해서는 예측을 제대로 할 수 없기 때문이다. 일부만의 데이터로 학습돼 일부 계층만을 제대로 예측하도록 개발된 AI 신용평가모형으로 전국민을 평가해 대출을 실행할 수는 없는 일일 것이다.

균형성은 편향되지 않은 데이터를 말하고, 편향된 AI가 그 자체가 큰 리스크가 되는 사례는 굳이 나열하지 않아도 될 것이라 생각한다. AI 자체는 어떤 편향도 가지지 않지만, 결국 문제를 일으키는 것은 의도하던 의도하지않던간에 인간에 의해 편향된 데이터이다.

그러나, 아쉽게도 금융회사들이 각자 보유한 데이터는 포괄성과 균형성이 결여된 경우가 많다. 시장점유율이 높지 않아 충분한 정보가 없는 경우도 있고, 기관 특성상 고객 포트폴리오 자체가 편중된 경우도 많다. 우리나라의 대표적인 은행들에 대해 특정한 이미지가 떠오르는 것만 봐도 포트폴리오의 편중 가능성을 유추해 볼 수 있다.

금융회사의 내부 데이터 품질이 특히 포괄성과 균형성 측면에서 충분하지 못하다면, 금융회사 외부의 데이터를 이용한 데이터 확장을 통해 데이터의 다양성과 절대량을 충분히 확보해야 한다.

그 해결방안으로 생각해볼 수 있는 방식이 신용정보원 데이터와 같이 이미 품질이 확보된 데이터를 기반으로 합성데이터를 새롭게 생성해 이용하는 것이다.

신용정보원은 종합신용정보집중기관으로서 전국민(기업을 포함)의 신용정보를 집중·관리하고 있기 때문에, 신정원이 보유한 데이터는 국내의 다른 어떤 금융 데이터보다 포괄성과 균형성이 높다.

또한, 정교하게 집중·관리되고 있어 일관성, 피드백, 정확성, 독창성 등 다른 품질요건도 모두 충족시키는 이른바 “육각형 데이터”라 볼 수 있다. 다만, 이 데이터를 정보 주체의 동의 없이 활용하는 것은 불가능하며 신용정보원도 공유·활용을 엄격히 관리하고 있어 이를 그대로 활용할 수는 없다.

따라서, 신용정보원은 이를 합성데이터로 새롭게 생성해 제공함으로써 금융회사의 AI 활용을 지원할 계획이다.

합성데이터는 실제 데이터와 유사한 통계적 특성과 구조를 가질 수 있도록 새롭게 생성한 인공적인 데이터를 말한다. 만들어낸 데이터이기 때문에 프라이버시 측면에서 더 안전하며, 데이터 증강도 자유로이 할 수 있어 불균형하거나 불완전한 정보의 보완이 가능하고, 실제 데이터를 확보하는 것 대비 비용 측면에서도 큰 장점이 있다.

이러한 장점 때문에 AI 학습에는 실제 데이터보다 합성데이터 활용이 더 효과적이라는 평가가 나오고 있으며, 가트너(Gartner)는 최근 보고서에서 2030년에는 비즈니스 의사결정에서 합성데이터가 실제 데이터보다 더 많이 활용될 것이라 전망하기도 했다.

현재 신용정보원은 생성형AI를 이용해 금융권에 최적화된 합성데이터 생성 모델과 평가 방법에 대한 연구를 지속하고 있으며, 향후 합성데이터가 배포될 수 있는 제도적 기반이 마련되면 금융권에 합성데이터를 적극적으로 제공·지원할 계획이다.

필자는 올해 2025년이 AI산업과 우리 금융산업의 AI활용 측면에서 본격적인 도약의 한 해가 될 것이라 생각한다. 우리 금융산업이 데이터의 중요성을 인식하고 그 품질을 높이는데에 노력을 기울여서 이러한 도약이 금융산업의 퀀텀 점프(Quantum Jump)로 이어질 수 있기를 기대해본다.

이철흠 한국신용정보원 금융AI데이터센터장

데일리 금융경제뉴스 FNTIMES - 저작권법에 의거 상업적 목적의 무단 전재, 복사, 배포 금지
Copyright ⓒ 한국금융신문 & FNTIMES.com

가장 핫한 경제 소식! 한국금융신문의 ‘추천뉴스’를 받아보세요~

오피니언 다른 기사

1 30代의 고민, 육아 휴직 [홍석환의 커리어 멘토링] 육아 휴직에 대한 유혹중소기업 영업팀에 근무하는 A대리는 매일이 전쟁이다. 사무실 중앙에는 팀과 개인의 실적판이 있다. 지역별 팀별 목표 및 실적의 막대그래프가 눈에 들어온다. 전 달은 7개 팀 중 3위였지만, 이번 달은 현재 7위이다. 다들 열심히 하고 있지만, 실적이 오르지 않는다. 팀장은 연일 실적을 점검하고, 실적이 없는 팀원은 현장 퇴근이 아닌 사무실에서 팀장 면담 후 질책을 듣고 퇴근해야 한다. 매일 고객사를 방문하여 담당자를 만나고, 신규 고객을 창출하기 위해 뛰어다니지만 다들 어렵다고 한다.맞벌이 부부인 A대리는 50개월과 5개월된 아들 2명이 있다. 집 근처에 처가집이 있어 두 아들을 돌봐 주기 때문에 아내는 출 2 한국 은행들, d-MRV System, Registry & Exchange 삼각 구조를 선점하라 [리챠드윤의 탄소크레딧 이야기⑥] 많은 사람들이 국제 탄소크레딧 시장을 이야기할 때 가장 먼저 가격을 떠올린다. 탄소배출권 가격이 얼마인지, 탄소크레딧 가격이 오를지 내릴지, 지금 사야 하는지 기다려야 하는지와 같은 질문이 시장의 중심에 있는 것처럼 보인다. 그러나 글로벌 은행들이 들어오고 있는 곳은 탄소크레딧이라는 상품 시장이 아니라, 크레딧 유통·거래가 이루어지는 시장 인프라, 더 정확히 말하면 플랫폼 인프라이다.최근 글로벌 은행들은 단순히 탄소크레딧을 사고파는 트레이더로 들어오는 것이 아니라, 감축사업 투자, d-MRV 시스템, Registry, Exchange, 그리고 파생상품 시장까지 국제 탄소크레딧 시장의 전 가치사슬(Value Chain)를 수직적으로 통합하 3 이 도시의 시민들은 누구나 매달 50만원씩 받는다고? [전명산의 AI블록체인도시 이야기⑦] 이 도시의 시민들은 매달 1인당 50만원씩 받는다. 4인 가족이면 200만원이다. 주거가 안정되어 있다면 최소한의 생활을 유지할 수 있는 수준이다. 50만원은 결코 큰 돈이 아니다. 그러나 누구에게는 한 달 식비가 되고, 누구에게는 아이의 분유와 기저귀 값이 되며, 누구에게는 오랫동안 미뤄왔던 배움의 여유가 되고, 어떤 사람에게는 삶을 포기하지 않을 생존이 된다. 기본소득을 지급하는 도시. 이런 도시가 있다면 어떨까?이번 위기는 회복되지 않는다6회 칼럼에서 필자는 "전략적이고 창의적이며 전례 없는 혁신적인 방법들이 필요한 때"라고 썼다. 지금이 바로 그러한 방법을 고민해야 할 시점이다.단언컨대 3~4년 사이 심각한 고용 쇼크가
ad
ad

한국금융 포럼 사이버관

더보기

FT카드뉴스

더보기
[그래픽 뉴스] 퇴근 후 주차했는데 수익 발생? V2G의 정체
[그래픽 뉴스] “전쟁 신호를 읽는 가장 이상한 방법, 피자 주문량”
[그래픽 뉴스] 트럼프의 ‘타코 한 입’에 흔들린 시장의 비밀
[그래픽 뉴스] 청년정책 5년 계획, 무엇이 달라지나?
[카드뉴스] KT&G, ‘CDP’ 기후변화·수자원 관리 부문 우수기업 선정

FT도서

더보기