AI 성능 주장은 누가 입증해야 하는가 [장준환의 AI법 네비게이터⑦]

Stanford HAI가 던진 AI 시대의 검증과 책임

“그 숫자는 누가 확인했습니까?”

얼마 전 한 AI 기업의 설명 자료를 검토하던 자리에서 나온 질문이었다. 발표 자료에는 정확도, 생산성 향상률, 비용 절감 효과 같은 숫자들이 보기 좋게 정리되어 있었다.

AI가 사람보다 빠르게 문서를 분석하고, 고객 응대를 자동화하며, 업무 시간을 크게 줄일 수 있다는 설명도 이어졌다. 그러나 변호사의 시각에서 중요한 것은 숫자 그 자체가 아니었다.

그 숫자가 어떤 환경에서 측정되었는지, 실제 업무에 적용해도 같은 결과가 나오는지, 그리고 그 수치가 고객과 투자자에게 어떤 법적 의미를 갖는지가 더 중요했다.

사진출처: Pixabay, Business Chart

법의 세계에서 주장은 곧 책임의 출발점이다. 기업이 “우리 AI는 더 정확하다”고 말하는 순간, 그것은 단순한 홍보 문구에 머물지 않을 수 있다. 투자자에게는 기업가치 판단의 근거가 되고, 고객에게는 계약 체결의 이유가 되며, 규제기관에게는 소비자 보호와 시장 질서를 판단하는 기준이 된다.

AI 산업은 이제 성능을 주장하는 단계에서 성능을 입증해야 하는 단계로 넘어가고 있다.

AI 기업의 주장은 어떻게 검증할 것인가

사진출처: Standford University HAI

최근 Stanford Institute for Human-Centered Artificial Intelligence, 즉 Stanford HAI는 이 문제를 중요한 정책 의제로 다루고 있다. Stanford HAI의 정책 브리프 「Validating Claims About AI: A Policymaker’s Guide」는 AI 시스템에 대한 주장이 정당한 것인지, 아니면 충분한 근거 없이 과장된 것인지를 구분하기 위한 검증 프레임워크를 제안한다.

이 브리프가 던지는 질문은 단순하다. 무엇을 주장하고 있는가. 실제로 무엇을 테스트했는가. 그리고 그 테스트 결과가 그 주장을 뒷받침하는가.

이 질문은 법률가에게 매우 익숙하다. 소송에서 주장은 증거로 뒷받침되어야 하고, 계약에서 중요한 설명은 진술과 보장의 문제가 되며, 투자에서는 사업 설명과 실사의 대상이 된다.

AI 기업이 “정확도가 높다”고 주장한다면, 정확도의 기준과 비교 대상이 필요하다. “업무 효율을 높인다”고 말한다면, 어떤 업무와 어떤 비용 구조에서 그런 결과가 나왔는지 설명해야 한다. “사람보다 낫다”고 한다면, 어떤 사람, 어떤 상황, 어떤 책임 구조와 비교한 것인지 분명해야 한다.

AI에 대한 주장은 실제 데이터와 검증 절차로 뒷받침되는 주장일 수도 있고, 마케팅 언어에 가까운 주장일 수도 있다. 문제는 일반 이용자나 기업 고객, 심지어 정책입안자도 이 둘을 쉽게 구분하기 어렵다는 점이다.

AI 모델은 복잡하고, 성능 평가 기준은 다양하며, 기업이 공개하는 정보는 제한적이다. 그래서 AI 시대에는 “무엇을 만들었는가”만큼 “그 주장을 어떻게 입증할 수 있는가”가 중요해진다.

성능평가와 법적 책임은 다르다

AI 모델이 시험에서 높은 점수를 받는 것과 실제 사회에서 안전하고 공정하게 작동하는 것은 같은 문제가 아니다. 수학 문제를 잘 푸는 AI가 금융 소비자에게 적절한 투자 조언을 한다는 뜻은 아니다. 문서를 빠르게 요약하는 AI가 법률 문서의 책임 있는 검토를 대체할 수 있다는 뜻도 아니다. 의료 데이터를 잘 분석하는 AI가 실제 병원 현장에서 다양한 환자의 상황을 공정하게 반영한다는 보장도 없다.

특히 금융 분야에서는 이 차이가 중요하다. 대출 심사 AI가 과거 데이터에서는 높은 예측력을 보일 수 있다. 그러나 그 과거 데이터 안에 특정 지역, 연령, 직업, 성별에 대한 구조적 편향이 들어 있다면, AI는 그것을 효율이라는 이름으로 반복할 수 있다.

투자 추천 AI도 마찬가지다. 과거 시장에서 좋은 성과를 냈다는 사실이 미래의 리스크를 제대로 설명해주는 것은 아니다. AI의 성능은 숫자로 보일 수 있지만, 그 숫자가 실제 소비자 보호와 시장 안정성까지 보장하는 것은 아니다.

결국 AI 성능 주장은 법적 책임과 연결된다. 고객이 그 주장을 믿고 계약을 체결했다면, 나중에 문제가 발생했을 때 그 주장은 계약상 설명의무나 진술보장의 문제가 될 수 있다.

투자자가 그 성능 수치를 근거로 기업가치를 평가했다면, 그 수치의 근거와 검증 가능성은 투자 실사의 핵심이 된다. 규제기관이 고위험 AI의 안전성과 공정성을 판단해야 한다면, 기업이 제시하는 성능 주장은 더 이상 선택적 홍보자료가 아니라 감독의 대상이 된다.

사진출처: Pixabay, Business Compliance Meeting
한국에도 AI 실사와 평가 인프라가 필요하다

앞으로 AI 기업에 대한 투자와 인수, 금융기관의 AI 활용에서는 새로운 종류의 실사가 필요해질 것이다.

과거 기업을 평가할 때 재무 실사, 법률 실사, 기술 실사를 했다면, AI 시대에는 여기에 AI 실사가 더해져야 한다. 그 기업이 어떤 데이터를 사용했는지, 그 데이터 사용권은 적법한지, 모델의 성능 주장은 독립적으로 검증되었는지, 고위험 분야에서 사용할 경우 편향과 오류를 어떻게 관리하는지를 확인해야 한다.

이것은 규제를 늘리자는 이야기가 아니다. 오히려 시장을 제대로 작동하게 만들기 위한 신뢰의 인프라다. 검증되지 않은 AI 주장이 넘쳐나면 투자자는 판단하기 어렵고, 기업 고객은 도입을 주저하며, 정부는 과잉규제와 방임 사이에서 흔들리게 된다. 반대로 검증 가능한 기준이 마련되면 좋은 AI 기업은 더 쉽게 신뢰를 얻고, 위험한 AI 서비스는 시장에서 걸러질 수 있다.

AI 평가는 앞으로 하나의 산업이 될 가능성이 크다. AI 인증, 감사, 보험, 리스크 평가, 컴플라이언스, 제3자 검증 서비스가 새로운 시장으로 성장할 수 있다. 법과 제도는 기술의 발목을 잡는 장치가 아니라, 기술에 대한 신뢰를 만들어 자본이 움직일 수 있게 하는 장치가 된다.

이제 한국도 질문을 바꾸어야 한다. “우리 AI가 얼마나 뛰어난가”만 물어서는 부족하다. 더 중요한 질문은 이것이다. 그 뛰어남은 누가, 어떤 기준으로, 어떤 데이터에 근거해 입증했는가.

AI 성능 주장은 더 이상 기술 설명에만 머물지 않는다. 그것은 계약의 근거가 되고, 투자의 전제가 되며, 규제와 책임의 출발점이 된다. 앞으로 AI를 믿을 수 있는 사회는 AI를 많이 쓰는 사회가 아니라, AI의 주장을 제대로 검증하고 책임의 기준을 세울 수 있는 사회일 것이다.

장준환 뉴욕 변호사 (Private Wealth & Investment)

충북대학교 컴퓨터공학과 겸임교수/재미한인과학기술자협회(KSEA) 고문변호사

미국 뉴욕주 프라이빗 웰스 로펌의 대표 변호사로 자산 구조와 투자전략 설계 전문가다. AI를 비롯한 IT 관련 법률 지식에 정통해 충북대 컴퓨터공학과 겸임교수와 재미한인과학기술자협회 고문변호사를 맡고 있다. 도시재생 프로젝트를 추진하는 등 개발사업과 글로벌 갤러리 운영도 하면서 다양한 사회·문화 활동도 하고 있다. 차세대 한인 리더로서 AI 시대의 인간다움을 지키는 인프라를 구축해 입법·제도화한다는 비전을 갖고 오는 2028년 뉴욕주 하원의원 선거에 출마를 준비 중이다.

장준환 칼럼니스트/뉴욕 변호사