회사 안에 데이터는 차고 넘칩니다. 매출 기록, 고객 정보, 운영 지표. 그런데 정작 필요할 때 답을 얻기까지는 며칠이 걸리거나, 답이 부서마다 다르게 나옵니다.
OpenAI는 이 격차를 사내에서 풀어냈습니다. 직원 4,000명이 자연어로 질문하고 몇 분 안에 답을 받는 사내 데이터 분석 AI 에이전트를 엔지니어 두 명이 석 달 만에 만들었습니다. 흥미로운 점은, OpenAI 팀이 짚은 진짜 비결이 모델 성능도 프롬프트 기술도 아니었다는 것입니다.
자연어 질문 한 줄에서 차트가 나오기까지
OpenAI의 재무 분석가가 작년에 지역별·고객군별 매출을 비교하려면 7만 개에 달하는 데이터셋을 뒤지고 SQL 쿼리를 짜고 테이블 구조를 검증하는 데 몇 시간이 걸렸습니다. 지금은 같은 분석가가 사내 메신저에 자연어로 질문 한 줄을 던지면 몇 분 안에 차트가 나옵니다.
OpenAI가 최근 공개한 인터뷰에 따르면, 이 변화를 만든 도구는 엔지니어 두 명이 석 달에 만들었고 코드의 70%는 AI가 작성했습니다. 회사 데이터 플랫폼은 7만 개 데이터셋, 600페타바이트 규모입니다. 사용자는 전 직원 5,000명 중 4,000명을 넘습니다.
쓰임새는 부서를 넘나듭니다. 재무팀은 매출 비교에, 제품팀은 기능 도입률 분석에, 엔지니어링팀은 성능 진단에 사용합니다. 경영진은 영업·엔지니어링·제품 지표를 한 쿼리로 묶어서 분석합니다. 부서별로 만든 도구가 결국 같은 데이터베이스 위에서 작동하기 때문입니다.
특히 인상적인 사례가 하나 있습니다. 두 대시보드의 수치가 달라 그 차이를 알아내려면 사람이 며칠을 들여야 했던 분석을, 에이전트가 몇 분 안에 다섯 가지 원인으로 분리해 순위까지 매겨 보여줬다는 것입니다. 단순한 조회가 아니라 판단까지 가는 분석이 가능해진 것입니다.
핵심 정리
엔지니어 두 명·석 달·코드의 70%는 AI가 작성
직원 5,000명 중 4,000명이 매일 사용 — 자연어 질문에서 차트까지 몇 분
부서 사일로 없이 영업·엔지니어링·제품 데이터를 한 쿼리로 분석
단순 조회가 아니라 판단까지 가는 분석 가능 (다섯 가지 원인 분리 사례)
가장 어려운 문제는 7만 개 중 맞는 테이블을 찾는 일
OpenAI의 데이터 인프라 책임자는 이 에이전트의 가장 큰 기술 난제로 테이블 찾기 자체를 꼽았습니다. 7만 개 데이터셋 중 사용자가 던진 질문에 맞는 한 개를 정확히 골라내는 일입니다.
OpenAI 팀의 해법은 의외로 단순합니다. 매일 별도 작업으로 돌아가는 메타데이터 매핑 과정에서 AI가 각 테이블의 코드, 데이터 흐름, 소유자, 데이터 단위, 조인 키, 유사 테이블을 정리해 데이터베이스에 저장합니다. 사용자가 매출을 물어보면 에이전트는 이미 정리된 매핑 정보에서 답을 찾습니다.
여기에 더해 6개 컨텍스트 레이어가 작동합니다. 기본 스키마 메타데이터, 전문가가 큐레이션한 설명, 사내 협업 도구에서 끌어온 회사 내부 지식, 이전 대화에서 받은 수정 사항을 저장한 학습 기록 등입니다.
특히 예상을 뒤집는 결과 하나가 있었습니다. 컨텍스트는 많을수록 좋을 거라는 가설이 자체 평가에서 그 반대로 나왔습니다. 정리되지 않은 정보를 많이 부어넣는 것보다, 잘 정리되고 정확한 정보를 신중하게 골라 주는 것이 결과가 더 좋았다는 것입니다.
핵심 정리
7만 개 중 맞는 테이블 찾기가 가장 큰 기술 난제
AI가 매일 별도 작업으로 메타데이터를 정리해 저장해두는 구조
6개 컨텍스트 레이어로 여러 층의 검증 (스키마·전문가 설명·회사 내부 지식·학습 기록 등)
양이 아니라 정확함이 핵심 — 잘 정리된 정보가 결과를 만듦
진짜 비결은 화려하지 않습니다
OpenAI 팀이 다른 기업이 가져갈 교훈으로 짚은 것은 모델 성능도 프롬프트 엔지니어링도 아니었습니다. 화려하지 않지만, 사내 데이터 분석 AI 에이전트가 작동하기 위해 반드시 갖춰져야 하는 한 가지였습니다.
진짜 비결: 데이터 거버넌스
OpenAI 팀이 지목한 것은 데이터 거버넌스였습니다. 사내 데이터 분석 AI 에이전트가 잘 작동하려면 데이터가 충분히 정리되고 설명이 붙어 있어야 하고 에이전트가 답을 찾을 때 의지할 신뢰할 수 있는 데이터의 출처가 회사 안 어딘가에 있어야 한다는 것입니다.
저장소, 연산 자원, 분석 도구 같은 기반 인프라는 AI 에이전트로 대체되지 않습니다. 에이전트는 그 위에 새로운 접근 경로를 얹은 것입니다. 사용자가 자연어로 질문하고 몇 분 안에 답을 받는 그 경험은, 사실 그 아래에 잘 정리된 데이터 기준이 있어야 가능합니다.
AI의 과신을 막는 법
OpenAI 팀이 추가로 발견한 것이 또 있습니다. AI 에이전트는 본질적으로 과신하는 경향이 있고, 이를 막으려면 프롬프트가 주니어 분석가를 코칭하는 식이어야 한다는 것입니다.
그 테이블이 정말 맞는지 다른 출처도 확인하고 진행하라는 식의 안내가 들어가야 결과의 신뢰도가 올라갑니다. 모델이 알아서 똑똑하게 처리할 거라는 기대보다, 검증을 거치게 하는 운영 방식이 신뢰의 출발점입니다.
안전장치도 의외로 단순합니다
안전장치도 단순합니다. 사용자의 개인 권한을 그대로 상속받고, 공개 채널에는 등장하지 않으며, 쓰기 권한은 주기적으로 삭제되는 임시 영역에만 허용됩니다. 거창한 AI 통제 기술이 아니라, 기존 권한 체계를 충실히 따르는 것이 안전의 출발점이라는 접근입니다.
핵심 정리
진짜 비결은 데이터 거버넌스 — 에이전트가 의지할 신뢰할 수 있는 데이터의 출처가 있어야 작동
AI는 본질적으로 과신하는 경향이 있음 — 검증을 거치게 하는 프롬프트가 신뢰도를 만듦
안전장치는 거창한 기술이 아닌 기존 권한 체계의 충실한 적용
모델·기술이 아니라 데이터의 기준과 흐름이 핵심
한국 제조의 위치, 그리고 우리가 시작할 수 있는 곳
이 사례를 한국 중견 제조사 환경에 그대로 옮기긴 어렵습니다. OpenAI는 SaaS 기업이고 데이터가 처음부터 한 플랫폼에 모여 있습니다. 7만 개 데이터셋이라도 같은 데이터베이스 위에 있습니다.
반면 한국 제조사의 데이터는 생산관리시스템(MES), 전사자원관리시스템(ERP), 품질관리시스템(QMS), 공급망관리시스템에 흩어져 있습니다. 같은 회사 안에서도 시스템 간 연결이 없거나, 데이터 정의가 부서마다 다른 경우가 많습니다. 예를 들어 소재 제조사의 경우 같은 생산성이라는 단어를 공장과 본사가 다르게 정의하는 일이 흔하고, 식품 제조사라면 불량률이 라인별로, 시간대별로, 기준이 제각각인 일이 많습니다.
이런 환경에서 자연어 질문에 몇 분 안에 답을 주는 사내 데이터 분석 AI 에이전트를 도입하려면 OpenAI 사례의 진짜 비결을 그대로 가져와야 합니다. 더 좋은 모델로 바꾸는 일보다, 우리 회사 안의 어떤 데이터를 신뢰할 수 있는 출처로 삼을지 정리하는 일이 먼저입니다.
물론 한국 중견 제조사가 OpenAI 같은 도구를 단번에 만들기는 어렵습니다. 데이터 환경 자체가 다르기 때문입니다. 그래서 이 사례에서 가져갈 것은 따로 있습니다. 우리 회사의 데이터가 얼마나 정리되어 있는지 점검하고, 그 정리를 어디서부터 시작할지 결정하는 일입니다.
OpenAI 사례가 보여주듯, 출발점은 모델을 사는 일이 아닙니다. 시스템을 새로 짜는 일도 아닙니다. 기존 시스템 위에 기준과 연결을 얹고워크플로우 단위로 한 가지 운영 문제를 끝까지 푸는 일에서 시작합니다.
핵심 정리
한국 제조 데이터는 MES·ERP·QMS·공급망관리시스템에 서로 분리되어 있음
같은 단어(생산성·불량률)도 부서·라인·시간대별 정의가 다른 게 현실
사내 엔지니어로 직접 만드는 길은 한국 중견 제조사 대부분에 비현실적
출발점은 모델 구매도 시스템 재구축도 아닌, 기존 시스템 위에 기준과 연결을 얹는 일
AI 트렌드와 인사이트, 더 보고 싶으신가요?
실용적인 AI 활용 인사이트와 최신 트렌드를 더 알고 싶으시다면 디피니트의 DARVIS 블로그를 구독해보세요. (블로그 구독시 AI 관련 오프라인 행사 초대장을 우선 공유드립니다.)
DARVIS 블로그에서는 매주 업데이트되는 AI 활용 노하우와 실제 사례를 통해 업무 생산성을 높이는 방법을 공유합니다.
더 많은 AI 인사이트들이 궁금하시다면 아래의 ‘AI 인사이트 더 보러가기’를 통해서 둘러보세요.