"AI에게 '고객'을 물어봤더니 영업팀과 재무팀이 전혀 다른 답을 내놨습니다."
한 제조기업 CTO의 말입니다. 같은 '고객'이라는 단어인데, 영업 CRM에선 '잠재고객'까지 포함하고, 재무시스템에선 '실제 결제한 고객'만 의미합니다. AI는 이걸 구분할 수 없습니다. 그래서 엉뚱한 숫자를 보고하고, 잘못된 인사이트를 제공합니다.
이 문제, 여러분 회사에서도 겪고 계시지 않나요?
분명 같은 단어인데 부서마다 다른 의미, 왜 그럴까요?
기업 현장에는 데이터를 만드는 시스템이 여러 개 있습니다. 그런데 각 시스템이 같은 단어를 다른 의미로 사용합니다.
같은 회사 안에서도 각 시스템이 서로 다른 '언어'로 말하는 겁니다. 영어로 말하는 영업팀, 중국어로 말하는 재무팀, 일본어로 말하는 현장팀이 통역 없이 회의하는 상황이죠.
제조 현장을 예로 들어볼까요? 센서는 온도와 압력, 진동 같은 설비 상태를 실시간으로 기록합니다. PLC(Programmable Logic Controller, 생산설비 제어장치)는 생산 라인 제어 데이터를 쌓고, MES(Manufacturing Execution System, 제조실행시스템)는 작업 지시와 생산 실적을 관리합니다. 그리고 ERP(Enterprise Resource Planning, 전사자원관리시스템)는 재고, 원가, 출하 정보를 다룹니다.
문제는 같은 '불량률'이어도 시스템마다 의미가 다르다는 점입니다. 센서는 실시간으로 수치를 측정하고, MES는 일 단위로 집계하며, ERP는 월 단위 보고서로 정리합니다. 그럼 어느 숫자가 진짜일까요? AI는 이걸 구분하지 못합니다.
건설 프로젝트도 마찬가지입니다. '진행률'이라는 단어 하나를 놓고 현장소장은 물리적 완성도(60%)를 말하고, 재무팀은 비용 집행률(75%)을 기준으로 하며, PMO는 일정 진척도(55%)를 이야기합니다.
같은 프로젝트인데 세 숫자가 다 다릅니다. AI한테 "프로젝트 진행률 보고해줘" 하면 뭘 기준으로 답할까요?
유통이나 서비스 업종도 예외가 아닙니다. '재고' 개념만 봐도 물류창고는 물리적 재고를 세고, 판매시스템은 판매가능 재고를 보며, 회계는 장부상 재고를 관리합니다.
이런 상황에서 AI를 도입하면 부서별로 다른 답변이 나오고, 신뢰할 수 없는 인사이트가 제공되며, 결국 사람이 다시 일일이 확인해야 합니다.
핵심 문제:
같은 용어, 부서마다 다른 정의
시스템별로 다른 집계 기준
데이터 간 연결 고리 불명확
AI의 컨텍스트 이해 불가
수십억 달러 투자했지만 AI 에이전트 도입 성공률은 극히 낮은 이유
글로벌 기업들이 AI 에이전트에 수십억 달러를 쏟아붓고 있습니다. 하지만 실제 비즈니스 현장에서 성공 사례는 극히 드뭅니다. 화려한 데모는 만들 수 있지만 실제 업무에 적용하는 건 전혀 다른 이야기입니다.
AI 솔루션 전문가들은 이렇게 지적합니다.
"API 연동, MCP(Model Context Protocol) 같은 기술 통합은 잘 해결됩니다. 진짜 문제는 AI가 비즈니스 데이터의 '의미'를 이해하지 못한다는 것입니다."
구체적인 문제를 하나 살펴볼까요. 개인정보(PII) 분류 문제입니다. 어떤 시스템은 주민번호를 민감정보로 분류하지만, 다른 시스템은 고객ID 정도로만 취급합니다.
AI 에이전트가 이 차이를 모르면 어떻게 될까요? GDPR이나 개인정보보호법 위반 가능성이 생깁니다. 단순히 기술 문제가 아니라 법적 리스크로 직결되는 겁니다.
게다가 시스템 스키마는 수시로 바뀝니다. 데이터 수집 과정에서 품질 이슈도 발생하죠. AI는 이런 변화를 스스로 감지하고 대응할 수 없습니다. 그래서 환각(hallucination)이 발생합니다. 존재하지 않는 데이터를 만들어내거나 엉뚱한 관계를 추론하는 겁니다.
그렇다면 해결책은 무엇일까요? 여기서 온톨로지(Ontology)가 등장합니다.
온톨로지는 비즈니스 개념을 정의하고, 용어 간 계층 구조를 설정하며, 데이터 간 관계를 명확히 합니다. 쉽게 말해 ‘기업 데이터의 공식 사전’입니다. 신입사원 교육 자료처럼, ‘우리 회사에서 이 단어는 이런 뜻이다’를 명확하게 정의해둔 것이죠.
AI 전문가들은 온톨로지를 ‘AI의 진짜 가드레일(guardrail)’이라고 표현합니다.
기차가 레일을 벗어나면 탈선하듯이, AI도 온톨로지라는 '안전한 데이터 경로' 없이는 엉뚱한 방향으로 질주할 수 있습니다. 온톨로지는 AI가 올바른 데이터만 찾고, 정의된 관계만 따라가도록 경로를 제한하는 역할을 합니다.
AI 에이전트 실패의 핵심 원인
기술 통합은 성공 (API, MCP 등)
데이터 '의미' 이해는 실패
시스템 간 컨텍스트 단절
변화 감지 및 대응 불가
온톨로지란? 데이터에 '의미'를 부여하는 지식 체계
온톨로지(Ontology)뜻에 대해 조금 더 자세히 알아보겠습니다.
온톨로지는 본래 철학에서 시작된 용어로, '존재론'이라고 번역됩니다. 그리스어 'onto-'(존재)와 'logia'(학문)의 합성어죠. 철학에서는 "무엇이 존재하는가?", "존재하는 것들의 본질은 무엇인가?"를 탐구하는 분과입니다.
하지만 AI와 정보과학 분야로 넘어오면서 온톨로지는 실질적인 의미를 갖게 되었습니다. ‘특정 영역의 지식을 컴퓨터가 이해하고 처리할 수 있도록 표준화하여 정의한 지식 체계’가 된 겁니다. 쉽게 말해, 우리가 사는 세상을 구성하는 사물(객체)들이 무엇이고, 그들이 서로 어떤 관계를 맺고 있는지를 공식적으로 약속해둔 '지식 지도'입니다.
컴퓨터 과학에서 온톨로지는 "우리가 다루는 영역(Domain)에 무엇이 있는지, 그리고 그것들이 어떻게 연결되는지"를 컴퓨터가 읽을 수 있는 형태로 명시한 것입니다.
신입사원이 회사에 입사하면 업무 매뉴얼을 받습니다. ‘우리 회사에서 이 용어는 이렇게 쓴다’, ‘이 업무는 저 부서와 이렇게 연결된다’ 같은 설명이 담긴 자료 말이죠. 온톨로지가 바로 그런 역할을 합니다. 단, 사람이 아닌 AI를 위한 매뉴얼인 거죠.
온톨로지를 구성하는 4대 요소
실제 온톨로지는 네 가지 핵심 요소를 정의함으로써 완성됩니다.
첫째, 개념(Classes/Concepts)입니다. 대상의 카테고리를 말합니다. 예를 들어 '사람', '자동차', '고객', '제품' 같은 것들이죠. "고객이란 무엇인가?"라는 질문에 답하는 겁니다. 잠재고객도 포함할 건가요? 아니면 계약 고객만 의미하나요? 최종사용자까지 포함할 건가요? 온톨로지는 이 모든 관점을 명확히 정의합니다.
둘째, 속성(Properties/Attributes)입니다. 대상이 가진 특징을 정의합니다. 사람은 '이름'과 '나이'를 가진다, 제품은 '가격'과 '재고수량'을 가진다 같은 식이죠. 이 속성들이 어떤 데이터 타입인지, 필수인지 선택인지까지 명시합니다.
셋째, 관계(Relationships)입니다. 대상 간의 상호작용과 연결고리를 정의합니다. "고객은 주문을 생성한다", "주문은 제품을 포함한다", "제품은 재고로부터 출고된다" 같은 관계를 명시하는 거죠. 이렇게 관계를 정의해두면 AI가 여러 테이블을 자동으로 조인하고, 복잡한 비즈니스 로직을 이해할 수 있습니다.
넷째, 공리(Axioms/Rules)입니다. 항상 참인 제약 조건, 즉 비즈니스 규칙을 말합니다. "결제 완료 전에는 배송을 시작할 수 없다", "관리자 승인 없이는 100만원 이상 발주 불가" 같은 규칙이죠. 이런 공리가 있어야 AI가 비즈니스 정책을 위반하는 행동을 하지 않습니다.
온톨로지 4대 구성 요소:
개념(Classes): 대상의 카테고리 (예: 고객, 제품, 주문)
속성(Properties): 대상의 특징 (예: 이름, 가격, 수량)
관계(Relationships): 대상 간 연결 (예: 고객-구매-제품)
공리(Axioms): 비즈니스 규칙 (예: 결제 후 배송)
온톨로지는 단순한 데이터베이스와 무엇이 다를까?
여기서 중요한 질문이 생깁니다. ‘그럼 일반 데이터베이스와 뭐가 다른 걸까?’
결정적인 차이는 지능적 추론(Intelligent Reasoning)에 있습니다. 일반 DB는 우리가 요청한 것만 정확히 돌려줍니다. "A 고객의 주문 내역 조회" 하면 그 데이터만 보여주죠. 하지만 온톨로지 기반 시스템은 정의된 관계를 따라가며 우리가 직접 물어보지 않은 것까지 추론할 수 있습니다.
예를 들어볼까요. "A 고객의 담당자가 휴가 중일 때, 대신 승인할 수 있는 사람은?"이라고 물어본다면, 일반 DB는 이 질문에 답할 수 없습니다. 하지만 온톨로지가 "담당자-팀장-부서장" 계층과 "휴가 시 대리인 지정" 규칙을 알고 있다면, 여러 단계의 관계를 거쳐(Multi-hop Reasoning) 답을 찾아낼 수 있습니다.
이게 바로 AI 에이전트 시대에 온톨로지가 중요한 이유입니다. 세 가지 핵심 가치가 있습니다.
첫째, 지식의 단일화(Single Source of Truth)입니다. 부서마다 다르게 정의된 용어('고객', '재고', '진행률' 등)를 비즈니스 도메인에 따라 명확히 정의하여 혼선을 막아줍니다. 영업팀의 '고객'과 재무팀의 '고객'이 어떻게 다른지, 어떤 상황에서 어느 정의를 써야 하는지 명확해집니다.
둘째, 다중 홉 추론(Multi-hop Reasoning)입니다. "B 제품을 구매한 고객 중 3개월 내 재구매하지 않은 고객과 연결된 영업사원은 누구인가?" 같은 복잡한 질문에 답하기 위해 지식 간의 다단계 연결 고리를 탐색합니다. 일반 SQL로는 몇십 줄짜리 복잡한 쿼리가 필요하지만, 온톨로지는 관계를 자동으로 따라가며 답을 찾습니다.
셋째, 환각(Hallucination) 방지입니다. AI가 온톨로지에 정의되지 않은 가짜 관계를 만들어내려 할 때, 시스템이 이를 검증하고 차단하는 '가드레일' 역할을 합니다. 존재하지 않는 고객을 만들어내거나, 있지도 않은 제품 재고를 보고하는 일을 막아주는 거죠.
온톨로지의 3대 핵심 가치:
지식의 단일화(SSOT): 부서별 용어 통일, 혼선 방지
다중 홉 추론: 복잡한 질문에 자동 추론으로 답변
환각 방지: AI가 가짜 데이터 생성하지 못하도록 차단
온톨로지는 보통 그래프 데이터베이스로 구현됩니다.
왜 그래프일까요? 기존 관계형 DB는 테이블과 컬럼이라는 고정된 구조를 가지지만, 그래프 DB는 노드(node)와 엣지(edge)로 유연하게 관계를 표현할 수 있기 때문입니다.
가장 간단한 방식은 트리플스토어(Triplestore)입니다. 주어-술어-목적어 형태로 데이터를 저장합니다. 예를 들어 "고객-구매한다-제품" 이런 식이죠. 간단한 관계 표현에 적합합니다.
좀 더 복잡한 비즈니스 규칙을 다뤄야 한다면 라벨 속성 그래프(Labeled Property Graph)를 사용합니다. Neo4j가 대표적인 제품이죠. 다단계 관계(multi-hop relation)를 표현할 수 있고, 숨겨진 관계를 발견하는 데도 유용합니다.
AI 전문가들은 "이런 그래프 구조가 기업이 숨겨진 관계를 발견하고 복잡한 질문에 답하는 데 도움이 된다"고 설명합니다. 예를 들어 "우리 제품을 구매한 고객 중 3개월 내 재구매하지 않은 고객과 연결된 영업사원은 누구인가?" 같은 복잡한 질의도 그래프로는 쉽게 풀어낼 수 있습니다.
그래프 DB 구현 방식
트리플스토어: 간단한 주어-술어-목적어 구조
라벨 속성 그래프: 복잡한 다단계 관계 표현
장점: 유연한 관계 표현, 숨겨진 패턴 발견
실제 사례: 산업별 표준 온톨로지
이미 일부 산업에는 공개된 온톨로지가 있습니다.
금융 산업의 FIBO(Financial Industry Business Ontology)는 금융상품, 거래, 시장 같은 금융 개념을 표준화한 온톨로지입니다. 의료 분야의 UMLS(Unified Medical Language System)는 질병, 약물, 시술 등 의료 용어를 통합한 시스템이죠. 전자상거래 분야에는 GoodRelations라는 온톨로지가 제품, 가격, 재고 같은 정보를 웹상에서 의미적으로 연결하는 데 사용됩니다.
이런 공개 온톨로지는 좋은 출발점이 됩니다. 하지만 대부분 기업은 자사만의 고유한 프로세스와 용어가 있기 때문에, 표준 온톨로지를 커스터마이징해야 합니다. 제조 공정, 품질 기준, 고객 분류 같은 회사만의 비즈니스 규칙을 반영해야 하는 거죠.
산업별 표준 온톨로지 예시:
분야 | 온톨로지 명칭 | 용도 |
|---|---|---|
금융 | FIBO | 금융 용어 및 관계의 표준화 |
의료 | UMLS | 방대한 의학 용어와 지식의 통합 |
전자상거래 | GoodRelations | 제품, 가격, 재고 등의 웹상 의미 연결 |
커스터마이징 필요: 기업 고유의 프로세스 반영
온톨로지 기반 AI 시스템은 어떻게 작동할까?
그렇다면 온톨로지를 실제 AI 시스템에 어떻게 적용할까요?
글로벌 AI 솔루션 기업들이 제안하는 구체적인 아키텍처를 살펴보겠습니다.
전체 흐름은 3단계로 나뉩니다. 먼저 데이터 수집 및 정리 단계에서 문서 인텔리전스(DocIntel) 에이전트가 구조화/비구조화 데이터를 처리합니다. 이 데이터를 온톨로지 기준으로 분류하고 Neo4j 같은 그래프 DB에 저장합니다.
다음은 데이터 발견 단계입니다. 데이터 발견(Data Discovery) 에이전트가 온톨로지를 따라 올바른 데이터를 찾습니다. 단순히 데이터만 찾는 게 아니라 관계와 의미를 함께 전달하는 게 핵심입니다. "이 데이터는 이런 의미를 가지고 있고, 저 데이터와는 이렇게 연결되어 있다"는 컨텍스트를 제공하는 거죠.
마지막으로 비즈니스 프로세스 실행 단계입니다. 실제 작업을 수행하는 AI 에이전트들이 A2A(Agent to Agent) 프로토콜로 서로 통신하고, AG-UI 프로토콜로 사용자 인터페이스를 제공합니다.
환각(Hallucination) 방지 효과
온톨로지의 가장 큰 장점은 AI의 환각을 방지한다는 점입니다. 온톨로지가 있으면 AI는 정의된 경로만 따라가게 됩니다. 엉뚱한 데이터를 만들어낼 수 없습니다.
구체적인 예를 들어볼까요. AI가 존재하지 않는 '고객'을 환각으로 만들어냈다고 가정해봅시다. 그런데 온톨로지 기반 시스템에서는 모든 고객이 '주문', '결제', '배송' 같은 연결된 데이터를 가지고 있어야 합니다. 환각으로 만든 가짜 고객은 이런 연결 데이터가 없겠죠? 시스템이 즉시 이상을 감지하고 제거할 수 있습니다.
이게 바로 AI 전문가들이 말한 가드레일 역할입니다. AI가 벗어날 수 없는 안전한 경로를 만들어주는 거죠.
환각 방지 메커니즘:
AI는 정의된 경로만 탐색 가능
연결 데이터 없는 엔티티 자동 감지
비즈니스 규칙 위반 시 차단
실시간 이상 탐지 및 제거
확장성과 유지보수
온톨로지의 또 다른 장점은 쉬운 확장입니다. 새로운 자산, 관계, 정책을 추가하면 AI 에이전트가 자동으로 학습합니다. 개별 엔티티마다 규칙을 설정하는 게 아니라 시스템 전체에 규칙을 적용하기 때문에, 비즈니스 변화에 유연하게 대응할 수 있습니다.
예를 들어 새로운 제품 카테고리가 생겼다고 해봅시다. 온톨로지에 "신제품 > 카테고리X" 이런 계층만 추가하면, 모든 AI 에이전트가 이 정보를 자동으로 인식합니다. 따로 각 에이전트를 업데이트할 필요가 없는 거죠.
온톨로지 기반 시스템의 장점:
자동 학습: 새로운 규칙 추가 시 에이전트 자동 반영
중앙 관리: 개별 엔티티가 아닌 시스템 전체 규칙 적용
유연한 확장: 비즈니스 변화 신속 대응
온톨로지 구축, 현실적 고려사항은 바로 시간과 비용
물론 온톨로지 구축에는 트레이드오프가 있습니다. 초기 정의에 몇 개월이 소요되고 데이터 발견과 그래프 DB 운영에 오버헤드가 발생하며,부서 간 용어 합의라는 조직적 과제도 해결해야 합니다.
그렇다면 모든 기업이 온톨로지를 구축해야 할까요?
AI 업계 전문가들은 ‘기업 규모가 크다면 이런 오버헤드를 감수할 만한 가치가 있다’고 평가합니다. 초기 투자는 크지만 장기적으로는 AI 시스템의 정확도와 신뢰성이 크게 향상되기 때문입니다.
특히 데이터가 여러 시스템에 분산되어 있고, 부서 간 용어 불일치가 심하며, 컴플라이언스가 중요한 산업이라면 온톨로지 구축이 거의 필수입니다.
온톨로지 구축 시 고려사항
시간: 초기 정의 3-6개월 소요
비용: 그래프 DB 인프라 및 운영 비용
조직: 부서 간 용어 합의 프로세스
ROI: 대규모 기업에서 장기적 가치 입증
데이터 정리가 먼저, AI는 그 다음
AI 에이전트를 성공적으로 도입하려면 순서가 중요합니다. 먼저 데이터를 정리해야 합니다. 온톨로지로 의미를 부여해야 합니다. 그 다음에야 AI가 제대로 작동합니다.
데모 만들기는 쉽습니다. 하지만 실제 비즈니스에 적용하는 건 전혀 다른 이야기입니다. 화려한 AI 기술보다 지루한 데이터 정리가 먼저입니다.
AI 도입을 고민 중이라면, 이 질문부터 던져보세요.
"우리 회사에서 '고객'이란 단어는 누구를 의미할까?"
"부서마다 다른 답이 나온다면, AI는 어떤 답을 내놓을까?"
화려한 AI 기술 스택을 고민하기 전에, 지루하지만 필수적인 데이터 정리부터 시작하세요. 그게 AI 성공의 진짜 지름길입니다.
디피니트 DARVIS도 마찬가지입니다. Text-to-SQL 기술로 자연어를 SQL로 바꾸기 전에, 가장 먼저 하는 작업이 데이터 스키마 파악입니다. 어떤 테이블이 있나? 컬럼은 무엇을 의미하나? 테이블 간 관계는? 이런 '데이터 지도'가 없으면, 아무리 똑똑한 AI라도 엉뚱한 SQL을 만듭니다.
온톨로지 구축이나 데이터 거버넌스 체계화에 어려움이 있다면, 디피니트와 상담해보세요. 제조, 건설, 공공기관 등 레거시 산업의 복잡한 데이터 환경을 이해하고 실무에 적용 가능한 인사이트를 제공해드립니다.