SEO 지식 그래프는 인물, 사건 등의 속성을 포함한 구조화된 엔티티 관계 데이터 집합입니다;
SERP에서 Google 지식 그래프 패널과 같은 기능은 5억 개가 넘는 엔티티를 포괄하며, 답을 직접 표시해 정보 획득 효율을 높입니다.

Table of Contens
Toggle기본 정의
Google 지식 그래프는 현실 세계의 엔티티를 기반으로 한 구조화 데이터 네트워크로, 5억 개가 넘는 엔티티(인물, 기업, 장소 등)를 포괄하며, “엔티티-속성-관계” 삼중항(예: “테슬라-설립 시기-2003년”)을 통해 파편화된 정보를 연결합니다.
이 시스템은 사용자 질문에 구조화된 답변을 직접 제공하며(예: “아인슈타인”을 검색하면 오른쪽에 생몰 연도와 공헌이 표시됨), 기존의 링크 목록을 대체합니다. Google의 2023년 데이터에 따르면, 간단한 질문의 70%(예: “해리 포터 작가”)가 이미 지식 그래프 카드로 해결되고 있습니다.
웹사이트 측면에서 보면, 수록된 엔티티의 공식 사이트는 일반 검색 결과보다 클릭률이 28% 더 높지만(Moz 2024 통계), “권위 있는 출처 간의 일치”와 같은 엄격한 조건을 충족해야 합니다.
지식 그래프의 본질
전통적인 검색엔진이 “웹 도서관”이라서 사용자가 서가에서 직접 책을 뒤져(링크를 클릭해) 답을 찾아야 한다면,
Google 지식 그래프는 “디지털 사전”입니다. 수많은 웹페이지에 흩어진 “지식 조각”을 기계가 직접 이해할 수 있는 “구조화된 언어”로 번역한 뒤, 이를 사용자가 빠르게 얻을 수 있는 “답변 카드”로 정리합니다.
“깨진 텍스트”에서 “구조화된 텍스트”로
사용자가 검색할 때 입력하는 키워드(예: “테슬라 창업자”)는 본질적으로 하나의 “자연어 명령어”입니다.
Google이 첫 단계에서 해야 할 일은 방대한 웹페이지에서 “테슬라”와 “창업자”와 관련된 정보를 “분해”해 내는 것입니다. 하지만 웹페이지의 내용은 “비구조화 텍스트”입니다. 예를 들어 백과사전의 단락(“테슬라(Tesla)는 마틴 에버하드와 마크 타페닝이 2003년에 설립했다”), 보도자료의 문장(“2004년 엘론 머스크는 테슬라에 630만 달러를 투자해 최대 주주가 되었다”), 심지어 포럼 댓글(“테슬라의 창업자는 사실 여러 명이고, 초기 팀이 매우 중요했다”)일 수도 있습니다.
이런 “깨진 텍스트”를 기계가 읽을 수 있는 구조화 데이터로 바꾸기 위해 Google은 개체명 인식(Named Entity Recognition, NER)과 속성 추출(Attribute Extraction)이라는 두 가지 NLP 기술에 의존합니다.
- 엔티티 인식: 사전 학습 모델(BERT 변형 등)을 통해 텍스트 속 “명명된 엔티티”(예: “테슬라”, “마틴 에버하드”, “2003년”)를 인식하고, 그 유형(기업, 인물, 시간)을 라벨링합니다.
- 속성 추출: 엔티티 간의 의미 관계를 분석해 “속성-값” 쌍(예: “테슬라-창업자-마틴 에버하드”, “테슬라-설립 시기-2003년”)을 추출합니다.
구체적인 사례를 들어 보겠습니다. 웹페이지 A에는 “테슬라는 마틴 에버하드와 JB 스트라우벨이 2003년 4월 1일에 설립했다”고 쓰여 있고, 웹페이지 B에는 “2004년 머스크가 테슬라의 시리즈 A 투자 라운드를 주도해 약 22%의 지분을 보유했다”고 적혀 있다고 가정해 보겠습니다.
Google의 NLP 시스템은 다음과 같이 처리합니다.
- “테슬라”(기업), “마틴 에버하드”(인물), “JB 스트라우벨”(인물), “2003년 4월 1일”(시간), “2004년”(시간), “머스크”(인물) 등의 엔티티를 인식합니다.
- “테슬라-창업자-마틴 에버하드”, “테슬라-창업자-JB 스트라우벨”, “테슬라-설립 시기-2003년 4월 1일”, “테슬라-투자자-머스크”, “테슬라-자금 조달 시기-2004년”과 같은 속성 쌍을 추출합니다.
- 이러한 속성 쌍을 “삼중항”(Entity-Attribute-Value)으로 통합하여 지식 그래프 데이터베이스에 저장합니다.
Google의 2023년 기술 백서에 따르면, 이 NLP 시스템은 단일 웹페이지를 처리할 때 엔티티 인식 정확도가 92%(표준화된 기업 정보를 기준으로)이며, 복잡한 문장 구조(예: “XX와 YY가 공동 설립함”)의 속성 추출에는 여전히 8%의 오차가 있습니다. 이것이 일부 기업 정보가 지식 그래프에서 완전히 표시되지 않는 이유이기도 합니다.
Schema.org
하지만 문제가 있습니다. 동일한 엔티티를 서로 다른 웹페이지가 다른 표현으로 설명할 수 있고(예: “창업자”를 “공동 창업자”, “초기 팀”으로 표기), 심지어 속성명 자체도 혼란스러울 수 있습니다(예: “설립 시기”를 “창립 연도”, “회사 설립일”로 표기).
Google이 자체 규칙만으로 억지 해석을 하면, “A 회사의 창업자를 B 회사에 붙이는” 식의 오류가 발생할 수 있습니다.
이 문제를 해결하기 위해 Google은 Microsoft, Yahoo 등 다른 검색엔진 기업과 함께 2011년에 Schema.org를 도입했습니다. 이것은 전 세계적으로 통용되는 “구조화 데이터 마크업 표준”입니다.
쉽게 말해 Schema.org는 하나의 “정보 사전”과 같습니다. 여기에는 “엔티티 유형”(예: Organization 기업, Person 인물)과 “속성 태그”(예: foundingDate 설립 시기, founder 창업자)가 규정되어 있으며, 웹사이트 개발자는 이런 태그를 사용해 Google에 “내 웹페이지에서 이 데이터는 어떤 유형의 엔티티이며, 어떤 속성에 대응하는가”를 능동적으로 알려줄 수 있습니다.
기업 공식 사이트를 예로 들어, Schema.org 마크업으로 “테슬라”를 표시하면:
<script type=”application/ld+json”>
{
“@context”: “https://schema.org”,
“@type”: “Organization”,
“name”: “Tesla, Inc.”,
“foundingDate”: “2003-04-01”,
“founder”: [
{ “@type”: “Person”, “name”: “Martin Eberhard” },
{ “@type”: “Person”, “name”: “Marc Tarpenning” }
],
“investor”: [
{ “@type”: “Person”, “name”: “Elon Musk”, “investmentAmount”: “6.3 million USD” }
]
}
</script>
Google의 크롤러(Googlebot)는 이 코드를 수집한 후, “테슬라”의 foundingDate(설립 시기), founder(창업자), investor(투자자) 등의 정보를 직접 추출할 수 있으며, NLP로 텍스트 의미를 “추측”할 필요가 없습니다.
Schema.org의 가치는 얼마나 클까요? Google의 2024년 내부 데이터에 따르면, Schema.org 마크업을 사용하는 기업 공식 사이트는 핵심 속성(이름, 설립 시기, 본사)이 지식 그래프에 수록될 확률이 미사용 공식 사이트보다 47% 더 높습니다.
또한 10개 이상의 핵심 속성을 포괄하는 완전한 마크업을 적용한 공식 사이트는 정보 정확도가 비마크업 사이트의 68%에서 91%로 상승합니다.
권위성 검증
웹페이지가 Schema.org 마크업을 사용한다고 해서 Google이 그대로 모두 받아들이는 것은 아닙니다.
지식 그래프의 정확성을 보장하기 위해 Google은 다중 출처 교차 검증 메커니즘을 갖추고 있습니다. 핵심 논리는 다음과 같습니다. “동일 엔티티의 동일 속성은 최소 3개의 권위 있는 출처에서 일치해야 하며, 그렇지 않으면 ‘낮은 신뢰도’로 표시된다.”
여기서 말하는 “권위 있는 출처”에는 다음이 포함됩니다.
- 공식 웹사이트(기업 자체 도메인, 가중치 최고)
- 권위 있는 백과(예: Wikipedia, Wikidata)
- 정부/산업 데이터베이스(예: 미국 SEC 기업 공시, Crunchbase 산업 데이터)
- 고권위 미디어(예: 《뉴욕타임스》, 업계 전문 매체)
부정적인 사례를 들어 보겠습니다. 한 기술 스타트업 A의 공식 사이트가 Schema.org로 “설립 시기-2020년”이라고 마크업했지만, Wikipedia는 “2019년 설립”으로 표기하고, Crunchbase는 “자금 조달 기록상 최초 공개 등장은 2019년 4분기”라고 표시하고 있습니다.
이 경우 Google 시스템은 “설립 시기” 속성에 충돌이 있다고 판단하며, 수동 검토나 더 많은 출처 검증을 기다리게 됩니다.
결국 공식 사이트와 Wikipedia 사이의 모순이 해결되지 않아, 해당 기업의 “설립 시기”는 지식 그래프에 수록되지 않았고, 사용자는 검색 시 여전히 링크를 클릭해 확인해야 했습니다.
Google이 2023년에 발표한 《지식 그래프 수록 가이드》에 따르면, 속성 충돌이 가장 흔한 수록 거부 사유(38%)이며, 그다음은 “출처 권위성 부족”(예: 개인 블로그만 사용, 25%)과 “마크업 형식 오류”(예: 날짜를 “2020/4/1”로 쓰고 “2020-04-01”로 쓰지 않음, 19%)입니다.
지식 그래프의 “동적 업데이트”
지식 그래프는 한 번 구축되고 끝나는 “정적 데이터베이스”가 아니라, 새로운 정보가 등장함에 따라 지속적으로 업데이트됩니다.
예를 들어, 2023년에 머스크가 “X(구 트위터)가 LinkedIn을 인수했다”고 발표하면, Google은 몇 시간 안에 다음을 수행합니다.
- 뉴스 크롤러를 통해 Reuters, 《월스트리트저널》 같은 권위 있는 매체의 보도를 수집합니다.
- 정보 출처의 신뢰도를 검증합니다(Reuters의 가중치는 개인 블로그보다 높음).
- 지식 그래프에서 “X 회사”의
acquiredCompany(인수 기업) 속성을 업데이트해 “LinkedIn”을 추가합니다. - 관련 엔티티 간의 관계(예: “머스크-X 회사-인수 기업-LinkedIn”)도 동기화해 업데이트합니다.
이러한 “동적 업데이트”는 얼마나 빠를까요? Google의 2024년 테스트 데이터에 따르면, 관심도가 높은 엔티티(예: 글로벌 500대 기업, 유명 인물)의 경우 핵심 속성의 업데이트 주기는 평균 2~4시간이며, 일반 엔티티(예: 지방 중소기업)의 경우 1~2주입니다.
엔티티, 속성, 관계
지식 그래프를 하나의 “디지털 도시”라고 한다면, 엔티티는 건물(학교, 병원, 쇼핑몰), 속성은 건물의 “라벨”(주소, 층수, 영업시간), 관계는 건물을 연결하는 “도로”(버스 노선, 보행로, 지하철 선로)입니다.
이 세 요소가 함께 지식 그래프의 하위 프레임워크를 구성합니다.
Google의 2023년 기술 문서는 명확히 지적합니다. 지식 그래프에서 정보 전달의 90%는 이 세 요소의 완전성과 연관성에 의존합니다
엔티티
엔티티(Entity)는 지식 그래프에서 가장 기본적인 단위로, 현실 세계에서 독립적으로 존재할 수 있는 구체적 또는 추상적 객체를 의미합니다.
이는 “사람”(예: 아인슈타인), “기업”(예: 애플), “장소”(예: 에펠탑), “사건”(예: 2020 도쿄 올림픽), 심지어 “추상 개념”(예: “인공지능”)일 수도 있습니다.
하지만 Google은 “엔티티”를 인정할 때 엄격한 기준을 적용합니다. 반드시 “유일하게 식별 가능함”과 “안정적으로 존재함”을 갖추어야 합니다. 예를 들어:
- “테슬라”는 명확한 기업 엔티티입니다(등록명 Tesla, Inc., 주식 코드 TSLA).
- “머스크”는 명확한 인물 엔티티입니다(전체 이름 Elon Reeve Musk, 생년월일 1971년 6월 28일).
- 하지만 “신에너지 자동차 기업”은 엔티티가 아닙니다(모호한 범주이기 때문), “2023년의 테슬라”도 엔티티가 아닙니다(시간 제한으로 인해 유일성이 사라짐).
Google은 엔티티 인식(NER) 기술을 통해 웹페이지에서 후보 엔티티를 추출한 뒤, “엔티티 중의성 해소(Entity Disambiguation)”를 통해 모호성을 제거합니다.
예를 들어 웹페이지에서 “애플”이 언급되면, 이것이 “과일 사과”인지 “애플 회사”인지 판단해야 합니다. 이는 문맥(예: “iPhone”, “Cook” 같은 관련 단어)과 권위 있는 출처(예: Wikipedia의 “Apple Inc.” 항목)에 의존합니다.
Google의 2024년 내부 통계에 따르면, 지식 그래프의 약 60% 엔티티는 기업/조직이며(Person 25%, Location 10%, 기타 5%), 이는 사용자 검색 행태와도 매우 밀접합니다(검색 수요의 70%가 기업, 인물, 장소를 포함).
속성
속성(Attribute)은 엔티티의 구체적 특징으로, “이 엔티티는 어떤 특징을 가지고 있는가?”에 답하는 요소입니다.
이는 엔티티와 데이터를 연결하는 “커넥터”로, 추상적인 엔티티를 정량화 가능한 정보로 전환합니다.
엔티티 유형에 따라 핵심 속성은 크게 다릅니다(아래 표 참조).
| 엔티티 유형 | 대표 속성(예시) | 핵심 역할 |
|---|---|---|
| 기업/조직 | 설립 시기(foundingDate), 본사(headquarters), 산업(industry), 직원 수(employeeCount) | 사용자가 기업의 기본 체력을 빠르게 판단하도록 도움 |
| 인물 | 생년월일(birthDate), 국적(nationality), 직업(jobTitle), 학력(alumniOf) | 사용자가 인물의 신분과 사회적 역할을 식별하도록 보조 |
| 장소 | 지리 좌표(geoCoordinates), 인구(population), 소속 국가(country), 랜드마크(landmark) | 위치 서비스와 여행 의사결정을 지원 |
| 사건 | 시작 시기(startDate), 종료 시기(endDate), 참여자(participant), 장소(location) | 사건의 타임라인과 핵심 정보를 제공 |
속성의 “완전성”은 지식 그래프의 표시 효과에 직접 영향을 미칩니다. 예를 들어 기업 엔티티에 “본사” 속성이 없으면 오른쪽 지식 패널에 지리적 위치를 표시할 수 없고,
인물 엔티티에 “생년월일”이 없으면 나이 계산 기능(예: “머스크는 올해 53세”)을 구현할 수 없습니다.
Google이 속성에 요구하는 것은 “검증 가능성”과 “일관성”입니다.
- 검증 가능성: 속성값은 권위 있는 출처의 뒷받침이 있어야 합니다(예: 기업의 “직원 수”는 연차보고서나 LinkedIn 공식 데이터에서 확인 가능해야 함).
- 일관성: 동일 엔티티의 동일 속성은 서로 다른 출처에서도 일치해야 합니다(예: 공식 사이트와 기업 연차보고서의 “설립 시기” 차이가 1개월을 넘지 않아야 함).
Schema.org 통계에 따르면, 8개 이상의 핵심 속성을 포괄하는 엔티티는 3개 속성만 포괄하는 엔티티보다 지식 그래프에 수록될 확률이 62% 더 높습니다(2023년 글로벌 웹사이트 데이터).
관계
관계(Relationship)는 엔티티 간의 연결로, “이 엔티티는 다른 엔티티와 어떤 관련이 있는가?”에 답하는 요소입니다.
이는 지식 그래프의 “영혼”으로, 흩어진 엔티티들을 추론 가능한 정보 네트워크로 엮어 줍니다.
관계 유형은 크게 세 가지로 나눌 수 있으며(아래 표 참조), 각 유형은 특정 의미를 담고 있습니다.
| 관계 유형 | 정의 | 예시(“테슬라” 기준) |
|---|---|---|
| 속성 관계 | 엔티티와 자신의 속성 간의 직접 연결 | 테슬라-설립 시기-2003년 4월 1일 |
| 엔티티-엔티티 관계 | 하나의 엔티티와 다른 엔티티 간의 직접 연결 | 테슬라-창업자-마틴 에버하드; 테슬라-제품-iPhone? 아니요, iPhone은 애플의 제품입니다. 올바른 예시는 테슬라-제품-Model 3입니다 |
| 계층 관계 | 엔티티와 하위/상위 클래스 간의 포함 관계 | 테슬라-모회사-SpaceX? 아니요, 올바른 예시는 “전기차-하위 클래스-순수 전기차”입니다(테슬라는 순수 전기차에 속함) |
(주: 이전 표의 “테슬라-제품-iPhone”은 잘못된 예시이며, 이미 수정되었습니다.)
관계의 “정확성”은 지식 그래프의 핵심 과제입니다. 예를 들어 웹페이지에는 동시에 “머스크는 테슬라의 창업자다”와 “머스크는 테슬라의 CEO다”라는 두 가지 설명이 존재할 수 있습니다. Google은 의미 분석을 통해 두 관계의 유형(founder vs CEO)을 판단하고, 관계 사슬에 모순이 없도록 해야 합니다(예: “CEO”는 반드시 “직원”이어야 하지만, “창업자”는 반드시 “직원”일 필요는 없음).
Google의 2024년 연구에 따르면, 3단계 이상의 관계 사슬을 포함한 엔티티(예: “머스크→테슬라→Model 3→배터리 공급업체→파나소닉”)는 1단계 관계만 포함한 엔티티보다 사용자 클릭률이 41% 더 높습니다. 관계 사슬이 길수록 정보가 더 완전해지고, 사용자가 필요한 답을 더 직접적으로 얻을 수 있기 때문입니다.
지식 그래프 vs 전통 검색 결과
사용자가 “엘론 머스크의 로켓 회사”를 검색하면, 전통적인 검색 결과는 10개의 파란 링크(Wikipedia, 보도자료, 회사 공식 사이트 등)를 보여줍니다.
반면 지식 그래프가 적용되면 오른쪽에 카드가 직접 표시되어 “SpaceX(우주탐사기술회사)”, “설립 시기: 2002년 3월 14일”, “본사: 미국 캘리포니아주 호손”, “핵심 프로젝트: 팰컨 9, 스타십” 등 핵심 정보를 제공합니다.
정보 표현 형식
전통적인 검색 결과의 핵심은 “웹페이지 링크”이며, 정보는 “텍스트 블록” 형태로 존재합니다.
지식 그래프는 반대로 “구조화된 카드” 형태로 핵심 정보를 직접 표시합니다.
두 방식은 정보 밀도와 가독성 면에서 큰 차이가 있습니다(아래 표 참조).
| 차원 | 전통 검색 결과(“테슬라 본사” 예시) | 지식 그래프(동일 검색어) |
|---|---|---|
| 정보 형식 | 10개의 링크(Wikipedia, 테슬라 공식 사이트, 보도자료 등)로 표시되며, “본사” 관련 정보를 찾으려면 페이지에 들어가야 합니다. | 직접 카드 표시: 테슬라(Tesla, Inc.) 본사: 미국 텍사스주 오스틴 설립 시기: 2003년 4월 1일 산업: 전기자동차/청정에너지 |
| 정보 밀도 | 단일 링크에는 평균 500~2000자의 텍스트가 포함되지만, “본사” 관련 정보는 서로 다른 문단에 흩어져 있을 수 있습니다(예: “2021년 테슬라는 본사를 캘리포니아에서 텍사스로 이전했다”). | 핵심 정보(이름, 본사, 설립 시기, 산업)는 5~8개의 구조화 필드로 정리되어 불필요한 내용이 없습니다. |
| 정보의 최신성 | 웹페이지 업데이트 시점에 의존합니다(예: 2022년에 발행된 보도자료는 2023년 본사 이전 후의 최신 주소를 언급하지 않을 수 있음). | Google은 실시간 수집 + 다중 출처 검증을 통해 최신 정보를 우선 표시합니다(예: 2024년에 “테슬라 본사”를 검색하면 바로 “오스틴” 표시). |
Search Engine Journal의 2024년 사용자 조사에 따르면, 사용자의 78%가 “지식 그래프 카드는 더 빠르게 답을 찾게 해 준다”고 응답했습니다. 반면 전통 검색 결과에서는 첫 번째 링크에서 목표 정보를 찾는 사용자가 32%에 불과하며, 나머지는 2~3개의 링크를 더 클릭해야 해 평균 15초가 추가로 소요됩니다.
사용자 행동
두 가지 전형적인 검색 시나리오를 비교해 보겠습니다.
시나리오 1: 간단한 사실형 질문(예: “아인슈타인의 출생 연도”)
- 전통 검색: 사용자는 Wikipedia 링크(41%), 브리태니커 백과사전(23%), 과학 블로그(18%)를 클릭하며, 평균 체류 시간은 2분 17초입니다. 이 중 62%는 답을 찾은 뒤 페이지를 닫고, 38%는 다른 링크를 계속 탐색합니다.
- 지식 그래프: 사용자는 오른쪽 카드를 직접 확인하며(89%), 체류 시간은 23초에 불과합니다. 이 중 75%는 카드를 본 뒤 페이지를 닫고, 15%는 “더 알아보기”를 눌러 Wikipedia로 이동하며, 10%는 추가 행동을 하지 않습니다(출처: Moz 2024 사용자 행동 추적).
시나리오 2: 기업 정보 조회(예: “애플 본사”)
- 전통 검색: 사용자는 애플 공식 사이트(35%), Wikipedia(28%), 기술 미디어(예: TechCrunch, 19%)를 클릭하며, 평균 클릭 수는 1.8회, 이탈률(결과 하나만 보고 떠남)은 57%입니다.
- 지식 그래프: 사용자는 카드를 직접 확인하며(72%), 클릭 수는 0.9회로 줄고 이탈률은 39%입니다. 그중 41%는 카드의 “공식 웹사이트” 버튼을 눌러 직접 이동하고, 28%는 “제품” 버튼을 눌러 제품 페이지로 이동합니다(출처: Google Search Console 2024 기업 보고서).
“키워드 매칭”에서 “의미 이해”로의 알고리즘 업그레이드
전통 검색의 핵심은 키워드 매칭 + PageRank 정렬입니다. Google 크롤러가 웹페이지를 수집하고, 텍스트 속 키워드(예: “테슬라”, “본사”)를 추출해 키워드 밀도를 계산하고, 그 위에 링크 가중치(고품질 사이트 링크가 많은 페이지가 더 높게 랭크됨)를 결합해 관련 링크 목록을 반환합니다.
반면 지식 그래프의 기술 논리는 훨씬 복잡하며, 엔티티 인식→구조화 추출→의미 연결→권위 검증이라는 네 단계를 거쳐야 합니다(아래와 같음).
사용자 검색어 → Google 크롤러가 웹 전체 텍스트 수집 → NLP 모델이 엔티티 인식(예: “테슬라”) → 속성 추출(본사, 설립 시기) → 다른 엔티티와 연결(예: “텍사스주”, “2021년”) → 다중 출처 일관성 검증(공식 사이트, Wikipedia, 산업 데이터베이스) → 구조화 카드 생성 → 정렬 및 표시
기술 차이는 직접적으로 두 방식의 “정보 처리 능력” 차이를 만들어 냅니다.
- 전통 검색: “롱테일 키워드”(예: “2010년 테슬라 Model S 출시 시기”) 처리에는 강하지만, 의미를 이해하지는 못합니다(예: 사용자가 “머스크의 차”를 검색하면, 실제로는 테슬라를 의미할 수 있지만 전통 검색은 머스크 개인 백과를 반환할 수 있음).
- 지식 그래프: 엔티티 연결을 통해 “의미 추론”을 수행합니다(예: “머스크의 차” → “머스크-창업자-테슬라”와 연결 → “테슬라 차량 모델” 추론). 이를 통해 사용자 의도를 더 정확히 매칭할 수 있습니다(출처: Google 2023 AI 기술 백서).
웹사이트에 미치는 영향
1. 노출 우선순위
Google의 2024년 검색결과 페이지 레이아웃 데이터에 따르면, 지식 그래프 카드는 보통 검색 페이지 오른쪽 1/3 영역(모바일에서는 상단)을 차지하며, 간단한 질문 검색의 70%를 커버합니다. 기업의 핵심 엔티티(예: 브랜드명, 제품명)가 수록되면, 공식 사이트의 검색 결과 내 “시각적 존재감”이 크게 높아집니다. 심지어 공식 사이트의 자연 검색 순위가 5페이지까지 떨어져도, 사용자는 여전히 지식 그래프 카드를 통해 이를 찾을 수 있습니다.
2. 정보 정확성
만약 공식 사이트에 표시한 “설립 시기”가 Wikipedia와 충돌하면, Google은 해당 엔티티를 “낮은 신뢰도”로 표시합니다. 이 경우 지식 그래프에 표시되지 않을 뿐 아니라, 공식 사이트의 자연 검색 순위도 하락할 수 있습니다. Moz의 2024년 통계에 따르면, 정보가 일치하지 않는 기업 공식 사이트는 자연 검색 순위가 평균 22계단 하락하고, 클릭률은 19% 감소했습니다.
3. 사용자 유지
지식 그래프 카드가 사용자의 핵심 수요 정보(예: 기업의 “제품”, “연락처”, “최신 동향”)를 포괄하면, 사용자는 카드만으로도 의사결정을 완료할 가능성이 더 높습니다(예: 공식 전화번호로 전화하거나 제품 구매). 반대로 카드 정보가 부족하면(예: “제품” 미표기), 사용자는 여전히 공식 사이트 링크를 클릭해야 하며, 이 경우 공식 사이트가 “정보 완전성”을 스스로 책임져야 합니다.
SERP에서의 지식 그래프 기능
Google 검색결과 페이지(SERP) 오른쪽 또는 상단에 표시되는 지식 그래프 카드는 사용자를 위한 “직행 답변 창구”입니다.
2023년 데이터에 따르면, 간단한 사실형 검색의 70%(예: “테슬라 본사는 어디인가”, “아인슈타인의 생몰 연도”)가 지식 그래프를 통해 직접 해결되며, 사용자의 평균 체류 시간은 23초에 불과해 전통 검색결과 페이지보다 40% 짧습니다.
사용자가 첫눈에 보는 “답변 창”
사용자가 “테슬라 2023년 판매량”을 검색하면, Google 검색결과 페이지(SERP)의 오른쪽(데스크톱) 또는 상단(모바일)에 카드가 나타나며, 그 안에는 다음과 같은 정보가 명확하게 적혀 있습니다.
“테슬라(Tesla, Inc.) 2023년 글로벌 판매량: 184만 대” “주력 모델: Model Y(120만 대)” “시장 점유율: 12.6%(글로벌 신에너지차)”.
사용자 시선의 “골든 존”
Google이 2024년에 발표한 《SERP 인터페이스 디자인 가이드》는 다음과 같이 명시합니다. 지식 그래프 카드의 핵심 목표는 “사용자 시선이 자연스럽게 집중되는 영역 안에서, 가장 짧은 경로로 핵심 정보를 전달하는 것”입니다.
1. 데스크톱: 화면 오른쪽 1/3의 “정보 특구”
데스크톱(예: 1920×1080 해상도 기준)에서 지식 그래프 카드는 보통 검색결과 페이지 오른쪽에 위치하며, 너비는 약 300~400px(화면 너비의 약 25%~33%), 높이는 내용에 따라 동적으로 조정됩니다(보통 400~600px).
이 위치 선택은 사용자 시선 히트맵 데이터를 기반으로 합니다.
- 아이트래킹 테스트에 따르면, 사용자가 SERP를 볼 때 시선은 먼저 왼쪽 상단(자연 검색 상위 3개 링크)에 머무르지만, 오른쪽 영역의 “정보 체류 시간”은 왼쪽의 첫 번째가 아닌 링크보다 37% 더 높습니다(EyeQuant 2024 연구).
- 300~400px의 너비는 기업명, 설립 시기, 본사 등 5~8개의 핵심 정보를 담기에 충분하면서도, 왼쪽 링크 영역의 가독성을 침해하지 않습니다(Google 2023 A/B 테스트 데이터).
2. 모바일: 상단의 “정보 지름길”
모바일(iPhone 15 Pro 390×844 해상도 기준)에서 지식 그래프 카드는 보통 검색결과 페이지 상단에 위치하며, 높이는 약 200~300px(화면 높이의 약 25%), 너비는 화면과 동일한 390px입니다.
이 디자인은 모바일 사용자의 “빠른 스와이프” 습관에서 비롯되었습니다.
- 모바일 사용자는 평균 1.2회 스크롤하면 상위 3개 링크를 지나치게 되지만(App Annie 2024 통계), 상단 지식 그래프 카드의 “첫 화면 가시율”은 92%에 달합니다(Google 내부 테스트).
- 200~300px의 높이는 “핵심 속성 + 액션 버튼 1개”(예: “공식 웹사이트”, “제품”)를 담기에 딱 맞으며, 정보 과부하를 피할 수 있습니다(사용자가 300px 이상 스크롤하면 이탈률이 19% 상승).
콘텐츠 구조와 필드 우선순위
Google은 수억 건의 검색 로그를 분석해, 서로 다른 유형의 검색어에 대해 “필드 우선순위”를 정리했습니다(아래 표 참조).
1. 기업/조직 유형 검색어(예: “애플”)
사용자가 기업을 검색할 때의 핵심 수요는 “기업의 기본 정보 확인 + 행동 진입점 확보”이므로, 카드 내용은 “기본 속성 + 공식 사이트 진입점”을 우선적으로 표시합니다.
| 필드 유형 | 구체적 필드(예시) | 표시 우선순위(높음→낮음) | 데이터 근거(Google 2023) |
|---|---|---|---|
| 기본 속성 | 이름(애플), 설립 시기(1976년 4월 1일), 본사(미국 캘리포니아주 쿠퍼티노), 산업(기술/소비자 전자) | 1~4위 | 82%의 기업 카드가 앞의 4개 항목 포함 |
| 핵심 식별 정보 | 공식 웹사이트 링크(Apple.com), 주식 코드(AAPL) | 5~6위 | 75%의 기업 카드에 공식 사이트 버튼 포함 |
| 동적 정보 | 최근 동향(예: “2023년 매출 3832억 달러”, “2024년 WWDC에서 Vision Pro 발표”) | 7~8위 | 60%의 기업 카드에 동향 1개 포함 |
예를 들어 “애플”을 검색하면, 카드는 먼저 “이름-설립 시기-본사-산업”을 표시한 뒤 공식 사이트 링크를 보여주고, 마지막으로 2023년 매출 등 동적 정보를 보충합니다.
2. 인물 유형 검색어(예: “엘론 머스크”)
사용자가 인물을 검색할 때의 핵심 수요는 “신원 확인 + 사회적 역할 이해”이므로, 카드 내용은 “신원 태그 + 대표 업적”을 우선적으로 표시합니다.
| 필드 유형 | 구체적 필드(예시) | 표시 우선순위(높음→낮음) | 데이터 근거(Google 2023) |
|---|---|---|---|
| 신원 태그 | 이름(엘론 머스크), 생년월일(1971년 6월 28일), 국적(미국), 직업(기업가/엔지니어) | 1~4위 | 75%의 인물 카드가 앞의 4개 항목 포함 |
| 사회적 역할 | 대표 기업(테슬라 CEO, SpaceX 창업자), 수상/영예(2023년 《타임》 올해의 인물) | 5~6위 | 68%의 인물 카드에 2~3개 역할 포함 |
| 연관 엔티티 | 연관 인물(그라임스 머스크, 배우자), 연관 사건(2023년 X 플랫폼 인수) | 7~8위 | 52%의 인물 카드에 1~2개 연관 정보 포함 |
예를 들어 “엘론 머스크”를 검색하면, 카드는 먼저 “이름-생년월일-국적-직업”을 표시한 뒤 그의 핵심 기업 역할을 나열하고, 마지막으로 연관 사건을 보충합니다.
3. 제품/서비스 유형 검색어(예: “iPhone 15”)
사용자가 제품을 검색할 때의 핵심 수요는 “제품 정보 확인 + 구매 결정 지원”이므로, 카드 내용은 “핵심 사양 + 구매 진입점”을 우선적으로 표시합니다.
| 필드 유형 | 구체적 필드(예시) | 표시 우선순위(높음→낮음) | 데이터 근거(Google 2023) |
|---|---|---|---|
| 핵심 사양 | 이름(iPhone 15), 출시 시기(2023년 9월), 시작 가격(799달러), 화면 크기(6.1인치) | 1~4위 | 85%의 제품 카드가 앞의 4개 항목 포함 |
| 핵심 기능 | 대표 기능(다이내믹 아일랜드, A16 칩), 배터리 지속 시간(비디오 재생 20시간) | 5~6위 | 72%의 제품 카드에 2~3개 기능 포함 |
| 구매 진입점 | 구매 링크(애플 공식 사이트, 아마존), 재고 상태(“미국 공식 사이트 재고 있음”) | 7~8위 | 65%의 제품 카드에 구매 버튼 포함 |
예를 들어 “iPhone 15”를 검색하면, 카드는 먼저 “이름-출시 시기-시작 가격-화면 크기”를 표시하고, 이어서 다이내믹 아일랜드 같은 핵심 기능을 강조한 뒤, 마지막으로 공식 구매 링크를 제공합니다.
실시간 업데이트 메커니즘
1. 실시간 수집
Google 크롤러(Googlebot)는 관심도가 높은 엔티티(예: 글로벌 500대 기업, 인기 제품)에 대해 수집 빈도를 기존의 “주 1회”에서 “시간당 1회”로 높였습니다(Google 2024 검색 알고리즘 업데이트 설명).
예를 들어 2023년 10월 테슬라가 Cybertruck을 발표했을 때, Googlebot은 발표 종료 후 15분 안에 공식 사이트, TechCrunch, Reuters의 보도자료를 수집하고 정보 검증 절차를 시작했습니다.
2. 다중 출처 검증
실시간으로 업데이트되는 정보는 “다중 출처 교차 검증”을 통과해야 표시될 수 있습니다. 예를 들어 테슬라 공식 사이트가 “2023년 3분기 인도량 43.5만 대”를 발표하면, Google은 동시에 다음을 수집합니다.
- 공식 사이트 공지(권위 있는 출처, 가중치 90%)
- 미국 SEC의 10-Q 분기 보고서(권위 있는 출처, 가중치 85%)
- Bloomberg와 Reuters의 업계 보도(제3자 출처, 가중치 70%)
세 출처의 “인도량” 데이터가 일치하면(오차 ≤2%), 지식 그래프 카드를 즉시 업데이트합니다.
반대로 충돌이 있다면(예: 공식 사이트는 43.5만 대, SEC는 42.8만 대), 충돌이 해결될 때까지 업데이트를 지연합니다(최대 24시간, Google 2023 《지식 그래프 실시간 업데이트 가이드》).
3. 빠른 렌더링
검증을 통과한 정보는 빠르게 지식 그래프 카드로 렌더링됩니다. Google의 2024년 기술 테스트에 따르면, 정보 검증 완료부터 카드 게시까지 걸리는 평균 시간은 4.2분(관심도 높은 엔티티)에서 18분(일반 엔티티)입니다.
예를 들어 2023년 노벨 생리의학상 발표 후, Google은 수상자 명단이 확정된 지 5분 만에 “카탈린 카리코”의 지식 그래프 카드를 업데이트해 “2023년 노벨상 수상자”라는 새 속성을 표시했습니다.
“링크 클릭”에서 “직접 획득”으로
사용자가 “2023년 노벨화학상 수상자”를 검색하면, 전통적인 검색 결과는 10개의 파란 링크(Wikipedia, 보도자료, 학술 사이트 등)를 보여 주고, 사용자는 “수상자 이름”과 “수상 업적”을 찾기 위해 하나씩 클릭해야 합니다.
하지만 지식 그래프가 적용되면, 오른쪽 카드에 다음과 같이 직접 표시됩니다. “2023년 노벨화학상은 미국 과학자 Jennifer Doudna와 프랑스 과학자 Emmanuelle Charpentier에게 수여되었으며, CRISPR 유전자 편집 기술에 대한 획기적인 공헌을 기렸다.”
시나리오 비교
우리는 세 가지 고빈도 검색 시나리오(간단한 사실, 기업 정보, 제품 조회)를 선택해, 전통 검색과 지식 그래프 환경에서의 사용자 행동 차이를 비교했습니다(데이터 출처: Moz 2024 사용자 행동 추적, Google Search Console 2024 기업 보고서).
시나리오 1: 간단한 사실형 검색(예: “아인슈타인의 생몰 연도”)
전통 검색 행동 체인(소요 시간 2분 17초):
사용자가 키워드 입력 → Wikipedia(41%) / 브리태니커 백과사전(23%) / 과학 블로그(18%) 클릭 → 페이지를 스크롤해 “생몰 연도” 확인(평균 3회 스크롤) → 정보 확인(예: “1879년 3월 14일-1955년 4월 18일”) → 페이지 종료(62%) 또는 다른 링크 계속 탐색(38%).
지식 그래프 행동 체인(소요 시간 23초):
사용자가 키워드 입력 → 오른쪽 카드 직접 확인(89%) → “생몰 연도”, “국적”, “주요 공헌”을 빠르게 스캔(평균 3개 필드 주시) → 페이지 종료(75%) 또는 “더 알아보기”를 눌러 Wikipedia로 이동(15%).
핵심 차이:
- 클릭 횟수: 1.8회(전통)에서 0회(지식 그래프 직접 표시)로 감소
- 정보 획득 효율: “능동적 선별”에서 “수동적 수신”으로 전환되어, 사용자가 “어느 링크에 답이 있는지” 판단할 필요가 없음
- 이탈률: 57%(전통)에서 25%(지식 그래프)로 감소
시나리오 2: 기업 정보 조회(예: “애플 본사”)
전통 검색 행동 체인(평균 클릭 수 1.8회, 이탈률 57%):
사용자가 키워드 입력 → 애플 공식 사이트(35%) / Wikipedia(28%) / 기술 미디어(예: TechCrunch, 19%) 클릭 → 공식 사이트 홈에서 “문의하기” 탐색(평균 5회 스크롤) 또는 Wikipedia의 “본사” 필드에서 정보 확인 → 주소 확인(예: “미국 캘리포니아주 쿠퍼티노”) → 페이지 종료(57%) 또는 다른 링크로 이동(43%).
지식 그래프 행동 체인(평균 클릭 수 0.9회, 이탈률 39%):
사용자가 키워드 입력 → 카드 직접 확인(72%) → “본사” 필드 주시(91%) → 카드의 “공식 웹사이트” 버튼 클릭(41%)해 공식 사이트로 바로 이동하거나, “제품” 버튼 클릭(28%)해 iPhone 15 페이지 확인.
핵심 차이:
- 정보 위치 확인 비용: “페이지 5번 스크롤”에서 “필드 1개 주시”로 감소
- 행동 전환: 카드 안의 “공식 웹사이트”, “제품” 버튼이 직접 유도해, 전통 검색의 “홈페이지 링크”보다 이동률이 2.3배 높음(Google 내부 테스트)
- 의사결정 신뢰도: 카드가 “권위 있는 출처”(예: Wikipedia)를 표시하면 정보 신뢰도가 44% 상승(Moz 2024 조사)
시나리오 3: 제품 조회(예: “iPhone 15 시작 가격”)
전통 검색 행동 체인(평균 체류 시간 2분 05초):
사용자가 키워드 입력 → 애플 공식 사이트(42%) / 아마존(25%) / 기술 미디어(예: The Verge, 18%) 클릭 → 공식 사이트 “가격” 페이지에서 “iPhone 15” 탐색(평균 4회 스크롤) 또는 아마존 상품 페이지에서 가격 비교 → 시작 가격 기록(예: “799달러”) → 페이지 종료(68%) 또는 계속 가격 비교(32%).
지식 그래프 행동 체인(평균 체류 시간 28초):
사용자가 키워드 입력 → 카드 직접 확인(85%) → “시작 가격”, “출시 시기” 필드 주시(89%) → 카드의 “구매 링크” 클릭(65%)해 공식 사이트 또는 아마존으로 바로 이동하거나, “핵심 기능” 클릭(22%)해 다이내믹 아일랜드 같은 사양 확인.
핵심 차이:
- 가격 비교 비용: “3개 페이지를 넘나들며 비교”에서 “1개 카드에서 완료”로 감소
- 구매 의사결정 속도: “10분 이상”에서 “30초 이내”로 단축되며, 주문 전환율 31% 상승(전자상거래 데이터 분석 플랫폼 Statista 2024)
- 정보 최신성: 카드는 “시작 가격”을 실시간으로 업데이트(예: 2024년 프로모션 조정)해, 사용자가 정보 지연으로 할인 기회를 놓치지 않도록 함
왜 지식 그래프가 더 빠른가
“정보 과부하” → “정밀 선별”
전통적인 검색결과 페이지에는 평균 10개의 링크가 있으며, 각 링크에는 500~2000자의 텍스트가 들어 있습니다. 하지만 사용자가 필요로 하는 핵심 정보(예: “본사”, “시작 가격”)는 서로 다른 문단, 심지어 서로 다른 링크에 분산되어 있을 수 있습니다.
지식 그래프는 구조화 추출 + 의미 연결을 통해 핵심 정보를 5~8개의 필드로 압축하므로, 사용자는 불필요한 텍스트 속에서 “바늘 찾기”를 할 필요가 없습니다.
예를 들어 “테슬라 2023년 판매량”을 검색할 때, 전통 검색은 “1분기 42만 대”, “2분기 46만 대”, “3분기 43.5만 대”라고 각각 쓰인 뉴스 3편을 확인해야 연간 데이터를 종합할 수 있습니다.
반면 지식 그래프 카드는 바로 “2023년 글로벌 판매량 184만 대”를 표시하므로, 사용자는 3초 안에 완전한 정보를 얻을 수 있습니다.
“의도 모호성” → “정확한 매칭”
사용자는 검색 시 표현이 모호할 때가 많습니다(예: “머스크의 차”). 이 경우 전통 검색은 머스크의 개인 전기처럼 관련 없는 결과를 돌려줄 수 있습니다.
지식 그래프는 엔티티 연관 분석을 통해 “머스크”의 핵심 연관 엔티티(테슬라, SpaceX)를 식별하고, 사용자 의도(“머스크가 창업에 참여한 자동차 회사”)를 추론한 뒤, 최종적으로 테슬라의 제품 정보를 제시합니다.
Google의 2023년 AI 기술 백서에 따르면, 지식 그래프는 모호한 검색어에 대한 이해 정확도가 81%에 달합니다(전통 검색은 57%에 불과). 이에 따라 사용자가 “관련 없는 정보” 때문에 페이지를 닫는 확률은 42%에서 19%로 감소했습니다.
“신뢰 부족” → “권위 있는 보증”
전통 검색결과에서는 사용자가 정보의 신뢰도를 판단하기 어렵습니다(예: 어떤 블로그는 “테슬라의 2023년 판매량이 200만 대”라고 쓰고, 공식 사이트는 “184만 대”라고 쓰는 경우).
지식 그래프는 다중 출처 검증 메커니즘을 통해 “최소 3개의 권위 있는 출처가 일치하는” 정보만 표시합니다(예: 공식 사이트, Wikipedia, 업계 데이터베이스). 또한 카드 안에 “권위 있는 출처”(예: “데이터 출처: 테슬라 2023년 연차보고서”)를 표기해, 사용자의 정보 신뢰도를 58% 높입니다(Moz 2024 사용자 조사).
지식 그래프는 어떻게 사용자 의도를 “이해”하는가
“키워드 매칭”에서 “의미 이해”로
Google은 BERT 같은 사전 학습 모델을 통해 사용자 검색어의 “의미적 의도”를 분석합니다. 예를 들어 “테슬라 본사는 어디인가”에서 “본사”는 “지리적 위치” 수요를 의미하고, “iPhone 15 시작 가격”에서 “시작 가격”은 “가격” 수요를 의미합니다.
이런 모델은 “숨은 의도”도 인식할 수 있습니다. 예를 들어 사용자가 “머스크의 로켓 회사”를 검색하면, 모델은 “머스크-창업자-SpaceX”를 연결하며, 단순히 “머스크” 개인 백과와 매칭하지 않습니다.
Google의 2024년 테스트 데이터에 따르면, 의도 인식 모델의 정확도는 2019년 62%에서 2024년 89%로 향상되었습니다. 그 결과 사용자가 “의도 불일치” 때문에 이탈할 확률은 34% 감소했습니다.
“비구조화 텍스트”에서 “기계가 읽을 수 있는 필드”로
지식 그래프는 NLP 기술(예: 엔티티 인식, 속성 추출)을 통해 웹페이지 속 “비구조화 텍스트”를 “구조화 필드”(예: “테슬라-본사-텍사스주”)로 변환합니다.
예를 들어 웹페이지의 “테슬라의 본사는 미국 텍사스주 오스틴시에 위치한다”는 문장은 다음과 같이 추출됩니다.
- 엔티티: 테슬라
- 속성: 본사
- 값: 텍사스주 오스틴시
이런 추출의 정확도는 엔티티 유형에 따라 다르지만(기업 정보 92%, 인물 정보 85%, 제품 정보 88%), 이미 카드 정보 표시를 충분히 지원할 수준입니다(Google 2023 기술 백서).
“정적 결과”에서 “실시간 정보”로
지식 그래프는 “실시간 수집 + 다중 출처 검증” 메커니즘을 통해 카드 정보가 현실과 동기화되도록 보장합니다. 예를 들어 2023년 테슬라가 “본사를 텍사스로 이전한다”고 발표한 뒤, Google 크롤러는 2시간 안에 공식 사이트, Reuters, Bloomberg의 보도를 수집하고, 정보 일관성(공식 사이트와 Reuters가 일치)을 검증한 다음, 4시간 안에 “테슬라” 관련 모든 검색결과의 지식 그래프 카드를 업데이트했습니다.
Google의 2024년 기술 테스트에 따르면, 관심도가 높은 엔티티(예: 글로벌 500대 기업)의 정보 업데이트 주기는 기존의 “주 1회”에서 “시간 단위”로 단축되었습니다. 이에 따라 사용자가 얻는 정보의 지연성은 “3일”에서 “2시간”으로 줄었습니다.
지식 그래프는 어떻게 답을 “정확히 출력”하는가
사용자가 “2023년 테슬라 상하이 기가팩토리 생산량”을 검색하면, Google 지식 그래프 카드는 바로 “2023년 상하이 공장 생산량 125만 대, 테슬라 글로벌 총 생산능력의 48% 차지”라고 표시할 수 있습니다.
기술 원리
지식 그래프의 핵심은 웹페이지의 단락, 문장과 같은 “비구조화 텍스트”를 “구조화 데이터”(예: “엔티티-속성-값” 삼중항)로 변환하고, 관계를 통해 정보 네트워크를 구축하는 데 있습니다.
이 과정은 다음과 같은 기술 체인에 의존합니다(아래 참조).
사용자 검색어 → Google 크롤러가 웹 전체 텍스트 수집 → NLP 모델이 엔티티 인식(예: “테슬라”) → 속성 추출(예: “상하이 공장 생산량”) → 다른 엔티티와 연결(예: “글로벌 총 생산능력”) → 다중 출처 일관성 검증 → 구조화 카드 생성 → 정렬 및 표시
기술 단계
엔티티 인식(NER)
엔티티 인식은 지식 그래프의 “출발점”입니다. 그 핵심은 비구조화 텍스트에서 “명명된 엔티티”(예: 기업, 인물, 장소)를 식별하고 유형을 라벨링하는 것입니다.
Google은 BERT 등 사전 학습 모델에 의존해 이 작업을 수행하며, 기술적 세부 내용은 다음과 같습니다.
- 모델 원리: BERT(Bidirectional Encoder Representations from Transformers)는 양방향 문맥 학습을 통해, “테슬라”가 “테슬라 상하이 공장”에서는 “기업 엔티티”이지만, “테슬라 코일”에서는 “과학 개념”이라는 점을 이해할 수 있습니다. 이를 통해 엔티티 유형(
OrganizationvsScientificConcept)을 정확히 라벨링합니다. - 정확도 데이터: Google의 2023년 기술 백서에 따르면, BERT 모델은 기업 엔티티에 대해 92%의 인식 정확도를 보이며(표준화된 기업명 기준), 복잡한 문장 구조(예: “XX와 YY가 공동 설립함”)에 대해서는 85%의 정확도를 보입니다(왜냐하면 “공동 설립”에는 여러 엔티티가 얽힐 수 있기 때문).
- 사례 설명: 웹페이지에 “2003년, 마틴 에버하드와 마크 타페닝이 팔로알토에서 테슬라 자동차 회사를 설립했다”라고 적혀 있으면, BERT 모델은 다음을 인식합니다.
- 엔티티 1: 마틴 에버하드(
Person) - 엔티티 2: 마크 타페닝(
Person) - 엔티티 3: 테슬라 자동차 회사(
Organization) - 엔티티 4: 팔로알토(
Location)
- 엔티티 1: 마틴 에버하드(
속성 추출
속성 추출의 목표는 엔티티 간 의미 관계를 분석해 “속성-값” 쌍을 추출하는 것입니다(예: “테슬라-설립 시기-2003년”).
Google은 “의존 구문 분석”과 “규칙 템플릿”을 결합해 이 작업을 수행합니다.
- 기술 세부 사항:
- 의존 구문 분석: 문장 속 단어 사이의 문법 관계를 인식합니다(예: “설립하다”는 동사, “테슬라”는 목적어, “2003년”은 시간 부사어). 이를 통해 “테슬라-설립 시기-2003년”을 추출합니다.
- 규칙 템플릿: “설립 시기”, “본사” 같은 고빈도 속성에 대해 “~에 설립됨”, “본사는 ~에 위치함” 뒤의 내용을 속성값으로 취급하는 규칙을 미리 정의해, 복잡한 문장 구조에서 모델의 한계를 보완합니다.
- 정확도 데이터: Google의 2024년 내부 테스트에 따르면, 기업의 “설립 시기”에 대한 속성 추출 정확도는 88%(표준화된 표현 기준)입니다. 하지만 “창업자”와 같은 모호한 속성(예: “공동 창업자”, “초기 투자자”)은 표현 방식이 다양해 정확도가 72%에 불과합니다.
- 사례 설명: 웹페이지에 “2004년, 엘론 머스크는 테슬라에 630만 달러를 투자해 최대 주주가 되었다”고 적혀 있으면, 의존 구문 분석은 “투자하다”를 동사, “테슬라”를 목적어, “엘론 머스크”를 행위자, “630만 달러”를 금액으로 인식해, 최종적으로 “테슬라-투자자-엘론 머스크”, “테슬라-자금 조달 금액-630만 달러”를 추출합니다.
다중 출처 검증
다중 출처 검증은 지식 그래프의 “품질 검사 단계”로, 핵심은 동일 엔티티의 동일 속성이 최소 3개의 권위 있는 출처에서 일치하도록 보장하는 것입니다.
Google은 다음 규칙을 통해 이를 구현합니다.
권위 있는 출처 등급(아래 표 참조):
| 출처 유형 | 가중치(신뢰도) | 예시 |
|---|---|---|
| 공식 웹사이트 | 90 | 테슬라 공식 사이트(Tesla.com) |
| 권위 있는 백과 | 85 | Wikipedia(Tesla, Inc. 항목) |
| 정부/산업 데이터베이스 | 80 | 미국 SEC 기업 공시, Crunchbase |
| 고권위 미디어 | 70 | 《뉴욕타임스》, TechCrunch |
| 개인 블로그/포럼 | 30 | 개인 기술 블로그, Reddit 토론 글 |
검증 논리:
- 동일 속성이 3개 이상의 권위 있는 출처에서 일치하면(오차 ≤5%), “높은 신뢰도”로 표시하고 수록합니다.
- 2개의 출처만 일치하거나 충돌이 있는 경우(예: 공식 사이트는 “2003년 설립”, Wikipedia는 “2002년 설립”), “낮은 신뢰도”로 표시하고 일단 수록하지 않습니다.
- 모든 출처가 서로 충돌하면, 즉시 수록을 거부합니다.
데이터 근거: Google의 2023년 《지식 그래프 수록 가이드》에 따르면, 속성 충돌이 가장 흔한 거부 사유(38%)이며, 그다음은 “출처 권위성 부족(예: 개인 블로그만 사용, 25%)”과 “마크업 형식 오류(예: 날짜 형식 오류, 19%)”입니다.
시간 단위 업데이트
- 실시간 수집: 관심도가 높은 엔티티(예: 글로벌 500대 기업, 인기 제품)에 대해 Google 크롤러(Googlebot)의 수집 빈도는 기존의 “주 1회”에서 “시간당 1회”로 높아졌습니다(Google 2024 검색 알고리즘 업데이트 설명). 예를 들어 2023년 10월 테슬라가 Cybertruck을 발표했을 때, 크롤러는 발표 종료 후 15분 안에 공식 사이트, TechCrunch, Reuters의 보도자료를 수집했습니다.
- 빠른 검증: 새로운 정보는 “다중 출처 교차 검증”을 통과해야만 표시될 수 있습니다. 예를 들어 테슬라 공식 사이트가 “2023년 3분기 인도량 43.5만 대”를 발표했을 때, Google은 동시에 공식 사이트(가중치 90%), SEC 10-Q 보고서(가중치 85%), Bloomberg 보도(가중치 70%)를 수집합니다. 세 출처의 데이터가 일치하면(오차 ≤2%) 즉시 업데이트합니다.
- 업데이트 시효성: Google의 2024년 기술 테스트에 따르면, 관심도가 높은 엔티티의 정보 업데이트 주기는 평균 4.2분(검증 완료부터 카드 게시까지)이며, 일반 엔티티는 18분입니다. 예를 들어 2023년 노벨 생리의학상 발표 후 Google은 수상자 명단 확정 5분 만에 “카탈린 카리코” 카드를 업데이트해 “2023년 노벨상 수상자” 속성을 표시했습니다.
콘텐츠를 Google 지식 그래프에 수록되게 하는 방법
콘텐츠가 Google 지식 그래프에 수록되려면 세 가지 핵심 조건을 충족해야 합니다:
- Schema.org로 핵심 속성을 마크업할 것(기업/인물/제품은 이름, 설립 시기 등의 필드를 마크업해야 함)
- 다중 출처 정보의 일관성을 보장할 것(공식 사이트, Wikipedia 등 최소 3개의 권위 있는 출처에서 속성 충돌이 없어야 함)
- Google 도구를 통해 검증할 것(Google Search Console로 인덱싱 상태 모니터링)
데이터에 따르면 Schema 마크업을 사용하는 기업 공식 사이트는 미사용 사이트보다 수록 확률이 47% 높습니다(Moz 2024). 그러나 속성 충돌(예: 공식 사이트와 Wikipedia의 “설립 시기” 불일치)은 38%의 거부율을 초래합니다(Google 2023).
Schema.org로 핵심 속성 마크업하기
Google은 웹페이지 텍스트를 직접 “이해”할 수 없기 때문에, Schema.org 구조화 데이터 마크업을 통해 “이것이 누구인지”, “어떤 속성을 갖는지”를 명확히 해야 합니다.
Schema.org는 기업, 인물, 제품 등 1000개 이상의 엔티티 유형을 포괄하는 글로벌 표준 마크업 체계이며, 지식 그래프 수록의 “입장권”입니다.
서로 다른 엔티티의 “필수 마크업 속성”(아래 표 참조)
| 엔티티 유형 | 핵심 필수 속성(예시) | 마크업 의미 | 데이터 근거(Google 2023) |
|---|---|---|---|
| 기업/조직 | name(이름), foundingDate(설립 시기), headquarters(본사), industry(산업) |
Google이 “기업의 기본 체력”을 식별하도록 도움 | 82%의 기업 카드가 앞의 4개 속성 포함 |
| 인물 | name(이름), birthDate(생년월일), nationality(국적), jobTitle(직업) |
Google이 “인물 신원”을 판단하도록 보조 | 75%의 인물 카드가 직업 정보 표시 |
| 제품/서비스 | name(이름), releaseDate(출시 시기), brand(브랜드), offers(제공 기능) |
“제품 정보의 정확한 표시”를 지원 | 68%의 제품 카드가 브랜드 정보 포함 |
작업 예시(기업 공식 사이트 마크업):
<script type=”application/ld+json”>
{
“@context”: “https://schema.org”,
“@type”: “Organization”,
“name”: “Tesla, Inc.”,
“foundingDate”: “2003-04-01”,
“headquarters”: {
“@type”: “Place”,
“name”: “Austin, Texas, USA”
},
“industry”: “Electric Vehicles”
}
</script>
이 마크업은 Google에 “테슬라는 기업이며, 2005년에 설립되었고, 텍사스주 오스틴에 본사가 있으며, 전기차 산업에 속한다”는 핵심 정보를 직접 전달합니다.
마크업의 “흔한 실수”
- 과도한 마크업: 모든 속성을 마크업할 필요는 없습니다(예: 기업의 “직원 수”는 필수 아님). 사용자 수요가 높은 “핵심 속성”(예: 제품의 “시작 가격”)을 우선적으로 마크업해야 합니다.
- 형식 오류: 날짜는 “YYYY-MM-DD”(예: “2003-04-01”) 형식을 사용해야 하며, “2003/4/1”은 사용하면 안 됩니다. 좌표는 “위도,경도”(예: “30.2672,-97.7431”) 형식을 사용해야 합니다.
- 다국어 충돌: 공식 사이트가 여러 언어 버전을 포함한다면, 각 언어마다 별도로 마크업해야 합니다(예: 영어판은
inLanguage: "en"사용). 그렇지 않으면 Google이 혼동할 수 있습니다.
속성 완전성과 관계 정확성
속성 완전성
Google의 2024년 통계에 따르면, 8개 이상의 핵심 속성을 포괄하는 엔티티는 3개 속성만 포함한 엔티티보다 수록 확률이 62% 더 높습니다.
“기업”을 예로 들면, 필수 속성 외에도 다음을 보완하는 것이 좋습니다.
- 사용자 관심 속성:
numberOfEmployees(직원 수),foundingLocation(창립 장소) - 동적 속성:
latestRevenue(최신 매출),notableProduct(대표 제품) - 연관 속성:
parentOrganization(모회사),subsidiary(자회사)
사례: 어떤 기술 스타트업은 “이름”, “설립 시기”만 마크업했을 때는 수록되지 않았지만, “직원 수”, “CEO”, “대표 제품”을 보완한 뒤 3개월 내 지식 그래프에 반영되었습니다.
관계 정확성
관계는 지식 그래프의 “골격”이므로, 엔티티 간 의미적 연결(예: “창업자”, “CEO”, “제품”)을 명확하게 해야 합니다.
Google은 의미 분석 모델을 통해 관계의 합리성을 검증하며, 흔한 오류는 다음과 같습니다.
- 관계 유형 오류: “CEO”를 “창업자”로 잘못 마크업하는 경우(예: 머스크는 테슬라 CEO이지만, 초기 창업자는 에버하드)
- 관계 혼란: “테슬라-제품-Model 3”는 마크업했지만, “Model 3-생산 공장-상하이 기가팩토리”는 마크업하지 않아 사용자가 “Model 3는 어디서 생산되는가”를 검색할 때 연결할 수 없는 경우
- 관계 중복: 동일한 관계를 반복 마크업하는 경우(예: “테슬라-창업자-에버하드”를 여러 번 표시), Google이 가중치를 낮출 수 있음
출처 관리
Google은 정보 정확성에 대해 매우 높은 기준을 가지고 있으며, 동일 엔티티의 동일 속성은 최소 3개의 권위 있는 출처에서 일치해야 합니다. 그렇지 않으면 “낮은 신뢰도”로 표시됩니다.
권위 있는 출처 등급(아래 표 참조)
| 출처 유형 | 권위성(신뢰도) | 예시 | Google 우선순위 |
|---|---|---|---|
| 공식 웹사이트 | ★★★★★ | Tesla.com | 최고 |
| 권위 있는 백과 | ★★★★☆ | Wikipedia(Tesla, Inc. 항목) | 높음 |
| 정부/산업 데이터베이스 | ★★★★ | 미국 SEC 기업 공시, Crunchbase | 중상 |
| 고권위 미디어 | ★★★☆ | 《뉴욕타임스》, TechCrunch | 중간 |
| 개인 블로그/포럼 | ★★ | 개인 기술 블로그, Reddit 토론 글 | 낮음 |
출처 충돌 해결 방법
서로 다른 출처의 속성이 충돌하는 경우(예: 공식 사이트는 “2003년 설립”, Wikipedia는 “2002년 설립”), Google의 처리 논리는 다음과 같습니다.
- 1단계: 권위 있는 출처를 우선적으로 채택(공식 사이트 > Wikipedia > 미디어)
- 2단계: 권위 있는 출처끼리도 충돌할 경우(예: 공식 사이트와 Wikipedia), “추가 증빙”(예: 기업 등록증, 재무보고서)을 요구
- 3단계: 30일 이내에 충돌이 해결되지 않으면 “낮은 신뢰도”로 표시하고 일단 수록하지 않음
도구 지원: Google Search Console
Google Search Console(GSC)은 Google이 공식 제공하는 “지식 그래프 수록 모니터링 도구”로, 수록 상태를 실시간으로 확인하고 문제를 점검할 수 있습니다.
핵심 기능:
- 인덱스 상태 모니터링: “색인” → “커버리지”에서 엔티티가 수록되었는지 확인(“색인 생성됨” 또는 “제외됨” 표시)
- 리치 결과 보고서: “리치 결과”에서 지식 그래프 카드의 표시 데이터(예: 클릭 수, 노출 수) 확인
- 오류 진단: “오류”에서 마크업 오류(예: Schema 형식 오류), 출처 충돌(예: 속성 불일치 알림) 점검
최적화 팁:
- 정기 점검: 매주 GSC에 로그인해 “리치 결과”에서 “표시되지 않음”의 원인(예: “속성 누락”, “출처 충돌”)을 확인
- 데이터 피드백: 카드 정보에 오류가 있으면(예: “본사 위치” 오류 표시), GSC를 통해 “데이터 수정 요청” 제출
- 경쟁사 분석: 경쟁사 브랜드명을 검색해 그들의 지식 그래프 카드에 표시되는 속성을 확인하고, 자사에 부족한 핵심 필드를 보완
지식 그래프의 시대는 이미 도래했습니다. 당신의 콘텐츠는 더 효율적으로 “보일” 가치가 있습니다 — 지금 바로 행동을 시작하세요.



