tracks
제가 빅데이터를 접한 것은 10여 년 전 애드테크 분야의 소프트웨어 엔지니어로 일하면서부터입니다. 그 무렵 데이터 세트는 급격히 커지기 시작했고, 이는 동시에 큰 기회이자 도전이었습니다. 기본적이지만 중요한 리포팅 질문에 답하기 위한 쿼리가 갑자기 몇 시간이 걸리곤 했습니다.
이에 대응해 2013년부터 BigQuery 같은 컬럼 지향 데이터베이스를 사용하기 시작했습니다. 클라우드 기반이기 때문에 분석 워크로드를 높은 성능과 비용 효율로 처리할 수 있었고, 필요할 때 리소스를 확장할 수 있었습니다. 최근 몇 년간 저는 빠르게 성장하는 홈굿즈 제품 카탈로그와 증가하는 분석 수요를 뒷받침하기 위해 10PB 이상 규모의 BigQuery 데이터 웨어하우스를 구축한 대규모 데이터 엔지니어 팀을 이끌었습니다.
현재 DataCamp의 CTO로서 저는 여러 엔지니어링 및 콘텐츠 팀을 이끌며 사용자들이 바로 이런 기술(및 그 외 많은 기술)을 학습하고 실습할 수 있도록 돕고 있습니다. BigQuery 같은 클라우드 데이터 웨어하우스가 많은 워크플로를 훨씬 효율적으로 만들어 줄 수 있다고 확신합니다. 그래서 이 튜토리얼에서 제 경험을 공유하고자 합니다.
이 가이드에서는 BigQuery가 무엇인지, 어떻게 작동하는지, 그리고 전통적인 데이터 웨어하우스와 어떤 점이 다른지 배우게 됩니다. 또한 BigQuery 콘솔을 사용해 Google이 제공하는 공개 데이터 세트를 쿼리하는 방법을 익히고, Google 트렌드를 쿼리해 인기 주제를 살펴보는 실용 예제를 따라가게 됩니다.
요약
- BigQuery는 표준 SQL을 사용해 페타바이트급 데이터를 쿼리할 수 있는 Google Cloud의 완전관리형 서버리스 데이터 웨어하우스입니다.
- 스토리지와 컴퓨트를 분리해 각각을 독립적으로 확장할 수 있으며, 인프라 관리는 필요 없습니다.
- 무료 샌드박스는 매월 1 TiB의 쿼리 한도와 공개 데이터 세트 접근을 제공하며, 신용카드가 필요하지 않습니다.
- BigQuery는 행 지향 OLTP 데이터베이스와 달리 분석(OLAP) 워크로드에 최적화된 컬럼형 스토리지를 사용합니다.
- BigQuery ML을 사용하면 SQL만으로 웨어하우스 내에서 직접 머신러닝 모델을 구축하고 배포할 수 있습니다.
BigQuery란?
BigQuery는 대규모 데이터 저장 및 분석을 위해 Google이 개발한 완전관리형 서버리스 데이터 웨어하우스입니다. 조직은 인프라를 관리할 필요 없이 SQL을 사용해 페타바이트급 데이터에 대한 분석 쿼리를 실행합니다.
BigQuery는 Google Cloud 콘솔, bq 명령줄 도구, 또는 Python, Java, Go, Node.js, C#, PHP, Ruby용 클라이언트 라이브러리를 통해 사용할 수 있습니다.
BigQuery에는 내장 머신러닝(BigQuery ML)도 포함되어 있어 SQL만으로 웨어하우스 내에서 직접 ML 모델을 생성하고 실행할 수 있습니다. 또한 Vertex AI나 다른 프레임워크에서 학습한 외부 모델을 가져올 수도 있습니다.
이 튜토리얼은 BigQuery를 시작하는 데이터 애널리스트, 데이터 엔지니어, 데이터 웨어하우스 관리자 대상입니다. 더 깊이 학습하고 싶다면, 우리의 Introduction to BigQuery 코스에서 쿼리 최적화와 고급 워크플로를 다룹니다. 또한 BigQuery 샌드박스 가이드와 GCP 데이터 웨어하우징 종합 튜토리얼도 살펴보세요.
전통형 vs 클라우드 데이터 웨어하우스
전통적 데이터 웨어하우스는 온프레미스에 배포되며, 일반적으로 높은 초기 비용, 이를 관리할 숙련된 팀, 그리고 전통적 데이터 센터 리소스 확장의 경직성으로 인한 수요 증가에 맞춘 철저한 계획이 필요합니다.
반면 클라우드 데이터 웨어하우스는 클라우드 서비스 제공업체가 호스팅하고 관리합니다. 예로는 Google BigQuery, Amazon Redshift, Snowflake가 있습니다.
클라우드 데이터 웨어하우스의 장점
일반적으로 클라우드 데이터 웨어하우스는 전통적 데이터 웨어하우스에 비해 다음과 같은 장점을 갖습니다.
- 클라우드 환경의 유연성을 활용해 대규모 확장을 전제로 설계되었습니다.
- 속도와 성능이 향상되었습니다.
- 유연한 가격 체계와 클라우드 환경으로 비용 최적화가 가능합니다(예: 수요가 낮을 때 축소).
- 완전 또는 부분 관리형으로 운영 비용을 줄일 수 있습니다.
행 지향 vs 컬럼 지향 데이터베이스
행 지향 데이터베이스 예시:

컬럼 지향 데이터베이스 예시:

행 지향 데이터베이스는 전체 행 조회, 레코드 삽입, 업데이트에 유리합니다. 하지만 분석 워크로드에는 약합니다.
예를 들어 50개 컬럼이 있는 테이블에서 3개 컬럼만 조회하더라도, 행 지향 데이터베이스는 각 행에 대해 여전히 50개 컬럼을 모두 읽습니다. 반면 컬럼 지향 데이터베이스는 필요한 3개 컬럼만 읽기 때문에 제품 수요 예측이나 애드혹 리포팅 같은 분석에 훨씬 빠릅니다.
행 지향 데이터베이스는 보통 온라인 트랜잭션 처리(OLTP)에, 컬럼 지향 데이터베이스는 온라인 분석 처리(OLAP)에 적합합니다.
OLTP vs OLAP
- OLTP는 트랜잭션 중심 애플리케이션에서 사용하는 데이터베이스 시스템 유형입니다. "온라인"은 이러한 시스템이 사용자 요청에 실시간으로 응답하고 처리(즉, 트랜잭션 처리)해야 함을 의미합니다.
- 이는 데이터 분석에 초점을 맞춘 온라인 분석 처리(OLAP)와 대비됩니다.
비교 요약:
|
행 지향 데이터베이스 |
컬럼 지향 데이터베이스 |
||||||
|
저장 방식 |
행 기준 |
컬럼 기준 |
|||||
|
데이터 조회 |
완전한 레코드 |
해당 컬럼 |
|||||
|
일반적 적용 |
OLTP |
OLAP |
|||||
|
빠른 작업 |
삽입, 업데이트, 조회 |
리포팅 목적의 쿼리 |
|||||
|
데이터 적재 |
보통 레코드 단위 |
보통 배치 단위 |
|||||
|
대표 옵션 |
Postgres, MySQL, Oracle, Microsoft SQL Server |
Snowflake, Google BigQuery, Amazon Redshift |
|||||
BigQuery는 어떻게 작동하나요?
BigQuery는 컴퓨트 엔진과 스토리지를 분리해 각각을 독립적으로 확장합니다. 그 결과 테라바이트급 데이터는 수초, 페타바이트급 데이터는 수분 내에 쿼리할 수 있습니다.
BigQuery가 쿼리를 실행하면, 쿼리 엔진이 작업을 병렬로 분산하고 스토리지의 관련 테이블을 스캔한 뒤 결과를 병합해 최종 데이터 세트를 반환합니다.

2026년 BigQuery 주요 기능
출시 이후 Google은 BigQuery를 전통적 데이터 웨어하우스를 넘어 확장하는 여러 기능을 추가했습니다.
- BigQuery ML — SQL로 머신러닝 모델을 구축, 학습, 배포합니다. 선형 회귀, 분류, 시계열 예측 등 지원.
- Gemini in BigQuery — 자연어를 통해 쿼리 작성, 스키마 이해, 데이터 인사이트 생성을 돕는 AI 지원 기능.
- BigQuery Studio — BigQuery 콘솔 내에서 SQL, Python 노트북, Spark를 아우르는 통합 작업 공간.
- 연합 쿼리 — 데이터를 BigQuery로 옮기지 않고도 Cloud SQL, Cloud Storage, Bigtable 등에서 직접 쿼리.
- BigQuery Omni — 데이터를 Google Cloud로 복사하지 않고 AWS나 Azure에 저장된 데이터에 대해 BigQuery 분석 실행.
BigQuery 시작하기
BigQuery 샌드박스를 사용하면 청구 계정이나 신용카드 없이 BigQuery를 체험할 수 있습니다. 이 섹션에서는 샌드박스를 사용해 BigQuery에 접근하고 첫 프로젝트를 설정하는 방법을 살펴봅니다.
BigQuery는 Google Cloud Console을 통해 접근할 수 있습니다. Google 계정으로 로그인(또는 생성)해야 합니다. 로그인하면 환영 화면이 표시됩니다.

왼쪽 메뉴에서 BigQuery를 찾을 수 있습니다. 클릭하면 아래 화면으로 이동합니다.

BigQuery 샌드박스 사용
BigQuery 샌드박스를 사용하려면 먼저 ‘Select Project’를 클릭해 프로젝트를 생성합니다.

이어서 ‘New Project’를 클릭합니다.

프로젝트 이름을 입력해야 합니다. 이 가이드에서는 datacamp-guide-project를 사용합니다.

이제 BigQuery 페이지에 샌드박스 사용 알림이 표시되며, BigQuery 샌드박스가 성공적으로 활성화되었음을 보여줍니다.

이제 BigQuery 샌드박스가 활성화되었으므로, 새 프로젝트에서 데이터를 로드하고 쿼리할 수 있으며 Google 공개 데이터 세트도 쿼리할 수 있습니다.
데이터세트와 테이블 만들기
테이블을 만들기 전에 새 프로젝트에서 데이터세트를 생성해야 합니다. 데이터세트는 테이블과 뷰 모음을 구성하고 접근을 제어하는 최상위 컨테이너입니다. 데이터세트를 생성하려면 프로젝트의 ‘Actions’ 아이콘을 클릭합니다.

이 가이드에서는 ‘Dataset ID’에 ‘main’을 입력합니다.

SQL을 사용해 테이블을 만들 수 있습니다. BigQuery는 ANSI 호환인 GoogleSQL을 사용합니다.
CREATE TABLE datacamp-guide-project.main.users (
id INT64 NOT NULL,
first_name STRING NOT NULL,
middle_name STRING,
last_name STRING NOT NULL,
active_account BOOL NOT NULL
);
또는 BigQuery 콘솔 인터페이스를 사용할 수도 있습니다.

참고: 샌드박스 환경에서는 데이터를 삽입할 수 없습니다. 데이터 삽입을 시도하려면 무료 체험을 활성화해야 합니다. 다음 섹션에서는 Google Cloud에서 제공하는 공개 데이터 세트를 쿼리하는 데 집중합니다.
BigQuery 콘솔로 공개 데이터 세트 쿼리하기
공개 데이터 세트를 쿼리하려면 아래 단계를 따르세요.
1. Explorer 옆의 ‘Add’를 클릭합니다.

2. 그런 다음 데이터 세트를 선택합니다.

3. ‘Google Trends’를 검색해 선택하고, ‘View dataset’ 버튼을 클릭합니다.

4. bigquery-public-data에 긴 데이터 세트 목록이 표시됩니다. bigquery-public-data에 별표를 추가해 탐색기에서 “고정”되도록 하세요.

Google 트렌드 데이터 세트를 활용한 실전 예제
top_terms 테이블을 사용하겠습니다.

top_terms 테이블을 클릭해 열고, Details와 Preview를 확인해 top_terms 데이터에 대해 더 알아보세요.


아래 예시처럼, 최근 2주 동안 1위에 오른 용어를 가져오도록 데이터 세트를 쿼리할 수 있습니다.
SELECT
term
FROM
bigquery-public-data.google_trends.top_terms
WHERE
rank = 1
AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
term
결과(변동 가능):

BigQuery 가격
BigQuery 가격은 크게 컴퓨트(쿼리 처리)와 스토리지 두 가지 구성 요소로 이뤄집니다.
| 구성 요소 | 무료 등급 | 유료 요금 |
|---|---|---|
| 온디맨드 쿼리 | 월 1 TiB | TiB당 $6.25 |
| 스토리지(활성) | 10 GiB | GiB/월당 $0.02 |
| 스토리지(장기) | 10 GiB | GiB/월당 $0.01 |
| 스트리밍 삽입 | N/A | 200 MB당 $0.05 |
워크로드가 예측 가능한 팀의 경우, BigQuery는 용량 예약(BigQuery Editions)을 통한 정액 요금제도 제공합니다. 최신 요금은 공식 가격 페이지를 확인하세요.
마무리
BigQuery는 클라우드 데이터 웨어하우징으로 진입하기 가장 쉬운 방법 중 하나입니다. 샌드박스는 위험 없이 실험할 수 있는 환경을 제공하며, 월 1 TiB의 무료 쿼리 한도로 비용 없이 공개 데이터 세트를 탐색할 수 있습니다. 더 필요할 때는 Google Cloud의 무료 체험을 통해 $300 크레딧을 받을 수 있습니다.
여기서 배운 내용을 확장하고 싶다면 DataCamp의 Introduction to BigQuery 코스를 권장합니다. 쿼리 최적화와 대규모 데이터 세트 작업을 다룹니다. 더 넓은 관점에서 데이터 엔지니어링을 살펴보고 싶다면 Data Engineer in Python 트랙에서 수집부터 웨어하우징까지 전체 파이프라인을 학습하세요.
또한 BigQuery vs Redshift, BigQuery vs Snowflake 비교 글을 통해 대안을 함께 살펴보거나, BigQuery 면접 질문 가이드로 인터뷰를 준비할 수 있습니다.