Sariți la conținutul principal

Tutorial BigQuery pentru începători: de la configurare la prima interogare

Află ce este BigQuery, cum funcționează, diferențele față de depozitele de date tradiționale și cum să folosești consola BigQuery pentru a interoga seturi de date publice oferite de Google.
Actualizat 21 mai 2026  · 9 min. citire

Primul meu contact cu big data a fost acum peste 10 ani, ca inginer software care lucra în Ad-Tech. Atunci, seturile de date au început să crească rapid și să explodeze ca dimensiune. În același timp, a fost o mare oportunitate, dar și o provocare. Interogările pentru a răspunde la întrebări de raportare de bază, dar critice, au ajuns brusc să dureze ore.

Ca răspuns, am început să folosesc baze de date orientate pe coloane, precum BigQuery, în 2013. Fiind bazate pe cloud, ne-au permis să rulăm sarcini analitice performant și rentabil și să scalăm resursele când era nevoie. În ultimii câțiva ani, am condus o echipă mare de ingineri de date care a construit un depozit de date BigQuery de peste 10 PB, pentru a ține pasul cu un catalog în rapidă creștere de produse pentru casă și cu nevoi analitice tot mai mari.

Acum, ca CTO al DataCamp, coordonez diferite echipe de inginerie și conținut care îi ajută pe utilizatorii noștri să învețe și să exerseze exact aceste abilități (printre multe altele). Sunt convins că depozitele de date în cloud precum BigQuery pot face multe fluxuri de lucru mult mai eficiente. De aceea vreau să îți împărtășesc experiențele mele în acest tutorial.

În acest ghid, vei învăța ce este BigQuery, cum funcționează și care sunt diferențele față de depozitele de date tradiționale. Vei învăța cum să folosești consola BigQuery pentru a interoga seturi de date publice oferite de Google, cu un exemplu practic despre cum să interoghezi Google Trends ca să afli subiectele populare.

Pe scurt

  • BigQuery este depozitul de date complet gestionat și serverless al Google Cloud, care îți permite să interoghezi petabytes de date folosind SQL standard
  • Separă stocarea de procesare, astfel încât fiecare să poată scala independent, fără administrare de infrastructură
  • Sandbox-ul gratuit îți oferă 1 TiB de interogări pe lună și acces la seturi de date publice, fără card de credit
  • BigQuery folosește un format de stocare columnar, optimizat pentru sarcini analitice (OLAP), spre deosebire de bazele de date OLTP orientate pe rânduri
  • BigQuery ML îți permite să construiești și să implementezi modele de machine learning direct în depozit, folosind SQL

Ce este BigQuery?

BigQuery este un depozit de date complet gestionat și serverless, dezvoltat de Google pentru stocarea și analizarea datelor la scară. Organizațiile îl folosesc pentru a rula interogări analitice pe petabytes de date folosind SQL, fără a gestiona infrastructură.

Poți interacționa cu BigQuery prin consola Google Cloud, instrumentul de linie de comandă bq sau biblioteci client pentru Python, Java, Go, Node.js, C#, PHP și Ruby.

BigQuery include și funcționalități ML integrate (BigQuery ML), care îți permit să creezi și să rulezi modele de ML direct în depozit folosind SQL. Poți, de asemenea, să imporți modele antrenate extern din Vertex AI sau alte cadre.

Acest tutorial este pentru analiști de date, ingineri de date și administratori de depozite de date care încep să lucreze cu BigQuery. Dacă vrei să aprofundezi ulterior, cursul nostru Introducere în BigQuery acoperă optimizarea interogărilor și fluxuri de lucru avansate. Poți explora și ghidul BigQuery Sandbox și tutorialul complet de data warehousing pe GCP

Depozit de date tradițional vs. cloud

Un depozit de date tradițional este implementat on-premise, necesitând de obicei costuri inițiale mari, o echipă calificată pentru a-l gestiona și o planificare adecvată pentru a face față cererii în creștere, din cauza naturii rigide a scalării resurselor în centrele de date tradiționale.

Prin contrast, un depozit de date în cloud este gestionat și găzduit de un furnizor de servicii cloud. Exemple includ Google BigQuery, Amazon Redshift și Snowflake.

Avantajele depozitelor de date în cloud

De obicei, un depozit de date în cloud are mai multe avantaje față de cele tradiționale:

  • Sunt construite pentru scalare și pentru a valorifica flexibilitatea mediului cloud
  • Au viteză și performanță îmbunătățite
  • Prețuri flexibile și un mediu cloud care permit optimizarea costurilor (de exemplu, reducerea resurselor în perioadele cu cerere scăzută)
  • Pot fi complet sau parțial gestionate, ceea ce reduce costurile operaționale.

Baze de date orientate pe rânduri vs. pe coloane

Exemplu de bază de date orientată pe rânduri:

image20.jpg

Exemplu de bază de date orientată pe coloane:

image17.png

Bazele de date orientate pe rânduri funcționează bine pentru căutări ale rândurilor complete, inserarea de înregistrări și actualizări. Însă au dificultăți cu sarcinile analitice.

De exemplu, dacă interoghezi trei coloane dintr-un tabel cu 50 de coloane, o bază de date orientată pe rânduri tot va citi toate cele 50 de coloane pentru fiecare rând. O bază de date orientată pe coloane citește doar cele trei coloane de care ai nevoie, ceea ce este mult mai rapid pentru analize precum prognoza produselor sau raportarea ad-hoc.

Bazele de date orientate pe rânduri sunt de obicei potrivite pentru procesarea tranzacțională online (OLTP), iar bazele orientate pe coloane pentru procesarea analitică online (OLAP).

OLTP vs OLAP

  • OLTP este un tip de sistem de baze de date folosit în aplicații orientate pe tranzacții. „Online” înseamnă că astfel de sisteme sunt așteptate să răspundă la solicitările utilizatorilor și să le proceseze în timp real (adică să proceseze tranzacții).
  • Termenul contrastează cu procesarea analitică online (OLAP), care se concentrează pe analiza datelor.

Rezumatul comparației:

 

Bază de date orientată pe rânduri

Bază de date orientată pe coloane

Stocare

Pe rând

Pe coloană

Regăsire date

Înregistrări complete

Coloane relevante

Aplicație tipică

OLTP

OLAP

Operații rapide

Inserare, actualizări, căutări

Interogări pentru raportare

Încărcare date

De obicei, o înregistrare pe rând

De obicei, în lot

Opțiuni populare

Postgres, MySQL, Oracle, Microsoft SQL Server

Snowflake, Google BigQuery, Amazon Redshift

Cum funcționează BigQuery?

BigQuery separă motorul de procesare de stocare, astfel încât fiecare să poată scala independent. Rezultatul: poți interoga terabytes de date în câteva secunde și petabytes în câteva minute.

Când BigQuery rulează o interogare, motorul de interogare distribuie munca în paralel, scanează tabelele relevante din stocare, îmbină rezultatele și returnează setul final de date.

image13.png

Funcții cheie BigQuery în 2026

De la lansarea BigQuery, Google a adăugat mai multe funcții care îl extind dincolo de un depozit de date tradițional:

  • BigQuery ML — Construiește, antrenează și implementează modele de machine learning folosind SQL. Suportă regresie liniară, clasificare, prognoză de serii temporale și altele.
  • Gemini în BigQuery — Asistență bazată pe AI pentru scrierea interogărilor, înțelegerea schemelor și generarea de insighturi din date în limbaj natural.
  • BigQuery Studio — Un spațiu de lucru unificat pentru SQL, notebook-uri Python și Spark în cadrul consolei BigQuery.
  • Interogări federate — Interoghează date din Cloud SQL, Cloud Storage, Bigtable și alte surse fără a le muta în BigQuery.
  • BigQuery Omni — Rulează analitică BigQuery pe date stocate în AWS sau Azure fără a le copia în Google Cloud.

Cum să începi cu BigQuery

Sandbox-ul BigQuery îți permite să încerci BigQuery fără să furnizezi un card de credit sau să creezi un cont de facturare. În această secțiune, îți arăt cum să accesezi BigQuery și să-ți configurezi primul proiect folosind sandbox-ul.

Poți accesa BigQuery prin Consola Google Cloud. Va trebui să te autentifici cu un cont Google (sau să creezi unul). După autentificare, ar trebui să apară un ecran de bun venit:

image4.png

Găsești BigQuery în bara de meniu din stânga. Dacă dai clic pe el, vei ajunge pe ecranul de mai jos:

image1.png

Folosirea sandbox-ului BigQuery

Pentru a folosi sandbox-ul BigQuery, creează mai întâi un proiect dând clic pe „Select Project”.

image14.png

Apoi dă clic pe „New Project”:

image3.png

Va trebui să oferi un nume de proiect; pentru acest ghid folosim datacamp-guide-project

image7.png

Pe pagina BigQuery este acum afișată o notificare despre sandbox, indicând că ai activat cu succes sandbox-ul BigQuery.

image16.png

Acum că ai activat sandbox-ul BigQuery, poți folosi noul tău proiect pentru a încărca date și a interoga, precum și pentru a interoga seturile de date publice Google.

Creează un set de date și un tabel

Înainte de a crea un tabel, trebuie să creezi un set de date în noul tău proiect. Un set de date este un container de nivel superior folosit pentru a organiza și controla accesul la un set de tabele și vizualizări. Pentru a crea un set de date, dă clic pe pictograma „Actions” a proiectului:

image18.png

În scopul acestui ghid, vom completa „Dataset ID” cu „main”.

image8.png

Poți crea un tabel folosind SQL. BigQuery folosește GoogleSQL, care este conform cu ANSI.

CREATE TABLE datacamp-guide-project.main.users (
  id INT64 NOT NULL,
  first_name STRING NOT NULL,
  middle_name STRING,
  last_name STRING NOT NULL,
  active_account BOOL NOT NULL
);

Poți folosi și interfața BigQuery Console:

image19.png

Notă: Nu este posibil să inserezi date în mediul sandbox. Dacă vrei să încerci inserarea de date, trebuie să activezi perioada de probă gratuită. Secțiunile următoare se concentrează pe interogarea seturilor de date publice oferite ca parte a Google Cloud.

Interoghează un set de date public folosind consola BigQuery

Pentru a interoga un set de date public, urmează pașii de mai jos:

1. Dă clic pe „Add” lângă Explorer.

image10.png

2. Apoi alege un set de date.

image2.png

3. Caută „Google Trends” și alege Google Trends, apoi dă clic pe butonul „View dataset”.

image6.png

4. bigquery-public-data va apărea cu o listă lungă de seturi de date. Pune o steluță la bigquery-public-data ca să rămână „lipit” în explorer

image5.png

Vom folosi tabelul top_terms:

image12.png

Dă clic pe tabelul top_terms pentru a-l deschide și inspectează filele Details și Preview ca să afli mai multe despre datele din top_terms.

image9.png

image21.png

Poți interoga setul de date; exemplu mai jos pentru a prelua termenii care s-au clasat pe prima poziție în ultimele două săptămâni:

SELECT
  term
FROM
  bigquery-public-data.google_trends.top_terms
WHERE
  rank = 1
  AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
  term

Rezultate (vor varia):

image11.png

Prețuri BigQuery

Structura de prețuri BigQuery are două componente principale: procesare (executarea interogărilor) și stocare.

Componentă Plan gratuit Preț plătit
Interogări la cerere 1 TiB pe lună $6.25 per TiB
Stocare (activă) 10 GiB $0.02 per GiB/lună
Stocare (pe termen lung) 10 GiB $0.01 per GiB/lună
Inserări în flux N/A $0.05 per 200 MB

Pentru echipe cu sarcini de lucru previzibile, BigQuery oferă și prețuri forfetare prin rezervări de capacitate (BigQuery Editions). Verifică pagina oficială de prețuri pentru tarifele actuale.

Gânduri finale

BigQuery este unul dintre cele mai accesibile puncte de intrare în depozitarea de date în cloud. Sandbox-ul îți oferă un mediu fără riscuri pentru a experimenta, iar 1 TiB de interogări gratuite pe lună înseamnă că poți explora seturi de date publice fără să cheltui nimic. Când ai nevoie de mai mult, perioada de probă gratuită a Google Cloud îți oferă credite de 300 $.

Dacă vrei să construiești pe baza a ceea ce ai învățat aici, îți recomand cursul Introducere în BigQuery pe DataCamp, care acoperă optimizarea interogărilor și lucrul cu seturi de date mai mari. Pentru o perspectivă mai amplă asupra ingineriei de date, traseul Data Engineer in Python acoperă întregul pipeline, de la ingestie la depozitare.

Poți explora și cum se compară BigQuery cu alternativele în materialele noastre BigQuery vs Redshift și BigQuery vs Snowflake, sau te poți pregăti pentru interviuri cu ghidul nostru de întrebări pentru interviuri BigQuery.

Subiecte

Începe azi cu ingineria datelor!

track

Inginer de date asociat în SQL

30 oră
Învață fundamentele ingineriei datelor: proiectarea bazelor de date și data warehousing, lucrând cu tehnologii precum PostgreSQL și Snowflake!
Vezi detaliiRight Arrow
Începeți cursul
Vezi mai multRight Arrow