12/08/2018, 16:37

Tìm hiểu vể Google Cloud BigQuery(GCB)

Các công nghệ ứng dụng từ nền tảng đám mây và ảo hóa ngày nay đã phát triển và chiếm được một vị thế quá to lớn trong công cuộc phát triển của công nghệ nói chung và các công nghệ máy tính, máy chủ nói riêng. Bài viết này chúng ta sẽ tìm hiểu về một sản phẩm trong bộ Google Cloud Platform(GCP) là ...

Các công nghệ ứng dụng từ nền tảng đám mây và ảo hóa ngày nay đã phát triển và chiếm được một vị thế quá to lớn trong công cuộc phát triển của công nghệ nói chung và các công nghệ máy tính, máy chủ nói riêng. Bài viết này chúng ta sẽ tìm hiểu về một sản phẩm trong bộ Google Cloud Platform(GCP) là Google Cloud BigQuery(GCB)

Google Cloud Platform (GCP) là nền tảng điện toán đám mây cho phép doanh nghiệp, tổ chức xây dựng và chạy các ứng dụng của mình trên chính hệ thống mà Google cung cấp, và đang được sử dụng cho các sản phẩm tuyệt vời như Google Search, Google Maps, Google Apps, Chrome, Youtube, … GCP mang đến tất các các dịch vụ thiết yếu, bao gồm Big Data, Storage, Compute Engine, Networking, Management, Developer Tools, Mobile. Do đó, doanh nghiệp chỉ cần tập trung vào những công việc thật sự quan trọng với họ mà không cần phải quan tâm đến hệ thống bên dưới. GCP không chỉ mang đến cho doanh nghiệp những dịch vụ quen thuộc, điểm khác biệt còn nằm ở chỗ những dịch vụ đó được đặt tại Google – nơi có một hệ thống Datacenter với mức độ bảo mật và an toàn dữ liệu, đáp ứng các tiêu chuẩn khắt khe nhất đối với một hệ thống điện toán đám mây. Các sản phẩm mà Google Cloud Platform cung cấp bao gồm: • Compute – App Engine, Compute Engine, Container Engine • Storage – Cloud Storage, Cloud Datastore, Cloud SQL, Cloud Bigtable • Big Data – BigQuery, Cloud Dataflow, Cloud Dataproc, Cloud Pub/Sub • Services – Cloud Endpoints, Translate API, Prediction API

Việc lưu trữ và truy vấn trên các bộ cơ sở dữ liệu lớn có thể mất nhiều thời gian và chi phí tốn kém do không có phần cứng cũng như cơ sở hạ tầng phù hợp. Google Cloud BigQuery là một kho dữ liệu thương mại khổng lồ được xây dựng để giải quyết vấn đề trên với các truy vấn SQL cực nhanh trên nền tảng hạ tầng của chính Google. Các doanh nghiệp, developer đơn giản chỉ cần input dữ liệu vào BigQuery và để Google xử lý phần còn lại. Bạn có thể kiểm soát truy cập vào cả dự án và dữ liệu của bạn dựa trên nhu cầu kinh doanh của bạn, như cho phép người khác xem hoặc truy vấn dữ liệu của bạn.

Bạn có thể truy cập vào BigQuery bằng: Web UI hoặc command-line tool, hoặc thực hiện cuộc gọi tới API BigQuery REST sử dụng nhiều thư viện khác nhau như Java, NET, Ruby hoặc Python. Ngoài ra còn có nhiều công cụ của bên thứ ba mà bạn có thể sử dụng để tương tác với BigQuery, chẳng hạn như hiển thị dữ liệu hoặc tải dữ liệu.

Bạn có thể sử dụng giao diện web BigQuery làm giao diện trực quan để thực hiện các tác vụ như truy vấn, import dữ liệu và export dữ liệu. Trước khi bắt đầu chúng ta cần làm một số bước để tạo project cũng như enable billing:

  • Đăng kí dịch vụ Google Cloud: Truy cập vào link sau, đăng kí và làm theo hướng dẫn: https://console.cloud.google.com/billing/0166DA-67E53B-D465B0
  • Chọn hay tạo một Cloud Platform project.
  • Enable billing cho project đó
  • BigQuery is automatically enabled in new projects

Query a public dataset

BigQuery Web UI cung cấp giao diện cho các truy vấn trên các bảng, chẳng hạn để truy vấn trên 1 bảng đã có sẵn. Đi đến giao diện web UI Bigquery: https://bigquery.cloud.google.com/project/test-bigquery-186608 Copy và paste đoạn query sau vào text area của new query:

    #standardSQL
    SELECT
     weight_pounds, state, year, gestation_weeks
    FROM
     `bigquery-public-data.samples.natality`
    ORDER BY weight_pounds DESC LIMIT 10;

Click run query sẽ được kết quả:

Load data into a table

  • Download custom data: Dữ liệu mẫu chứa khoảng 7MB dữ liệu về tên các em bé phổ biến do Cơ quan an sinh xã hội Hoa Kỳ cung cấp: http://www.ssa.gov/OACT/babynames/names.zip
  • Tạo một dataset: Đến trang BigQuery Web UI, click vào icon bên cạnh tên project, chọn Create new dataset, nhập một tên cho dataset này.
  • Import data vào một bảng mới: Trong navigator của dataset mới tạo, click icon và chọn Create new table, chọn và input file yob2014.txt, đánh vào tên bảng, thay thế lại content của schema thành:
    name:string,gender:string,count:integer

Query the table

Bạn có thể test dataset trên bằng query:

    #standardSQL
    SELECT
     name, count
    FROM
     `babynames.names_2014`
    WHERE
     gender = 'M'
    ORDER BY count DESC LIMIT 5;
0