Building Batch Data Pipelines on GCP em Português Brasileiro

  • 0.0
Approx. 13 hours to complete

Course Summary

Learn how to design and build effective batch data pipelines on Google Cloud Platform using Dataflow, Pub/Sub, and BigQuery.

Key Learning Points

  • Use Google Cloud Platform to design and build batch data pipelines
  • Understand how to use Dataflow, Pub/Sub, and BigQuery
  • Learn best practices for designing and optimizing batch data pipelines

Job Positions & Salaries of people who have taken this course might have

  • Data Engineer
    • USA: $92,000 - $140,000
    • India: ₹600,000 - ₹1,500,000
    • Spain: €35,000 - €70,000
  • Cloud Engineer
    • USA: $105,000 - $160,000
    • India: ₹700,000 - ₹2,000,000
    • Spain: €40,000 - €75,000
  • Data Analyst
    • USA: $60,000 - $95,000
    • India: ₹400,000 - ₹1,200,000
    • Spain: €25,000 - €50,000

Related Topics for further study


Learning Outcomes

  • Design and build batch data pipelines using Google Cloud Platform
  • Optimize batch data pipelines for performance and reliability
  • Apply best practices and techniques for batch data processing

Prerequisites or good to have knowledge before taking this course

  • Familiarity with SQL and data modeling
  • Experience with a programming language such as Java, Python or Go

Course Difficulty Level

Intermediate

Course Format

  • Self-paced
  • Online
  • Video lectures
  • Hands-on exercises

Similar Courses

  • Building Batch Data Pipelines on AWS
  • Real-Time Data Processing with Google Cloud Platform
  • Big Data on Google Cloud Platform

Related Education Paths


Notable People in This Field

  • Developer Advocate, Google Cloud
  • Creator of Apache Airflow

Related Books

Description

De forma geral, os pipelines de dados se enquadram em um dos seguintes modelos: extrair-carregar, extrair-carregar-transformar ou extrair-transformar-carregar. Neste curso, descrevemos qual modelo deve ser usado e quando usá-lo para os dados em lote. Também tratamos de diversas tecnologias de transformação de dados disponíveis no Google Cloud Platform, como o BigQuery, a execução do Spark no Cloud Dataproc, os gráficos de pipeline no Cloud Data Fusion e o processamento de dados sem servidor com o Cloud Dataflow. Na atividade prática do Qwiklabs, os participantes criarão componentes de pipeline de dados no Google Cloud Platform.

Outline

  • Introdução
  • Introdução ao curso
  • Primeiros passos no Google Cloud Platform e no Qwiklabs
  • Introdução aos pipelines de dados em lote
  • EL, ELT e ETL
  • Considerações sobre qualidade
  • Como fazer operações no BigQuery
  • Limitações
  • ETL para solucionar problemas de qualidade de dados
  • EL, ELT, ETL
  • Como executar o Spark no Cloud Dataproc
  • O ecossistema do Hadoop
  • Como executar o Hadoop no Cloud Dataproc
  • GCS em vez do HDFS
  • Como otimizar o Dataproc
  • Como otimizar o armazenamento do Dataproc
  • Como otimizar os modelos e o escalonamento automático do Dataproc
  • Como otimizar o monitoramento do Dataproc
  • Introdução ao laboratório: Como executar jobs do Apache Spark no Cloud Dataproc
  • Resumo
  • Como executar o Spark no Cloud Dataproc
  • Gerencie pipelines de dados com o Cloud Data Fusion e o Cloud Composer
  • Introdução
  • Componentes do Data Fusion
  • Como criar pipelines
  • Como analisar dados usando o Wrangler
  • Laboratório: Como criar e executar um gráfico de pipeline no Cloud Data Fusion
  • Como orquestrar o trabalho entre os serviços do GCP com o Cloud Composer
  • Ambiente do Apache Airflow
  • DAGs e operadores
  • Como programar o fluxo de trabalho
  • Monitoramento e registro
  • Laboratório: Introdução ao Cloud Composer
  • Cloud Data Fusion e Cloud Composer
  • Processamento de dados sem servidor com o Cloud Dataflow
  • Cloud Dataflow
  • Por que os clientes valorizam o Dataflow
  • Como criar pipelines do Cloud Dataflow em código
  • Principais considerações no design de pipelines
  • Como transformar dados com PTransforms
  • Laboratório: Como criar um pipeline simples do Dataflow
  • Como agregar com GroupByKey e Combine
  • Laboratório: MapReduce no Cloud Dataflow
  • Entradas secundárias e janelas de dados
  • Laboratório: Prática de entradas secundárias de pipelines
  • Como criar e reutilizar modelos de pipeline
  • Pipelines de SQL do Cloud Dataflow
  • Processamento de dados com o Cloud Dataflow
  • Resumo
  • Resumo do curso

Summary of User Reviews

This course on Coursera for Batch Data Pipelines on GCP has received positive reviews from users. The course is highly informative and the instructors are knowledgeable. One key aspect that many users find good is the hands-on experience the course offers.

Pros from User Reviews

  • Hands-on experience
  • Instructors are knowledgeable
  • Course is highly informative
  • Well-structured content
  • Useful resources provided

Cons from User Reviews

  • Some users found the pace of the course to be slow
  • The course may not be suitable for complete beginners
  • The course may not cover advanced topics in-depth
  • Some users found the course to be too theoretical
  • The price of the course may be high for some users
Portuguese (Brazilian)
Available now
Approx. 13 hours to complete
Google Cloud Training
Google Cloud
Coursera
Share
Saved Course list
Cancel
Get Course Update
Computer Courses