Building Batch Data Pipelines on GCP em Português Brasileiro
- 0.0
Course Summary
Learn how to design and build effective batch data pipelines on Google Cloud Platform using Dataflow, Pub/Sub, and BigQuery.Key Learning Points
- Use Google Cloud Platform to design and build batch data pipelines
- Understand how to use Dataflow, Pub/Sub, and BigQuery
- Learn best practices for designing and optimizing batch data pipelines
Job Positions & Salaries of people who have taken this course might have
- Data Engineer
- USA: $92,000 - $140,000
- India: ₹600,000 - ₹1,500,000
- Spain: €35,000 - €70,000
- Cloud Engineer
- USA: $105,000 - $160,000
- India: ₹700,000 - ₹2,000,000
- Spain: €40,000 - €75,000
- Data Analyst
- USA: $60,000 - $95,000
- India: ₹400,000 - ₹1,200,000
- Spain: €25,000 - €50,000
Related Topics for further study
Learning Outcomes
- Design and build batch data pipelines using Google Cloud Platform
- Optimize batch data pipelines for performance and reliability
- Apply best practices and techniques for batch data processing
Prerequisites or good to have knowledge before taking this course
- Familiarity with SQL and data modeling
- Experience with a programming language such as Java, Python or Go
Course Difficulty Level
IntermediateCourse Format
- Self-paced
- Online
- Video lectures
- Hands-on exercises
Similar Courses
- Building Batch Data Pipelines on AWS
- Real-Time Data Processing with Google Cloud Platform
- Big Data on Google Cloud Platform
Related Education Paths
Notable People in This Field
- Developer Advocate, Google Cloud
- Creator of Apache Airflow
Related Books
Description
De forma geral, os pipelines de dados se enquadram em um dos seguintes modelos: extrair-carregar, extrair-carregar-transformar ou extrair-transformar-carregar. Neste curso, descrevemos qual modelo deve ser usado e quando usá-lo para os dados em lote. Também tratamos de diversas tecnologias de transformação de dados disponíveis no Google Cloud Platform, como o BigQuery, a execução do Spark no Cloud Dataproc, os gráficos de pipeline no Cloud Data Fusion e o processamento de dados sem servidor com o Cloud Dataflow. Na atividade prática do Qwiklabs, os participantes criarão componentes de pipeline de dados no Google Cloud Platform.
Outline
- Introdução
- Introdução ao curso
- Primeiros passos no Google Cloud Platform e no Qwiklabs
- Introdução aos pipelines de dados em lote
- EL, ELT e ETL
- Considerações sobre qualidade
- Como fazer operações no BigQuery
- Limitações
- ETL para solucionar problemas de qualidade de dados
- EL, ELT, ETL
- Como executar o Spark no Cloud Dataproc
- O ecossistema do Hadoop
- Como executar o Hadoop no Cloud Dataproc
- GCS em vez do HDFS
- Como otimizar o Dataproc
- Como otimizar o armazenamento do Dataproc
- Como otimizar os modelos e o escalonamento automático do Dataproc
- Como otimizar o monitoramento do Dataproc
- Introdução ao laboratório: Como executar jobs do Apache Spark no Cloud Dataproc
- Resumo
- Como executar o Spark no Cloud Dataproc
- Gerencie pipelines de dados com o Cloud Data Fusion e o Cloud Composer
- Introdução
- Componentes do Data Fusion
- Como criar pipelines
- Como analisar dados usando o Wrangler
- Laboratório: Como criar e executar um gráfico de pipeline no Cloud Data Fusion
- Como orquestrar o trabalho entre os serviços do GCP com o Cloud Composer
- Ambiente do Apache Airflow
- DAGs e operadores
- Como programar o fluxo de trabalho
- Monitoramento e registro
- Laboratório: Introdução ao Cloud Composer
- Cloud Data Fusion e Cloud Composer
- Processamento de dados sem servidor com o Cloud Dataflow
- Cloud Dataflow
- Por que os clientes valorizam o Dataflow
- Como criar pipelines do Cloud Dataflow em código
- Principais considerações no design de pipelines
- Como transformar dados com PTransforms
- Laboratório: Como criar um pipeline simples do Dataflow
- Como agregar com GroupByKey e Combine
- Laboratório: MapReduce no Cloud Dataflow
- Entradas secundárias e janelas de dados
- Laboratório: Prática de entradas secundárias de pipelines
- Como criar e reutilizar modelos de pipeline
- Pipelines de SQL do Cloud Dataflow
- Processamento de dados com o Cloud Dataflow
- Resumo
- Resumo do curso
Summary of User Reviews
This course on Coursera for Batch Data Pipelines on GCP has received positive reviews from users. The course is highly informative and the instructors are knowledgeable. One key aspect that many users find good is the hands-on experience the course offers.Pros from User Reviews
- Hands-on experience
- Instructors are knowledgeable
- Course is highly informative
- Well-structured content
- Useful resources provided
Cons from User Reviews
- Some users found the pace of the course to be slow
- The course may not be suitable for complete beginners
- The course may not cover advanced topics in-depth
- Some users found the course to be too theoretical
- The price of the course may be high for some users