Course Summary
Learn how to build, test, and deploy batch data pipelines on Google Cloud Platform with this course. Gain hands-on experience with Cloud Dataflow, Cloud Storage, and other GCP tools.Key Learning Points
- Gain practical experience building batch data pipelines on GCP
- Learn how to use Cloud Dataflow, Cloud Storage, and other GCP tools
- Understand best practices for testing and deploying data pipelines
Related Topics for further study
Learning Outcomes
- Build, test, and deploy batch data pipelines on GCP
- Use Cloud Dataflow and Cloud Storage to process and store data
- Understand best practices for testing and deploying data pipelines
Prerequisites or good to have knowledge before taking this course
- Basic understanding of programming concepts
- Familiarity with GCP services such as Cloud Storage and BigQuery
Course Difficulty Level
IntermediateCourse Format
- Video lectures
- Hands-on exercises
- Quizzes
Similar Courses
- Data Engineering on Google Cloud Platform
- Google Cloud Platform Big Data and Machine Learning Fundamentals
Related Education Paths
- Google Cloud Certified - Professional Data Engineer
- Google Cloud Certified - Professional Cloud Architect
Notable People in This Field
- CEO of Google
Related Books
Description
データ パイプラインは通常、Extract-Load(抽出、読み込み)、Extract-Load-Transform(抽出、読み込み、変換)、Extract-Transform-Load(抽出、変換、読み込み)のいずれかの方式に分類されます。このコースでは、どの方式をどのような場合にバッチデータに対して使用すべきかを説明します。また、Google Cloud Platform 上のデータ変換技術(BigQuery など)、Cloud Dataproc での Spark の実行、Cloud Data Fusion でのパイプライン グラフ、Cloud Dataflow によるサーバーレスのデータ処理についても取り上げます。Qwiklabs を使用して、Google Cloud Platform でデータ パイプライン コンポーネントを実際に構築できます。
Outline
- はじめに
- コース概要
- Google Cloud Platform と Qwiklabs の使用方法
- バッチデータ パイプラインの概要
- EL、ELT、ETL
- 品質に関する考慮事項
- BigQuery でオペレーションを実行する方法
- 制限事項
- ETL によるデータ品質問題への対処
- EL、ELT、ETL
- Cloud Dataproc での Spark の実行
- Hadoop エコシステム
- Cloud Dataproc での Hadoop の実行
- HDFS の代わりに GCS を使用する
- Dataproc の最適化
- Dataproc ストレージの最適化
- Dataproc のテンプレートと自動スケーリングの最適化
- Dataproc のモニタリングの最適化
- ラボの概要: Cloud Dataproc で Apache Spark ジョブを実行する
- まとめ
- Cloud Dataproc での Spark の実行
- Cloud Data Fusion と Cloud Composer によるデータ パイプライン管理
- 概要
- Data Fusion のコンポーネント
- パイプラインの構築
- Wrangler を使用したデータの調査
- ラボ: Cloud Data Fusion でパイプライン グラフを構築し実行する
- Cloud Composer を使用した GCP サービス間での処理のオーケストレーション
- Apache Airflow 環境
- DAG と演算子
- ワークフローのスケジュール設定
- モニタリングとロギング
- ラボ: Cloud Composer の概要
- Cloud Data Fusion と Cloud Composer
- Cloud Dataflow によるサーバーレスのデータ処理
- Cloud Dataflow
- Dataflow が評価される理由
- Cloud Dataflow パイプライン構築のコード例
- パイプラインの設計に関する主な考慮事項
- PTransforms によるデータの変換
- ラボ: シンプルな Dataflow パイプラインを構築する
- GroupByKey と Combine を使用した集約
- ラボ: Cloud Dataflow での MapReduce
- 副入力とデータのウィンドウ
- ラボ: パイプラインへの副入力を作成する
- パイプライン テンプレートの作成と再利用
- Cloud Dataflow SQL パイプライン
- Cloud Dataflow によるデータ処理
- まとめ
- コースのまとめ
Summary of User Reviews
The Batch Data Pipelines on GCP course is highly recommended by many users. The course covers a wide range of topics, from data pipelines to Big Data technologies. One key aspect that many users thought was good is the hands-on experience gained through the labs and assignments. This provides a practical approach to learning that many users found very helpful.Pros from User Reviews
- High-quality content
- Well-structured course
- Hands-on experience through labs and assignments
- In-depth coverage of Big Data technologies
Cons from User Reviews
- Some users found the course challenging
- Limited interaction with instructors
- Some users felt that more emphasis could have been placed on certain topics