Building Batch Data Pipelines on GCP 日本語版

  • 0.0
Approx. 13 hours to complete

Course Summary

Learn how to build, test, and deploy batch data pipelines on Google Cloud Platform with this course. Gain hands-on experience with Cloud Dataflow, Cloud Storage, and other GCP tools.

Key Learning Points

  • Gain practical experience building batch data pipelines on GCP
  • Learn how to use Cloud Dataflow, Cloud Storage, and other GCP tools
  • Understand best practices for testing and deploying data pipelines

Related Topics for further study


Learning Outcomes

  • Build, test, and deploy batch data pipelines on GCP
  • Use Cloud Dataflow and Cloud Storage to process and store data
  • Understand best practices for testing and deploying data pipelines

Prerequisites or good to have knowledge before taking this course

  • Basic understanding of programming concepts
  • Familiarity with GCP services such as Cloud Storage and BigQuery

Course Difficulty Level

Intermediate

Course Format

  • Video lectures
  • Hands-on exercises
  • Quizzes

Similar Courses

  • Data Engineering on Google Cloud Platform
  • Google Cloud Platform Big Data and Machine Learning Fundamentals

Related Education Paths


Notable People in This Field

  • CEO of Google

Related Books

Description

データ パイプラインは通常、Extract-Load(抽出、読み込み)、Extract-Load-Transform(抽出、読み込み、変換)、Extract-Transform-Load(抽出、変換、読み込み)のいずれかの方式に分類されます。このコースでは、どの方式をどのような場合にバッチデータに対して使用すべきかを説明します。また、Google Cloud Platform 上のデータ変換技術(BigQuery など)、Cloud Dataproc での Spark の実行、Cloud Data Fusion でのパイプライン グラフ、Cloud Dataflow によるサーバーレスのデータ処理についても取り上げます。Qwiklabs を使用して、Google Cloud Platform でデータ パイプライン コンポーネントを実際に構築できます。

Outline

  • はじめに
  • コース概要
  • Google Cloud Platform と Qwiklabs の使用方法
  • バッチデータ パイプラインの概要
  • EL、ELT、ETL
  • 品質に関する考慮事項
  • BigQuery でオペレーションを実行する方法
  • 制限事項
  • ETL によるデータ品質問題への対処
  • EL、ELT、ETL
  • Cloud Dataproc での Spark の実行
  • Hadoop エコシステム
  • Cloud Dataproc での Hadoop の実行
  • HDFS の代わりに GCS を使用する
  • Dataproc の最適化
  • Dataproc ストレージの最適化
  • Dataproc のテンプレートと自動スケーリングの最適化
  • Dataproc のモニタリングの最適化
  • ラボの概要: Cloud Dataproc で Apache Spark ジョブを実行する
  • まとめ
  • Cloud Dataproc での Spark の実行
  • Cloud Data Fusion と Cloud Composer によるデータ パイプライン管理
  • 概要
  • Data Fusion のコンポーネント
  • パイプラインの構築
  • Wrangler を使用したデータの調査
  • ラボ: Cloud Data Fusion でパイプライン グラフを構築し実行する
  • Cloud Composer を使用した GCP サービス間での処理のオーケストレーション
  • Apache Airflow 環境
  • DAG と演算子
  • ワークフローのスケジュール設定
  • モニタリングとロギング
  • ラボ: Cloud Composer の概要
  • Cloud Data Fusion と Cloud Composer
  • Cloud Dataflow によるサーバーレスのデータ処理
  • Cloud Dataflow
  • Dataflow が評価される理由
  • Cloud Dataflow パイプライン構築のコード例
  • パイプラインの設計に関する主な考慮事項
  • PTransforms によるデータの変換
  • ラボ: シンプルな Dataflow パイプラインを構築する
  • GroupByKey と Combine を使用した集約
  • ラボ: Cloud Dataflow での MapReduce
  • 副入力とデータのウィンドウ
  • ラボ: パイプラインへの副入力を作成する
  • パイプライン テンプレートの作成と再利用
  • Cloud Dataflow SQL パイプライン
  • Cloud Dataflow によるデータ処理
  • まとめ
  • コースのまとめ

Summary of User Reviews

The Batch Data Pipelines on GCP course is highly recommended by many users. The course covers a wide range of topics, from data pipelines to Big Data technologies. One key aspect that many users thought was good is the hands-on experience gained through the labs and assignments. This provides a practical approach to learning that many users found very helpful.

Pros from User Reviews

  • High-quality content
  • Well-structured course
  • Hands-on experience through labs and assignments
  • In-depth coverage of Big Data technologies

Cons from User Reviews

  • Some users found the course challenging
  • Limited interaction with instructors
  • Some users felt that more emphasis could have been placed on certain topics
Japanese
Available now
Approx. 13 hours to complete
Google Cloud Training
Google Cloud
Coursera
Share
Saved Course list
Cancel
Get Course Update
Computer Courses