Au Bryan
メンバー加入日: 2024
ダイヤモンド リーグ
33975 ポイント
メンバー加入日: 2024
Dataflow シリーズの最後のコースでは、Dataflow 運用モデルのコンポーネントを紹介します。パイプラインのパフォーマンスのトラブルシューティングと最適化に役立つツールと手法を検証した後で、Dataflow パイプラインのテスト、デプロイ、信頼性に関するベスト プラクティスについて確認します。最後に、数百人のユーザーがいる組織に対して Dataflow パイプラインを簡単に拡張するためのテンプレートについても確認します。これらの内容を習得することで、データ プラットフォームの安定性を保ち、予期せぬ状況に対する回復力を確保できるようになります。
Dataflow コースシリーズの 2 回目である今回は、Beam SDK を使用したパイプラインの開発について詳しく説明します。まず、Apache Beam のコンセプトについて復習します。次に、ウィンドウ、ウォーターマーク、トリガーを使用したストリーミング データの処理について説明します。さらに、パイプラインのソースとシンクのオプション、構造化データを表現するためのスキーマ、State API と Timer API を使用してステートフル変換を行う方法について説明します。続いて、パイプラインのパフォーマンスを最大化するためのベスト プラクティスを再確認します。コースの終盤では、Beam でビジネス ロジックを表現するための SQL と DataFrame、および Beam ノートブックを使用してパイプラインを反復的に開発する方法を説明します。
このコースは、Dataflow を使用したサーバーレスのデータ処理に関する 3 コースシリーズのパート 1 です。この最初のコースでは、始めに Apache Beam とは何か、そして Dataflow とどのように関係しているかを復習します。次に、Apache Beam のビジョンと Beam Portability フレームワークの利点について説明します。Beam Portability フレームワークによって、デベロッパーが好みのプログラミング言語と実行バックエンドを使用できるビジョンが実現します。続いて、Dataflow によってどのように費用を節約しながらコンピューティングとストレージを分離できるか、そして識別ツール、アクセスツール、管理ツールがどのように Dataflow パイプラインと相互に機能するかを紹介します。最後に、Dataflow でそれぞれのユースケースに合った適切なセキュリティ モデルを実装する方法について学習します。
ML をデータ パイプラインに組み込むと、データから分析情報を抽出する能力を向上できます。このコースでは、Google Cloud でデータ パイプラインに ML を含める複数の方法について説明します。カスタマイズがほとんど、またはまったく必要ない場合のために、このコースでは AutoML について説明します。よりカスタマイズされた ML 機能については、Notebooks と BigQuery の機械学習(BigQuery ML)を紹介します。また、Vertex AI を使用して ML ソリューションを本番環境に導入する方法も説明します。
このコースでは、ストリーミング データ パイプラインの構築時に直面する実際の問題を解決するために、実践的な演習を行います。ポイントは、Google Cloud プロダクトを使用して、絶えず流れ続けるデータを効果的に管理することです。
この中級コースでは、Google Cloud で堅牢なバッチデータ パイプラインを設計、構築、最適化する方法を学習します。基本的なデータ処理から一歩進んで、大規模なデータ変換と効率的なワークフロー オーケストレーションを確認します。この内容は、タイムリーなビジネス インテリジェンスと重要なレポートの作成に不可欠です。 実装に Apache Beam 用の Dataflow と Apache Spark 向け Serverless(Dataproc Serverless)を使用する実践的な演習を行い、パイプラインの信頼性の確保と効果的な運用を実現するために、データの品質、モニタリング、アラートに関する重要な考慮事項に対処します。データ ウェアハウジング、ETL / ELT、SQL、Python、Google Cloud のコンセプトに関する基本的な知識があることが推奨されます。
データレイクとデータ ウェアハウスを使用する従来のアプローチは効果的ですが、特に大規模な企業環境においては欠点があります。このコースでは、データ レイクハウスのコンセプトと、データ レイクハウスの作成に使用する Google Cloud プロダクトについて説明します。レイクハウス アーキテクチャは、オープン スタンダードのデータソースを使用し、データレイクとデータ ウェアハウスの優れた機能を組み合わせて、両者の欠点の多くに対処します。
このコースでは、データから AI へのライフサイクルをサポートする Google Cloud のビッグデータと ML のプロダクトやサービスを紹介します。また、Google Cloud で Vertex AI を使用してビッグデータ パイプラインと ML モデルを作成する際のプロセス、課題、メリットについて説明します。
このコースでは、Professional Data Engineer(PDE)認定資格試験に向けた学習計画を作成できます。学習者は、試験の範囲を把握できます。また、試験への準備状況を把握して、個々の学習計画を作成します。
このコースでは、Looker における高度な LookML の概念を 実践的に学びます。Liquid を使用して動的なディメンションやメジャーをカスタマイズ、作成する方法、 動的 SQL 派生テーブルやカスタマイズされたネイティブ派生テーブルの作成方法、 さらに extends を使って LookML コードをモジュール化する方法を習得します。
In this quest, you will get hands-on experience with LookML in Looker. You will learn how to write LookML code to create new dimensions and measures, create derived tables and join them to Explores, filter Explores, and define caching policies in LookML.
「Looker での LookML オブジェクトの構築」スキルバッジを獲得できる入門コース を修了すると、 新しいディメンション、メジャー、ビュー、派生テーブルの構築、要件に基づくメジャー フィルタとメジャー タイプの設定、 ディメンションとメジャーの更新、 Explore の構築と改良、ビューと既存の Explore との結合、 ビジネス要件に基づいて作成すべき LookML オブジェクトの決定に関するスキルがあることを証明できます。
「Looker ダッシュボードとレポート用にデータを準備する」スキルバッジを獲得できる入門コースを修了すると、 データのフィルタ、並べ替え、ピボット、異なる Looker Explore から取得した結果の統合、 関数と演算子を使用してデータを分析し可視化するための Looker ダッシュボードとレポートの作成に関するスキルを実証できます。
このコースを受講すると、スケーラブルでパフォーマンスの高い LookML(Looker モデリング言語)モデルを開発し、ビジネス ユーザーの疑問解決に役立つ標準化されたすぐに使えるデータを提供できるようになります。このコースの修了時には、組織の Looker インスタンスでデータをキュレートして管理するための LookML モデルの構築と維持が可能になります。
このコースでは、これまで主に SQL のデベロッパーやアナリストが行っていたようなデータの探索や分析を Looker で実施する方法について学びます。このコースを修了すると、Looker の最新の分析プラットフォームを活用して、組織の Looker インスタンスにおける関連性の高いコンテンツの検索と探索、データに関する問い合わせ、必要に応じた新しい指標の作成、データドリブンな意思決定を促進するためのビジュアリゼーションとダッシュボードの作成や共有を行えるようになります。
この初級コースでは、Google Cloud のデータ分析ワークフローについてと、データを探索、分析、可視化し、得られた情報をステークホルダーと共有するために使用できるツールについて学びます。ケーススタディを取り上げながら、ハンズオンラボ、講義、理解度チェック、デモを通じて、元データセットをクリーンなデータに、さらには効果的な可視化やダッシュボードに生まれ変わらせる方法を示します。このコースは、Google Cloud で成果を上げる方法を知りたいと思っているデータ実務担当者にも、さらなるキャリアアップを目指している方にも、専門知識を深める入口として最適な内容になっています。データ分析業務を実際に行っている、あるいはデータ分析を利用している大多数の人に有益です。