Selmi Ayoub
メンバー加入日: 2024
ゴールドリーグ
18545 ポイント
メンバー加入日: 2024
中級コース「BigQuery で予測データ分析を行う」を修了してスキルバッジを取得すると、 CSV ファイルや JSON ファイルをインポートして BigQuery にデータセットを作成し、 BigQuery の高度な SQL 分析機能を活用してデータを分析するスキルを身につけていることを示せます。たとえば、BigQuery ML を使って サッカーの試合イベント データをもとに予想得点モデルをトレーニングし、ワールドカップで決まったそれぞれのゴールがどれほど「予想外ですごかった」かを評価することなどが可能になります。
このコースは、Dataflow を使用したサーバーレスのデータ処理に関する 3 コースシリーズのパート 1 です。この最初のコースでは、始めに Apache Beam とは何か、そして Dataflow とどのように関係しているかを復習します。次に、Apache Beam のビジョンと Beam Portability フレームワークの利点について説明します。Beam Portability フレームワークによって、デベロッパーが好みのプログラミング言語と実行バックエンドを使用できるビジョンが実現します。続いて、Dataflow によってどのように費用を節約しながらコンピューティングとストレージを分離できるか、そして識別ツール、アクセスツール、管理ツールがどのように Dataflow パイプラインと相互に機能するかを紹介します。最後に、Dataflow でそれぞれのユースケースに合った適切なセキュリティ モデルを実装する方法について学習します。
「Google Cloud の ML API 用にデータを準備」コースの入門スキルバッジを獲得できるアクティビティを修了すると、 Dataprep by Trifacta を使用したデータのクリーニング、Dataflow でのデータ パイプラインの実行、Dataproc でのクラスタの作成と Apache Spark ジョブの実行、 Cloud Natural Language API、Google Cloud Speech-to-Text API、Video Intelligence API などの ML API の呼び出しに関するスキルを証明できます。
「BigQuery ML を使用した予測モデリング向けのデータ エンジニアリング」のスキルバッジを獲得できる中級コースを修了すると、 Dataprep by Trifacta を使用した BigQuery へのデータ変換パイプラインの構築、 Cloud Storage、Dataflow、BigQuery を使用した抽出、変換、読み込み(ETL)ワークフローの構築、 BigQuery ML を使用した ML モデルの構築に関するスキルを実証できます。
「ストリーミング分析を BigQuery に読み込む」 スキルバッジ コースを修了してスキルバッジを獲得し、ストリーミングで Pub/Sub、Dataflow、BigQuery を組み合わせて 分析のためにデータをストリーミングしましょう。
「Google データクラウドを使用してデータを共有する」スキルバッジ コースを修了して、スキルバッジを獲得しましょう。 このコースでは、Google Cloud の データ共有パートナーに関する実践的な経験を積むことができます。これらのパートナーは、顧客が分析ユースケースで活用できる独自のデータセットを 保有しています。顧客は、このデータをサブスクライブし、自身のプラットフォーム内で クエリを実行し、それを独自のデータセットで拡張して、 可視化ツールを使用して顧客向けのダッシュボードを作成します。
「BigQuery でデータ ウェアハウスを構築する」スキルバッジを獲得できる中級コースを修了すると、 データの結合による新しいテーブルの作成、結合のトラブルシューティング、UNION を使用したデータの連結、日付パーティション分割テーブルの作成、 BigQuery での JSON、配列、構造体の操作に関するスキルを証明できます。
「BigQuery のデータから分析情報を引き出す」の入門スキルバッジを獲得すると、 SQL クエリの作成、一般公開テーブルに対するクエリの実行、BigQuery へのサンプルデータの読み込み、BigQuery でのクエリ バリデータを使用した一般的な構文エラーのトラブルシューティング、 BigQuery データへの接続による Looker Studio でのレポート作成といったスキルを実証できます。
この中級コースでは、Google Cloud で堅牢なバッチデータ パイプラインを設計、構築、最適化する方法を学習します。基本的なデータ処理から一歩進んで、大規模なデータ変換と効率的なワークフロー オーケストレーションを確認します。この内容は、タイムリーなビジネス インテリジェンスと重要なレポートの作成に不可欠です。 実装に Apache Beam 用の Dataflow と Apache Spark 向け Serverless(Dataproc Serverless)を使用する実践的な演習を行い、パイプラインの信頼性の確保と効果的な運用を実現するために、データの品質、モニタリング、アラートに関する重要な考慮事項に対処します。データ ウェアハウジング、ETL / ELT、SQL、Python、Google Cloud のコンセプトに関する基本的な知識があることが推奨されます。
データレイクとデータ ウェアハウスを使用する従来のアプローチは効果的ですが、特に大規模な企業環境においては欠点があります。このコースでは、データ レイクハウスのコンセプトと、データ レイクハウスの作成に使用する Google Cloud プロダクトについて説明します。レイクハウス アーキテクチャは、オープン スタンダードのデータソースを使用し、データレイクとデータ ウェアハウスの優れた機能を組み合わせて、両者の欠点の多くに対処します。
このコースでは、Professional Data Engineer(PDE)認定資格試験に向けた学習計画を作成できます。学習者は、試験の範囲を把握できます。また、試験への準備状況を把握して、個々の学習計画を作成します。