Pan Huang
メンバー加入日: 2023
メンバー加入日: 2023
このコースでは、Google Cloud で最先端の ML パイプラインに携わっている ML エンジニアおよびトレーナーたちから知識を吸収することができます。 最初のいくつかのモジュールで、ML パイプラインとメタデータの管理用 TensorFlow を基盤とする Google の本番環境向け機械学習プラットフォーム TensorFlow Extended(TFX)について説明します。パイプラインのコンポーネントについて、そして TFX を使用したパイプラインのオーケストレーションについて学習します。また、継続的インテグレーションと継続的デプロイを通じたパイプラインの自動化の方法と、ML メタデータの管理方法についても学習します。その後、焦点を変えて、TensorFlow、PyTorch、Scikit Learn、XGBoost などの複数の ML フレームワーク全体にわたる ML パイプラインの自動化と再利用の方法について説明します。 さらに、Google Cloud のもう 1 つのツール、Cloud Composer を継続的なトレーニング パイプラインのオーケストレーションに活用する方法についても学習します。最後は、MLflow を使用して機械学習の完全なライフサイクルを管理する方法の解説で締めくくります。
このコースでは、ML ワークフローに対する実践的なアプローチを取り上げます。具体的には、いくつかの ML のビジネス要件とユースケースに取り組む ML チームをケーススタディ形式で紹介します。このチームは、データ マネジメントとガバナンスに必要なツールを理解し、データの前処理に最適なアプローチを検討する必要があります。 2 つのユースケースに対して ML モデルを構築するための 3 つのオプションがチームに提示されます。このコースでは、チームの目標を達成するために、AutoML、BigQuery ML、カスタム トレーニングを使用する理由について説明します。
このコースでは、Google Cloud 上で本番環境の ML システムをデプロイ、評価、モニタリング、運用するための MLOps ツールとベスト プラクティスについて説明します。MLOps は、本番環境 ML システムのデプロイ、テスト、モニタリング、自動化に重点を置いた規範です。機械学習エンジニアリングの担当者は、ツールを活用して、デプロイしたモデルの継続的な改善と評価を行います。また、データ サイエンティストと協力して、あるいは自らがデータ サイエンティストとして、最も効果的なモデルを迅速かつ正確にデプロイできるようモデルを開発します。
このコースでは、本番環境で高パフォーマンスな ML システムを構築するためのコンポーネントとベスト プラクティスについて学習します。また、ML システムを構築するうえで最も一般的な考慮事項を紹介します。これには、静的トレーニング、動的トレーニング、静的な推論、動的な推論、分散型 TensorFlow、TPU などが含まれます。このコースでは、優れた予測能力にとどまらない、優れた ML システムの特性を探索することに焦点を当てています。
このコースでは、Vertex AI Feature Store を使用するメリット、ML モデルの精度を向上させる方法、最も有効な特徴を抽出できるデータ列の見極め方について説明します。また、BigQuery ML、Keras、TensorFlow を使用した特徴量エンジニアリングに関するコンテンツとラボも用意されています。
このコースでは、TensorFlow と Keras を使用した ML モデルの構築、ML モデルの精度の向上、スケーリングに対応した ML モデルの作成について取り上げます。
このコースでは、まず、データ品質を向上させる方法や探索的データ分析を行う方法など、データについての議論から始めます。Vertex AI AutoML について確認し、コードを一切記述せずに ML モデルを構築、トレーニング、デプロイする方法を説明します。また、BigQuery ML のメリットを確認します。その後、ML モデルを最適化する方法、一般化とサンプリングを活用してカスタム トレーニング向けに ML モデルの品質を評価する方法を説明します。
Google Cloud で機械学習を実装する際のベスト プラクティスには何があるでしょうか。Vertex AI とは何であり、このプラットフォームを使用してコードを 1 行も記述せずに AutoML 機械学習モデルを迅速に構築、トレーニング、デプロイするにはどうすればよいでしょうか。機械学習とはどのようなもので、どのような問題の解決に役立つのでしょうか。 Google では機械学習について独自の視点で考えています。マネージド データセット、特徴量ストア、そしてコードを 1 行も記述せずに迅速に機械学習モデルを構築、トレーニング、デプロイする手段を 1 つにまとめた統合プラットフォームを提供するとともに、データにラベル付けし、TensorFlow、SciKit Learn、Pytorch、R やその他のフレームワークを使用して Workbench ノートブックを作成できるようにすることが、Google の考える機械学習の在り方です。Google の Vertex AI プラットフォームでは、カスタムモデルをトレーニングしたり、コンポーネント パイプラインを構築したりすることもできます。さらに、オンライン予測とバッチ予測の両方を実施できます。このコースでは、候補となるユースケースを機械学習で学習できる形に変換する 5 つのフェーズについても説明し、これらのフェーズを省略しないことが重要である理由について論じます。最後に、機械学習によって増幅される可能性のあるバイアスの認識と、それを識別する方法について説明します。
Dataflow シリーズの最後のコースでは、Dataflow 運用モデルのコンポーネントを紹介します。パイプラインのパフォーマンスのトラブルシューティングと最適化に役立つツールと手法を検証した後で、Dataflow パイプラインのテスト、デプロイ、信頼性に関するベスト プラクティスについて確認します。最後に、数百人のユーザーがいる組織に対して Dataflow パイプラインを簡単に拡張するためのテンプレートについても確認します。これらの内容を習得することで、データ プラットフォームの安定性を保ち、予期せぬ状況に対する回復力を確保できるようになります。
Dataflow コースシリーズの 2 回目である今回は、Beam SDK を使用したパイプラインの開発について詳しく説明します。まず、Apache Beam のコンセプトについて復習します。次に、ウィンドウ、ウォーターマーク、トリガーを使用したストリーミング データの処理について説明します。さらに、パイプラインのソースとシンクのオプション、構造化データを表現するためのスキーマ、State API と Timer API を使用してステートフル変換を行う方法について説明します。続いて、パイプラインのパフォーマンスを最大化するためのベスト プラクティスを再確認します。コースの終盤では、Beam でビジネス ロジックを表現するための SQL と DataFrame、および Beam ノートブックを使用してパイプラインを反復的に開発する方法を説明します。
このコースは、Dataflow を使用したサーバーレスのデータ処理に関する 3 コースシリーズのパート 1 です。この最初のコースでは、始めに Apache Beam とは何か、そして Dataflow とどのように関係しているかを復習します。次に、Apache Beam のビジョンと Beam Portability フレームワークの利点について説明します。Beam Portability フレームワークによって、デベロッパーが好みのプログラミング言語と実行バックエンドを使用できるビジョンが実現します。続いて、Dataflow によってどのように費用を節約しながらコンピューティングとストレージを分離できるか、そして識別ツール、アクセスツール、管理ツールがどのように Dataflow パイプラインと相互に機能するかを紹介します。最後に、Dataflow でそれぞれのユースケースに合った適切なセキュリティ モデルを実装する方法について学習します。
ML をデータ パイプラインに組み込むと、データから分析情報を抽出する能力を向上できます。このコースでは、Google Cloud でデータ パイプラインに ML を含める複数の方法について説明します。カスタマイズがほとんど、またはまったく必要ない場合のために、このコースでは AutoML について説明します。よりカスタマイズされた ML 機能については、Notebooks と BigQuery の機械学習(BigQuery ML)を紹介します。また、Vertex AI を使用して ML ソリューションを本番環境に導入する方法も説明します。
このコースでは、ストリーミング データ パイプラインの構築時に直面する実際の問題を解決するために、実践的な演習を行います。ポイントは、Google Cloud プロダクトを使用して、絶えず流れ続けるデータを効果的に管理することです。
この中級コースでは、Google Cloud で堅牢なバッチデータ パイプラインを設計、構築、最適化する方法を学習します。基本的なデータ処理から一歩進んで、大規模なデータ変換と効率的なワークフロー オーケストレーションを確認します。この内容は、タイムリーなビジネス インテリジェンスと重要なレポートの作成に不可欠です。 実装に Apache Beam 用の Dataflow と Apache Spark 向け Serverless(Dataproc Serverless)を使用する実践的な演習を行い、パイプラインの信頼性の確保と効果的な運用を実現するために、データの品質、モニタリング、アラートに関する重要な考慮事項に対処します。データ ウェアハウジング、ETL / ELT、SQL、Python、Google Cloud のコンセプトに関する基本的な知識があることが推奨されます。
データレイクとデータ ウェアハウスを使用する従来のアプローチは効果的ですが、特に大規模な企業環境においては欠点があります。このコースでは、データ レイクハウスのコンセプトと、データ レイクハウスの作成に使用する Google Cloud プロダクトについて説明します。レイクハウス アーキテクチャは、オープン スタンダードのデータソースを使用し、データレイクとデータ ウェアハウスの優れた機能を組み合わせて、両者の欠点の多くに対処します。
このコースでは、データから AI へのライフサイクルをサポートする Google Cloud のビッグデータと ML のプロダクトやサービスを紹介します。また、Google Cloud で Vertex AI を使用してビッグデータ パイプラインと ML モデルを作成する際のプロセス、課題、メリットについて説明します。
このコースでは、Professional Data Engineer(PDE)認定資格試験に向けた学習計画を作成できます。学習者は、試験の範囲を把握できます。また、試験への準備状況を把握して、個々の学習計画を作成します。
このコースでは、生成 AI モデルとのやりとり、ビジネス アイデアのプロトタイプ作成、本番環境へのリリースを行うツールである Vertex AI Studio をご紹介します。現実感のあるユースケースや、興味深い講義、ハンズオンラボを通して、プロンプトの作成から成果の実現に至るまでのライフサイクルを詳細に学び、Gemini マルチモーダル アプリケーションの開発、プロンプトの設計、モデルのチューニングに Vertex AI を活用する方法を学習します。Vertex AI Studio を利用することで、生成 AI をプロジェクトに最大限に活かせるようになることを目指します。
「Introduction to Generative AI」、「Introduction to Large Language Models」、「Introduction to Responsible AI」の各コースを修了すると、スキルバッジを獲得できます。最終テストに合格することで、ジェネレーティブ AI の基礎概念を理解していることが証明されます。 スキルバッジは、Google Cloud のプロダクトとサービスに関する知識を認定するために Google Cloud が発行するデジタルバッジです。スキルバッジは、ソーシャル メディアの公開プロフィールを作成してそこに追加することで一般向けに共有できます。
この入門レベルのマイクロラーニング コースでは、責任ある AI の概要と重要性、および Google が責任ある AI を自社プロダクトにどのように実装しているのかについて説明します。また、Google の AI に関する 7 つの原則についても説明します。
このコースでは、機械翻訳、テキスト要約、質問応答などのシーケンス ツー シーケンス タスクに対応する、強力かつ広く使用されている ML アーキテクチャである Encoder-Decoder アーキテクチャの概要を説明します。Encoder-Decoder アーキテクチャの主要なコンポーネントと、これらのモデルをトレーニングして提供する方法について学習します。対応するラボのチュートリアルでは、詩を生成するための Encoder-Decoder アーキテクチャの簡単な実装を、TensorFlow で最初からコーディングします。
このコースでは、ディープ ラーニングを使用して画像キャプション生成モデルを作成する方法について学習します。エンコーダやデコーダなどの画像キャプション生成モデルのさまざまなコンポーネントと、モデルをトレーニングして評価する方法を学びます。このコースを修了すると、独自の画像キャプション生成モデルを作成し、それを使用して画像のキャプションを生成できるようになります。
このコースでは拡散モデルについて説明します。拡散モデルは ML モデル ファミリーの一つで、最近、画像生成分野での有望性が示されました。拡散モデルは物理学、特に熱力学からインスピレーションを得ています。ここ数年、拡散モデルは研究と産業界の両方で広まりました。拡散モデルは、Google Cloud の最先端の画像生成モデルやツールの多くを支える技術です。このコースでは、拡散モデルの背景にある理論と、モデルを Vertex AI でトレーニングしてデプロイする方法について説明します。
このコースでは、Transformer アーキテクチャと Bidirectional Encoder Representations from Transformers(BERT)モデルの概要について説明します。セルフアテンション機構をはじめとする Transformer アーキテクチャの主要コンポーネントと、それが BERT モデルの構築にどのように使用されているのかについて学習します。さらに、テキスト分類、質問応答、自然言語推論など、BERT を適用可能なその他のタスクについても学習します。このコースの推定所要時間は約 45 分です。
このコースでは、アテンション機構について学習します。アテンション機構とは、ニューラル ネットワークに入力配列の重要な部分を認識させるための高度な技術です。アテンションの仕組みと、アテンションを活用して機械翻訳、テキスト要約、質問応答といったさまざまな ML タスクのパフォーマンスを改善する方法を説明します。
このコースは、大規模言語モデル(LLM)とは何か、どのようなユースケースで活用できるのか、プロンプトのチューニングで LLM のパフォーマンスを高めるにはどうすればよいかについて学習する、入門レベルのマイクロ ラーニング コースです。独自の生成 AI アプリを開発する際に利用できる Google ツールも紹介します。
この入門レベルのマイクロラーニング コースでは、生成 AI の概要、利用方法、従来の機械学習の手法との違いについて説明します。独自の生成 AI アプリを作成する際に利用できる Google ツールも紹介します。