700 以上のラボとコースにアクセス

Vertex AI: マネージドデータセットを使用したカスタムトレーニングジョブと予測

ラボ 2時間 universal_currency_alt クレジット: 5 show_chart 上級

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

概要
設定
タスク 1. 環境の設定
タスク 2. データセットの作成
タスク 3. Workbench を使用したカスタムトレーニングパッケージ
タスク 4. モデルのトレーニング
タスク 5. モデルの評価
タスク 6. モデルのデプロイ
タスク 7. モデルの予測
タスク 8. クリーンアップ
ラボを終了する

700 以上のラボとコースにアクセス

概要

このラボでは、Vertex AI を使用して ML モデルのトレーニングとデプロイを行うことができます。ML を十分に理解している方を対象としていますが、このトレーニング用の ML のコードは用意されています。作成および管理を行うデータセットと、Scikit-learn モデルをトレーニングするためのカスタムモデルを使用します。最後に、トレーニングしたモデルをデプロイし、オンライン予測を取得します。このデモで使用するデータセットは、タイタニックデータセット（タイタニック号の乗客者の生存状況に関するデータセット）です。

目標

表形式データ用のデータセットを作成する。
Notebooks を使用して、カスタムコードを含むトレーニングパッケージを作成する。
トレーニングしたモデルをデプロイし、オンライン予測を取得する。

設定

各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。

Qwiklabs にシークレットウィンドウでログインします。
ラボのアクセス時間（例: 1:15:00）に注意し、時間内に完了できるようにしてください。
一時停止機能はありません。必要な場合はやり直せますが、最初からになります。
準備ができたら、[ラボを開始] をクリックします。
ラボの認証情報（ユーザー名とパスワード）をメモしておきます。この情報は、Google Cloud Console にログインする際に使用します。
[Google Console を開く] をクリックします。
[別のアカウントを使用] をクリックし、このラボの認証情報をコピーしてプロンプトに貼り付けます。
他の認証情報を使用すると、エラーが発生したり、料金の請求が発生したりします。
利用規約に同意し、再設定用のリソースページをスキップします。

タスク 1. 環境の設定

Vertex AI API を有効にする

Cloud コンソールの [Vertex AI] セクションに移動し、[すべての推奨 AI API を有効にする] をクリックします。

データセットを作成する

BigQuery データセットを作成するには、Google Cloud コンソールの BigQuery に移動します。
コンソールページの上部で、正しいプロジェクトが選択されていることを確認します。
エクスプローラ パネルで、プロジェクト ID の横に表示される [アクションを表示]（）をクリックし、[データセットを作成] を選択します。

ポップアップが表示されます。

[データセット ID] に「titanic」、[データのロケーション] > [リージョン] に「」と入力し、[データセットを作成] をクリックします。

これでデータセットの作成が完了しました。

テーブルを作成する

データを読み込むにはテーブルが必要です。

まず、タイタニックデータセットをローカルにダウンロードします。

注: シークレットモードでダウンロードできない場合は、通常のウィンドウを使って Titanic dataset（タイタニックデータセット）をダウンロードしてください。

ダウンロードしたデータセットの名前を titanic_toy.csv に変更します。

その後、UI で次の操作を行います。

前のステップで作成した titanic データセットを開きます（データセットの横のアクションを表示（）をクリックし、[開く] を選択します）。
[テーブルを作成] をクリックし、以下を指定します。
- テーブルの作成元: アップロード
- ファイルを選択: ダウンロードしたタイタニックデータセットを使用する
- ファイル形式: CSV
- テーブル名: survivors
- 自動検出: [スキーマ] の [自動検出] チェックボックスをオンにする
[テーブルを作成] をクリックします。
survivors（生存者）の横にある「アクションを表示」アイコンをクリックし、[ID をコピー] を選択します。ラボで後から使用できるように、コピーしたテーブル ID を保存しておきます。

これで、テーブルの作成と、そのテーブルへのタイタニックデータセットの入力が完了し、テーブルの内容の参照、クエリの実行、データの分析を行えるようになりました。

タスク 2. データセットの作成

Vertex AI のデータセットを使用して、ML ワークロード用のデータセットを作成できます。構造化データ（CSV ファイルまたは BigQuery テーブル）用または非構造化データ（画像やテキストなど）用のデータセットを作成できます。Vertex AI のデータセットは元のデータを参照しているだけであり、データの複製が行われるわけではありませんので注意してください。

ML データセットを作成する

Google Cloud コンソールのナビゲーションメニューで、[Vertex AI] > [データセット] を選択します。

[] を選択して [作成] をクリックします。
データセットに名前を付けます（titanic など）。

画像、テキスト、動画、表形式データのデータセットを作成できます。

タイタニックデータセットは表形式なので、[表形式] タブをクリックします。
リージョンの選択で [] を選択し、[作成] をクリックします。

この段階ではプレースホルダが作成されただけです。データソースにはまだ接続されておらず、次のステップで接続を行います。

データソースを選択する

タイタニックデータセットはすでに BigQuery に読み込まれているため、ML データセットを BigQuery テーブルに接続できます。

[テーブルまたはビューを BigQuery から選択] をクリックします。
前の手順でコピーしたテーブル ID を [参照] フィールドに貼り付けます。
データセットを選択したら、[続行] をクリックします。

統計情報を生成する

[分析] タブで、データに関する統計情報を生成できます。これにより、データの概要の把握、分布や欠損値などの確認をすばやく行えます。

統計分析を実行するには、[統計情報を生成] をクリックします。実行には数分かかるため、ラボを続行して、しばらくしてから結果を確認しても結構です。

[分析] タブページに表示された統計情報

タスク 3. Workbench を使用したカスタムトレーニングパッケージ

移植可能なアセットになるように、コードはパッケージ化およびパラメータ化することをおすすめします。

このセクションでは、Vertex AI Workbench を使用して、カスタムコードでトレーニングパッケージを作成します。このサービスを使用する場合の基本的なステップは、Python ソース配布（配布パッケージ）を作成できるようにすることです。これは、配布パッケージ内にフォルダやファイルを作成する程度の処理です。次のセクションでは、パッケージの構造を説明します。

アプリケーションの構造

Python パッケージの基本的な構造は、次の図のようになります。

titanic-package アプリケーションの構造

これらのフォルダやファイルの役割を見ていきましょう。

titanic-package: 作業ディレクトリ。このフォルダ内に、タイタニック号生存者の分類器に関連するパッケージやコードを配置します。
setup.py: 配布パッケージのビルド方法を指定する設定ファイル。パッケージ名やバージョンに加え、トレーニングジョブに必要ではあるもののデフォルトでは GCP のビルド済みトレーニングコンテナに含まれていないその他のパッケージなどの情報が含まれます。
trainer: トレーニングコードが含まれるフォルダ。これは Python パッケージでもあります。フォルダ内に空の __init__.py ファイルが存在することでパッケージとなります。
__init__.py: __init__.py という名前の空のファイル。このファイルが存在するフォルダはパッケージとなります。
task.py: パッケージモジュール。ここがコードのエントリポイントとなります。また、モデルトレーニング用の CLI のパラメータもここで受け取ります。このモジュールにトレーニングコードを含めたり、パッケージ内に追加のモジュールを作成したりできます。これを実際に行うかどうかは、コードをどのような構造にするか次第で、自由に決めることができます。これで、構造について説明しました。なお、パッケージやモジュールの名前を「trainer」や「task.py」にする必要はありません。本ラボでこのような命名規則に従っているのは、オンラインドキュメントとの整合性を考慮してのことであり、実際には適切な名前を自由に設定できます。

ノートブックインスタンスを作成する

ここで、ノートブックインスタンスを作成し、カスタムモデルのトレーニングを行ってみましょう。

Google Cloud コンソールのナビゲーションメニューで、[Vertex AI] > [Workbench] をクリックします。
ノートブックインスタンスのページで [新規作成] をクリックし、[Python 3]（Scikit-learn を含む）を使用してインスタンスを開始します。分類器には Scikit-learn モデルを使用します。

ポップアップが表示されます。ここでは、ノートブックインスタンスが作成されるリージョンや必要な演算能力などの設定を変更できます。

今回は、大量のデータを処理するわけではなく、開発用にインスタンスが必要であるだけなので、どの設定も変更せずにそのまま [作成] をクリックします。

このインスタンスはわずか数分で稼働します。

インスタンスの準備ができたら、[Jupyterlab を開く] を選択します。
「Build Recommended」というポップアップが表示されたら、[Build] をクリックします。ビルドがエラーになった場合は無視してかまいません。

パッケージを作成する

ノートブックが稼働したので、トレーニングアセットの構築を開始できます。

このタスクはターミナルを使ったほうが簡単です。

ランチャーで [Terminal] をクリックして、新しいターミナルセッションを作成します。
ターミナルで、以下のコマンドを実行して、必要なファイルを含むフォルダ構造を作成します。
mkdir -p /home/jupyter/titanic/trainer touch /home/jupyter/titanic/setup.py /home/jupyter/titanic/trainer/__init__.py /home/jupyter/titanic/trainer/task.py
コマンドを実行したら、更新ボタンをクリックして、新たに作成されたフォルダとファイルを確認します。

追加ボタンとターミナルのアクションタイルがハイライト表示されているランチャー

以下のコードをコピーして titanic/trainer/task.py に貼り付けます。このコードにはコメントが含まれているので、少し時間をかけてファイルの内容に目を通すと理解が深まります。

from google.cloud import bigquery, bigquery_storage, storage from sklearn.pipeline import make_pipeline, Pipeline from sklearn.compose import ColumnTransformer from sklearn.preprocessing import StandardScaler, OneHotEncoder, OrdinalEncoder from sklearn.model_selection import cross_val_score from sklearn.svm import SVC from sklearn.metrics import classification_report, f1_score from typing import Union, List import os, logging, json, pickle, argparse import dask.dataframe as dd import pandas as pd import numpy as np # 特徴の選択。特徴のリストは、トレーニングデータのうちどの特徴量が必要であるか、また # これらの特徴の種類も定義している。その種類に応じて、異なる特徴量エンジニアリングを実施する。 # バイナリ特徴（0 / 1、True / False、Male / Female など）の列名すべてのリスト BINARY_FEATURES = [ 'sex'] # 数値特徴の列名すべてのリスト NUMERIC_FEATURES = [ 'age', 'fare'] # カテゴリ特徴の列名すべてのリスト CATEGORICAL_FEATURES = [ 'pclass', 'embarked', 'home_dest', 'parch', 'sibsp'] ALL_COLUMNS = BINARY_FEATURES+NUMERIC_FEATURES+CATEGORICAL_FEATURES # ラベルの列名を定義 LABEL = 'survived' # 各特徴のインデックス位置を定義。これは、列の名前を持たない # （pandas ではなく）numpy 配列を処理するために必要。 BINARY_FEATURES_IDX = list(range(0,len(BINARY_FEATURES))) NUMERIC_FEATURES_IDX = list(range(len(BINARY_FEATURES), len(BINARY_FEATURES)+len(NUMERIC_FEATURES))) CATEGORICAL_FEATURES_IDX = list(range(len(BINARY_FEATURES+NUMERIC_FEATURES), len(ALL_COLUMNS))) def load_data_from_gcs(data_gcs_path: str) -> pd.DataFrame: ''' Google Cloud Storage（GCS）から DataFrame にデータを読み込むパラメータ: data_gcs_path (str): データの場所を示す gs パス。ワイルドカードもサポートしている（gs://example_bucket/data/training-*.csv など）戻り値: pandas.DataFrame: GCP から読み込まれたデータを持つデータフレーム ''' # ワイルドカードをサポートしている Dask を使用して複数のファイルを読み取る。その後、dd.read_csv().compute によって pandas データフレームを作成する # また TotalCharges のいくつかの値が欠損していることが判明、これによってデータ型としての TotalCharges に関して混乱が生じる。 # この問題を解決するために TotalCharges をオブジェクトとして手動で定義する。 # この異常は後で修正 logging.info("reading gs data: {}".format(data_gcs_path)) return dd.read_csv(data_gcs_path, dtype={'TotalCharges': 'object'}).compute() def load_data_from_bq(bq_uri: str) -> pd.DataFrame: ''' BigQuery テーブル（BQ）からデータをデータフレームに読み込むパラメータ: bq_uri (str): bq テーブルの URI（example_project.example_dataset.example_table など）戻り値: pandas.DataFrame: GCP から読み込まれたデータを持つデータフレーム ''' if not bq_uri.startswith('bq://'): raise Exception("uri is not a BQ uri. It should be bq://project_id.dataset.table") logging.info("reading bq data: {}".format(bq_uri)) project,dataset,table = bq_uri.split(".") bqclient = bigquery.Client(project=project[5:]) bqstorageclient = bigquery_storage.BigQueryReadClient() query_string = """ SELECT * from {ds}.{tbl} """.format(ds=dataset, tbl=table) return ( bqclient.query(query_string) .result() .to_dataframe(bqstorage_client=bqstorageclient) ) def clean_missing_numerics(df: pd.DataFrame, numeric_columns): ''' 数値列内にある無効な値を削除するパラメータ: df (pandas.DataFrame): 変更する Pandas データフレーム numeric_columns (List[str]): データフレームに含まれている数値である列の名前のリスト戻り値: pandas.DataFrame: 数値の列が修正されたデータフレーム ''' for n in numeric_columns: df[n] = pd.to_numeric(df[n], errors='coerce') df = df.fillna(df.mean()) return df def data_selection(df: pd.DataFrame, selected_columns: List[str], label_column: str) -> (pd.DataFrame, pd.Series): ''' データフレームから選択した列だけで別の新しいデータフレームを作成して返す。さらに、ラベル列を分割して pandas Series に変換する。パラメータ: df (pandas.DataFrame): 列を削除してラベルを抽出するための Pandas データフレーム selected_columns (List[str]): 選択した列を表す文字列のリスト（['col_1', 'col_2', ..., 'col_n'] など） label_column (str): ラベル列の名前戻り値: tuple(pandas.DataFrame, pandas.Series): 選択した列だけを含む新しい pandas データフレームと pandas Series のラベルを持つタプル ''' # 予測ラベルを持つ系列を作成 labels = df[label_column].astype(int) data = df.loc[:, selected_columns] return data, labels def pipeline_builder(params_svm: dict, bin_ftr_idx: List[int], num_ftr_idx: List[int], cat_ftr_idx: List[int]) -> Pipeline: ''' 前処理とモデルの構成を含む sklearn パイプラインをビルドする。前処理の手順は次のとおり: * OrdinalEncoder - バイナリ特徴用 * StandardScaler - 数値特徴用 * OneHotEncoder - カテゴリ特徴用使用するモデルは SVC パラメータ: params_svm (dict): sklearn.svm.SVC 分類器のパラメータのリスト bin_ftr_idx (List[str]): バイナリ列に対する列インデックスを示す整数のリスト（[0, 2, ... , X ] など） num_ftr_idx (List[str]): 数値列に対する列インデックスを示す整数のリスト（[6, 3, ... , X ] など） cat_ftr_idx (List[str]): カテゴリ列に対する列インデックスを示す整数のリスト（[5, 10, ... , X ] など） label_column (str): ラベル列の名前戻り値: Pipeline: 前処理およびモデルトレーニングを含む sklearn.pipelines.Pipeline ''' # パイプラインでの前処理の手順を定義 # 特徴がどのように変換されるのかを指定 preprocessor = ColumnTransformer( transformers=[ ('bin', OrdinalEncoder(), bin_ftr_idx), ('num', StandardScaler(), num_ftr_idx), ('cat', OneHotEncoder(handle_unknown='ignore'), cat_ftr_idx)], n_jobs=-1) # 完全なパイプラインを作成（前処理およびトレーニング用） # トレーニングには線形 SVM 分類器を選択 clf = SVC() clf.set_params(**params_svm) return Pipeline(steps=[ ('preprocessor', preprocessor), ('classifier', clf)]) def train_pipeline(clf: Pipeline, X: Union[pd.DataFrame, np.ndarray], y: Union[pd.DataFrame, np.ndarray]) -> float: ''' トレーニングデータとラベルを当てはめて sklearn パイプをトレーニングし、精度の f1 スコアを返すパラメータ: clf (sklearn.pipelines.Pipeline): データに当てはめる Pipeline オブジェクト X: (pd.DataFrame OR np.ndarray): シェイプが n_samples x n_features のトレーニングベクトル（n_samples はサンプルの数、n_features は特徴の数） y: (pd.DataFrame OR np.ndarray): シェイプが n_samples のラベル。順序はトレーニングベクトル X と一致している必要がある戻り値: score (float): すべての交差検証の平均 F1 スコア ''' # 交差検証を実行してトレーニングスコアを取得する。このスコアはトレーニングの最適化に使用可能 score = cross_val_score(clf, X, y, cv=10, n_jobs=-1).mean() # すべてのデータを分類器に当てはめる clf.fit(X, y) return score def process_gcs_uri(uri: str) -> (str, str, str, str): ''' Google Cloud Storage（GCS）の URI を受け取り、スキーム、バケット、パス、ファイルに分割するパラメータ: uri (str): GCS の URI 戻り値: scheme (str): URI のスキーム bucket (str): URI のバケット path (str): URI のパス file (str): URI のファイル ''' url_arr = uri.split("/") if "." not in url_arr[-1]: file = "" else: file = url_arr.pop() scheme = url_arr[0] bucket = url_arr[2] path = "/".join(url_arr[3:]) path = path[:-1] if path.endswith("/") else path return scheme, bucket, path, file def pipeline_export_gcs(fitted_pipeline: Pipeline, model_dir: str) -> str: ''' トレーニングされたパイプラインを GCS にエクスポートするパラメータ: fitted_pipeline (sklearn.pipelines.Pipeline): すでにデータが当てはめられた Pipeline オブジェクト（トレーニング済みのパイプラインオブジェクト） model_dir (str): トレーニング済みパイプラインを保存する GCS パス（gs://example_bucket/training-job など）戻り値: export_path (str): モデルの GCS ロケーション ''' scheme, bucket, path, file = process_gcs_uri(model_dir) if scheme != "gs:": raise ValueError("URI scheme must be gs") # モデルを GCS にアップロード b = storage.Client().bucket(bucket) export_path = os.path.join(path, 'model.pkl') blob = b.blob(export_path) blob.upload_from_string(pickle.dumps(fitted_pipeline)) return scheme + "//" + os.path.join(bucket, export_path) def prepare_report(cv_score: float, model_params: dict, classification_report: str, columns: List[str], example_data: np.ndarray) -> str: ''' トレーニングレポートをテキストで用意するパラメータ: cv_score (float): トレーニングデータの交差検証中のトレーニングジョブのスコア model_params (dict): モデルのトレーニングに使用したパラメータが含まれている辞書 classification_report (str): モデルによるテストデータの分類レポート columns (List[str]): トレーニングで使用された列のリスト example_data (np.array): データのサンプル（2～3 行で十分）。モデルにとって予測ペイロードがどのように見えるかを記すために使用される戻り値: report (str): テキスト形式の完全なレポート ''' buffer_example_data = '[' for r in example_data: buffer_example_data+='[' for c in r: if(isinstance(c,str)): buffer_example_data+="'"+c+"', " else: buffer_example_data+=str(c)+", " buffer_example_data= buffer_example_data[:-2]+"], \n" buffer_example_data= buffer_example_data[:-3]+"]" report = """ トレーニングジョブレポート交差検証スコア: {cv_score} トレーニングモデルパラメータ: {model_params} テストデータ分類レポート: {classification_report} 予測用データ配列の例: 列の順序: {columns} clf.predict() の例: {predict_example} GCP API リクエスト本文の例: {{ "instances": {json_example} }} """.format( cv_score=cv_score, model_params=json.dumps(model_params), classification_report=classification_report, columns = columns, predict_example = buffer_example_data, json_example = json.dumps(example_data.tolist())) return report def report_export_gcs(report: str, report_dir: str) -> None: ''' トレーニングジョブレポートを GCS にエクスポートするパラメータ: report (str): GCS に送信するテキスト形式の完全なレポート report_dir (str): レポートモデルを保存する GCS パス（gs://example_bucket/training-job など）戻り値: export_path (str): レポートの GCS ロケーション ''' scheme, bucket, path, file = process_gcs_uri(report_dir) if scheme != "gs:": raise ValueError("URI scheme must be gs") # モデルを GCS にアップロード b = storage.Client().bucket(bucket) export_path = os.path.join(path, 'report.txt') blob = b.blob(export_path) blob.upload_from_string(report) return scheme + "//" + os.path.join(bucket, export_path) # トレーニングでモデルが受け取れるすべてのコマンドライン引数を定義 if __name__ == '__main__': parser = argparse.ArgumentParser() # 入力引数 parser.add_argument( '--model_param_kernel', help = 'SVC model parameter- kernel', choices=['linear', 'poly', 'rbf', 'sigmoid', 'precomputed'], type = str, default = 'linear' ) parser.add_argument( '--model_param_degree', help = 'SVC model parameter- Degree. Only applies for poly kernel', type = int, default = 3 ) parser.add_argument( '--model_param_C', help = 'SVC model parameter- C (regularization)', type = float, default = 1.0 ) parser.add_argument( '--model_param_probability', help = 'Whether to enable probability estimates', type = bool, default = True ) ''' Vertex AI は一連の環境変数を、トレーニングジョブを実行するコンテナ内に自動的に設定するそのような変数は次のとおり: * AIP_MODEL_DIR - モデルディレクトリとして選択されたディレクトリ * AIP_DATA_FORMAT - トレーニング用に選択されたデータセットの種類（csv または bigquery） Vertex AI は選択されたデータセットをトレーニング用、検証用、テスト用に自動的に分割するその他 3 つの環境変数がこれらのデータの場所を示している: * AIP_TRAINING_DATA_URI - トレーニングデータの URI * AIP_VALIDATION_DATA_URI - 検証データの URI * AIP_TEST_DATA_URI - テストデータの URI これらの環境変数はデフォルト値である。ユーザーが CLI 引数を使用して値を指定した場合、該当する環境変数は無視される。ユーザーが CLI 引数として何も指定しなかった場合、プログラムは環境変数（存在する場合）の使用を試みる。存在しなかった場合は空のままになる。 ''' parser.add_argument( '--model_dir', help = 'Directory to output model and artifacts', type = str, default = os.environ['AIP_MODEL_DIR'] if 'AIP_MODEL_DIR' in os.environ else "" ) parser.add_argument( '--data_format', choices=['csv', 'bigquery'], help = 'format of data uri csv for gs:// paths and bigquery for project.dataset.table formats', type = str, default = os.environ['AIP_DATA_FORMAT'] if 'AIP_DATA_FORMAT' in os.environ else "csv" ) parser.add_argument( '--training_data_uri', help = 'location of training data in either gs:// uri or bigquery uri', type = str, default = os.environ['AIP_TRAINING_DATA_URI'] if 'AIP_TRAINING_DATA_URI' in os.environ else "" ) parser.add_argument( '--validation_data_uri', help = 'location of validation data in either gs:// uri or bigquery uri', type = str, default = os.environ['AIP_VALIDATION_DATA_URI'] if 'AIP_VALIDATION_DATA_URI' in os.environ else "" ) parser.add_argument( '--test_data_uri', help = 'location of test data in either gs:// uri or bigquery uri', type = str, default = os.environ['AIP_TEST_DATA_URI'] if 'AIP_TEST_DATA_URI' in os.environ else "" ) parser.add_argument("-v", "--verbose", help="increase output verbosity", action="store_true") args = parser.parse_args() arguments = args.__dict__ if args.verbose: logging.basicConfig(level=logging.INFO) logging.info('Model artifacts will be exported here: {}'.format(arguments['model_dir'])) logging.info('Data format: {}'.format(arguments["data_format"])) logging.info('Training data uri: {}'.format(arguments['training_data_uri']) ) logging.info('Validation data uri: {}'.format(arguments['validation_data_uri'])) logging.info('Test data uri: {}'.format(arguments['test_data_uri'])) ''' データを pandas に読み込むには 2 種類の方法がある。1 つは Cloud Storage から csv ファイルを読み込む方法でもう 1 つは BigQuery に接続する方法。Vertex AI はどちらの方法もサポートしているが、ここでは提供されているデータセットに依存したコードを作成した。適切な読み込み方法を選択すること ''' logging.info('Loading {} data'.format(arguments["data_format"])) if(arguments['data_format']=='csv'): df_train = load_data_from_gcs(arguments['training_data_uri']) df_test = load_data_from_bq(arguments['test_data_uri']) df_valid = load_data_from_gcs(arguments['validation_data_uri']) elif(arguments['data_format']=='bigquery'): print(arguments['training_data_uri']) df_train = load_data_from_bq(arguments['training_data_uri']) df_test = load_data_from_bq(arguments['test_data_uri']) df_valid = load_data_from_bq(arguments['validation_data_uri']) else: raise ValueError("Invalid data type ") # ここでは交差検証を使用するので、トレーニングセットとテストセットを 1 つずつ用意 # 80% と 20% の比率になるようにテスト用と検証用を結合 df_test = pd.concat([df_test,df_valid]) logging.info('Defining model parameters') model_params = dict() model_params['kernel'] = arguments['model_param_kernel'] model_params['degree'] = arguments['model_param_degree'] model_params['C'] = arguments['model_param_C'] model_params['probability'] = arguments['model_param_probability'] df_train = clean_missing_numerics(df_train, NUMERIC_FEATURES) df_test = clean_missing_numerics(df_test, NUMERIC_FEATURES) logging.info('Running feature selection') X_train, y_train = data_selection(df_train, ALL_COLUMNS, LABEL) X_test, y_test = data_selection(df_test, ALL_COLUMNS, LABEL) logging.info('Training pipelines in CV') y_train = y_train.astype('int') y_test = y_test.astype('int') clf = pipeline_builder(model_params, BINARY_FEATURES_IDX, NUMERIC_FEATURES_IDX, CATEGORICAL_FEATURES_IDX) cv_score = train_pipeline(clf, X_train, y_train) logging.info('Export trained pipeline and report') pipeline_export_gcs(clf, arguments['model_dir']) y_pred = clf.predict(X_test) test_score = f1_score(y_test, y_pred, average='weighted') logging.info('f1score: '+ str(test_score)) report = prepare_report(cv_score, model_params, classification_report(y_test,y_pred), ALL_COLUMNS, X_test.to_numpy()[0:2]) report_export_gcs(report, arguments['model_dir']) logging.info('Training job completed. Exiting...')

Ctrl+S キーを押してファイルを保存します。

パッケージをビルドする

ここで、トレーニングサービスで使用できるようにパッケージをビルドします。

以下のコードをコピーして titanic/setup.py に貼り付けます。

from setuptools import find_packages from setuptools import setup REQUIRED_PACKAGES = [ 'gcsfs==0.7.1', 'dask[dataframe]==2021.2.0', 'google-cloud-bigquery-storage==1.0.0', 'six==1.15.0' ] setup( name='trainer', version='0.1', install_requires=REQUIRED_PACKAGES, packages=find_packages(), # このディレクトリまたは下位の階層でパッケージを自動的に探す include_package_data=True, # パッケージにデータファイルが含まれている場合、すべて一緒にパッケージ化される description='Classification training titanic survivors prediction model' )

Ctrl+S キーを押してファイルを保存します。
ターミナルに戻り、task.py を使用してモデルをトレーニングできるかどうかテストします。
まず、以下の環境変数を作成します。この際必ず、コンソールで正しい GCP プロジェクトが選択されていることを確認してください。
- PROJECT_ID: 選択されているプロジェクトの ID を設定
- BUCKET_NAME: PROJECT_ID の後に「-bucket」を付けたもの

export REGION="{{{project_0.default_region|Region}}}" export PROJECT_ID=$(gcloud config list --format 'value(core.project)') export BUCKET_NAME=$PROJECT_ID"-bucket"

トレーニング済みのモデルをエクスポートするバケットを作成します。
gsutil mb -l $REGION "gs://"$BUCKET_NAME

以下のコマンドを実行します。すべてのトレーニングデータをテストに使用します。テスト、検証、トレーニングに同じデータセットを使用します。ここで、コードが実行されること、バグがないことを確認する必要があります。実際には、使用するテストデータと検証データを別々のものにする必要があります。そのような処理は Vertex AI トレーニングサービスに任せることになります。

まず、必要なライブラリをインストールします。
cd /home/jupyter/titanic pip install setuptools python setup.py install

注: error: google-auth 2.3.3 is installed but google-auth<2.0dev,>=1.25.0 is required by {'google-api-core'} はラボの機能に影響を与えないため無視できます。

ここで、トレーニングコードを実行して、問題なく実行されることを確認します。
python -m trainer.task -v \ --model_param_kernel=linear \ --model_dir="gs://"$BUCKET_NAME"/titanic/trial" \ --data_format=bigquery \ --training_data_uri="bq://"$PROJECT_ID".titanic.survivors" \ --test_data_uri="bq://"$PROJECT_ID".titanic.survivors" \ --validation_data_uri="bq://"$PROJECT_ID".titanic.survivors"
コードが正しく実行された場合、出力された INFO ログを確認できます。F1 スコア（0.85 程度）を示す行と、トレーニングジョブが正しく完了したことを示す行の 2 行が表示されます。
INFO:root:f1score: 0.85 INFO:root:Training job completed. Exiting...
これで完了です。トレーニング用の Python パッケージを作成する準備が整いました。
これを実行するには、次のコマンドを実行します。
cd /home/jupyter/titanic python setup.py sdist
このコマンドを実行すると、tar.gz ファイルが 1 つ含まれている dist という新しいフォルダが表示されます。これが Python パッケージです。
このパッケージを GCS にコピーします。それにより、必要なときにトレーニングサービスでこれを使って新しいモデルをトレーニングできます。
gsutil cp dist/trainer-0.1.tar.gz "gs://"$BUCKET_NAME"/titanic/dist/trainer-0.1.tar.gz"

タスク 4. モデルのトレーニング

このセクションでは、Vertex AI でモデルのトレーニングを行います。GUI を使用して実施します。Python SDK を使ってこの処理をプログラムによって行うこともできますが、GUI を使ったほうが理解は深まります。

Google Cloud コンソールで、[Vertex AI] > [トレーニング] を選択します。
リージョンとして [] を選択します。
[新しいモデルのトレーニング] をクリックします。

トレーニング方法

このステップでは、データセットを選択し、トレーニングジョブの目標を定義します。

データセット: 少し前のステップで作成したデータセット。名前は titanic です。
目標: モデルにより、タイタニック号の悲劇に遭遇した個人が生存できたかどうかを予測します。これは分類問題です。
カスタムトレーニング: カスタムトレーニングパッケージを使用することになります。
[続行] をクリックします。

モデルの詳細

モデルの名前を定義します。

デフォルトの名前は、データセット名とタイムスタンプを組み合わせたものになります。これはそのままにします。

[詳細オプション] をクリックすると、トレーニング用、テスト用、検証用の各セットへのデータの分割を定義するオプションが表示されます。ランダム割り当てでは、データがトレーニング用、テスト用、検証用にランダムに分割されます。ここではこのオプションを使用します。
[続行] をクリックします。

トレーニングコンテナ

トレーニング環境を定義します。

ビルド済みコンテナ: Google Cloud には、モデルを簡単にトレーニングできるように複数のビルド済みコンテナが用意されています。このようなコンテナでは、Scikit-learn、TensorFlow、XGBoost などのフレームワークがサポートされています。トレーニングジョブで特殊なものを使用する場合は、トレーニング用のコンテナ（カスタムコンテナ）を準備し、提供する必要があります。使用するモデルは Scikit-learn に基づいたものであり、ビルド済みコンテナがすでに存在します。
モデルフレームワーク: Scikit-learn。モデルのトレーニングに使用したライブラリです。
モデルフレームワークのバージョン: コードはバージョン 0.23 に準拠しています。
パッケージの場所: トレーニングパッケージの場所をブラウジングできます。training-0.1.tar.gz をアップロードした場所になります。これまでの手順に正しく従っていた場合、この場所は gs://YOUR-BUCKET-NAME/titanic/dist/trainer-0.1.tar.gz になります。YOUR-BUCKET-NAME の部分には「パッケージをビルドする」セクションで使用したバケットの名前が入ります。
Python モジュール: Notebooks で作成した Python モジュールです。トレーニングコード / モジュールがあるフォルダとエントリファイルの名前に対応しています。trainer.task になります。
データをエクスポートするための BigQuery プロジェクト: ステップ 1 でデータセットを選択して自動分割を定義しました。選択したプロジェクトに、トレーニング / テスト / 検証セット用の新しいデータセットとテーブルが作成されます。
- ラボで実行しているのと同じプロジェクト ID を入力します。また、トレーニング / テスト / 検証用の各データセットの URI がトレーニングコンテナ内の環境変数として設定されます。そのため、データの読み込みでは、これらの変数を自動的に使用できます。各データセットの環境変数名は、AIP_TRAINING_DATA_URI、AIP_TEST_DATA_URI、AIP_VALIDATION_DATA_URI となります。追加の変数である AIP_DATA_FORMAT は、ステップ 1 で選択したデータセットの種類に応じて csv または bigquery となります。このロジックはすでに task.py に組み込まれています。この部分のサンプルコードを確認しておきましょう（task.py から抜粋）。

... parser.add_argument( '--training_data_uri ', help = 'Directory to output model and artifacts', type = str, default = os.environ['AIP_TRAINING_DATA_URI'] if 'AIP_TRAINING_DATA_URI' in os.environ else "" ) ...

モデル出力ディレクトリ: モデルがエクスポートされる場所です。トレーニングコンテナ内の AIP_MODEL_DIR という環境変数の値になります。task.py には、この変数を取得するための入力パラメータがあります。

... parser.add_argument( '--model_dir', help = 'Directory to output model and artifacts', type = str, default = os.environ['AIP_MODEL_DIR'] if 'AIP_MODEL_DIR' in os.environ else "" ) ...

この環境変数を使用すると、トレーニングジョブのアーティファクトのエクスポート先がわかります。gs://YOUR-BUCKET-NAME/titanic/ を選択します。
[続行] をクリックします。

ハイパーパラメータ調整

ハイパーパラメータ調整のセクションでは、モデルの調整に使用する複数のモデルパラメータを定義できます。最適なパラメータでモデルを作成するために、さまざまな値を試すことになります。今回のコードでは、ハイパーパラメータチューナーの機能は実装しませんでした。数行（5 行ほど）のコードだけとはいえ、これ以上複雑にならないようにするためです。

[続行] を選択して、このステップはスキップします。

コンピューティングと料金

どこでトレーニングジョブを実行し、どのようなタイプのサーバーを使用しますか。モデルトレーニングの処理はリソースをあまり必要としません。トレーニングジョブは比較的小さなノートブックインスタンスの内部で実行できました。その実行は短時間で終了します。

これを踏まえて、以下のように選択します。

リージョン:
マシンタイプ: n1-standard-4

[続行] をクリックします。

予測コンテナ

このステップでは、モデルのトレーニングだけを行うか、モデルを製品化するために使用する予測サービスの設定も追加するかを決定できます。

このラボでは、ビルド済みコンテナを使用します。ただし、Vertex AI ではモデル提供についていくつかのオプションがあります。

予測コンテナなし: モデルのトレーニングだけを行い、モデルの製品化については後で検討します。
ビルド済みコンテナ: モデルをトレーニングし、デプロイに使用されるビルド済みコンテナを定義します。
カスタムコンテナ: モデルをトレーニングし、デプロイに使用されるカスタムコンテナを定義します。

Google Cloud には Scikit-learn コンテナがすでに用意されているので、ビルド済みコンテナを選択してください。トレーニングジョブの完了後にモデルをデプロイします。

モデルフレームワーク: Scikit-learn
モデルフレームワークのバージョン: 0.23
モデルディレクトリ: gs://YOUR-BUCKET-NAME/titanic/. これはステップ 3 で定義したモデル出力ディレクトリと同じものです。

[トレーニングを開始] をクリックします。

[トレーニングパイプライン] タブに新しいトレーニングジョブが表示されます。トレーニングが完了するまでに約 15 分かかります。

タスク 5. モデルの評価

トレーニングジョブの完了後、gs://YOUR-BUCKET-NAME/titanic/model/ にアーティファクトがエクスポートされます。モデルの評価指標と分類レポートが含まれる report.txt ファイルを調べることができます。

report.txt ファイルとハイライト表示されたモデルファイルへのナビゲーションパス

タスク 6. モデルのデプロイ

Cloud コンソールのナビゲーションメニューで、[Vertex AI] > [トレーニング] をクリックします。
モデルのトレーニングジョブが完了したら、トレーニング済みのモデルを選択してエンドポイントにデプロイします。
[デプロイとテスト] タブに移動し、[エンドポイントにデプロイ] をクリックします。

ポップアップで、モデルのデプロイに必要なリソースを定義できます。

エンドポイント名: モデルが提供されるエンドポイント URL。ここでは、titanic-endpoint のような名前が妥当です。[続行] をクリックします。
トラフィック分割: このモデルに送信するトラフィックの割合を定義します。エンドポイントには複数のモデルを配置でき、各モデル間でトラフィックをどのように分割するかを決定できます。ここでは、デプロイするモデルが 1 つだけなので、トラフィックは 100% にする必要があります。
コンピューティングノードの最小数: モデルの予測を提供するのに必要な最小ノード数です。最初は 1 にします。トラフィックが発生すると、予測サービスによって自動スケーリングが行われます。
コンピューティングノードの最大数: 自動スケーリングが行われる場合、この変数でノード数の上限を定義します。自動スケーリングで不要な費用が発生するのを防止できます。この変数は 2 に設定します。
マシンタイプ: Google Cloud には、モデルのデプロイ先となるマシンのタイプが複数用意されています。マシンごとにメモリおよび vCPU の仕様が異なります。ここで使用するモデルはシンプルなので、n1-standard-4 インスタンスで十分です。

[完了] をクリックし、[デプロイ] をクリックします。

タスク 7. モデルの予測

[モデルをデプロイする] で、モデル予測用エンドポイントをテストします。GUI では、JSON リクエストペイロードを送信するフォームを利用できます。また、予測結果と、予測に使用されたモデル ID を含む応答が返されます。これは、1 つのエンドポイントに複数のモデルをデプロイしてトラフィックを分割できるためです。

[デプロイとテスト] タブページの表示

次のペイロードを試し、値をいくつか変更して予測がどのように変化するか確認してみましょう。入力する特徴量の順序は [‘sex', ‘age', ‘fare', ‘pclass', ‘embarked', ‘home_dest', ‘parch', ‘sibsp'] です。

{ "instances": [ ["male", 29.8811345124283, 26.0, 1, "S", "New York, NY", 0, 0], ["female", 48.0, 39.6, 1, "C", "London / Paris", 0, 1]] }

[予測] をクリックします。

エンドポイントは、入力と同じ順序で 0 または 1 の値のリストを返します。0 はタイタニック号の事故に遭ったときに生存できる可能性が低いことを意味し、1 は生存の可能性が高いことを意味します。

タスク 8. クリーンアップ

お疲れさまでした。Vertex AI を使用して、データセットを作成し、トレーニングコードをパッケージ化し、カスタムトレーニングジョブを実行しました。また、トレーニングしたモデルをデプロイし、予測用に一部のデータを送信しました。

作成されたリソースが不要な場合は、意図しない費用が発生するのを避けるために、それらのリソースを削除することをおすすめします。

コンソールの [データセット] ページに移動し、削除するデータセットのその他アイコンをクリックして [データセットの削除] をクリックします。[削除] をクリックして削除を確定します。
コンソールの [Workbench] ページに移動し、削除するノートブックのみを選択して、トップメニューにある [削除] をクリックします。[削除] をクリックして削除を確定します。
デプロイしたエンドポイントを削除するには、Vertex AI コンソールの [エンドポイント] セクションで対象のエンドポイントをクリックし、オーバーフローメニュー（）をクリックします。次に、[エンドポイントからモデルのデプロイを解除] を選択し、[デプロイ解除] をクリックします。
エンドポイントを削除するには、オーバーフローメニュー（）、[エンドポイントを削除] の順にクリックし、[確定] をクリックします。
モデルのコンソールページに移動して、削除するモデルに対してその他アイコン（）、[モデルを削除] の順にクリックし、[削除] をクリックします。
Cloud Storage バケットを削除するには、[Cloud Storage] ページで対象のバケットを選択して [削除] をクリックします。「DELETE」と入力して [削除] をクリックし、削除を確定します。
BigQuery データセットを削除するには、以下の手順を実行します。

BigQuery コンソールに移動します。
[エクスプローラ] パネルで、データセットの横にあるアクションを表示アイコンをクリックします。[削除] をクリックします。
データセットの削除を確認するダイアログボックスで、「delete」と入力し、[削除] をクリックして削除コマンドを確定します。

ラボを終了する

ラボでの学習が完了したら、[ラボを終了] をクリックします。ラボで使用したリソースが Qwiklabs から削除され、アカウントの情報も消去されます。

ラボの評価を求めるダイアログが表示されたら、星の数を選択してコメントを入力し、[送信] をクリックします。

星の数は、それぞれ次の評価を表します。

星 1 つ = 非常に不満
星 2 つ = 不満
星 3 つ = どちらともいえない
星 4 つ = 満足
星 5 つ = 非常に満足

フィードバックを送信しない場合は、ダイアログボックスを閉じてください。

フィードバック、ご提案、修正が必要な箇所については、[サポート] タブからお知らせください。

Vertex AI: マネージド データセットを使用したカスタム トレーニング ジョブと予測

概要

目標

設定

タスク 1. 環境の設定

Vertex AI API を有効にする

データセットを作成する

テーブルを作成する

タスク 2. データセットの作成

ML データセットを作成する

データソースを選択する

統計情報を生成する

タスク 3. Workbench を使用したカスタム トレーニング パッケージ

アプリケーションの構造

ノートブック インスタンスを作成する

パッケージを作成する

パッケージをビルドする

タスク 4. モデルのトレーニング

トレーニング方法

モデルの詳細

トレーニング コンテナ

ハイパーパラメータ調整

コンピューティングと料金

予測コンテナ

タスク 5. モデルの評価

タスク 6. モデルのデプロイ

タスク 7. モデルの予測

タスク 8. クリーンアップ

ラボを終了する

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

Vertex AI: マネージドデータセットを使用したカスタムトレーニングジョブと予測

タスク 3. Workbench を使用したカスタムトレーニングパッケージ

ノートブックインスタンスを作成する

トレーニングコンテナ

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する