实验设置说明和要求
保护您的账号和进度。请务必在无痕浏览器窗口中,使用实验凭证运行此实验。

将数据加载到 BigQuery 中

实验 1 小时 30 分钟 universal_currency_alt 5 个点数 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
此内容尚未针对移动设备进行优化。
为获得最佳体验,请在桌面设备上访问通过电子邮件发送的链接。

概览

BigQuery 是 Google 推出的全代管式、无需运维、费用低廉的分析数据库。借助 BigQuery,您可以查询 TB 级的数据,而不必管理任何基础设施,也无需数据库管理员。BigQuery 使用 SQL,并且支持随用随付模式。BigQuery 让您可以专心分析数据,发掘有意义的数据洞见。

在本实验中,您需要将纽约市出租车行程数据的子集注入到 BigQuery 内的表中。

学习内容

  • 将不同来源的数据加载到 BigQuery 中
  • 使用 CLI 和控制台将数据加载到 BigQuery 中
  • 使用 DDL 创建表

设置

对于每个实验,您都会免费获得一个新的 Google Cloud 项目及一组资源,它们都有固定的使用时限。

  1. 请使用无痕式窗口登录 Qwiklabs。

  2. 留意实验的访问时限(例如 1:15:00)并确保能在相应时间段内完成实验。
    系统不提供暂停功能。如有需要,您可以重新开始实验,不过必须从头开始。

  3. 准备就绪时,点击开始实验

  4. 请记好您的实验凭据(用户名密码)。您需要使用这组凭据来登录 Google Cloud 控制台。

  5. 点击打开 Google 控制台

  6. 点击使用其他帐号,然后将实验的凭据复制并粘贴到相应提示框中。
    如果您使用其他凭据,将会收到错误消息或产生费用

  7. 接受条款并跳过恢复资源页面。

打开 BigQuery 控制台

  1. 在 Google Cloud 控制台中,选择导航菜单 > BigQuery

您会看到欢迎在 Cloud 控制台中使用 BigQuery 消息框,其中会显示快速入门指南的链接以及界面更新。

  1. 点击完成

任务 1. 创建新数据集来存储表

  1. 如需创建数据集,请点击项目 ID 旁边的查看操作图标(三个竖点),然后选择创建数据集

  2. 接下来,将数据集 ID 命名为 nyctaxi,所有其他选项均保留默认值,然后点击创建数据集

现在,您会在您的项目名称下方看到 nyctaxi 数据集。

点击检查我的进度,验证已完成以下目标: 创建一个数据集来存储新表

任务 2. 从 CSV 文件注入新数据集

在此部分,您需要将本地 CSV 文件加载到 BigQuery 表中。

  1. 访问此链接,将 2018 年纽约市出租车行程数据的子集下载到您的本地计算机上。

  2. 在 BigQuery 控制台中,选择 nyctaxi 数据集,然后点击创建表

指定下方表选项

来源

  • 基于以下数据源创建表:上传
  • 选择文件:选择您之前下载到本地的文件
  • 文件格式:CSV

目标

  • 表名称:2018trips 将所有其他设置保留为默认值。

架构

  • 勾选自动检测提示:没有看到此复选框?确保文件格式为 CSV,而不是 Avro)

高级选项

  • 保留默认值

点击创建表

  1. 您现在应该在 nyctaxi 数据集下方看到 2018trips 表。

选择 2018trips 表并查看详细信息

  1. 选择预览,并确认所有列均已加载(取样如下):

您已成功将 CSV 文件加载到新的 BigQuery 表中。

运行 SQL 查询

接下来,练习在 2018trips 表上运行基本查询。

  1. 在查询编辑器中,编写查询以列出该年度中费用最高的 5 次行程:
#standardSQL SELECT * FROM nyctaxi.2018trips ORDER BY fare_amount DESC LIMIT 5

点击检查我的进度,验证已完成以下目标: 从 CSV 文件注入新数据集

任务 3. 从 Google Cloud Storage 注入新数据集

现在,我们来尝试加载 Cloud Storage 中同一组 2018 年行程数据的另一个子集。这次,我们使用 CLI 工具来完成此操作。

  1. 在 Cloud Shell 中,运行以下命令:
bq load \ --source_format=CSV \ --autodetect \ --noreplace \ nyctaxi.2018trips \ gs://cloud-training/OCBL013/nyc_tlc_yellow_trips_2018_subset_2.csv 注意:对于上述加载作业,您指定将此子集附加到您之前创建的现有 2018trips 表中。
  1. 加载作业完成后,屏幕上会显示确认信息。

  2. 返回 BigQuery 控制台,选择 2018trips 表并查看详细信息。确认行数现在几乎已经翻倍。

  3. 建议您运行与之前相同的查询,以查看该年度中费用最高的 5 次行程是否发生了变化。

点击检查我的进度,验证已完成以下目标: 从 Google Cloud Storage 注入数据集

任务 4. 使用 DDL 从其他表创建新表

2018trips 表现在包含全年的行程记录。如果您只对一月份的行程感兴趣,该怎么办?在本实验中,为保持简洁,我们仅关注乘车日期和时间。我们使用 DDL 来提取这些数据,并将其存储在另一个表中

  1. 在查询编辑器中,运行以下 CREATE TABLE 命令:
#standardSQL CREATE TABLE nyctaxi.january_trips AS SELECT * FROM nyctaxi.2018trips WHERE EXTRACT(Month FROM pickup_datetime)=1;
  1. 现在,在查询编辑器中运行以下查询,找出一月份的最长行程:
#standardSQL SELECT * FROM nyctaxi.january_trips ORDER BY trip_distance DESC LIMIT 1

点击检查我的进度,验证已完成以下目标: 使用 DDL 从其他表创建新表

恭喜!

您已成功创建新的数据集,并将数据从 CSV 文件、Google Cloud Storage 和其他 BigQuery 表注入 BigQuery 中。

结束实验

完成实验后,请点击结束实验。Google Cloud Skills Boost 会移除您使用过的资源并为您清理帐号。

系统会提示您为实验体验评分。请选择相应的星级数,输入评论,然后点击提交

星级数的含义如下:

  • 1 颗星 = 非常不满意
  • 2 颗星 = 不满意
  • 3 颗星 = 一般
  • 4 颗星 = 满意
  • 5 颗星 = 非常满意

如果您不想提供反馈,可以关闭该对话框。

如果要留言反馈、提出建议或做出更正,请使用支持标签页。

上次更新手册的时间:2022 年 7 月 27 日

上次测试实验的时间:2022 年 7 月 15 日

版权所有 2026 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名称和产品名称可能是其各自相关公司的商标。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

使用无痕模式或无痕浏览器窗口是运行此实验的最佳方式。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。