实验设置说明和要求
保护您的账号和进度。请务必在无痕浏览器窗口中,使用实验凭证运行此实验。

在 BigQuery 中收集、处理和存储数据

实验 1 小时 30 分钟 universal_currency_alt 5 个点数 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
此内容尚未针对移动设备进行优化。
为获得最佳体验,请在桌面设备上访问通过电子邮件发送的链接。
重要提示图标 重要提示

屏幕截图图标请为每个任务的工作成果截屏,以便添加到您的作品集中。

桌面设备/笔记本电脑图标 请务必仅在桌面设备/笔记本电脑上完成此实操实验。

对勾图标 每个实验仅允许尝试 5 次。

测验靶心图标 温馨提示:第一次尝试时,您可能答不对所有问题,甚至可能需要重做任务。不必担心,这都是学习过程的一部分。

计时器图标 实验一旦开始,计时器就无法暂停。1 小时 30 分钟后,实验将结束,您需要重新开始。

提示图标 如需了解详情,请阅读实验技术提示

活动概览

本实验是结业项目的一部分。在本实验中,您将运用所学到的云数据分析知识,实践数据生命周期的前三个阶段:收集、处理和存储。

您需要在指定的场景中,使用 BigQuery 完成一系列任务。在这些任务中,您需要运用自己的技能在 BigQuery 环境中处理和转换数据,解答有关这些数据的问题,并完成考验您数据转换能力的挑战。

成功完成本实验后,您将能够证明自己有能力使用 BigQuery 等云数据平台进行数据存储和分析,并积累应用 SQL 来探索、过滤、去重和汇总数据的实践经验,从而有效应对特定的业务需求。

场景

TheLook Fintech 是一家新成立的金融科技公司,专为需要资金来采购库存的独立网店店主提供贷款服务。该公司的使命是:改变贷款获取方式,助力企业发展。作为一家处于成长期的初创公司,TheLook Fintech 已成功锁定目标市场,目前正全力以赴加速规模扩张。

您获聘为该公司的云数据分析师。您的第一个任务是制定并实施一项方案,协助资金部有效利用数据来跟踪公司业绩和增长情况。

在与资金部主管 Trevor 的会议中,明确了三个业务问题。

这些问题分别是:

  • 如何更好地监控现金流,确保每个月发放的贷款总额不超过流入资金?
  • 如何确定客户向公司申请贷款的主要原因?
  • 如何跟踪借款人的贷款申请地区?

在与 Trevor 的会议中,您还获得了解答这些业务问题所必需的关键指标信息。

现金流是指公司在一定时期内的资金流入与流出总额。TheLook Fintech 需要确保来自贷款还款及其他渠道的资金流入额,大于用于发放贷款及支付其他费用的资金流出额。

贷款用途是另一个需要跟踪的重要指标。Trevor 告诉您,借款人申请贷款的原因与其偿还贷款的可能性之间存在密切的关联性。为了确保贷款业务稳步推进,监控贷款的主要用途至关重要。

借款人所在地也是核心关注点之一。资金部希望了解贷款的地理分布情况。因为某一地区贷款高度集中可能会增加集体违约的风险;而贷款在各地区均匀分布,能确保贷款机构不会过度依赖单一地区的贷款还款,进而有效降低此类风险。

您的分析工作将围绕这三个关键指标展开。

在本实验中,您将使用 BigQuery 来收集、处理和存储数据,从而解答上述业务问题,并为 Trevor 准备一系列报告。

为此,首先需要设置 BigQuery 工作环境。随后,您将探索贷款数据,找到 Trevor 需要的信息。接着,导入包含美国各州新分类标准的文件,并将这些数据存储为标准表。之后,联接这两个表,以便利用合并后的数据编制报告。然后,对贷款用途数据进行去重处理。最后,生成按日和按年统计的贷款发放总额报告。

设置

点击“开始实验”之前

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展活动,免受模拟或演示环境的限制。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:如果您已有自己的个人 Google Cloud 账号或项目,请不要在此实验中使用,以避免您的账号产生额外的费用。

如何开始实验并登录 Google Cloud 控制台

  1. 点击开始实验按钮。左侧是实验详细信息面板,其中包含以下各项:

    • 剩余时间
    • 打开 Google Cloud 控制台按钮
    • 进行该实验时必须使用的临时凭证
    • 帮助您逐步完成本实验所需的其他信息(如果需要)
    注意:如果该实验需要付费,系统会打开一个弹出式窗口供您选择支付方式。
  2. 如果您使用的是 Chrome 浏览器,点击打开 Google Cloud 控制台(或右键点击并选择在无痕式窗口中打开链接)。系统会在新的浏览器标签页中打开登录页面。

    提示您可以将这些标签页分别放在不同的窗口中,并排显示,以便轻松切换。

    注意:如果您看到选择账号对话框,请点击使用其他账号
  3. 如有必要,请复制下方的 Google Cloud 用户名,然后将其粘贴到登录对话框中。点击下一步

{{{user_0.username | "Google Cloud username"}}}

您也可以在实验详细信息面板中找到 Google Cloud 用户名

  1. 复制下面的 Google Cloud 密码,然后将其粘贴到欢迎对话框中。点击下一步
{{{user_0.password | "Google Cloud password"}}}

您也可以在实验详细信息面板中找到 Google Cloud 密码

重要提示:您必须使用实验提供的凭证。请勿使用您的 Google Cloud 账号凭证。 注意:在本实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
  1. 依次点击后续页面,完成以下步骤:
    • 接受条款及条件
    • 由于这是临时账号,请勿添加账号恢复选项或双重验证
    • 请勿用其注册免费试用服务

片刻之后,系统会在此标签页中打开 Google Cloud 控制台。

注意:您可以点击左上角的导航菜单来查看列有 Google Cloud 产品和服务的菜单。Google Cloud 控制台菜单,其中突出显示了导航菜单图标

任务 1. 开始使用 BigQuery

作为云数据分析师,开展项目时的首要工作之一便是打开工作环境,并找到分析所需的数据。

在此任务中,您需要打开 BigQuery 环境,选择一个现有的 BigQuery 项目,然后找到 Fintech 数据集。

  1. 前往导航菜单 > BigQuery。点击完成
  2. 在“探索器”部分下找到 fintech 数据集。您将在下一个任务中使用此数据集。

任务 2. 探索 Fintech 数据

Fintech 数据集中包含的贷款信息可用于解答 Trevor 的业务问题。其中一项关键信息是贷款总额。

在此任务中,您将探索 Fintech 数据集中的表,找到包含贷款总额的表和列。这些信息对于帮助 Trevor 跟踪公司的现金流出情况至关重要。

  1. 打开 fintech 数据集中的每个表。
  2. 通过详情标签页了解每个表的详细信息。
  3. 通过架构标签页确定每个表包含的列及其数据类型。
  4. 使用预览标签页查看数据预览。找到包含贷款金额的列,验证其中是否包含您需要的信息。

Trevor 告诉您,TheLook Fintech 向客户放款时,资金可供客户使用的日期称为“发放”日期。这是另一项关键信息,您需要利用它来协助 Trevor 的团队跟踪每天或每月的资金流出总额。

在 Fintech 数据集中找到包含每笔贷款发放日期的表,然后解答以下问题。

任务 3. 导入 CSV 文件并创建标准表

分析所需的大部分数据都可以在 Fintech 数据集中找到,但部分数据必须从其他来源收集。Trevor 提供了一个 CSV 文件,其中包含美国各州与相关区域及子区域的对应关系。借助这一关键信息,Trevor 将能够按借款人的贷款申请州或地区跟踪贷款情况。

该 CSV 文件位于 Cloud Storage 中的以下位置:

gs://sureskills-lab-dev/future-workforce/da-capstone/temp_35_us/state_region_mapping/

下面是该 CSV 文件中的数据示例:

显示 CSV 文件中数据示例的图片

在此任务中,您需要将 CSV 文件导入到 BigQuery,并将其存储为一个标准表。

  1. 您将使用以下代码来导入 CSV 文件,请仔细查看这些代码,然后解答以下问题。
LOAD DATA OVERWRITE fintech.state_region ( state string, subregion string, region string ) FROM FILES ( format = 'CSV', uris = ['gs://sureskills-lab-dev/future-workforce/da-capstone/temp_35_us/state_region_mapping/state_region_*.csv']);

  1. 将上述命令复制并粘贴到未命名标签页中,以使用 CSV 文件中的数据创建标准表。

  2. 点击运行

接下来,检查您创建的表,并将其与原始 CSV 文件进行比较:

显示 CSV 文件中数据示例的图片

  1. 探索器窗格中,选择 state_region 表。如果未显示该表,您可能需要刷新数据集。

  2. 点击预览标签页,然后检查您刚导入到 BigQuery 中的数据。

点击检查我的进度,验证您是否已正确完成此任务。

导入 CSV 文件并创建标准表

任务 4. 联接两个表中的数据

现在,您已经探索并收集了所需的数据,接下来需要处理这些数据,以便对其进行分析。

Trevor 想要一份包含 loan_idloan_amountregion name 数据的汇总报告。但这些信息目前分散在两个表中。

在此任务中,您将确定包含所需列的表,并使用 SQL 联接这两个表以创建报告。

  1. 查看 Fintech 数据集中的表,然后解答以下问题。

  1. 在查询编辑器中,运行查询 A查询 B,查看结果。然后解答以下问题:

查询 A

SELECT lo.loan_id, lo.loan_amount, sr.region FROM fintech.loan lo INNER JOIN fintech.state_region sr ON lo.region = sr.region;

查询 B

SELECT lo.loan_id, lo.loan_amount, sr.region FROM fintech.loan lo INNER JOIN fintech.state_region sr ON lo.state = sr.state;

任务 5. 使用 CTAS 根据查询结果创建表

Trevor 想要使用 Google 表格对报告中的数据进行进一步的过滤和分析。

但在此之前,您必须先创建一个表来存储数据。

CTAS 语句即 CREATE TABLE AS SELECT 语句。它是一种 SQL 语句,能够根据 SELECT 语句的结果直接创建新表。它是一种功能强大的工具,可帮助您快速轻松地创建新表。您也可以在 BigQuery 中轻松导出使用 CTAS 语句创建的表,以便与他人共享。

在此任务中,您将使用 CREATE TABLE AS SELECT 语句创建一个新表,然后将该表连接到 Google 表格。

  1. 复制以下命令并粘贴到查询编辑器中:
CREATE OR REPLACE TABLE fintech.loan_with_region AS SELECT lo.loan_id, lo.loan_amount, sr.region FROM fintech.loan lo INNER JOIN fintech.state_region sr ON lo.state = sr.state; 注意:此查询仅仅是修改了上一个任务中用来创建报告的查询。不过,本查询中使用了 CREATE OR REPLACE TABLE 语句,因此每次运行查询时,都会创建一个新表或替换现有的同名表。
  1. 点击运行

  2. 找到新创建的表。您可能需要刷新页面!

点击检查我的进度,验证您是否已正确完成此任务。

使用 CTAS 根据查询结果创建表
  1. 探索器窗格中,选择新创建的 loan_with_region 表。(如果未显示该表,请点击刷新来刷新数据集)。

  2. 如需打开 Google 表格,请右键点击提供的打开 Google 表格链接,然后选择在新的无痕式窗口中打开链接的选项。

  3. 如需登录 Google Workspace,请使用当前实验页面上提供的凭证(用户名和密码)登录。

  4. 在工具栏中,点击打开方式,然后选择关联工作表。点击开始使用

  5. 一个 Google 表格随即打开,该表格已与 loan_with_region 表建立了数据连接。

  6. 查看 Google 表格中的数据。

现在,您可以将该 Google 表格分享给 Trevor,让其团队能够以电子表格的格式处理数据。

任务 6. 处理嵌套数据

Trevor 正在深入研究客户向 TheLook Fintech 贷款的主要原因。因为他们发现,借款人的借款原因与其还款可能性之间存在着紧密联系,是一个重要的预测指标。

为此,他请您制作一份简单的报告,列出每位借款人在申请贷款时填写的用途。不过,查找这些数据可能需要一点技巧。因为它们是在贷款申请过程中收集的,并存储在名为“purpose”的嵌套列中。

在此任务中,您将需要找到嵌套在“application”记录中的“purpose”列,并运行查询来查找借款人贷款的原因。

  1. 探索器窗格中,选择 loan 表。

  2. 选择架构标签页,然后找到 application 列。

  3. 在“架构”标签页中,点击 application 旁边的下拉箭头展开记录。

显示 application 嵌套记录的图片

  1. 点击预览标签页,然后检查 loan 表中的抽样数据。

您认为下面的查询能成功返回 loan 表中每笔贷款的用途吗?

  1. 复制以下命令并粘贴到查询编辑器中:
SELECT loan_id,purpose FROM fintech.loan;
  1. 点击运行

  1. 复制以下命令并粘贴到查询编辑器中:
SELECT loan_id,application.purpose FROM fintech.loan;
  1. 点击运行

通过此查询,您可以获取 loan 表中每笔贷款的具体用途。而 Trevor 可以据此分析出客户向 TheLook Fintech 申请贷款时最常见的原因。

在引用记录(或结构体)中的列时,需要使用点号表示法,也就是记录名称后跟点号,再跟列名称。例如,若要引用 application 记录中的 purpose 列,需要使用 application.purpose 的格式。

点击检查我的进度,验证您是否已正确完成此任务。

处理嵌套数据

任务 7. 删除重复数据

在您为 Trevor 创建的贷款用途清单中,有些借款原因似乎出现了多次。

例如,“wedding”这个原因就重复出现了好几次。

查询结果如下:

显示“purpose”列中重复数据的图片

云数据分析师经常会遇到数据重复的问题。从数据集中移除这些重复项的过程称为“去重”。

挑战:创建无重复值的单列表格

  • 请编写一条查询,创建一个名为 fintech.loan_purposes 的表。该表应仅包含一个 purpose 列,其中的数据必须是 fintech.loan 表的 purpose 列中的所有非重复值。
提示:您可以使用 CREATE TABLE AS SELECT (CTAS) 语句来完成此任务。

点击检查我的进度,验证您是否已正确完成此任务。

删除重复数据

任务 8. 生成报告来解答业务问题

Trevor 还需要一份按年份统计的贷款发放总额报告。在此任务中,您将编写一条查询来生成这些数据,并根据结果创建一个表。

Trevor 对您说,他希望报告的结构如下图所示,其中应包含 issue_yeartotal_amount 两列。

包含 issue_year 和 total_amount 信息的查询结果的图片

接下来,检查数据。

  1. 复制以下命令并粘贴到查询编辑器中:
SELECT issue_year, loan_amount FROM fintech.loan ORDER BY issue_year, issue_date;
  1. 点击运行

查询应该会返回类似下面这样的结果:

包含 issue_year 和 loan_amount 信息的查询结果的图片

注意:当前结果中每年对应多行数据。例如,前几行均为 2012 年的数据。Trevor 希望按示例报告的格式,将每一年的数据都汇总为一行。

  1. 复制以下命令并粘贴到查询编辑器中:
SELECT issue_year, sum(loan_amount) AS total_amount FROM fintech.loan GROUP BY issue_year;
  1. 点击运行

请注意,查询中使用了关键字 GROUP BY 和函数 sum()

挑战:创建一个按年份对贷款进行分组统计的表

请编写一条查询,在 fintech 数据集中创建一个名为 loan_count_by_year 的表,该表将按 issue_yearloan_id 进行分组统计。

提示:如果遇到困难,可以使用 Gemini 等生成式 AI 工具来辅助编写 SQL 语法、识别代码中的潜在错误,并帮助您更深入地理解代码逻辑。

点击检查我的进度,验证您是否已正确完成此任务。

生成报告来解答业务问题

总结

作为 TheLook Fintech 的云数据分析师,您已成功为 Trevor 及资金部提供了需要的数据,帮助他们更好地了解公司的现金流并做出明智的业务决策。

首先,您探索了贷款数据,找到了 Trevor 要求的关键信息,例如 Fintech 数据集中的贷款总额。

随后,您导入了包含新州级分类的文件。Trevor 希望利用这些分类来调整贷款按区域划分的归类方式。

接着,您根据查询结果创建了一个新表。Trevor 将利用该表生成一份显示贷款 ID、贷款金额和区域名称的报告。

此外,您还对数据进行了去重处理,移除了所有重复记录。

最后,您生成了一份报告,其中按日期和年份统计了发放的贷款总额。Trevor 需要这份报告来更深入地了解公司的现金流。

现在,您已经很好地掌握了如何为分析工作收集、处理和存储数据。

结束实验

结束实验之前,请确保您已完成所有任务。准备就绪后,点击结束实验,然后点击提交

结束实验后,您将无法再访问实验环境,也无法再访问您在其中完成的工作成果。

版权所有 2026 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名称和产品名称可能是其各自相关公司的商标。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

使用无痕模式或无痕浏览器窗口是运行此实验的最佳方式。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。