Este laboratório mostra como o TensorFlow Data Validation (TFDV, na sigla em inglês) pode ser utilizado para investigar e consultar seu conjunto de dados. Isso inclui analisar estatísticas descritivas, inferir um esquema, verificar e consertar anomalias e analisar desvios no conjunto de dados. É importante entender as características dos seus conjuntos de dados, incluindo mudanças atreladas a eles que podem ocorrer com o tempo no pipeline de produção. Também é importante procurar anomalias nos dados e comparar seus conjuntos de dados de treinamento, avaliação e entrega para garantir a consistência entre eles.
Objetivos de aprendizagem
Você vai aprender a:
Instalar o TFDV
Computar e consultar estatísticas
Inferir um esquema
Procurar erros em dados de avaliação
Encontrar e corrigir anomalias na avaliação
Detectar desvios e deslocamentos
Bloquear o esquema
Configure o ambiente do laboratório
Comece o laboratório
Para cada laboratório, você recebe um novo projeto do Google Cloud e um conjunto de recursos por um determinado período e sem custos financeiros.
Faça login no Qwiklabs em uma janela anônima.
Confira o tempo de acesso do laboratório (por exemplo, 1:15:00) e finalize todas as atividades nesse prazo.
Não é possível pausar o laboratório. Você pode reiniciar o desafio, mas vai precisar refazer todas as etapas.
Quando tudo estiver pronto, clique em Começar o laboratório.
Anote as credenciais (Nome de usuário e Senha). É com elas que você vai fazer login no Console do Google Cloud.
Clique em Abrir Console do Google.
Clique em Usar outra conta, depois copie e cole as credenciais deste laboratório nos locais indicados.
Se você usar outras credenciais, vai receber mensagens de erro ou cobranças.
Aceite os termos e pule a página de recursos de recuperação.
Tarefa 1: iniciar a instância do Vertex AI Workbench
No console do Google Cloud, no Menu de navegação (), clique em Vertex AI.
Selecione Ativar todas as APIs recomendadas.
No Menu de navegação, clique em Workbench.
Verifique se você está na visualização Instâncias do topo da página do Workbench.
Clique em + Criar nova.
Configure a instância:
Nome: lab-workbench
Região: configure a região como
Zona: configure a zona como
Opções avançadas (opcional): se necessário, clique em "Opções avançadas" para personalizar mais (ex.: tipo de máquina, tamanho do disco).
Clique em Criar.
O processo vai levar alguns minutos, e uma marca de confirmação verde vai aparecer ao lado do nome da instância quando ela for criada.
Clique em ABRIR O JUPYTERLAB ao lado do nome da instância para iniciar a interface do ambiente. Uma nova guia será aberta no navegador.
Clique no ícone do Python 3 para iniciar um novo notebook do Python.
Clique com o botão direito no arquivo Untitled.ipynb na barra de menus e escolha Renomear notebook para dar um nome a ele.
Seu ambiente está configurado. Está tudo pronto para você começar a trabalhar com seu notebook do Vertex AI Workbench.
Clique em Verificar meu progresso para conferir o objetivo.
Iniciar a instância do Vertex AI Workbench
Tarefa 2: clonar um repositório do curso na sua interface do JupyterLab
O repositório do GitHub contém o arquivo do laboratório e os arquivos das soluções do curso.
Copie e execute o código a seguir na primeira célula do notebook para clonar o repositório training-data-analyst.
Para confirmar que você clonou o repositório, clique duas vezes no diretório training-data-analyst e veja se o conteúdo aparece.
Clique em Verificar meu progresso para conferir o objetivo.
Clonar um repositório do curso na sua interface do JupyterLab
Tarefa 3: crie visualizações avançadas com o TensorFlow Data Validation
Na interface do notebook, navegue até training-data-analyst > courses > machine_learning > deepdive2 > production_ml > labs e abra tfdv_advanced_taxi.ipynb.
Na caixa de diálogo Selecionar Kernel, escolha Python 3 na lista de kernels disponíveis.
Na interface do notebook, clique em Editar > Limpar todas as saídas.
Leia com atenção as instruções do notebook e preencha as linhas marcadas com #TODO quando precisar concluir o código.
Dica: para executar a célula atual, clique nela e pressione SHIFT+ENTER. Veja outros comandos de células na interface do notebook em Executar.
Você também vai encontrar dicas para realizar as tarefas. Destaque o texto para ler as dicas, que são exibidas em letras brancas.
Se precisar de mais ajuda, navegue até training-data-analyst > courses > machine_learning > deepdive2 > production_ml > solutions e abra tfdv_advanced_taxi.ipynb.
Finalize o laboratório
Após terminar seu laboratório, clique em End Lab. O Qwiklabs removerá os recursos usados e limpará a conta para você.
Você poderá avaliar sua experiência neste laboratório. Basta selecionar o número de estrelas, digitar um comentário e clicar em Submit.
O número de estrelas indica o seguinte:
1 estrela = muito insatisfeito
2 estrelas = insatisfeito
3 estrelas = neutro
4 estrelas = satisfeito
5 estrelas = muito satisfeito
Feche a caixa de diálogo se não quiser enviar feedback.
Para enviar seu feedback, fazer sugestões ou correções, use a guia Support.
Copyright 2020 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.
Os laboratórios criam um projeto e recursos do Google Cloud por um período fixo
Os laboratórios têm um limite de tempo e não têm o recurso de pausa. Se você encerrar o laboratório, vai precisar recomeçar do início.
No canto superior esquerdo da tela, clique em Começar o laboratório
Usar a navegação anônima
Copie o nome de usuário e a senha fornecidos para o laboratório
Clique em Abrir console no modo anônimo
Fazer login no console
Faça login usando suas credenciais do laboratório. Usar outras credenciais pode causar erros ou gerar cobranças.
Aceite os termos e pule a página de recursos de recuperação
Não clique em Terminar o laboratório a menos que você tenha concluído ou queira recomeçar, porque isso vai apagar seu trabalho e remover o projeto
Este conteúdo não está disponível no momento
Você vai receber uma notificação por e-mail quando ele estiver disponível
Ótimo!
Vamos entrar em contato por e-mail se ele ficar disponível
Um laboratório por vez
Confirme para encerrar todos os laboratórios atuais e iniciar este
Use a navegação anônima para executar o laboratório
Para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
Este laboratório mostra como o TensorFlow Data Validation (TFDV, na sigla em inglês) pode ser utilizado para investigar e consultar seu conjunto de dados. Isso inclui analisar estatísticas descritivas, inferir um esquema, verificar e consertar anomalias e analisar desvios no conjunto de dados. É importante entender as características dos seus conjuntos de dados, incluindo mudanças atreladas a eles que podem ocorrer com o tempo no pipeline de produção. Também é importante procurar anomalias nos dados e comparar seus conjuntos de dados de treinamento, avaliação e entrega para garantir a consistência entre eles.
Duração:
Configuração: 0 minutos
·
Tempo de acesso: 120 minutos
·
Tempo para conclusão: 120 minutos