실습 설정 안내 및 요구사항
계정과 진행 상황을 보호하세요. 이 실습을 실행하려면 항상 시크릿 브라우저 창과 실습 사용자 인증 정보를 사용하세요.

BigQuery를 사용해 벡터 검색

실습 45분 universal_currency_alt 크레딧 5개 show_chart 입문
info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.
이 콘텐츠는 아직 휴대기기에 최적화되지 않음
최상의 경험을 위해 데스크톱 컴퓨터에서 이메일로 전송된 링크를 사용하여 방문하세요.

개요

BigQuery 벡터 검색 벡터 검색을 사용하면 정확한 키워드 일치에 의존하는 대신 임베딩이라고 하는 특성의 수학적 표현을 비교하여 데이터 세트에서 가장 유사한 항목을 찾을 수 있습니다.

온라인 쇼핑을 하다가 웹사이트에서 검색 중인 제품과 매우 유사한 제품을 추천해 주는 것을 보고 감탄한 적이 있나요? 심지어 말로 정확히 설명할 수 없는 제품을 검색한 경우에도 말이죠. 이러한 기능은 단순한 키워드 매칭 이상의 기능을 제공하는 기법인 벡터 검색을 기반으로 하는 경우가 많습니다. 벡터 검색은 단순히 텍스트를 검색하는 대신 항목의 기본 기능과 특성을 분석하여 개념적으로 또는 시각적으로 유사한 항목을 찾습니다. 이 실습에서는 BigQuery 내에 빌드되어 있는 강력하고 확장 가능한 벡터 검색 기능을 직접 사용해 보겠습니다.

Cymbal E-commerce와 같은 글로벌 소매업체에게 이 기술은 고객 경험을 획기적으로 개선할 수 있는 기회입니다. '하이킹용 경량 재킷'을 검색하는 고객을 상상해 보세요. 기존의 키워드 검색에서는 설명에 '재킷' 대신 '바람막이'라는 단어가 사용된 경우 완벽한 제품을 놓칠 수 있습니다. 벡터 검색을 활용하면 Cymbal이 제품 이미지 및 설명의 숫자 표현인 임베딩을 분석하여, 정확한 용어와 관계없이 관련성이 높은 모든 아우터웨어의 목록을 받아볼 수 있습니다. 이를 통해 고객은 원하는 제품을 더 빠르게 발견할 수 있으므로 만족도가 높아지며 매출도 증가합니다. 그럼 Cymbal을 위해 이 기능을 빌드해 보겠습니다.

이 실습에서는 BigQuery를 사용하여 벡터 검색을 수행하는 방법을 알아봅니다.

** 참고: 이 실습에서는 개인 정보 보호를 위해 Cymbal의 독점적 제품 등록정보와 상세한 설명 대신 공개된 특허 데이터베이스를 사용합니다. 프로세스는 동일하며, 소스 데이터와 일치하도록 데이터 세트, 테이블, 열 이름만 변경하면 됩니다.

실습할 내용

  • ML 모델을 사용하여 임베딩 생성
  • 벡터 색인 생성
  • 생성한 임베딩에 대해 VECTOR_SEARCH 함수 사용

설정 및 요건

실습 시작 버튼을 클릭하기 전에

다음 안내를 확인하세요. 실습에는 시간 제한이 있으며 일시중지할 수 없습니다. 실습 시작을 클릭하면 타이머가 시작됩니다. 이 타이머는 Google Cloud 리소스를 사용할 수 있는 시간이 얼마나 남았는지를 표시합니다.

실무형 실습을 통해 시뮬레이션이나 데모 환경이 아닌 실제 클라우드 환경에서 직접 실습 활동을 진행할 수 있습니다. 실습 시간 동안 Google Cloud에 로그인하고 액세스하는 데 사용할 수 있는 새로운 임시 사용자 인증 정보가 제공됩니다.

필요한 사항

이 실습을 완료하려면 다음이 필요합니다.

  • 표준 인터넷 브라우저(Chrome 브라우저 권장)
  • 실습을 끝까지 진행할 수 있는 충분한 시간
참고: 개인용 Google Cloud 계정이나 프로젝트가 있어도 이 실습에서는 사용하지 마세요. 참고: Pixelbook을 사용하는 경우 시크릿 창을 열어 이 실습을 실행하세요.

Google Cloud 콘솔에 로그인

  1. 이 실습 세션에 사용하는 브라우저 탭 또는 창을 활용해 연결 세부정보 패널에서 사용자 이름을 복사하고 Google 콘솔 열기 버튼을 클릭합니다.
참고: 계정을 선택하라는 메시지가 표시되면 다른 계정 사용을 클릭합니다.
  1. 안내에 따라 사용자 이름비밀번호를 붙여넣습니다.
  2. 다음을 클릭합니다.
  3. 이용약관에 동의합니다.

임시 계정이므로 이 실습이 진행되는 동안만 계정이 유지됩니다.

  • 복구 옵션을 추가하지 않습니다.
  • 무료 체험판을 신청하지 않습니다.
  1. 콘솔이 열리면 왼쪽 상단의 탐색 메뉴(탐색 메뉴 아이콘)를 클릭해 서비스 목록을 확인합니다.

탐색 메뉴

필요한 API 확인 또는 사용 설정

  1. Google Cloud 콘솔의 상단 검색창에 BigQuery API를 입력합니다.

  2. Marketplace에서 BigQuery API에 대한 결과를 클릭합니다.

  3. API가 아직 사용 설정되지 않은 경우 사용 설정을 클릭하여 API를 사용 설정합니다.

  4. BigQuery Connection APIVertex AI API에 대해서도 1~3단계를 반복합니다.

작업 1. 텍스트 임베딩 생성을 위한 원격 모델 만들기

이 작업에서는 벡터 검색을 수행하고 데이터베이스의 임베딩을 생성하는 데 필요한 Vertex AI 텍스트 임베딩 생성 모델을 만듭니다.

AI 모델 만들기

  1. Google Cloud 콘솔의 탐색 메뉴(탐색 메뉴)에서 BigQuery > Studio로 이동합니다.

  2. 제목 없는 쿼리 탭을 선택합니다.

  3. 다음 코드를 입력합니다.

    CREATE OR REPLACE MODEL `bqml_lab.embedding_model` REMOTE WITH CONNECTION DEFAULT OPTIONS (ENDPOINT = 'text-embedding-005');

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. ML 모델 만들기

  1. 실행을 클릭합니다. 쿼리를 실행하는 데 몇 분 정도 걸립니다. 서비스 계정이 누락되었다는 오류가 발생하면 동일한 쿼리를 다시 실행하면 됩니다.

  2. 쿼리를 다음 코드로 바꿉니다.

    CREATE OR REPLACE TABLE `bqml_lab.embeddings` AS SELECT * FROM ML.GENERATE_EMBEDDING( MODEL `bqml_lab.embedding_model`, ( SELECT title, url, abstract AS content FROM `bqml_lab.patent_data` LIMIT 200000)) WHERE LENGTH(ml_generate_embedding_status) = 0;
  3. 실행을 클릭합니다.‏ 쿼리를 실행하는 데 5분 정도 소요됩니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. BigQuery ML 모델을 사용하여 'embeddings'라는 테이블 만들기

  1. 쿼리를 다음 코드로 바꿉니다.

    CREATE OR REPLACE VECTOR INDEX my_index ON `bqml_lab.embeddings`(ml_generate_embedding_result) OPTIONS(index_type = 'IVF', distance_type = 'COSINE', ivf_options = '{"num_lists":500}');
  2. 실행을 클릭합니다. 쿼리를 실행하는 데 몇 분 정도 걸립니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 'embeddings' 테이블에 벡터 색인 만들기

  1. 다음 코드를 입력하여 색인의 상태를 확인합니다.

    SELECT table_name, index_name, index_status, coverage_percentage, last_refresh_time, disable_reason FROM `{{{project_0.project_id | "Project ID"}}}.bqml_lab.INFORMATION_SCHEMA.VECTOR_INDEXES`;
  2. 실행을 클릭합니다. coverage_percentage 열 값이 0보다 크고 last_refresh_time 열 값이 NULL이 아니면 색인을 사용할 준비가 된 것입니다. 위의 쿼리를 처음 실행할 때 색인이 준비되지 않은 경우 색인 상태를 확인하기 위해 가끔 다시 실행합니다. 색인을 사용할 준비가 되었다는 결과가 표시되면 실습을 계속 진행합니다.

벡터 색인을 사용하여 텍스트 유사성 검색 수행

VECTOR_SEARCH 함수를 사용하여 검색어와 관련된 항목을 검색합니다. 이 예에서는 'improving online shopper search results(온라인 쇼핑객 검색 결과 개선)'라는 문구가 검색어입니다. 검색 시 임베딩을 생성하는 데 사용하는 모델은 비교하려는 테이블에서 임베딩을 생성하는 데 사용하는 모델과 동일해야 하며, 그렇지 않으면 검색 결과가 정확하지 않습니다.

  1. BigQuery 쿼리 탭에서 코드를 다음으로 바꿉니다.

    SELECT query.query, base.title, base.content FROM VECTOR_SEARCH( TABLE `bqml_lab.embeddings`, 'ml_generate_embedding_result', ( SELECT ml_generate_embedding_result, content AS query FROM ML.GENERATE_EMBEDDING( MODEL `bqml_lab.embedding_model`, (SELECT 'improving online shopper search results' AS content)) ), top_k => 5, options => '{"fraction_lists_to_search": 0.01}');
  2. 실행을 클릭합니다.

  3. 선택사항: 다른 검색을 시도하려면 코드에서 'improving online shopper search results'를 다른 검색어로 바꿉니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 벡터 색인을 사용하여 텍스트 유사성 검색 수행

수고하셨습니다

AI 모델, 데이터 임베딩, 벡터 색인을 만들고 색인을 사용하여 검색어와 가장 관련성이 높은 항목을 찾기 위해 쿼리했습니다.

시작하기 전에

  1. 실습에서는 정해진 기간 동안 Google Cloud 프로젝트와 리소스를 만듭니다.
  2. 실습에는 시간 제한이 있으며 일시중지 기능이 없습니다. 실습을 종료하면 처음부터 다시 시작해야 합니다.
  3. 화면 왼쪽 상단에서 실습 시작을 클릭하여 시작합니다.

시크릿 브라우징 사용

  1. 실습에 입력한 사용자 이름비밀번호를 복사합니다.
  2. 비공개 모드에서 콘솔 열기를 클릭합니다.

콘솔에 로그인

    실습 사용자 인증 정보를 사용하여
  1. 로그인합니다. 다른 사용자 인증 정보를 사용하면 오류가 발생하거나 요금이 부과될 수 있습니다.
  2. 약관에 동의하고 리소스 복구 페이지를 건너뜁니다.
  3. 실습을 완료했거나 다시 시작하려고 하는 경우가 아니면 실습 종료를 클릭하지 마세요. 이 버튼을 클릭하면 작업 내용이 지워지고 프로젝트가 삭제됩니다.

현재 이 콘텐츠를 이용할 수 없습니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

감사합니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

한 번에 실습 1개만 가능

모든 기존 실습을 종료하고 이 실습을 시작할지 확인하세요.

시크릿 브라우징을 사용하여 실습 실행하기

이 실습을 실행하는 가장 좋은 방법은 시크릿 모드 또는 시크릿 브라우저 창을 사용하는 것입니다. 개인 계정과 학생 계정 간의 충돌로 개인 계정에 추가 요금이 발생하는 일을 방지해 줍니다.