700개 이상의 실습 및 과정 이용하기

Cloud Vision API를 사용한 이미지 속 라벨, 얼굴, 랜드마크 감지

실습 30분 universal_currency_alt 크레딧 5개 show_chart 중급

info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.

GSP037
개요
설정 및 요건
작업 1. API 키 만들기
작업 2. Cloud Storage 버킷에 이미지 업로드
작업 3. 요청 만들기
작업 4. 라벨 인식 수행
작업 5. 웹 감지 수행
작업 6. 얼굴 인식 수행
작업 7. 랜드마크 주석 수행
작업 8. 객체 현지화 수행
작업 9. 다른 Vision API 메서드 살펴보기
수고하셨습니다

700개 이상의 실습 및 과정 이용하기

GSP037

Google Cloud 사용자 주도형 실습 로고

개요

Cloud Vision API는 이미지를 분석하고 정보를 추출할 수 있게 해 주는 클라우드 기반 서비스입니다. 이 API를 사용하면 이미지에서 객체, 얼굴, 텍스트를 감지할 수 있으며 간단한 REST API에 강력한 머신러닝 모델을 캡슐화하여 이미지의 내용을 파악할 수 있습니다.

이 실습에서는 이미지를 Cloud Vision API로 전송하여 객체, 얼굴, 랜드마크를 감지하는 방법을 살펴봅니다.

목표

이 실습에서는 다음 작업을 수행하는 방법을 알아봅니다.

Cloud Vision API 요청 만들기 및 curl로 API 호출하기
API의 라벨, 얼굴, 랜드마크 감지 메서드 사용하기

설정 및 요건

실습 시작 버튼을 클릭하기 전에

다음 안내를 확인하세요. 실습에는 시간 제한이 있으며 일시중지할 수 없습니다. 실습 시작을 클릭하면 타이머가 시작됩니다. 이 타이머는 Google Cloud 리소스를 사용할 수 있는 시간이 얼마나 남았는지를 표시합니다.

실무형 실습을 통해 시뮬레이션이나 데모 환경이 아닌 실제 클라우드 환경에서 실습 활동을 진행할 수 있습니다. 실습 시간 동안 Google Cloud에 로그인하고 액세스하는 데 사용할 수 있는 새로운 임시 사용자 인증 정보가 제공됩니다.

이 실습을 완료하려면 다음을 준비해야 합니다.

표준 인터넷 브라우저 액세스 권한(Chrome 브라우저 권장)

참고: 이 실습을 실행하려면 시크릿 모드(권장) 또는 시크릿 브라우저 창을 사용하세요. 개인 계정과 학습자 계정 간의 충돌로 개인 계정에 추가 요금이 발생하는 일을 방지해 줍니다.

실습을 완료하기에 충분한 시간(실습을 시작하고 나면 일시중지할 수 없음)

참고: 이 실습에는 학습자 계정만 사용하세요. 다른 Google Cloud 계정을 사용하는 경우 해당 계정에 비용이 청구될 수 있습니다.

실습을 시작하고 Google Cloud 콘솔에 로그인하는 방법

실습 시작 버튼을 클릭합니다. 실습 비용을 결제해야 하는 경우 결제 수단을 선택할 수 있는 대화상자가 열립니다. 왼쪽에는 다음과 같은 항목이 포함된 실습 세부정보 창이 있습니다.
- Google Cloud 콘솔 열기 버튼
- 남은 시간
- 이 실습에 사용해야 하는 임시 사용자 인증 정보
- 필요한 경우 실습 진행을 위한 기타 정보
Google Cloud 콘솔 열기를 클릭합니다(Chrome 브라우저를 실행 중인 경우 마우스 오른쪽 버튼으로 클릭하고 시크릿 창에서 링크 열기를 선택합니다).

실습에서 리소스가 가동되면 다른 탭이 열리고 로그인 페이지가 표시됩니다.

팁: 두 개의 탭을 각각 별도의 창으로 나란히 정렬하세요.
참고: 계정 선택 대화상자가 표시되면 다른 계정 사용을 클릭합니다.
필요한 경우 아래의 사용자 이름을 복사하여 로그인 대화상자에 붙여넣습니다.
{{{user_0.username | "Username"}}}
실습 세부정보 창에서도 사용자 이름을 확인할 수 있습니다.
다음을 클릭합니다.
아래의 비밀번호를 복사하여 시작하기 대화상자에 붙여넣습니다.
{{{user_0.password | "Password"}}}
실습 세부정보 창에서도 비밀번호를 확인할 수 있습니다.
다음을 클릭합니다.
중요: 실습에서 제공하는 사용자 인증 정보를 사용해야 합니다. Google Cloud 계정 사용자 인증 정보를 사용하지 마세요. 참고: 이 실습에 자신의 Google Cloud 계정을 사용하면 추가 요금이 발생할 수 있습니다.
이후에 표시되는 페이지를 클릭하여 넘깁니다.
- 이용약관에 동의합니다.
- 임시 계정이므로 복구 옵션이나 2단계 인증을 추가하지 않습니다.
- 무료 체험판을 신청하지 않습니다.

잠시 후 Google Cloud 콘솔이 이 탭에서 열립니다.

참고: Google Cloud 제품 및 서비스에 액세스하려면 탐색 메뉴를 클릭하거나 검색창에 제품 또는 서비스 이름을 입력합니다. 탐색 메뉴 아이콘 및 검색창

Cloud Shell 활성화

Cloud Shell은 다양한 개발 도구가 탑재된 가상 머신으로, 5GB의 영구 홈 디렉터리를 제공하며 Google Cloud에서 실행됩니다. Cloud Shell을 사용하면 명령줄을 통해 Google Cloud 리소스에 액세스할 수 있습니다.

Google Cloud 콘솔 상단에서 Cloud Shell 활성화 를 클릭합니다.
다음 창을 클릭합니다.
- Cloud Shell 정보 창을 통해 계속 진행합니다.
- 사용자 인증 정보를 사용하여 Google Cloud API를 호출할 수 있도록 Cloud Shell을 승인합니다.

연결되면 사용자 인증이 이미 처리된 것이며 프로젝트가 학습자의 PROJECT_ID, (으)로 설정됩니다. 출력에 이 세션의 PROJECT_ID를 선언하는 줄이 포함됩니다.

Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}

gcloud는 Google Cloud의 명령줄 도구입니다. Cloud Shell에 사전 설치되어 있으며 명령줄 자동 완성을 지원합니다.

(선택사항) 다음 명령어를 사용하여 활성 계정 이름 목록을 표시할 수 있습니다.

gcloud auth list

승인을 클릭합니다.

출력:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} To set the active account, run: $ gcloud config set account `ACCOUNT`

(선택사항) 다음 명령어를 사용하여 프로젝트 ID 목록을 표시할 수 있습니다.

gcloud config list project

출력:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}}

참고: gcloud 전체 문서는 Google Cloud에서 gcloud CLI 개요 가이드를 참고하세요.

작업 1. API 키 만들기

이 작업에서는 Vision API로 요청을 전송하기 위한 준비 단계로 curl을 사용하여 요청 URL에 전달할 API 키를 생성합니다.

API 키를 생성하려면 Cloud 콘솔의 탐색 메뉴에서 API 및 서비스 > 사용자 인증 정보로 이동합니다.
사용자 인증 정보 만들기를 클릭한 후 API 키를 선택합니다.

API 키 옵션이 표시된 사용자 인증 정보 만들기 페이지

방금 생성한 키를 복사한 후 닫기를 클릭합니다.

내 진행 상황 확인하기를 클릭하여 실습 진행 상황을 확인하세요.

API 키 만들기

다음으로, 요청마다 API 키의 값을 삽입하지 않아도 되도록 환경 변수에 저장합니다.

다음 명령어를 업데이트하여 자리표시자 텍스트를 복사한 API 키로 바꾼 다음, Cloud Shell에서 명령어를 실행하여 값을 환경 변수로 설정합니다.

export API_KEY=<YOUR_API_KEY>

작업 2. Cloud Storage 버킷에 이미지 업로드

이미지 감지를 위해 Cloud Vision API에 이미지를 전송하는 방법에는 두 가지가 있습니다. API에 base64로 인코딩된 이미지 문자열을 전송하거나 Cloud Storage에 저장된 파일의 URL을 전달하는 방법입니다.

이 실습에서는 Cloud Storage URL 방식을 사용합니다. 첫 번째 단계는 이미지를 저장할 Cloud Storage 버킷을 만드는 것입니다.

탐색 메뉴에서 Cloud Storage > 버킷을 선택합니다. 버킷 옆에 있는 만들기를 클릭합니다.
버킷에 -bucket 형식으로 고유한 이름을 지정합니다.
버킷 이름을 지정한 후 객체 액세스를 제어하는 방식 선택을 클릭합니다.
이 버킷에 공개 액세스 방지 적용 체크박스를 선택 해제하고 세분화된 액세스 제어 라디오 버튼을 선택합니다.

버킷의 다른 모든 설정은 기본값으로 유지할 수 있습니다.

만들기를 클릭합니다.

버킷에 이미지 업로드

다음 도넛 이미지를 마우스 오른쪽 버튼으로 클릭한 다음 이미지를 다른 이름으로 저장을 클릭하고 donuts.png로 컴퓨터에 저장합니다.

방금 만든 버킷으로 이동하여 업로드 > 파일 업로드를 클릭한 다음 donuts.png를 선택하고 열기를 클릭합니다.

파일 업로드 버튼이 강조 표시된 버킷 세부정보 페이지

이렇게 하면 버킷에 파일이 표시됩니다.

이제 이 이미지를 공개적으로 사용할 수 있도록 만들어야 합니다.

이미지의 점 3개 아이콘을 클릭하고 액세스 수정을 선택합니다.

권한 수정 옵션이 강조 표시된 확장된 옵션 더보기 메뉴

항목 추가를 클릭한 후 다음을 입력합니다.
- 항목: Public
- 이름: allUsers
- 액세스: Reader
저장을 클릭합니다.

버킷에 파일이 있으므로 이제 Cloud Vision API 요청을 만들어 도넛 사진의 URL을 전달할 수 있습니다.

내 진행 상황 확인하기를 클릭하여 실습 진행 상황을 확인하세요.

버킷에 이미지 업로드

작업 3. 요청 만들기

Cloud Shell 홈 디렉터리에 request.json 파일을 만듭니다.

Cloud Shell 리본에서 연필 아이콘을 클릭해 Cloud Shell 코드 편집기를 사용하거나

편집기 열기 버튼

선호하는 명령줄 편집기(nano, vim, emacs)를 사용하여 request.json 파일을 만듭니다.

다음 코드를 request.json 파일에 붙여넣습니다.

{ "requests": [ { "image": { "source": { "gcsImageUri": "gs://{{{project_0.project_id | PROJECT_ID}}}-bucket/donuts.png" } }, "features": [ { "type": "LABEL_DETECTION", "maxResults": 10 } ] } ] }

파일을 저장합니다.

Cloud Shell IDE에서 Gemini Code Assist 사용 설정

Cloud Shell과 같은 통합 개발 환경(IDE)에서 Gemini Code Assist를 사용하여 코드에 대한 안내를 받거나 코드 문제를 해결할 수 있습니다. Gemini Code Assist를 사용하려면 먼저 사용 설정해야 합니다.

Cloud Shell에서 다음 명령어를 사용하여 Gemini for Google Cloud API를 사용 설정합니다.

gcloud services enable cloudaicompanion.googleapis.com

Cloud Shell 툴바에서 편집기 열기를 클릭합니다.

참고: Cloud Shell 편집기를 열려면 Cloud Shell 툴바에서 편집기 열기를 클릭합니다. 필요에 따라 편집기 열기 또는 터미널 열기를 클릭하여 Cloud Shell과 코드 편집기 간에 전환할 수 있습니다.

왼쪽 창에서 설정 아이콘을 클릭한 다음 설정 뷰에서 Gemini Code Assist를 검색합니다.
Geminicodeassist: 사용 체크박스가 선택되어 있는지 확인하고 설정을 닫습니다.
화면 하단의 상태 표시줄에서 Cloud Code - 프로젝트 없음을 클릭합니다.
안내에 따라 플러그인을 승인합니다. 프로젝트가 자동으로 선택되지 않으면 Google Cloud 프로젝트 선택을 클릭하고 을(를) 선택합니다.
상태 표시줄의 Cloud Code 상태 메시지에 Google Cloud 프로젝트()가 표시되는지 확인합니다.

작업 4. 라벨 인식 수행

첫 번째 Cloud Vision API 기능은 라벨 인식입니다. 메서드를 사용하면 이미지에 있는 내용의 라벨(단어) 목록이 반환됩니다.

Cloud Shell 터미널에서 다음 curl 명령어를 실행하여 Cloud Vision API를 호출하고 label_detection.json 파일에 응답을 저장합니다.

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json https://vision.googleapis.com/v1/images:annotate?key=${API_KEY} -o label_detection.json && cat label_detection.json

응답이 다음과 같이 표시됩니다.

출력:

{ "responses": [ { "labelAnnotations": [ { "mid": "/m/01dk8s", "description": "Powdered sugar", "score": 0.9861496, "topicality": 0.9861496 }, { "mid": "/m/01wydv", "description": "Beignet", "score": 0.9565117, "topicality": 0.9565117 }, { "mid": "/m/02wbm", "description": "Food", "score": 0.9424965, "topicality": 0.9424965 }, { "mid": "/m/0hnyx", "description": "Pastry", "score": 0.8173416, "topicality": 0.8173416 }, { "mid": "/m/02q08p0", "description": "Dish", "score": 0.8076026, "topicality": 0.8076026 }, { "mid": "/m/01ykh", "description": "Cuisine", "score": 0.79036003, "topicality": 0.79036003 }, { "mid": "/m/03nsjgy", "description": "Kourabiedes", "score": 0.77726763, "topicality": 0.77726763 }, { "mid": "/m/06gd3r", "description": "Angel wings", "score": 0.73792106, "topicality": 0.73792106 }, { "mid": "/m/06x4c", "description": "Sugar", "score": 0.71921736, "topicality": 0.71921736 }, { "mid": "/m/01zl9v", "description": "Zeppole", "score": 0.7111677, "topicality": 0.7111677 } ] } ] }

API가 이 도넛이 슈가 파우더 도넛이라는 구체적인 유형을 식별할 수 있었습니다. 좋습니다. Vision API가 찾은 각 라벨에 대해 다음이 반환됩니다.

항목의 이름이 포함된 description
설명과 이미지 내용의 일치에 대한 신뢰 수준을 0~1 사이의 숫자로 나타낸 score
Google 지식 그래프에서 해당 항목의 mid 값에 매핑된 mid 값. Knowledge Graph API를 호출할 때 mid를 사용하여 항목에 대한 자세한 정보를 얻을 수 있습니다.

Cloud Shell 편집기에서 label_detection.json으로 이동합니다. 이 작업을 통해 Gemini Code Assist가 사용 설정되며, 편집기 오른쪽 상단에 아이콘이 표시됩니다.

컨텍스트 전환을 최소화하는 동시에 생산성을 높일 수 있도록 Gemini Code Assist는 코드 편집기에서 바로 AI 기반의 스마트 작업을 제공합니다. 이 섹션에서는 팀원에게 Cloud Vision API 응답을 설명해 달라고 Gemini Code Assist에 요청합니다.

Gemini Code Assist: 스마트 작업 아이콘을 클릭하고 이 항목에 대한 설명을 선택합니다.
Gemini Code Assist가 Explain this라는 프롬프트가 미리 채워진 채팅 창을 엽니다. Code Assist 채팅의 인라인 텍스트 상자에서 미리 채워진 프롬프트를 다음으로 바꾸고 보내기를 클릭합니다.

You are a Machine Learning Engineer at Cymbal AI. A new team member needs help understanding this Cloud Vision API response. Explain the label_detection.json file in detail. Break down its key components and their function within the JSON code. For the suggested improvements, don't make any changes to the file's content.

label_detection.json 코드의 Cloud Vision API 응답에 대한 자세한 설명이 Gemini Code Assist 채팅에 표시됩니다.

작업 5. 웹 감지 수행

Cloud Vision API는 이미지의 내용에 대한 라벨을 가져올 뿐만 아니라 인터넷에서 이미지에 대한 추가적인 세부정보를 검색할 수도 있습니다. API의 WebDetection 메서드를 통해 다음과 같은 흥미로운 데이터를 많이 얻을 수 있습니다.

유사한 이미지가 있는 페이지의 콘텐츠를 기반으로 이미지에서 발견된 항목 목록
웹에서 발견된 완전 일치 및 부분 일치 이미지의 URL과 해당 페이지의 URL
'이미지로 검색' 결과와 같은 유사한 이미지의 URL

웹 감지를 사용해 보려면 동일한 베녜 이미지를 사용하고 request.json 파일에서 한 줄을 변경합니다(완전히 다른 이미지를 사용해 볼 수도 있습니다).

Cloud Shell 편집기의 같은 디렉터리에서 request.json을 찾아서 엽니다.
툴바에서 Gemini Code Assist: 스마트 작업 아이콘을 클릭합니다.

Gemini Code Assist의 AI 기반 기능을 사용하면 상세한 코드 설명을 확인할 수 있을 뿐만 아니라 코드 편집기에서 직접 코드를 수정할 수도 있습니다. 이 인스턴스에서는 Gemini Code Assist를 사용하여 request.json 파일의 콘텐츠를 수정합니다.

request.json 파일을 편집하려면 툴바에서 열리는 Gemini Code Assist 인라인 텍스트 입력란에 다음 프롬프트를 붙여넣습니다.

In the request.json file, update the features list, change type from LABEL_DETECTION to WEB_DETECTION.

Gemini Code Assist에 코드를 적절히 수정하도록 프롬프트를 입력하려면 Enter 키를 누릅니다.
Gemini Diff 뷰에 메시지가 표시되면 모든 변경사항 적용을 클릭합니다.

이제 request.json 파일의 콘텐츠가 다음과 유사하게 표시됩니다.

{ "requests": [ { "image": { "source": { "gcsImageUri": "gs://{{{project_0.project_id | PROJECT_ID}}}-bucket/donuts.png" } }, "features": [ { "type": "WEB_DETECTION", "maxResults": 10 } ] } ] }

Cloud Shell 터미널에서 다음 curl 명령어를 실행하여 Cloud Vision API를 호출합니다.

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json https://vision.googleapis.com/v1/images:annotate?key=${API_KEY}

webEntities부터 응답을 살펴봅니다. 이 이미지가 반환한 항목을 일부 살펴보면 다음과 같습니다.

{ "responses": [ { "webDetection": { "webEntities": [ { "entityId": "/m/0z5n", "score": 0.8868, "description": "Application programming interface" }, { "entityId": "/m/07kg1sq", "score": 0.3139, "description": "Encapsulation" }, { "entityId": "/m/0105pbj4", "score": 0.2713, "description": "Google Cloud Platform" }, { "entityId": "/m/01hyh_", "score": 0.2594, "description": "Machine learning" }, ... ]

이 이미지는 Cloud ML API에 관한 많은 프레젠테이션에 사용되었기 때문에 API가 'Machine learning'과 'Google Cloud Platform'이라는 항목을 찾았습니다.

fullMatchingImages, partialMatchingImages, pagesWithMatchingImages 아래의 URL을 검사해 보면 많은 URL이 이 실습 사이트를 가리키는 것을 알 수 있습니다(매우 메타적임).

다른 베녜 이미지를 찾고 싶지만 정확히 동일한 이미지는 원하지 않는다고 가정해 보겠습니다. 이때 API 응답의 visuallySimilarImages 부분이 유용해집니다. 다음은 시각적으로 유사한 몇 개의 이미지를 찾은 결과입니다.

"visuallySimilarImages": [ { "url": "https://media.istockphoto.com/photos/cafe-du-monde-picture-id1063530570?k=6&m=1063530570&s=612x612&w=0&h=b74EYAjlfxMw8G-G_6BW-6ltP9Y2UFQ3TjZopN-pigI=" }, { "url": "https://s3-media2.fl.yelpcdn.com/bphoto/oid0KchdCqlSqZzpznCEoA/o.jpg" }, { "url": "https://s3-media1.fl.yelpcdn.com/bphoto/mgAhrlLFvXe0IkT5UMOUlw/348s.jpg" }, ... ]

해당 URL로 이동하여 유사한 이미지를 확인할 수 있습니다.

슈가 파우더 베녜 이미지 1

슈가 파우더 베녜 이미지 2

슈가 파우더 베녜 이미지 3

슈가 파우더 베녜가 정말 먹고 싶어지네요(미안해요)! 이는 Google 이미지에서 이미지로 검색하는 과정과 유사합니다.

Cloud Vision을 사용하면 사용하기 쉬운 REST API로 이 기능에 액세스하여 애플리케이션에 통합할 수 있습니다.

작업 6. 얼굴 인식 수행

다음으로 Vision API의 얼굴 인식 메서드를 살펴보겠습니다.

얼굴 인식 메서드는 이미지에서 찾은 얼굴에 대한 데이터(얼굴의 감정과 이미지 내 위치 포함)를 반환합니다.

새로운 이미지 업로드

이 메서드를 사용하려면 얼굴이 포함된 새로운 이미지를 Cloud Storage 버킷에 업로드합니다.

다음 이미지를 마우스 오른쪽 버튼으로 클릭한 다음 이미지를 다른 이름으로 저장을 클릭하고 selfie.png로 컴퓨터에 저장합니다.

두 사람이 셀카를 찍고 있는 모습을 보여주는 셀피 이미지

이제 이전과 동일한 방식으로 Cloud Storage 버킷에 이미지를 업로드하고 공개 상태로 설정합니다.

내 진행 상황 확인하기를 클릭하여 실습 진행 상황을 확인하세요.

얼굴 인식을 위한 이미지를 버킷에 업로드

요청 파일 업데이트

Cloud Shell 편집기의 같은 디렉터리에서 request.json으로 이동합니다.
툴바에서 Gemini Code Assist: 스마트 작업 아이콘을 클릭합니다.
request.json 파일을 업데이트하는 데 도움이 되도록 툴바에서 열리는 Gemini Code Assist 인라인 텍스트 입력란에 다음 프롬프트를 붙여넣습니다.

Update the JSON file request.json to achieve three specific changes: * Update the gcsImageUri value from donuts.png to selfie.png. * Replace the existing features array with two new feature types: FACE_DETECTION and LANDMARK_DETECTION. * Don't want maxResults result.

Gemini Code Assist에 코드를 적절히 수정하도록 프롬프트를 입력하려면 Enter 키를 누릅니다.
Gemini Diff 뷰에 메시지가 표시되면 모든 변경사항 적용을 클릭합니다.

업데이트된 요청 파일이 다음과 유사하게 표시됩니다.

{ "requests": [ { "image": { "source": { "gcsImageUri": "gs://{{{project_0.project_id | PROJECT_ID}}}-bucket/selfie.png" } }, "features": [ { "type": "FACE_DETECTION" }, { "type": "LANDMARK_DETECTION" } ] } ] }

Vision API 호출 및 응답 파싱

Cloud Shell 터미널에서 다음 curl 명령어를 실행하여 Cloud Vision API를 호출합니다.

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json https://vision.googleapis.com/v1/images:annotate?key=${API_KEY}

응답에서 faceAnnotations 객체를 살펴봅니다. API가 이미지에서 찾은 각 얼굴에 대해 객체를 반환한다는 것을 알 수 있습니다. 이 경우 3개의 객체가 반환됩니다. 다음은 응답의 일부입니다.

{ "faceAnnotations": [ { "boundingPoly": { "vertices": [ { "x": 669, "y": 324 }, ... ] }, "fdBoundingPoly": { ... }, "landmarks": [ { "type": "LEFT_EYE", "position": { "x": 692.05646, "y": 372.95868, "z": -0.00025268539 } }, ... ], "rollAngle": 0.21619819, "panAngle": -23.027969, "tiltAngle": -1.5531756, "detectionConfidence": 0.72354823, "landmarkingConfidence": 0.20047489, "joyLikelihood": "LIKELY", "sorrowLikelihood": "VERY_UNLIKELY", "angerLikelihood": "VERY_UNLIKELY", "surpriseLikelihood": "VERY_UNLIKELY", "underExposedLikelihood": "VERY_UNLIKELY", "blurredLikelihood": "VERY_UNLIKELY", "headwearLikelihood": "VERY_LIKELY" } ... } }

boundingPoly는 이미지의 얼굴 주변 x,y 좌표를 제공합니다.
fdBoundingPoly는 boundingPoly보다 작은 상자로, 얼굴의 피부 부분에 집중합니다.
landmarks는 얼굴의 각 특징에 대한 객체의 배열이며, 그중에는 사용자가 알지 못했던 특징도 있을 수 있습니다. 이는 랜드마크의 유형과 해당 특징의 3D 위치(x,y,z 좌표)를 알려주며, 여기서 z 좌표는 깊이입니다. 나머지 값은 기쁨, 슬픔, 분노, 놀람을 나타낼 수 있는 가능성과 함께 얼굴에 대한 자세한 정보를 제공합니다.

지금 출력되어 있는 응답은 이미지에서 가장 뒤에 서 있는 사람에 대한 내용입니다. 이 사람이 약간 우스꽝스러운 표정을 짓고 있기 때문에 joyLikelihood가 LIKELY로 표시됩니다.

작업 7. 랜드마크 주석 수행

랜드마크 감지를 통해 일반적인 랜드마크와 잘 알려지지 않은 랜드마크를 식별할 수 있습니다. 랜드마크 감지는 랜드마크의 이름, 위도 및 경도 좌표, 이미지에서 랜드마크가 식별된 위치를 반환합니다.

새로운 이미지 업로드

이 메서드를 사용하려면 Cloud Storage 버킷에 새로운 이미지를 업로드합니다.

다음 이미지를 마우스 오른쪽 버튼으로 클릭한 다음 이미지를 다른 이름으로 저장을 클릭하고 city.png로 컴퓨터에 저장합니다.

도시 이미지

출처: Unsplash의 무료 미디어 저장소에 있는 Adrien Wodey의 러시아 모스크바의 성 바실리 성당(2019년 12월 19일) https://unsplash.com/photos/multicolored-dome-temple-yjyWCNx0J1U에서 가져왔습니다. 이 파일은 Unsplash 라이선스에 따라 사용이 허가되었습니다.

이제 이전과 동일한 방식으로 Cloud Storage 버킷에 이미지를 업로드하고 공개 상태로 설정합니다.

내 진행 상황 확인하기를 클릭하여 실습 진행 상황을 확인하세요.

랜드마크 주석을 위한 이미지를 버킷에 업로드

요청 파일 업데이트

다음으로, 새로운 이미지의 URL이 포함되어 있고 랜드마크 감지를 사용하는 다음 코드로 request.json 파일을 업데이트합니다.

{ "requests": [ { "image": { "source": { "gcsImageUri": "gs://{{{project_0.project_id | PROJECT_ID}}}-bucket/city.png" } }, "features": [ { "type": "LANDMARK_DETECTION", "maxResults": 10 } ] } ] }

Vision API 호출 및 응답 파싱

Cloud Shell 터미널에서 다음 curl 명령어를 실행하여 Cloud Vision API를 호출합니다.

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json https://vision.googleapis.com/v1/images:annotate?key=${API_KEY}

응답의 landmarkAnnotations 부분을 살펴봅니다.

"landmarkAnnotations": [ { "mid": "/m/0hm_7", "description": "Red Square", "score": 0.8557956, "boundingPoly": { "vertices": [ {}, { "x": 503 }, { "x": 503, "y": 650 }, { "y": 650 } ] }, "locations": [ { "latLng": { "latitude": 55.753930299999993, "longitude": 37.620794999999994 } ...

Cloud Vision API가 사진이 촬영된 장소를 식별하고 해당 위치의 지도 좌표(러시아 모스크바 붉은 광장의 성 바실리 성당)를 제공할 수 있었습니다.

이 응답의 값은 위의 labelAnnotations 응답과 비슷해야 합니다.

랜드마크의 mid 값
랜드마크 이름(description)
신뢰도 점수 score
이미지에서 랜드마크가 식별된 영역을 보여주는 boundingPoly
사진의 위도 및 경도 좌표를 알려주는 locations 키

작업 8. 객체 현지화 수행

Vision API는 객체 현지화를 사용하여 이미지에서 여러 객체를 감지하고 추출할 수 있습니다. 객체 현지화는 이미지에서 여러 객체를 식별하고 이미지의 각 객체에 LocalizedObjectAnnotation을 제공합니다. 각 LocalizedObjectAnnotation은 객체, 객체의 위치, 객체가 포함된 이미지 영역의 사각형 경계에 대한 정보를 식별합니다.

객체 현지화를 통해 이미지에서 중요한 객체와 덜 중요한 객체를 식별할 수 있습니다.

객체 정보는 영어로만 반환됩니다. Cloud Translation은 영어 라벨을 다양한 다른 언어로 번역할 수 있습니다.

이 메서드를 사용하려면 인터넷에 있는 기존 이미지를 사용하고 request.json 파일을 업데이트합니다.

요청 파일 업데이트

새로운 이미지의 URL이 포함되어 있고 객체 현지화를 사용하는 다음 코드로 request.json 파일을 업데이트합니다.

{ "requests": [ { "image": { "source": { "imageUri": "https://cloud.google.com/vision/docs/images/bicycle_example.png" } }, "features": [ { "maxResults": 10, "type": "OBJECT_LOCALIZATION" } ] } ] }

Vision API 호출 및 응답 파싱

Cloud Shell 터미널에서 다음 curl 명령어를 실행하여 Cloud Vision API를 호출합니다.

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json https://vision.googleapis.com/v1/images:annotate?key=${API_KEY}

다음으로 응답의 localizedObjectAnnotations 부분을 살펴봅니다.

{ "responses": [ { "localizedObjectAnnotations": [ { "mid": "/m/01bqk0", "name": "Bicycle wheel", "score": 0.89648587, "boundingPoly": { "normalizedVertices": [ { "x": 0.32076266, "y": 0.78941387 }, { "x": 0.43812272, "y": 0.78941387 }, { "x": 0.43812272, "y": 0.97331065 }, { "x": 0.32076266, "y": 0.97331065 } ] } }, { "mid": "/m/0199g", "name": "Bicycle", "score": 0.886761, "boundingPoly": { "normalizedVertices": [ { "x": 0.312, "y": 0.6616471 }, { "x": 0.638353, "y": 0.6616471 }, { "x": 0.638353, "y": 0.9705882 }, { "x": 0.312, "y": 0.9705882 } ] } }, ...

보시다시피 Vision API가 이 사진에서 자전거와 자전거 바퀴를 식별했다는 것을 알 수 있습니다. 이 응답의 값은 위의 labelAnnotations 응답과 유사해야 합니다. 객체의 mid 값, 객체의 이름(name), 신뢰도 점수 score, 객체가 식별된 이미지의 영역을 보여주는 boundingPoly가 여기에 포함됩니다.

또한 boundingPoly에는 이미지 속 객체의 좌표를 알려주는 normalizedVertices 키가 있습니다. 이러한 좌표는 0~1 범위로 정규화되며, 0은 이미지의 왼쪽 상단을 가리키고 1은 이미지의 오른쪽 하단을 가리킵니다.

좋습니다. Vision API를 사용하여 이미지를 분석하고 이미지 속 객체에 대한 정보를 추출했습니다.

작업 9. 다른 Vision API 메서드 살펴보기

지금까지 Vision API의 라벨, 얼굴, 랜드마크 감지, 객체 현지화 메서드를 살펴보았습니다. 하지만 아직 살펴보지 않은 세 가지 메서드가 더 있습니다. 메서드: images.annotate 문서에서 나머지 세 가지 메서드에 대해 알아보세요.

로고 인식: 이미지에서 일반적인 로고와 그 위치를 식별합니다.
세이프서치 감지: 이미지에 선정적인 콘텐츠가 포함되어 있는지 여부를 판단합니다. 이는 사용자 제작 콘텐츠가 있는 모든 애플리케이션에 유용합니다. 성인용, 의료 관련, 폭력, 패러디 콘텐츠 등 4가지 요소를 기준으로 이미지를 필터링할 수 있습니다.
텍스트 인식: OCR을 실행하여 이미지에서 텍스트를 추출합니다. 이 메서드는 이미지 속 텍스트의 언어를 식별할 수도 있습니다.

수고하셨습니다

Vision API를 사용하여 이미지를 분석하는 방법을 알아보았습니다. 이 실습에서는 API에 다양한 이미지의 Cloud Storage URL을 전달했고 API는 이미지에서 찾은 라벨, 얼굴, 랜드마크, 객체를 반환했습니다. API에 이미지의 문자열을 base64로 인코딩하여 전달할 수도 있습니다. 이는 데이터베이스나 메모리에 저장된 이미지를 분석하려는 경우에 유용합니다.

다음 단계/더 학습하기

문서에서 Cloud Vision API 튜토리얼 살펴보기
GitHub에서 선호하는 언어로 Cloud Vision API 샘플 찾아보기
Natural Language API를 사용한 항목 및 감정 분석 실습 살펴보기

Google Cloud 교육 및 자격증

Google Cloud 기술을 최대한 활용하는 데 도움이 됩니다. Google 강의에는 빠른 습득과 지속적인 학습을 지원하는 기술적인 지식과 권장사항이 포함되어 있습니다. 기초에서 고급까지 수준별 학습을 제공하며 바쁜 일정에 알맞은 주문형, 실시간, 가상 옵션이 포함되어 있습니다. 인증은 Google Cloud 기술에 대한 역량과 전문성을 검증하고 입증하는 데 도움이 됩니다.

설명서 최종 업데이트: 2025년 10월 14일

실습 최종 테스트: 2025년 10월 14일

Cloud Vision API를 사용한 이미지 속 라벨, 얼굴, 랜드마크 감지

GSP037

개요

목표

설정 및 요건

실습 시작 버튼을 클릭하기 전에

실습을 시작하고 Google Cloud 콘솔에 로그인하는 방법

Cloud Shell 활성화

작업 1. API 키 만들기

작업 2. Cloud Storage 버킷에 이미지 업로드

버킷에 이미지 업로드

작업 3. 요청 만들기

Cloud Shell IDE에서 Gemini Code Assist 사용 설정

작업 4. 라벨 인식 수행

작업 5. 웹 감지 수행

작업 6. 얼굴 인식 수행

새로운 이미지 업로드

요청 파일 업데이트

Vision API 호출 및 응답 파싱

작업 7. 랜드마크 주석 수행

새로운 이미지 업로드

요청 파일 업데이트

Vision API 호출 및 응답 파싱

작업 8. 객체 현지화 수행

요청 파일 업데이트

Vision API 호출 및 응답 파싱

작업 9. 다른 Vision API 메서드 살펴보기

수고하셨습니다

다음 단계/더 학습하기

Google Cloud 교육 및 자격증

시작하기 전에

시크릿 브라우징 사용

콘솔에 로그인

시크릿 브라우징을 사용하여 실습 실행하기