A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estarão disponíveis em projetos que não os usaram antes, incluindo novos projetos. Para mais detalhes, consulte Versões e ciclo de vida do modelo.

Esta página foi traduzida pela API Cloud Translation.

Modelos do DeepSeek

Os modelos DeepSeek na Vertex AI oferecem modelos totalmente gerenciados e sem servidor modelos como APIs. Para usar um modelo DeepSeek na Vertex AI, envie uma solicitação diretamente para o endpoint de API Vertex AI. Como os modelos DeepSeek usam uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.

É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Modelos do DeepSeek disponíveis

Os modelos a seguir estão disponíveis na DeepSeek para uso na Vertex AI. Para acessar um modelo DeepSeek, acesse o card de modelo do Model Garden.

DeepSeek-V3.1

O DeepSeek-V3.1 é um modelo híbrido que oferece suporte aos modos de pensamento e não pensamento. Em comparação com a versão anterior, esse upgrade traz melhorias nos modos de pensamento híbrido, na chamada de função e na eficiência do pensamento.

DeepSeek R1 (0528)

O DeepSeek R1 (0528) é a versão mais recente do modelo DeepSeek R1. Em comparação com o DeepSeek-R1, ele tem uma profundidade de raciocínio e recursos de inferência significativamente melhores. O DeepSeek R1 (0528) se destaca em uma ampla variedade de tarefas, como escrita criativa, respostas a perguntas gerais, edição e resumo.

Considerações

Para ter segurança pronta para produção, integre o DeepSeek R1 (0528) ao Model Armor, que examina comandos e respostas de LLMs em busca de vários riscos de segurança.

Acessar o card de modelo do DeepSeek R1 (0528)

Usar modelos do DeepSeek

É possível usar comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:

Para o DeepSeek-V3.1, use deepseek-v3.1-maas
Para o DeepSeek R1 (0528), use deepseek-r1-0528-maas

Antes de começar

Para usar modelos DeepSeek com a Vertex AI, siga as etapas abaixo. A API Vertex AI (aiplatform.googleapis.com) precisa estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com a API do Vertex AI ativada, poderá usar esse projeto em vez de criar um novo.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

Acesse um dos seguintes cards de modelo do Model Garden e clique em Ativar:
- Acessar o card do modelo DeepSeek-V3.1
- Acessar o card de modelo do DeepSeek R1 (0528)

Fazer uma chamada de streaming para um modelo DeepSeek

O exemplo a seguir faz uma chamada de streaming para um modelo DeepSeek:

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

LOCATION: uma região compatível com modelos DeepSeek.
MODEL: o nome do modelo que você quer usar.
ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem cerca de quatro caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON da solicitação:

{
  "model": "deepseek-ai/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true
}

Para enviar a solicitação, escolha uma destas opções:

curl

Observação: o comando a seguir pressupõe que você fez login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que faz login automaticamente na CLI gcloud. . É possível verificar a conta ativa atual executando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Observação: o comando a seguir pressupõe que você fez login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login . É possível verificar a conta ativa atual executando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Resposta

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant"
      },
      "index": 0,
      "logprobs": null
    }
  ],
  "created": 1234567890,
  "id": "2025-06-11|10:00:00.292195-07|9.7.144.202|-123456789",
  "model": "deepseek-ai/MODEL",
  "object": "chat.completion.chunk"
  "system_fingerprint": "",
}

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant"
      },
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null
    }
  ],
  "created": 1234567890,
  "id": "2025-06-11|10:00:00.292195-07|9.7.144.202|-123456789",
  "model": "deepseek-ai/MODEL",
  "object": "chat.completion.chunk"
  "system_fingerprint": "",
  "usage": {
    "completion_tokens": 131,
    "prompt_tokens": 14,
    "total_tokens": 145
  }
}

data: [DONE]

Fazer uma chamada sem streaming para um modelo DeepSeek

O exemplo a seguir faz uma chamada sem streaming para um modelo DeepSeek:

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

LOCATION: uma região compatível com modelos DeepSeek.
MODEL: o nome do modelo que você quer usar.
ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem cerca de quatro caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON da solicitação:

{
  "model": "deepseek-ai/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false
}

Para enviar a solicitação, escolha uma destas opções:

curl

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Resposta

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "CONTENT",
        "role": "assistant"
      }
    }
  ],
  "created": 1234567890,
  "id": "2025-06-11|10:00:00.292195-07|9.7.144.202|-123456789",
  "model": "deepseek-ai/MODEL",
  "object": "chat.completion",
  "system_fingerprint": "",
  "usage": {
    "completion_tokens": 367,
    "prompt_tokens": 14,
    "total_tokens": 381
  }
}

Disponibilidade e cotas da região do modelo DeepSeek

Para modelos DeepSeek, uma cota se aplica a cada região em que o modelo está disponível. A cota é especificada em consultas por minuto (QPM, na sigla em inglês).

Modelo	Região	Cotas	Tamanho do contexto
DeepSeek-V3.1
DeepSeek-V3.1	`us-west2`		163.840
DeepSeek R1 (0528)
DeepSeek R1 (0528)	`us-central1`	QPM: 1000	163.840

Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.

Modelos do DeepSeek Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos do DeepSeek disponíveis

DeepSeek-V3.1

DeepSeek R1 (0528)

Considerações

Usar modelos do DeepSeek

Antes de começar

Fazer uma chamada de streaming para um modelo DeepSeek

REST

curl

PowerShell

Resposta

Fazer uma chamada sem streaming para um modelo DeepSeek

REST

curl

PowerShell

Resposta

Disponibilidade e cotas da região do modelo DeepSeek

Modelos do DeepSeek