A partire dal 29 aprile 2025, i modelli Gemini 1.5 Pro e Gemini 1.5 Flash non sono disponibili nei progetti che non li hanno mai utilizzati, inclusi i nuovi progetti. Per maggiori dettagli, vedi Versioni e ciclo di vita dei modelli.

Questa pagina è stata tradotta dall'API Cloud Translation.

Modelli DeepSeek

I modelli DeepSeek su Vertex AI offrono modelli serverless e completamente gestiti come API. Per utilizzare un modello DeepSeek su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli DeepSeek utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.

Puoi trasmettere in streaming le risposte per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per trasmettere in streaming in modo incrementale la risposta.

Modelli DeepSeek disponibili

I seguenti modelli sono disponibili da DeepSeek per l'utilizzo in Vertex AI. Per accedere a un modello DeepSeek, vai alla relativa scheda del modello Model Garden.

DeepSeek-V3.1

DeepSeek-V3.1 è un modello ibrido che supporta sia la modalità di pensiero sia la modalità non di pensiero. Rispetto alla versione precedente, questo upgrade migliora le modalità di pensiero ibrido, la chiamata di strumenti e l'efficienza del pensiero.

DeepSeek R1 (0528)

DeepSeek R1 (0528) è l'ultima versione del modello DeepSeek R1. Rispetto a DeepSeek-R1, ha migliorato significativamente la profondità del ragionamento e le capacità di inferenza. DeepSeek R1 (0528) eccelle in un'ampia gamma di attività, come scrittura creativa, risposta a domande generali, editing e riassunto.

Considerazioni

Per una sicurezza pronta per la produzione, integra DeepSeek R1 (0528) con Model Armor, che analizza i prompt e le risposte degli LLM in base a vari rischi per la sicurezza e la protezione.

Vai alla scheda del modello DeepSeek R1 (0528)

Utilizzare i modelli DeepSeek

Puoi utilizzare i comandi curl per inviare richieste all'endpoint Vertex AI utilizzando i seguenti nomi di modelli:

Per DeepSeek-V3.1, utilizza deepseek-v3.1-maas
Per DeepSeek R1 (0528), utilizza deepseek-r1-0528-maas

Prima di iniziare

Per utilizzare i modelli DeepSeek con Vertex AI, devi eseguire i seguenti passaggi. L'API Vertex AI (aiplatform.googleapis.com) deve essere abilitata per utilizzare Vertex AI. Se hai già un progetto esistente con l'API Vertex AI abilitata, puoi utilizzare questo progetto anziché crearne uno nuovo.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

Vai a una delle seguenti schede del modello Model Garden, poi fai clic su Attiva:
- Vai alla scheda del modello DeepSeek-V3.1
- Vai alla scheda del modello DeepSeek R1 (0528)

Fai una chiamata di streaming a un modello DeepSeek

Il seguente esempio esegue una chiamata di streaming a un modello DeepSeek:

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

LOCATION: una regione che supporta i modelli DeepSeek.
MODEL: il nome del modello che vuoi utilizzare.
ROLE: il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con turni alternati user e assistant. Se il messaggio finale utilizza il ruolo assistant, il contenuto della risposta continua immediatamente dal contenuto di quel messaggio. Puoi utilizzare questo prompt per vincolare una parte della risposta del modello.
CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti in streaming la risposta per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere in streaming la risposta e su false per restituire la risposta tutta in una volta.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON della richiesta:

{
  "model": "deepseek-ai/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login . Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Risposta

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant"
      },
      "index": 0,
      "logprobs": null
    }
  ],
  "created": 1234567890,
  "id": "2025-06-11|10:00:00.292195-07|9.7.144.202|-123456789",
  "model": "deepseek-ai/MODEL",
  "object": "chat.completion.chunk"
  "system_fingerprint": "",
}

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant"
      },
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null
    }
  ],
  "created": 1234567890,
  "id": "2025-06-11|10:00:00.292195-07|9.7.144.202|-123456789",
  "model": "deepseek-ai/MODEL",
  "object": "chat.completion.chunk"
  "system_fingerprint": "",
  "usage": {
    "completion_tokens": 131,
    "prompt_tokens": 14,
    "total_tokens": 145
  }
}

data: [DONE]

Fai una chiamata non in streaming a un modello DeepSeek

L'esempio seguente esegue una chiamata non in streaming a un modello DeepSeek:

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

LOCATION: una regione che supporta i modelli DeepSeek.
MODEL: il nome del modello che vuoi utilizzare.
ROLE: il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con turni alternati user e assistant. Se il messaggio finale utilizza il ruolo assistant, il contenuto della risposta continua immediatamente dal contenuto di quel messaggio. Puoi utilizzare questo prompt per vincolare una parte della risposta del modello.
CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti in streaming la risposta per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere in streaming la risposta e su false per restituire la risposta tutta in una volta.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON della richiesta:

{
  "model": "deepseek-ai/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Risposta

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "CONTENT",
        "role": "assistant"
      }
    }
  ],
  "created": 1234567890,
  "id": "2025-06-11|10:00:00.292195-07|9.7.144.202|-123456789",
  "model": "deepseek-ai/MODEL",
  "object": "chat.completion",
  "system_fingerprint": "",
  "usage": {
    "completion_tokens": 367,
    "prompt_tokens": 14,
    "total_tokens": 381
  }
}

Disponibilità e quote per la regione del modello DeepSeek

Per i modelli DeepSeek, si applica una quota per ogni regione in cui il modello è disponibile. La quota è specificata in query al minuto (QPM).

Modello	Regione	Quote	Lunghezza del contesto
DeepSeek-V3.1
DeepSeek-V3.1	`us-west2`		163.840
DeepSeek R1 (0528)
DeepSeek R1 (0528)	`us-central1`	QPM: 1000	163.840

Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la Google Cloud console per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.

Modelli DeepSeek Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Modelli DeepSeek disponibili

DeepSeek-V3.1

DeepSeek R1 (0528)

Considerazioni

Utilizzare i modelli DeepSeek

Prima di iniziare

Fai una chiamata di streaming a un modello DeepSeek

REST

curl

PowerShell

Risposta

Fai una chiamata non in streaming a un modello DeepSeek

REST

curl

PowerShell

Risposta

Disponibilità e quote per la regione del modello DeepSeek

Modelli DeepSeek