使用專用公開端點進行線上推論

專屬公開端點是線上推論的公開端點,這項功能有以下優點:

  • 專屬網路:將推論要求傳送至專屬公開端點時,系統會將要求與其他使用者的流量隔離。
  • 最佳化網路延遲
  • 支援較大的酬載:最多 10 MB。
  • 延長要求逾時時間:可設定最長 1 小時。
  • 支援生成式 AI:支援串流和 gRPC。推論逾時時間最長可設定為 1 小時。

因此,建議您採用專屬公開端點,做為提供 Vertex AI 線上推論的最佳做法。

詳情請參閱「選擇端點類型」。

建立專屬公開端點,並將模型部署至該端點

您可以使用Google Cloud 控制台建立專屬端點,並將模型部署至該端點。詳情請參閱「使用 Google Cloud 控制台部署模型」一文。

您也可以建立專用的公開端點,並使用 Vertex AI API 將模型部署至該端點,方法如下:

  1. 建立專用的公開端點。 建立端點時,系統支援推論逾時和要求/回應記錄設定。
  2. 使用 Vertex AI API 部署模型

透過專屬公開端點取得線上推論結果

專屬端點支援 HTTP 和 gRPC 通訊協定。如果是 gRPC 要求,則必須加入 x-vertex-ai-endpoint-id 標頭,才能正確識別端點。系統支援下列 API:

  • 預測
  • RawPredict
  • StreamRawPredict
  • Chat Completion (僅限 Model Garden)

您可以使用 Python 適用的 Vertex AI SDK,將線上推論要求傳送至專屬公開端點。詳情請參閱「將線上推論要求傳送至專屬公開端點」。

教學課程

限制

  • 不支援部署微調後的 Gemini 模型。
  • 不支援 VPC Service Controls。請改用 Private Service Connect 端點。

後續步驟