English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

控制台

聯絡我們免費試用

本頁面由 Cloud Translation API 翻譯而成。

使用專用公開端點進行線上推論

專屬公開端點是線上推論的公開端點，這項功能有以下優點：

專屬網路：將推論要求傳送至專屬公開端點時，系統會將要求與其他使用者的流量隔離。
最佳化網路延遲
支援較大的酬載：最多 10 MB。
延長要求逾時時間：可設定最長 1 小時。
支援生成式 AI：支援串流和 gRPC。推論逾時時間最長可設定為 1 小時。

因此，建議您採用專屬公開端點，做為提供 Vertex AI 線上推論的最佳做法。

詳情請參閱「選擇端點類型」。

建立專屬公開端點，並將模型部署至該端點

您可以使用Google Cloud 控制台建立專屬端點，並將模型部署至該端點。詳情請參閱「使用 Google Cloud 控制台部署模型」一文。

您也可以建立專用的公開端點，並使用 Vertex AI API 將模型部署至該端點，方法如下：

建立專用的公開端點。建立端點時，系統支援推論逾時和要求/回應記錄設定。
使用 Vertex AI API 部署模型。

透過專屬公開端點取得線上推論結果

專屬端點支援 HTTP 和 gRPC 通訊協定。如果是 gRPC 要求，則必須加入 x-vertex-ai-endpoint-id 標頭，才能正確識別端點。系統支援下列 API：

預測
RawPredict
StreamRawPredict
Chat Completion (僅限 Model Garden)

您可以使用 Python 適用的 Vertex AI SDK，將線上推論要求傳送至專屬公開端點。詳情請參閱「將線上推論要求傳送至專屬公開端點」。

教學課程

限制

不支援部署微調後的 Gemini 模型。
不支援 VPC Service Controls。請改用 Private Service Connect 端點。

後續步驟

瞭解 Vertex AI 線上推論端點類型。

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。

上次更新時間：2025-09-02 (世界標準時間)。