使用专用公共端点进行在线推理

专用公共端点是用于在线推理的公共端点。它具有以下优势:

  • 专用网络:当您向专用公共端点发送推理请求时,该请求会与其他用户的流量隔离开来。
  • 优化网络延迟
  • 支持更大的载荷:最大 10 MB。
  • 更长的请求超时时间:最多可配置 1 小时。
  • 支持生成式 AI:支持流式传输和 gRPC。推理超时时间最长可配置为 1 小时。

出于这些原因,建议将专用公共端点作为提供 Vertex AI 在线推理的最佳实践。

如需了解详情,请参阅选择端点类型

创建专用公开端点并将模型部署到该端点

您可以使用Google Cloud 控制台创建专用端点并将模型部署到该端点。如需了解详情,请参阅使用 Google Cloud 控制台部署模型

您还可以使用 Vertex AI API 创建专用公共端点并将模型部署到该端点,具体操作如下:

  1. 创建专用公共端点。 在创建端点时,系统支持配置推理超时和请求-响应日志记录设置。
  2. 使用 Vertex AI API 部署模型

从专用公共端点获取在线推理结果

专用端点同时支持 HTTP 和 gRPC 通信协议。对于 gRPC 请求,必须包含 x-vertex-ai-endpoint-id 标头,以便正确识别端点。支持以下 API:

  • 预测
  • RawPredict
  • StreamRawPredict
  • 聊天完成(仅限 Model Garden)

您可以使用 Vertex AI SDK for Python 向专用公共端点发送在线推理请求。如需了解详情,请参阅向专用公共端点发送在线推理请求

教程

限制

  • 不支持部署经过调优的 Gemini 模型。
  • 不支持 VPC Service Controls。请改用 Private Service Connect 端点。

后续步骤