生成式 AI 評估服務提供企業級工具,可根據資料客觀評估生成式 AI 模型。這項工具可支援及輔助多項開發工作,例如模型遷移、提示編輯和微調。
Gen AI Evaluation Service 功能
Gen AI Evaluation Service 的主要功能是使用適應性評量表,針對每個提示量身打造一組通過或失敗測試。評估標準類似於軟體開發中的單元測試,旨在提升模型在各種工作中的效能。
這項服務也支援下列其他常見的評估方法:
靜態評量表:為所有提示套用一組固定的評分標準。
以計算為基礎的指標:如有真值,請使用確定性演算法,例如
ROUGE
或BLEU
。自訂函式:在 Python 中定義自己的評估邏輯,以滿足特殊需求。
產生評估資料集
您可以透過下列方法建立評估資料集:
上傳檔案,內含完整的提示例項,或提供提示範本和相應的變數值檔案,以填入完整的提示。
直接從正式版記錄檔取樣,評估模型的實際使用情況。
使用合成資料生成功能,為任何提示範本生成大量一致的範例。
支援的介面
您可以使用下列介面定義及執行評估:
Google Cloud 控制台:網頁版使用者介面,提供端對端導覽工作流程。管理資料集、執行評估,以及深入瞭解互動式報表和視覺化內容。
Python SDK:為開發人員提供筆記本原生體驗。在 Colab 或 Jupyter 環境中,以程式輔助方式執行評估,並直接並排比較模型。
用途
透過 Gen AI 評估服務,您可以瞭解模型在特定工作中的表現,並根據獨特的評估標準取得有價值的洞察資訊,這些資訊無法從公開排行榜和一般基準取得。這項功能支援重要的開發工作,包括:
模型遷移:比較模型版本,瞭解行為差異,並據此微調提示和設定。
找出最佳模型:直接比較 Google 和第三方模型在您資料上的成效,建立成效基準,並找出最適合您用途的模型。
改善提示詞:根據評估結果調整提示詞,重新執行評估會建立緊密的意見回饋循環,針對變更提供即時的量化意見回饋。
模型微調:對每次執行作業套用一致的評估條件,評估微調模型的品質。
使用適應性評量表進行評估
適應性評量表是大多數評估用途的建議方法,通常也是最快速的評估入門方式。
與大多數 LLM 評估系統不同,這項測試導向的評估架構不會使用一般評分標準,而是會針對資料集中的每個提示,產生一組獨特的及格/不及格評分標準。這種做法可確保每次評估都與評估的特定工作相關。
每個提示的評估程序都採用兩階段系統:
生成評量表:這項服務會先分析提示,然後生成一份具體且可驗證的測試清單 (即評量表),列出優質回覆應符合的條件。
評量表驗證:模型生成回應後,服務會根據各項評量表評估回應,並提供清楚的
Pass
或Fail
判決和理由。
最終結果是匯總的通過率,以及模型通過的評量標準詳細分類,可提供實用洞察資訊,協助您診斷問題及評估改善成效。
從主觀的高階分數改為客觀的細部測試結果,您就能採用以評估為導向的開發週期,並在建構生成式 AI 應用程式的過程中,導入軟體工程最佳做法。
評量表評估範例
如要瞭解 Gen AI Evaluation Service 如何生成和使用評量表,請參考以下範例:
使用者提示:Write a four-sentence summary of the provided article about renewable energy, maintaining an optimistic tone.
針對這項提示,評量標準生成步驟可能會產生下列評量標準:
評分量表 1:回覆內容是所提供文章的摘要。
評量規準 2:回應包含四個句子。
評量表 3:回覆內容維持樂觀的語氣。
模型可能會產生下列回應:The article highlights significant growth in solar and wind power. These advancements are making clean energy more affordable. The future looks bright for renewables. However, the report also notes challenges with grid infrastructure.
在評量表驗證期間,Gen AI Evaluation Service 會根據每個評量表評估回覆:
評分量表 1:回覆內容是所提供文章的摘要。
Verdict:
Pass
原因:回覆內容準確歸納出重點。
評量規準 2:回應包含四個句子。
Verdict:
Pass
原因:回覆由四個不同的句子組成
評量表 3:回覆內容維持樂觀的語氣。
Verdict:
Fail
原因:最後一句帶入負面觀點,削弱了樂觀的語氣。
這項回應的最終通過率為 66.7%。如要比較兩個模型,您可以針對同一組生成的測試評估模型的回覆,並比較整體通過率。
評估工作流程
完成評估通常需要經過下列步驟:
建立評估資料集:彙整反映特定用途的提示例項資料集。如果您打算使用以運算為基礎的指標,可以加入參考答案 (真值)。
定義評估指標:選擇要用來評估模型成效的指標。SDK 支援所有指標類型,控制台則支援適應性評量表。
生成模型回覆:選取一或多個模型,為資料集生成回覆。SDK 支援透過
LiteLLM
呼叫的任何模型,而控制台支援 Google Gemini 模型。執行評估:執行評估工作,根據所選指標評估每個模型的回覆。
解讀結果:查看匯總分數和個別回覆,分析模型成效。
開始進行評估
您可以透過控制台開始進行評估。
或者,下列程式碼說明如何使用 Vertex AI SDK 中的 GenAI 用戶端完成評估:
from vertexai import client
from vertexai import types
import pandas as pd
# Create an evaluation dataset
prompts_df = pd.DataFrame({
"prompt": [
"Write a simple story about a dinosaur",
"Generate a poem about Vertex AI",
],
})
# Get responses from one or multiple models
eval_dataset = client.evals.run_inference(model="gemini-2.5-flash", src=prompts_df)
# Define the evaluation metrics and run the evaluation job
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[types.RubricMetric.GENERAL_QUALITY]
)
# View the evaluation results
eval_result.show()
Gen AI Evaluation Service 提供兩種 SDK 介面:
Vertex AI SDK 中的 GenAI 用戶端 (建議使用) (搶先體驗)
from vertexai import client
建議使用 GenAI 用戶端進行評估,這個新版介面可透過統一的用戶端類別存取。這個程式庫支援所有評估方法,適用於包含模型比較、筆記本內視覺化和模型自訂洞察資訊的工作流程。
Vertex AI SDK 中的評估模組 (正式發布)
from vertexai.evaluation import EvalTask
評估模組是舊版介面,我們維護這個介面是為了回溯相容於現有工作流程,但不再積極開發。可透過
EvalTask
類別存取。這個方法支援標準 LLM 做為評估者和以運算為基礎的指標,但不支援較新的評估方法,例如自適性評分標準。