์ด ํ์ด์ง์์๋ Vertex AI SDK์ GenAI ํด๋ผ์ด์ธํธ์์ ์ฌ์ฉํ ์ ์๋ Gen AI Evaluation Service์์ ์ ๊ณตํ๋ ๊ด๋ฆฌํ ๋ฃจ๋ธ๋ฆญ ๊ธฐ๋ฐ ์ธก์ ํญ๋ชฉ์ ์ ์ฒด ๋ชฉ๋ก์ ์ ๊ณตํฉ๋๋ค.
ํ ์คํธ ๊ธฐ๋ฐ ํ๊ฐ์ ๊ดํ ์์ธํ ๋ด์ฉ์ ํ๊ฐ ์ธก์ ํญ๋ชฉ ์ ์๋ฅผ ์ฐธ๊ณ ํ์ธ์.
๊ฐ์
Gen AI Evaluation Service๋ ํ ์คํธ ๊ธฐ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ์ ๋ํด ๊ด๋ฆฌ๋๋ ๋ฃจ๋ธ๋ฆญ ๊ธฐ๋ฐ ์ธก์ ํญ๋ชฉ ๋ชฉ๋ก์ ์ ๊ณตํฉ๋๋ค.
์ ์ํ ๋ฃจ๋ธ๋ฆญ์ด ์๋ ์ธก์ ํญ๋ชฉ์ ๊ฒฝ์ฐ ๋๋ถ๋ถ ๊ฐ ํ๋กฌํํธ์ ๋ฃจ๋ธ๋ฆญ ์์ฑ ์ํฌํ๋ก์ ๋ฃจ๋ธ๋ฆญ ๊ฒ์ฆ์ด ๋ชจ๋ ํฌํจ๋ฉ๋๋ค. ํ์ํ ๊ฒฝ์ฐ ๋ณ๋๋ก ์คํํ ์ ์์ต๋๋ค. ์์ธํ ๋ด์ฉ์ ํ๊ฐ ์คํ์ ์ฐธ๊ณ ํ์ธ์.
์ ์ ๋ฃจ๋ธ๋ฆญ์ด ์๋ ์ธก์ ํญ๋ชฉ์ ๊ฒฝ์ฐ ํ๋กฌํํธ๋ณ ๋ฃจ๋ธ๋ฆญ์ด ์์ฑ๋์ง ์์ต๋๋ค. ์๋ํ ์ถ๋ ฅ์ ๊ดํ ์์ธํ ๋ด์ฉ์ ์ธก์ ํญ๋ชฉ ์ธ๋ถ์ ๋ณด๋ฅผ ์ฐธ๊ณ ํ์ธ์.
๊ด๋ฆฌ ๋ฃจ๋ธ๋ฆญ ๊ธฐ๋ฐ ์ธก์ ํญ๋ชฉ์๋ ๋ฒ์ ๋ฒํธ๊ฐ ์์ต๋๋ค. ์ธก์ ํญ๋ชฉ์ ๊ธฐ๋ณธ์ ์ผ๋ก ์ต์ ๋ฒ์ ์ ์ฌ์ฉํ์ง๋ง ํ์ํ ๊ฒฝ์ฐ ํน์ ๋ฒ์ ์ผ๋ก ๊ณ ์ ํ ์ ์์ต๋๋ค.
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
ํ์ ํธํ์ฑ
์ธก์ ํญ๋ชฉ ํ๋กฌํํธ ํ ํ๋ฆฟ์ผ๋ก ์ ๊ณต๋๋ ์ธก์ ํญ๋ชฉ์ ๊ฒฝ์ฐ ๋์ผํ ์ ๊ทผ ๋ฐฉ์์ ํตํด Vertex AI SDK์ ์์ฑํ AI ํด๋ผ์ด์ธํธ๋ฅผ ํตํด ํฌ์ธํธ๋ณ ์ธก์ ํญ๋ชฉ์ ๊ณ์ ์ก์ธ์คํ ์ ์์ต๋๋ค. Vertex AI SDK์ GenAI ํด๋ผ์ด์ธํธ์์๋ ํ์ด์์ด์ฆ ์ธก์ ํญ๋ชฉ์ด ์ง์๋์ง ์์ง๋ง ํ๊ฐ ์คํ์ ์ฐธ๊ณ ํ์ฌ ๋์ผํ ํ๊ฐ์์ ๋ ๋ชจ๋ธ์ ๋น๊ตํ์ธ์.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
๊ด๋ฆฌํ ์ธก์ ํญ๋ชฉ ์ธ๋ถ์ ๋ณด
์ด ์น์ ์๋ ์ ํ, ํ์ ์ ๋ ฅ, ์์ ์ถ๋ ฅ๊ณผ ๊ฐ์ ์ธ๋ถ์ ๋ณด๊ฐ ํฌํจ๋ ๊ด๋ฆฌ ์ธก์ ํญ๋ชฉ์ด ๋์ด๋์ด ์์ต๋๋ค.
- ์ผ๋ฐ ํ์ง
- ํ ์คํธ ํ์ง
- ์์ฒญ ์ฌํญ ์ค์
- ๊ทธ๋ผ์ด๋ฉ
- ์์
- ๋ฉํฐํด ์ผ๋ฐ ํ์ง
- ๋ฉํฐํด ํ ์คํธ ํ์ง
- ์๋ด์ฌ ์ต์ข ์๋ต ์ผ์น
- ์๋ด์ฌ ์ต์ข ๋ต๋ณ ์ฐธ์กฐ ๋ฌด๋ฃ
์ผ๋ฐ์ ์ธ ํ์ง
์ต์ ๋ฒ์ | general_quality_v1 |
์ ํ | ์ ์ํ ๊ธฐ์คํ |
์ค๋ช | ๋ชจ๋ธ ์๋ต์ ์ ๋ฐ์ ์ธ ํ์ง์ ํ๊ฐํ๋ ํฌ๊ด์ ์ธ ์ ์ํ ๋ฃจ๋ธ๋ฆญ ์ธก์ ํญ๋ชฉ์ ๋๋ค. ํ๋กฌํํธ์ ์ฝํ ์ธ ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ๊ธฐ์ค์ ์๋์ผ๋ก ์์ฑํ๊ณ ํ๊ฐํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋๋ถ๋ถ์ ํ๊ฐ์ ๊ถ์ฅ๋๋ ์์์ ์ ๋๋ค. |
SDK์์ ์ก์ธ์คํ๋ ๋ฐฉ๋ฒ | types.RubricMetric.GENERAL_QUALITY |
์ ๋ ฅ |
|
์ถ๋ ฅ |
|
LLM ํธ์ถ ์ | Gemini 2.5 Flash์ ๋ํ 6๊ฐ์ ํธ์ถ |
ํ ์คํธ ํ์ง
์ต์ ๋ฒ์ | text_quality_v1 |
์ ํ | ์ ์ํ ๊ธฐ์คํ |
์ค๋ช | ์๋ต์ ์ธ์ด์ ํ์ง์ ๊ตฌ์ฒด์ ์ผ๋ก ํ๊ฐํ๋ ํ๊ฒ ์ ์ํ ๋ฃจ๋ธ๋ฆญ ์ธก์ ํญ๋ชฉ์ ๋๋ค. ์ ์ฐฝ์ฑ, ์ผ๊ด์ฑ, ๋ฌธ๋ฒ๊ณผ ๊ฐ์ ์ธก๋ฉด์ ํ๊ฐํฉ๋๋ค. |
SDK์์ ์ก์ธ์คํ๋ ๋ฐฉ๋ฒ | types.RubricMetric.TEXT_QUALITY |
์ ๋ ฅ |
|
์ถ๋ ฅ |
|
LLM ํธ์ถ ์ | Gemini 2.5 Flash์ ๋ํ 6๊ฐ์ ํธ์ถ |
์๋ด ์ค์์ฑ
์ต์ ๋ฒ์ | instruction_following_v1 |
์ ํ | ์ ์ํ ๊ธฐ์คํ |
์ค๋ช | ํ๋กฌํํธ์ ์ ๊ณต๋ ํน์ ์ ์ฝ ์กฐ๊ฑด๊ณผ ์์ฒญ ์ฌํญ์ ์ผ๋ง๋ ์ ์ค์ํ๋์ง ์ธก์ ํ๋ ํ๊ฒ ์ ์ํ ๊ธฐ์คํ ์ธก์ ํญ๋ชฉ์ ๋๋ค. |
SDK์์ ์ก์ธ์คํ๋ ๋ฐฉ๋ฒ | types.RubricMetric.INSTRUCTION_FOLLOWING |
์ ๋ ฅ |
|
์ถ๋ ฅ |
|
LLM ํธ์ถ ์ | Gemini 2.5 Flash์ ๋ํ 6๊ฐ์ ํธ์ถ |
๊ทธ๋ผ์ด๋ฉ
์ต์ ๋ฒ์ | grounding_v1 |
์ ํ | ์ ์ ๊ธฐ์คํ |
์ค๋ช | ์ฌ์ค์ฑ๊ณผ ์ผ๊ด์ฑ์ ํ์ธํ๋ ์ ์ ๊ธฐ๋ฐ ์ธก์ ํญ๋ชฉ์ ๋๋ค. ๋ชจ๋ธ์ ๋๋ต์ด ์ปจํ ์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ทธ๋ผ์ด๋ฉ๋์๋์ง ํ์ธํฉ๋๋ค. |
SDK์์ ์ก์ธ์คํ๋ ๋ฐฉ๋ฒ | types.RubricMetric.GROUNDING |
์ ๋ ฅ |
|
์ถ๋ ฅ |
0-1 ๋ฒ์์ด๋ฉฐ, ์
๋ ฅ ํ๋กฌํํธ์ ๋ํ supported ๋๋ no_rad (์ฌ์ค์ ์ถ์ฒ๊ฐ ํ์ํ์ง ์์, ์ธ์ฌ๋ง, ์ง๋ฌธ, ๋ฉด์ฑ
์กฐํญ ๋ฑ)๋ก ๋ผ๋ฒจ์ด ์ง์ ๋ ์์ฒญ์ ๋น์จ์ ๋ํ๋
๋๋ค.
์ค๋ช ์๋ ๋ฌธ์ฅ, ๋ผ๋ฒจ, ์ถ๋ก , ๋งฅ๋ฝ์ ๋ฐ์ท๊ฐ ๊ทธ๋ฃนํ๋์ด ์์ต๋๋ค. |
LLM ํธ์ถ ์ | Gemini 2.5 Flash์ ๋ํ 1๊ฐ์ ํธ์ถ |
์์
์ต์ ๋ฒ์ | safety_v1 |
์ ํ | ์ ์ ๊ธฐ์คํ |
์ค๋ช |
๋ชจ๋ธ์ ๋๋ต์ด ๋ค์ ์ ์ฑ
์ค ํ๋ ์ด์์ ์๋ฐํ๋์ง ํ๊ฐํ๋ ์ ์ ๊ธฐ๋ฐ ์ธก์ ํญ๋ชฉ์
๋๋ค.
|
SDK์์ ์ก์ธ์คํ๋ ๋ฐฉ๋ฒ | types.RubricMetric.SAFETY |
์ ๋ ฅ |
|
์ถ๋ ฅ |
0 ๋ ์์ ํ์ง ์๊ณ 1 ๋ ์์ ํฉ๋๋ค.
์ค๋ช ํ๋์๋ ์๋ฐ๋ ์ ์ฑ ์ด ํฌํจ๋ฉ๋๋ค. |
LLM ํธ์ถ ์ | Gemini 2.5 Flash์ ๋ํ 10๊ฐ์ ํธ์ถ |
๋ฉํฐํด ์ผ๋ฐ ํ์ง
์ต์ ๋ฒ์ | multi_turn_general_quality_v1 |
์ ํ | ์ ์ํ ๊ธฐ์คํ |
์ค๋ช | ๋ฉํฐํด ๋ํ์ ๋งฅ๋ฝ์์ ๋ชจ๋ธ ์๋ต์ ์ ๋ฐ์ ์ธ ํ์ง์ ํ๊ฐํ๋ ์ ์ํ ๊ธฐ์คํ ์ธก์ ํญ๋ชฉ์ ๋๋ค. |
SDK์์ ์ก์ธ์คํ๋ ๋ฐฉ๋ฒ | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
์ ๋ ฅ |
|
์ถ๋ ฅ |
|
LLM ํธ์ถ ์ | Gemini 2.5 Flash์ ๋ํ 6๊ฐ์ ํธ์ถ |
๋ฉํฐํด ํ ์คํธ ํ์ง
์ต์ ๋ฒ์ | multi_turn_text_quality_v1 |
์ ํ | ์ ์ํ ๊ธฐ์คํ |
์ค๋ช | ๋ฉํฐํด ๋ํ์ ๋งฅ๋ฝ์์ ๋ชจ๋ธ ์๋ต์ ํ ์คํธ ํ์ง์ ํ๊ฐํ๋ ์ ์ํ ๊ธฐ์คํ ์ธก์ ํญ๋ชฉ์ ๋๋ค. |
SDK์์ ์ก์ธ์คํ๋ ๋ฐฉ๋ฒ | types.RubricMetric.TEXT_QUALITY |
์ ๋ ฅ |
|
์ถ๋ ฅ |
|
LLM ํธ์ถ ์ | Gemini 2.5 Flash์ ๋ํ 6๊ฐ์ ํธ์ถ |
์๋ด์ฌ ์ต์ข ์๋ต ์ผ์น
์ต์ ๋ฒ์ | final_response_match_v2 |
์ ํ | ์ ์ ๊ธฐ์คํ |
์ค๋ช | ์ ๊ณต๋ ์ฐธ์กฐ ๋ต๋ณ (์ ๋ต)๊ณผ ๋น๊ตํ์ฌ AI ์์ด์ ํธ์ ์ต์ข ๋ต๋ณ ํ์ง์ ํ๊ฐํ๋ ์ธก์ ํญ๋ชฉ์ ๋๋ค. |
SDK์์ ์ก์ธ์คํ๋ ๋ฐฉ๋ฒ | types.RubricMetric.FINAL_RESPONSE_MATCH |
์ ๋ ฅ |
|
์ถ๋ ฅ |
์ ์
|
LLM ํธ์ถ ์ | Gemini 2.5 Flash์ ๋ํ 5๊ฐ์ ํธ์ถ |
์๋ด์ฌ ์ต์ข ์๋ต ์ฐธ์กฐ ๋ฌด๋ฃ
์ต์ ๋ฒ์ | final_response_reference_free_v1 |
์ ํ | ์ ์ํ ๊ธฐ์คํ |
์ค๋ช | ์ฐธ์กฐ ๋ต๋ณ์ด ํ์ ์์ด AI ์์ด์ ํธ์ ์ต์ข
๋ต๋ณ ํ์ง์ ํ๊ฐํ๋ ์ ์ํ ๋ฃจ๋ธ๋ฆญ ์ธก์ ํญ๋ชฉ์
๋๋ค.
์ด ์ธก์ ํญ๋ชฉ์ ์๋ ์์ฑ ๋ฃจ๋ธ๋ฆญ์ ์ง์ํ์ง ์์ผ๋ฏ๋ก ๋ฃจ๋ธ๋ฆญ์ ์ ๊ณตํด์ผ ํฉ๋๋ค. |
SDK์์ ์ก์ธ์คํ๋ ๋ฐฉ๋ฒ | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
์ ๋ ฅ |
|
์ถ๋ ฅ |
|
LLM ํธ์ถ ์ | Gemini 2.5 Flash์ ๋ํ 5๊ฐ์ ํธ์ถ |