๊ด€๋ฆฌ ๋ฃจ๋ธŒ๋ฆญ ๊ธฐ๋ฐ˜ ์ธก์ •ํ•ญ๋ชฉ ์„ธ๋ถ€์ •๋ณด

์ด ํŽ˜์ด์ง€์—์„œ๋Š” Vertex AI SDK์˜ GenAI ํด๋ผ์ด์–ธํŠธ์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” Gen AI Evaluation Service์—์„œ ์ œ๊ณตํ•˜๋Š” ๊ด€๋ฆฌํ˜• ๋ฃจ๋ธŒ๋ฆญ ๊ธฐ๋ฐ˜ ์ธก์ •ํ•ญ๋ชฉ์˜ ์ „์ฒด ๋ชฉ๋ก์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

ํ…Œ์ŠคํŠธ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์— ๊ด€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ ํ‰๊ฐ€ ์ธก์ •ํ•ญ๋ชฉ ์ •์˜๋ฅผ ์ฐธ๊ณ ํ•˜์„ธ์š”.

๊ฐœ์š”

Gen AI Evaluation Service๋Š” ํ…Œ์ŠคํŠธ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์— ๋Œ€ํ•ด ๊ด€๋ฆฌ๋˜๋Š” ๋ฃจ๋ธŒ๋ฆญ ๊ธฐ๋ฐ˜ ์ธก์ •ํ•ญ๋ชฉ ๋ชฉ๋ก์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

  • ์ ์‘ํ˜• ๋ฃจ๋ธŒ๋ฆญ์ด ์žˆ๋Š” ์ธก์ •ํ•ญ๋ชฉ์˜ ๊ฒฝ์šฐ ๋Œ€๋ถ€๋ถ„ ๊ฐ ํ”„๋กฌํ”„ํŠธ์˜ ๋ฃจ๋ธŒ๋ฆญ ์ƒ์„ฑ ์›Œํฌํ”Œ๋กœ์™€ ๋ฃจ๋ธŒ๋ฆญ ๊ฒ€์ฆ์ด ๋ชจ๋‘ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ํ•„์š”ํ•œ ๊ฒฝ์šฐ ๋ณ„๋„๋กœ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ž์„ธํ•œ ๋‚ด์šฉ์€ ํ‰๊ฐ€ ์‹คํ–‰์„ ์ฐธ๊ณ ํ•˜์„ธ์š”.

  • ์ •์  ๋ฃจ๋ธŒ๋ฆญ์ด ์žˆ๋Š” ์ธก์ •ํ•ญ๋ชฉ์˜ ๊ฒฝ์šฐ ํ”„๋กฌํ”„ํŠธ๋ณ„ ๋ฃจ๋ธŒ๋ฆญ์ด ์ƒ์„ฑ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์˜๋„ํ•œ ์ถœ๋ ฅ์— ๊ด€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ ์ธก์ •ํ•ญ๋ชฉ ์„ธ๋ถ€์ •๋ณด๋ฅผ ์ฐธ๊ณ ํ•˜์„ธ์š”.

๊ด€๋ฆฌ ๋ฃจ๋ธŒ๋ฆญ ๊ธฐ๋ฐ˜ ์ธก์ •ํ•ญ๋ชฉ์—๋Š” ๋ฒ„์ „ ๋ฒˆํ˜ธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ธก์ •ํ•ญ๋ชฉ์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ์ตœ์‹  ๋ฒ„์ „์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ ํ•„์š”ํ•œ ๊ฒฝ์šฐ ํŠน์ • ๋ฒ„์ „์œผ๋กœ ๊ณ ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

ํ•˜์œ„ ํ˜ธํ™˜์„ฑ

์ธก์ •ํ•ญ๋ชฉ ํ”„๋กฌํ”„ํŠธ ํ…œํ”Œ๋ฆฟ์œผ๋กœ ์ œ๊ณต๋˜๋Š” ์ธก์ •ํ•ญ๋ชฉ์˜ ๊ฒฝ์šฐ ๋™์ผํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด Vertex AI SDK์˜ ์ƒ์„ฑํ˜• AI ํด๋ผ์ด์–ธํŠธ๋ฅผ ํ†ตํ•ด ํฌ์ธํŠธ๋ณ„ ์ธก์ •ํ•ญ๋ชฉ์— ๊ณ„์† ์•ก์„ธ์Šคํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Vertex AI SDK์˜ GenAI ํด๋ผ์ด์–ธํŠธ์—์„œ๋Š” ํŽ˜์–ด์™€์ด์ฆˆ ์ธก์ •ํ•ญ๋ชฉ์ด ์ง€์›๋˜์ง€ ์•Š์ง€๋งŒ ํ‰๊ฐ€ ์‹คํ–‰์„ ์ฐธ๊ณ ํ•˜์—ฌ ๋™์ผํ•œ ํ‰๊ฐ€์—์„œ ๋‘ ๋ชจ๋ธ์„ ๋น„๊ตํ•˜์„ธ์š”.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

๊ด€๋ฆฌํ˜• ์ธก์ •ํ•ญ๋ชฉ ์„ธ๋ถ€์ •๋ณด

์ด ์„น์…˜์—๋Š” ์œ ํ˜•, ํ•„์ˆ˜ ์ž…๋ ฅ, ์˜ˆ์ƒ ์ถœ๋ ฅ๊ณผ ๊ฐ™์€ ์„ธ๋ถ€์ •๋ณด๊ฐ€ ํฌํ•จ๋œ ๊ด€๋ฆฌ ์ธก์ •ํ•ญ๋ชฉ์ด ๋‚˜์—ด๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

์ผ๋ฐ˜์ ์ธ ํ’ˆ์งˆ

์ตœ์‹  ๋ฒ„์ „ general_quality_v1
์œ ํ˜• ์ ์‘ํ˜• ๊ธฐ์ค€ํ‘œ
์„ค๋ช… ๋ชจ๋ธ ์‘๋‹ต์˜ ์ „๋ฐ˜์ ์ธ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ํฌ๊ด„์ ์ธ ์ ์‘ํ˜• ๋ฃจ๋ธŒ๋ฆญ ์ธก์ •ํ•ญ๋ชฉ์ž…๋‹ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ์˜ ์ฝ˜ํ…์ธ ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ๊ธฐ์ค€์„ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๊ณ  ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋Œ€๋ถ€๋ถ„์˜ ํ‰๊ฐ€์— ๊ถŒ์žฅ๋˜๋Š” ์‹œ์ž‘์ ์ž…๋‹ˆ๋‹ค.
SDK์—์„œ ์•ก์„ธ์Šคํ•˜๋Š” ๋ฐฉ๋ฒ• types.RubricMetric.GENERAL_QUALITY
์ž…๋ ฅ
  • prompt
  • response
  • (์„ ํƒ์‚ฌํ•ญ) rubric_groups
์ด๋ฏธ ์ƒ์„ฑ๋œ ๊ธฐ์ค€ํ‘œ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ง์ ‘ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์ถœ๋ ฅ
  • score
  • rubrics ๋ฐ ํ•ด๋‹น verdicts
์ ์ˆ˜๋Š” ๋ฃจ๋ธŒ๋ฆญ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋Œ€๋‹ต์˜ ํ†ต๊ณผ ๋น„์œจ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
LLM ํ˜ธ์ถœ ์ˆ˜ Gemini 2.5 Flash์— ๋Œ€ํ•œ 6๊ฐœ์˜ ํ˜ธ์ถœ

ํ…์ŠคํŠธ ํ’ˆ์งˆ

์ตœ์‹  ๋ฒ„์ „ text_quality_v1
์œ ํ˜• ์ ์‘ํ˜• ๊ธฐ์ค€ํ‘œ
์„ค๋ช… ์‘๋‹ต์˜ ์–ธ์–ด์  ํ’ˆ์งˆ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ํƒ€๊ฒŸ ์ ์‘ํ˜• ๋ฃจ๋ธŒ๋ฆญ ์ธก์ •ํ•ญ๋ชฉ์ž…๋‹ˆ๋‹ค. ์œ ์ฐฝ์„ฑ, ์ผ๊ด€์„ฑ, ๋ฌธ๋ฒ•๊ณผ ๊ฐ™์€ ์ธก๋ฉด์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
SDK์—์„œ ์•ก์„ธ์Šคํ•˜๋Š” ๋ฐฉ๋ฒ• types.RubricMetric.TEXT_QUALITY
์ž…๋ ฅ
  • prompt
  • response
  • (์„ ํƒ์‚ฌํ•ญ) rubric_groups
์ด๋ฏธ ์ƒ์„ฑ๋œ ๊ธฐ์ค€ํ‘œ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ง์ ‘ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์ถœ๋ ฅ
  • score
  • rubrics ๋ฐ ํ•ด๋‹น verdicts
์ ์ˆ˜๋Š” ๋ฃจ๋ธŒ๋ฆญ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋Œ€๋‹ต์˜ ํ†ต๊ณผ์œจ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
LLM ํ˜ธ์ถœ ์ˆ˜ Gemini 2.5 Flash์— ๋Œ€ํ•œ 6๊ฐœ์˜ ํ˜ธ์ถœ

์•ˆ๋‚ด ์ค€์ˆ˜์„ฑ

์ตœ์‹  ๋ฒ„์ „ instruction_following_v1
์œ ํ˜• ์ ์‘ํ˜• ๊ธฐ์ค€ํ‘œ
์„ค๋ช… ํ”„๋กฌํ”„ํŠธ์— ์ œ๊ณต๋œ ํŠน์ • ์ œ์•ฝ ์กฐ๊ฑด๊ณผ ์š”์ฒญ ์‚ฌํ•ญ์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ค€์ˆ˜ํ•˜๋Š”์ง€ ์ธก์ •ํ•˜๋Š” ํƒ€๊ฒŸ ์ ์‘ํ˜• ๊ธฐ์ค€ํ‘œ ์ธก์ •ํ•ญ๋ชฉ์ž…๋‹ˆ๋‹ค.
SDK์—์„œ ์•ก์„ธ์Šคํ•˜๋Š” ๋ฐฉ๋ฒ• types.RubricMetric.INSTRUCTION_FOLLOWING
์ž…๋ ฅ
  • prompt
  • response
  • (์„ ํƒ์‚ฌํ•ญ) rubric_groups
์ด๋ฏธ ์ƒ์„ฑ๋œ ๊ธฐ์ค€ํ‘œ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ง์ ‘ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์ถœ๋ ฅ
  • score (ํ†ต๊ณผ ๋น„์œจ)
  • rubrics ๋ฐ ํ•ด๋‹น verdicts
์ ์ˆ˜๋Š” ๋ฃจ๋ธŒ๋ฆญ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋Œ€๋‹ต์˜ ํ†ต๊ณผ์œจ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
LLM ํ˜ธ์ถœ ์ˆ˜ Gemini 2.5 Flash์— ๋Œ€ํ•œ 6๊ฐœ์˜ ํ˜ธ์ถœ

๊ทธ๋ผ์šด๋”ฉ

์ตœ์‹  ๋ฒ„์ „ grounding_v1
์œ ํ˜• ์ •์  ๊ธฐ์ค€ํ‘œ
์„ค๋ช… ์‚ฌ์‹ค์„ฑ๊ณผ ์ผ๊ด€์„ฑ์„ ํ™•์ธํ•˜๋Š” ์ ์ˆ˜ ๊ธฐ๋ฐ˜ ์ธก์ •ํ•ญ๋ชฉ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์˜ ๋Œ€๋‹ต์ด ์ปจํ…์ŠคํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ทธ๋ผ์šด๋”ฉ๋˜์—ˆ๋Š”์ง€ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.
SDK์—์„œ ์•ก์„ธ์Šคํ•˜๋Š” ๋ฐฉ๋ฒ• types.RubricMetric.GROUNDING
์ž…๋ ฅ
  • prompt
  • response
  • context
์ถœ๋ ฅ
  • score
  • explanation
์ ์ˆ˜๋Š” 0-1 ๋ฒ”์œ„์ด๋ฉฐ, ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•œ supported ๋˜๋Š” no_rad (์‚ฌ์‹ค์  ์ถœ์ฒ˜๊ฐ€ ํ•„์š”ํ•˜์ง€ ์•Š์Œ, ์ธ์‚ฌ๋ง, ์งˆ๋ฌธ, ๋ฉด์ฑ… ์กฐํ•ญ ๋“ฑ)๋กœ ๋ผ๋ฒจ์ด ์ง€์ •๋œ ์š”์ฒญ์˜ ๋น„์œจ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
์„ค๋ช…์—๋Š” ๋ฌธ์žฅ, ๋ผ๋ฒจ, ์ถ”๋ก , ๋งฅ๋ฝ์˜ ๋ฐœ์ทŒ๊ฐ€ ๊ทธ๋ฃนํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
LLM ํ˜ธ์ถœ ์ˆ˜ Gemini 2.5 Flash์— ๋Œ€ํ•œ 1๊ฐœ์˜ ํ˜ธ์ถœ

์•ˆ์ „

์ตœ์‹  ๋ฒ„์ „ safety_v1
์œ ํ˜• ์ •์  ๊ธฐ์ค€ํ‘œ
์„ค๋ช… ๋ชจ๋ธ์˜ ๋Œ€๋‹ต์ด ๋‹ค์Œ ์ •์ฑ… ์ค‘ ํ•˜๋‚˜ ์ด์ƒ์„ ์œ„๋ฐ˜ํ–ˆ๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ์ ์ˆ˜ ๊ธฐ๋ฐ˜ ์ธก์ •ํ•ญ๋ชฉ์ž…๋‹ˆ๋‹ค.
  • PII ๋ฐ ์ธ๊ตฌํ†ต๊ณ„ ๋ฐ์ดํ„ฐ
  • ์ฆ์˜ค์‹ฌ ํ‘œํ˜„
  • ์œ„ํ—˜ํ•œ ์ฝ˜ํ…์ธ 
  • ๊ดด๋กญํž˜
  • ์„ ์ •์ 
SDK์—์„œ ์•ก์„ธ์Šคํ•˜๋Š” ๋ฐฉ๋ฒ• types.RubricMetric.SAFETY
์ž…๋ ฅ
  • prompt
  • response
์ถœ๋ ฅ
  • score
  • explanation
์ ์ˆ˜์˜ ๊ฒฝ์šฐ 0๋Š” ์•ˆ์ „ํ•˜์ง€ ์•Š๊ณ  1๋Š” ์•ˆ์ „ํ•ฉ๋‹ˆ๋‹ค.
์„ค๋ช… ํ•„๋“œ์—๋Š” ์œ„๋ฐ˜๋œ ์ •์ฑ…์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.
LLM ํ˜ธ์ถœ ์ˆ˜ Gemini 2.5 Flash์— ๋Œ€ํ•œ 10๊ฐœ์˜ ํ˜ธ์ถœ

๋ฉ€ํ‹ฐํ„ด ์ผ๋ฐ˜ ํ’ˆ์งˆ

์ตœ์‹  ๋ฒ„์ „ multi_turn_general_quality_v1
์œ ํ˜• ์ ์‘ํ˜• ๊ธฐ์ค€ํ‘œ
์„ค๋ช… ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™”์˜ ๋งฅ๋ฝ์—์„œ ๋ชจ๋ธ ์‘๋‹ต์˜ ์ „๋ฐ˜์ ์ธ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ ์‘ํ˜• ๊ธฐ์ค€ํ‘œ ์ธก์ •ํ•ญ๋ชฉ์ž…๋‹ˆ๋‹ค.
SDK์—์„œ ์•ก์„ธ์Šคํ•˜๋Š” ๋ฐฉ๋ฒ• types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
์ž…๋ ฅ
  • prompt ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™”
  • response
  • (์„ ํƒ์‚ฌํ•ญ) rubric_groups
์ด๋ฏธ ์ƒ์„ฑ๋œ ๊ธฐ์ค€ํ‘œ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ง์ ‘ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์ถœ๋ ฅ
  • score
  • ๋ฃจ๋ธŒ๋ฆญ ๋ฐ ํ•ด๋‹น ํ™•์ธ ๊ฒฐ๊ณผ
์ ์ˆ˜๋Š” ๋ฃจ๋ธŒ๋ฆญ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋Œ€๋‹ต์˜ ํ†ต๊ณผ์œจ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
LLM ํ˜ธ์ถœ ์ˆ˜ Gemini 2.5 Flash์— ๋Œ€ํ•œ 6๊ฐœ์˜ ํ˜ธ์ถœ

๋ฉ€ํ‹ฐํ„ด ํ…์ŠคํŠธ ํ’ˆ์งˆ

์ตœ์‹  ๋ฒ„์ „ multi_turn_text_quality_v1
์œ ํ˜• ์ ์‘ํ˜• ๊ธฐ์ค€ํ‘œ
์„ค๋ช… ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™”์˜ ๋งฅ๋ฝ์—์„œ ๋ชจ๋ธ ์‘๋‹ต์˜ ํ…์ŠคํŠธ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ ์‘ํ˜• ๊ธฐ์ค€ํ‘œ ์ธก์ •ํ•ญ๋ชฉ์ž…๋‹ˆ๋‹ค.
SDK์—์„œ ์•ก์„ธ์Šคํ•˜๋Š” ๋ฐฉ๋ฒ• types.RubricMetric.TEXT_QUALITY
์ž…๋ ฅ
  • prompt ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™”
  • response
  • (์„ ํƒ์‚ฌํ•ญ) rubric_groups
์ด๋ฏธ ์ƒ์„ฑ๋œ ๊ธฐ์ค€ํ‘œ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ง์ ‘ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์ถœ๋ ฅ
  • score
  • rubrics ๋ฐ ํ•ด๋‹น verdicts
์ ์ˆ˜๋Š” ๋ฃจ๋ธŒ๋ฆญ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋Œ€๋‹ต์˜ ํ†ต๊ณผ์œจ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
LLM ํ˜ธ์ถœ ์ˆ˜ Gemini 2.5 Flash์— ๋Œ€ํ•œ 6๊ฐœ์˜ ํ˜ธ์ถœ

์ƒ๋‹ด์‚ฌ ์ตœ์ข… ์‘๋‹ต ์ผ์น˜

์ตœ์‹  ๋ฒ„์ „ final_response_match_v2
์œ ํ˜• ์ •์  ๊ธฐ์ค€ํ‘œ
์„ค๋ช… ์ œ๊ณต๋œ ์ฐธ์กฐ ๋‹ต๋ณ€ (์ •๋‹ต)๊ณผ ๋น„๊ตํ•˜์—ฌ AI ์—์ด์ „ํŠธ์˜ ์ตœ์ข… ๋‹ต๋ณ€ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ธก์ •ํ•ญ๋ชฉ์ž…๋‹ˆ๋‹ค.
SDK์—์„œ ์•ก์„ธ์Šคํ•˜๋Š” ๋ฐฉ๋ฒ• types.RubricMetric.FINAL_RESPONSE_MATCH
์ž…๋ ฅ
  • prompt
  • response
  • reference
์ถœ๋ ฅ ์ ์ˆ˜
  • 1: ์ฐธ์กฐ์™€ ์ผ์น˜ํ•˜๋Š” ์œ ํšจํ•œ ๋Œ€๋‹ต
  • 0: ์ฐธ์กฐ์™€ ์ผ์น˜ํ•˜์ง€ ์•Š๋Š” ์ž˜๋ชป๋œ ์‘๋‹ต์ž…๋‹ˆ๋‹ค.
์„ค๋ช…
LLM ํ˜ธ์ถœ ์ˆ˜ Gemini 2.5 Flash์— ๋Œ€ํ•œ 5๊ฐœ์˜ ํ˜ธ์ถœ

์ƒ๋‹ด์‚ฌ ์ตœ์ข… ์‘๋‹ต ์ฐธ์กฐ ๋ฌด๋ฃŒ

์ตœ์‹  ๋ฒ„์ „ final_response_reference_free_v1
์œ ํ˜• ์ ์‘ํ˜• ๊ธฐ์ค€ํ‘œ
์„ค๋ช… ์ฐธ์กฐ ๋‹ต๋ณ€์ด ํ•„์š” ์—†์ด AI ์—์ด์ „ํŠธ์˜ ์ตœ์ข… ๋‹ต๋ณ€ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ ์‘ํ˜• ๋ฃจ๋ธŒ๋ฆญ ์ธก์ •ํ•ญ๋ชฉ์ž…๋‹ˆ๋‹ค.
์ด ์ธก์ •ํ•ญ๋ชฉ์€ ์ž๋™ ์ƒ์„ฑ ๋ฃจ๋ธŒ๋ฆญ์„ ์ง€์›ํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ๋ฃจ๋ธŒ๋ฆญ์„ ์ œ๊ณตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
SDK์—์„œ ์•ก์„ธ์Šคํ•˜๋Š” ๋ฐฉ๋ฒ• types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
์ž…๋ ฅ
  • prompt
  • response
  • rubric_groups
์ถœ๋ ฅ
  • score
  • rubrics ๋ฐ ํ•ด๋‹น verdicts
์ ์ˆ˜๋Š” ๋ฃจ๋ธŒ๋ฆญ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋Œ€๋‹ต์˜ ํ†ต๊ณผ์œจ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
LLM ํ˜ธ์ถœ ์ˆ˜ Gemini 2.5 Flash์— ๋Œ€ํ•œ 5๊ฐœ์˜ ํ˜ธ์ถœ

๋‹ค์Œ ๋‹จ๊ณ„