基本的なコンセプト

このページでは、Model Armor の主なコンセプトについて説明します。

Model Armor テンプレート

Model Armor テンプレートを使用すると、Model Armor がプロンプトとレスポンスをスクリーニングする方法を構成できます。これらは、さまざまな安全性とセキュリティの信頼度に合わせてカスタマイズされたフィルタとしきい値のセットとして機能します。これにより、フラグが設定されたコンテンツを制御できます。

しきい値は信頼度を表します。つまり、Model Armor がプロンプトまたはレスポンスに不適切なコンテンツが含まれているとどの程度確信しているかを示します。たとえば、HIGH しきい値でヘイト コンテンツのプロンプトをフィルタするテンプレートを作成できます。これは、プロンプトにヘイト コンテンツが含まれているという高い信頼度を Model Armor が報告することを意味します。LOW_AND_ABOVE しきい値は、そのクレームの信頼度(LOWMEDIUMHIGH)を示します。

Model Armor フィルタ

Model Armor は、安全でセキュアな AI モデルの提供に役立つさまざまなフィルタを提供します。フィルタ カテゴリの内訳は次のとおりです。

責任ある AI の安全フィルタ

プロンプトとレスポンスは、次のカテゴリに対して前述の信頼度でスクリーニングできます。

カテゴリ 定義
ヘイトスピーチ ID や保護されている属性をターゲットとする否定的なコメントや有害なコメント
嫌がらせ 他人をターゲットにした脅し、威圧表現、いじめ、虐待的な内容を含むコメント
性的に露骨な表現 性行為やわいせつな内容に関する情報が含まれるコンテンツ
危険なコンテンツ 有害な商品、サービス、アクティビティへのアクセスを促進または可能にします。

児童性的虐待のコンテンツ(CSAM)フィルタはデフォルトで適用され、オフにすることはできません。

プロンプト インジェクションとジェイルブレイクの検出

プロンプト インジェクションは、攻撃者がテキスト入力(プロンプト)に特別なコマンドを挿入して AI モデルを騙そうとするセキュリティ脆弱性です。これにより、AI が通常の指示を無視したり、機密情報を開示したり、意図しないアクションを実行したりする可能性があります。LLM のコンテキストでのジェイルブレイクとは、モデルに組み込まれている安全プロトコルと倫理ガイドラインをバイパスする行為を指します。これにより、LLM は有害、非倫理的、危険なコンテンツなど、本来回避するように設計されている回答を生成する可能性があります。

プロンプト インジェクションとジェイルブレイクの検出が有効になっている場合、Model Armor はプロンプトとレスポンスで悪意のあるコンテンツをスキャンします。検出されると、Model Armor はプロンプトまたはレスポンスをブロックします。

Sensitive Data Protection

個人名や住所などの機密データが、誤って、または意図的にモデルに送信されたり、モデルのレスポンスで提供されたりする可能性があります。

Sensitive Data Protection は、機密データの検出、分類、匿名化を支援する Google Cloud サービスです。Sensitive Data Protection は、機密要素、コンテキスト、ドキュメントを識別して、AI ワークロードに対するデータ漏洩のリスクを軽減します。Sensitive Data Protection を Model Armor 内で直接使用すると、機密性のないコンテキストを保持しながら、機密性の高い要素を変換、トークン化、秘匿化できます。Model Armor は、既存の検査テンプレートを受け入れることができます。これは、ビジネスとコンプライアンスのニーズに合わせて機密データのスキャンと識別のプロセスを効率化するブループリントのような構成です。これにより、Sensitive Data Protection を使用する他のワークロードとの間で一貫性と相互運用性を確保できます。

Model Armor には、Sensitive Data Protection の構成用に次の 2 つのモードがあります。

  • Sensitive Data Protection の基本構成: このモードでは、スキャンする機密データのタイプを直接指定することで、Sensitive Data Protection を簡単に構成できます。CREDIT_CARD_NUMBERUS_SOCIAL_SECURITY_NUMBERFINANCIAL_ACCOUNT_NUMBERUS_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBERGCP_CREDENTIALSGCP_API_KEY の 6 つのカテゴリをサポートしています。基本構成では検査オペレーションのみが許可され、Sensitive Data Protection テンプレートの使用はサポートされていません。詳細については、Sensitive Data Protection の基本構成をご覧ください。

  • Sensitive Data Protection の高度な構成: このモードでは、Sensitive Data Protection テンプレートの使用を有効にすることで、柔軟性とカスタマイズ性が向上します。Sensitive Data Protection テンプレートは、より詳細な検出ルールと匿名化手法を指定できる事前定義済みの構成です。高度な構成では、検査と匿名化の両方のオペレーションがサポートされています。

信頼度は Sensitive Data Protection で設定できますが、他のフィルタの信頼度とは若干動作が異なります。Sensitive Data Protection の信頼度の詳細については、Sensitive Data Protection の一致の可能性をご覧ください。Sensitive Data Protection の概要については、Sensitive Data Protection の概要をご覧ください。

悪意のある URL の検出

悪意のある URL は、正規の URL に見せかけるために偽装されていることが多く、フィッシング攻撃やマルウェアの配布など、オンラインの脅威に利用される強力なツールとなっています。たとえば、PDF に不正な URL を埋め込み、LLM 出力を処理するダウンストリーム システムを侵害するために使用される可能性があります。

悪意のある URL の検出が有効になっている場合、Model Armor は URL をスキャンして、悪意のある URL かどうかを特定します。これにより、対策を講じ、悪意のある URL が返されるのを防ぐことができます。

Model Armor の信頼度

信頼度は、責任ある AI の安全性カテゴリ(露骨な性的コンテンツ、危険なコンテンツ、ハラスメント、ヘイトスピーチ)、プロンプト インジェクションとジェイルブレイク、Sensitive Data Protection(トピック性を含む)に設定できます。

しきい値を細かく設定できる信頼度の場合、Model Armor は次のように解釈します。

  • 高: メッセージに高い確率で悪意のあるコンテンツが含まれているかどうかを特定します。
  • 中以上: メッセージに中程度以上の悪意のあるコンテンツが含まれているかどうかを特定します。
  • 低以上: メッセージに低、中程度、または高い確率で悪意のあるコンテンツが含まれているかどうかを特定します。

適用タイプを定義する

違反が検出された後の処理を定義します。Model Armor が検出を処理する方法を構成するには、適用タイプを設定します。Model Armor には次の適用タイプがあります。

  • 検査のみ: 構成された設定に違反するリクエストを検査しますが、ブロックはしません。
  • 検査とブロック: 構成された設定に違反するリクエストをブロックします。

Inspect only を効果的に使用して貴重な分析情報を得るには、Cloud Logging を有効にします。Cloud Logging が有効になっていないと、Inspect only は有用な情報を生成しません。

Cloud Logging を使用してログにアクセスします。サービス名 modelarmor.googleapis.com でフィルタします。テンプレートで有効にしたオペレーションに関連するエントリを探します。詳細については、ログ エクスプローラを使用してログを表示するをご覧ください。

PDF の審査

PDF のテキストには、悪意のあるコンテンツや機密性の高いコンテンツが含まれている可能性があります。Model Armor は、PDF の安全性、プロンプト インジェクションとジェイルブレイクの試行、機密データ、悪意のある URL をスクリーニングできます。

Model Armor のフロア設定

Model Armor テンプレートは個々のアプリケーションに柔軟性を提供しますが、組織は多くの場合、すべての AI アプリケーションにわたって保護のベースライン レベルを確立する必要があります。ここで Model Armor のフロア設定が使用されます。これらは、 Google Cloud リソース階層の特定のポイント(組織、フォルダ、プロジェクト レベル)で作成されたすべてのテンプレートの最小要件を規定するルールとして機能します。

詳細については、Model Armor のフロア設定をご覧ください。

次のステップ