本頁面由 Cloud Translation API 翻譯而成。

建立索引

本頁說明如何使用儲存的嵌入內容產生索引，以及如何使用 PostgreSQL 適用的 AlloyDB 搭配 ScaNN、IVF、IVFFlat 和 HNSW 索引查詢嵌入內容。如要進一步瞭解如何儲存嵌入內容，請參閱「儲存向量嵌入內容」。

事前準備

開始建立索引前，請先完成下列必要條件。

嵌入向量會新增至 AlloyDB 資料庫的資料表。
已安裝以 pgvector 為基礎，由 Google 為 AlloyDB 擴充的 vector 擴充功能版本 0.5.0 以上版本。
```
CREATE EXTENSION IF NOT EXISTS vector;
```
如要產生 ScaNN 索引，請安裝 alloydb_scann 擴充功能，以及 vector 擴充功能。
```
CREATE EXTENSION IF NOT EXISTS alloydb_scann;
```

建立索引

您可以為資料庫中的資料表建立下列其中一種索引類型。

建立 `ScaNN` 索引

AlloyDB alloydb_scann：Google 開發的 PostgreSQL 擴充功能，可實作由 ScaNN 演算法驅動的高效率最鄰近索引。

ScaNN 索引是樹狀結構的量化索引，用於近似最近鄰搜尋。與 HNSW 相比，這項功能可縮短索引建構時間，並減少記憶體用量。此外，與 HNSW 相比，這項服務可根據工作負載提供更快的 QPS。

兩層樹狀結構 `ScaNN` 索引

如要使用 ScaNN 演算法，將兩層樹狀結構索引套用至含有儲存向量嵌入的資料欄，請執行下列 DDL 查詢：

CREATE INDEX INDEX_NAME ON TABLE
  USING scann (EMBEDDING_COLUMN DISTANCE_FUNCTION)
  WITH (num_leaves=NUM_LEAVES_VALUE);

更改下列內容：

INDEX_NAME：要建立的索引名稱，例如 my-scann-index。索引名稱會在資料庫中共用。請確保資料庫中每個資料表的索引名稱都不重複。
TABLE：要新增索引的資料表。
EMBEDDING_COLUMN：儲存 vector 資料的資料欄。
DISTANCE_FUNCTION：要用於這個索引的距離函式。選擇下列其中一個選項：
- L2 距離： l2
- 點積： dot_product
- 餘弦距離： cosine
NUM_LEAVES_VALUE：要套用至這個索引的分區數量。請設為 1 到 1048576 之間的任何值。如要進一步瞭解如何決定這個值，請參閱「調整 ScaNN 索引」。

三層樹狀結構 `ScaNN` 索引

如要使用 ScaNN 演算法，為含有已儲存向量嵌入的資料欄建立三層樹狀結構索引，請執行下列 DDL 查詢：

CREATE INDEX INDEX_NAME ON TABLE
  USING scann (EMBEDDING_COLUMN DISTANCE_FUNCTION)
  WITH (num_leaves=NUM_LEAVES_VALUE, max_num_levels = MAX_NUM_LEVELS);

更改下列內容：

MAX_NUM_LEVELS：K 平均值叢集樹狀結構的層級數量上限。設為 1(預設值) 可進行兩層樹狀結構量化，設為 2 則可進行三層樹狀結構量化。

建立索引後，您可以按照「使用指定文字進行最鄰近查詢」一文中的操作說明，執行最鄰近搜尋查詢，藉此使用索引。

請務必設定索引參數，在 QPS 和召回率之間取得適當平衡。如要進一步瞭解如何調整 ScaNN 索引，請參閱「調整 ScaNN 索引」。

如要在使用 real[] 資料類型 (而非 vector) 的嵌入資料欄上建立這個索引，請將該資料欄轉換為 vector 資料類型：

CREATE INDEX INDEX_NAME ON TABLE
  USING scann (CAST(EMBEDDING_COLUMN AS vector(DIMENSIONS)) DISTANCE_FUNCTION)
  WITH (num_leaves=NUM_LEAVES_VALUE, max_num_levels = MAX_NUM_LEVELS);

請將 DIMENSIONS 改成嵌入資料欄的維度寬度。如要進一步瞭解如何找出維度，請參閱向量函式中的 vector_dims 函式。

如要確保搜尋體驗一致，請在建立 ScaNN 索引時啟用自動維護功能。詳情請參閱「維護向量索引」。這項功能目前為預先發布版。

如要查看索引建立進度，請使用 pg_stat_progress_create_index 檢視畫面：

SELECT * FROM pg_stat_progress_create_index;

「phase」欄會顯示索引建立作業的目前狀態，而「building index: tree training」階段會在索引建立完成後消失。

如要調整索引，以達到目標召回率和 QPS 平衡，請參閱「調整 ScaNN 索引」。

分析已建立索引的資料表

建立 ScaNN 索引後，您必須執行 ANALYZE 指令，更新資料的統計資料。

ANALYZE TABLE;

並行建構索引

為加快建立索引的速度，AlloyDB 可能會視資料集和所選索引類型，自動產生多個平行工作站。

如果您要建立 3 層 ScaNN 索引，或資料集超過 1 億列，通常會觸發平行索引建構作業。

雖然 AlloyDB 會自動調整平行工作站數量，但您可以使用 max_parallel_maintenance_workers、max_parallel_workers 和 min_parallel_table_scan_size PostgreSQL 查詢規劃參數，調整平行工作站。

使用 pgvector 執行查詢

將嵌入內容儲存並編入資料庫索引後，即可開始使用pgvector查詢功能進行查詢。您無法使用 alloydb_scann 擴充功能執行大量搜尋查詢。

如要找出嵌入向量最鄰近的語意鄰項，可以執行下列查詢範例，並設定您在建立索引時使用的相同距離函式。

  SELECT * FROM TABLE
    ORDER BY EMBEDDING_COLUMN DISTANCE_FUNCTION_QUERY ['EMBEDDING']
    LIMIT ROW_COUNT

更改下列內容：

TABLE：包含要與文字比較的嵌入內容的資料表。
INDEX_NAME：要使用的索引名稱，例如 my-scann-index。
EMBEDDING_COLUMN：包含儲存的嵌入內容的資料欄。
DISTANCE_FUNCTION_QUERY：要用於這項查詢的距離函式。根據建立索引時使用的距離函式，選擇下列其中一項：
- L2 距離： <->
- 內積： <#>
- 餘弦距離： <=>
EMBEDDING：您要找出最接近的儲存語意鄰項的嵌入向量。
ROW_COUNT：要傳回的列數。

如只要取得最佳單一比對結果，請指定 1。

如要查看其他查詢範例，請參閱「查詢」。

您也可以使用 embedding() 函式將文字翻譯成向量。您將向量套用至其中一個pgvector最鄰近運算子 (適用於 L2 距離)，找出具有語意最相似嵌入項目的資料庫列。<->

由於 embedding() 會傳回 real 陣列，您必須明確將 embedding() 呼叫轉換為 vector，才能搭配 pgvector 運算子使用這些值。

建立索引 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

事前準備

建立索引

建立 ScaNN 索引

兩層樹狀結構 ScaNN 索引

三層樹狀結構 ScaNN 索引

分析已建立索引的資料表

並行建構索引

使用 pgvector 執行查詢

後續步驟

建立索引

建立 `ScaNN` 索引

兩層樹狀結構 `ScaNN` 索引

三層樹狀結構 `ScaNN` 索引