本頁說明如何使用儲存的嵌入內容產生索引,以及如何使用 PostgreSQL 適用的 AlloyDB 搭配 ScaNN
、IVF
、IVFFlat
和 HNSW
索引查詢嵌入內容。如要進一步瞭解如何儲存嵌入內容,請參閱「儲存向量嵌入內容」。
事前準備
開始建立索引前,請先完成下列必要條件。
已安裝以
pgvector
為基礎,由 Google 為 AlloyDB 擴充的vector
擴充功能版本0.5.0
以上版本。CREATE EXTENSION IF NOT EXISTS vector;
如要產生
ScaNN
索引,請安裝alloydb_scann
擴充功能,以及vector
擴充功能。CREATE EXTENSION IF NOT EXISTS alloydb_scann;
建立索引
您可以為資料庫中的資料表建立下列其中一種索引類型。
建立 ScaNN
索引
AlloyDB alloydb_scann
:Google 開發的 PostgreSQL 擴充功能,可實作由 ScaNN 演算法驅動的高效率最鄰近索引。
ScaNN
索引是樹狀結構的量化索引,用於近似最近鄰搜尋。與 HNSW
相比,這項功能可縮短索引建構時間,並減少記憶體用量。此外,與 HNSW
相比,這項服務可根據工作負載提供更快的 QPS。
兩層樹狀結構 ScaNN
索引
如要使用 ScaNN 演算法,將兩層樹狀結構索引套用至含有儲存向量嵌入的資料欄,請執行下列 DDL 查詢:
CREATE INDEX INDEX_NAME ON TABLE
USING scann (EMBEDDING_COLUMN DISTANCE_FUNCTION)
WITH (num_leaves=NUM_LEAVES_VALUE);
更改下列內容:
INDEX_NAME
:要建立的索引名稱,例如my-scann-index
。索引名稱會在資料庫中共用。請確保資料庫中每個資料表的索引名稱都不重複。TABLE
:要新增索引的資料表。EMBEDDING_COLUMN
:儲存vector
資料的資料欄。DISTANCE_FUNCTION
:要用於這個索引的距離函式。選擇下列其中一個選項:L2 距離:
l2
點積:
dot_product
餘弦距離:
cosine
NUM_LEAVES_VALUE
:要套用至這個索引的分區數量。請設為 1 到 1048576 之間的任何值。如要進一步瞭解如何決定這個值,請參閱「調整ScaNN
索引」。
三層樹狀結構 ScaNN
索引
如要使用 ScaNN 演算法,為含有已儲存向量嵌入的資料欄建立三層樹狀結構索引,請執行下列 DDL 查詢:
CREATE INDEX INDEX_NAME ON TABLE
USING scann (EMBEDDING_COLUMN DISTANCE_FUNCTION)
WITH (num_leaves=NUM_LEAVES_VALUE, max_num_levels = MAX_NUM_LEVELS);
更改下列內容:
MAX_NUM_LEVELS
:K 平均值叢集樹狀結構的層級數量上限。設為1
(預設值) 可進行兩層樹狀結構量化,設為2
則可進行三層樹狀結構量化。
建立索引後,您可以按照「使用指定文字進行最鄰近查詢」一文中的操作說明,執行最鄰近搜尋查詢,藉此使用索引。
請務必設定索引參數,在 QPS 和召回率之間取得適當平衡。如要進一步瞭解如何調整 ScaNN
索引,請參閱「調整 ScaNN
索引」。
如要在使用 real[]
資料類型 (而非 vector
) 的嵌入資料欄上建立這個索引,請將該資料欄轉換為 vector
資料類型:
CREATE INDEX INDEX_NAME ON TABLE
USING scann (CAST(EMBEDDING_COLUMN AS vector(DIMENSIONS)) DISTANCE_FUNCTION)
WITH (num_leaves=NUM_LEAVES_VALUE, max_num_levels = MAX_NUM_LEVELS);
請將 DIMENSIONS
改成嵌入資料欄的維度寬度。如要進一步瞭解如何找出維度,請參閱向量函式中的 vector_dims
函式。
如要確保搜尋體驗一致,請在建立 ScaNN 索引時啟用自動維護功能。詳情請參閱「維護向量索引」。這項功能目前為預先發布版。
如要查看索引建立進度,請使用 pg_stat_progress_create_index
檢視畫面:
SELECT * FROM pg_stat_progress_create_index;
「phase
」欄會顯示索引建立作業的目前狀態,而「building index: tree training
」階段會在索引建立完成後消失。
如要調整索引,以達到目標召回率和 QPS 平衡,請參閱「調整 ScaNN
索引」。
分析已建立索引的資料表
建立 ScaNN
索引後,您必須執行 ANALYZE
指令,更新資料的統計資料。
ANALYZE TABLE;
並行建構索引
為加快建立索引的速度,AlloyDB 可能會視資料集和所選索引類型,自動產生多個平行工作站。
如果您要建立 3 層 ScaNN 索引,或資料集超過 1 億列,通常會觸發平行索引建構作業。
雖然 AlloyDB 會自動調整平行工作站數量,但您可以使用 max_parallel_maintenance_workers
、max_parallel_workers
和 min_parallel_table_scan_size
PostgreSQL 查詢規劃參數,調整平行工作站。
使用 pgvector 執行查詢
將嵌入內容儲存並編入資料庫索引後,即可開始使用pgvector
查詢功能進行查詢。您無法使用 alloydb_scann
擴充功能執行大量搜尋查詢。
如要找出嵌入向量最鄰近的語意鄰項,可以執行下列查詢範例,並設定您在建立索引時使用的相同距離函式。
SELECT * FROM TABLE
ORDER BY EMBEDDING_COLUMN DISTANCE_FUNCTION_QUERY ['EMBEDDING']
LIMIT ROW_COUNT
更改下列內容:
TABLE
:包含要與文字比較的嵌入內容的資料表。INDEX_NAME
:要使用的索引名稱,例如my-scann-index
。EMBEDDING_COLUMN
:包含儲存的嵌入內容的資料欄。DISTANCE_FUNCTION_QUERY
:要用於這項查詢的距離函式。根據建立索引時使用的距離函式,選擇下列其中一項:L2 距離:
<->
內積:
<#>
餘弦距離:
<=>
EMBEDDING
:您要找出最接近的儲存語意鄰項的嵌入向量。ROW_COUNT
:要傳回的列數。如只要取得最佳單一比對結果,請指定
1
。
如要查看其他查詢範例,請參閱「查詢」。
您也可以使用 embedding()
函式將文字翻譯成向量。您將向量套用至其中一個pgvector
最鄰近運算子 (適用於 L2 距離),找出具有語意最相似嵌入項目的資料庫列。<->
由於 embedding()
會傳回 real
陣列,您必須明確將 embedding()
呼叫轉換為 vector
,才能搭配 pgvector
運算子使用這些值。