分析影片中的標籤

Video Intelligence API 可使用 LABEL_DETECTION 功能識別影片片段中顯示的實體,並為這些實體加上標籤 (標記)。這項功能可辨識物件、地點、活動、動物物種和產品等內容。

標籤偵測與物件追蹤不同。 與物件追蹤不同,標籤偵測會為整個影格提供標籤 (不含定界框)。

例如,針對平交道上的火車影片,Video Intelligence API 可能傳回「火車」、「運輸」、「鐵路平交道」等的標籤。每個標籤的時間片段均含有時間偏移 (時間戳記),指出出現的實體距離影片開始的時間距離。每個註解還含有其他資訊,包括您在 Google Knowledge Graph Search API 中用來搜尋實體更多相關資訊的實體 ID。

每個傳回的實體也會在 categoryEntities 欄位中提供相關聯的類別實體。例如,「㹴犬」實體標籤的類別為「狗」。類別實體具有階層結構。例如,「狗」類別是階層中「哺乳動物」類別的子項。如需 Video Intelligence 所使用的一般類別實體清單,請參閱 entry-level-categories.json

分析可分為以下幾類:

  • 片段層級:
    使用者可指定影片片段,並提供開始和結束時間戳記,供系統分析及加上註解 (請參閱 VideoSegment)。然後在每個區段中識別及標記實體。如果未指定任何片段,整部影片會視為一個片段。

  • 鏡頭層級:
    系統會自動偵測每個片段 (或影片) 中的鏡頭 (也稱為場景)。接著,系統會識別每個場景中的實體並加上標籤。詳情請參閱「鏡頭轉換偵測」一節。
  • 影格層級:
    系統會識別每個影格中的實體並加上標籤 (每秒取樣一個影格)。

如要偵測影片中的標籤,請呼叫 annotate 方法,並在 features 欄位中指定 LABEL_DETECTION

請參閱「分析影片中的標籤」和「標籤偵測教學課程」。

Video Intelligence API Visualizer

如要查看這項功能的實際運作情形,請使用 Video Intelligence API 視覺化工具