跳轉到

分頁策略 &文件解析模式優化策略 (PDF)

PrivAI 採用游標式分頁(Cursor-Based Pagination)機制,讓你能夠有效率地瀏覽大量資料,並保持查詢結果的一致性。

在請求中,你可以使用 after 或 before 參數來指定資料的查詢起點:

  • 使用 after:傳入一筆資料的 ID,系統會回傳 在該 ID 之後的資料

  • 使用 before:傳入一筆資料的 ID,系統會回傳 在該 ID 之前的資料

系統每次回傳資料時,會額外提供:

  • has_more: 布林值,表示是否還有更多資料可讀取

這樣的設計簡化了狀態管理,也避免了傳統分頁中 offset 不穩定的問題。

文件解析模式優化策略 (PDF)

PrivAI 提升知識庫版本建立的穩定性與效率,透過提供高解析模式(專業模式)、低解析模式(快速模式)和內建的穩健處理機制,確保文件內容能以最佳方式被抽取與納入知識庫。此舉有效解決了全數依賴高解析模式處理時間長、偶發處理無法順利完成的問題,優化了整體使用者體驗。

注意事項

  • File 的解析狀態以 metadata.parsed_results 為準

  • 各解析模式(HQ / LQ / STD 或新版支援模式)各自有獨立的 parsing_state

  • parsing_state 可為:draft / queued / parsing / completed / failed

  • parse 完成即視為 completed,不以 splitting / commit 是否完成判定

  • 因不同解析模式可能同時存在不同結果,不再使用單一 file state 表達整體解析狀態

高解析模式

高解析模式提供最高品質與準確度的文件內容抽取。最大化還原文檔的結構、排版和內容細節,適用於對知識庫內容準確性要求極高的場景。但相對耗時較長,且對複雜或超大文件可能需更多資源。

低解析模式

低解析模式提供高效率的文件內容基礎抽取,以最快速度抽取文件的核心文字內容本身,保障處理流程的連續性,適用於純文字檔案或對速度有較高要求的情境。

自動切換

為確保知識版本建立的最高成功率,系統內建了自動切換備援模式 (Fallback) 的機制。

當使用者選擇「高解析模式」處理文件時,若系統判斷無法順利完成(例如資源超限、結構異常複雜等),系統將自動、無縫地切換至「低解析模式」作為備援處理路徑。

當文件在原本預期的高解析模式下未能完成處理,而透過自動切換至低解析模式成功解析並納入知識庫時,其檔案處理狀態的 API 回覆將包含以下標記:

  • fail_detail (Object):紀錄具體高解析模式無法順利完成的原因。