跳轉到

File & Fileset: PrivAI 的核心資料結構

在 PrivAI 中,File 是最基本的知識單位,代表一份上傳的文件,例如 PDF、Word 或文字檔案。

Fileset 則是由多個 File 組成的集合,用來定義一個語義相關的知識範圍,供模型進行檢索與回答使用。

資料流程

  1. 開發者透過 API 上傳檔案,系統將其儲存為一個 File,並給予唯一的 file_id

  2. 使用者可建立一個 Fileset,並將一個或多個 File 加入其中

  3. 在進行語意檢索與回答(RAG)時,指定要使用的 fileset_id

設計邏輯

項目 說明
重用性 一個 File 可以被加入多個 Fileset
邏輯分組 一個 Fileset 對應一個業務主題、知識場景或使用任務
隔離性 RAG 推論時只會檢索所指定 Fileset 的資料,避免資料污染
可追蹤性 每個 Fileset 與其內容皆可版本控管與紀錄使用情況

實務應用範例

使用情境 File Fileset Name
客服知識庫 FAQ.txt、使用手冊.pdf、常見問題.xlsx cs-bot-kb
員工制度查詢 HR_規章.pdf、福利制度.docx hr-policy
法務查詢與投資人回覆共享使用 條款合約.pdf 被加入至 legal-bot 與 investor-bot 兩個 Fileset