File & Fileset: PrivAI 的核心資料結構¶
在 PrivAI 中,File 是最基本的知識單位,代表一份上傳的文件,例如 PDF、Word 或文字檔案。
Fileset 則是由多個 File 組成的集合,用來定義一個語義相關的知識範圍,供模型進行檢索與回答使用。
資料流程¶
-
開發者透過 API 上傳檔案,系統將其儲存為一個 File,並給予唯一的 file_id
-
使用者可建立一個 Fileset,並將一個或多個 File 加入其中
-
在進行語意檢索與回答(RAG)時,指定要使用的 fileset_id
設計邏輯¶
| 項目 | 說明 |
|---|---|
| 重用性 | 一個 File 可以被加入多個 Fileset |
| 邏輯分組 | 一個 Fileset 對應一個業務主題、知識場景或使用任務 |
| 隔離性 | RAG 推論時只會檢索所指定 Fileset 的資料,避免資料污染 |
| 可追蹤性 | 每個 Fileset 與其內容皆可版本控管與紀錄使用情況 |
實務應用範例¶
| 使用情境 | File | Fileset Name |
|---|---|---|
| 客服知識庫 | FAQ.txt、使用手冊.pdf、常見問題.xlsx | cs-bot-kb |
| 員工制度查詢 | HR_規章.pdf、福利制度.docx | hr-policy |
| 法務查詢與投資人回覆共享使用 | 條款合約.pdf | 被加入至 legal-bot 與 investor-bot 兩個 Fileset |