跳轉到

相容性評估與效能分析

硬體相容性列表 (HCL)

Start Up (24B)

元件 最低要求 備註
中央處理器 (CPU) 32 Threads 2.5GHz 以上 支援 x86 架構,支援 AVX-512 指令集的 CPU,以優化資料處理效能。
系統記憶體 (RAM) 256 GB DDR5 4000MHz 以上 記憶體大小直接影響系統能載入的模型最大規模,以及能同時運行的模型實例數量。
儲存空間 (SSD) 2 TB NVMe SSD * 2 (RAID 5)
2 TB NVMe SSD * 4 (RAID 10) 使用高速 SSD 以確保模型快速載入與讀取。
圖形處理器 (GPU) NVIDIA RTX Pro 6000 * 2
推論模型 (LLM) ACE1-24B-NVFP4
網路 (Network) 100 Gbps
Concurrent User of Inferencing (CCU) ~20
Context Window (CW) 65K
Time to First Token (TTFT) 0.9s
Output Tokens per Second (TPS) ~3,200
Performance of Processing Standard PDF ~1.875 Files / 10 minutes

Core (27B)

元件 最低要求 備註
中央處理器 (CPU) 48 Threads 2.5GHz 支援 x86 架構,支援 AVX-512 指令集的 CPU,以優化資料處理效能。
系統記憶體 (RAM) 512 GB DDR5 4000MHz 記憶體大小直接影響系統能載入的模型最大規模,以及能同時運行的模型實例數量。
儲存空間 (SSD) 2 TB NVMe SSD * 2 (RAID 5)
4 TB NVMe SSD * 4 (RAID 10) 使用高速 SSD 以確保模型快速載入與讀取。
圖形處理器 (GPU) NVIDIA RTX Pro 6000 * 4
推論模型 (LLM) ACE2-27B-FP8
網路 (Network) 100 Gbps
Concurrent User of Inferencing (CCU) ~40
Context Window (CW) 128K
Time to First Token (TTFT) 0.3s
Output Tokens per Second (TPS) ~5,025
Performance of Processing Standard PDF ~3.75 Files / 10 minutes

Scale Up (27B)

元件 最低要求 備註
中央處理器 (CPU) 64 Threads 2.5GHz 支援 x86 架構,支援 AVX-512 指令集的 CPU,以優化資料處理效能。
系統記憶體 (RAM) 1,024 GB DDR5 4000MHz 記憶體大小直接影響系統能載入的模型最大規模,以及能同時運行的模型實例數量。
儲存空間 (SSD) 2 TB NVMe SSD * 2 (RAID 5)
4 TB NVMe SSD * 6 (RAID 10) 使用高速 SSD 以確保模型快速載入與讀取。
圖形處理器 (GPU) NVIDIA RTX Pro 6000 * 8
推論模型 (LLM) ACE2-27B-FP8
網路 (Network) 100 Gbps
Concurrent User of Inferencing (CCU) ~140
Context Window (CW) 128K
Time to First Token (TTFT) 0.3s
Output Tokens per Second (TPS) ~11,725
Performance of Processing Standard PDF ~7.5 Files / 10 minutes

Prime (24B)

元件 最低要求 備註
中央處理器 (CPU) 32 Threads 2.5GHz 支援 x86 架構,支援 AVX-512 指令集的 CPU,以優化資料處理效能。
系統記憶體 (RAM) 384 GB DDR5 4000MHz 記憶體大小直接影響系統能載入的模型最大規模,以及能同時運行的模型實例數量。
儲存空間 (SSD) 2 TB NVMe SSD * 2 (RAID 5)
4 TB NVMe SSD * 4 (RAID 10) 使用高速 SSD 以確保模型快速載入與讀取。
圖形處理器 (GPU) NVIDIA H200 * 2
推論模型 (LLM) ACE1-24B-FP8
網路 (Network) 100 Gbps
Concurrent User of Inferencing (CCU) ~60
Context Window (CW) 65K
Time to First Token (TTFT) 1.1s
Output Tokens per Second (TPS) ~3,800
Performance of Processing Standard PDF ~3.75 Files / 10 minutes

Matrix (27B)

元件 最低要求 備註
中央處理器 (CPU) 48 Threads 2.5GHz 支援 x86 架構,支援 AVX-512 指令集的 CPU,以優化資料處理效能。
系統記憶體 (RAM) 768 GB DDR5 4000MHz 記憶體大小直接影響系統能載入的模型最大規模,以及能同時運行的模型實例數量。
儲存空間 (SSD) 2 TB NVMe SSD * 2 (RAID 5)
4 TB NVMe SSD * 6 (RAID 10) 使用高速 SSD 以確保模型快速載入與讀取。
圖形處理器 (GPU) NVIDIA H200 * 4
推論模型 (LLM) ACE2-27B-FP8
網路 (Network) 100 Gbps
Concurrent User of Inferencing (CCU) ~210
Context Window (CW) 128K
Time to First Token (TTFT) 0.9s
Output Tokens per Second (TPS) ~14,000
Performance of Processing Standard PDF ~7.5 Files / 10 minutes

Dominion (27B)

元件 最低要求 備註
中央處理器 (CPU) 64 Threads 2.5GHz 支援 x86 架構,支援 AVX-512 指令集的 CPU,以優化資料處理效能。
系統記憶體 (RAM) 1,536 GB DDR5 4000MHz 記憶體大小直接影響系統能載入的模型最大規模,以及能同時運行的模型實例數量。
儲存空間 (SSD) 2 TB NVMe SSD * 2 (RAID 5)
8 TB NVMe SSD * 4 (RAID 10) 使用高速 SSD 以確保模型快速載入與讀取。
圖形處理器 (GPU) NVIDIA H200 * 8
推論模型 (LLM) ACE2-27B-FP8
網路 (Network) 100 Gbps
Concurrent User of Inferencing (CCU) ~300
Context Window (CW) 128K
Time to First Token (TTFT) 0.9s
Output Tokens per Second (TPS) ~20,000
Performance of Processing Standard PDF ~30 Files / 10 minutes

備註:

  • GPU 的 VRAM 大小是影響模型推論規模最關鍵的因素。

  • 支援的 GPU 必須是 NVIDIA 系列,且具備 Tensor Cores,以最佳化推論效能。

  • 請確保您的 GPU 驅動程式已更新至最新版本。

軟體相容性列表

本章節旨在幫助您了解本產品的軟體架構,所有元件都已預先配置並優化,以確保系統的穩定性與最佳效能。

元件 軟體 / 服務 版本要求 備註
虛擬化平台 Proxmox VE (PVE) 8.1 或更高版本 平台底層的虛擬化環境已預先安裝與配置。為確保穩定性,不建議變更或重新安裝。
虛擬機器 (VM) Ubuntu Server 24.04 LTS (64-bit) 服務運行在 VM 上。為確保軟體與驅動程式的相容性,請勿變更 VM 的作業系統或其核心設定。
服務管理 Kubernetes (k8s) 1.28 或更高版本 平台內各項微服務皆透過 k8s 進行部署與管理,確保服務的高可用性、負載平衡與擴展性。
核心服務 Node.js 18.x.x (hydrogen) LTS  或更高版本 核心服務使用的程式語言與版本。
核心服務 Python 3.10.x 或更高版本 核心服務使用的程式語言與版本。僅支援狀態為 Security 的版本。
核心服務 PostgreSQL 14.x 或更高版本 資料庫服務已內建於產品中。