大型語言模型¶
CaiGunn Dock 支援多種大型語言模型,包含 Meta 的 Llama 系列模型(如 Llama-4-Scout-17B-16E-Instruct 和 Llama-3.3-70B-Instruct),以及 APMIC 自有的 ACE1-24B-Reasoning 推理模型。
| 模型名稱 | 品牌 | 特色 | 適用方案 |
|---|---|---|---|
| ACE-1 24B Reasoning | APMIC | 可落地、台灣資料、推理模型 | Start Up,Prime |
| ACE-2-27B | APMIC | 可落地、台灣資料、數發部語料 | Core, Scale Up, Matrix, Dominion |
模型評測分數¶
APMIC 在評測其模型時,會使用多種指標來確保模型的綜合能力與在特定領域的表現。這些指標包括:
-
MMLU (Massive Multitask Language Understanding):此指標用於測試模型在多個領域和多任務知識理解及推理的綜合能力。
-
TMMLU+:這是針對繁體中文的 MMLU 評測,顯示 APMIC 的模型在繁體中文語境下的通用知識和理解能力。
-
台灣法律:針對台灣法律領域,APMIC 的模型具備處理複雜法律問題的能力,例如在公司合併案例中判斷法律敘述的正確性,並能追溯推論過程。APMIC 還有開源的繁體中文推理資料集,包括 tw-math-reasoning-2k、tw-reasoning-instruct-50k 和 tw-function-call-reasoning-10k,這些資料集也用於評測模型在台灣本地化內容的推理能力。
APMIC 的模型評測還會涵蓋其他專業領域,例如 GPQA (Graduate-Level Professional Question Answering) 用於評估模型在研究所級專業領域問題回答的正確性與深度,以及 CodeGen 測試模型自動生成程式碼的能力。
| 模型名稱 | TMMLU+ | MMLU | 台灣法律 |
|---|---|---|---|
| Llama-4-Scout-17B-16E-Instruct | 67.71 | 82.31 | 47.21 |
| Llama-3.3-70B-Instruct | 64.74 | 86.0 | 52.79 |
| ACE-1-24B | 70.87 | 80.54 | 57.89 |
Twinkle Eval 評測框架¶
Twinkle Eval 是一款 LLM(Large Language Model)評測框架,採用並行且隨機化測試方法,提供客觀的模型性能分析與穩定性評估,並支援多種常見評測數據集。Twinkle Eval 是一款開源的 LLM(大型語言模型)評測框架,採用並行且隨機化的測試方法,旨在提供客觀的模型性能分析與穩定性評估。它支援多種常見的評測數據集,讓 APMIC 能夠全面評估其模型在不同領域和任務中的表現,例如 MMLU、TMMLU+、台灣法律、GPQA 和 CodeGen 等。