Promptfoo
開源的 LLM 評測與紅隊測試工具,用宣告式設定就能比較 GPT、Claude、Gemini 的表現,還能對 AI 應用做越獄、prompt 注入等弱點掃描,評測直接在本機跑。
Promptfoo 是什麼
Promptfoo 是一套開源的 LLM 評測與紅隊測試(red teaming)工具,定位很明確:在你的 AI 應用上線前,先把弱點測出來、修掉。它有兩個面向。一是評測:用簡單的宣告式設定檔,就能對同一批 prompt 在 GPT、Claude、Gemini、DeepSeek 等不同模型上跑比較,看誰準、誰快、誰便宜,還能整進 CI/CD,每次改 prompt 都自動回歸測試。二是安全:內建弱點掃描器,系統性地嘗試越獄模型,測 prompt 注入、資料外洩等 OWASP LLM Top 10 的風險。
它的一大優點是評測完全在本機跑、直接和你的 LLM 對話,prompt 與資料不必送上第三方,對在意機敏資料的團隊很重要。它是 MIT 授權的開源專案,GitHub 上累積 2 萬多顆星,連 OpenAI、Anthropic 自己都在用。2026 年 3 月 Promptfoo 宣布被 OpenAI 收購,但官方表示仍維持開源與 MIT 授權。
功能特色與適用場景
適合誰?適合在做 LLM 應用、agent 或 RAG,需要把「prompt 改了會不會變爛」「會不會被越獄、洩資料」這兩件事測清楚的工程團隊,從個人開發者到企業安全團隊都涵蓋。它有免費開源版與企業方案(含 guardrails 即時防護、企業支援)。如果你只是偶爾手動試 prompt,可能用不到這麼系統化的工具,但一旦要正式上線,這類測試是省不掉的。
TheAI學院 編輯建議
編輯實測後的真心話LLM 應用要上線,評測和安全紅隊兩件事躲不掉,Promptfoo 把這兩塊用開源、本機執行的方式包在一起,還能進 CI/CD,我相當推。連 OpenAI、Anthropic 自己都在用,說明它不是花架子。被 OpenAI 收了之後會不會變調得看後續,但目前仍 MIT 開源。我們給 4.3 分。
主要功能
- 宣告式設定比較 GPT、Claude、Gemini、DeepSeek 等模型表現
- 紅隊測試:模擬越獄、prompt 注入、資料外洩等攻擊
- 弱點掃描涵蓋 OWASP LLM Top 10 風險
- 評測在本機執行,直接與 LLM 對話、不送第三方
- 整合 CI/CD,改 prompt 自動回歸測試;另有即時 guardrails
適用場景
- 比較不同模型在同一批 prompt 上的表現
- 對 LLM 應用做越獄與 prompt 注入弱點掃描
- 把 prompt 評測整進 CI/CD 做回歸測試
- 上線前系統性檢查 RAG 與 agent 的安全風險
Promptfoo 的優點與缺點
👍 優點
- MIT 開源、本機執行,機敏資料不外流
- 評測與安全紅隊一套到位,可進 CI/CD
- 連 OpenAI、Anthropic 都在用,社群與信任度高
👎 缺點
- 命令列與設定檔取向,非工程背景者門檻較高
- 企業級功能(如 guardrails)需付費
- 被 OpenAI 收購後的長期走向仍待觀察
Promptfoo 常見問題
Promptfoo 的資料會被送到雲端嗎?
預設不會。評測在你的本機執行,直接和你設定的 LLM 對話,prompt 與測試資料不必上傳到第三方,對處理機敏資料的團隊比較安心。
被 OpenAI 收購後還是開源嗎?
官方表示是的。2026 年 3 月宣布被 OpenAI 收購後,Promptfoo 仍維持開源與 MIT 授權;不過長期走向仍建議持續留意官方公告。
使用者評價
還沒有足夠評價,搶先分享你的使用心得!
寫下你的評價 ✍️
相關 AI 工具
Claude
Anthropic 推出、擅長長文與安全對話的 AI 助理。
♡Upstage
韓國的企業級 AI 公司,推出 Solar 系列大型語言模型與文件智能工具,擅長把發票、保單、合約等複雜文件轉成結構化資料,支援地端部署與多項合規認證。
♡Anima
把 Figma 設計稿、一個想法、甚至直接複製一個現有網站,轉成可上線的前端程式碼,再用 AI 對話微調。
♡KitOps
開源的 AI/ML 打包與版控工具,把模型、資料集、程式碼、agent 技能與 MCP server 包成簽章過的 OCI 標準產物,丟進你現有的容器倉庫管理,屬 CNCF 專案。
♡Northflank
把應用、資料庫、AI 模型與排程任務一站部署的平台,支援 GPU 工作負載與多雲,還能「自帶雲」部署到自己的 VPC,讓 AI agent、後端 API 與推論共用同一套安全與調度。
♡Blaxel
為 AI agent 打造的「永續沙箱」平台,閒置時待命零運算費、25 毫秒內喚醒,能撐五萬個並行沙箱,還把 agent 與 MCP server 同地部署來壓低延遲。