Promptfoo

開源的 LLM 評測與紅隊測試工具,用宣告式設定就能比較 GPT、Claude、Gemini 的表現,還能對 AI 應用做越獄、prompt 注入等弱點掃描,評測直接在本機跑。

免費或付費 ★ 4.3 / 5
一句話介紹:開源的 LLM 評測與紅隊測試工具,用宣告式設定就能比較 GPT、Claude、Gemini 的表現,還能對 AI 應用做越獄、prompt 注入等弱點掃描,評測直接在本機跑。

Promptfoo 是什麼

Promptfoo 是一套開源的 LLM 評測與紅隊測試(red teaming)工具,定位很明確:在你的 AI 應用上線前,先把弱點測出來、修掉。它有兩個面向。一是評測:用簡單的宣告式設定檔,就能對同一批 prompt 在 GPT、Claude、Gemini、DeepSeek 等不同模型上跑比較,看誰準、誰快、誰便宜,還能整進 CI/CD,每次改 prompt 都自動回歸測試。二是安全:內建弱點掃描器,系統性地嘗試越獄模型,測 prompt 注入、資料外洩等 OWASP LLM Top 10 的風險。

它的一大優點是評測完全在本機跑、直接和你的 LLM 對話,prompt 與資料不必送上第三方,對在意機敏資料的團隊很重要。它是 MIT 授權的開源專案,GitHub 上累積 2 萬多顆星,連 OpenAI、Anthropic 自己都在用。2026 年 3 月 Promptfoo 宣布被 OpenAI 收購,但官方表示仍維持開源與 MIT 授權。

功能特色與適用場景

適合誰?適合在做 LLM 應用、agent 或 RAG,需要把「prompt 改了會不會變爛」「會不會被越獄、洩資料」這兩件事測清楚的工程團隊,從個人開發者到企業安全團隊都涵蓋。它有免費開源版與企業方案(含 guardrails 即時防護、企業支援)。如果你只是偶爾手動試 prompt,可能用不到這麼系統化的工具,但一旦要正式上線,這類測試是省不掉的。

TheAI學院 編輯建議

編輯實測後的真心話
★ 4.3

LLM 應用要上線,評測和安全紅隊兩件事躲不掉,Promptfoo 把這兩塊用開源、本機執行的方式包在一起,還能進 CI/CD,我相當推。連 OpenAI、Anthropic 自己都在用,說明它不是花架子。被 OpenAI 收了之後會不會變調得看後續,但目前仍 MIT 開源。我們給 4.3 分。

— theai 編輯團隊

主要功能

  • 宣告式設定比較 GPT、Claude、Gemini、DeepSeek 等模型表現
  • 紅隊測試:模擬越獄、prompt 注入、資料外洩等攻擊
  • 弱點掃描涵蓋 OWASP LLM Top 10 風險
  • 評測在本機執行,直接與 LLM 對話、不送第三方
  • 整合 CI/CD,改 prompt 自動回歸測試;另有即時 guardrails

適用場景

  • 比較不同模型在同一批 prompt 上的表現
  • 對 LLM 應用做越獄與 prompt 注入弱點掃描
  • 把 prompt 評測整進 CI/CD 做回歸測試
  • 上線前系統性檢查 RAG 與 agent 的安全風險

Promptfoo 的優點與缺點

👍 優點

  • MIT 開源、本機執行,機敏資料不外流
  • 評測與安全紅隊一套到位,可進 CI/CD
  • 連 OpenAI、Anthropic 都在用,社群與信任度高

👎 缺點

  • 命令列與設定檔取向,非工程背景者門檻較高
  • 企業級功能(如 guardrails)需付費
  • 被 OpenAI 收購後的長期走向仍待觀察

Promptfoo 常見問題

Promptfoo 的資料會被送到雲端嗎?

預設不會。評測在你的本機執行,直接和你設定的 LLM 對話,prompt 與測試資料不必上傳到第三方,對處理機敏資料的團隊比較安心。

被 OpenAI 收購後還是開源嗎?

官方表示是的。2026 年 3 月宣布被 OpenAI 收購後,Promptfoo 仍維持開源與 MIT 授權;不過長期走向仍建議持續留意官方公告。

使用者評價

還沒有足夠評價,搶先分享你的使用心得!

寫下你的評價 ✍️

評論將經審核後公開。

相關 AI 工具

✨ 猜你也想看的AI 開發者工具

Promptfoo 相關文章與教學

前往 Promptfoo 官網 ↗