Ollama 使用教學：在自己電腦上跑本地 AI 模型入門

2026年6月14日

Ollama 把跑本地大型語言模型簡化成幾行指令，資料全留本機。這篇教你安裝、下載模型、用量化省記憶體、接 API。

在自己的筆電上，跑一個不連雲端的 AI 模型

Ollama 解決的是一件很實際的事——『我想用大型語言模型，但不想把資料丟上別人的雲』。它把跑本地 LLM 這件原本很麻煩的事，簡化成幾行指令：裝好、ollama pull 下載模型、ollama run 開始對話，就這樣。底層是 llama.cpp，模型用 GGUF 格式，Mac 的 Metal、NVIDIA 的 CUDA、還有 Vulkan 現在都吃同一種檔案。我自己在 MacBook 上跑，比兩年前那套要編譯一堆東西的流程，輕鬆太多了。

Ollama 能做什麼

一行指令安裝，自動處理模型下載、GPU 偵測、API 服務
ollama pull／ollama run 就能下載並開聊，CLI 為主
模型庫超過 100 種(Llama、Qwen、Gemma、DeepSeek 等)
內建 REST API，且相容 OpenAI 格式，方便接進自己的程式
用 Modelfile 自訂模型參數(像 LLM 版的 Dockerfile)
支援 Docker，資料全留在本機、不外流

怎麼開始用（步驟）

到官網下載安裝 Ollama(macOS／Windows／Linux 都有)
開終端機輸入 ollama pull qwen3:8b 下載一個模型(8B 量級適合一般筆電起步)
輸入 ollama run qwen3:8b，等它載入後就能直接在終端機對話
要接進程式就打開內建 API(預設 http://localhost:11434)，用 OpenAI 相容格式呼叫
想客製化就寫一份 Modelfile，設定系統提示、溫度等參數再 ollama create

進階技巧

記憶體不夠就選量化版：Q4_K_M(4-bit)約省 75% 記憶體，7B 模型從 ~16GB 降到 ~4GB，品質掉很少
模型大小要配硬體：8GB 記憶體跑 3B～8B、16GB 以上才比較順跑 13B 以上
從 Hugging Face 抓的 GGUF 檔可以用 Modelfile 匯入，不限官方庫
要圖形介面可搭 LM Studio 或前端 UI，CLI 不順手的人友善很多
把 Ollama 的 OpenAI 相容端點接進你現有的程式，幾乎不用改 SDK

要注意的事

本地模型的能力通常比不上 GPT、Claude 這種頂規雲端模型，別期待一模一樣
吃硬體：沒有獨顯或記憶體小，大模型會很慢甚至跑不動
首次下載模型動輒數 GB，留意網路與硬碟空間
雖然資料不外流，但本機安全(誰能存取這台機器、API 有沒有曝露)還是要自己顧

TheAI學院總結與評語

老實說，Ollama 是我會直接推薦給『在意隱私』和『想學 LLM 怎麼運作』兩種人的工具。法務、醫療、研發這些不能把資料外傳的場景，本地模型是少數解法;而對開發者來說，它把實驗成本壓到幾乎是零——想換模型就 pull 一個，想接 API 就用 OpenAI 相容端點，幾乎不用改程式。它的天花板就是你的硬體和開源模型的能力，這兩年開源模型進步很快，4-bit 量化又讓一般筆電也跑得動，這條路只會越走越寬。如果你只是要好用的對話，雲端的 ChatGPT、Claude 還是更省事;但只要『資料不能外流』這條線出現，Ollama 就值得你花一個下午裝起來玩。延伸閱讀：AI 隱私與資安實用指南、LM Studio 怎麼用。

一句話評語：Ollama 把跑本地 LLM 變成幾行指令，最適合在意隱私和想學 LLM 的人;能力天花板看你的硬體和開源模型，但 4-bit 量化讓一般筆電也跑得動。

資料來源

依官方公告與公開資料整理、以官方為準。

常見誤解 / 破除迷思

有些人可能會誤解 Ollama 的本地 AI 模型為「完全不需要網路」的工具，但事實上，第一次下載模型時仍需要網路連線。另外，雖然 Ollama 的模型不會將使用者的資料外傳，但使用者仍需要注意本機的安全性，例如誰能存取這台機器、API 有沒有曝露等問題。同時，Ollama 的能力雖然不亞於一些雲端模型，但仍受限於硬體和開源模型的能力。

選擇合適的模型

模型	量級	記憶體需求	適合硬體
Qwen3:8b	8B	~16GB	一般筆電
Q4_K_M(4-bit)	7B	~4GB	較低端硬體
Llama	13B	~32GB	高端筆電或伺服器

選擇合適的模型需要考慮硬體的限制，例如記憶體和GPU的能力。一般來說，8GB記憶體的筆電可以跑3B～8B的模型，而16GB以上的記憶體才比較適合跑13B以上的模型。

實用步驟：客製化模型

Ollama 提供了 Modelfile 的功能，允許使用者客製化模型的參數，例如系統提示、溫度等。以下是客製化模型的步驟：

撰寫一份 Modelfile，設定所需的參數。
執行 ollama create 指令，創建客製化模型。
執行 ollama run 指令，啟動客製化模型。

未來趨勢

隨著開源模型的進步和硬體的升級，Ollama 的能力將會越來越強大。未來，可能會有更多的模型和功能被加入到 Ollama 中，例如支持更多的硬體平台、改善模型的準確性等。同時，Ollama 的使用者也可能會越來越多，特別是在需要保密的行業中，例如法務、醫療、研發等。

常見問題

Ollama 是什麼？

一個讓你在自己電腦上跑本地大型語言模型的工具，底層為 llama.cpp、模型用 GGUF 格式，一行指令安裝後用 ollama pull／run 即可下載與對話。

Ollama 怎麼用？

安裝後輸入 ollama pull 下載模型(如 qwen3:8b)，再 ollama run 開始對話;要接程式可用內建的 OpenAI 相容 REST API(localhost:11434)。

跑 Ollama 需要什麼硬體？

看模型大小:8GB 記憶體可跑 3B～8B，16GB 以上較適合 13B 以上;用 Q4_K_M 4-bit 量化可省約 75% 記憶體，7B 模型約只要 4GB。

Ollama 和 ChatGPT 差在哪？

Ollama 在本機執行、資料不外流、可離線且免訂閱，但能力受硬體與開源模型限制;ChatGPT 是雲端頂規模型、更強更省事，但資料會上雲。

資料來源：TheAI學院編輯群整理