Gemini 3.5 Pro 六月開閘:200 萬 token 與 Deep Think,Google 把「最強」留到最後一手

Gemini 3.5 Pro 六月開閘:200 萬 token 與 Deep Think,Google 把「最強」留到最後一手

I/O 2026 上 Google 先放出 3.5 Flash,把旗艦級 Pro 押到六月。如今 3.5 Pro 帶著 200 萬 token 上下文與 Deep Think 推理進入 Vertex AI 企業預覽,定價卻是 Flash 的近十倍。這場「先免費、後收費」的節奏,台灣的開發者與企業該怎麼接?

Gemini 3.5 Pro 六月開閘:200 萬 token 與 Deep Think,Google 把「最強」留到最後一手

五月十九號那天我在台北辦公室盯著 Google I/O 2026 的直播,等的是傳聞中的 Gemini 3.5 Pro。結果 Google 只端出 3.5 Flash,主舞台的工程主管講完一段話就把 Pro 輕輕帶過:「我們也在全力打磨 3.5 Pro,它已經在內部使用,期待下個月推出。」這句「下個月」現在兌現了——六月,Gemini 3.5 Pro 帶著一個會讓不少人吸一口氣的數字進場:200 萬 token 的上下文視窗。

我特地把這件事拆開來看,是因為 Google 這一次的發布節奏本身就是新聞。先把不要錢的 Flash 鋪到全球十幾億人手上,再把真正吃硬體、要收費的 Pro 留到一個月後,分兩段釋出。這不是技術問題,是商業節奏——而台灣的團隊如果照著舊習慣「等最強的出來再說」,很可能會錯估時間表。

事件背景

先把時間軸對清楚。Gemini 3.5 系列在台灣時間五月十九日的 Google I/O 2026 正式亮相,首發是 3.5 Flash,當天就全球上線,免費用戶透過 Gemini App 與 Google 搜尋的 AI 模式都能用,開發者則走 Gemini API、Google AI Studio 與 Antigravity。Google 官方部落格當天的標題就定調為「frontier intelligence with action」——強調的是這一代模型不只會回答,而是會「動手做」,主打 agentic(代理式)能力與長流程任務。

至於旗艦的 3.5 Pro,Google 在發布稿裡明說「下個月推出」。到了六月中,情況是這樣:截至六月十九日,3.5 Pro 仍處於 Vertex AI 企業客戶的限定預覽階段,還沒進到一般消費者的 Gemini App、Google AI Studio,或個人訂閱方案。換句話說,你現在在手機 App 裡用到的,大機率還是 Flash,不是 Pro。

這個落差很重要。市場上有不少文章把「I/O 發表」直接當成「人人可用」,實際上 Pro 目前只開給既有的 Vertex AI 企業帳號,連自助報名的入口都還沒有公開,得透過 Google Cloud 的客戶經理接洽。我查證過程裡看到一些站點繪聲繪影地拿它去跟某些競品的傳聞做對比,那些未經官方證實的部分,我這篇就不採用——只講對得上的事實。

本次重點

  • 200 萬 token 上下文視窗。 這是 Flash(100 萬)的兩倍,也是目前已公布的量產級前沿模型裡最大的上下文之一。換算成中文,概略是數百萬字一次讀進去,整套法規、整個程式庫、幾百頁的財報都能一口氣餵給它。
  • Deep Think 推理模式。 值得注意的是它的實作方式:Deep Think 不是另開一個模型端點,而是 API 上的一個參數開關(thinkingConfig)。同一個模型 ID(報導指為 gemini-3.5-pro-preview-06)同時處理標準請求與深度推理請求,差別在你有沒有把開關打開。這對開發者來說是省事的設計,但也代表深度推理的 token 成本要自己控管。
  • 先 Flash、後 Pro 的兩段式釋出。 Flash 當天免費全球上線,Pro 押後一個月、且先給企業。Google 等於把「便宜、夠快、夠廣」與「最強、最貴、先服務付費企業」切成兩條線。
  • Flash 的硬指標。 官方數據顯示 3.5 Flash 在 Terminal-Bench 2.1 拿到 76.2%、GDPval-AA 1656 Elo、MCP Atlas 83.6%,輸出速度號稱比其他前沿模型快四倍,而且在多項編碼與代理基準上贏過上一代的 3.1 Pro。
  • 定價是 Flash 的近十倍。 多家媒體引述的 Pro 定價落在每百萬輸入 token 約 15 美元、輸出約 60 美元的區間,大約是 3.5 Flash 的十倍。最先吃到 Pro 的,會是 Google 月費 20 美元的 Pro 方案與 250 美元的 Ultra 方案訂戶。

市場影響分析

對台灣一般使用者:坦白說,短期內你不太需要為「Pro 還沒上 App」焦慮。日常的查資料、寫信、翻譯、整理會議記錄,3.5 Flash 已經免費而且夠快——它在 App 裡是預設值,你打開就在用。真正需要 200 萬 token 的場景,是那種要把整本書、整份合約、整年對話一次塞進去分析的重度需求,一般人一週也碰不到幾次。我的建議是:先把免費的 Flash 用熟,等 Pro 進到 20 美元方案再評估要不要升級,不必急著現在去搶企業預覽。

對台灣企業應用:這才是這次發布真正的戰場。200 萬 token 對法律、會計、製造業的技術文件處理是實打實的誘因——一次讀完整套 SOP、整批理賠文件、整個專案的歷史郵件,不用再切段拼接。但有兩個現實要先想清楚。第一,Pro 目前綁定 Vertex AI 企業身分,沒有公開自助路徑,你得透過 Google Cloud 帳戶經理談,導入前置時間要抓進專案排程。第二,近十倍的定價意味著「能用 Flash 解決的,就別硬上 Pro」。比較務實的架構是分層:大量、簡單的請求走 Flash,真正需要深度推理或超長上下文的才路由到 Pro,把成本壓在刀口上。

對台灣開發者:Deep Think 做成參數開關這件事,對工程實作是好消息——不用維護兩套模型路由,一個 ID 走天下。但「方便開」也代表「容易忘了關」,深度推理會明顯吃掉更多 token,成本曲線會比你預期的陡。我會建議在系統裡把 Deep Think 設成需要明確條件才觸發,而不是預設全開。另外,Pro 的預覽期 API 可能還會調整,正式 GA 前不要把生產環境的核心流程死綁在 preview 版本上。想先練手的人,可以拿已 GA 的 Gemini API 與 Google AI Studio 把長上下文的處理流程先架起來,等 Pro 開放再無痛切換。

未來發展趨勢

我認為三個方向會在下半年逐漸明朗。

第一,「上下文長度」這場軍備競賽會從炫技轉向實用。200 萬 token 聽起來嚇人,但真正的考驗是「長上下文的檢索準確率」——塞得進去不等於找得準。各家接下來比的會是在超長文本下還能不能精準定位資訊,而不只是視窗大小的數字。

第二,「分段釋出」會變成大廠的常規打法。先用免費、夠用的小模型佔住使用者習慣,再把旗艦留給付費企業,Google 這次示範得很清楚。對 ChatGPTClaudePerplexity 這些對手而言,純比參數的時代正在過去,比的是「免費那一層好不好用、付費那一層值不值得」。

第三,代理式能力(agentic)會是下一個分水嶺。Google 這次反覆強調「intelligence with action」,意思是模型要能自己跑多步驟工作流、調工具、完成任務。誰能讓 AI 穩定地「把事做完」而不只是「把話講完」,誰就握住企業預算。

TheAI學院 總結與評語

Gemini 3.5 Pro 的六月開閘,表面是一個模型上線,底層是 Google 的節奏感:用免費的 Flash 鋪規模,用收費的 Pro 收企業。200 萬 token 與 Deep Think 是真本事,但「目前只在 Vertex AI 企業預覽」也是真現實,別被「I/O 已發表」的標題騙了以為人人可用。

評語:這次最值得台灣讀者學的,不是「Google 又出了更強的模型」,而是「同一家公司,免費版跟旗艦版的釋出時間差了一整個月」。對個人,先把免費的 Flash 用到極致;對企業,先搞清楚 Vertex AI 的導入門檻與分層成本,再決定要不要追 Pro。會省錢、會分流的團隊,贏的不是模型,是用法。

給台灣讀者的具體建議:一,日常需求現在就用免費的 Gemini Flash,不必等。二,企業若要 Pro,先評估 200 萬 token 是不是你真的需要的,還是 Flash 就能解,別為用不到的長度付十倍價。三,開發者把長上下文流程先在已 GA 的 API 上練起來。更多工具比較與任務拆解,可以參考我們的 /tools/tasks

本文涉及第三方產品定價與功能,實際內容以 Google 官方公告為準,不構成任何投資或採購建議。

資料來源

依公開資訊整理、以官方為準。

常見問題

Gemini 3.5 Pro 現在一般人能用了嗎?

截至 2026 年六月中,3.5 Pro 仍只開放給 Vertex AI 企業客戶限定預覽,尚未進到消費者版的 Gemini App、Google AI Studio 或個人訂閱方案。一般使用者在 App 裡用到的多半還是已全球免費上線的 3.5 Flash。

Gemini 3.5 Pro 的 200 萬 token 上下文有什麼用?

200 萬 token 約等於數百萬字,可一次讀入整套法規、整個程式庫或幾百頁文件,適合法律、會計、製造業等需要處理超長文件的場景。它是 Flash(100 萬 token)的兩倍,也是目前已公布的量產前沿模型中最大的上下文之一。

Deep Think 模式怎麼運作?

Deep Think 並非另一個模型,而是 API 上的參數開關(thinkingConfig)。同一個模型 ID 依你是否開啟而切換標準或深度推理。方便,但深度推理會明顯增加 token 成本,建議設定觸發條件而非預設全開。

3.5 Flash 跟 3.5 Pro 差在哪、我該用哪個?

Flash 已免費全球上線、速度快、適合多數日常與大量請求;Pro 最強、上下文最長,但定價約為 Flash 十倍且目前僅限企業預覽。務實做法是分層:簡單請求走 Flash,真正需要深度推理或超長上下文時才路由到 Pro。

資料來源:theai