Gemini 3.5 Pro 六月開閘:200 萬 token 與 Deep Think,Google 把「最強」留到最後一手

I/O 2026 上 Google 先放出 3.5 Flash,把旗艦級 Pro 押到六月。如今 3.5 Pro 帶著 200 萬 token 上下文與 Deep Think 推理進入 Vertex AI 企業預覽,定價卻是 Flash 的近十倍。這場「先免費、後收費」的節奏,台灣的開發者與企業該怎麼接?

Gemini 3.5 Pro Juni Membuka Pintu: 200 Ribu Token dan Deep Think, Google Menyimpan "Yang Terkuat" untuk Terakhir

Pada tanggal 19 Mei, saya duduk di kantor Taipei dan menyaksikan siaran langsung Google I/O 2026, menunggu gembar-gembor tentang Gemini 3.5 Pro. Namun, Google hanya memperkenalkan 3.5 Flash, dan manajer teknik utama membicarakan Pro dengan singkat: "Kami juga sedang mengembangkan 3.5 Pro dengan sepenuh hati, dan sudah digunakan secara internal. Kami berharap akan dirilis bulan depan." Sekarang, "bulan depan" telah tiba — Juni, Gemini 3.5 Pro hadir dengan angka yang membuat banyak orang terkesan: 200 ribu token jendela konteks.

Saya memisahkan masalah ini untuk dilihat secara terpisah, karena rilis ini sendiri merupakan berita. Pertama, Google merilis Flash yang gratis untuk miliaran orang di seluruh dunia, kemudian merilis Pro yang lebih kuat dan berbayar sebulan kemudian, dengan strategi dua tahap. Ini bukanlah masalah teknis, melainkan strategi bisnis — dan tim Taiwan harus memahami bahwa menunggu "yang terkuat" untuk keluar bisa membuat mereka melewatkan jadwal.

Latar Belakang

Mari kita luruskan garis waktu. Gemini 3.5 seri secara resmi diperkenalkan pada 19 Mei dalam Google I/O 2026, dengan 3.5 Flash sebagai yang pertama, dan langsung online secara global. Pengguna gratis bisa mengaksesnya melalui aplikasi Gemini dan mode AI Google, sedangkan pengembang bisa mengaksesnya melalui API Gemini, Google AI Studio, dan Antigravity. Blog resmi Google pada hari itu menekankan "frontier intelligence with action" — menyoroti kemampuan model ini tidak hanya menjawab, tetapi juga "bertindak", dengan kemampuan agen dan tugas panjang.

Sementara itu, flagship 3.5 Pro dinyatakan akan dirilis "bulan depan". Sampai 19 Juni, 3.5 Pro masih dalam tahap pratinjau terbatas untuk pelanggan bisnis Vertex AI, dan belum tersedia untuk pengguna umum melalui aplikasi Gemini, Google AI Studio, atau skema langganan pribadi. Artinya, apa yang Anda gunakan di aplikasi ponsel sekarang kemungkinan besar masih Flash, bukan Pro.

Perbedaan ini sangat penting. Banyak artikel di pasar langsung menganggap "diperkenalkan di I/O" sama dengan "tersedia untuk semua", padahal Pro saat ini hanya dibuka untuk akun bisnis Vertex AI yang sudah ada, dan belum ada pintu masuk pendaftaran mandiri yang dibuka untuk umum. Saya hanya membicarakan fakta yang bisa diverifikasi dan tidak menggunakan spekulasi atau rumor yang belum dikonfirmasi.

Poin Utama

  • 200 ribu token jendela konteks. Ini dua kali lipat dari Flash (100 ribu), dan salah satu jendela konteks terbesar yang pernah diterapkan pada model produksi. Dengan perhitungan kasar, ini setara dengan membaca ratusan ribu kata sekaligus, sehingga bisa menangani seluruh set peraturan, perpustakaan program, atau laporan keuangan sekaligus.
  • Mode pemikiran Deep Think. Yang patut diperhatikan adalah cara implementasinya: Deep Think bukanlah endpoint model terpisah, melainkan sebuah sakelar parameter (thinkingConfig) di API. Model ID yang sama (dilaporkan sebagai gemini-3.5-pro-preview-06) bisa menangani permintaan standar dan permintaan pemikiran mendalam, tergantung apakah sakelar tersebut diaktifkan atau tidak. Ini memudahkan pengembang, tetapi juga berarti biaya token pemikiran mendalam harus dikelola dengan baik.
  • Rilis dua tahap: Flash dahulu, Pro kemudian. Flash dirilis secara global dan gratis pada hari pertama, sementara Pro ditunda sebulan dan pertama kali dibuka untuk pelanggan bisnis. Google memisahkan "murah, cukup cepat, cukup luas" dan "terkuat, termahal, melayani pelanggan berbayar terlebih dahulu" menjadi dua jalur terpisah.
  • Indikator keras Flash. Data resmi menunjukkan 3.5 Flash mencapai 76,2% pada Terminal-Bench 2.1, 1656 Elo pada GDPval-AA, dan 83,6% pada MCP Atlas, dengan kecepatan output yang diklaim empat kali lebih cepat daripada model terdepan lainnya, serta unggul dalam beberapa benchmark pengkodean dan agen.
  • Harga Pro hampir sepuluh kali lipat dari Flash. Berbagai media melaporkan harga Pro sekitar 15 dolar AS per 100 ribu token input, dan sekitar 60 dolar AS per 100 ribu token output, yang hampir sepuluh kali lipat dari harga 3.5 Flash. Yang pertama kali menikmati Pro akan menjadi pelanggan skema Pro seharga 20 dolar AS per bulan dan skema Ultra seharga 250 dolar AS per bulan.

Analisis Dampak Pasar

Bagi pengguna umum Taiwan: Jujur, Anda tidak perlu khawatir tentang "Pro belum tersedia di aplikasi". Untuk kebutuhan sehari-hari seperti mencari data, menulis surat, menerjemahkan, atau mengatur catatan rapat, 3.5 Flash sudah cukup dan gratis — ini adalah nilai default di aplikasi, dan Anda sudah menggunakannya. Hanya kebutuhan berat yang memerlukan 200 ribu token, seperti menganalisis buku, kontrak, atau riwayat percakapan sekaligus, yang jarang ditemui dalam kehidupan sehari-hari. Saran saya: gunakan Flash secara maksimal terlebih dahulu, dan tunggu sampai Pro tersedia di skema 20 dolar AS per bulan sebelum mempertimbangkan untuk upgrade, tidak perlu terburu-buru.

Bagi aplikasi bisnis Taiwan: Inilah medan pertempuran yang sebenarnya. 200 ribu token sangat menarik bagi industri hukum, akuntansi, dan manufaktur untuk mengolah dokumen teknis — membaca seluruh SOP, batch dokumen klaim, atau seluruh riwayat email proyek sekaligus, tanpa perlu memotong atau menyatukan. Namun, ada dua kenyataan yang harus dipertimbangkan terlebih dahulu. Pertama, Pro saat ini terikat dengan identitas bisnis Vertex AI, dan tidak ada jalur pendaftaran mandiri yang dibuka, sehingga Anda harus berbicara dengan manajer akun Google Cloud. Kedua, harga yang hampir sepuluh kali lipat berarti "jika bisa dipecahkan dengan Flash, jangan paksa menggunakan Pro". Struktur yang lebih masuk akal adalah lapisan: permintaan besar dan sederhana menggunakan Flash, dan hanya permintaan yang benar-benar memerlukan pemikiran mendalam atau konteks panjang yang diarahkan ke Pro, untuk menekan biaya.

Bagi pengembang Taiwan: Membuat Deep Think sebagai sakelar parameter adalah kabar baik bagi implementasi teknik — tidak perlu memelihara dua rute model, satu ID untuk semua. Namun, "mudah diaktifkan" juga berarti "mudah dilupakan", dan pemikiran mendalam akan menghabiskan lebih banyak token, sehingga kurva biaya akan lebih curam dari yang Anda bayangkan. Saya sarankan untuk mengatur Deep Think sebagai kondisi yang harus dipenuhi untuk diaktifkan, bukan sebagai default yang selalu aktif. Selain itu, karena API pratinjau Pro mungkin masih disesuaikan, jangan mengikat inti proses produksi dengan versi pratinjau sebelum dirilis secara resmi. Untuk mereka yang ingin berlatih terlebih dahulu, bisa menggunakan API Gemini yang sudah dirilis dan Google AI Studio untuk mempersiapkan proses pengolahan konteks panjang, dan beralih ke Pro ketika sudah tersedia.

Tren Pengembangan Masa Depan

Saya percaya tiga arah akan menjadi jelas dalam enam bulan ke depan.

Pertama, "perang panjang konteks" akan bergeser dari sekadar memamerkan kemampuan menjadi fokus pada kegunaan praktis. 200 ribu token terdengar mengesankan, tetapi yang benar-benar diuji adalah "akurasi pencarian dalam konteks panjang" — bukan hanya seberapa besar jendela konteks, tetapi seberapa akurat informasi bisa ditemukan. Perusahaan akan bersaing dalam kemampuan menemukan informasi dengan tepat dalam teks panjang, bukan hanya ukuran jendela.

Kedua, "rilis dua tahap" akan menjadi strategi umum bagi perusahaan besar. Menggunakan model kecil yang cukup dan gratis untuk menarik pengguna, kemudian menyimpan model flagship untuk pelanggan berbayar, adalah strategi yang ditunjukkan Google dengan jelas. Bagi ChatGPT, Claude, Perplexity, dan lainnya, era membandingkan parameter sudah berakhir; yang dibandingkan sekarang adalah "seberapa baik lapisan gratis dan seberapa berharganya lapisan berbayar".

Ketiga, kemampuan agen (agentic) akan menjadi pembeda berikutnya. Google menekankan "kecerdasan dengan aksi" ini, yang berarti model harus bisa menjalankan beberapa langkah kerja, mengaktifkan alat, dan menyelesaikan tugas secara mandiri. Siapa yang bisa membuat AI secara stabil "menyelesaikan pekerjaan" dan tidak hanya "berbicara", itulah yang akan menguasai anggaran perusahaan.

Ringkasan dan Evaluasi TheAI Akademi

Pembukaan Juni Gemini 3.5 Pro, pada permukaan, adalah soal model yang dirilis, tetapi sebenarnya adalah tentang ritme Google: menggunakan Flash gratis untuk skala, dan Pro berbayar untuk melayani bisnis. 200 ribu token dan Deep Think adalah kemampuan nyata, tetapi "saat ini hanya tersedia untuk pratinjau bisnis Vertex AI" juga adalah kenyataan, jangan tertipu oleh "sudah diperkenalkan di I/O" yang berarti "tersedia untuk semua".

Evaluasi: Yang paling berharga untuk dipelajari pembaca Taiwan bukanlah "Google merilis model yang lebih kuat", melainkan "perusahaan yang sama merilis versi gratis dan flagship dengan selisih waktu sebulan". Bagi individu, gunakan Flash secara maksimal terlebih dahulu; bagi bisnis, pahami terlebih dahulu ambang batas dan biaya lapisan Vertex AI sebelum memutuskan untuk mengikuti Pro. Tim yang bisa menghemat biaya dan mengalirkan dengan baik akan menang, bukan karena model, tetapi karena cara penggunaannya.

Saran khusus untuk pembaca Taiwan: pertama, gunakan Flash gratis untuk kebutuhan sehari-hari sekarang juga, tidak perlu menunggu. Kedua, bagi bisnis, evaluasi apakah 200 ribu token benar-benar dibutuhkan atau bisa dipecahkan dengan Flash, jangan membayar untuk panjang konteks yang tidak terpakai. Ketiga, bagi pengembang, siapkan proses pengolahan konteks panjang di API yang sudah dirilis sebelum beralih ke Pro. Untuk perbandingan alat dan pemecahan tugas lebih lanjut, silakan kunjungi /tools dan /tasks.

Artikel ini membahas produk dan fungsi pihak ketiga, dan isi sebenarnya tunduk pada pengumuman resmi Google, tidak merupakan saran investasi atau pembelian.

Pertanyaan yang Sering Diajukan

Gemini 3.5 Pro 現在一般人能用了嗎?

截至 2026 年六月中,3.5 Pro 仍只開放給 Vertex AI 企業客戶限定預覽,尚未進到消費者版的 Gemini App、Google AI Studio 或個人訂閱方案。一般使用者在 App 裡用到的多半還是已全球免費上線的 3.5 Flash。

Gemini 3.5 Pro 的 200 萬 token 上下文有什麼用?

200 萬 token 約等於數百萬字,可一次讀入整套法規、整個程式庫或幾百頁文件,適合法律、會計、製造業等需要處理超長文件的場景。它是 Flash(100 萬 token)的兩倍,也是目前已公布的量產前沿模型中最大的上下文之一。

Deep Think 模式怎麼運作?

Deep Think 並非另一個模型,而是 API 上的參數開關(thinkingConfig)。同一個模型 ID 依你是否開啟而切換標準或深度推理。方便,但深度推理會明顯增加 token 成本,建議設定觸發條件而非預設全開。

3.5 Flash 跟 3.5 Pro 差在哪、我該用哪個?

Flash 已免費全球上線、速度快、適合多數日常與大量請求;Pro 最強、上下文最長,但定價約為 Flash 十倍且目前僅限企業預覽。務實做法是分層:簡單請求走 Flash,真正需要深度推理或超長上下文時才路由到 Pro。

繁體中文版 →