Era di mana model bahasa besar (LLM) dapat berjalan langsung di smartphone tanpa koneksi cloud kini semakin nyata. Google resmi merilis versi Quantization-Aware Training (QAT) dari model terbuka Gemma 4, dan menurut laporan Android Authority, kebutuhan memorinya untuk operasi mobile berhasil ditekan hingga hanya sekitar 1GB. Bagi pengguna di Indonesia, ini membuka peluang menjalankan AI generatif secara offline — relevan di tengah keterbatasan kuota data dan kekhawatiran privasi.

QAT Mengatasi Kelemahan PTQ pada Model Ringan

Agar LLM dapat berjalan di smartphone atau laptop, proses kuantisasi (quantization) untuk menekan penggunaan memori menjadi keharusan. Metode umum yang dipakai adalah Post-Training Quantization (PTQ), yaitu kompresi setelah model selesai dilatih. Namun, pendekatan ini sering menimbulkan penurunan kualitas yang cukup terasa.

Gemma 4 versi QAT mengintegrasikan proses kuantisasi langsung ke dalam tahap pelatihan, sehingga degradasi performa dapat ditekan sembari meningkatkan kecepatan decoding. Dalam blog resminya, Google menyatakan bahwa hasil QAT terbukti lebih unggul dibandingkan checkpoint yang diolah melalui PTQ.

Skema Kompresi Khusus untuk Perangkat Mobile

Versi QAT ini mengadopsi skema kuantisasi mobile khusus yang dirancang untuk smartphone dan laptop. Beberapa teknik yang dilaporkan diterapkan antara lain:

  • Penggunaan konfigurasi kuantisasi yang telah dihitung sebelumnya (pre-computed)
  • Penerapan kompresi 2-bit pada sebagian komponen model
  • Kompresi vocabulary list dan short-term memory

Google menegaskan bahwa model-model ini "mempertahankan kualitas setara bfloat16, sekaligus mengurangi kebutuhan memori untuk loading secara dramatis." Dari sisi pengguna, manfaat langsungnya jelas: respons AI dapat dihasilkan tanpa mengirimkan data ke server, sehingga latensi jaringan dan kekhawatiran privasi dapat diminimalkan. Bagi konsumen di Indonesia, ini juga berarti penghematan kuota data dan kemampuan menggunakan AI di area dengan sinyal lemah.

Lima Varian Ukuran, Mulai dari 1GB RAM

Versi QAT yang dioptimalkan tersedia dalam lima ukuran berbeda:

  • Gemma 4 E2B
  • Gemma 4 E4B
  • Gemma 4 12B
  • Gemma 4 26B A4B
  • Gemma 4 31B

Varian terkecil, Gemma 4 E2B (khusus teks), dilaporkan hanya memerlukan memori mobile sekitar 1GB — angka yang membuatnya realistis dijalankan pada smartphone kelas menengah seperti Samsung Galaxy A55, Xiaomi Redmi Note 14 Pro, atau seri Oppo Reno12 yang banyak dipakai di pasar Indonesia. Detail kebutuhan memori tiap ukuran telah dipublikasikan Google dalam bentuk grafik resmi.

Empat Format Distribusi via Hugging Face dan LM Studio

Model ini tersedia dalam empat format unduhan: QAT checkpoint mentah (belum terkuantisasi), GGUF (GPT-Generated Unified Format), versi yang dioptimalkan untuk mobile, serta Compressed Tensors. Setelah bobot model diunduh, pengguna dapat menjalankannya di smartphone, laptop, maupun desktop.

Versi mobile dan desktop tersedia di Hugging Face dan juga LM Studio. Bagi pengguna yang ingin bereksperimen, langkah praktisnya adalah memulai dari varian terkecil E2B untuk tugas ringan seperti ringkasan, terjemahan Bahasa Indonesia–Inggris, atau respons singkat. Jika diperlukan kemampuan inferensi yang lebih kompleks, E4B menjadi langkah selanjutnya — sesuaikan dengan kapasitas RAM perangkat Anda.

Perbandingan dengan Phi-4 Mini, Llama 3.2, dan Qwen 2.5

Persaingan di kelas small language model semakin ketat. Phi-4 Mini dari Microsoft (3,8 miliar parameter) dilaporkan memiliki performa inferensi tertinggi di kelas sub-4B, bahkan mengungguli Gemma 3 4B dan Llama 3.2 3B pada tugas Chain-of-thought. Sementara Gemma 3 4B tercatat mampu menghasilkan throughput sekitar 27 token per detik di iPhone 16 Pro dengan Google AI Edge SDK.

Berikut perbandingan footprint memori pada kuantisasi Q4_K_M:

ModelMemori (Q4_K_M)
Phi-4 Mini 3.8Bsekitar 2,7GB
Llama 3.2 3Bsekitar 2,2GB
SmolLM 2 1.7Bsekitar 1,1GB
Qwen 2.5 1.5Bsekitar 1,0GB

Jika prioritas Anda adalah performa inferensi, Phi-4 Mini layak dipertimbangkan. Namun bila kapasitas RAM perangkat menjadi kendala — kasus yang umum di smartphone kelas menengah di Indonesia — Qwen 2.5 1.5B atau SmolLM 2 1.7B bisa menjadi alternatif yang lebih ramah.

NPU dan Pertumbuhan Pasar Edge AI

Peningkatan performa NPU pada SoC mobile berjalan paralel dengan tren ini. Snapdragon X2 Elite Extreme dari Qualcomm dilaporkan mencapai performa NPU 80 TOPS, dua kali lipat dari generasi sebelumnya. Gemma 4 QAT sendiri diklaim mampu memberikan kecepatan inferensi hingga 2x lebih tinggi dan penghematan memori 40–50% dibandingkan versi FP16, ketika dijalankan di NPU kelas mobile.

  • Coral NPU: Google memperkenalkan platform baru untuk edge AI berdaya ultra-rendah, dengan performa kelas 512 GOPS hanya dalam konsumsi daya beberapa mW.
  • Skala pasar: Pasar hardware edge AI diproyeksikan menyentuh sekitar US$30,7 miliar (sekitar Rp 499 triliun) pada 2026, sementara chip optimasi inferensi diperkirakan melampaui US$50 miliar (sekitar Rp 812 triliun).
  • Inferensi lokal: Dengan inferensi yang sepenuhnya di perangkat, prompt dan gambar pengguna tidak perlu dikirim ke server eksternal.

Kombinasi peningkatan TOPS pada sisi hardware dan kompresi bobot via QAT menciptakan momentum baru bagi AI on-device. Bagi ekosistem Indonesia, ini berpotensi mendorong munculnya aplikasi AI lokal yang lebih hemat data dan lebih sadar privasi dalam beberapa tahun ke depan.

Q&A

Q. Apa perbedaan QAT dan PTQ? PTQ melakukan kuantisasi setelah pelatihan selesai dan rentan terhadap penurunan kualitas. QAT mengintegrasikan kuantisasi ke dalam proses pelatihan itu sendiri, sehingga menurut Google mampu mempertahankan kualitas mendekati bfloat16 dengan kebutuhan memori yang jauh lebih kecil.

Q. Ukuran mana yang realistis untuk smartphone? Gemma 4 E2B (khusus teks) hanya memerlukan sekitar 1GB memori mobile, menjadikannya pilihan paling sesuai untuk smartphone. Jika menginginkan performa lebih tinggi, E4B menjadi opsi berikutnya, meski kebutuhan memorinya lebih besar.

Q. Apakah versi QAT bisa digunakan offline? Ya. Karena bobot model diunduh dan dijalankan secara lokal, inferensi dapat berlangsung tanpa koneksi cloud. Ini juga berarti data input Anda tidak dikirim ke server eksternal — keunggulan utama dari AI on-device.

Sumber