LLM Lokal di Intel N100 Tanpa GPU Diskrit: Gemma 3 Ternyata Bisa Jalan

Intel N100, prosesor x86 yang dikenal sebagai salah satu yang paling terjangkau di pasaran, ternyata mampu menjalankan model bahasa besar (LLM) secara lokal tanpa GPU diskrit. XDA Developers baru-baru ini mempublikasikan laporan pengujian yang menunjukkan bahwa Gemma 3 (4B) dapat berjalan dengan kecepatan yang "cukup layak" di atas iGPU bawaan N100 — sebuah temuan yang relevan bagi siapa pun yang ingin membangun server LLM rumahan dengan anggaran terbatas.

Mesin Uji: LattePanda Mu dengan N100 dan 8GB RAM

Pengujian dilakukan oleh Ayush Pande dari XDA Developers menggunakan LattePanda Mu, sebuah modul komputasi berukuran 69,6×60 mm yang mengandalkan prosesor Intel N100. Spesifikasi utama yang digunakan dalam pengujian ini cukup minimalis:

Komponen	Detail
Produk	LattePanda Mu (compute module)
CPU	Intel N100
RAM	8GB

Tidak ada GPU diskrit yang digunakan — seluruh beban inferensi ditanggung oleh iGPU bawaan N100. Inilah yang menjadikan pengujian ini menarik: seberapa jauh perangkat kelas entry-level bisa dibawa untuk menjalankan AI generatif secara lokal?

Soal harga, LattePanda Mu dijual mulai sekitar $179 (sekitar Rp 2.910.000) untuk modul N100-nya saja, belum termasuk carrier board dan sistem pendingin yang harus dibeli terpisah. Perlu dicatat bahwa TDP perangkat ini dapat dikonfigurasi antara 6W hingga 35W, menjadikannya fleksibel untuk berbagai skenario penggunaan.

Konfigurasi Proxmox + llama.cpp: Mengapa Bukan Ollama?

Pande memilih pendekatan yang sedikit lebih teknis dibanding sekadar menginstal Ollama. Ia membangun llama.cpp dari source code di dalam LXC container di atas Proxmox, dengan alasan utama kemudahan snapshot untuk memulihkan lingkungan dengan cepat.

Untuk mengaktifkan iGPU, ia cukup menambahkan /dev/dri/renderD128 sebagai Device Passthrough di tab Resources LXC dengan mode akses 0666, lalu menginstal intel-media-va-driver dan vainfo di sisi container untuk memverifikasi bahwa iGPU terdeteksi dengan benar. Setelah itu, llama.cpp dikompilasi dengan dukungan Vulkan.

Mengapa tidak menggunakan Ollama? Pande menjelaskan dua alasan: pertama, Ollama memiliki overhead performa yang terlalu besar untuk hardware sekelas N100; kedua, fleksibilitas parameter saat serving dinilai kurang memadai. Untuk perangkat dengan sumber daya terbatas, membangun llama.cpp secara langsung dengan Vulkan adalah pilihan yang lebih efisien.

Jebakan RAM: Build Gagal di 18%, Ini Solusinya

Proses kompilasi tidak berjalan mulus sejak awal. Perintah cmake -B build cmake --build build -- -j1 selalu gagal di sekitar 18% progres, memaksa Pande untuk login ulang ke LXC setiap kali terjadi kegagalan.

Penyebabnya teridentifikasi sebagai kekurangan memori: dari total 8GB RAM di host, LXC hanya dialokasikan 5GB dengan swap 512MB — terlalu sempit untuk proses kompilasi yang intensif. Solusinya sederhana namun krusial: naikkan alokasi RAM LXC ke 7GB dan tambahkan swap 3GB. Setelah perubahan ini, proses build berhasil diselesaikan.

Satu catatan penting dari Pande: setelah llama.cpp berhasil terinstal, swap sebaiknya dinonaktifkan. Membiarkan swap aktif dari SSD akan memperlambat kecepatan inferensi secara signifikan karena bottleneck I/O.

Hasil Inferensi: Gemma 3 (4B) Layak Pakai di N100

Setelah build berhasil, Pande menjalankan Gemma 3 (4B, Q4_K_M) sebagai instance llama-server dengan perintah berikut:

./llama-server -m "/root/llama.cpp/models/gemma-3-4b-it-Q4_K_M.gguf" --host 0.0.0.0 --port 8082

Hasilnya: model berjalan dengan kecepatan yang digambarkan sebagai "decent" (cukup layak). Sebagai perbandingan, Gemma 3 (4B) dilaporkan mengalami kesulitan saat dijalankan di Raspberry Pi — N100 jelas selangkah lebih maju. Yang lebih menggembirakan, context window hingga 16K token dapat diaktifkan tanpa menghabiskan seluruh RAM yang tersedia.

Pande menyimpulkan bahwa LattePanda Mu dengan N100 adalah kandidat realistis sebagai server LLM sekunder di rumah — cocok untuk tugas-tugas ringan, atau sebagai upgrade dari Raspberry Pi yang sudah tidak mencukupi.

Gemma 4 dan Alternatif BitNet untuk Hardware Terbatas

Perlu diketahui bahwa Google telah merilis Gemma 4 pada 31 Maret 2026 di bawah lisensi Apache 2.0. Keluarga model ini hadir dalam empat varian:

Varian	Parameter	Target Penggunaan
E2B	2B	Smartphone
E4B	4B	Edge / lokal
26B MoE	3,8B aktif	GPU konsumen
31B Dense	31B	Workstation

Varian E2B dan E4B mendukung multimodal (teks, gambar, dan audio secara native) dengan context window hingga 128K token. Apakah Gemma 4 E4B dapat berjalan di N100 dengan performa yang setara atau lebih baik dari Gemma 3 (4B) menjadi pertanyaan menarik untuk pengujian berikutnya.

Sebagai alternatif lain, framework bitnet.cpp dari Microsoft juga patut dipertimbangkan. Model BitNet 2B dengan kuantisasi tiga-nilai hanya membutuhkan sekitar 1,2GB RAM dan mampu menghasilkan 5–10 token per detik di lingkungan N100. Bagi yang memiliki kendala ketat pada RAM 8GB, pendekatan ultra-ringan ini bisa menjadi jalan keluar yang lebih praktis dibanding memaksakan model 4B.

Relevansi bagi Pengguna di Indonesia

Bagi komunitas penggemar AI dan self-hosting di Indonesia, temuan ini membuka peluang yang menarik. Mini PC berbasis Intel N100 — termasuk berbagai model dari merek seperti Beelink, GMKtec, atau MINISFORUM — sudah tersedia di marketplace lokal seperti Tokopedia dan Shopee dengan harga mulai sekitar Rp 1.500.000 hingga Rp 2.500.000, jauh lebih terjangkau dibanding membangun workstation dengan GPU diskrit.

Dengan konfigurasi yang tepat (llama.cpp + Vulkan, tanpa Ollama, manajemen RAM yang cermat), menjalankan LLM lokal untuk keperluan pribadi atau eksperimen kini bukan lagi domain eksklusif pengguna dengan hardware mahal. Informasi ketersediaan LattePanda Mu secara resmi di pasar Indonesia belum diumumkan, namun alternatif mini PC N100 dari merek lain sudah mudah ditemukan.