QWEN 3.6 35B-A3B dan detil penjelasan istilah-istilahnya

Qwen adalah sebuah model AI yang dibuat oleh perusahaan Alibaba. Dari gambar diatas perusahaan unsloth.ai telah mengkompress model ini sehingga bisa dijalankan di komputer local dengan spek komputer minimum Ram 22 GB. Link penjelasan detilnya ada di https://unsloth.ai/docs/models/qwen3.6

Pada kesempatan ini saya ingin menjelaskan istilah-istilah yang tampil pada gambar poster dibawah ini sehingga pembaca bisa lebih memahami tentang sebuah model AI

qwen 3.6 poster

35B-A3B

Artinya model ini memiliki parameter 35 Billion tapi yang aktif 3 billion (A3B)
Analoginya:
- Bayangkan dalam rumah sakit terdapat 35 dokter spesialis
- Saat dalam memecahkan masalah hanya 3 dokter spesialis yang aktif
- Sehingga jelas hal ini lebih efisien dalam segala hal

MoE

Singkatan dari Mixture of Expert
Kemampuan model dalam memanggil spesialis yang mana yang akan dipanggil
Dalam memecahkan sebuah masalah

Run Model Locally

Artinya bila anda memiliki komputer dengan prosesor dan memori yang memadai
Misalnya RAM komputer anda 128 GB maka anda bisa menjalakan model
Ini dari komputer lokal ini tanpa anda harus membayar biaya berlangganan
Pada chatgpt / gemini

Multimodal

Multimodal artinya model AI ini bisa memahami lebih dari satu jenis data
Artinya bisa digunakan untuk Chat / dokumen pdf
Gambar (picture)
Audio
Video
Jadi intinya bukan hanya teks saja tapi diberi pertanyaan berupa gambar

Hybrid-thinking

Bisa memiliki 2 mode atau lebih dalam berpikir
- Misalnya berpikir cepat (fast thinking)
- Bisa dibaca dulu secara mendalam dan melakukan (reasoning / deep thinking)

Context support 256K

Dalam satu diskusi bisa mengingat 256 K token
K adalah kilo jadi 256 K = 256 * 1024 = 262.144 token
Apabila 1 kata dalam bahasa inggris butuh 1.3 token
Maka 262.144 / 1.3 = 201 ribu kta
Jadi model ini bisa mengingat sekitar 200 ribu kata
Untuk gambaran mudanya novel Harry potter 1 buku tebal sekitar 77 ribu kata
Jadi sekitar 2-3 novel
Kesimpulannya sangat besar memorinya
Bisa mengigat setiap kalimat di 2 novel tebal

Across 201 languages

Bisa mengenali pertanyaaan bahasa indonesia, inggris, jepang dll.

GGUF

Format file LLM yang menyimpan model AI (terutama LLM) yang dioptimalkan supaya ringan, cepat, dan mudah dijalankan secara lokal.
Jadi sebelumnya file model asli sangat besar puluhan giga
Tapi karena di kompresi dengan teknik Quantization menjadi lebih kecil
Analogi sederhana bila foto format RAW ukurannya akan sangat besar
Tapi bila disimpan menjadi jpg, dikompress tapi tetap masih relatif bagus

NEW: developer Role Support for opencode and codex

Pada program opencode atau codex apabila model AI tidak diberitahu dulu
Rolenya maka dia akan berpikir bebas untuk mencapai tujuan yang diinginkan
Tapi bila diberikan 1 file batasan (AGENTS.md)
Misalnya Role sebagai Developer Ruby on Rails
Maka model AI akan memikirkan solusi berdasarkan framework Ruby on Rails
Tidak memikirkan logic secara bebas atau general.

Tool Calling Fixes

Tool calling ini digunakan bila model AI fungsinya digabung
Dengan program aplikasi, misalnya di usahaku.com aplikasi penjualan dan acccounting
Model AI bisa diberitahu bila user menanyakan tentang omzet baju panggil fungsi A
Bila user menanyakan tentang baju terlaris di tahun 2025 panggil fungsi B dan beri input 2025
Model bisa menterjemahkan sendiri tahun 2025 sebagai data inputan untuk fungsi B

Pengertian Unified Memory

Setahu penulis, ini hanya ada di peralatan yang dibuat apple (Macmini, Macbook pro / air)
Karena memory RAM dan VRAM dijadikan satu di apple
Artinya bila anda memiliki macbook air 16 GB apple bisa
Alokasi misalnya 10 GB untuk RAM dan 6 GB untuk video RAM
Bila anda menjalan game maka alokasinya beda lagi RAM 5 GB dan 11 GB untuk VRAM
Jadi 1 memory digunakan secara bersama-sama disesuaikan dengan kebutuhan

Pandungan menggunakan kompresi / Quantization (3-bit, 4-bit, dst)

Bila tanpa dikompress membutuhkan total memory 70 GB
Bila dikompres 8-bit menjadi 38 GB
Bila dikompres 4 bit menjadi 23 GB
- Nah di bagian ini masih memungkinkan bila anda memiliki
- Mac mini M4 Pro dengan 48GB unified memory

Tabel:

Bit	RAM	Kualitas
3-bit	17 GB	agak turun
4-bit	23 GB	seimbang 👍
6-bit	30 GB	bagus
8-bit	38 GB	hampir penuh
BF16	70 GB	kualitas penuh

Top-P = 0.95 (95%)

Misalnya ada kalimat "saya mau makan ..."
Model akan memiliki kandidat kata
Nasi (40%), mie (25%), ayam (15%), pizza (10%), es krim (5%), permen karet (2%), batu (0.1%)
Bila diisi 95% maka pilihan mulai nasi sampai es krim akan menjadi kandidat kata bisa dipilih
(40 + 25 + 15 + 10 + 5 = 95)

Temperature

Nilainya antara 0.1 - 1.0
Dari pilihan kata yang sudah difilter oleh Top-P diatas
Bila kita memilih temperature 1.0 maka pilihan dari nasi sampai es krim bisa tampil
Tapi bila kita memilih 0.7 maka pilihan nasi dan mie bisa tampil
Bila diisi dengan 1.0 , model akan sangat kreatif tergantung juga top-p
Karena itu untuk diskusi topik bebas (general task) temperature = 1.0 (sangat kreatif)
Tapi untuk pemprograman dia juga harus memperhatikan batasan-batasan yang diberikan
Karena itu nilai temperature = 0.6

Top-K

Dari contoh ini
Nasi (1), mie (2), ayam (3), pizza (4), es krim (5), permen karet (6), batu (7)
Bila Top-K diisi = 5 maka ambil 5 kata teratas (nasi - es krim)
Bila Top-K diisi = 10 maka semua kata akan diambil termasuk batu
Nanti tergantung temperature bila disi 1.0 maka sangat kreatif jadi kemungkinan
Kata batu kemungkinan akan ditampilkan

Min-P

Nasi (40%), mie (25%), ayam (15%), pizza (10%), es krim (5%), permen karet (2%), batu (0.1%)
Dari contoh diatas kalau Min-P = 0.1 (10%)
Nilai tertinggi = nasi (40%)
Nilai tertinggi * Min-P = 40% * 0.1 = 4%
Jadi Hilangkan kata-kata yang nilainya 4% kebawah
Jadi permen karet (2%) dan batu(0.1%) akan dihilangkan dari pilihan

Benchmark

Membandingkan kemampuan dengan model yang lain
SWE-bench Verified = kumpulan soal coding nyata dari GitHub yang sudah diverifikasi manusia untuk menguji kemampuan AI sebagai software engineer
SWE-bench pro = menyelesaikan masalah pemprogram yang lebih kompleks dan mendekati kerja harian dari real programmer.