Qwen adalah sebuah model AI yang dibuat oleh perusahaan Alibaba. Dari gambar diatas perusahaan unsloth.ai telah mengkompress model ini sehingga bisa dijalankan di komputer local dengan spek komputer minimum Ram 22 GB. Link penjelasan detilnya ada di https://unsloth.ai/docs/models/qwen3.6

Pada kesempatan ini saya ingin menjelaskan istilah-istilah yang tampil pada gambar poster dibawah ini sehingga pembaca bisa lebih memahami tentang sebuah model AI

qwen 3.6 poster

35B-A3B

  • Artinya model ini memiliki parameter 35 Billion tapi yang aktif 3 billion (A3B)
  • Analoginya:

    • Bayangkan dalam rumah sakit terdapat 35 dokter spesialis
    • Saat dalam memecahkan masalah hanya 3 dokter spesialis yang aktif
    • Sehingga jelas hal ini lebih efisien dalam segala hal

MoE

  • Singkatan dari Mixture of Expert
  • Kemampuan model dalam memanggil spesialis yang mana yang akan dipanggil
  • Dalam memecahkan sebuah masalah

Run Model Locally

  • Artinya bila anda memiliki komputer dengan prosesor dan memori yang memadai
  • Misalnya RAM komputer anda 128 GB maka anda bisa menjalakan model
  • Ini dari komputer lokal ini tanpa anda harus membayar biaya berlangganan
  • Pada chatgpt / gemini

Multimodal

  • Multimodal artinya model AI ini bisa memahami lebih dari satu jenis data
  • Artinya bisa digunakan untuk Chat / dokumen pdf
  • Gambar (picture)
  • Audio
  • Video
  • Jadi intinya bukan hanya teks saja tapi diberi pertanyaan berupa gambar

Hybrid-thinking

  • Bisa memiliki 2 mode atau lebih dalam berpikir

    • Misalnya berpikir cepat (fast thinking)
    • Bisa dibaca dulu secara mendalam dan melakukan (reasoning / deep thinking)

Context support 256K

  • Dalam satu diskusi bisa mengingat 256 K token
  • K adalah kilo jadi 256 K = 256 * 1024 = 262.144 token
  • Apabila 1 kata dalam bahasa inggris butuh 1.3 token
  • Maka 262.144 / 1.3 = 201 ribu kta
  • Jadi model ini bisa mengingat sekitar 200 ribu kata
  • Untuk gambaran mudanya novel Harry potter 1 buku tebal sekitar 77 ribu kata
  • Jadi sekitar 2-3 novel
  • Kesimpulannya sangat besar memorinya
  • Bisa mengigat setiap kalimat di 2 novel tebal

Across 201 languages

  • Bisa mengenali pertanyaaan bahasa indonesia, inggris, jepang dll.

GGUF

  • Format file LLM yang menyimpan model AI (terutama LLM) yang dioptimalkan supaya ringan, cepat, dan mudah dijalankan secara lokal.
  • Jadi sebelumnya file model asli sangat besar puluhan giga
  • Tapi karena di kompresi dengan teknik Quantization menjadi lebih kecil
  • Analogi sederhana bila foto format RAW ukurannya akan sangat besar
  • Tapi bila disimpan menjadi jpg, dikompress tapi tetap masih relatif bagus

NEW: developer Role Support for opencode and codex

  • Pada program opencode atau codex apabila model AI tidak diberitahu dulu
  • Rolenya maka dia akan berpikir bebas untuk mencapai tujuan yang diinginkan
  • Tapi bila diberikan 1 file batasan (AGENTS.md)
  • Misalnya Role sebagai Developer Ruby on Rails
  • Maka model AI akan memikirkan solusi berdasarkan framework Ruby on Rails
  • Tidak memikirkan logic secara bebas atau general.

Tool Calling Fixes

  • Tool calling ini digunakan bila model AI fungsinya digabung
  • Dengan program aplikasi, misalnya di usahaku.com aplikasi penjualan dan acccounting
  • Model AI bisa diberitahu bila user menanyakan tentang omzet baju panggil fungsi A
  • Bila user menanyakan tentang baju terlaris di tahun 2025 panggil fungsi B dan beri input 2025
  • Model bisa menterjemahkan sendiri tahun 2025 sebagai data inputan untuk fungsi B

Pengertian Unified Memory

  • Setahu penulis, ini hanya ada di peralatan yang dibuat apple (Macmini, Macbook pro / air)
  • Karena memory RAM dan VRAM dijadikan satu di apple
  • Artinya bila anda memiliki macbook air 16 GB apple bisa
  • Alokasi misalnya 10 GB untuk RAM dan 6 GB untuk video RAM
  • Bila anda menjalan game maka alokasinya beda lagi RAM 5 GB dan 11 GB untuk VRAM
  • Jadi 1 memory digunakan secara bersama-sama disesuaikan dengan kebutuhan

Pandungan menggunakan kompresi / Quantization (3-bit, 4-bit, dst)

  • Bila tanpa dikompress membutuhkan total memory 70 GB
  • Bila dikompres 8-bit menjadi 38 GB
  • Bila dikompres 4 bit menjadi 23 GB

    • Nah di bagian ini masih memungkinkan bila anda memiliki
    • Mac mini M4 Pro dengan 48GB unified memory

Tabel:

Bit RAM Kualitas
3-bit 17 GB agak turun
4-bit 23 GB seimbang 👍
6-bit 30 GB bagus
8-bit 38 GB hampir penuh
BF16 70 GB kualitas penuh

Top-P = 0.95 (95%)

  • Misalnya ada kalimat "saya mau makan ..."
  • Model akan memiliki kandidat kata
  • Nasi (40%), mie (25%), ayam (15%), pizza (10%), es krim (5%), permen karet (2%), batu (0.1%)
  • Bila diisi 95% maka pilihan mulai nasi sampai es krim akan menjadi kandidat kata bisa dipilih
  • (40 + 25 + 15 + 10 + 5 = 95)

Temperature

  • Nilainya antara 0.1 - 1.0
  • Dari pilihan kata yang sudah difilter oleh Top-P diatas
  • Bila kita memilih temperature 1.0 maka pilihan dari nasi sampai es krim bisa tampil
  • Tapi bila kita memilih 0.7 maka pilihan nasi dan mie bisa tampil
  • Bila diisi dengan 1.0 , model akan sangat kreatif tergantung juga top-p
  • Karena itu untuk diskusi topik bebas (general task) temperature = 1.0 (sangat kreatif)
  • Tapi untuk pemprograman dia juga harus memperhatikan batasan-batasan yang diberikan
  • Karena itu nilai temperature = 0.6

Top-K

  • Dari contoh ini
  • Nasi (1), mie (2), ayam (3), pizza (4), es krim (5), permen karet (6), batu (7)
  • Bila Top-K diisi = 5 maka ambil 5 kata teratas (nasi - es krim)
  • Bila Top-K diisi = 10 maka semua kata akan diambil termasuk batu
  • Nanti tergantung temperature bila disi 1.0 maka sangat kreatif jadi kemungkinan
  • Kata batu kemungkinan akan ditampilkan

Min-P

  • Nasi (40%), mie (25%), ayam (15%), pizza (10%), es krim (5%), permen karet (2%), batu (0.1%)
  • Dari contoh diatas kalau Min-P = 0.1 (10%)
  • Nilai tertinggi = nasi (40%)
  • Nilai tertinggi * Min-P = 40% * 0.1 = 4%
  • Jadi Hilangkan kata-kata yang nilainya 4% kebawah
  • Jadi permen karet (2%) dan batu(0.1%) akan dihilangkan dari pilihan

Benchmark

  • Membandingkan kemampuan dengan model yang lain
  • SWE-bench Verified = kumpulan soal coding nyata dari GitHub yang sudah diverifikasi manusia untuk menguji kemampuan AI sebagai software engineer
  • SWE-bench pro = menyelesaikan masalah pemprogram yang lebih kompleks dan mendekati kerja harian dari real programmer.