ИИ, который пойдет на смартфоне: Google Gemma 4 получила квантованные версии

Google DeepMind выложила официальные квантованные версии Gemma 4 — специально обученные чекпойнты, которые резко снижают требования к памяти и позволяют запускать открытую модель на ноутбуках, периферийных устройствах и даже смартфонах. Веса уже доступны на Hugging Face , а самый компактный вариант в мобильном формате помещается примерно в 1 ГБ памяти.
Квантованные сборки Gemma 4 существовали и раньше, но их делало сообщество — теперь же облегченные версии выпускает сама Google. Компания использовала технологию QAT — это обучение, при котором пониженная точность вычислений моделируется еще на этапе тренировки, поэтому при последующем сжатии модель теряет в качестве меньше, чем при обычном квантовании уже готовых весов.
Что именно выложили:
- Пять размеров семейства: E2B, E4B, 12B, 26B A4B и 31B.
- Четыре формата под разные сценарии: неквантованный Q4_0 (для своей компиляции и исследований), готовый к запуску GGUF Q4_0, Compressed Tensors w4a16 под vLLM и мобильный формат wNa8o8 с прицельными 2-битными слоями декодинга.
- Поддержка с первого дня: llama.cpp, Ollama, LM Studio, vLLM, MLX и LiteRT-LM.
Google заявляет, что QAT сохраняет качество, близкое к bfloat16, и обходит обычное послетренировочное квантование, но независимых бенчмарков именно по Gemma 4 QAT на момент релиза нет — пока это обещание самой компании. Квантованные модели для смартфона в любом случае стоит воспринимать как вспомогательный ИИ — например, для перевода в дорогом роуминге или при отсутствии интернета.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть" , где я рассказываю про ИИ с творческой стороны.
Здесь пока пусто
У первых комментариев больше шансов попасть в топ. Пишите!