Cuando Google DeepMind lanzó Gemma 4, prometió algo que muchos desarrolladores habían estado esperando: modelos de IA que pudieran ejecutarse completamente en el dispositivo, sin conexión a internet, y con rendimiento suficiente para ser útiles en el día a día.
Pero la gran pregunta era: ¿funcionan realmente en teléfonos de gama media?
Varios usuarios y medios ya han puesto a prueba los modelos E2B y E4B de Gemma 4 en dispositivos de gama media, y los resultados — aunque prometedores — revelan que todavía existe una brecha significativa con los teléfonos flagship.
¿Qué es Gemma 4?
Gemma 4 es la familia de modelos de IA de código abierto de Google DeepMind, construida sobre la misma investigación que Gemini 3. Se lanzó bajo licencia Apache 2.0, lo que significa que cualquier desarrollador puede usarla comercialmente sin restricciones.
Desde su lanzamiento, la familia Gemma ha acumulado más de 400 millones de descargas.
Para dispositivos móviles, Google lanzó dos variantes:
- Gemma 4 E2B — 2.3 mil millones de parámetros efectivos (5.1B totales). Ventana de contexto de 128K tokens. Soporta texto, imágenes y audio.
- Gemma 4 E4B — 4.5 mil millones de parámetros efectivos (8B totales). Ventana de contexto de 128K tokens. Soporta texto, imágenes y audio.
Ambos modelos se ejecutan a través de la aplicación Google AI Edge Gallery, disponible en Google Play y App Store, completamente offline y sin necesidad de registro.
La prueba real: Samsung Galaxy A35 5G
El desarrollador Baiju Rajyaguru publicó en Dev.to los resultados de sus pruebas con Gemma 4 en un Samsung Galaxy A35 5G con 8GB de RAM, un dispositivo claramente de gama media. Sus hallazgos:
- El modelo E2B pudo ejecutarse, pero con velocidades notablemente más lentas que en un flagship
- El E4B requiere más recursos y su rendimiento se resiente más en gama media
- La duración de la batería mejoró significativamente respecto a generaciones anteriores
- La CPU en PocketPal se mantuvo estable durante todas las pruebas

Por su parte, el medio chino 36Kr realizó una prueba aún más exigente: ejecutar Gemma 4 E4B en un vivo Y500 Pro (gama media con MediaTek Dimensity 7400 y 4nm). Los resultados fueron mixtos:
- Generar 500 palabras tomó 2.8 minutos completos
- El teléfono no se calentó excesivamente ni se puso lento
- Las respuestas a preguntas simples fueron correctas aunque lentas
- Las capacidades de automatización del sistema son aún muy limitadas
La conclusión de 36Kr fue contundente: “Gemma 4 solo puede alcanzar un nivel ‘aprobatorio’ en teléfonos flagship. En un teléfono de gama media es lento e impreciso”.
Los benchmarks oficiales de Google, publicados en la documentación de LiteRT-LM, muestran la brecha:
Gemma 4 E2B:
- Samsung Galaxy S26 Ultra (GPU): 52 tokens/segundo, 0.3 segundos primer token
- Gama media (CPU): ~5-10 tokens/segundo (según Android Bench)
- Raspberry Pi 5 (CPU): 7.6 tokens/segundo
Gemma 4 E4B:
- Samsung Galaxy S26 Ultra (GPU): 22 tokens/segundo, 0.8 segundos primer token
- Gama media (CPU): ~3-5 tokens/segundo
- Raspberry Pi 5 (CPU): 3 tokens/segundo
El umbral práctico para una experiencia conversacional fluida es de aproximadamente 20 tokens/segundo. Por debajo de 10 tokens/segundo, los usuarios notan la espera.
¿Qué significa esto para los desarrolladores?
Gemma 4 con licencia Apache 2.0 permite a los desarrolladores construir aplicaciones comerciales sin pagar regalías. Las capacidades de función calling y agentes autónomos abren posibilidades como:
- Asistentes de voz completamente offline en el teléfono
- Análisis de documentos e imágenes sin enviar datos a la nube
- Automatización del dispositivo con comandos en lenguaje natural
- Traducción y resumen de textos con privacidad total
Fuentes: Dev.to (Prueba Galaxy A35), Android Developers Blog, Google Blog, 36Kr (Prueba vivo Y500 Pro), Google AI Edge Docs, Beebom (Benchmark chips), MobileTechWorld (Review), Phandroid, The Tech Basket, The Decoder


