Así es usar Gemma 4 de Google en un teléfono Android de gama media

Anuncios

Cuando Google DeepMind lanzó Gemma 4, prometió algo que muchos desarrolladores habían estado esperando: modelos de IA que pudieran ejecutarse completamente en el dispositivo, sin conexión a internet, y con rendimiento suficiente para ser útiles en el día a día.

Pero la gran pregunta era: ¿funcionan realmente en teléfonos de gama media?

Varios usuarios y medios ya han puesto a prueba los modelos E2B y E4B de Gemma 4 en dispositivos de gama media, y los resultados — aunque prometedores — revelan que todavía existe una brecha significativa con los teléfonos flagship.

¿Qué es Gemma 4?

Gemma 4 es la familia de modelos de IA de código abierto de Google DeepMind, construida sobre la misma investigación que Gemini 3. Se lanzó bajo licencia Apache 2.0, lo que significa que cualquier desarrollador puede usarla comercialmente sin restricciones.

Desde su lanzamiento, la familia Gemma ha acumulado más de 400 millones de descargas.

Para dispositivos móviles, Google lanzó dos variantes:

Gemma 4 E2B — 2.3 mil millones de parámetros efectivos (5.1B totales). Ventana de contexto de 128K tokens. Soporta texto, imágenes y audio.
Gemma 4 E4B — 4.5 mil millones de parámetros efectivos (8B totales). Ventana de contexto de 128K tokens. Soporta texto, imágenes y audio.

Ambos modelos se ejecutan a través de la aplicación Google AI Edge Gallery, disponible en Google Play y App Store, completamente offline y sin necesidad de registro.

La prueba real: Samsung Galaxy A35 5G

El desarrollador Baiju Rajyaguru publicó en Dev.to los resultados de sus pruebas con Gemma 4 en un Samsung Galaxy A35 5G con 8GB de RAM, un dispositivo claramente de gama media. Sus hallazgos:

El modelo E2B pudo ejecutarse, pero con velocidades notablemente más lentas que en un flagship
El E4B requiere más recursos y su rendimiento se resiente más en gama media
La duración de la batería mejoró significativamente respecto a generaciones anteriores
La CPU en PocketPal se mantuvo estable durante todas las pruebas

Por su parte, el medio chino 36Kr realizó una prueba aún más exigente: ejecutar Gemma 4 E4B en un vivo Y500 Pro (gama media con MediaTek Dimensity 7400 y 4nm). Los resultados fueron mixtos:

Anuncios

Generar 500 palabras tomó 2.8 minutos completos
El teléfono no se calentó excesivamente ni se puso lento
Las respuestas a preguntas simples fueron correctas aunque lentas
Las capacidades de automatización del sistema son aún muy limitadas

La conclusión de 36Kr fue contundente: “Gemma 4 solo puede alcanzar un nivel ‘aprobatorio’ en teléfonos flagship. En un teléfono de gama media es lento e impreciso”.

Los benchmarks oficiales de Google, publicados en la documentación de LiteRT-LM, muestran la brecha:

Gemma 4 E2B:

Samsung Galaxy S26 Ultra (GPU): 52 tokens/segundo, 0.3 segundos primer token
Gama media (CPU): ~5-10 tokens/segundo (según Android Bench)
Raspberry Pi 5 (CPU): 7.6 tokens/segundo

Gemma 4 E4B:

Samsung Galaxy S26 Ultra (GPU): 22 tokens/segundo, 0.8 segundos primer token
Gama media (CPU): ~3-5 tokens/segundo
Raspberry Pi 5 (CPU): 3 tokens/segundo

El umbral práctico para una experiencia conversacional fluida es de aproximadamente 20 tokens/segundo. Por debajo de 10 tokens/segundo, los usuarios notan la espera.

¿Qué significa esto para los desarrolladores?

Gemma 4 con licencia Apache 2.0 permite a los desarrolladores construir aplicaciones comerciales sin pagar regalías. Las capacidades de función calling y agentes autónomos abren posibilidades como:

Asistentes de voz completamente offline en el teléfono
Análisis de documentos e imágenes sin enviar datos a la nube
Automatización del dispositivo con comandos en lenguaje natural
Traducción y resumen de textos con privacidad total

Fuentes: Dev.to (Prueba Galaxy A35), Android Developers Blog, Google Blog, 36Kr (Prueba vivo Y500 Pro), Google AI Edge Docs, Beebom (Benchmark chips), MobileTechWorld (Review), Phandroid, The Tech Basket, The Decoder

Julio Cesar Del Angel Hernandez

Deja un comentario Cancelar respuesta