Anuncio
Categorías: Noticia

¿Inteligencias artificiales jugando al escondite? Son capaces de colaborar y competir a otro nivel

La gente de OpenAI decidió enfrentar a múltiples agentes en un clásico juego de escondite. A medida que el equipo de «buscadores» comenzó a acumular éxitos, el equipo que debía esconderse incorporó el uso de herramientas para lograr su objetivo, e incluso aprendió a «secuestrar» los recursos de su oponente.

La verdadera pregunta es: ¿Qué pueden lograr cuando llegan al final? Cooperación. Aplicación estratégica de recursos. Explotación de reglas establecidas. La gente de OpenAI lo llama «Uso Emergente de Herramientas a partir de Interacción Multi-Agente».



El escenario es sencillo: Dos equipos de agentes enfrentados en un juego de escondite. El sistema de recompensas se basa en puntos positivos y negativos, +1 para «encontrar/escapar», o -1 si «no encuentran nada/son vistos». Con una acumulación inicial de victorias por parte de los buscadores (rojo), el equipo azul comenzó a utilizar y fijar bloques para tapar las entradas, creando un escondite colaborativo. Después de varias generaciones, los buscadores también aprendieron a usar herramientas, moviendo rampas para saltar la pared y localizar a sus oponentes.

Esta estrategia fue infalible por millones de rondas, hasta que el equipo azul comprendió que si robaba las rampas antes de cerrar el refugio, los buscadores no podrían cruzar la pared. OpenAI no le dio a los equipos ninguna clase de incentivación para desarrollar semejante comportamiento. Cada vez que un equipo aprende una nueva habilidad, se crea un punto de presión adicional para el rival, quien de un modo u otro debe adaptarse.

La última fase del entrenamiento movió a los agentes a un espacio más abierto, donde el equipo azul estaría obligado a construir su propio refugio. Los agentes azules alejaron a las rampas del mapa y las fijaron allí, obteniendo así una total libertad para fabricar un espacio cerrado y aislar a los buscadores. ¿Qué hizo el equipo rojo de agentes buscadores? Aprendió a «surfear» sobre las cajas.

El experimento de OpenAI es un fabuloso ejemplo del aprendizaje por refuerzo. Los agentes entrenaron contra sí mismos, y contra versiones anteriores aplicando un algoritmo de auto-juego. A pesar de la relativa simplicidad de las reglas en este mundo de escondite, los agentes se las arreglaron para desarrollar estrategias inteligentes a pura competencia, colaboración, e interacción entre ellos.

Julio

Información sobre cursos, becas, programas, tutoriales, lo que encuentre.

Entradas recientes

Curso de carpintería gratis: Carlos Slim te enseña a crear muebles profesionales

Aprende carpintería gratis con el curso online de Fundación Carlos Slim. Crea muebles profesionales y…

50 minutos hace

Cursos gratis para hacer velas artesanales: gel, parafina y técnicas avanzadas

Descubre 4 cursos gratuitos para aprender a hacer velas de gel, parafina y fanales. Técnicas…

2 horas hace

Cupón Udemy: Curso CSS y JavaScript para principiantes GRATIS con 100% de descuento

Aunque es un curso corto y básico, te dará una buena base para seguir aprendiendo.…

4 horas hace

Cursos de Inglés Gratis que puedes empezar hoy mismo

Descubre 4 cursos gratuitos de Udemy para aprender inglés desde cero. Opciones para todos los…

5 horas hace

Cupón Udemy: Curso de Flutter para Principiantes GRATIS con 100% de descuento

Para conseguir esta oferta, usa el cupón 8BE6AABE555E74059C64 que te dará el 100% de descuento.

7 horas hace

Cupón Udemy: Curso completo de Microsoft SQL Server GRATIS con 100% de descuento

Al terminar el entrenamiento, recibirás un certificado y tendrás acceso al material para siempre, así…

8 horas hace