Un estudio reciente de la Universidad del Sur de California (USC) ha desvelado una paradoja crucial para el desarrollo de agentes de inteligencia artificial: instruir a un modelo de lenguaje para que actúe como un experto lo hace más seguro y alineado con las expectativas humanas, pero a un costo inesperado: una pérdida significativa de precisión factual.
La investigación, publicada en el repositorio académico arXiv, desafía una práctica común en la ingeniería de prompts y obliga a los desarrolladores a replantearse cómo diseñan las personalidades de sus asistentes de IA.

La técnica conocida como persona prompting es un recurso ampliamente utilizado para guiar las respuestas de los grandes modelos de lenguaje (LLM, por sus siglas en inglés).
Al indicar al sistema “Eres un médico experto” o “Eres un programador senior”, los desarrolladores buscan que la IA adopte un tono más autoritativo, un juicio más cauteloso y un estilo de comunicación específico.
Esta práctica se ha convertido en un estándar de facto para la creación de agentes de IA especializados, desde asistentes legales hasta tutores educativos.
Sin embargo, los estudios previos sobre su eficacia habían arrojado resultados contradictorios. Algunos señalaban mejoras en la calidad de las respuestas, mientras otros apuntaban a un aumento en las alucinaciones o errores.
El nuevo paper de la USC, titulado “Expert Personas Improve LLM Alignment but Damage Accuracy”, llega para resolver esta discrepancia, demostrando que el efecto no es uniforme y depende estrictamente del tipo de tarea que se le pida a la IA.
El equipo de investigadores realizó una evaluación sistemática que arroja luz sobre los verdaderos efectos de asignar una personalidad experta a la IA. Los hallazgos clave, detallados en el estudio, son:
- Se probaron 12 prompts de persona diferentes en seis modelos de lenguaje distintos, incluyendo modelos afinados por instrucción y optimizados para razonamiento.
- En tareas donde lo primordial es la seguridad, la satisfacción de preferencias del usuario o la adhesión a un estilo de escritura, la persona experta funcionó notablemente bien. El modelo se volvió más proclive a rechazar solicitudes dañinas y a responder de forma más útil y ajustada.
- El lado negativo se manifestó en tareas que dependen del conocimiento fáctico objetivo. En el benchmark MMLU, una prueba estándar de conocimiento multidisciplinario, la precisión cayó desde un 71.6% (línea base) hasta un 68.0% en promedio al usar prompts de experto. Esta reducción se observó en todas las variantes de persona probadas.
- Los investigadores no solo identificaron el problema, sino que propusieron un marco para mitigarlo: PRISM. Este sistema actúa como un enrutador que, analizando la intención de la consulta del usuario, decide cuándo activar o desactivar el comportamiento de la persona experta.
Este hallazgo tiene implicaciones inmediatas y concretas para ingenieros, empresas y cualquier profesional que despliegue agentes de IA en entornos de producción.
Según el análisis del estudio recogido por medios como The Register, el uso indiscriminado de frases como “Eres un experto” puede estar degradando silenciosamente la fiabilidad de sistemas en campos donde el rigor factual es no negociable.
“Si tu agente maneja tareas donde la precisión factual importa (datos financieros, información médica, análisis legal, generación de código), una persona experta genérica en el prompt del sistema puede estar empeorándolo”, advierte el paper.
La técnica ayuda a que el agente suene más autoritario y rechace peticiones peligrosas con más fiabilidad, pero ese beneficio se paga con una merma en la exactitud de la información que proporciona.
Para campos como la medicina, las finanzas o la programación, donde un error factual puede tener consecuencias graves, esta compensación resulta particularmente problemática.
La investigación no sugiere abandonar el persona prompting, sino aplicarlo con mayor inteligencia y granularidad.
El enfoque de PRISM señala el camino hacia un nuevo patrón de diseño para agentes de IA: en lugar de una personalidad fija y omnipresente, los sistemas del futuro podrían utilizar activación condicional de personas, un mecanismo que adapte su comportamiento en tiempo real según la naturaleza de cada consulta.


