Categorías

Publicaciones más vistas

EQS Group Logo

IA en cumplimiento pasa del entusiasmo a resultados, mostrando claros avances en los modelos más recientes

Tiempo de lectura aprox: 3 minutos, 13 segundos

Un nuevo informe de referencia de EQS Group y BCM evalúa seis modelos de IA en 120 escenarios reales de cumplimiento

La inteligencia artificial está entrando rápidamente en los flujos de trabajo corporativos, pero no todos los modelos ofrecen el mismo rendimiento. Para evaluar hasta qué punto la IA puede manejar las realidades del cumplimiento normativo, el nuevo «EQS Benchmark Report: AI Performance in Compliance & Ethics« analizó seis modelos líderes de IA en 120 escenarios reales de cumplimiento: desde evaluaciones de riesgo y conflictos de interés hasta la revisión de terceros.

Los resultados muestran una precisión casi perfecta en tareas estructuradas, como clasificación y toma de decisiones, con tasas de acierto superiores al 95 %, pero una marcada caída cuando aumenta la complejidad o la ambigüedad. Elaborado en colaboración con la asociación alemana Berufsverband der Compliance Manager e.V. (BCM), el informe también destaca el ritmo de progreso, con los modelos de 2025 superando significativamente a los de 2024.

«Para muchos profesionales del cumplimiento, la IA sigue siendo un territorio desconocido», señaló Moritz Homann, Director de Innovación de Producto e IA en EQS Group.

«Comprender cómo aplicarla eficazmente y en qué se puede confiar sigue siendo un desafío, especialmente en un ámbito tan sensible como el cumplimiento, donde la precisión, la responsabilidad y la integridad son innegociables», añadió.

«La IA puede ofrecer al cumplimiento nuevos niveles de conocimiento, pero nuestra responsabilidad es garantizar que su uso permanezca dentro de límites éticos y legales claros», afirmó la Dra. Gisa Ortwein, presidenta del BCM.

«Iniciativas como este informe nos ayudan a distinguir entre lo que la IA puede aportar realmente y dónde el juicio humano sigue siendo insustituible. Así es como protegemos la integridad mientras adoptamos la innovación: asegurando que la adopción de la IA fortalezca, y no debilite, nuestra profesión», concluyó.

El informe de EQS es el primero en evaluar el rendimiento de la IA en el ámbito del cumplimiento, utilizando tareas que reflejan las responsabilidades cotidianas de los profesionales de cumplimiento y ética. Mide la precisión, fiabilidad y utilidad práctica de los modelos en tareas estructuradas, semiestructuradas y abiertas.

Los modelos más recientes superan ampliamente a los de hace apenas unos meses
Los resultados muestran la rapidez con la que evolucionan las capacidades de los modelos. Gemini 2.5 Pro, de Google, obtuvo la puntuación más alta con un 86,7 %, demostrando un rendimiento sólido en todos los tipos de tareas y áreas de cumplimiento. Muy cerca, GPT-5 de OpenAI (modelo por defecto de ChatGPT desde agosto de 2025) alcanzó un 86,5 %, subrayando cómo las capacidades de los modelos líderes están convergiendo en la cima. GPT-5 destacó en generación de contenido abierto, mientras que Gemini lideró en tareas analíticas y de toma de decisiones complejas.

El modelo o3 de OpenAI siguió con un 83,3 %, mostrando el avance de GPT-5 respecto a su predecesor y la velocidad del ciclo de innovación. Claude Opus 4.1, de Anthropic, alcanzó un 81,5 %, con un desempeño inferior en evaluaciones estructuradas y razonamiento analítico. GPT-4o (72,9 %) y Mistral Large 2 (70,1 %) cerraron la lista, reflejando el salto generacional entre los modelos de 2024 y los lanzados en 2025.

La IA destaca cuando las reglas son claras, pero se debilita con la ambigüedad
En general, los modelos de IA ofrecieron sus mejores resultados en tareas estructuradas y con reglas definidas. Por ejemplo, en escenarios de toma de decisiones basados en políticas establecidas, el rendimiento medio fue del 90,8 %. En ejercicios de emparejamiento o clasificación de datos, la media fue del 91,8 %, con cuatro de los seis modelos superando el 95 %.

En tareas más complejas, el rendimiento varió mucho. En análisis de datos, la diferencia entre el mejor y el peor modelo fue de 60 puntos: Gemini 2.5 Pro obtuvo un 88 %, frente al 62 % de GPT-5 y al 28 % de GPT-4o. En tareas abiertas —como redacción de informes o resúmenes ejecutivos—, incluso los modelos más recientes enfrentaron dificultades: GPT-5 lideró con un 67,4 %. Estas tareas fueron evaluadas por un jurado humano.

«Existen tareas críticas que los profesionales del cumplimiento nunca deberían delegar completamente en la IA», añadió Homann.

«La fortaleza de estas herramientas radica en actuar como un multiplicador de capacidades, apoyando los flujos de trabajo sin sustituir el juicio experto. La IA puede asumir gran parte del trabajo preparatorio, permitiendo a los especialistas centrarse en donde su criterio es esencial», matizó.

Alta consistencia y baja tasa de alucinaciones
El informe también midió la fiabilidad repitiendo tareas de opción múltiple tres veces por modelo. La consistencia fue alta: más del 95 % de las respuestas fueron idénticas. Las «alucinaciones» —errores inventados por la IA— fueron raras: solo tres casos claros en todas las tareas y modelos (0,71 %), lo que demuestra que, con instrucciones claras y contexto, los modelos actuales pueden ofrecer resultados estables y basados en hechos. No obstante, la supervisión humana sigue siendo esencial, especialmente en contenido sensible con implicaciones regulatorias.

Selección del modelo y diseño del prompt: factores clave
El informe subraya también la importancia de la precisión en las instrucciones. En tareas de detección de señales de alerta en revisiones de terceros, los resultados variaron según la especificidad del prompt: por ejemplo, si debía incluir entidades vinculadas o evaluar la gravedad de los hallazgos.

Los modelos más recientes —GPT-5 y Gemini 2.5 Pro— demostraron mayor capacidad para seguir instrucciones complejas y generar resultados estructurados, lo que supone una ventaja clara para equipos de cumplimiento que trabajan con políticas detalladas y grandes volúmenes de datos.

«La IA ha llegado para quedarse«, concluyó Homann. «La forma en que la implementemos y utilicemos hoy definirá su papel en el cumplimiento en los próximos años. Los equipos de cumplimiento y ética no solo deben regular los riesgos de la IA, sino también aplicarla directamente. Solo con experiencia práctica podremos formular las preguntas adecuadas, diseñar salvaguardas efectivas y generar confianza», finalizó.

El informe completo EQS AI Benchmark Report está disponible para su descarga en: https://www.eqs.com/compliance-wpapers/ai-performance-compliance-ethics-eqs/

notificaLectura

Valora este artículo. Gracias!

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies

ACEPTAR
Aviso de cookies