Estás leyendo
Apple documenta fallos en el razonamiento de los modelos LLM más avanzados

Apple documenta fallos en el razonamiento de los modelos LLM más avanzados

  • Un estudio revela que los modelos de lenguaje fallan ante tareas algorítmicas complejas, pese a mostrar trazas de pensamiento detalladas.
Apple Intelligence

Un equipo de investigadores de Apple ha publicado un análisis que cuestiona las capacidades de de los modelos de lenguaje más recientes, conocidos como Large Reasoning Models (LRMs). El estudio, titulado The Illusion of Thinking, examina modelos como Claude 3.7 Sonnet, DeepSeek-R1 y OpenAI o3-mini en entornos de evaluación controlada, demostrando que estas arquitecturas presentan un colapso abrupto del rendimiento ante problemas de alta complejidad estructural.

Las conclusiones han sido objeto de un análisis independiente por parte de Gary Marcus, psicólogo e investigador en inteligencia artificial, quien reflexiona sobre sus implicaciones en su blog personal.

Evaluación más allá del benchmark convencional

El trabajo de se desmarca de las evaluaciones tradicionales basadas en conjuntos como MATH-500 o AIME, que han sido señalados por posibles contaminaciones de datos durante el entrenamiento de los modelos. En su lugar, los autores introducen una batería de entornos algorítmicos compuestos por rompecabezas clásicos —entre ellos, Tower of Hanoi, Checkers Jumping, River Crossing y Blocks World— donde pueden controlarse variables clave como la profundidad composicional y la estructura lógica.

Este enfoque permite aislar tres regímenes de comportamiento en los LRMs:

  1. En tareas de baja complejidad, los modelos sin trazas explícitas de pensamiento (LLMs convencionales) resultan más eficientes, tanto en precisión como en consumo de tokens.
  2. En niveles intermedios, los LRMs muestran ventaja al desplegar cadenas de razonamiento más elaboradas, aunque a costa de mayor presupuesto computacional.
  3. A partir de cierto umbral de complejidad, todos los modelos —independientemente de su diseño— colapsan, incapaces de producir soluciones válidas.

Este patrón sugiere que los LRMs no están resolviendo los problemas mediante razonamiento sistemático, sino que operan a través de mecanismos de patrón y correlación que se rompen fuera de distribuciones familiares.

Pensar más… y rendir menos

Uno de los hallazgos más destacados del estudio es el fenómeno de “degradación del esfuerzo de razonamiento”. Inicialmente, los modelos aumentan la longitud de sus trazas de pensamiento conforme se incrementa la dificultad del problema. Sin embargo, justo antes del colapso total del rendimiento, comienzan a acortar esos razonamientos, incluso cuando no han alcanzado el límite máximo de tokens. Este comportamiento contraviene la intuición básica de que tareas más complejas requerirían más computación durante la inferencia, no menos.

La interpretación de los autores es que los LRMs internalizan una estrategia subóptima: ante escenarios demasiado complejos, simplemente reducen la generación, sin incrementar el análisis. Este límite sugiere un problema fundamental en el escalado de la inferencia en los actuales enfoques de arquitectura.

Trazas incoherentes y razonamiento fallido

El estudio no se limita a examinar las respuestas finales, sino que analiza detalladamente los pasos intermedios generados por los modelos durante la resolución de los rompecabezas. Las trazas de pensamiento muestran patrones reveladores:

  • En tareas simples, los modelos suelen hallar una solución correcta al principio y luego continúan explorando alternativas incorrectas, generando razonamientos redundantes —una forma de “sobre-pensamiento”.
  • En problemas de complejidad media, la solución válida aparece más adelante, tras múltiples caminos erróneos.
  • En los casos más complejos, directamente no se genera ninguna solución coherente.

Más llamativo aún es que, incluso al proporcionar explícitamente un algoritmo funcional para resolver el Tower of Hanoi, los modelos no mejoran su rendimiento. Esta incapacidad para ejecutar secuencias lógicas precisas, pese a conocerlas, plantea dudas sobre el nivel real de comprensión simbólica que estos sistemas son capaces de alcanzar.

Comparación con algoritmos clásicos y modelos simbólicos

El contraste entre los LRMs y los algoritmos convencionales es especialmente marcado en tareas como el Tower of Hanoi, resuelto con éxito en el campo de la desde 1957 mediante técnicas algorítmicas simples. Los modelos actuales, pese a operar con presupuestos de millones de parámetros y acceso a vastas bibliotecas de código fuente, no alcanzan una fiabilidad mínima en instancias de 8 discos, mientras que un estudiante de primer curso de informática o incluso un niño de siete años puede resolverlas con práctica.

Este desfase plantea una cuestión estructural: los modelos de lenguaje actuales no están equipados para ejecutar razonamientos simbólicos de forma consistente, ni siquiera cuando se les facilitan. En contraste con sistemas diseñados para jugar al ajedrez, plegar proteínas o ejecutar consultas en bases de datos, los LRMs fallan sistemáticamente al no poder representar y manipular reglas explícitas.

Un desafío para las aspiraciones de AGI

El estudio de Apple, y el análisis crítico que hace de él, desafían de forma directa la hipótesis de que el escalado continuo de modelos fundacionales conducirá a la inteligencia artificial general (AGI). Para Marcus, quien lleva años documentando estas limitaciones, los resultados refuerzan una visión crítica: no basta con aumentar el tamaño del modelo o añadir trazas de pensamiento. La falta de generalización, la incapacidad para ejecutar algoritmos conocidos y la desconexión entre pensamiento generado y resultado final indican que los modelos actuales están lejos de una capacidad cognitiva robusta.

Te puede interesar
El Foro Económico Mundial presenta el modelo 3C sobre convergencia tecnológica

“Lo que queremos de una AGI —afirma Marcus— no es que falle como los humanos en tareas aritméticas básicas, sino que combine nuestras capacidades adaptativas con la fiabilidad computacional. Un sistema que no puede seguir un algoritmo básico no está preparado para administrar infraestructuras críticas ni resolver problemas científicos complejos”.

Implicaciones para la industria tecnológica

Para directivos y responsables de estrategia tecnológica, los hallazgos del estudio sugieren una necesidad urgente de reevaluar los casos de uso de LLMs en entornos críticos. Aunque estos modelos pueden ser útiles en tareas de generación de texto, asistencia al desarrollo o redacción técnica, no deben utilizarse como sustitutos de motores de razonamiento fiables en contextos donde la precisión lógica y la verificabilidad son imprescindibles.

A corto plazo, los LLMs pueden seguir aportando valor en funciones creativas o como apoyo en entornos de bajo riesgo. Pero cualquier intento de delegar en ellos tareas de alto impacto —como planificación estratégica, diagnóstico médico o supervisión de infraestructuras— deberá considerar sus límites computacionales y conceptuales.

Caminos alternativos en el diseño de inteligencia artificial

Lejos de sugerir el fin del aprendizaje profundo, el trabajo de Apple plantea la necesidad de nuevas arquitecturas que integren mejor el razonamiento simbólico con las redes neuronales. Modelos híbridos, enfoques neurosimbólicos y técnicas de verificación explícita podrían ofrecer una vía para superar los límites actuales.

El mensaje es claro: mientras los modelos actuales pueden simular pensamiento, no necesariamente piensan. La ilusión de pensar, como indica el título del estudio, puede ser seductora pero engañosa. Comprender esta distinción será clave para el diseño de sistemas más robustos y útiles en los próximos años.

Ver Comentarios (0)

Leave a Reply

Utilizamos cookies para facilitar la relación de los visitantes con nuestro contenido y para permitir elaborar estadísticas sobre las visitantes que recibimos. No se utilizan cookies con fines publicitarios ni se almacena información de tipo personal. Puede gestionar las cookies desde aquí.   
Privacidad