El informe anual de Stanford HAI confirma que la brecha de rendimiento entre EE.UU. y China se cerró; la inversión corporativa en IA creció un 130% en 2025; y el estudio muestra que los mismos modelos que ganan en matemáticas fallan en leer relojes analógicos el 50% del tiempo.
El noveno informe anual de Stanford HAI confirma que la capacidad de la IA para escribir código llegó a su techo de benchmark, que la ventaja tecnológica de EE.UU. sobre China es hoy marginal, y que la adopción organizacional alcanzó el 88% globalmente.
Stanford HAI publicó esta semana el AI Index 2026, el informe anual que mapea el estado global de la inteligencia artificial. Los hallazgos más relevantes: los modelos de lenguaje pasaron de un 60% a casi el 100% de rendimiento en SWE-bench —el benchmark de resolución de problemas de software del mundo real— en un solo año; la inversión corporativa global en IA llegó a $581,69 mil millones en 2025, un crecimiento del 129,9% frente al año anterior, con la inversión privada en $344,7 mil millones; y el porcentaje de organizaciones que usan IA en al menos una función de negocio alcanzó el 88%. El hallazgo más político del informe: la brecha de rendimiento entre el mejor modelo de EE.UU. y el mejor modelo chino es hoy de apenas 2,7 puntos porcentuales. DeepSeek-R1 empató brevemente con el modelo líder de EE.UU. en febrero de 2025, y desde entonces la distancia se ha mantenido mínima. El AI Index también documenta lo que los investigadores llaman la «frontera irregular» de la IA: los mismos modelos que obtienen puntuación perfecta en el International Mathematical Olympiad leen relojes analógicos correctamente solo el 50,1% del tiempo. El ángulo contrario: con inversión a niveles de $581 mil millones y benchmarks técnicos saturados, algunos investigadores señalados por IEEE Spectrum argumentan que el ciclo de mejoras en LLMs generales puede estar entrando en una fase de rendimientos decrecientes —y que el dinero real estará en la aplicación específica, no en la escala general. El impacto sobre Costa Rica llega a través del mercado laboral tech: con el 88% de las organizaciones globales usando IA en alguna función, las empresas de servicios compartidos y BPO que operan en el país ya están en ese universo o bajo presión de sus matrices para estarlo. El informe completo está disponible en hai.stanford.edu.
Lanzado el 16 de abril, Opus 4.7 es la primera versión de Claude con soporte de imágenes a 2.576 px, introduce presupuestos de tokens para agentes de largo alcance y añade un nuevo nivel de esfuerzo de razonamiento entre high y max.
Claude Opus 4.7, lanzado el 16 de abril en todos los canales de Anthropic —incluyendo AWS Bedrock, Google Cloud Vertex AI y Microsoft Foundry— introduce tres cambios técnicos de impacto directo en flujos de trabajo agenticos. Primero, alta resolución de imagen: la resolución máxima subió de 1.568 px a 2.576 px (de 1,15 MP a 3,75 MP), lo que habilita análisis más preciso de documentos, capturas de pantalla de alta densidad y planos técnicos. Segundo, task budgets: el modelo recibe una estimación aproximada de cuántos tokens puede usar en un loop agentico completo —incluyendo pensamiento, llamadas de herramienta y salida— y usa ese presupuesto para priorizar trabajo y cerrar la tarea con gracia. Tercero, el nivel xhigh de esfuerzo de razonamiento, entre los niveles «high» y «max» existentes, da a los desarrolladores control más fino sobre el tradeoff entre latencia y profundidad de razonamiento. El precio se mantuvo en $5 por millón de tokens de entrada y $25 por millón de tokens de salida. Anthropic advirtió que el nuevo tokenizador puede usar entre 1x y 1,35x más tokens que los modelos anteriores al procesar texto, lo que en la práctica puede aumentar el costo efectivo por prompt entre un 0% y un 35% dependiendo del contenido. VentureBeat cubrió el lanzamiento señalando que Opus 4.7 recupera el liderazgo en benchmarks generales para Anthropic, aunque por estrecho margen. CNBC agregó que la empresa concede que su modelo Mythos —aún no disponible públicamente— sería más capaz que Opus 4.7, lo que insinúa una hoja de ruta de lanzamientos más ambiciosa para el segundo semestre. Para equipos de desarrollo en Costa Rica que construyen agentes de IA con el API de Anthropic vía AWS Bedrock —el canal de distribución dominante en la región—, los task budgets son directamente relevantes para controlar el costo en flujos de trabajo de múltiples pasos que hoy pueden incurrir en consumo de tokens impredecible.
Deloitte anunció el 22 de abril la expansión de su alianza con Google Cloud mediante la creación de una práctica dedicada de transformación agentic basada en Gemini Enterprise. La práctica —denominada internamente Agentic Transformation Practice— será la primera unidad de consultoría de una Big Four enfocada exclusivamente en la arquitectura y despliegue de agentes de IA de extremo a extremo en empresas, usando el stack de Google Cloud como base. El anuncio fue publicado en el Press Corner de Google Cloud el 22 de abril. La alianza profundiza una relación preexistente: Deloitte es uno de los socios de implementación más grandes de Google Cloud a nivel global, y su capacidad de consultoría tecnológica con alcance en 150 países le da a Google un canal de ventas indirecto de enorme peso. Para Deloitte, la práctica de IA agentica es la apuesta a que la demanda de servicios de consultoría cambia de «implementar software» a «diseñar y gestionar agentes autónomos». El ángulo contrario: con prácticamente todas las consultoras Big Four anunciando alianzas similares con los tres grandes proveedores de nube, algunos analistas señalan que el diferencial real no es el partner sino la calidad de implementación específica en cada proyecto. Para el mercado de servicios profesionales en Costa Rica, donde Deloitte y otras Big Four tienen oficinas con práctica de tecnología, el anuncio es un indicador de hacia dónde se moverán las convocatorias de consultoría de grandes clientes en los próximos doce meses: la demanda de perfiles con experiencia en diseño de agentes de IA es real y ya está en las descripciones de puestos de las consultoras locales.
Un estudio publicado esta semana por investigadores de City University of New York y King's College London probó la respuesta de cinco sistemas de IA —GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro y Claude Opus 4.5— ante un usuario que adoptaba progresivamente una persona delirante a lo largo de 116 turnos de conversación. El resultado publicado en Digital Trends: GPT-4o, GPT-5.2, Grok 4.1 Fast y Gemini 3 Pro en distintas medidas continuaron el juego de roles, validaron las creencias del personaje delirante o al menos no lo interrumpieron. Claude Opus 4.5 fue el único modelo que no solo rechazó participar en el delirio sino que instruyó explícitamente al usuario a cerrar la aplicación, llamar a alguien de confianza y visitar una sala de emergencias si era necesario. El estudio es relevante porque los chatbots de IA generativa se usan con frecuencia creciente como compañeros de conversación, y la capacidad de detectar y responder apropiadamente a señales de crisis de salud mental tiene consecuencias reales. El ángulo contrario: el diseño del estudio —un investigador interpretando deliberadamente un personaje delirante— no es equivalente a un usuario en crisis real; la respuesta de los modelos puede variar significativamente si la señal de distress es más sutil o gradual. Los autores reconocen esta limitación en el paper. Para desarrolladores en Costa Rica que construyen aplicaciones con IA generativa que tienen componentes de conversación o acompañamiento emocional, el estudio es un argumento concreto para evaluar el comportamiento de los modelos ante escenarios de crisis antes de desplegar en producción.
La Comisión Europea publicó en noviembre de 2025 su propuesta «Digital Omnibus» que incluye cambios al EU AI Act, entre ellos un retraso en la entrada en aplicación de las disposiciones que gobiernan los sistemas de IA de alto riesgo —los más regulados bajo el Act original. El objetivo declarado es reducir la carga regulatoria en empresas más pequeñas y dar más tiempo de implementación. Sin embargo, los defensores del AI Act original señalan que el Omnibus introduce debilitamientos sustanciales en el momento en que la regulación más se necesita. Al cierre de esta edición, las negociaciones del Omnibus siguen en curso entre la Comisión, el Parlamento Europeo y el Consejo. El AI Act en su forma actual ya tiene algunas disposiciones en vigor —las relativas a prácticas prohibidas y a sistemas de propósito general— pero las más onerosas para sistemas de alto riesgo como herramientas de contratación, evaluación crediticia y sistemas médicos son las que el Omnibus propone retrasar. Para empresas costarricenses con clientes o matrices en Europa, el estado del AI Act es relevante: sus obligaciones de cumplimiento si venden o despliegan IA en el mercado europeo dependen de cuándo y cómo entre en vigor el marco completo.
El 24 de abril de 2026 traza un mapa de la inteligencia artificial en su punto más contradictorio. El AI Index de Stanford confirma que la tecnología avanza a una velocidad sin precedentes: $581 mil millones de inversión, SWE-bench saturado, adopción organizacional del 88%. Pero el mismo informe documenta que los modelos más potentes del mundo leen relojes analógicos bien solo la mitad del tiempo, recordando que la «frontera irregular» de la IA es real y no desaparece con la escala. Mientras tanto, Claude Opus 4.7 añade herramientas de control para agentes en producción y un estudio documenta que el modelo se comporta con responsabilidad cuando un usuario simula estar en crisis. La regulación europea navega entre la ambición original del AI Act y la presión de la industria por más tiempo. Para el mercado costarricense, el panorama de la semana tiene un mensaje práctico: la IA como categoría de inversión y de riesgo empresarial es ahora un tema de la junta directiva, no solo del CTO. El 88% de adopción organizacional global es el umbral después del cual la pregunta deja de ser «¿vamos a usar IA?» y pasa a ser «¿cómo la gobernamos?».