Claude Opus 4.7 lidera SWE-bench Pro con 64.3% y redefine el techo de los agentes de código Inteligencia Artificial 2026-05-14 https://elpisuika.com/ia/2026-05-14.og.png Inteligencia Artificial 2026-05
2026-05-14 · INTELIGENCIA ARTIFICIAL · Edición del 14 de mayo de 2026
Inteligencia Artificial

Claude Opus 4.7 lidera SWE-bench Pro con 64.3% y redefine el techo de los agentes de código

Apple abre iOS 27 a modelos de terceros, la inversión global en IA supera $300 mil millones en el primer trimestre y la UE pospone obligaciones de cumplimiento hasta 2027.

01
64.3%
tasa de resolución de Claude Opus 4.7 en SWE-bench Pro, el benchmark más exigente para agentes de ingeniería de software
02
$300B
en inversión global en IA durante el primer trimestre de 2026, el mayor registro histórico en un solo trimestre
03
2027
nueva fecha límite para obligaciones de cumplimiento bajo el AI Act de la UE, tras la aprobación del paquete Omnibus
10 historias · 14 de mayo de 2026 ← volver a portada
01
N.º 01 Modelos · Anthropic

Claude Opus 4.7 lidera SWE-bench Pro con 64.3% y marca el nuevo estándar en agentes de ingeniería

Anthropic publicó los resultados del benchmark más exigente para agentes de código: su modelo más capaz resuelve casi dos tercios de los problemas reales de ingeniería de software.

Anthropic presentó el 13 de mayo los resultados de Claude Opus 4.7 en SWE-bench Pro, el sucesor de SWE-bench Verified diseñado para resistir la saturación que afecta a los benchmarks públicos. El modelo alcanzó una tasa de resolución del 64.3%, superando a GPT-4.1 (59.1%) y a Gemini 2.5 Pro (61.8%) en la misma evaluación. SWE-bench Pro introduce repositorios privados y problemas seleccionados para evitar la contaminación de datos de entrenamiento. Los resultados son especialmente relevantes para equipos de ingeniería de software costarricenses en empresas de nearshoring, donde la adopción de agentes de código para revisión de PRs y resolución de bugs ya ha comenzado a cambiar los flujos de trabajo. Anthropic también confirmó mejoras en el seguimiento de instrucciones largas y en la capacidad de razonamiento extendido, que ahora puede configurarse para gastar más o menos tiempo según la complejidad del problema.

02
N.º 02 Ecosistema · Apple

Apple abre iOS 27 a Gemini, Claude y ChatGPT: el monopolio de Siri llega a su fin

La próxima versión del sistema operativo móvil de Apple permitirá a usuarios establecer modelos de terceros como asistente predeterminado, según filtraciones confirmadas por Bloomberg.

Bloomberg informó el 13 de mayo que iOS 27 incluirá soporte nativo para establecer Gemini, Claude y ChatGPT como asistente de inteligencia artificial predeterminado en iPhone, reemplazando a Siri en funciones de razonamiento complejo. La decisión responde tanto a presiones regulatorias en Europa como al reconocimiento interno de Apple de que Siri no puede competir con los modelos frontrunner en tareas avanzadas. La apertura es condicional: los modelos de terceros operarán dentro de un sandbox con acceso limitado a APIs del sistema, sin permiso para controlar hardware o acceder a datos sensibles sin consentimiento explícito del usuario. Apple Intelligence seguirá siendo la capa de procesamiento local que gestiona los datos antes de enviarlos a los modelos externos. Para los desarrolladores costarricenses que construyen aplicaciones móviles con IA integrada, el cambio abre oportunidades para diseñar flujos de usuario que aprovechen capacidades de razonamiento superiores directamente desde el sistema operativo.

03
N.º 03 Inversión · Mercados

La inversión global en IA supera $300 mil millones en el primer trimestre de 2026, récord histórico

Un informe de Goldman Sachs y PitchBook confirma que el primer trimestre de 2026 concentró más capital en IA que cualquier año completo anterior a 2024.

Goldman Sachs y PitchBook publicaron el 14 de mayo un análisis conjunto que cuantifica la inversión global en infraestructura y modelos de IA durante el Q1 de 2026 en $312 mil millones, incluyendo capex de centros de datos, rondas de capital de riesgo y adquisiciones estratégicas. Microsoft, Google y Amazon representan el 61% del total solo en infraestructura de cómputo. El dato más llamativo es el crecimiento de la inversión en IA aplicada fuera de EEUU: India concentra el 8% de la inversión global, mientras Europa —impulsada por el paquete de infraestructura digital del Consejo Europeo— pasó del 6% al 11% en un año. América Latina representa todavía menos del 1%, aunque Brasil y México muestran dinamismo incipiente. Para Costa Rica, que alberga centros de servicios de empresas como Amazon, IBM y HP, la oleada de inversión global tiene un efecto indirecto: presión creciente para que esos centros adopten herramientas de IA que reduzcan la demanda de trabajo manual, algo que el sector sindical ya observa con preocupación.

04
N.º 04 Estrategia · Baidu

Baidu declara el inicio de la 'era post-modelos': sus agentes ya superan a los LLM en tareas de negocio

Robin Li, CEO de Baidu, publicó el 13 de mayo un análisis técnico en el que argumenta que el sector de IA ha entrado en una 'era post-modelos' donde los agentes —sistemas que coordinan múltiples modelos y herramientas para resolver tareas complejas— superan en valor práctico a los modelos de lenguaje de base, sin importar cuán capaces sean estos últimos de forma aislada. Baidu respaldó sus argumentos con datos internos: sus agentes de automatización de procesos empresariales —desplegados en clientes industriales y bancarios en China— lograron en 2025 una reducción del 34% en tiempo de resolución de tickets de soporte y un 28% en errores de procesamiento de documentos, frente a soluciones basadas directamente en LLMs. El argumento es relevante más allá de Baidu: empresas como Salesforce, ServiceNow y las startups de IA agéntica que proliferan en el ecosistema de Silicon Valley comparten la misma tesis. Para los desarrolladores costarricenses, el mensaje es claro: el valor diferencial ya no está solo en qué modelo se usa, sino en cómo se orquestan múltiples herramientas alrededor de él.

— El CEO Robin Li publicó un manifiesto técnico donde argumenta que la competencia en IA ya no se libra en los benchmarks de los modelos sino en la arquitectura de los agentes.

05
N.º 05 Producto · Anthropic

Anthropic lanza Claude for Small Business: 15 flujos prediseñados para equipos sin desarrolladores

Anthropic anunció el 13 de mayo Claude for Small Business, una oferta empaquetada que incluye 15 flujos de trabajo prediseñados —desde análisis de contratos hasta redacción de propuestas comerciales— que las pymes pueden activar directamente en la interfaz web sin necesidad de integración técnica. El precio es de $30 por usuario al mes en el plan básico, con un límite de 50 usuarios por organización. Los flujos incluyen: síntesis de reuniones con accionistas de acción, revisión de contratos legales con identificación de cláusulas de riesgo, generación de reportes financieros desde datos en hoja de cálculo, atención a clientes por correo electrónico y gestión de inventario con alertas proactivas. La oferta compite directamente con Microsoft Copilot for Business y Google Workspace AI. Para las pymes costarricenses —especialmente en el sector exportador donde el volumen de documentación en inglés es alto— el producto puede reducir el costo de contratar servicios de traducción y análisis, aunque la adaptación al español costarricense y a las regulaciones locales sigue siendo un punto débil de todos los asistentes de IA generativa.

15 flujos
prediseñados disponibles desde el primer día en Claude for Small Business, sin necesidad de configuración técnica
06
N.º 06 Evento · Google

Google I/O 2026 presenta Gemini 4 con razonamiento nativo en 100+ idiomas y contexto de 2 millones de tokens

En el Google I/O 2026 celebrado el 13 de mayo en Mountain View, Google presentó Gemini 4, su modelo de lenguaje de mayor capacidad hasta la fecha. Las características principales son: contexto de 2 millones de tokens nativos —equivalente a procesar la obra completa de Shakespeare cuatro veces— razonamiento multimodal integrado sin pipeline separado para texto, imagen, audio y código, y soporte de razonamiento en 107 idiomas sin degradación de calidad. Google también anunció Gemini Live Ultra, una versión del asistente de voz en tiempo real que puede mantener conversaciones de hasta 4 horas sin perder coherencia contextual, y Project Astra for Enterprise, que integra visión de cámara en tiempo real con capacidad de análisis técnico para entornos industriales. Para el mercado hispanohablante, el soporte de razonamiento nativo en español —no solo traducción— es el avance más significativo. Google afirmó que el español es el segundo idioma con mayor inversión en datos de entrenamiento para Gemini 4, lo que debería reducir las alucinaciones en contextos legales y médicos en América Latina.

07
N.º 07 Regulación · Unión Europea

La UE pospone obligaciones del AI Act a 2027 vía paquete Omnibus: la industria respira, los críticos protestan

El Consejo Europeo aprobó el 13 de mayo el paquete de reformas Omnibus, que entre sus disposiciones incluye una enmienda al AI Act que pospone las obligaciones de cumplimiento para sistemas de IA de 'alto riesgo' —incluyendo herramientas de RRHH, crédito y educación— hasta agosto de 2027, un año más tarde de lo previsto originalmente. La justificación oficial es competitiva: el Consejo argumentó que las empresas europeas enfrentan una desventaja frente a competidores de EEUU y China que no tienen restricciones equivalentes. La oposición, liderada por el Parlamento Europeo y organizaciones de derechos digitales como EDRi, advirtió que el retraso deja sin protección a millones de ciudadanos que ya están sujetos a decisiones algorítmicas en empleo, salud y servicios financieros. Costa Rica, que aplica estándares GDPR de facto en exportaciones de software al mercado europeo, deberá seguir de cerca el calendario real de implementación. Empresas costarricenses que desarrollen soluciones de RRHH o crédito para clientes europeos tienen ahora un año más para preparar su documentación de conformidad, pero el retraso no exime de la obligación futura.

El paquete Omnibus no elimina el AI Act — lo aplaza. Las empresas que usen ese tiempo para prepararse tendrán una ventaja real sobre las que lo ignoren.

08
N.º 08 Investigación · Google DeepMind

Google DeepMind presenta Magic Pointer: control de cursor por parpadeo y mirada para usuarios con movilidad reducida

Google DeepMind publicó el 13 de mayo Magic Pointer, un sistema de control de cursor basado en seguimiento ocular y detección de parpadeo que permite a personas con movilidad reducida interactuar con cualquier interfaz de escritorio sin periféricos físicos. El modelo fue entrenado con 8 millones de secuencias de movimiento ocular y logra una latencia de 12ms en inferencia en dispositivos con GPU integrada. La tecnología se integra como extensión de Chrome y como API de accesibilidad en Android 17. DeepMind publicó el modelo base bajo licencia Apache 2.0, lo que permite a desarrolladores crear adaptaciones para casos de uso específicos. Para Costa Rica, donde el 8.9% de la población vive con alguna discapacidad según el INEC, la disponibilidad de herramientas de accesibilidad de esta calidad a costo cero es un avance significativo.

Hoja de datos
Google DeepMind presenta Magic Pointer: control de cursor por parpadeo y mirada para usuarios con movilidad reducida
  • sistema de control de cursor por mirada de Google DeepMind, disponible como extensión de Chrome y API de Android 17Magic Pointer
  • latencia de inferencia del modelo en dispositivos con GPU integrada, suficiente para control fluido en tiempo real12ms
  • licencia del modelo base, permitiendo adaptaciones comerciales y de código abierto sin restriccionesApache 2.0
09
N.º 09 Producto · Microsoft

Microsoft Copilot Cowork llega a iOS y Android con colaboración en tiempo real en documentos de Office

Microsoft lanzó el 13 de mayo Copilot Cowork para iOS y Android, una función que permite a múltiples usuarios editar documentos de Word, Excel y PowerPoint de forma simultánea con asistencia de IA integrada. La IA sugiere cambios en tiempo real, detecta conflictos entre ediciones de diferentes autores y puede generar resúmenes del historial de cambios al cerrar la sesión. La función está disponible para suscriptores de Microsoft 365 Personal y Familiar a partir de $9.99/mes y para planes empresariales sin costo adicional. Cowork compite directamente con Google Docs y su integración de Gemini, aunque Microsoft diferencia con el soporte a formatos .docx y .xlsx sin conversión, algo que sigue siendo un punto de fricción para usuarios corporativos que migran de Office.

Hoja de datos
Microsoft Copilot Cowork llega a iOS y Android con colaboración en tiempo real en documentos de Office
  • colaboración en tiempo real con IA en documentos Office desde dispositivos móviles iOS y AndroidCopilot Cowork
  • precio de Microsoft 365 Personal, nivel mínimo requerido para acceder a Copilot Cowork$9.99/mes
  • aplicaciones compatibles en el lanzamiento; OneNote y Project se añadirán en Q3 2026Word, Excel, PowerPoint
10
N.º 10 Herramientas · OpenAI

OpenAI Codex ejecuta código en sandbox Windows por primera vez; la paridad de plataformas llega a los agentes de desarrollo

El agente de codificación de OpenAI puede ahora ejecutar y depurar código en entornos Windows nativos, cerrando la brecha con entornos Linux que limitaba su uso en empresas con ecosistemas Microsoft.

OpenAI anunció el 13 de mayo que Codex —su agente de generación y ejecución de código— puede ejecutar código en sandboxes Windows nativos, una capacidad que hasta ahora estaba limitada a entornos Linux y macOS. El cambio es relevante para empresas que desarrollan sobre el ecosistema Microsoft: aplicaciones .NET, scripts de PowerShell, automatizaciones de Active Directory y herramientas de integración con Office 365. La implementación usa contenedores Windows con aislamiento de red configurable y puede desplegarse tanto en la nube de OpenAI como en infraestructura privada con Azure Arc. Los tests de seguridad realizados por NCC Group —publicados junto al anuncio— no encontraron fugas de información entre sandboxes en las condiciones de prueba estándar. Para las empresas costarricenses del sector de servicios tecnológicos que trabajan con clientes corporativos estadounidenses, donde Windows sigue siendo el estándar de facto, la paridad de plataformas elimina uno de los principales argumentos contra la adopción de Codex como herramienta de productividad para ingenieros.

Windows sandbox
OpenAI Codex ejecuta y depura código en entornos Windows nativos por primera vez desde el lanzamiento del agente
Azure Arc
plataforma que permite desplegar sandboxes de Codex en infraestructura privada compatible con entornos Windows on-premise
NCC Group
firma de seguridad que auditó la implementación de sandboxes Windows y publicó su reporte junto al anuncio de OpenAI

En esta fechaInteligencia Artificial

Fuentes.