OpenAI conecta 100.000 GPUs con protocolo MRC que elimina interrupciones en entrenamientos de IA
OpenAI desarrolla protocolo MRC que conecta 100.000 GPUs con solo 2 niveles de switches, eliminando interrupciones y reduciendo costos 30-50%

OpenAI conecta 100.000 GPUs con protocolo MRC que elimina interrupciones en entrenamientos de IA
OpenAI acaba de revolucionar la infraestructura de IA empresarial con MRC (Multipath Reliable Connection), un protocolo de red que conecta más de 100.000 GPUs usando solo dos niveles de switches Ethernet, frente a los 3-4 niveles que requieren las redes convencionales. La diferencia no es solo arquitectónica: elimina las interrupciones que paralizan el entrenamiento de modelos frontier durante segundos o incluso minutos.
El impacto económico es inmediato. Reducir de 3-4 a 2 niveles de switches representa un ahorro de CAPEX del 30-50% en hardware de networking para clústeres grandes, según análisis del sector. Para una empresa que opera 100.000 GPUs, esto se traduce en millones de dólares en hardware eliminado, sin mencionar la reducción en consumo energético y puntos de falla.
Lo más llamativo del desarrollo es la colaboración multi-vendor sin precedentes: AMD, Broadcom, Intel, Microsoft y NVIDIA —competidores directos en chips y cloud— trabajaron juntos para estandarizar este protocolo abierto a través del Open Compute Project. NVIDIA, tradicionalmente protector de su stack InfiniBand propietario, participó activamente en crear una alternativa abierta que democratiza el acceso a infraestructura de IA de gran escala.
MRC ya está desplegado en todos los supercomputadores NVIDIA GB200 más grandes de OpenAI, incluyendo el sitio de Oracle Cloud Infrastructure en Abilene, Texas, y los supercomputadores Microsoft Fairwater. Durante el entrenamiento de un modelo frontier reciente para ChatGPT y Codex, OpenAI tuvo que reiniciar cuatro switches de nivel 1 sin coordinar con los equipos ejecutando trabajos de entrenamiento. El sistema continuó sin interrupciones visibles.
Qué puede aplicar tu empresa de esta estrategia de infraestructura
Para líderes empresariales evaluando infraestructura de IA, MRC marca un punto de inflexión en tres áreas críticas:
1. Negociación con proveedores cloud
- Cuando evalúes opciones con Azure, Oracle, AWS o GCP, pregunta específicamente sobre su roadmap de adopción de MRC. Los clústeres compatibles ofrecerán:
- Menor riesgo de interrupciones durante entrenamientos largos
- Mejor utilización de GPUs (menos tiempo inactivo por congestión de red)
- Potencialmente menores costos por simplificación de topología
Microsoft y Oracle (Project Stargate) ya están implementando infraestructura compatible. Los proveedores que adopten MRC primero tendrán ventaja competitiva para ofrecer AI training eficiente.
2. Arquitectura de tu stack de entrenamiento
- Si operas tu propio clúster o trabajas con facilities de colocation:
- Considera NICs compatibles con MRC (AMD Pensando Vulcano 800G ya lo soporta)
- Evalúa si tu workload justifica la complejidad: MRC brilla en 100k+ GPUs, no en clústeres pequeños
- Para startups en etapa temprana (<1.000 GPUs), el impacto es limitado; enfócate en optimizar código y pipeline de datos primero
3. Oportunidades de producto adyacentes
- MRC abre espacios para startups que construyan en capas complementarias:
- Monitoreo y observabilidad: SRv6 ofrece visibilidad granular del tráfico. Herramientas que aprovechen esto para debugging y optimización tienen mercado creciente
- Orquestación de training distribuido: Software que coordine jobs across clusters con MRC puede maximizar utilización, similar a cómo Shopify maneja presupuestos ilimitados de tokens) en sus sistemas internos
- Consultoría de migración: Startups que ayuden a empresas a transicionar de InfiniBand/RoCE a MRC tendrán demanda creciente
La especificación completa está disponible en el Open Compute Project para adopción abierta, similar a cómo OCP estandarizó diseños de data centers en la década pasada. Para empresas que manejan entrenamientos de IA a gran escala, MRC representa la primera alternativa viable y abierta a las soluciones propietarias que han dominado el mercado, democratizando el acceso a infraestructura que antes costaba decenas de millones de dólares adicionales en hardware de red.
¿Tu empresa está preparada para aprovechar esta nueva generación de infraestructura de IA más eficiente y accesible?
Preguntas frecuentes
¿Cuánto ahorra el protocolo MRC en costos de infraestructura?
El protocolo MRC reduce los costos de hardware de networking en un 30-50% para clústeres grandes al eliminar un nivel completo de switches, representando millones de dólares en ahorros para empresas que operan 100.000+ GPUs.
¿Qué empresas ya están usando el protocolo MRC de OpenAI?
OpenAI ya desplegó MRC en sus supercomputadores NVIDIA GB200 más grandes, Oracle Cloud Infrastructure en Abilene Texas, y Microsoft Fairwater. AMD también lo implementó en su NIC Pensando Vulcano 800G.
¿Cuándo conviene implementar MRC en mi empresa?
MRC es más beneficioso para clústeres de más de 10.000 GPUs donde se justifica la complejidad de implementación. Para startups con menos de 1.000 GPUs, es mejor optimizar código y pipelines de datos primero.
Fuentes
- OpenAI MRC: 100.000 GPUs con 2 tiers de switches
- Supercomputer networking to accelerate large scale AI training - OpenAI
- OpenAI built a networking protocol with AMD, Broadcom, Intel, Microsoft ...
- OpenAI MRC boosts AI Networking Efficiency at hyperscale
- OpenAI MRC Protocol Powers 100,000-GPU AI Superclusters
- Next Gen Networking Transport for Large Scale AI Training - AMD