Cloudflare revoluciona la infraestructura de IA con separación de procesamiento que multiplica por 3 la velocidad de modelos masivos
Cloudflare triplica la velocidad de modelos como Kimi K2.5 separando procesamiento de entrada y salida en sistemas optimizados. La infraestructura de IA que cambia las reglas del juego.

Cloudflare ha logrado triplicar la velocidad de modelos masivos de IA como Kimi K2.5 implementando una arquitectura revolucionaria que separa el procesamiento de entrada del de salida. La compañía diseñó una infraestructura de IA que utiliza sistemas optimizados independientes para cada etapa, reduciendo costos y mejorando la eficiencia en un 300%.
El breakthrough técnico se basa en la disaggregación prefill-decode (PD), una configuración que divide el procesamiento de solicitudes LLM en dos etapas ejecutadas por máquinas separadas. La etapa prefill procesa los tokens de entrada y construye la caché KV, mientras que la etapa decode genera los tokens de salida. "Prefill generalmente está limitado por cómputo, mientras que decode está limitado por memoria", explicaron Michelle Chen, Kevin Flansburg y Vlad Krasnov del equipo técnico de Cloudflare.
Este enfoque permite que los servidores se optimicen independientemente para su rol específico, escalando según el tráfico input-heavy o output-heavy. Cloudflare también desarrolló Infire, su motor de inferencia personalizado que ejecuta modelos de lenguaje grandes a través de múltiples GPUs de manera más eficiente. Con Infire, pueden ejecutar Llama 4 Scout en solo dos GPUs H200 y Kimi K2.5 en ocho GPUs H100, manteniendo memoria suficiente para la caché KV.
La implementación incluye optimizaciones de caché de prompts para casos de uso agénticos con contextos largos. Un header `x-session-affinity` dirige las solicitudes a regiones con tensores de entrada pre-computados, aumentando las tasas de acierto de caché del 60% al 80% durante horas pico. Cloudflare incentiva el uso de este header ofreciendo tokens cacheados con descuento, promoviendo inferencia más rápida y costos menores.
Cómo implementar infraestructura de IA optimizada en tu empresa
La estrategia de Cloudflare revela patrones aplicables para organizaciones que buscan implementar IA a escala empresarial. Similar a como Meta apuesta 60.000 millones en chips de IA para reducir dependencia de Nvidia, la clave está en la especialización de hardware.
Primero, analiza tu patrón de uso real. Si tu aplicación maneja principalmente casos agénticos con prompts largos (como asistentes empresariales), optimiza para procesamiento rápido de tokens de entrada. Si generas contenido extenso, prioriza la velocidad de salida.
Segundo, considera la separación de cargas de trabajo. No todas las tareas de IA necesitan el mismo hardware. Puedes usar instancias compute-optimized para procesamiento de entrada e instancias memory-optimized para generación, similar al approach de Cloudflare.
Tercero, implementa caché inteligente desde el día uno. Como demostró Cloudflare aumentando hits del 60% al 80%, el caching puede reducir dramáticamente tus costos operativos. Diseña tu aplicación para reutilizar contextos comunes y pre-computar elementos frecuentes.
Finalmente, monitorea métricas específicas de IA: tiempo al primer token (P90), latencia inter-token, y utilización de GPU por etapa. Cloudflare logró reducir la varianza de latencia tail mediante este enfoque basado en datos.
La lección más valiosa es que la infraestructura de IA no se trata solo de conseguir más GPUs, sino de usar las que tienes de manera más inteligente. Como muestra el caso de NVIDIA despliega GPT-5.5 en 10,000 empleados, la arquitectura correcta puede ser más impactante que el hardware más potente.
¿Tu empresa está preparada para implementar estas optimizaciones de infraestructura, o seguirá pagando costos innecesarios por configuraciones no optimizadas?
Preguntas frecuentes
¿Qué es la disaggregación prefill-decode en infraestructura de IA?
Es una técnica que separa el procesamiento de tokens de entrada (prefill) del de salida (decode) en sistemas optimizados independientes. Prefill es compute-bound, decode es memory-bound, permitiendo especialización de hardware y mejor utilización de recursos.
¿Cuánto mejoró Cloudflare la velocidad de sus modelos de IA?
Cloudflare triplicó la velocidad del modelo Kimi K2.5 y aumentó las tasas de acierto de caché del 60% al 80%. También redujo significativamente la varianza de latencia P90 y la latencia inter-token mediante optimizaciones arquitectónicas.
¿Qué hardware necesita Cloudflare para ejecutar modelos masivos como Kimi K2.5?
Con su motor Infire optimizado, Cloudflare ejecuta Kimi K2.5 (560GB, 1 trillón de parámetros) en ocho GPUs H100 y Llama 4 Scout en solo dos GPUs H200, manteniendo memoria suficiente para caché KV.
Fuentes
- Cloudflare Builds High-Performance Infrastructure for Running LLMs
- Building the foundation for running extra-large language models
- Cloudflare's LLM Infrastructure Deep Dive - startuphub.ai
- Cloudflare Builds High-Performance Infrastructure for...
- Cloudflare: Building an Enterprise AI Engineering Stack with Internal ...
- Cloudflare: Cloudflare Builds High-Performance Infrastructure for ...