Optimización de IA empresarial: Kwai logra 10x más eficiencia que métodos tradicionales con nueva técnica SRPO
Kwai AI revoluciona la optimización de IA empresarial con SRPO: mismos resultados que DeepSeek con 90% menos pasos de entrenamiento. Casos reales y lecciones.

El equipo Kwaipilot de Kuaishou acaba de demostrar que es posible reducir los costos de entrenamiento de IA en 90% manteniendo la misma calidad. Su nueva técnica SRPO (Two-Staged history-Resampling Policy Optimization) logró igualar el rendimiento de DeepSeek-R1-Zero en matemáticas y programación usando solamente una décima parte de los pasos de entrenamiento.
Los resultados son contundentes: SRPO alcanzó 50 puntos en AIME24 y 41.6 en LiveCodeBench, superando a DeepSeek-R1-Zero-32B con el mismo modelo base (Qwen2.5-32B). Pero lo revolucionario no son solo los números, sino la eficiencia de recursos: donde DeepSeek necesitaba 10 pasos de entrenamiento, SRPO necesita solo 1.
El problema que resolvieron es universal en empresas implementando IA: el método estándar GRPO (Group Reinforcement Policy Optimization) sufre de conflictos entre dominios cuando se entrena con datos mixtos. En su caso, los problemas matemáticos generaban respuestas largas y detalladas, mientras que el código producía respuestas cortas y directas. Mezclar ambos tipos reducía drásticamente el rendimiento.
La solución de Kwai fue implementar un entrenamiento en dos etapas. Primero, entrenan exclusivamente con datos matemáticos complejos para desarrollar capacidades de razonamiento profundo. Después, introducen datos de código para expandir estas habilidades sin comprometer la calidad. Además, incorporaron "History Resampling": eliminan automáticamente las muestras demasiado fáciles del conjunto de entrenamiento y mantienen solo aquellas que generan señales de aprendizaje efectivas.
Cómo aplicar la estrategia de optimización de IA en tu empresa
Esta innovación de Kwai ofrece lecciones directamente aplicables para empresas que buscan implementar IA de manera más eficiente:
1. Segmenta tus datos por complejidad
No mezcles casos simples con complejos en el mismo ciclo de entrenamiento. Si tienes datos de atención al cliente, separa las consultas básicas de las especializadas. Entrena primero con los casos más desafiantes para desarrollar capacidades robustas, como sugieren los casos exitosos de implementación de IA en automatización empresarial.
2. Implementa filtrado automático de datos
Desarrolla sistemas que identifiquen automáticamente qué datos aportan valor al entrenamiento y cuáles son redundantes. Un 50% de las muestras en el estudio de Kwai resultaron inútiles para el aprendizaje. En tu empresa, esto se traduce en identificar qué interacciones, transacciones o procesos realmente enseñan algo nuevo a tu sistema.
3. Adopta entrenamiento por etapas
En lugar de intentar que tu IA aprenda todo simultáneamente, estructura el aprendizaje en fases. Si implementas un chatbot, primero entrénalo para manejar consultas complejas de tu dominio específico, luego expande a casos más generales. Esta estrategia ha demostrado ser efectiva en casos reales de transformación empresarial con agentes de IA.
4. Monitorea la eficiencia de entrenamiento
Implementa métricas que detecten cuándo tu sistema está "perdiendo el tiempo" aprendiendo de datos redundantes. Si el 50% de tus ciclos de entrenamiento no generan mejoras, estás desperdiciando recursos computacionales que podrían reducirse significativamente.
5. Prioriza la calidad sobre la cantidad
La investigación de Kwai confirma que menos datos de mayor calidad superan a grandes volúmenes de información mediocre. Para empresas con presupuestos limitados, esto significa que es mejor invertir en curar cuidadosamente un conjunto pequeño de datos representativos que procesar masivamente información de baja calidad.
El verdadero valor de SRPO no está solo en la técnica específica, sino en demostrar que la eficiencia en IA es posible sin sacrificar resultados. Para empresas evaluando inversiones en IA, esto cambia completamente la ecuación de costos: ya no necesitas los recursos de una Big Tech para obtener resultados de primer nivel.
¿Estás midiendo la eficiencia real de tu entrenamiento de IA o simplemente asumiendo que más recursos equals mejores resultados?
Preguntas frecuentes
¿Qué es SRPO y cómo reduce los costos de entrenamiento de IA?
SRPO (Two-Staged history-Resampling Policy Optimization) es una técnica que entrena IA en dos etapas y elimina datos redundantes automáticamente, logrando los mismos resultados con 90% menos pasos de entrenamiento que métodos tradicionales como GRPO.
¿Cuánto puede ahorrar una empresa implementando la técnica SRPO?
Según el caso de Kwai, SRPO reduce los pasos de entrenamiento de 10 a 1, lo que significa un ahorro potencial del 90% en recursos computacionales y tiempo, manteniendo la misma calidad de resultados.
¿Qué empresas pueden beneficiarse del entrenamiento en dos etapas?
Cualquier empresa que entrene IA con datos de múltiples dominios o complejidades diferentes. Es especialmente útil para chatbots empresariales, sistemas de recomendación, análisis de documentos o automatización de procesos que manejan tanto casos simples como complejos.
Fuentes
- Can GRPO be 10x Efficient? Kwai AI’s SRPO Suggests Yes with SRPO
- Can GRPO be 10x Efficient? Kwai AI's SRPO Suggests Yes with SRPO
- Can GRPO Efficiency Be Increased Tenfold? Kwai AI's SRPO Says Yes
- Can GRPO be 10x Efficient? Kwai AI's SRPO Suggests Yes with SRPO
- SRPO Framework: 90% More Efficient LLM Training Than GRPO | AI News
- Kwaipilots SRPO Algorithm Matches Deepseek in Math Code with 10x Efficiency