Cómo TGS revolucionó el entrenamiento de IA en geología: de 6 meses a 5 días con AWS
TGS redujo el tiempo de entrenamiento de sus modelos de IA para análisis sísmico de 6 meses a solo 5 días usando Amazon SageMaker HyperPod. Descubre cómo lo hicieron.

De 6 meses a 5 días: la transformación radical que logró TGS en entrenamiento de IA
TGS, la multinacional noruega especializada en datos geológicos para el sector energético, acaba de demostrar que entrenar modelos de inteligencia artificial masivos ya no tiene por qué ser una odisea de meses. Su colaboración con el Centro de Innovación en IA Generativa de AWS (GenAIIC) logró reducir el tiempo de entrenamiento de sus modelos sísmicos de 6 meses a apenas 5 días, mientras expandía la capacidad de análisis de volúmenes geológicos más grandes que nunca.
La clave estuvo en Amazon SageMaker HyperPod, que permitió escalar linealmente el entrenamiento distribuido usando 16 instancias Amazon EC2 P5, cada una equipada con 8 GPUs NVIDIA H200 y 141GB de memoria por GPU. El resultado no solo fue velocidad: TGS logró reducir los costos de almacenamiento en más del 90% al streaming directo desde Amazon S3, eliminando la necesidad de sistemas de archivos intermedios como Amazon FSx for Lustre.
Según los datos del proyecto, la arquitectura final alcanzó un throughput sostenido de 4-5 GBps por nodo, suficiente para utilizar completamente las GPUs. A nivel de clúster, esto se tradujo en 64-80 GBps de ancho de banda total, procesando terabytes de datos sísmicos en formato MDIO (un estándar open source desarrollado por TGS específicamente para datos científicos masivos en la nube).
Qué puedes aplicar de esta estrategia en tu empresa
La experiencia de TGS ofrece lecciones concretas para cualquier organización que busque implementar entrenamiento de IA a gran escala, especialmente en sectores con grandes volúmenes de datos especializados:
Evalúa tu arquitectura de datos desde el principio. TGS probó dos enfoques: almacenamiento de alta velocidad vs. streaming directo. El streaming desde S3 resultó 90% más económico y escaló mejor porque cada nodo aporta su propio ancho de banda de conexión. La lección: no asumas que más caro es mejor; testa ambas opciones con tu carga de trabajo real.
Optimiza el paralelismo según tu caso de uso. El equipo evaluó ZeRO-2, ZeRO-3 y FSDP2 para distribuir el entrenamiento. Eligieron DeepSpeed ZeRO-2 porque mantenía copias completas de los parámetros del modelo en cada GPU (acceso más rápido) mientras particionaba gradientes y estados del optimizador (eficiencia de memoria). Para modelos donde la velocidad de comunicación es crítica, esta configuración puede ser más efectiva que enfoques que maximizan la eficiencia de memoria.
Planifica la infraestructura pensando en escalabilidad. TGS configuró su clúster SageMaker HyperPod con roles IAM de mínimos privilegios, VPC aislada y monitoreo automático de salud. Según el repositorio awslabs en GitHub, esta arquitectura de referencia para entrenamiento distribuido incluye plantillas CloudFormation y casos de prueba para diferentes frameworks (PyTorch DDP/FSDP, Megatron-LM, NeMo).
Considera el contexto de tu dominio. Los modelos sísmicos de TGS usan Vision Transformers con Masked AutoEncoder para analizar estructuras geológicas en 3D. La expansión de las ventanas de contexto les permite capturar tanto detalles locales como patrones geológicos amplios simultáneamente. En tu sector, identifica qué significa "contexto" para tu caso de uso y cómo una ventana más amplia podría mejorar los resultados.
Mide el impacto en tiempo real. TGS no solo aceleró el entrenamiento; habilitó ciclos de iteración más frecuentes para incorporar nuevos datos y entregar valor a clientes más rápido. Define métricas de negocio (no solo técnicas) para justificar la inversión en infraestructura.
La transformación de TGS demuestra que el entrenamiento de modelos de IA masivos ya no es exclusivo de las grandes tecnológicas. Con la estrategia correcta de cloud computing y paralelización, una empresa del sector energético puede competir en velocidad y escala. ¿Cuál será tu excusa para no empezar?
Fuentes
- Scaling seismic foundation models on AWS: Distributed training with Amazon SageMaker HyperPod and expanding context windows
- Scaling seismic basis fashions on AWS: Distributed coaching with Amazon ...
- GitHub - awslabs/awsome-distributed-training: Collection of best ...
- Accelerate foundation model training and inference with Amazon ...
- AWS SageMaker HyperPod: Distributed Training for Foundation Models at ...
- PDF Scaling seismic foundation models