




Resumen: Buscamos un Ingeniero Senior de Nube para ser propietario y operar una plataforma AWS, construyendo infraestructura estandarizada, automatización, observabilidad y escalabilidad para cargas de trabajo HPC. Aspectos destacados: 1. Propietario y operador de una plataforma AWS para cargas de trabajo HPC a gran escala 2. Construcción de infraestructura estandarizada, automatización y observabilidad 3. Liderazgo en la propiedad técnica y promoción de estándares entre equipos Buscamos un **Ingeniero Senior de Nube** para ser propietario y operar una plataforma AWS que permita a un equipo HPC ejecutar cargas de trabajo de forma fiable a gran escala. Construirá infraestructura estandarizada, automatización, observabilidad y escalabilidad en entornos AWS multi-cuenta y Kubernetes; postúlese para ayudar a entregar fundamentos robustos en la nube. **Responsabilidades** * Ser propietario de las operaciones del entorno y plataforma AWS que respaldan cargas de trabajo HPC a gran escala * Provisionar y gestionar cuentas AWS mediante herramientas internas de autoservicio y patrones estandarizados * Crear y mantener código Terraform para aprovisionar recursos AWS y clústeres orientados a HPC * Diseñar y operar canalizaciones centralizadas de CI/CD para gestionar todas las cuentas y clústeres desde un único repositorio * Migrar las cuentas restantes de AWS al repositorio central y estandarizar los patrones de infraestructura * Operar y dar soporte a un registro de contenedores dentro del clúster (Harbor) y componentes relacionados de la plataforma * Implementar y completar el despliegue de observabilidad en todo el entorno AWS, incluidas métricas, registros, paneles y alertas * Brindar soporte a las operaciones de clústeres Kubernetes y solucionar problemas de la plataforma que afecten a las cargas de trabajo HPC * Ser propietario y mejorar Cast AI como mecanismo principal para escalado y optimización de clústeres * Diseñar y dar soporte a soluciones de transferencia de datos y redes entre nubes, tales como AWS DataSync e Interconnect entre AWS y GCP * Colaborar con el equipo HPC para traducir requisitos en soluciones de plataforma implementadas * Coordinar los horarios laborales para mantener al menos 4 horas de superposición con la zona horaria de Houston y superposición ocasional con Australia **Requisitos** * 3 o más años de experiencia práctica con Amazon Web Services en entornos multi-cuenta * Experiencia con infraestructura como código mediante Terraform (HCL/tofu), incluidos módulos y estado * Experiencia en operaciones de Kubernetes, incluida la solución de problemas de clústeres y cargas de trabajo * Capacidad comprobada para liderar la propiedad técnica como colaborador individual de nivel senior y promover estándares entre equipos * Fuertes habilidades de ejecución de proyectos para asumir requisitos, evaluar opciones y entregar soluciones con mínima supervisión * Habilidades avanzadas de programación en Python para automatización, herramientas e integraciones * Fuertes habilidades de scripting en Bash para automatización operativa * Conocimientos sólidos de flujos de trabajo CI/CD y GitOps utilizando herramientas como GitLab CI o GitHub Actions * Fuertes habilidades en observabilidad abarcando métricas, registros, paneles y alertas mediante Prometheus y Grafana * Experiencia en escalado de clústeres y optimización de costos mediante Cast AI o herramientas similares * Capacidad para utilizar herramientas asistidas por IA para generación de código, depuración y documentación en el trabajo diario * Competencia avanzada en inglés (CEFR B2) **Deseable** * Experiencia con Google Cloud Platform, especialmente en integraciones entre nubes con AWS * Experiencia en computación de alto rendimiento (HPC) con planificadores o pipelines intensivos en datos


