




Resumen: Buscamos un Ingeniero Jefe de Nube para liderar la excelencia operativa en la plataforma en la nube, asumiendo la responsabilidad de la observabilidad, la respuesta a incidentes, la resiliencia y la recuperación ante desastres. Aspectos destacados: 1. Liderar la excelencia operativa en la plataforma en la nube 2. Dirigir equipos desde un punto de vista técnico e influir en la dirección del proyecto 3. Aplicar herramientas de automatización y asistidas por IA para mejorar la eficiencia operativa Estamos buscando un **Ingeniero Jefe de Nube** para que se una a nuestro equipo. Usted liderará la excelencia operativa en la plataforma en la nube asumiendo la responsabilidad de la observabilidad, la respuesta a incidentes, la resiliencia y la recuperación ante desastres. Este puesto garantiza que el lado "operativo" tenga la misma solidez que el lado "de desarrollo", asegurando que las cargas de trabajo en la nube permanezcan saludables, cumplimentarias y de alto rendimiento. **Responsabilidades** * Asumir la responsabilidad de los paneles de salud operativa, los umbrales de alerta y los manuales de respuesta a incidentes para la plataforma en la nube * Dirigir las rotaciones de guardia, coordinar la resolución de incidentes mayores y liderar las revisiones posteriores a incidentes * Implementar y mantener soluciones de recuperación ante desastres (DR) para aplicaciones fundamentales, incluyendo estrategias de enrutamiento DNS y repositorios con bajo tiempo objetivo de recuperación (RTO) * Supervisar tuberías de parcheo, imágenes doradas, registros de contenedores, copias de seguridad y pruebas automatizadas de resiliencia * Colaborar con ingenieros de plataforma para integrar conocimientos operativos en mejoras arquitectónicas y en la hoja de ruta * Aplicar herramientas de automatización y asistidas por IA para correlacionar anomalías, minimizar ruido y acelerar el análisis de la causa raíz * Capacitar a los equipos de producto sobre patrones de DR, mejores prácticas operativas y responsabilidades compartidas **Requisitos** * Licenciatura o maestría en Ciencias de la Computación, Ingeniería Informática o antecedentes profesionales equivalentes * Un mínimo de 7 años de experiencia profesional relevante * Al menos 2 años de experiencia en liderazgo y gestión de equipos, con capacidad para dirigir equipos desde un punto de vista técnico, influir en la dirección del proyecto, promover mejores prácticas técnicas y entregar resultados de alta calidad * Participación en al menos 2 proyectos completos desde su inicio hasta su finalización, o participación en múltiples proyectos que abarquen distintas fases del ciclo de vida de desarrollo * Experiencia práctica en operaciones en la nube o en puestos de ingeniero de confiabilidad del sitio (SRE), con profunda exposición a AWS o plataformas hipercalificadas similares * Competencias avanzadas en herramientas de monitoreo, alertas, registro y gestión de incidentes * Registro comprobado de implementación de estrategias de recuperación ante desastres, regímenes de copia de seguridad y pruebas de resiliencia * Profundo conocimiento de los procesos de parcheo, gestión de imágenes AMI doradas e imágenes de contenedores, y gobernanza del control de cambios * Experiencia práctica en la automatización de flujos de trabajo operativos para reducir el tiempo medio de recuperación (MTTR) y la carga operativa (toil), utilizando herramientas como Python, Lambda y manuales de procedimientos (runbooks) * Conocimiento de herramientas de observabilidad y correlación asistidas por IA, así como capacidad para su implementación operativa * Excelentes habilidades comunicativas para la coordinación durante las guardias y las actualizaciones a los interesados * Excelentes habilidades orales y escritas en inglés (nivel B2 o superior)


