




Resumen: Buscamos un Ingeniero de Confiabilidad del Sitio (SRE) / Ingeniero DevOps para plataformas de IA práctico y comprometido, que se haga cargo del aprovisionamiento de infraestructura, la automatización de CI/CD, la telemetría y la implementación en producción de servicios impulsados por IA, centrándose en sistemas de IA confiables, observables y escalables. Aspectos destacados: 1. Rol centrado en SRE, con prioridad en infraestructura para sistemas de IA 2. Rol fundamental para construir la base de la plataforma de IA a escala 3. Enfoque en la confiabilidad en producción y la excelencia en SRE **Descripción de la empresa** La tecnología es nuestro cómo. Y las personas son nuestro porqué. Durante más de dos décadas, hemos aprovechado la tecnología para impulsar cambios significativos. Al combinar ingeniería de clase mundial, experiencia sectorial y una mentalidad centrada en las personas, asesoramos y colaboramos con marcas líderes de diversos sectores para crear plataformas dinámicas y experiencias digitales inteligentes que impulsen la innovación y transformen los negocios. Desde el prototipo hasta el impacto en el mundo real: forma parte de un cambio global realizando un trabajo que importa. **Descripción del puesto** Buscamos un **Ingeniero de Confiabilidad del Sitio (SRE) / Ingeniero DevOps para plataformas de IA** práctico y comprometido, que se haga cargo del aprovisionamiento de infraestructura, la automatización de CI/CD, las canalizaciones de telemetría y la implementación en producción de servicios, agentes y sistemas de orquestación impulsados por IA. Se trata de un **rol centrado en SRE y con prioridad en infraestructura**, enfocado en garantizar que los sistemas de IA operativos en producción sean: * Confiables * Observables * Escalables * Seguros * Eficientes desde el punto de vista de costos * Seguros de implementar y operar Usted desempeñará un rol fundamental al construir y mantener la base de la plataforma que permita que los servicios de IA se ejecuten de forma segura y eficiente a escala. Responsabilidades clave 1\. Aprovisionamiento y automatización de infraestructura * Diseñar y gestionar infraestructura en la nube mediante Infraestructura como Código (Terraform o similar) * Aprovisionar y mantener clústeres de Kubernetes y servicios de apoyo * Automatizar la configuración de entornos en desarrollo, preproducción y producción * Gestionar redes, IAM, secretos, almacenamiento y escalado de recursos de cómputo * Garantizar alta disponibilidad, resiliencia y preparación para recuperación ante desastres 2\. Ingeniería de CI/CD e implementación * Construir y mantener canalizaciones de CI/CD para: + Servicios de IA + Marcos de agentes + Sistemas de orquestación + Artefactos de modelos * Implementar puertas de validación automatizadas de pruebas y confiabilidad * Habilitar implementaciones blue/green y canary * Crear mecanismos seguros de reversión para servicios y modelos * Integrar comprobaciones de confiabilidad y estado en los flujos de implementación 3\. Gobernanza de implementación de modelos y agentes * Empaquetar, versionar e implementar modelos en entornos contenerizados * Gestionar el almacenamiento y la promoción de artefactos de modelos entre entornos * Supervisar el rendimiento de los modelos y detectar su degradación * Apoyar la integración del ciclo de reentrenamiento y los flujos de actualización de modelos * Garantizar la implementación y reversión seguras de versiones de modelos * Implementar supervisión de latencia, throughput y costo de inferencia 4\. Canalizaciones de datos para telemetría y observabilidad * Diseñar y mantener canalizaciones de datos para la ingesta, limpieza y procesamiento de telemetría de alto volumen (registros, métricas, rastros, eventos) * Habilitar telemetría estructurada para flujos de trabajo de IA y orquestación * Garantizar la fiabilidad del procesamiento en tiempo real y por lotes * Optimizar la escalabilidad y el rendimiento de las canalizaciones 5\. Integración de la plataforma AIOps * Evaluar, implementar e integrar plataformas AIOps * Mejorar la detección de anomalías, la correlación y la inteligencia de alertas * Reducir el ruido de alertas y mejorar la calidad de la señal * Integrar las salidas de AIOps en los flujos operativos y la gestión de incidencias 6\. Automatización inteligente de incidencias * Automatizar flujos de detección y remediación de incidencias * Crear scripts de autorreparación y runbooks inteligentes * Reducir el tiempo medio de detección (MTTD) y el tiempo medio de resolución (MTTR) mediante automatización * Integrar información de análisis inteligente de causas raíz impulsado por IA en las herramientas operativas * Mejorar la prevención de incidencias recurrentes 7\. Confiabilidad en producción y excelencia en SRE * Definir y gestionar indicadores de nivel de servicio (SLI), objetivos de nivel de servicio (SLO) y presupuestos de errores * Implementar sistemas de supervisión, paneles de control y alertas * Participar en la rotación de guardias * Liderar la clasificación de incidencias y el análisis de causas raíz * Mejorar la resiliencia, el escalado y el manejo de fallos * Implementar mecanismos de corte automático, limitación de tasas y conmutación por error 8\. Seguridad y gobernanza * Implementar controles de acceso basados en el principio del mínimo privilegio * Gestionar secretos y la rotación de credenciales * Hacer cumplir el aislamiento entre entornos * Garantizar la auditabilidad y el cumplimiento normativo de los sistemas de IA **Requisitos** Experiencia requerida * 5 o más años de experiencia en puestos de Ingeniería de Confiabilidad del Sitio (SRE), DevOps o Ingeniería de Plataformas * Amplia experiencia práctica con plataformas en la nube (AWS, Azure o GCP) * Experiencia demostrada con Kubernetes y cargas de trabajo contenerizadas * Experiencia con Infraestructura como Código (Terraform, CloudFormation, etc.) * Amplia experiencia en implementación de CI/CD (GitHub Actions, GitLab CI, Jenkins, etc.) * Experiencia en la construcción de pilas de observabilidad (Prometheus, Grafana, OpenTelemetry, ELK, Datadog, etc.) * Experiencia definiendo y gestionando SLI/SLO y presupuestos de errores * Experiencia práctica en respuesta a incidencias y soporte en producción * Excelentes habilidades de scripting (Python, Bash o similares) Experiencia en plataformas de IA/ML (altamente deseable) * Experiencia implementando y gestionando servicios de IA/ML en producción * Familiaridad con empaquetado, versionado y gestión de artefactos de modelos * Comprensión de la gestión del ciclo de vida de modelos y los flujos de reentrenamiento * Experiencia supervisando el rendimiento, la latencia y el costo de inferencia * Conocimiento de herramientas AIOps y sistemas inteligentes de alertas Habilidades adicionales * Profundo conocimiento de patrones de confiabilidad en sistemas distribuidos * Conocimiento de las mejores prácticas de seguridad en entornos nativos de la nube * Experiencia implementando estrategias de alta disponibilidad y recuperación ante desastres * Excelentes habilidades de resolución de problemas y análisis de causas raíz * Excelentes habilidades comunicativas y capacidad de colaboración entre equipos de ingeniería y de IA **Información adicional** Descubra algunos de los beneficios globales que empoderan a nuestras personas para convertirse en la mejor versión de sí mismas: * **Finanzas:** Paquete salarial competitivo, plan de acciones, bonos por desempeño corporativo, premios de reconocimiento basados en valor, bono por referidos; * **Desarrollo profesional**: Asesoramiento profesional, oportunidades profesionales globales, trayectorias profesionales no lineales, programas internos de desarrollo para liderazgo técnico y gerencial; * **Oportunidades de aprendizaje:** Proyectos complejos, rotaciones, comunidades técnicas internas, formación, certificaciones, asesoramiento, suscripciones a plataformas de aprendizaje en línea, sesiones de transmisión de conocimientos, talleres y conferencias; * **Equilibrio entre vida laboral y personal:** Trabajo híbrido y horarios flexibles, programa de asistencia al empleado; * **Salud:** Programa global interno de bienestar, acceso a aplicaciones de bienestar; * **Comunidad:** Comunidades técnicas internacionales, clubes y grupos de interés, programas de inclusión y diversidad, eventos y celebraciones. En Endava, estamos comprometidos con la creación de un entorno abierto, inclusivo y respetuoso donde todos se sientan seguros, valorados y empoderados para ser lo mejor de sí mismos. Aceptamos candidaturas de personas de todos los orígenes, experiencias y perspectivas, porque sabemos que los equipos inclusivos nos ayudan a ofrecer soluciones más inteligentes e innovadoras a nuestros clientes. Las decisiones de contratación se basan en el mérito, las habilidades, las calificaciones y el potencial. Si necesita ajustes o apoyo durante el proceso de reclutamiento, no dude en hacérnoslo saber.


