




Resumen: Buscamos un Ingeniero de Confiabilidad del Sitio (SRE) / Ingeniero DevOps de Plataforma de IA práctico para gestionar el aprovisionamiento de infraestructura, CI/CD, telemetría e implementación en producción de servicios impulsados por IA. Aspectos destacados: 1. Rol fundamental en la construcción y mantenimiento de la infraestructura base para los servicios de IA 2. Enfoque en sistemas de IA fiables, observables, escalables y seguros 3. Oportunidad de trabajar con tecnologías de plataformas de IA de vanguardia **Descripción de la empresa** La tecnología es nuestro cómo. Y las personas son nuestro porqué. Durante más de dos décadas, hemos aprovechado la tecnología para impulsar cambios significativos. Al combinar ingeniería de clase mundial, experiencia sectorial y una mentalidad centrada en las personas, asesoramos y colaboramos con marcas líderes de diversos sectores para crear plataformas dinámicas y experiencias digitales inteligentes que impulsen la innovación y transformen los negocios. Desde el prototipo hasta el impacto real en el mundo: forma parte de un cambio global realizando un trabajo que importa. **Descripción del puesto** Buscamos un **Ingeniero de Confiabilidad del Sitio (SRE) / Ingeniero DevOps de Plataforma de IA** práctico para gestionar el aprovisionamiento de infraestructura, la automatización de CI/CD, las canalizaciones de telemetría y la implementación en producción de servicios, agentes y sistemas de orquestación impulsados por IA. Este es un **puesto centrado principalmente en SRE y orientado a la infraestructura**, enfocado en garantizar que los sistemas de IA que operan en producción sean: * Fiables * Observables * Escalables * Seguros * Eficientes desde el punto de vista de costos * Seguros de implementar y operar Usted desempeñará un rol fundamental en la construcción y mantenimiento de la infraestructura base que permite que los servicios de IA se ejecuten de forma segura y eficiente a gran escala. Principales responsabilidades 1\. Aprovisionamiento y automatización de infraestructura * Diseñar y gestionar infraestructura en la nube mediante Infraestructura como Código (Terraform o similar) * Aprovisionar y mantener clústeres de Kubernetes y servicios auxiliares * Automatizar la configuración de entornos en desarrollo, preproducción y producción * Gestionar redes, IAM, secretos, almacenamiento y escalado de recursos computacionales * Garantizar alta disponibilidad, resiliencia y preparación para recuperación ante desastres 2\. Ingeniería de CI/CD e implementación * Crear y mantener canalizaciones de CI/CD para: + Servicios de IA + Marcos de agentes + Sistemas de orquestación + Artefactos de modelos * Implementar puertas de validación automática de pruebas y fiabilidad * Habilitar implementaciones blue/green y canary * Desarrollar mecanismos seguros de reversión para servicios y modelos * Integrar comprobaciones de fiabilidad y salud en los flujos de trabajo de implementación 3\. Gobernanza de implementación de modelos y agentes * Empaquetar, versionar e implementar modelos en entornos contenerizados * Gestionar el almacenamiento y promoción de artefactos de modelos entre entornos * Supervisar el rendimiento de los modelos y detectar su deterioro * Apoyar la integración del ciclo de reentrenamiento y los flujos de actualización de modelos * Garantizar la implementación y reversión seguras de versiones de modelos * Implementar supervisión de latencia, throughput y costos de inferencia 4\. Canalizaciones de datos para telemetría y observabilidad * Diseñar y mantener canalizaciones de datos para ingerir, limpiar y procesar telemetría de alto volumen (registros, métricas, trazas, eventos) * Habilitar telemetría estructurada para flujos de trabajo de IA y orquestación * Garantizar la fiabilidad del procesamiento en tiempo real y por lotes * Optimizar la escalabilidad y el rendimiento de las canalizaciones 5\. Integración de plataformas AIOps * Evaluar, implementar e integrar plataformas AIOps * Mejorar la detección de anomalías, la correlación y la inteligencia de alertas * Reducir el ruido de alertas y mejorar la calidad de la señal * Integrar las salidas de AIOps en los flujos de trabajo operativos y la gestión de incidencias 6\. Automatización inteligente de incidencias * Automatizar los flujos de trabajo de detección y resolución de incidencias * Crear scripts de autorreparación y runbooks inteligentes * Reducir el tiempo medio hasta la detección (MTTD) y el tiempo medio hasta la resolución (MTTR) mediante automatización * Integrar información de análisis inteligente de causas raíz impulsada por IA en las herramientas operativas * Mejorar la prevención de incidencias recurrentes 7\. Confiabilidad en producción y excelencia SRE * Definir y gestionar indicadores de nivel de servicio (SLI), objetivos de nivel de servicio (SLO) y presupuestos de errores * Implementar sistemas de supervisión, paneles de control y alertas * Participar en turnos de guardia * Liderar la clasificación de incidencias y el análisis de causas raíz * Mejorar la resiliencia, escalabilidad y manejo de fallos * Implementar mecanismos de circuit breaker, límites de tasa y conmutación por error 8\. Seguridad y gobernanza * Implementar controles de acceso con privilegios mínimos * Gestionar secretos y rotación de credenciales * Hacer cumplir el aislamiento entre entornos * Garantizar la auditabilidad y el cumplimiento normativo de los sistemas de IA **Requisitos** Experiencia requerida * 5 o más años de experiencia en puestos de Ingeniería de Confiabilidad del Sitio (SRE), DevOps o Ingeniería de Plataformas * Amplia experiencia práctica con plataformas en la nube (AWS, Azure o GCP) * Experiencia demostrada con Kubernetes y cargas de trabajo contenerizadas * Experiencia con Infraestructura como Código (Terraform, CloudFormation, etc.) * Amplia experiencia en implementación de CI/CD (GitHub Actions, GitLab CI, Jenkins, etc.) * Experiencia en la construcción de pilas de observabilidad (Prometheus, Grafana, OpenTelemetry, ELK, Datadog, etc.) * Experiencia definiendo y gestionando SLI/SLO y presupuestos de errores * Experiencia práctica en respuesta a incidencias y soporte en producción * Excelentes habilidades de programación (Python, Bash o similares) Experiencia con plataformas de IA/ML (altamente deseable) * Experiencia implementando y gestionando servicios de IA/ML en producción * Conocimiento sobre empaquetado, versionado y gestión de artefactos de modelos * Comprensión de la gestión del ciclo de vida de modelos y flujos de reentrenamiento * Experiencia supervisando el rendimiento, la latencia y los costos de inferencia * Conocimiento de herramientas AIOps y sistemas inteligentes de alertas Habilidades adicionales * Profundo conocimiento de patrones de fiabilidad en sistemas distribuidos * Conocimiento de las mejores prácticas de seguridad en entornos nativos de la nube * Experiencia implementando estrategias de alta disponibilidad y recuperación ante desastres * Excelentes habilidades de resolución de problemas y análisis de causas raíz * Excelentes habilidades comunicativas y capacidad para colaborar entre equipos de ingeniería y de IA **Información adicional** Descubra algunos de los beneficios globales que empoderan a nuestros colaboradores para convertirse en su mejor versión: * **Finanzas:** Paquete salarial competitivo, plan de acciones, bonos por desempeño corporativo, reconocimientos basados en valor, bonos por referidos; * **Desarrollo profesional:** Asesoramiento profesional, oportunidades de carrera globales, trayectorias profesionales no lineales, programas internos de desarrollo para liderazgo técnico y gerencial; * **Oportunidades de aprendizaje:** Proyectos complejos, rotaciones, comunidades técnicas internas, formación, certificaciones, tutorías, suscripciones a plataformas de aprendizaje en línea, sesiones de transmisión de conocimientos, talleres y conferencias; * **Equilibrio entre vida laboral y personal:** Trabajo híbrido y horarios flexibles, programa de asistencia al empleado; * **Salud:** Programa global interno de bienestar, acceso a aplicaciones de bienestar; * **Comunidad:** Comunidades técnicas internacionales, clubes y grupos de interés, programas de inclusión y diversidad, eventos y celebraciones. En Endava, estamos comprometidos con la creación de un entorno abierto, inclusivo y respetuoso donde todos se sientan seguros, valorados y empoderados para ser lo mejor que pueden ser. Aceptamos candidaturas de personas de todos los orígenes, experiencias y perspectivas, porque sabemos que los equipos inclusivos nos ayudan a ofrecer soluciones más inteligentes e innovadoras a nuestros clientes. Las decisiones de contratación se basan en el mérito, las habilidades, las calificaciones y el potencial. Si necesita ajustes o apoyo durante el proceso de reclutamiento, no dude en hacérnoslo saber.


