Ingeniero DevOps - AIOps

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

José Antonio de Sucre 1409, X5000JXH Córdoba, Argentina

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Buscamos un Ingeniero de Confiabilidad del Sitio (SRE) / Ingeniero DevOps para plataformas de IA práctico y comprometido, que se haga cargo del aprovisionamiento de infraestructura, la automatización de CI/CD, la telemetría y la implementación en producción de servicios impulsados por IA, centrándose en sistemas de IA confiables, observables y escalables. Aspectos destacados: 1. Rol centrado en SRE, con prioridad en infraestructura para sistemas de IA 2. Rol fundamental para construir la base de la plataforma de IA a escala 3. Enfoque en la confiabilidad en producción y la excelencia en SRE **Descripción de la empresa** La tecnología es nuestro cómo. Y las personas son nuestro porqué. Durante más de dos décadas, hemos aprovechado la tecnología para impulsar cambios significativos. Al combinar ingeniería de clase mundial, experiencia sectorial y una mentalidad centrada en las personas, asesoramos y colaboramos con marcas líderes de diversos sectores para crear plataformas dinámicas y experiencias digitales inteligentes que impulsen la innovación y transformen los negocios. Desde el prototipo hasta el impacto en el mundo real: forma parte de un cambio global realizando un trabajo que importa. **Descripción del puesto** Buscamos un **Ingeniero de Confiabilidad del Sitio (SRE) / Ingeniero DevOps para plataformas de IA** práctico y comprometido, que se haga cargo del aprovisionamiento de infraestructura, la automatización de CI/CD, las canalizaciones de telemetría y la implementación en producción de servicios, agentes y sistemas de orquestación impulsados por IA. Se trata de un **rol centrado en SRE y con prioridad en infraestructura**, enfocado en garantizar que los sistemas de IA operativos en producción sean: * Confiables * Observables * Escalables * Seguros * Eficientes desde el punto de vista de costos * Seguros de implementar y operar Usted desempeñará un rol fundamental al construir y mantener la base de la plataforma que permita que los servicios de IA se ejecuten de forma segura y eficiente a escala. Responsabilidades clave 1\. Aprovisionamiento y automatización de infraestructura * Diseñar y gestionar infraestructura en la nube mediante Infraestructura como Código (Terraform o similar) * Aprovisionar y mantener clústeres de Kubernetes y servicios de apoyo * Automatizar la configuración de entornos en desarrollo, preproducción y producción * Gestionar redes, IAM, secretos, almacenamiento y escalado de recursos de cómputo * Garantizar alta disponibilidad, resiliencia y preparación para recuperación ante desastres 2\. Ingeniería de CI/CD e implementación * Construir y mantener canalizaciones de CI/CD para: + Servicios de IA + Marcos de agentes + Sistemas de orquestación + Artefactos de modelos * Implementar puertas de validación automatizadas de pruebas y confiabilidad * Habilitar implementaciones blue/green y canary * Crear mecanismos seguros de reversión para servicios y modelos * Integrar comprobaciones de confiabilidad y estado en los flujos de implementación 3\. Gobernanza de implementación de modelos y agentes * Empaquetar, versionar e implementar modelos en entornos contenerizados * Gestionar el almacenamiento y la promoción de artefactos de modelos entre entornos * Supervisar el rendimiento de los modelos y detectar su degradación * Apoyar la integración del ciclo de reentrenamiento y los flujos de actualización de modelos * Garantizar la implementación y reversión seguras de versiones de modelos * Implementar supervisión de latencia, throughput y costo de inferencia 4\. Canalizaciones de datos para telemetría y observabilidad * Diseñar y mantener canalizaciones de datos para la ingesta, limpieza y procesamiento de telemetría de alto volumen (registros, métricas, rastros, eventos) * Habilitar telemetría estructurada para flujos de trabajo de IA y orquestación * Garantizar la fiabilidad del procesamiento en tiempo real y por lotes * Optimizar la escalabilidad y el rendimiento de las canalizaciones 5\. Integración de la plataforma AIOps * Evaluar, implementar e integrar plataformas AIOps * Mejorar la detección de anomalías, la correlación y la inteligencia de alertas * Reducir el ruido de alertas y mejorar la calidad de la señal * Integrar las salidas de AIOps en los flujos operativos y la gestión de incidencias 6\. Automatización inteligente de incidencias * Automatizar flujos de detección y remediación de incidencias * Crear scripts de autorreparación y runbooks inteligentes * Reducir el tiempo medio de detección (MTTD) y el tiempo medio de resolución (MTTR) mediante automatización * Integrar información de análisis inteligente de causas raíz impulsado por IA en las herramientas operativas * Mejorar la prevención de incidencias recurrentes 7\. Confiabilidad en producción y excelencia en SRE * Definir y gestionar indicadores de nivel de servicio (SLI), objetivos de nivel de servicio (SLO) y presupuestos de errores * Implementar sistemas de supervisión, paneles de control y alertas * Participar en la rotación de guardias * Liderar la clasificación de incidencias y el análisis de causas raíz * Mejorar la resiliencia, el escalado y el manejo de fallos * Implementar mecanismos de corte automático, limitación de tasas y conmutación por error 8\. Seguridad y gobernanza * Implementar controles de acceso basados en el principio del mínimo privilegio * Gestionar secretos y la rotación de credenciales * Hacer cumplir el aislamiento entre entornos * Garantizar la auditabilidad y el cumplimiento normativo de los sistemas de IA **Requisitos** Experiencia requerida * 5 o más años de experiencia en puestos de Ingeniería de Confiabilidad del Sitio (SRE), DevOps o Ingeniería de Plataformas * Amplia experiencia práctica con plataformas en la nube (AWS, Azure o GCP) * Experiencia demostrada con Kubernetes y cargas de trabajo contenerizadas * Experiencia con Infraestructura como Código (Terraform, CloudFormation, etc.) * Amplia experiencia en implementación de CI/CD (GitHub Actions, GitLab CI, Jenkins, etc.) * Experiencia en la construcción de pilas de observabilidad (Prometheus, Grafana, OpenTelemetry, ELK, Datadog, etc.) * Experiencia definiendo y gestionando SLI/SLO y presupuestos de errores * Experiencia práctica en respuesta a incidencias y soporte en producción * Excelentes habilidades de scripting (Python, Bash o similares) Experiencia en plataformas de IA/ML (altamente deseable) * Experiencia implementando y gestionando servicios de IA/ML en producción * Familiaridad con empaquetado, versionado y gestión de artefactos de modelos * Comprensión de la gestión del ciclo de vida de modelos y los flujos de reentrenamiento * Experiencia supervisando el rendimiento, la latencia y el costo de inferencia * Conocimiento de herramientas AIOps y sistemas inteligentes de alertas Habilidades adicionales * Profundo conocimiento de patrones de confiabilidad en sistemas distribuidos * Conocimiento de las mejores prácticas de seguridad en entornos nativos de la nube * Experiencia implementando estrategias de alta disponibilidad y recuperación ante desastres * Excelentes habilidades de resolución de problemas y análisis de causas raíz * Excelentes habilidades comunicativas y capacidad de colaboración entre equipos de ingeniería y de IA **Información adicional** Descubra algunos de los beneficios globales que empoderan a nuestras personas para convertirse en la mejor versión de sí mismas: * **Finanzas:** Paquete salarial competitivo, plan de acciones, bonos por desempeño corporativo, premios de reconocimiento basados en valor, bono por referidos; * **Desarrollo profesional**: Asesoramiento profesional, oportunidades profesionales globales, trayectorias profesionales no lineales, programas internos de desarrollo para liderazgo técnico y gerencial; * **Oportunidades de aprendizaje:** Proyectos complejos, rotaciones, comunidades técnicas internas, formación, certificaciones, asesoramiento, suscripciones a plataformas de aprendizaje en línea, sesiones de transmisión de conocimientos, talleres y conferencias; * **Equilibrio entre vida laboral y personal:** Trabajo híbrido y horarios flexibles, programa de asistencia al empleado; * **Salud:** Programa global interno de bienestar, acceso a aplicaciones de bienestar; * **Comunidad:** Comunidades técnicas internacionales, clubes y grupos de interés, programas de inclusión y diversidad, eventos y celebraciones. En Endava, estamos comprometidos con la creación de un entorno abierto, inclusivo y respetuoso donde todos se sientan seguros, valorados y empoderados para ser lo mejor de sí mismos. Aceptamos candidaturas de personas de todos los orígenes, experiencias y perspectivas, porque sabemos que los equipos inclusivos nos ayudan a ofrecer soluciones más inteligentes e innovadoras a nuestros clientes. Las decisiones de contratación se basan en el mérito, las habilidades, las calificaciones y el potencial. Si necesita ajustes o apoyo durante el proceso de reclutamiento, no dude en hacérnoslo saber.

Fuentea: indeed Ver publicación original