Ingeniero DevOps - AIOps

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

José Antonio de Sucre 1409, X5000JXH Córdoba, Argentina

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Buscamos un Ingeniero de Confiabilidad del Sitio (SRE) / Ingeniero DevOps de Plataforma de IA práctico para gestionar el aprovisionamiento de infraestructura, CI/CD, telemetría e implementación en producción de servicios impulsados por IA. Aspectos destacados: 1. Rol fundamental en la construcción y mantenimiento de la infraestructura base para los servicios de IA 2. Enfoque en sistemas de IA fiables, observables, escalables y seguros 3. Oportunidad de trabajar con tecnologías de plataformas de IA de vanguardia **Descripción de la empresa** La tecnología es nuestro cómo. Y las personas son nuestro porqué. Durante más de dos décadas, hemos aprovechado la tecnología para impulsar cambios significativos. Al combinar ingeniería de clase mundial, experiencia sectorial y una mentalidad centrada en las personas, asesoramos y colaboramos con marcas líderes de diversos sectores para crear plataformas dinámicas y experiencias digitales inteligentes que impulsen la innovación y transformen los negocios. Desde el prototipo hasta el impacto real en el mundo: forma parte de un cambio global realizando un trabajo que importa. **Descripción del puesto** Buscamos un **Ingeniero de Confiabilidad del Sitio (SRE) / Ingeniero DevOps de Plataforma de IA** práctico para gestionar el aprovisionamiento de infraestructura, la automatización de CI/CD, las canalizaciones de telemetría y la implementación en producción de servicios, agentes y sistemas de orquestación impulsados por IA. Este es un **puesto centrado principalmente en SRE y orientado a la infraestructura**, enfocado en garantizar que los sistemas de IA que operan en producción sean: * Fiables * Observables * Escalables * Seguros * Eficientes desde el punto de vista de costos * Seguros de implementar y operar Usted desempeñará un rol fundamental en la construcción y mantenimiento de la infraestructura base que permite que los servicios de IA se ejecuten de forma segura y eficiente a gran escala. Principales responsabilidades 1\. Aprovisionamiento y automatización de infraestructura * Diseñar y gestionar infraestructura en la nube mediante Infraestructura como Código (Terraform o similar) * Aprovisionar y mantener clústeres de Kubernetes y servicios auxiliares * Automatizar la configuración de entornos en desarrollo, preproducción y producción * Gestionar redes, IAM, secretos, almacenamiento y escalado de recursos computacionales * Garantizar alta disponibilidad, resiliencia y preparación para recuperación ante desastres 2\. Ingeniería de CI/CD e implementación * Crear y mantener canalizaciones de CI/CD para: + Servicios de IA + Marcos de agentes + Sistemas de orquestación + Artefactos de modelos * Implementar puertas de validación automática de pruebas y fiabilidad * Habilitar implementaciones blue/green y canary * Desarrollar mecanismos seguros de reversión para servicios y modelos * Integrar comprobaciones de fiabilidad y salud en los flujos de trabajo de implementación 3\. Gobernanza de implementación de modelos y agentes * Empaquetar, versionar e implementar modelos en entornos contenerizados * Gestionar el almacenamiento y promoción de artefactos de modelos entre entornos * Supervisar el rendimiento de los modelos y detectar su deterioro * Apoyar la integración del ciclo de reentrenamiento y los flujos de actualización de modelos * Garantizar la implementación y reversión seguras de versiones de modelos * Implementar supervisión de latencia, throughput y costos de inferencia 4\. Canalizaciones de datos para telemetría y observabilidad * Diseñar y mantener canalizaciones de datos para ingerir, limpiar y procesar telemetría de alto volumen (registros, métricas, trazas, eventos) * Habilitar telemetría estructurada para flujos de trabajo de IA y orquestación * Garantizar la fiabilidad del procesamiento en tiempo real y por lotes * Optimizar la escalabilidad y el rendimiento de las canalizaciones 5\. Integración de plataformas AIOps * Evaluar, implementar e integrar plataformas AIOps * Mejorar la detección de anomalías, la correlación y la inteligencia de alertas * Reducir el ruido de alertas y mejorar la calidad de la señal * Integrar las salidas de AIOps en los flujos de trabajo operativos y la gestión de incidencias 6\. Automatización inteligente de incidencias * Automatizar los flujos de trabajo de detección y resolución de incidencias * Crear scripts de autorreparación y runbooks inteligentes * Reducir el tiempo medio hasta la detección (MTTD) y el tiempo medio hasta la resolución (MTTR) mediante automatización * Integrar información de análisis inteligente de causas raíz impulsada por IA en las herramientas operativas * Mejorar la prevención de incidencias recurrentes 7\. Confiabilidad en producción y excelencia SRE * Definir y gestionar indicadores de nivel de servicio (SLI), objetivos de nivel de servicio (SLO) y presupuestos de errores * Implementar sistemas de supervisión, paneles de control y alertas * Participar en turnos de guardia * Liderar la clasificación de incidencias y el análisis de causas raíz * Mejorar la resiliencia, escalabilidad y manejo de fallos * Implementar mecanismos de circuit breaker, límites de tasa y conmutación por error 8\. Seguridad y gobernanza * Implementar controles de acceso con privilegios mínimos * Gestionar secretos y rotación de credenciales * Hacer cumplir el aislamiento entre entornos * Garantizar la auditabilidad y el cumplimiento normativo de los sistemas de IA **Requisitos** Experiencia requerida * 5 o más años de experiencia en puestos de Ingeniería de Confiabilidad del Sitio (SRE), DevOps o Ingeniería de Plataformas * Amplia experiencia práctica con plataformas en la nube (AWS, Azure o GCP) * Experiencia demostrada con Kubernetes y cargas de trabajo contenerizadas * Experiencia con Infraestructura como Código (Terraform, CloudFormation, etc.) * Amplia experiencia en implementación de CI/CD (GitHub Actions, GitLab CI, Jenkins, etc.) * Experiencia en la construcción de pilas de observabilidad (Prometheus, Grafana, OpenTelemetry, ELK, Datadog, etc.) * Experiencia definiendo y gestionando SLI/SLO y presupuestos de errores * Experiencia práctica en respuesta a incidencias y soporte en producción * Excelentes habilidades de programación (Python, Bash o similares) Experiencia con plataformas de IA/ML (altamente deseable) * Experiencia implementando y gestionando servicios de IA/ML en producción * Conocimiento sobre empaquetado, versionado y gestión de artefactos de modelos * Comprensión de la gestión del ciclo de vida de modelos y flujos de reentrenamiento * Experiencia supervisando el rendimiento, la latencia y los costos de inferencia * Conocimiento de herramientas AIOps y sistemas inteligentes de alertas Habilidades adicionales * Profundo conocimiento de patrones de fiabilidad en sistemas distribuidos * Conocimiento de las mejores prácticas de seguridad en entornos nativos de la nube * Experiencia implementando estrategias de alta disponibilidad y recuperación ante desastres * Excelentes habilidades de resolución de problemas y análisis de causas raíz * Excelentes habilidades comunicativas y capacidad para colaborar entre equipos de ingeniería y de IA **Información adicional** Descubra algunos de los beneficios globales que empoderan a nuestros colaboradores para convertirse en su mejor versión: * **Finanzas:** Paquete salarial competitivo, plan de acciones, bonos por desempeño corporativo, reconocimientos basados en valor, bonos por referidos; * **Desarrollo profesional:** Asesoramiento profesional, oportunidades de carrera globales, trayectorias profesionales no lineales, programas internos de desarrollo para liderazgo técnico y gerencial; * **Oportunidades de aprendizaje:** Proyectos complejos, rotaciones, comunidades técnicas internas, formación, certificaciones, tutorías, suscripciones a plataformas de aprendizaje en línea, sesiones de transmisión de conocimientos, talleres y conferencias; * **Equilibrio entre vida laboral y personal:** Trabajo híbrido y horarios flexibles, programa de asistencia al empleado; * **Salud:** Programa global interno de bienestar, acceso a aplicaciones de bienestar; * **Comunidad:** Comunidades técnicas internacionales, clubes y grupos de interés, programas de inclusión y diversidad, eventos y celebraciones. En Endava, estamos comprometidos con la creación de un entorno abierto, inclusivo y respetuoso donde todos se sientan seguros, valorados y empoderados para ser lo mejor que pueden ser. Aceptamos candidaturas de personas de todos los orígenes, experiencias y perspectivas, porque sabemos que los equipos inclusivos nos ayudan a ofrecer soluciones más inteligentes e innovadoras a nuestros clientes. Las decisiones de contratación se basan en el mérito, las habilidades, las calificaciones y el potencial. Si necesita ajustes o apoyo durante el proceso de reclutamiento, no dude en hacérnoslo saber.

Fuentea: indeed Ver publicación original

Sofía González

Indeed · HR

Compañía