




Resumen: Buscamos un ingeniero DevOps altamente calificado para un puesto orientado al cliente, encargado de implementar, automatizar y optimizar plataformas de orquestación basadas en Kubernetes e infraestructura Linux para inteligencia artificial avanzada. Aspectos destacados: 1. Implementación práctica y optimización de plataformas basadas en Kubernetes 2. Aprovechamiento de una profunda experiencia en administración y automatización de Kubernetes 3. Apoyo a iniciativas avanzadas de inteligencia artificial e investigación Buscamos un ingeniero DevOps altamente calificado para unirse al equipo de entrega de EPAM. En este puesto orientado al cliente y centrado en la entrega, será responsable de la implementación práctica, la automatización y la optimización de plataformas de orquestación basadas en Kubernetes —incluido Volcano para cargas de trabajo habilitadas para GPU— y de la infraestructura Linux que respalda iniciativas avanzadas de inteligencia artificial e investigación. Aprovechará su profunda experiencia en administración de Kubernetes, programación de cargas de trabajo, gestión de cuotas de recursos y automatización mediante scripts en Python y Shell para ofrecer entornos informáticos eficientes, fiables y escalables. Trabajará estrechamente con otros ingenieros e investigadores para garantizar una experiencia de infraestructura fluida y de alta calidad. **Responsabilidades** * Configurar, ajustar y dar soporte a clústeres de Kubernetes habilitados para GPU y sistemas informáticos Linux independientes, con el fin de maximizar la programación de cargas de trabajo y la eficiencia del sistema * Supervisar la programación de trabajos mediante Volcano, gestionando la creación de colas, la administración de POD, la asignación de recursos GPU y los controles de cuota por espacio de nombres * Gestionar todos los aspectos de los entornos Kubernetes, incluidos los espacios de nombres, RBAC, cuotas de recursos y estrategias para el aislamiento de cargas de trabajo * Escribir y mantener scripts de automatización en Python y Shell para simplificar el envío de trabajos, la asignación de recursos y la supervisión del sistema * Colaborar con equipos especializados en orquestación, optimización y observabilidad para mejorar el rendimiento de la programación, el uso de recursos y la productividad de los investigadores * Supervisar el estado de la infraestructura y el consumo de recursos, compartiendo información y datos para impulsar la optimización y los informes * Proponer e implementar mejoras en la infraestructura, las herramientas y los procesos de automatización con el fin de incrementar la escalabilidad, el rendimiento y la experiencia del usuario * Apoyar los flujos de trabajo operativos que brinden a los investigadores un entorno fluido y eficaz para proyectos de inteligencia artificial y computacionales **Requisitos** * Mínimo de 2 años de experiencia en puestos de ingeniería DevOps o de infraestructura, gestionando sistemas complejos y de gran escala * Conocimientos profundos sobre administración y orquestación de Kubernetes, incluidos espacios de nombres, programación y equilibrio de POD, reclamaciones de volúmenes persistentes (PVC), sistemas de archivos de red (NFS) y controles de cuotas de recursos * Experiencia práctica con el programador Volcano para la gestión de trabajos GPU, incluida la configuración de colas, la priorización de cargas de trabajo y la integración con Kubernetes * Capacidad demostrada para operar entornos de clústeres GPU tanto en Kubernetes como en configuraciones Linux independientes para computación de alto rendimiento * Habilidades avanzadas en programación Python para automatizar operaciones de infraestructura, manejo de trabajos y supervisión del sistema * Competencia en programación de scripts UNIX Shell (como Bash) para automatizar tareas del sistema y mejorar los flujos de trabajo operativos * Amplia experiencia en administración de sistemas Linux, incluida la resolución de problemas, la optimización del rendimiento y la gestión de configuraciones * Comprensión exhaustiva de herramientas y conceptos de automatización y orquestación para respaldar una infraestructura escalable y fiable * Excelentes habilidades de comunicación en inglés, tanto oral como escrita, para interactuar directamente con clientes y colaborar con equipos multifuncionales **Deseable** * Experiencia con Helm para empaquetar y gestionar aplicaciones de Kubernetes * Conocimientos sobre herramientas de monitorización y observabilidad como Prometheus, Grafana y Loki para rastrear la salud y el rendimiento de la infraestructura * Familiaridad con soluciones de Infraestructura como Código (IaC), como Terraform, para automatizar el aprovisionamiento y la gestión de recursos en la nube * Experiencia previa trabajando con plataformas Kubernetes multi-nube, incluidas Amazon EKS y Google GKE, para ampliar las capacidades de orquestación * Conocimientos sobre redes de Azure, incluida la configuración de VPN, ExpressRoute y seguridad de red para despliegues robustos en la nube * Experiencia con asistentes de codificación impulsados por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) para mejorar la eficiencia del desarrollo y la calidad del código * Comprensión de la programación híbrida y la optimización de recursos entre entornos de nube y locales para soluciones informáticas flexibles


