




Resumen: Buscamos un Ingeniero DevOps Intermedio para entregar automatización de Kubernetes y Linux para plataformas con GPU que respalden cargas de trabajo avanzadas de IA e investigación, dentro de un equipo orientado al cliente. Aspectos destacados: 1. Entregar automatización de Kubernetes y Linux para plataformas con GPU 2. Apoyar cargas de trabajo avanzadas de IA e investigación 3. Desarrollar herramientas basadas en scripts de Python y shell UNIX Buscamos un Ingeniero DevOps Intermedio para entregar automatización de Kubernetes y Linux para plataformas con GPU que respalden cargas de trabajo avanzadas de IA e investigación. Usted ejecutará la programación con Volcano, gestionará cuotas y aislamiento, y desarrollará herramientas basadas en scripts de Python y shell UNIX para optimizar las operaciones dentro de un equipo orientado al cliente. ¡Postúlese hoy mismo para ayudar a escalar entornos informáticos confiables! **Responsabilidades** * Configurar y dar soporte a clústeres de Kubernetes con GPU y sistemas informáticos Linux independientes para mejorar la programación de cargas de trabajo y la eficiencia general * Coordinar la programación de trabajos mediante Volcano gestionando colas, PODs, asignaciones de GPU y controles de cuota por espacio de nombres * Administrar los fundamentos de Kubernetes, incluidos espacios de nombres, RBAC, cuotas de recursos y estrategias de aislamiento de cargas de trabajo * Crear y mantener scripts en Python y shell para automatizar la presentación de trabajos, la asignación de recursos y las actividades de supervisión * Coordinarse con equipos de orquestación, optimización y observabilidad para mejorar el rendimiento de la programación, la utilización y la productividad de los investigadores * Medir el estado de la infraestructura y el consumo de recursos, y proporcionar datos para informes y decisiones de optimización * Implementar mejoras en la infraestructura, las herramientas y los procesos de automatización para incrementar la escalabilidad, el rendimiento y la satisfacción del usuario * Brindar soporte operativo que garantice a los investigadores un entorno fluido para trabajos de IA y computacionales **Requisitos** * 2\+ años de experiencia en puestos de DevOps o ingeniería de infraestructura gestionando sistemas complejos y de gran escala * Conocimientos profundos en administración de Kubernetes, abarcando espacios de nombres, programación y equilibrio de PODs, PVC, NFS y controles de cuota de recursos * Experiencia con Volcano para la programación de trabajos con GPU, incluida la configuración de colas, la priorización y la integración con Kubernetes * Historial comprobado gestionando entornos de clústeres con GPU tanto en Kubernetes como en Linux independiente para computación de alto rendimiento * Capacidad avanzada de programación en Python para automatización de infraestructura, manejo de trabajos y supervisión de sistemas * Competencia en programación de scripts UNIX (incluido Bash) para automatizar tareas y mejorar los flujos de trabajo operativos * Amplios conocimientos en administración de sistemas Linux para resolución de problemas, optimización del rendimiento y gestión de configuraciones * Comprensión sólida de herramientas y prácticas de automatización y orquestación para apoyar una infraestructura escalable y fiable * Excelentes habilidades de comunicación en inglés (hablado y escrito) para trabajo con clientes y colaboración con equipos multifuncionales **Deseable** * Conocimientos de Helm para gestionar empaquetado y configuración de aplicaciones en Kubernetes * Experiencia con Prometheus, Grafana y Loki para supervisión y observabilidad * Familiaridad con Terraform para aprovisionamiento y gestión de infraestructura como código * Experiencia con Amazon EKS y Google GKE para orquestación de Kubernetes multi-nube * Experiencia con redes de Azure, incluidas VPN, ExpressRoute y prácticas de seguridad de red * Experiencia utilizando GitHub Copilot, ChatGPT o Claude para mejorar la eficiencia del desarrollo y la calidad del código * Comprensión de la programación híbrida y la optimización de recursos entre plataformas en la nube y locales


