




Resumen: Únase a nuestro equipo de entrega como Ingeniero Senior de DevOps para automatizar, escalar y optimizar plataformas robustas de Kubernetes y Linux listas para GPU destinadas a cargas de trabajo de inteligencia artificial e investigación. Aspectos destacados: 1. Construir plataformas robustas de Kubernetes y Linux listas para GPU destinadas a inteligencia artificial e investigación 2. Automatizar, escalar y optimizar la orquestación con Python y Bash 3. Administración avanzada de Kubernetes con programación mediante Volcano Estamos construyendo plataformas robustas de Kubernetes y Linux listas para GPU y necesitamos un Ingeniero Senior de DevOps para automatizar, escalar y optimizar la orquestación. Usted realizará la administración completa de Kubernetes con programación mediante Volcano, cuotas y aislamiento, mientras automatiza con Python y Bash para cargas de trabajo de inteligencia artificial e investigación. Únase a nuestro equipo de entrega y postúlese hoy mismo **Responsabilidades** * Implementar, configurar y mantener clústeres de Kubernetes habilitados para GPU y entornos informáticos Linux independientes para garantizar una programación y rendimiento óptimos * Implementar y operar la programación de trabajos mediante Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas de espacio de nombres * Administrar Kubernetes de extremo a extremo, cubriendo espacios de nombres, RBAC, cuotas de recursos y estrategias de aislamiento de cargas de trabajo * Desarrollar y mantener automatizaciones en Python y Shell para simplificar la presentación de trabajos, el aprovisionamiento de recursos y los informes del sistema * Colaborar con equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de capacidad y los flujos de trabajo de los investigadores * Supervisar la salud de la infraestructura y el uso de recursos, proporcionando datos y retroalimentación para requisitos de optimización e informes * Identificar y proponer mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para incrementar el rendimiento, la escalabilidad y la usabilidad * Asegurar que los procesos operativos ofrezcan a los investigadores una experiencia fluida y eficiente en diversas cargas de trabajo de inteligencia artificial y computacionales **Requisitos** * Al menos 3 años de experiencia en DevOps o ingeniería de infraestructura en entornos complejos y de gran escala * Competencias avanzadas en administración de Kubernetes, incluidos espacios de nombres, programación/distribución de POD, PVC, NFS y gestión de cuotas de recursos * Experiencia práctica con el programador Volcano para la ejecución de trabajos GPU, incluida la configuración de colas y la priorización de cargas de trabajo con integración en Kubernetes * Capacidad demostrada para operar entornos de clústeres GPU en Kubernetes, así como en nodos informáticos Linux independientes * Conocimientos avanzados de scripting en Python para automatización de infraestructura, además de habilidades en scripting UNIX Shell como Bash * Amplia experiencia en administración de sistemas Linux, incluida la resolución de problemas, ajuste de rendimiento y gestión de configuraciones * Comprensión sólida de los conceptos y herramientas de automatización y orquestación de infraestructura * Dominio fluido del inglés (hablado y escrito) para interacción directa con clientes **Deseable** * Conocimientos sobre la gestión de paquetes Helm para aplicaciones de Kubernetes * Familiaridad con soluciones de monitorización y observabilidad, especialmente Prometheus, Grafana y Loki * Competencias en herramientas de Infraestructura como Código (IaC), como Terraform * Experiencia en entornos de Kubernetes multi-nube, incluidos Amazon EKS y Google GKE * Conocimientos sobre redes de Azure, incluidas VPN, ExpressRoute y seguridad de red * Familiaridad con herramientas de programación asistida por IA, como GitHub Copilot, ChatGPT y Claude * Experiencia en programación y optimización de recursos híbridos (nube y locales)


