




Resumen: Buscamos un ingeniero experimentado de DevOps/infraestructura para gestionar y automatizar clústeres de Kubernetes habilitados para GPU y entornos de cómputo Linux para investigación en IA, centrándonos en el rendimiento y la fiabilidad. Aspectos destacados: 1. Operar y ajustar infraestructura de Kubernetes y Linux intensiva en GPU para investigación en IA 2. Automatizar flujos de trabajo con Python y Bash para mejorar la fiabilidad y la capacidad 3. Gestionar Volcano para programación compleja en la ejecución de trabajos GPU Estamos implementando orquestación automatizada de Kubernetes e infraestructura Linux que impulsa investigaciones de IA intensivas en GPU, con Volcano encargado de la programación compleja. Usted gestionará operaciones de Kubernetes (espacios de nombres, RBAC, cuotas), ajustará nodos de cómputo Linux y desarrollará automatización en Python y Bash para mejorar la fiabilidad y el uso eficiente de la capacidad; ¡postule ahora! **Responsabilidades** * Operar clústeres de Kubernetes habilitados para GPU y entornos de cómputo Linux independientes para garantizar una programación eficiente y un rendimiento constante * Configurar y gestionar la programación de trabajos con Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas por espacio de nombres * Mantener plataformas de Kubernetes de extremo a extremo, cubriendo espacios de nombres, RBAC, cuotas de recursos y estrategias de aislamiento de cargas de trabajo * Automatizar flujos de trabajo recurrentes con scripts en Python y Shell para la presentación de trabajos, el aprovisionamiento de recursos y los informes del sistema * Coordinarse con los equipos de orquestación, optimización y observabilidad para perfeccionar la eficiencia de la programación, la utilización y los flujos de trabajo de los investigadores * Supervisar la salud de la infraestructura y la utilización de recursos, y proporcionar retroalimentación para requisitos de optimización e informes * Recomendar actualizaciones de infraestructura, herramientas y flujos de trabajo de automatización para incrementar el rendimiento, la escalabilidad y la usabilidad * Mantener procesos operativos que permitan una experiencia fluida para los investigadores en cargas de trabajo de IA y computacionales **Requisitos** * Al menos 3 años de experiencia en puestos de ingeniería de DevOps o infraestructura que respalden entornos complejos y de gran escala * Conocimientos expertos en administración y orquestación de Kubernetes, incluida la gestión de espacios de nombres, programación y distribución de POD, reclamaciones de volúmenes persistentes (PVC), sistemas de archivos en red (NFS) y gestión de cuotas de recursos * Experiencia práctica con el programador Volcano para la ejecución de trabajos GPU, incluida la configuración de colas, la priorización de cargas de trabajo y la integración con Kubernetes * Experiencia comprobada gestionando entornos de clústeres GPU, tanto dentro de Kubernetes como en nodos de cómputo Linux independientes, para soportar cargas de trabajo de computación de alto rendimiento * Habilidades avanzadas en scripting con Python para automatizar tareas de infraestructura, presentación de trabajos e informes del sistema * Competencia en scripting con UNIX Shell (por ejemplo, Bash) para la automatización del sistema y la eficiencia operativa * Sólidas habilidades en administración de sistemas Linux, incluidas la resolución de problemas, la optimización del rendimiento y la gestión de la configuración para entornos de cómputo * Comprensión sólida de los conceptos y herramientas de automatización y orquestación de infraestructura para permitir operaciones escalables y fiables * Fluidez en inglés (hablado y escrito) para la interacción directa con clientes y la colaboración con equipos multifuncionales **Deseable** * Experiencia con la gestión de paquetes Helm para implementar y gestionar aplicaciones de Kubernetes * Familiaridad con soluciones de monitoreo y observabilidad, particularmente Prometheus, Grafana y Loki, para el seguimiento de la salud y el rendimiento de la infraestructura * Experiencia práctica con herramientas de Infraestructura como Código (IaC), tales como Terraform, para el aprovisionamiento y la gestión automatizados de recursos en la nube * Experiencia con entornos de Kubernetes multi-nube, incluidos Amazon EKS y Google GKE, para ampliar la experiencia en orquestación * Habilidades en redes de Azure, incluida la configuración de VPN, la instalación de ExpressRoute y la gestión de seguridad de redes, para respaldar despliegues en la nube seguros y escalables * Familiaridad con herramientas de codificación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) para mejorar la productividad del desarrollo y la calidad del código * Experiencia en programación y optimización de recursos híbridos (nube y locales) para respaldar entornos de cómputo flexibles y eficientes


