




Resumen: Fortalecer un equipo de entrega orientado al cliente que opera pilas informáticas basadas en Kubernetes y Linux para cargas de trabajo avanzadas de IA, automatizando operaciones con Python y UNIX Shell, y colaborando con investigadores. Aspectos destacados: 1. Entregar y dar soporte a clústeres de Kubernetes habilitados para GPU para cargas de trabajo de IA 2. Automatizar las operaciones diarias con Python y UNIX Shell 3. Colaborar con investigadores para mantener plataformas rápidas y fiables Estamos fortaleciendo un equipo de entrega orientado al cliente que opera pilas informáticas basadas en Kubernetes y Linux para cargas de trabajo avanzadas de IA, incluida la programación de GPU con Volcano. Usted automatizará las operaciones diarias con Python y UNIX Shell, gestionará espacios de nombres, RBAC y cuotas, y colaborará con investigadores para mantener plataformas rápidas y fiables; ¡postule ahora! **Responsabilidades** * Entregar y dar soporte a clústeres de Kubernetes habilitados para GPU, así como a entornos informáticos Linux independientes, con un comportamiento sólido de programación y alto rendimiento * Ejecutar operaciones de programación con Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas por espacio de nombres * Gestionar la administración de Kubernetes en todos los espacios de nombres, RBAC, cuotas de recursos y estrategias de aislamiento de cargas de trabajo * Crear y perfeccionar scripts en Python y Shell que automatizan la presentación de trabajos, el aprovisionamiento de recursos y la generación de informes del sistema * Colaborar con equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de recursos y los flujos de trabajo de los investigadores * Supervisar la salud de la infraestructura y la utilización de recursos, y aportar insumos para requisitos de optimización e informes * Proponer e impulsar mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para elevar el rendimiento, la escalabilidad y la usabilidad * Apoyar los procesos operativos que garanticen una experiencia eficiente para los investigadores en cargas de trabajo de IA y computacionales **Requisitos** * Al menos 3 años de experiencia en puestos de DevOps o ingeniería de infraestructura que respalden entornos complejos y de gran escala * Competencia experta en administración y orquestación de Kubernetes, incluida la gestión de espacios de nombres, la programación y distribución de POD, las solicitudes de volúmenes persistentes (PVC), los sistemas de archivos en red (NFS) y la gestión de cuotas de recursos * Experiencia práctica con el programador Volcano para la ejecución de trabajos en GPU, incluida la configuración de colas, la priorización de cargas de trabajo y su integración con Kubernetes * Experiencia comprobada en la gestión de entornos de clústeres GPU, tanto dentro de Kubernetes como en nodos informáticos Linux independientes, para soportar cargas de trabajo de computación de alto rendimiento * Habilidades avanzadas en scripting con Python para la automatización de tareas de infraestructura, la presentación de trabajos y la generación de informes del sistema * Competencia en scripting con UNIX Shell (por ejemplo, Bash) para la automatización del sistema y la eficiencia operativa * Sólidas habilidades en administración de sistemas Linux, incluida la solución de problemas, la optimización del rendimiento y la gestión de la configuración de entornos informáticos * Comprensión sólida de los conceptos y herramientas de automatización y orquestación de infraestructura para permitir operaciones escalables y fiables * Dominio fluido del inglés (hablado y escrito) para la interacción directa con clientes y la colaboración con equipos multifuncionales **Deseable** * Experiencia con la gestión de paquetes Helm para implementar y gestionar aplicaciones de Kubernetes * Familiaridad con soluciones de monitorización y observabilidad, especialmente Prometheus, Grafana y Loki, para el seguimiento de la salud y el rendimiento de la infraestructura * Experiencia práctica con herramientas de Infraestructura como Código (IaC), como Terraform, para el aprovisionamiento y la gestión automatizados de recursos en la nube * Exposición a entornos de Kubernetes multi-nube, incluidos Amazon EKS y Google GKE, para ampliar la experiencia en orquestación * Conocimientos de redes de Azure, incluida la configuración de VPN, la instalación de ExpressRoute y la gestión de seguridad de redes, para apoyar despliegues en la nube seguros y escalables * Familiaridad con herramientas de codificación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) para mejorar la productividad del desarrollo y la calidad del código * Experiencia en programación y optimización de recursos híbridos (nube y locales) para apoyar entornos informáticos flexibles y eficientes


