




Resumen: Buscamos un ingeniero experimentado de DevOps/infraestructura para fortalecer un equipo de entrega orientado al cliente que opera pilas de cómputo basadas en Kubernetes y Linux para cargas de trabajo avanzadas de IA, automatiza operaciones con Python/UNIX Shell y colabora con investigadores. Puntos destacados: 1. Fortalecer el equipo orientado al cliente para cargas de trabajo avanzadas de IA 2. Automatizar operaciones con Python y UNIX Shell 3. Colaborar con investigadores para optimizar plataformas Estamos fortaleciendo un equipo de entrega orientado al cliente que opera pilas de cómputo basadas en Kubernetes y Linux para cargas de trabajo avanzadas de IA, incluida la programación de GPU con Volcano. Usted automatizará las operaciones diarias con Python y UNIX Shell, gestionará espacios de nombres, RBAC y cuotas, y colaborará con investigadores para mantener plataformas rápidas y fiables; ¡postúlese ahora! **Responsabilidades** * Entregar y dar soporte a clústeres de Kubernetes habilitados para GPU, así como a entornos independientes de cómputo Linux, con comportamiento sólido de programación y alto rendimiento * Ejecutar operaciones de programación con Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas por espacio de nombres * Gestionar la administración de Kubernetes en todos los espacios de nombres, RBAC, cuotas de recursos y estrategias de aislamiento de cargas de trabajo * Crear y mejorar scripts en Python y Shell que automatizan la presentación de trabajos, el aprovisionamiento de recursos y la generación de informes del sistema * Colaborar con equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de recursos y los flujos de trabajo de los investigadores * Supervisar la salud de la infraestructura y la utilización de recursos, y aportar insumos para requisitos de optimización e informes * Proponer e impulsar mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para incrementar el rendimiento, la escalabilidad y la usabilidad * Apoyar los procesos operativos que garanticen una experiencia eficiente para los investigadores en cargas de trabajo de IA y computacionales **Requisitos** * Al menos 3 años de experiencia en roles de ingeniería de DevOps o infraestructura que respalden entornos complejos y de gran escala * Competencia experta en administración y orquestación de Kubernetes, incluida la gestión de espacios de nombres, programación y distribución de POD, reclamaciones de volúmenes persistentes (PVC), sistemas de archivos en red (NFS) y gestión de cuotas de recursos * Experiencia práctica con el programador Volcano para la ejecución de trabajos en GPU, incluida la configuración de colas, la priorización de cargas de trabajo y la integración con Kubernetes * Experiencia comprobada en la gestión de entornos de clústeres de GPU, tanto dentro de Kubernetes como en nodos independientes de cómputo Linux, para apoyar cargas de trabajo de computación de alto rendimiento * Habilidades avanzadas de programación en Python para la automatización de tareas de infraestructura, presentación de trabajos e informes del sistema * Competencia en programación de scripts en UNIX Shell (por ejemplo, Bash) para la automatización del sistema y la eficiencia operativa * Sólidas habilidades de administración de sistemas Linux, incluidas la solución de problemas, la optimización del rendimiento y la gestión de la configuración para entornos de cómputo * Comprensión sólida de los conceptos y herramientas de automatización y orquestación de infraestructura para permitir operaciones escalables y fiables * Dominio fluido del inglés (hablado y escrito) para la interacción directa con clientes y la colaboración con equipos multifuncionales **Deseable** * Experiencia con la gestión de paquetes Helm para implementar y gestionar aplicaciones de Kubernetes * Familiaridad con soluciones de monitorización y observabilidad, especialmente Prometheus, Grafana y Loki, para el seguimiento de la salud y el rendimiento de la infraestructura * Experiencia práctica con herramientas de Infraestructura como Código (IaC), tales como Terraform, para el aprovisionamiento y la gestión automatizados de recursos en la nube * Experiencia con entornos de Kubernetes multi-nube, incluidos Amazon EKS y Google GKE, para ampliar la experiencia en orquestación * Conocimientos de redes de Azure, incluida la configuración de VPN, la instalación de ExpressRoute y la gestión de seguridad de redes, para respaldar despliegues en la nube seguros y escalables * Familiaridad con herramientas de programación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) para mejorar la productividad del desarrollo y la calidad del código * Experiencia en programación y optimización de recursos híbridos (nube y locales) para respaldar entornos de cómputo flexibles y eficientes


