




Resumen: Fortalecer un equipo de entrega orientado al cliente que opera pilas de cómputo basadas en Kubernetes y Linux para cargas de trabajo avanzadas de IA, automatizando operaciones y colaborando con investigadores. Aspectos destacados: 1. Entregar y dar soporte a clústeres de Kubernetes habilitados para GPU para cargas de trabajo de IA 2. Automatizar las operaciones diarias con Python y UNIX Shell 3. Gestionar la administración de Kubernetes para espacios de nombres, RBAC y cuotas Estamos fortaleciendo un equipo de entrega orientado al cliente que opera pilas de cómputo basadas en Kubernetes y Linux para cargas de trabajo avanzadas de IA, incluida la programación de GPU con Volcano. Automatizará las operaciones diarias con Python y UNIX Shell, gestionará espacios de nombres, RBAC y cuotas, y colaborará con investigadores para mantener plataformas rápidas y confiables; ¡postule ahora! **Responsabilidades** * Entregar y dar soporte a clústeres de Kubernetes habilitados para GPU, así como a entornos de cómputo Linux independientes con un comportamiento sólido de programación y alto rendimiento * Ejecutar operaciones de programación con Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas por espacio de nombres * Gestionar la administración de Kubernetes en espacios de nombres, RBAC, cuotas de recursos y estrategias de aislamiento de cargas de trabajo * Crear y mejorar scripts en Python y Shell que automatizan la presentación de trabajos, el aprovisionamiento de recursos y los informes del sistema * Colaborar con equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de recursos y los flujos de trabajo de los investigadores * Supervisar la salud de la infraestructura y la utilización de recursos, y aportar insumos para requisitos de optimización e informes * Proponer e impulsar mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para incrementar el rendimiento, la escalabilidad y la usabilidad * Apoyar los procesos operativos que garanticen una experiencia eficiente para los investigadores en cargas de trabajo de IA y computacionales **Requisitos** * Al menos 3 años de experiencia en roles de ingeniería de DevOps o infraestructura que respalden entornos complejos y de gran escala * Competencia experta en administración y orquestación de Kubernetes, incluida la gestión de espacios de nombres, programación y distribución de POD, reclamaciones de volúmenes persistentes (PVC), sistemas de archivos de red (NFS) y gestión de cuotas de recursos * Experiencia práctica con el programador Volcano para la ejecución de trabajos GPU, incluida la configuración de colas, la priorización de cargas de trabajo y la integración con Kubernetes * Experiencia comprobada en la gestión de entornos de clústeres GPU, tanto dentro de Kubernetes como en nodos de cómputo Linux independientes, para apoyar cargas de trabajo de computación de alto rendimiento * Habilidades avanzadas en scripting con Python para automatizar tareas de infraestructura, presentación de trabajos e informes del sistema * Competencia en scripting con UNIX Shell (por ejemplo, Bash) para la automatización del sistema y la eficiencia operativa * Sólidas habilidades en administración de sistemas Linux, incluidas la resolución de problemas, la optimización del rendimiento y la gestión de configuraciones para entornos de cómputo * Comprensión sólida de los conceptos y herramientas de automatización y orquestación de infraestructura para permitir operaciones escalables y confiables * Dominio fluido del inglés (hablado y escrito) para interactuar directamente con clientes y colaborar con equipos multifuncionales **Deseable** * Experiencia con la gestión de paquetes Helm para implementar y gestionar aplicaciones de Kubernetes * Familiaridad con soluciones de monitoreo y observabilidad, especialmente Prometheus, Grafana y Loki, para supervisar la salud y el rendimiento de la infraestructura * Experiencia práctica con herramientas de Infraestructura como Código (IaC), como Terraform, para el aprovisionamiento y la gestión automatizados de recursos en la nube * Exposición a entornos de Kubernetes multi-nube, incluidos Amazon EKS y Google GKE, para ampliar la experiencia en orquestación * Conocimientos de redes de Azure, incluida la configuración de VPN, la instalación de ExpressRoute y la gestión de seguridad de redes, para respaldar despliegues en la nube seguros y escalables * Familiaridad con herramientas de programación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) para mejorar la productividad del desarrollo y la calidad del código * Experiencia en programación híbrida (nube y local) y optimización de recursos para respaldar entornos de cómputo flexibles y eficientes


