




Resumen: Buscamos un Ingeniero de Infraestructura para apoyar infraestructuras informáticas basadas en GPU y Linux con Kubernetes, destinadas a iniciativas de IA, centrándonos en la automatización, la administración y la optimización de flujos de trabajo. Aspectos destacados: 1. Apoyar iniciativas de IA de vanguardia con infraestructura informática optimizada 2. Impulsar la automatización y mejorar la eficiencia de la programación 3. Colaborar con investigadores para agilizar los flujos de trabajo Brindamos soporte a la entrega al cliente mediante la operación de infraestructuras informáticas basadas en GPU y Linux con Kubernetes, optimizadas para iniciativas de IA y programación impulsada por Volcano. Implementará automatización en Python y Shell de UNIX, administrará recursos de Kubernetes como reclamaciones de volúmenes persistentes (PVC), sistemas de archivos de red (NFS) y cuotas de recursos, y colaborará con investigadores para agilizar los flujos de trabajo; ¡postule ahora! **Responsabilidades** * Configurar y mantener clústeres de Kubernetes habilitados para GPU junto con entornos informáticos Linux independientes, garantizando una programación estable y un alto rendimiento * Gestionar flujos de trabajo de programación con Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas por espacio de nombres * Controlar la administración de Kubernetes a través de espacios de nombres, RBAC, cuotas de recursos y estrategias de aislamiento de cargas de trabajo * Desarrollar y mantener scripts en Python y Shell que automatizan el envío de trabajos, el aprovisionamiento de recursos y los informes del sistema * Colaborar con equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de recursos y los flujos de trabajo de los investigadores * Evaluar la salud de la infraestructura y la utilización de recursos, y aportar datos para requisitos de optimización e informes * Proponer recomendaciones para mejorar la infraestructura, las herramientas y los flujos de trabajo de automatización, con el fin de potenciar el rendimiento, la escalabilidad y la usabilidad * Apoyar los procesos operativos que garanticen experiencias fluidas para los investigadores en cargas de trabajo de IA y computacionales **Requisitos** * Al menos 3 años de experiencia en roles de ingeniería de DevOps o infraestructura, apoyando entornos complejos y de gran escala * Conocimientos expertos en administración y orquestación de Kubernetes, incluida la gestión de espacios de nombres, programación y distribución de POD, reclamaciones de volúmenes persistentes (PVC), sistemas de archivos de red (NFS) y gestión de cuotas de recursos * Experiencia práctica con el programador Volcano para la ejecución de trabajos en GPU, incluida la configuración de colas, la priorización de cargas de trabajo y la integración con Kubernetes * Experiencia comprobada en la gestión de entornos de clústeres GPU, tanto dentro de Kubernetes como en nodos informáticos Linux independientes, para apoyar cargas de trabajo de computación de alto rendimiento * Habilidades avanzadas en scripting con Python para automatizar tareas de infraestructura, envío de trabajos e informes del sistema * Competencia en scripting con Shell de UNIX (por ejemplo, Bash) para la automatización del sistema y la eficiencia operativa * Sólidas habilidades en administración de sistemas Linux, incluidas la solución de problemas, la optimización del rendimiento y la gestión de la configuración en entornos informáticos * Comprensión sólida de los conceptos y herramientas de automatización y orquestación de infraestructura, para permitir operaciones escalables y confiables * Dominio fluido del inglés (hablado y escrito) para interactuar directamente con clientes y colaborar con equipos multifuncionales **Deseable** * Experiencia con la gestión de paquetes Helm para implementar y gestionar aplicaciones de Kubernetes * Familiaridad con soluciones de monitorización y observabilidad, especialmente Prometheus, Grafana y Loki, para el seguimiento de la salud y el rendimiento de la infraestructura * Experiencia práctica con herramientas de Infraestructura como Código (IaC), como Terraform, para el aprovisionamiento y la gestión automatizados de recursos en la nube * Experiencia con entornos de Kubernetes multi-nube, incluidos Amazon EKS y Google GKE, para ampliar la experiencia en orquestación * Conocimientos de redes de Azure, incluida la configuración de VPN, la instalación de ExpressRoute y la gestión de la seguridad de redes, para respaldar despliegues en la nube seguros y escalables * Familiaridad con herramientas de codificación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) para mejorar la productividad del desarrollo y la calidad del código * Experiencia en programación y optimización de recursos híbridos (nube y locales) para apoyar entornos informáticos flexibles y eficientes


