




Resumen: Buscamos un ingeniero experimentado de DevOps/infraestructura para gestionar y optimizar la infraestructura informática Kubernetes y Linux habilitada para GPU destinada a iniciativas de inteligencia artificial, automatizar flujos de trabajo y garantizar un alto rendimiento. Aspectos destacados: 1. Gestionar infraestructura informática Kubernetes y Linux habilitada para GPU para inteligencia artificial 2. Automatizar flujos de trabajo con Python y scripting en shell UNIX 3. Apoyar cargas de trabajo de inteligencia artificial y computacionales de vanguardia Estamos apoyando la entrega al cliente ejecutando infraestructura informática Kubernetes y Linux habilitada para GPU, optimizada para iniciativas de inteligencia artificial y programación impulsada por Volcano. Implementará automatización en Python y shell UNIX, administrará recursos Kubernetes como reclamaciones de volúmenes persistentes (PVC), sistemas de archivos de red (NFS) y cuotas, y colaborará con investigadores para agilizar los flujos de trabajo; ¡postule ahora! **Responsabilidades** * Configurar y mantener clústeres Kubernetes habilitados para GPU junto con entornos informáticos Linux independientes, con programación estable y alto rendimiento * Gestionar flujos de trabajo de programación con Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas por espacio de nombres * Controlar la administración de Kubernetes en espacios de nombres, RBAC, cuotas de recursos y estrategias de aislamiento de cargas de trabajo * Desarrollar y soportar scripts en Python y shell que automatizan el envío de trabajos, el aprovisionamiento de recursos y los informes del sistema * Colaborar con los equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de recursos y los flujos de trabajo de los investigadores * Evaluar la salud de la infraestructura y la utilización de recursos, y aportar datos para requisitos de optimización e informes * Proponer recomendaciones para mejorar la infraestructura, las herramientas y los flujos de trabajo de automatización con el fin de potenciar el rendimiento, la escalabilidad y la usabilidad * Apoyar los procesos operativos que garanticen experiencias fluidas para los investigadores en cargas de trabajo de inteligencia artificial y computacionales **Requisitos** * Al menos 3 años de experiencia en puestos de ingeniería de DevOps o infraestructura que respalden entornos complejos y de gran escala * Competencia experta en administración y orquestación de Kubernetes, incluida la gestión de espacios de nombres, programación y distribución de POD, reclamaciones de volúmenes persistentes (PVC), sistemas de archivos de red (NFS) y gestión de cuotas de recursos * Experiencia práctica con el programador Volcano para la ejecución de trabajos GPU, incluida la configuración de colas, la priorización de cargas de trabajo y la integración con Kubernetes * Experiencia comprobada gestionando entornos de clústeres GPU, tanto dentro de Kubernetes como en nodos informáticos Linux independientes, para soportar cargas de trabajo de computación de alto rendimiento * Habilidades avanzadas de scripting en Python para automatizar tareas de infraestructura, envío de trabajos e informes del sistema * Competencia en scripting en shell UNIX (por ejemplo, Bash) para la automatización del sistema y la eficiencia operativa * Sólidas habilidades de administración de sistemas Linux, incluidas la solución de problemas, la optimización del rendimiento y la gestión de configuraciones para entornos informáticos * Conocimientos sólidos sobre conceptos y herramientas de automatización y orquestación de infraestructura para permitir operaciones escalables y fiables * Dominio fluido del inglés (hablado y escrito) para interactuar directamente con clientes y colaborar con equipos multifuncionales **Deseable** * Experiencia con la gestión de paquetes Helm para implementar y gestionar aplicaciones Kubernetes * Familiaridad con soluciones de monitorización y observabilidad, especialmente Prometheus, Grafana y Loki, para el seguimiento de la salud y el rendimiento de la infraestructura * Experiencia práctica con herramientas de Infraestructura como Código (IaC), tales como Terraform, para el aprovisionamiento y la gestión automatizados de recursos en la nube * Experiencia en entornos Kubernetes multi-nube, incluidos Amazon EKS y Google GKE, para ampliar la experiencia en orquestación * Habilidades en redes de Azure, incluida la configuración de VPN, la instalación de ExpressRoute y la gestión de seguridad de redes, para apoyar despliegues en la nube seguros y escalables * Familiaridad con herramientas de codificación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) para mejorar la productividad del desarrollo y la calidad del código * Experiencia en programación y optimización de recursos híbridos (nube y locales) para apoyar entornos informáticos flexibles y eficientes


