




Resumen: Buscamos un Ingeniero DevOps intermedio para gestionar la orquestación de GPU de Kubernetes y mantener plataformas informáticas Linux estables para equipos de inteligencia artificial e investigación. Puntos destacados: 1. Ejecutar la orquestación de GPU de Kubernetes con Volcano para equipos de inteligencia artificial e investigación 2. Automatizar operaciones con Python y scripting de shell UNIX 3. Construir una infraestructura informática eficiente y fiable Estamos contratando a un Ingeniero DevOps intermedio para ejecutar la orquestación de GPU de Kubernetes con Volcano y mantener estables las plataformas informáticas Linux para equipos de inteligencia artificial e investigación. Automatizará las operaciones diarias con Python y scripting de shell UNIX, ajustará la programación y las cuotas, y trabajará en un entorno de entrega orientado al cliente. ¡Postúlese ahora para ayudar a construir una infraestructura informática eficiente y fiable! **Responsabilidades** * Provisionar y dar soporte a clústeres de Kubernetes con capacidad para GPU, así como a nodos informáticos Linux independientes, para maximizar la eficacia de la programación y el rendimiento del sistema * Operar la programación de Volcano configurando colas, controlando el ciclo de vida de los POD, asignando recursos GPU y aplicando controles de cuota por espacio de nombres * Mantener entornos de Kubernetes gestionando espacios de nombres, RBAC, cuotas de recursos y mecanismos de aislamiento de cargas de trabajo * Automatizar flujos de trabajo operativos escribiendo y actualizando scripts en Python y Shell para envío de trabajos, asignación de recursos y supervisión * Colaborar con equipos de orquestación, optimización y observabilidad para mejorar el rendimiento de la programación, la utilización y los resultados de los investigadores * Analizar y reportar sobre la salud de la infraestructura y el uso de recursos para impulsar la optimización continua * Implementar actualizaciones de infraestructura, herramientas y automatización para mejorar la escalabilidad, el rendimiento y la experiencia del usuario * Asistir en los procesos operativos que garanticen a los investigadores un entorno eficaz para proyectos de inteligencia artificial y computacionales **Requisitos** * Experiencia práctica de 2+ años en DevOps o ingeniería de infraestructura para entornos complejos y de gran escala * Conocimientos sólidos sobre operaciones de Kubernetes, incluidos espacios de nombres, colocación y equilibrio de POD, PVC, NFS y gestión de cuotas de recursos * Experiencia práctica operando Volcano para cargas de trabajo GPU, incluida la creación de colas, manejo de prioridades e integración con Kubernetes * Experiencia demostrada gestionando clústeres GPU tanto en entornos Kubernetes como en configuraciones Linux independientes utilizadas para computación de alto rendimiento * Capacidad avanzada en scripting Python para automatizar tareas de infraestructura, procesamiento de trabajos y flujos de trabajo de supervisión * Dominio sólido del scripting de shell UNIX (Bash o similar) para automatizar rutinas del sistema y mejorar las operaciones * Habilidades sólidas en administración de Linux, con experiencia en resolución de problemas, ajuste de rendimiento y gestión de configuración * Comprensión profunda de los conceptos y herramientas de automatización y orquestación para infraestructuras fiables y escalables * Excelentes habilidades de comunicación en inglés (hablado y escrito) para interactuar directamente con clientes y equipos multifuncionales **Deseable** * Experiencia con Helm para empaquetado y lanzamiento de aplicaciones en Kubernetes * Conocimientos de observabilidad con Prometheus, Grafana y Loki para supervisión de infraestructura * Familiaridad con Terraform para Infraestructura como Código y automatización de recursos en la nube * Experiencia con Amazon EKS y Google GKE en entornos Kubernetes multi-nube * Habilidades en redes de Azure, incluidas VPN, ExpressRoute y seguridad de red * Uso de asistentes de codificación de IA, como GitHub Copilot, ChatGPT y Claude, para mejorar la calidad y productividad del código * Conocimientos sobre programación híbrida y optimización entre computación en la nube y local


