




Resumen: Como Ingeniero Senior de DevOps, operará entornos de Kubernetes y Linux, ejecutará la programación Volcano y automatizará flujos de trabajo para ofrecer recursos computacionales eficientes a escala para cargas de trabajo de inteligencia artificial e investigación. Aspectos destacados: 1. Construcción de plataformas escalables de Kubernetes listas para GPU destinadas a cargas de trabajo de inteligencia artificial e investigación 2. Administración integral de Kubernetes, incluidos espacios de nombres, control de acceso basado en roles (RBAC) y cuotas 3. Automatización de flujos de trabajo mediante Python y scripts de shell UNIX en entornos de configuración orientados al cliente Estamos construyendo plataformas escalables de Kubernetes listas para GPU destinadas a cargas de trabajo de inteligencia artificial e investigación, centrándonos en la orquestación fiable y el rendimiento. Como Ingeniero Senior de DevOps, operará entornos informáticos de Kubernetes y Linux, ejecutará la programación Volcano y automatizará flujos de trabajo con Python y scripts de shell UNIX en un entorno de entrega orientado al cliente. ¡Postúlese ahora para ayudar a ofrecer recursos computacionales eficientes a escala! **Responsabilidades** * Implementación, configuración y mantenimiento de clústeres de Kubernetes habilitados para GPU y entornos informáticos Linux independientes, con el fin de maximizar la eficiencia y el rendimiento de la programación * Implementación y operación de la programación de trabajos Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas por espacio de nombres * Administración integral de Kubernetes, que abarca espacios de nombres, control de acceso basado en roles (RBAC), cuotas de recursos y enfoques de aislamiento de cargas de trabajo * Creación y mantenimiento de automatizaciones en Python y Shell para simplificar la presentación de trabajos, el aprovisionamiento de recursos y los informes del sistema * Colaboración con equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de la capacidad y los flujos de trabajo de los investigadores * Supervisión de la salud de la plataforma y la utilización de los recursos, compartiendo datos y comentarios para apoyar las necesidades de optimización e informes * Propuesta e impulso de mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para incrementar el rendimiento, la escalabilidad y la usabilidad * Garantía de que las operaciones ofrezcan una experiencia fluida y eficiente a los investigadores en diversos tipos de cargas de trabajo de inteligencia artificial y computacionales **Requisitos** * Experiencia mínima de 3 años en puestos de DevOps o ingeniería de infraestructura dentro de entornos complejos y de gran escala * Conocimientos expertos en la administración de Kubernetes, incluidos espacios de nombres, programación/distribución de POD, volúmenes persistentes (PVC), NFS y gestión de cuotas de recursos * Experiencia práctica con el programador Volcano para la ejecución de trabajos GPU, configuración de colas, priorización de cargas de trabajo e integración con Kubernetes * Experiencia demostrable en la ejecución de entornos de clústeres GPU sobre Kubernetes y en nodos informáticos Linux independientes * Habilidades avanzadas en programación Python para la automatización de infraestructuras, además de competencia en scripting de shell UNIX (por ejemplo, Bash) * Capacidad sólida en la administración de sistemas Linux, incluida la resolución de problemas, la optimización del rendimiento y la gestión de la configuración * Comprensión sólida de los conceptos de automatización y orquestación de infraestructuras, así como de las herramientas de soporte correspondientes * Dominio fluido del inglés (hablado y escrito) para interactuar directamente con los clientes **Deseable** * Helm para empaquetado y lanzamiento de aplicaciones en Kubernetes * Herramientas de monitorización y observabilidad, especialmente Prometheus, Grafana y Loki * Herramientas de Infraestructura como Código (IaC), tales como Terraform * Experiencia con Kubernetes multi-nube (Amazon EKS, Google GKE) * Conocimientos de redes de Azure, incluidas VPN, ExpressRoute y seguridad de red * Familiaridad con herramientas de programación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) * Experiencia en programación y optimización de recursos híbridos (nube + entornos locales)


