Ingeniero DevOps Intermedio

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

79Q22222+22

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Únase como Ingeniero DevOps Intermedio para mejorar la fiabilidad de Kubernetes y Linux en plataformas de computación de IA/investigación, orquestar cargas de trabajo GPU y automatizar operaciones. Aspectos destacados: 1. Fortalecer la fiabilidad de Kubernetes y Linux para computación de IA/investigación 2. Mejorar la orquestación de cargas de trabajo GPU con Kubernetes y Volcano 3. Automatizar operaciones con Python y UNIX Shell Estamos incorporando a un Ingeniero DevOps Intermedio para fortalecer la fiabilidad de Kubernetes y Linux en plataformas de computación de IA e investigación. Usted mejorará la orquestación de cargas de trabajo GPU con Kubernetes y Volcano, gestionará la programación y las cuotas, y automatizará operaciones con Python y UNIX Shell mientras trabaja con clientes. Postúlese para ayudar a los equipos a ejecutar de forma fluida computación GPU escalable. **Responsabilidades** * Mantener clústeres de Kubernetes habilitados para GPU y entornos de cómputo Linux independientes para garantizar una programación eficiente y un rendimiento sólido. * Configurar y solucionar problemas de programación de trabajos con Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas de espacio de nombres. * Supervisar la administración de Kubernetes en toda la pila, incluidos espacios de nombres, RBAC, cuotas de recursos y enfoques de aislamiento de cargas de trabajo. * Desarrollar y mantener automatizaciones en Python y Shell para simplificar la presentación de trabajos, el aprovisionamiento de recursos y la generación de informes del sistema. * Colaborar con equipos de orquestación, optimización y observabilidad para aumentar la eficiencia de la programación, la utilización de capacidad y los flujos de trabajo de los investigadores. * Observar la salud de la plataforma y el uso de recursos, proporcionando datos y retroalimentación para satisfacer las necesidades de optimización e informes. * Identificar y recomendar mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para mejorar el rendimiento, la escalabilidad y la usabilidad. * Garantizar que las operaciones diarias transcurran sin contratiempos para los investigadores que ejecutan diversas cargas de trabajo de IA y computacionales. **Requisitos** * Experiencia práctica de 2+ años en roles de DevOps o ingeniería de infraestructura que respalden entornos complejos y de gran escala. * Conocimientos expertos en administración y orquestación de Kubernetes, incluidos espacios de nombres, programación/distribución de POD, PVC, NFS y gestión de cuotas de recursos. * Experiencia práctica con el programador Volcano para la ejecución de trabajos GPU, configuración de colas, priorización de cargas de trabajo e integración con Kubernetes. * Antecedentes comprobados en la gestión de entornos de clústeres GPU en Kubernetes y en nodos de cómputo Linux independientes. * Habilidades avanzadas de creación de scripts en Python para automatización de infraestructura, además de competencia en creación de scripts UNIX Shell (por ejemplo, Bash). * Capacidad sólida en administración de sistemas Linux, incluida la solución de problemas, ajuste de rendimiento y gestión de configuración. * Comprensión sólida de los conceptos de automatización y orquestación de infraestructura y las herramientas relacionadas. * Competencia fluida en inglés (hablado y escrito) para interacción directa con clientes. **Deseable** * Helm para la gestión de paquetes de aplicaciones en Kubernetes. * Herramientas de monitoreo y observabilidad, especialmente Prometheus, Grafana y Loki. * Herramientas de Infraestructura como Código, tales como Terraform. * Experiencia con Kubernetes multi-nube, incluidos Amazon EKS y Google GKE. * Conocimientos de redes de Azure, incluidas VPN, ExpressRoute y seguridad de red. * Familiaridad con herramientas de codificación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude). * Experiencia en programación y optimización de recursos híbridos (nube + local).

Fuentea: indeed Ver publicación original