Ingeniero Senior de DevOps

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

79Q22222+22

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Únase a un equipo de entrega centrado en el cliente como Ingeniero Senior de DevOps que gestiona infraestructura automatizada y de alto rendimiento de Kubernetes y Linux para computación de IA y investigación intensiva en GPU. Aspectos destacados: 1. Gestionar la infraestructura de Kubernetes y Linux para cargas de trabajo de IA intensivas en GPU 2. Desarrollar automatización en Python y scripts de shell UNIX para operaciones fiables 3. Centrarse en el rendimiento, la calidad de la programación y la utilización de la capacidad Estamos entregando una infraestructura automatizada y de alto rendimiento de Kubernetes y Linux que soporta computación de IA e investigación intensiva en GPU. En este puesto de Ingeniero Senior de DevOps, usted gestionará la administración de Kubernetes y la programación con Volcano, ajustará entornos Linux y desarrollará automatización en Python y scripts de shell UNIX para operaciones fiables. ¡Postúlese ahora para unirse a un equipo de entrega centrado en el cliente! **Responsabilidades** * Configurar, instalar y mantener clústeres de Kubernetes habilitados para GPU y entornos de cómputo Linux independientes, centrándose en el rendimiento y la calidad de la programación * Operar la programación con Volcano para cargas de trabajo de GPU, incluyendo colas, ejecución de POD, asignación de GPU y aplicación de cuotas por espacio de nombres * Realizar actividades de administración de Kubernetes en espacios de nombres, RBAC, cuotas de recursos y estrategias de aislamiento de cargas de trabajo * Desarrollar y dar soporte a scripts en Python y Shell para automatizar la presentación de trabajos, el aprovisionamiento de recursos y los informes operativos * Colaborar con equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de la capacidad y los flujos de trabajo de los investigadores * Supervisar la salud y la utilización de la infraestructura, generando información que alimente los requisitos de optimización e informes * Impulsar mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para incrementar la escalabilidad, el rendimiento y la usabilidad * Apoyar prácticas operativas que permitan una experiencia eficiente para los investigadores que ejecutan diversas cargas de trabajo de IA y computacionales **Requisitos** * Experiencia profesional mínima de 3 años en DevOps o ingeniería de infraestructura en plataformas complejas y de gran escala * Competencia experta en operaciones de Kubernetes, incluyendo espacios de nombres, programación/distribución de POD, PVC, NFS y gestión de cuotas de recursos * Experiencia práctica utilizando Volcano para la ejecución de trabajos GPU, configuración de colas, priorización de cargas de trabajo e integración con Kubernetes * Capacidad demostrada para gestionar clústeres GPU en Kubernetes, así como en nodos de cómputo Linux independientes * Habilidad avanzada en Python para automatización y sólida competencia en scripting de shell UNIX (por ejemplo, Bash) * Fuertes habilidades en administración de Linux, incluyendo resolución de problemas, ajuste de rendimiento y gestión de configuraciones * Comprensión sólida de los principios de automatización y orquestación de infraestructura y de las herramientas comunes * Dominio fluido del inglés (hablado y escrito) para interacción directa con clientes **Deseable** * Experiencia con Helm para empaquetar y gestionar aplicaciones de Kubernetes * Antecedentes en observabilidad con Prometheus, Grafana y Loki * Experiencia con Terraform para Infraestructura como Código * Experiencia con Kubernetes multi-nube en Amazon EKS y Google GKE * Habilidades en redes de Azure, incluyendo VPN, ExpressRoute y seguridad de red * Exposición a herramientas de codificación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) * Experiencia en programación y optimización de recursos híbridos (nube + local)

Fuentea: indeed Ver publicación original