Gerente de Ingeniería de Redes HPC - Infraestructura de IA

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

79Q22222+22

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Buscamos un Gerente de Ingeniería de Redes HPC para guiar la arquitectura y la dirección técnica de la investigación en IA y la infraestructura de GPU basada en Kubernetes. Aspectos destacados: 1. Guiar la arquitectura y la dirección técnica para la infraestructura de investigación en IA 2. Diseñar plataformas de red fiables y escalables para cargas de trabajo distribuidas masivas de IA 3. Brindar liderazgo técnico y mentoría a lo largo de los equipos de ingeniería Buscamos un **Gerente de Ingeniería de Redes HPC - Infraestructura de IA** para guiar la arquitectura y la dirección técnica de la investigación en IA y la infraestructura de GPU basada en Kubernetes. Usted dirigirá los estándares para InfiniBand/RDMA, Ethernet, redes de Kubernetes, SmartNIC/DPU y observabilidad en grandes programas, además de brindar mentoría a ingenieros senior. Únase a nosotros para diseñar plataformas de red fiables y escalables para cargas de trabajo distribuidas masivas de IA: ¡postúlese ahora! **Responsabilidades** * Definir y asumir la propiedad de una visión arquitectónica y una hoja de ruta a varios años para las redes de InfiniBand/RDMA y Ethernet de alta velocidad que soporten grandes clústeres de GPU y cargas de trabajo distribuidas de IA/LLM en todo el portafolio del cliente * Supervisar la evaluación y la estandarización de topologías de red de clúster tales como Fat-tree, Clos, Rail-optimizada y Dragonfly, y establecer marcos de decisión alineados con las restricciones de escala, rendimiento y costo * Establecer y hacer cumplir estándares de ingeniería para redes del lado del host, incluyendo configuración de NIC, controladores, firmware, afinidad de IRQ, ubicación NUMA, topología PCIe y rutas de comunicación entre GPU y NIC * Impulsar la ingeniería estratégica del rendimiento en RDMA/RoCE, NCCL/MSCCL y comunicaciones colectivas para entrenamiento multi-nodo de GPU, y supervisar la resolución de los problemas sistémicos más complejos de rendimiento * Definir la arquitectura de referencia para redes de Kubernetes en clústeres de GPU, incluyendo plugins CNI, políticas de red, pods con múltiples NIC, plugins de dispositivos RDMA/GPU e integración con la orquestación de cargas de trabajo, y liderar su adopción en los distintos programas * Asumir la estrategia y la gobernanza de tecnologías SmartNIC/DPU como NVIDIA BlueField, incluyendo casos de uso de SR-IOV, descarga, aislamiento y seguridad, y alinear su implementación con la hoja de ruta general de infraestructura * Definir la estrategia empresarial de observabilidad de red, regulando métricas, paneles de control, alertas, detección de congestión, trazado de latencia, marcos de SLO y métodos de análisis de capacidad/rendimiento * Brindar liderazgo técnico y mentoría a ingenieros líderes y principales en equipos de redes, Kubernetes, almacenamiento, infraestructura de GPU, observabilidad e investigación en IA para impulsar la alineación transversal * Representar la máxima autoridad técnica en foros ejecutivos de partes interesadas mediante la definición de la dirección, la negociación de compensaciones entre programas y la garantía de entrega de plataformas de red fiables y escalables en todas las colaboraciones * Contribuir a la comunidad de ingeniería mediante liderazgo intelectual, construcción interna de prácticas y representación en eventos industriales **Requisitos** * 9 o más años de experiencia en redes, infraestructura, HPC, SRE u otros roles de ingeniería similares, con 5 o más años centrados en redes de HPC, IA/ML o clústeres de GPU, incluido liderazgo técnico demostrado a nivel de programa o portafolio (3 o más años) * Trayectoria comprobada definiendo arquitecturas y gestionando entregas de redes InfiniBand/RDMA, Ethernet de alta velocidad y redes Linux en entornos distribuidos de cómputo a gran escala y sensibles al rendimiento * Experiencia reconocida en redes del lado del host (NIC, controladores, firmware), así como en topología PCIe, conciencia NUMA y afinidad GPU-NIC, con capacidad comprobada para establecer estándares empresariales y mejorar las prácticas de ingeniería * Profundo conocimiento de los patrones de comunicación en entrenamiento distribuido de IA, incluyendo cargas de trabajo basadas en NCCL y operaciones colectivas como all-reduce y all-gather, con capacidad para impulsar el diseño conjunto carga de trabajo-red a gran escala * Conocimiento reconocido de Kubernetes y redes de contenedores para cargas de trabajo GPU o distribuidas, incluyendo conceptos CNI, políticas de red, patrones de múltiples NIC e integración de dispositivos RDMA/GPU, con experiencia definiendo arquitecturas de referencia * Dominio experto de redes RDMA, incluyendo InfiniBand, RoCE/RoCEv2, patrones relacionados con GPUDirect, comportamiento de congestión y ajuste de rendimiento a muy gran escala * Dominio completo de redes Linux y solución de problemas del lado del host, incluyendo afinidad de IRQ, MTU, descargas y diagnósticos de rendimiento, con capacidad para definir metodologías diagnósticas repetibles para equipos más amplios * Experiencia comprobada asumiendo la responsabilidad de la estrategia de observabilidad y gestión del rendimiento de redes, incluyendo telemetría, monitoreo de tráfico, detección de congestión, análisis de latencia, SLO, planificación de capacidad y alertas/solución de problemas en las capas L1-L4, tejido (fabric) y RDMA * Excelentes habilidades de liderazgo, mentoría, gestión de partes interesadas y comunicación ejecutiva, con experiencia comprobada liderando múltiples equipos de ingeniería, influyendo en decisiones arquitectónicas de clientes a nivel C-suite y promoviendo la alineación entre partes interesadas de investigación y plataforma * Competencia avanzada en inglés (nivel C1) **Deseable** * Experiencia práctica arquitectónica y estratégica con redes de Azure, Ethernet y tecnologías GPGPU/GPU * Dominio reconocido de Grafana y Prometheus, además de experiencia en administración de redes definiendo estándares de observabilidad en toda una organización de ingeniería * Capacidad comprobada para definir estrategias, ejercer gobernanza y escalar prácticas de Infraestructura como Código (IaC) en múltiples equipos y programas * Competencia en Python y scripting de shell UNIX para automatización, herramientas y mejora de la productividad de ingeniería * Trayectoria de liderazgo intelectual mediante charlas en conferencias, publicaciones, patentes o contribuciones de código abierto en el dominio de redes HPC/IA

Fuentea: indeed Ver publicación original

Sofía González

Indeed · HR

Compañía

Indeed

Sofía González

Indeed · HR

Empleos similares

Gerente de Ingeniería de Redes HPC - Infraestructura de IA

Descripción

Compañía

Empleos similares

Data Engineer Azure Data Factory (ADF) - Argentina | 100% remoto

Psicólogo Escolar

Pasante en Diseño de Circuitos Integrados Digitales

Construcción de edificio

COORDINADOR DE MEDIO AMBIENTE | PLANTA FORMOSA

agricultura