Ingeniero Jefe de Redes HPC - Infraestructura de IA

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

79Q22222+22

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Se busca un Ingeniero Jefe de Redes HPC para definir la estrategia técnica global y la visión de ingeniería para infraestructuras avanzadas de IA y GPU basadas en Kubernetes. Aspectos destacados: 1. Definir la estrategia técnica global para infraestructuras avanzadas de IA y GPU. 2. Actuar como máxima autoridad técnica influyendo en las hojas de ruta ejecutivas de los clientes. 3. Liderar y capacitar a ingenieros en equipos de redes, Kubernetes e investigación en IA. Buscamos un **Ingeniero Jefe de Redes HPC** para definir la estrategia técnica global, la arquitectura de referencia y la visión de ingeniería detrás de las infraestructuras avanzadas de IA, investigación y GPU basadas en Kubernetes para un importante cliente tecnológico global. El puesto se centra en establecer la dirección técnica a largo plazo, gobernar las decisiones arquitectónicas en múltiples programas y definir estándares de ingeniería organizacionales para tejidos de red de alto rendimiento que soporten cargas de trabajo masivas de modelos lingüísticos grandes (LLM) e IA distribuida, incluidos InfiniBand/RDMA, Ethernet de alta velocidad, redes Kubernetes, redes GPU en el lado del host, tecnologías SmartNIC/DPU y observabilidad profunda de la red. Como máxima autoridad técnica, usted moldeará la cultura de ingeniería, capacitará a ingenieros líderes y principales, influirá en las hojas de ruta ejecutivas de los clientes y asumirá la gobernanza integral de plataformas de red críticas para la misión en todo el portafolio. El candidato ideal combina una experiencia autorizada en InfiniBand NDR/HDR y tejidos de próxima generación, RDMA/RoCE, redes NVIDIA/Mellanox, patrones de comunicación NCCL/MSCCL, redes Linux en el lado del host, topología PCIe/GPU/NIC y redes Kubernetes para clústeres GPU, junto con un historial comprobado de liderazgo de múltiples equipos de ingeniería, definición de estrategia técnica a nivel de programa y desarrollo de plataformas de red HPC/IA líderes en la industria. **Responsabilidades** * Definir y asumir la propiedad de la visión estratégica plurianual y la hoja de ruta arquitectónica para tejidos de alto rendimiento InfiniBand/RDMA y Ethernet que impulsen clústeres GPU a gran escala y cargas de trabajo distribuidas de IA/LLM en todo el portafolio del cliente. * Gobernar el diseño, evaluación y estandarización de topologías de red de clúster, incluidas las topologías en árbol graso (Fat-tree), Clos, optimizadas por carril (Rail-optimized) y Dragonfly, y establecer marcos de decisión empresariales alineados con las restricciones de escala, rendimiento y costo de las cargas de trabajo. * Establecer y hacer cumplir estándares y mejores prácticas de ingeniería organizacionales para redes en el lado del host, incluidas la configuración de NIC, controladores y firmware, afinidad de IRQ, ubicación NUMA, topología PCIe y rutas de comunicación entre GPU y NIC. * Definir la dirección estratégica para la ingeniería del rendimiento en RDMA/RoCE, NCCL/MSCCL y comunicación colectiva para cargas de trabajo de entrenamiento multi-nodo en GPU, y supervisar la resolución de los problemas sistémicos de rendimiento más complejos. * Definir la arquitectura de referencia canónica para redes Kubernetes en clústeres GPU, incluidos plugins CNI, políticas de red, pods con múltiples NIC, plugins de dispositivos RDMA/GPU e integración con la orquestación de cargas de trabajo, y promover su adopción en todos los programas. * Asumir la estrategia y la gobernanza de tecnologías SmartNIC/DPU tales como NVIDIA BlueField, incluidos los casos de uso de SR-IOV, descarga (offload), aislamiento y seguridad, y alinear su adopción con la hoja de ruta general de infraestructura. * Definir la estrategia empresarial de observabilidad para plataformas de red, gobernando métricas, paneles de control, alertas, detección de congestión, trazado de latencia, marcos SLO y metodologías de análisis de capacidad y rendimiento. * Proporcionar liderazgo técnico y mentoría a ingenieros líderes y principales en equipos de redes, Kubernetes, almacenamiento, infraestructura GPU, observabilidad e investigación en IA, desarrollando el canal de talento y promoviendo la alineación transfuncional a gran escala. * Actuar como máxima autoridad técnica en foros ejecutivos con clientes y partes interesadas, definiendo la dirección técnica estratégica, negociando compensaciones a nivel de programa y garantizando la entrega de plataformas de red confiables y escalables en múltiples proyectos. * Contribuir a la comunidad de ingeniería más amplia mediante liderazgo intelectual, desarrollo interno de buenas prácticas y representación de la empresa en eventos industriales. **Requisitos** * 8 o más años de experiencia en roles de ingeniería en redes, infraestructura, HPC, SRE o similares, con 4 o más años centrados en redes de HPC, IA/ML o clústeres GPU, incluido liderazgo técnico demostrado a nivel de programa o portafolio (2 o más años). * Experiencia comprobada definiendo la arquitectura y gobernando la entrega de tejidos InfiniBand/RDMA, Ethernet de alta velocidad y redes Linux en entornos distribuidos de cómputo a gran escala y críticos para el rendimiento. * Experiencia autorizada en redes en el lado del host, incluidas NIC, controladores y firmware, así como topología PCIe, conciencia NUMA y afinidad entre GPU y NIC, con capacidad comprobada para establecer estándares empresariales y elevar las organizaciones de ingeniería. * Comprensión profunda de los patrones de comunicación en entrenamiento distribuido de IA, incluidas las cargas de trabajo basadas en NCCL y operaciones colectivas como all-reduce y all-gather, con capacidad para impulsar a gran escala la estrategia de co-diseño entre cargas de trabajo y redes. * Conocimiento autorizado de Kubernetes y redes de contenedores para cargas de trabajo GPU o distribuidas, incluidos los conceptos CNI, políticas de red, patrones de múltiples NIC e integración de dispositivos RDMA/GPU, con experiencia definiendo arquitecturas de referencia. * Dominio experto de los conceptos de redes RDMA, incluidos InfiniBand, RoCE/RoCEv2, patrones relacionados con GPUDirect, comportamiento de congestión y ajuste de rendimiento a muy gran escala. * Dominio de redes Linux y solución de problemas en el lado del host, incluidas la afinidad de IRQ, MTU, funciones de descarga (offloads) y diagnóstico de rendimiento, con capacidad para definir metodologías de diagnóstico para toda la organización de ingeniería. * Experiencia comprobada en la propiedad de la estrategia empresarial de observabilidad y gestión del rendimiento de redes, incluidos telemetría, monitoreo de tráfico, detección de congestión, análisis de latencia, SLO, planificación de capacidad y alertas/solución de problemas en las capas L1-L4, tejido y RDMA. * Excelentes habilidades de liderazgo, mentoría, gestión de partes interesadas y comunicación ejecutiva, con experiencia comprobada liderando múltiples equipos de ingeniería, influyendo en decisiones arquitectónicas de clientes a nivel C-suite y logrando consenso entre investigadores, partes interesadas de la plataforma y patrocinadores ejecutivos. * Competencia avanzada en inglés (nivel C1). **Deseable** * Experiencia práctica arquitectónica y estratégica con redes Azure, Ethernet y tecnologías GPGPU/GPU. * Dominio autorizado de Grafana, Prometheus y administración de redes, con experiencia definiendo estándares de observabilidad en una organización de ingeniería. * Capacidad comprobada para definir estrategias, gobernar y escalar prácticas de Infraestructura como Código (IaC) en múltiples equipos y programas. * Competencia en Python y scripting de shell UNIX para automatización, herramientas y mejora de la productividad de ingeniería en toda la organización. * Historial de liderazgo intelectual mediante charlas en conferencias, publicaciones, patentes o contribuciones de código abierto en el dominio de redes HPC/IA

Fuentea: indeed Ver publicación original

Sofía González

Indeed · HR

Compañía

Indeed

Sofía González

Indeed · HR

Empleos similares

Ingeniero Jefe de Redes HPC - Infraestructura de IA

Descripción

Compañía

Empleos similares

Líder de Ingeniería de IA (LATAM)

Administrador de base de datos

DevOps Engineer

Psicólogo Escolar

ANALISTA MEDIO AMBIENTE

Operador de Grabación de Video - Remoto, sin experiencia