Ingeniero C++ Runtime de IA (Rosario, Argentina)

Salario negociable

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

Suipacha 1551, S2002 Rosario, Santa Fe, Argentina

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

### **Sobre nosotros** Somos una startup en modo **sigilo** desarrollando infraestructura de próxima generación para la industria de la IA. Nuestro equipo cuenta con décadas de experiencia en software, sistemas y tecnologías avanzadas. Estamos trabajando en un nuevo tipo de entorno de ejecución de IA que amplía los límites del rendimiento y la flexibilidad, haciendo que los modelos avanzados sean portátiles, eficientes y personalizables para su implementación en entornos reales. Si deseas formar parte de un equipo pequeño y dinámico que está moldeando el **futuro de los sistemas de IA aplicada**, esta es tu oportunidad. ### **Funciones del puesto** Buscamos un **ingeniero C\+\+** con sólida experiencia en programación de sistemas y GPUs para ayudarnos a extender y optimizar un entorno de ejecución de inferencia de IA de código abierto. Trabajarás en componentes internos de bajo nivel para la ejecución de modelos de lenguaje grandes, centrándote en: * Integración dinámica de adaptadores (por ejemplo, LoRA/QLoRA) * Mecanismos de actualización incremental del modelo * Almacenamiento en caché y planificación de inferencia multi-sesión * Mejoras de rendimiento en GPU (Núcleos Tensoriales, CUDA/ROCm) Este es un puesto **práctico**: diseñarás, codificarás, realizarás análisis de rendimiento y realizarás iteraciones sobre código de inferencia de alto rendimiento que se ejecuta directamente en CPUs y GPUs. ### **Responsabilidades** * Implementar soporte para **carga en tiempo de ejecución de adaptadores (LoRA)**, permitiendo personalizar modelos sobre la marcha sin necesidad de reentrenamiento o fusión de modelos. * Diseñar e implementar mecanismos para **deltas incrementales del modelo**, permitiendo extender y actualizar modelos de forma eficiente. * Ampliar el entorno de ejecución para manejar **ejecución multi-sesión**, con estrategias de aislamiento y almacenamiento en caché para usuarios concurrentes. * Optimizar núcleos matemáticos principales y estructuras de memoria para mejorar el rendimiento de inferencia en **backends de CPU y GPU**. * Colaborar con ingenieros de backend e infraestructura para integrar tu trabajo en APIs y capas de orquestación. * Escribir pruebas de referencia, pruebas unitarias y herramientas de análisis de rendimiento para garantizar la corrección y medir las mejoras de rendimiento. * Participar en discusiones sobre la arquitectura del sistema y ayudar a definir la hoja de ruta para futuras funciones del entorno de ejecución. ### **Requisitos** * Dominio sólido de **C\+\+ moderno (C\+\+14/17/20\)** y programación de sistemas. * Comprensión sólida de **optimización de bajo nivel**: gestión de memoria, multithreading, SIMD, eficiencia de caché. * Experiencia con programación de GPU mediante **CUDA** y/o **ROCm/HIP**. * Conocimiento de **núcleos de álgebra lineal** (multiplicación de matrices, atención) y cómo se mapean a aceleración por hardware (Núcleos Tensoriales, bibliotecas BLAS, etc.). * Experiencia con **frameworks de inferencia de aprendizaje automático** (por ejemplo, llama.cpp, TensorRT, ONNX Runtime, TVM, componentes internos de PyTorch) es un plus. * Comodidad trabajando en entornos **Unix/Linux**; experiencia con sistemas de compilación (CMake, Bazel) y pipelines de CI. * Habilidades sólidas para resolver problemas y depurar; capacidad para profundizar tanto en el código como en trazas de rendimiento. * Autonomía y capacidad de prosperar en un entorno de **startup dinámico**. ### **Deseable** * Experiencia implementando **LoRA o ajuste fino basado en adaptadores** en entornos de inferencia. * Conocimiento de **métodos de cuantización** y despliegue eficiente de modelos cuantizados. * Antecedentes en sistemas distribuidos o orquestación multi-GPU. * Contribuciones a **proyectos de código abierto en sistemas de IA/ML**. ### **Por qué unirse** * Desarrollar propiedad intelectual clave en la intersección entre **IA e ingeniería de sistemas**. * Trabajar con un equipo fundador altamente técnico en problemas que son a la vez desafiantes desde el punto de vista intelectual y con impacto comercial. * Oportunidad de influir en la dirección de una nueva plataforma de IA desde cero. * Compensación competitiva (contrato o jornada completa), posibilidad de participación accionaria y trabajo remoto flexible. Por favor usa este enlace para postularte a esta vacante: https://www.baasi.com/career/apply/3164166

Fuentea: indeed Ver publicación original