Ingeniero de Investigación en IA (Compresión y Cuantización de Modelos) - Teletrabajo al 100 % en todo el mundo

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

Pje. Centenario 130, C1405 Ciudad Autónoma de Buenos Aires, Argentina

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Únase al equipo de modelos de IA de Tether para innovar en las arquitecturas de servicio e inferencia de modelos para sistemas avanzados de IA, optimizando su implementación para lograr un rendimiento altamente receptivo, eficiente y escalable. Aspectos destacados: 1. Diseñe el futuro de las finanzas digitales con tecnología pionera de blockchain. 2. Impulse la innovación en las arquitecturas de servicio e inferencia de modelos de IA. 3. Colabore con un centro global de talento en el ámbito de las fintech. ***Únase a Tether y diseñe el futuro de las finanzas digitales*** En Tether, no solo construimos productos, sino que también lideramos una revolución financiera global. Nuestras soluciones de vanguardia permiten a las empresas —desde exchanges y billeteras hasta procesadores de pagos y cajeros automáticos— integrar sin problemas tokens respaldados por reservas en múltiples blockchains. Al aprovechar el poder de la tecnología blockchain, Tether le permite almacenar, enviar y recibir tokens digitales de forma instantánea, segura y global, todo ello a una fracción del costo. La transparencia es la piedra angular de todo lo que hacemos, garantizando confianza en cada transacción. ***Innovar con Tether*** **Tether Finance:** Nuestra innovadora suite de productos incluye la moneda estable más confiable del mundo, **USDT**, utilizada por cientos de millones de personas en todo el mundo, además de servicios pioneros de tokenización de activos digitales. Pero eso es solo el comienzo: **Tether Power:** Impulsando un crecimiento sostenible, nuestras soluciones energéticas optimizan el exceso de energía para la minería de Bitcoin mediante prácticas ecológicas en instalaciones de última generación y geográficamente diversas. **Tether Data:** Impulsando avances en IA y tecnología peer-to-peer, reducimos los costos de infraestructura y mejoramos las comunicaciones globales con soluciones de vanguardia como **KEET**, nuestra aplicación insignia que redefine el intercambio seguro y privado de datos. **Tether Education:** Democratizando el acceso al aprendizaje digital de primer nivel, empoderamos a las personas para que prosperen en las economías digital y de trabajos independientes, impulsando el crecimiento y las oportunidades globales. **Tether Evolution:** En la intersección entre la tecnología y el potencial humano, estamos ampliando los límites de lo posible, creando un futuro donde la innovación y las capacidades humanas se fusionan de formas poderosas y sin precedentes. ***¿Por qué unirse a nosotros?*** Nuestro equipo es un centro global de talento que trabaja de forma remota desde todos los rincones del mundo. Si está apasionado por dejar huella en el sector de las fintech, esta es su oportunidad de colaborar con algunas de las mentes más brillantes, romper barreras y establecer nuevos estándares. Hemos crecido rápidamente, manteniéndonos ágiles y consolidando nuestro lugar como líderes en la industria. Si posee excelentes habilidades de comunicación en inglés y está listo para contribuir a la plataforma más innovadora del planeta, Tether es el lugar indicado para usted. **¿Está listo para formar parte del futuro?** **Acerca del puesto** Como miembro de nuestro equipo de modelos de IA, usted impulsará la innovación en las arquitecturas de servicio e inferencia de modelos para sistemas avanzados de IA. Su trabajo se centrará en optimizar la implementación de modelos y las estrategias de inferencia para ofrecer un rendimiento altamente receptivo, eficiente y escalable en aplicaciones reales. Trabajará en una amplia gama de sistemas, desde modelos eficientes en cuanto a recursos, diseñados para entornos con hardware limitado, hasta arquitecturas complejas multimodales que integran datos como texto, imágenes y audio. Esperamos que tenga una profunda experiencia en el diseño y la optimización de tuberías de servicio de modelos y marcos de inferencia, así como una sólida formación en arquitecturas avanzadas de modelos. Adoptará un enfoque práctico y basado en la investigación para desarrollar, probar e implementar nuevas estrategias de servicio e innovadores algoritmos de inferencia. Sus responsabilidades incluyen la ingeniería de tuberías de inferencia robustas, el establecimiento de métricas exhaustivas de rendimiento y la identificación y resolución de cuellos de botella en entornos productivos. El objetivo final es habilitar un rendimiento de IA de alto rendimiento, baja latencia, bajo consumo de memoria y escalable, que aporte valor tangible en escenarios dinámicos del mundo real. **Responsabilidades** * Diseñar e implementar arquitecturas de servicio de modelos de vanguardia que ofrezcan un alto rendimiento y una baja latencia, optimizando simultáneamente el uso de memoria. Asegurar que estas tuberías funcionen eficientemente en diversos entornos, incluidos dispositivos con recursos limitados y plataformas periféricas (edge). Establecer objetivos claros de rendimiento, tales como una latencia reducida, una respuesta mejorada en tokens y una huella de memoria minimizada. * Construir, ejecutar y supervisar pruebas controladas de inferencia tanto en entornos simulados como en entornos productivos reales. Seguimiento de indicadores clave de rendimiento como la latencia de respuesta, el rendimiento, el consumo de memoria y las tasas de error, prestando especial atención a las métricas específicas para dispositivos con recursos limitados. Documentar los resultados iterativos y comparar los resultados con referencias establecidas para validar el rendimiento en distintas plataformas. * Identificar y preparar conjuntos de datos de prueba de alta calidad y escenarios de simulación adaptados a los desafíos reales de implementación, especialmente aquellos encontrados en dispositivos con pocos recursos. Establecer criterios medibles para garantizar que estos recursos evalúen eficazmente el rendimiento del modelo, la latencia y la utilización de memoria bajo diversas condiciones operativas. * Analizar la eficiencia computacional y diagnosticar cuellos de botella en la tubería de servicio mediante el monitoreo tanto de las métricas de procesamiento como de las métricas de memoria. Abordar problemas como un procesamiento por lotes subóptimo, retrasos en la red y un alto consumo de memoria para optimizar la infraestructura de servicio en términos de escalabilidad y fiabilidad en sistemas con recursos limitados. * Trabajar estrechamente con equipos multifuncionales para integrar marcos optimizados de servicio e inferencia en tuberías productivas diseñadas para aplicaciones periféricas (edge) y en dispositivo. Definir métricas claras de éxito, tales como un mejor rendimiento en el mundo real, bajas tasas de error, escalabilidad robusta, uso óptimo de memoria y garantizar un monitoreo continuo y refinamientos iterativos para lograr mejoras sostenidas. * Titulación en Ciencias de la Computación o campo relacionado. Idealmente, doctorado en PLN, Aprendizaje Automático o campo afín, complementado por un historial sólido en I+D en IA (con buenas publicaciones en conferencias A*). * Debe tener conocimientos del Metal Shading Language (MSL). Debe sentirse cómodo escribiendo shaders de cómputo personalizados desde cero. * Es imprescindible contar con experiencia comprobada en optimizaciones de bajo nivel de kernels y en la optimización de inferencia en dispositivos móviles. Sus contribuciones deben haber generado mejoras medibles en la latencia, el rendimiento y la huella de memoria de la inferencia para aplicaciones específicas del dominio, particularmente en dispositivos con recursos limitados y plataformas periféricas (edge). * Se requiere una comprensión profunda de las arquitecturas modernas de servicio de modelos y de las técnicas de optimización de inferencia. Esto incluye métodos de vanguardia para lograr un rendimiento de baja latencia y alto rendimiento, así como una gestión eficiente de la memoria en diversos escenarios de implementación con recursos limitados. * Debe poseer una sólida experiencia en la escritura de kernels para GPU en dispositivos móviles (por ejemplo, teléfonos inteligentes), así como una comprensión profunda de los marcos y motores de servicio de modelos. Se requiere experiencia práctica en el desarrollo e implementación de tuberías de inferencia de extremo a extremo, desde la optimización de modelos para un servicio eficiente hasta la integración de dichas soluciones en dispositivos con recursos limitados. * Capacidad demostrada para aplicar investigación empírica para superar los desafíos en el servicio de modelos, como la optimización de la latencia, los cuellos de botella computacionales y las restricciones de memoria. Debe ser competente en el diseño de marcos de evaluación robustos y en la iteración de estrategias de optimización para seguir ampliando los límites del rendimiento de la inferencia y la eficiencia del sistema. * Sistemas distribuidos de inferencia: Diseño y optimización de motores de inferencia de alto rendimiento mediante técnicas como paralelismo de tensores, paralelismo de tuberías y paralelismo de expertos para manejar modelos masivos en clústeres de GPU. * Comprensión profunda de las matemáticas y la estructura subyacentes a los modelos de difusión y a los transformadores visuales (Vision Transformers) * Conocimiento de poda (pruning), cuantización, atención Flash (Flash attention), caché KV (KV Cache), decodificación especulativa (Eagle), etc. **Información importante para los candidatos** Los fraudes en reclutamiento se han vuelto cada vez más comunes. Para protegerse, tenga en cuenta lo siguiente al postularse a puestos: * **Postúlese únicamente a través de nuestros canales oficiales.** No utilizamos plataformas ni agencias externas para reclutamiento, salvo que se indique expresamente. Todos los puestos disponibles están publicados en nuestra página oficial de carreras: https://tether.recruitee.com/ * **Verifique la identidad del reclutador.** Todos nuestros reclutadores cuentan con perfiles verificados en LinkedIn. Si tiene dudas, puede confirmar su identidad revisando su perfil o contactándonos a través de nuestro sitio web. * **Sea cauteloso con métodos inusuales de comunicación.** No realizamos entrevistas a través de WhatsApp, Telegram ni SMS. Toda la comunicación se lleva a cabo mediante correos electrónicos y plataformas oficiales de la empresa. * **Verifique cuidadosamente las direcciones de correo electrónico.** Toda la comunicación proveniente de nosotros tendrá como dominio final **@**tether.to **o @**tether.io * **Nunca solicitaremos pagos ni datos financieros personales.** Si alguien le solicita información financiera personal o un pago en cualquier etapa del proceso de contratación, se trata de una estafa. Por favor, denúnciela inmediatamente. **Si tiene dudas, no dude en contactarnos a través de nuestro sitio web oficial.**

Fuentea: indeed Ver publicación original

Sofía González

Indeed · HR

Compañía

Indeed

Sofía González

Indeed · HR

Empleos similares

Ingeniero de Investigación en IA (Compresión y Cuantización de Modelos) - Teletrabajo al 100 % en todo el mundo

Descripción

Compañía

Empleos similares

Programador full stack SSR Django Phyton Gral Pacheco Presencial

ATENCIÓN AL CLIENTE

Trainee IT Zona Pilar Bs As

Analista CONTALE SENIOR . HOTEL SOFITEL LA RESERVA CARDALES

Trainer

Control de Gestión