




**NUESTRO PROCESO DE CONTRATACIÓN:** * Revisaremos tu solicitud según nuestros requisitos para el puesto. No utilizamos tecnologías de aprendizaje automático durante esta fase, ya que creemos que toda persona merece la atención de otra persona. No consideramos que las máquinas puedan evaluar tu solicitud del mismo modo que nuestros experimentados profesionales de reclutamiento: cada persona es única. Nos comprometemos a realizar una evaluación justa y detallada de tu candidatura. * Posteriormente, podríamos invitarte a enviar una entrevista en video para su revisión por parte del responsable de contratación. Esta entrevista en video suele ir seguida de una prueba o un pequeño proyecto que nos permita determinar si eres un buen ajuste para el equipo. * En esta etapa, te invitaremos a entrevistarte con nuestro responsable de contratación y/o con el equipo entrevistador. Ten en cuenta lo siguiente: no realizamos entrevistas mediante mensajes de texto, Telegram, etc., y nunca contratamos a nadie sin haber tenido una reunión cara a cara (o mediante Zoom). Se te invitará a una reunión en vivo o mediante Zoom, donde conocerás a nuestro equipo INFUSE. * A partir de aquí, ¡llega el momento de tomar una decisión! Si aún estás entusiasmado por unirte a INFUSE y nosotros también valoramos tu perfil, mantendremos una conversación sobre tu oferta. No realizamos ofertas sin darte la oportunidad de hablar con nosotros en tiempo real. INFUSE se compromete a cumplir con las leyes y regulaciones aplicables en materia de privacidad y seguridad de los datos. Para obtener más información, consulta nuestra Política de Privacidad. **INKHUB** está procesando 10 millones de PDF en bruto para construir el catálogo más rico del internet de contenidos B2B de calidad comercial: etiquetados, resumidos y buscables por tema, empresa o intención. Buscamos a un **ingeniero de aprendizaje automático aplicado** que asuma la responsabilidad de la canalización de ingesta semántica, desde los PDF en bruto hasta los recursos etiquetados, resumidos e integrados en vectores. ### **Qué harás** * Serás responsable de la canalización ETL desde los PDF en bruto (ingestados desde S3) hasta los recursos estructurados. * Finalizarás nuestro flujo de resúmenes y clasificación utilizando modelos de código abierto, con respaldo en GPT-4o. * Aplicarás lógica de filtrado (por ejemplo, documentos con menos de tres años de antigüedad, con menos de 100 páginas, etc.) para garantizar la calidad de los recursos. * Asignarás cada recurso a la taxonomía específica de temas (más de 10 temas por categoría, distribuidos en aproximadamente 9.000 temas). * Generarás representaciones vectoriales densas (embeddings) mediante sentence-transformers. * Cargarás y consultarás dichos embeddings utilizando Milvus o pgvector. * Implementarás lógica de «actualidad» (freshness) para identificar e indexar únicamente contenido nuevo o actualizado, basándote en comparaciones entre versiones de archivos (file diffing), marcas temporales de rastreo (crawl timestamp) o hashes de documentos. * Construirás un entorno de control de calidad y evaluación (QA/eval): cumplimiento de formatos, recall@5, monitoreo de deriva (drift monitoring). * Expondrás el endpoint */v1/semantic-search* mediante FastAPI, con funcionalidades de filtrado y fusión de rangos (rank fusion). * Colaborarás estrechamente con nuestro Líder Técnico en la integración con la interfaz de usuario (UX) y la generación de fragmentos (snippets). ### **Tu caja de herramientas** * Python, PyTorch, sentence-transformers, APIs de OpenAI u otros modelos de lenguaje preentrenados similares. * FastAPI, Milvus o pgvector, PyPDF/Tika, Airflow o Lambda para la orquestación. * Docker, programación de tareas en GPU, Athena/Redshift SQL. ### **Podrías ser un buen candidato si...** * Has construido canalizaciones de aprendizaje automático que han impactado directamente a usuarios reales, no solo a notebooks. * Has trabajado en búsquedas semánticas, embeddings o etiquetado a gran escala. * Has lidiado con datos no estructurados y disfrutas transformar el caos en claridad. * Te gusta trabajar con rapidez, iterar con base en retroalimentación y seguir métricas relevantes. ### **Por qué este puesto es importante** Tus modelos determinarán qué contenido se encuentra, cómo se etiqueta y qué contenidos y empresas destacan. Ayudarás a definir qué significan «relevancia» y «actualidad» para más de un millón de recursos y más de 50.000 páginas de empresas, asegurando que INKHUB siga liderando la innovación.


