Ingeniero de Software Python – LLM

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

79Q22222+22

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Este puesto implica evaluar rigurosamente y mejorar la capacidad de los sistemas de inteligencia artificial para razonar sobre código, generar soluciones de programación y explicar conceptos técnicos. Aspectos destacados: 1. Evaluar las respuestas de generación de código producidas por modelos de lenguaje de gran tamaño (LLM) en cuanto a su precisión, claridad y completitud 2. Experto en al menos un lenguaje de programación relevante 3. Experiencia utilizando modelos de lenguaje de gran tamaño (LLM) durante la programación y comprensión de sus modos de fallo **Modalidad de trabajo:** Remoto **Tipo de vinculación:** Contratista independiente **Horario:** Contrato a tiempo completo o a tiempo parcial **Requisito lingüístico:** Inglés fluido **Descripción general del puesto** Colaboramos con equipos líderes en inteligencia artificial para mejorar la calidad, utilidad y fiabilidad de los sistemas de inteligencia artificial conversacionales de propósito general. Este proyecto se centra específicamente en evaluar y mejorar cómo los sistemas de inteligencia artificial razonan sobre código, generan soluciones de programación y explican conceptos técnicos en distintos niveles de complejidad. El puesto implica una evaluación técnica rigurosa de las respuestas generadas por inteligencia artificial en contextos de programación e ingeniería de software. **Sus responsabilidades** Evaluar las respuestas generadas por modelos de lenguaje de gran tamaño (LLM) ante consultas de programación e ingeniería de software en cuanto a su precisión, razonamiento, claridad y completitud Realizar verificaciones de hechos mediante fuentes públicas confiables y referencias autorizadas Realizar pruebas de precisión ejecutando el código y validando sus resultados mediante herramientas adecuadas Annotar las respuestas de los modelos identificando sus fortalezas, áreas de mejora y errores factuales o conceptuales Evaluar la calidad del código, su legibilidad, la solidez algorítmica y la calidad de las explicaciones Asegurar que las respuestas del modelo se alineen con el comportamiento conversacional esperado y con las directrices del sistema Aplicar estándares de evaluación consistentes siguiendo taxonomías claras, puntos de referencia y directrices detalladas de evaluación **Perfil requerido** Posee una licenciatura, maestría o doctorado en Ciencias de la Computación o en un campo estrechamente relacionado Cuenta con amplia experiencia práctica en ingeniería de software o en puestos técnicos afines Es experto en al menos un lenguaje de programación relevante (por ejemplo, Python, Java, C++, JavaScript, Go, Rust) Es capaz de resolver de forma independiente problemas de nivel medio y difícil en plataformas como HackerRank o LeetCode Tiene experiencia contribuyendo a proyectos de código abierto reconocidos, incluyendo solicitudes de incorporación (pull requests) aceptadas y fusionadas Cuenta con amplia experiencia utilizando modelos de lenguaje de gran tamaño (LLM) durante la programación y comprende sus fortalezas y modos de fallo Posee una atención excepcional al detalle y se siente cómodo evaluando razonamientos técnicos complejos e identificando errores sutiles o fallos lógicos **Conocimientos adicionales deseables** Experiencia previa en retroalimentación humana reforzada (RLHF), evaluación de modelos o trabajo de anotación de datos Historial comprobado en programación competitiva Experiencia revisando código en entornos productivos Familiaridad con múltiples paradigmas o ecosistemas de programación Experiencia explicando conceptos técnicos complejos a audiencias no especializadas **Indicadores de éxito** Identifica lógica incorrecta, ineficiencias, casos extremos o explicaciones engañosas en el código, los conceptos técnicos y las discusiones sobre diseño de sistemas generados por los modelos Sus comentarios mejoran la corrección, robustez y claridad de las salidas de programación generadas por la inteligencia artificial Entrega artefactos de evaluación reproducibles que potencian el desempeño del modelo

Fuentea: indeed Ver publicación original