




Resumen: Buscamos un Ingeniero Senior de Datos con habilidades expertas en PySpark y experiencia práctica en la creación de canalizaciones ETL, arquitecturas de data lake e integraciones de flujos de datos en AWS para contribuir a soluciones de datos a gran escala. Aspectos destacados: 1. Trabajar con datos estructurados y no estructurados procedentes de múltiples fuentes empresariales 2. Oportunidad de contribuir a soluciones de datos a gran escala 3. Colaborar con equipos multifuncionales en un entorno dinámico Buscamos un experimentado **Ingeniero Senior de Datos** con habilidades de nivel experto en PySpark y experiencia práctica en la construcción de canalizaciones ETL, arquitecturas de data lake e integraciones de flujos de datos en AWS para unirse a nuestro equipo. Trabajarás tanto con datos estructurados como no estructurados, ingiriéndolos desde múltiples fuentes de datos locales y empresariales, tales como SAP, Intelex, SQL y OSI PI, hacia entornos AWS. Este puesto ofrece la oportunidad de contribuir a soluciones de datos a gran escala y colaborar con equipos multifuncionales en un entorno dinámico. **Responsabilidades** * Diseñar, desarrollar y optimizar canalizaciones ETL mediante PySpark y trabajos de AWS Glue para procesar grandes volúmenes de datos estructurados y no estructurados * Orquestar flujos de trabajo de datos con Apache Airflow, garantizando una programación fiable, gestión de dependencias y control de errores robusto * Construir y mantener flujos de datos desde sistemas locales y empresariales hacia entornos de data lake en AWS * Integrar con fuentes de datos empresariales, incluidas SAP para datos ERP y operativos, Intelex para datos ambientales, de salud, seguridad y calidad, bases de datos SQL para datos relacionales y OSI PI para datos industriales en tiempo real y datos históricos de procesos * Desarrollar y gestionar interacciones mediante API para extraer datos desde servicios locales hacia AWS * Gestionar la extracción, transformación y carga de datos en diversos formatos y protocolos * Apoyar el diseño y mantenimiento de arquitecturas de data lake en AWS mediante Amazon S3, AWS Glue y Lake Formation * Asegurar que los datos estén catalogados, particionados y optimizados para análisis e informes * Implementar controles de calidad de datos, validación y seguimiento de la línea de origen (lineage) en todas las canalizaciones **Requisitos** * Mínimo 3 años de experiencia en puestos de ingeniería de datos * Conocimientos avanzados de Python y PySpark para el procesamiento de datos y el desarrollo de canalizaciones * Amplia experiencia en procesos de Extracción, Transformación y Carga (ETL) * Experiencia en la orquestación de flujos de trabajo con Apache Airflow * Trayectoria comprobada en la construcción de canalizaciones de datos productivas en AWS * Experiencia práctica con trabajos de AWS Glue para el procesamiento ETL * Conocimientos sobre Amazon S3, patrones de data lake y técnicas de catalogación de datos * Experiencia en el uso de herramientas nativas de AWS para supervisión y operaciones * Capacidad para integrarse con sistemas empresariales mediante API, JDBC o conectores nativos, incluidos SAP, Intelex, bases de datos SQL y OSI PI * Capacidad para trabajar con formatos de datos estructurados y no estructurados * Excelentes habilidades de documentación, comunicación y colaboración * Competencia en inglés escrita y hablada al nivel B2 o superior **Deseable** * Conocimientos del sector energético, del petróleo y el gas o de entornos industriales de datos * Comprensión de los flujos de datos y la terminología relacionados con perforación y terminación de pozos


