




Resumen: Buscamos un experimentado Ingeniero Líder de Datos con dominio de PySpark para construir canalizaciones ETL, arquitecturas de lagos de datos e integrar diversas fuentes de datos en AWS. Aspectos destacados: 1. Dirigir proyectos de ingeniería de datos con experiencia en PySpark y AWS. 2. Trabajar en proyectos de datos a gran escala en un entorno dinámico. 3. Integrar datos procedentes de diversas fuentes empresariales en lagos de datos de AWS. Buscamos un experimentado **Ingeniero Líder de Datos** con conocimientos avanzados en PySpark y experiencia práctica en la construcción de canalizaciones ETL, arquitecturas de lagos de datos e integración de flujos de datos en AWS. Usted gestionará tanto datos estructurados como no estructurados, ingiriendo información desde una variedad de fuentes locales y empresariales, tales como SAP, Intelex, SQL y OSI PI, hacia AWS. Este puesto ofrece la oportunidad de trabajar en proyectos de datos a gran escala y colaborar con diversos equipos en un entorno dinámico. **Responsabilidades** * Crear, perfeccionar y gestionar canalizaciones ETL mediante PySpark y trabajos de AWS Glue para procesar extensos conjuntos de datos estructurados y no estructurados * Coordinar flujos de trabajo de datos con Apache Airflow, garantizando una programación fiable, la gestión de dependencias y un manejo eficaz de errores * Desarrollar y mantener flujos de datos desde sistemas locales y empresariales hacia entornos de lagos de datos de AWS * Integrarse con fuentes empresariales, incluidas SAP para datos ERP y operativos, Intelex para datos ambientales, de salud, seguridad y calidad, bases de datos SQL para datos relacionales y OSI PI para datos industriales y del historial de procesos en tiempo real * Construir y supervisar interacciones API para recuperar datos desde servicios locales hacia AWS * Gestionar la extracción, transformación y carga de datos en múltiples formatos y protocolos * Colaborar en el diseño y mantenimiento de arquitecturas de lagos de datos de AWS mediante Amazon S3, AWS Glue y Lake Formation * Asegurar que los datos estén adecuadamente catalogados, particionados y optimizados para análisis e informes * Aplicar controles de calidad de datos, validación y seguimiento de la línea de origen en todas las canalizaciones **Requisitos** * Al menos 5 años de experiencia en puestos de ingeniería de datos * Un año mínimo de experiencia liderando y gestionando equipos de desarrollo * Alto nivel de competencia en Python y PySpark para procesamiento de datos y creación de canalizaciones * Sólida base en procesos ETL para integración de datos * Experiencia coordinando flujos de trabajo con Apache Airflow * Éxito demostrado en la construcción de canalizaciones de datos productivas en AWS * Experiencia práctica con trabajos de AWS Glue para operaciones ETL * Conocimientos sobre Amazon S3, metodologías de lagos de datos y prácticas de catalogación de datos * Experiencia con herramientas nativas de AWS para monitoreo y operaciones * Capacidad para integrar sistemas empresariales mediante APIs, JDBC o conectores nativos, incluidos SAP, Intelex, bases de datos SQL y OSI PI * Capacidad para trabajar con formatos de datos estructurados y no estructurados * Excelentes habilidades en documentación, comunicación y colaboración * Competencia en inglés al nivel B2+ o superior, tanto escrito como hablado **Deseable** * Experiencia trabajando en entornos de datos energéticos, petroleros y gasíferos o industriales * Conocimiento de flujos de datos y terminología relacionados con perforación y terminación


