




Resumen: Únase como Ingeniero de Datos para optimizar una plataforma de datos a gran escala basada en AWS, centrándose en el rendimiento, la fiabilidad y la eficiencia operativa. Aspectos destacados: 1. Impulsar la excelencia operativa para una plataforma de datos a gran escala en AWS 2. Colaborar para habilitar la toma de decisiones basada en datos a gran escala 3. Trabajar con tecnologías modernas en la nube e influir en las decisiones arquitectónicas **Acerca de Distillery** Distillery es una firma global de consultoría tecnológica que colabora con empresas innovadoras para construir soluciones de software de alta calidad. Nos especializamos en conformar equipos de ingeniería distribuidos y de élite que trabajan estrechamente con nuestros clientes para resolver complejos desafíos empresariales. En Distillery valoramos la artesanía, la propiedad y el aprendizaje continuo. Nuestros equipos tienen autonomía para tomar decisiones técnicas, colaborar abiertamente y generar un impacto real. Trabajamos con tecnologías modernas, arquitecturas nativas de la nube y organizaciones impulsadas por los datos en múltiples industrias. **Acerca del puesto** Buscamos un **Ingeniero de Datos** experimentado para unirse a nuestro equipo e impulsar la excelencia operativa en una plataforma de datos a gran escala basada en AWS. Trabajará con un ecosistema de datos maduro y listo para producción, compuesto por aproximadamente **1.000 DAGs de Airflow y trabajos de AWS Glue**, migrados desde Hadoop/MapReduce. Su enfoque principal será **optimizar el rendimiento, reducir costos, mejorar la fiabilidad y garantizar la eficiencia operativa** en toda la plataforma. Este puesto es ideal para alguien que disfruta trabajar cerca de sistemas productivos, mejorar pipelines existentes y colaborar con partes interesadas para habilitar la toma de decisiones basada en datos a gran escala. **Principales responsabilidades** **Excelencia operativa y optimización** * Supervisar, mantener y optimizar ~1.000 DAGs de producción de Airflow y trabajos de AWS Glue * Identificar y resolver cuellos de botella de rendimiento, reducir los tiempos de ejecución de los pipelines y optimizar la utilización de recursos * Implementar estrategias de optimización de costos en los servicios de AWS (Redshift, Glue, S3, recursos de cómputo) * Mejorar la fiabilidad de los pipelines mediante un manejo de errores mejorado, reintentos y validación de datos * Establecer y mejorar los acuerdos de nivel de servicio (SLA), supervisión, alertas y observabilidad en los pipelines de datos * Reducir la deuda técnica y estandarizar patrones en todo el ecosistema de DAGs **Infraestructura y ingeniería de datos** * Mantener y optimizar arquitecturas de datos escalables en AWS (S3, Redshift, Glue, EMR, Lambda) * Mejorar continuamente el rendimiento de las consultas en Redshift, los modelos de datos y la eficiencia del clúster * Optimizar la partición de datos, las estrategias de compresión y distribución, así como los costos de almacenamiento * Gestionar la infraestructura como código e implementar procesos automatizados de despliegue * Garantizar las mejores prácticas de seguridad, cumplimiento y gobernanza de los datos * Desarrollar herramientas y capacidades de autoservicio para mejorar la productividad del equipo **Colaboración y soporte analítico** * Colaborar con partes interesadas comerciales, analistas y científicos de datos para comprender los requisitos de datos * Traducir necesidades comerciales en soluciones técnicas robustas y modelos de datos * Brindar soporte para análisis ad hoc y solicitudes de exploración de datos * Documentar pipelines de datos, esquemas y procesos para equipos multifuncionales * Contribuir a iniciativas de gobernanza de datos y mantenimiento del catálogo de datos **Soporte y fiabilidad en producción** * Supervisar proactivamente la salud de los pipelines y resolver problemas antes de que afecten los SLA * Diagnosticar y resolver incidentes en producción de forma eficiente * Implementar registro integral, métricas y alertas para visibilidad operativa * Impulsar la mejora continua para reducir fallos y esfuerzo operativo * Establecer y aplicar prácticas de CI/CD para despliegues seguros y automatizados * Participar en turnos de guardia para garantizar la disponibilidad de la plataforma de datos (si aplica) * Realizar análisis de causa raíz e implementar soluciones definitivas para problemas recurrentes **Cualificaciones requeridas** **Habilidades técnicas** * **Python:** 3+ años de experiencia en producción en ingeniería de datos (pandas, boto3, bibliotecas SQL) * **AWS:** Amplia experiencia práctica con servicios de datos de AWS, incluidos: + Amazon Redshift (optimización de consultas, modelado de datos, administración) + AWS Glue (trabajos ETL, crawlers, Catálogo de Datos) + Apache Airflow / MWAA (desarrollo de DAGs, operadores, sensores) + S3, Lambda, Step Functions, EMR (experiencia o conocimiento previo) * **SQL:** Habilidades avanzadas en SQL con experiencia en la optimización de consultas complejas * **Infraestructura en la nube:** Comprensión sólida de conceptos de redes, IAM y seguridad * **Control de versiones:** Competencia con Git y flujos de trabajo colaborativos de desarrollo **Habilidades blandas** * Excelentes habilidades comunicativas, capaz de explicar conceptos técnicos a partes interesadas no técnicas * Mentalidad colaborativa y experiencia trabajando en equipos multifuncionales * Orientación a la resolución de problemas, con gran atención al detalle y a la calidad de los datos * Capacidad para gestionar múltiples prioridades en un entorno dinámico **Cualificaciones preferidas** * Experiencia con **dbt (Data Build Tool)** para ingeniería analítica * Conocimiento de herramientas alternativas de orquestación (Prefect, Dagster, Step Functions) * Exposición a tecnologías de streaming (Kinesis, Kafka, Flink) * Experiencia con prácticas DataOps/MLOps y CI/CD para pipelines de datos * Certificaciones de AWS (Arquitecto de Soluciones, Analítica de Datos o similares) * Conocimiento de conceptos de almacenes de datos (Kimball, esquemas en estrella, SCDs) * Experiencia con infraestructura como código (Terraform, CloudFormation) * Familiaridad con herramientas de observabilidad de datos (Monte Carlo, Datadog, Great Expectations) **Por qué debería trabajar en Distillery** * Trabajar en plataformas de datos a gran escala y del mundo real con desafíos técnicos significativos * Colaborar con ingenieros talentosos en una cultura que valora la calidad y la propiedad * Influenciar decisiones arquitectónicas y mejorar sistemas ya en producción * Desarrollar su carrera mediante el aprendizaje continuo y la exposición a tecnologías modernas en la nube * Entorno flexible y compatible con el trabajo remoto, con fuerte énfasis en el equilibrio entre vida laboral y personal * Formar parte de una empresa que confía en sus ingenieros y valora las asociaciones a largo plazo


