Ingeniero Principal de Confiabilidad de Sitios

25,000 ARS/mes

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

79Q22222+22

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Buscamos un Ingeniero Principal de Confiabilidad de Sitios para mejorar la fiabilidad, disponibilidad, rendimiento y escalabilidad de los entornos de producción, con una mentalidad sólida de ingeniería de software. Aspectos destacados: 1. Arquitecturar y entregar soluciones que mejoren la fiabilidad y el rendimiento del sistema 2. Desarrollar automatización para eliminar los esfuerzos operativos manuales y las tareas recurrentes 3. Colaborar con equipos de desarrollo para fortalecer la resiliencia y la operabilidad del servicio Buscamos un **Ingeniero Principal de Confiabilidad de Sitios** con experiencia significativa en la mejora de la fiabilidad, disponibilidad, rendimiento y escalabilidad de los entornos de producción. El candidato ideal aportará una mentalidad sólida de ingeniería de software combinada con conocimientos operativos profundos, experiencia en la nube, capacidades de automatización y experiencia práctica en la gestión de incidencias. Este puesto se centra en la ingeniería de sistemas fiables, la reducción de la carga operativa repetitiva, el fortalecimiento de la observabilidad y el apoyo a los equipos de ingeniería para ofrecer servicios alineados con los objetivos de fiabilidad establecidos. EPAM es un proveedor global líder en servicios de ingeniería y desarrollo de plataformas digitales. Estamos comprometidos con generar un impacto positivo en nuestros clientes, empleados y comunidades. Adoptamos una cultura dinámica e inclusiva. Aquí colaborarás con equipos multinacionales, contribuirás a una gran variedad de proyectos innovadores que ofrecen soluciones creativas y vanguardistas, y tendrás la oportunidad de seguir aprendiendo y creciendo continuamente. Sin importar tu ubicación, te unirás a una comunidad dedicada, creativa y diversa que te ayudará a descubrir todo tu potencial. **Responsabilidades** * Arquitecturar y entregar soluciones que mejoren la fiabilidad, disponibilidad y rendimiento del sistema * Establecer y supervisar indicadores de nivel de servicio (SLI), objetivos de nivel de servicio (SLO) y presupuestos de errores * Desarrollar automatización que elimine los esfuerzos operativos manuales y las tareas recurrentes * Mejorar las capacidades de monitoreo, registro, seguimiento y alertas * Participar en la respuesta a incidencias, la investigación de causas raíz y los análisis posteriores (postmortems) * Colaborar con equipos de desarrollo para fortalecer la resiliencia y la operabilidad del servicio * Mantener los sistemas de producción y ayudar a resolver problemas técnicos complejos * Contribuir a la planificación de capacidad, ajuste de rendimiento y esfuerzos de recuperación ante desastres * Promover las prácticas de ingeniería de fiabilidad entre los equipos **Requisitos** * Experiencia significativa en roles de SRE, DevOps, Ingeniería de Plataformas o Ingeniería de Producción * Experiencia práctica en la operación de sistemas de producción a gran escala * Conocimiento de plataformas en la nube como AWS, Azure o GCP * Conocimiento profundo de herramientas de observabilidad que abarcan monitoreo, registro, seguimiento y alertas * Experiencia comprobada en gestión de incidencias, análisis posteriores (postmortems) y análisis de causas raíz * Habilidades sólidas de programación o scripting en Python, Go, Bash o lenguajes comparables * Experiencia práctica con sistemas Linux, redes y fundamentos de sistemas distribuidos * Conocimiento de contenedores y plataformas de orquestación como Docker y Kubernetes * Comprensión sólida de CI/CD, automatización e Infraestructura como Código (IaC) * Excelentes habilidades para resolver problemas y capacidad para actuar bajo presión **Deseable** * Experiencia en la definición de indicadores de nivel de servicio (SLI), objetivos de nivel de servicio (SLO) y presupuestos de errores * Experiencia práctica con Prometheus, Grafana, Datadog, New Relic, Splunk, ELK u otras herramientas comparables * Conocimiento de Terraform u otras tecnologías de IaC * Exposición a la ingeniería del caos o pruebas de resiliencia * Experiencia con sistemas de alta disponibilidad y planificación de recuperación ante desastres * Certificaciones en tecnologías de nube o Kubernetes **Ofrecemos** * Bono de conectividad (25.000 ARS se pagan con la nómina al final de cada mes como concepto no salarial). * Medicina Prepaga (cubre al colaborador y su grupo familiar directo). * Licencia por paternidad (se suman dos días adicionales a lo establecido por ley, totalizando 4 días). * Tarjeta de descuentos. * Capacitación en inglés (clases semanales, dos veces por semana). * Programa de capacitación (acceso a múltiples planes de formación personalizados según las necesidades de cada rol dentro de la empresa). * Bono por matrimonio (la empresa duplica la asignación establecida por ley que ofrece ANSES). * Programa de referidos (el bono por referido se paga cuando el referido de un colaborador se incorpora a la empresa). * Acuerdos externos y descuentos. * Vacaciones: 14 días naturales al año *Al postularse a este puesto, usted acepta que sus datos personales puedan ser utilizados tal como se establece en la Nota de Privacidad y Política de EPAM.*

Fuentea: indeed Ver publicación original

Sofía González

Indeed · HR

Compañía

Indeed

Sofía González

Indeed · HR

Empleos similares

Ingeniero Principal de Confiabilidad de Sitios

Descripción

Compañía

Empleos similares

Gerente de Marketing

AI Offer

Analista Contable

Psicólogo Escolar

Comprador Junior de Medios Afiliados

ejecutivo/a de atención al cliente - Marketing, comercial