awesome-sre
🚀 A curated list of awesome Site Reliability Engineering resources, tools, and best practices. Open Source focused!
https://github.com/joaquimsnjunior/awesome-sre
Last synced: 12 days ago
JSON representation
-
🔗 Links Úteis
-
Repositórios Awesome
- Awesome Docker - Docker
- Awesome Kubernetes - Kubernetes
- Awesome SRE Tools - Ferramentas SRE
- Awesome DevOps - DevOps
- Awesome Prometheus - Prometheus
-
Ferramentas Online
- Regex101 - Testador de regex
- Crontab Guru - Editor de cron
- JSON Formatter - Formatador JSON
-
-
🔧 Ferramentas Open Source
-
CI/CD
- GitHub Actions - CI/CD do GitHub
- Jenkins - Automação de CI/CD
- Flux - GitOps toolkit
- Argo CD - 🌟 GitOps para Kubernetes
- Tekton - CI/CD cloud-native
-
Observabilidade Stack Completo
-
API Gateway
-
Service Mesh
- Istio - 🌟 Service mesh completo
- Linkerd - Service mesh leve
- Consul Connect - Service mesh do HashiCorp
- Consul Connect - Service mesh do HashiCorp
-
Feature Flags
-
Secrets Management
- Sealed Secrets - Secrets para K8s
- Mozilla SOPS - Secrets encryption
- HashiCorp Vault - 🌟 Gerenciamento de secrets
-
-
📰 Blogs e Sites
-
Blogs de Empresas
- Meta/Facebook Engineering
- Cloudflare Blog
- Uber Engineering
- Dropbox Tech
- Stripe Engineering
- LinkedIn Engineering
- Netflix Tech Blog - Engenharia Netflix
- Google SRE Blog - 🌟 Blog oficial do Google SRE
-
Sites de Referência
- The Twelve-Factor App - 12 fatores para apps modernas
- DevOps Topologies - Estruturas de times
- SRE.xyz - Portal SRE
-
Blogs Pessoais
- Rachel by the Bay - SRE stories
- Cindy Sridharan - Sistemas distribuídos
- Julia Evans - 🌟 Explicações técnicas simples
- Charity Majors - Observabilidade
-
-
☸️ Kubernetes e Cloud Native
-
Segurança K8s
- Falco - Runtime security
- Trivy - Vulnerability scanner
- kube-bench - CIS benchmark
- Kubescape - Security scanner
-
Ferramentas de Debugging
-
Documentação Oficial
- CNCF Landscape - Mapa do ecossistema cloud native
- Kubernetes Documentation
- CNCF Glossary - Glossário de termos
-
Tutoriais Gratuitos
- Kubernetes Basics
- Learn Kubernetes - Katacoda/Killercoda
-
-
⚡ Performance Engineering
-
Ferramentas de Performance
- Flame Graphs - Visualização de CPU
- Locust - Load testing em Python
- k6 - 🌟 Load testing moderno e scriptável
- Apache Benchmark - Load testing simples
- BPF/eBPF Tools - Performance observability
- wrk - HTTP benchmarking tool
- pprof - Profiling tool do Google
- Vegeta - HTTP load testing
-
Recursos Fundamentais
- Brendan Gregg's Website - 🌟 O guru de performance
- Performance Checklists for SREs
- Systems Performance Book
-
-
📄 Licença
-
Latência - Números que Todo SRE Deve Saber
-
-
📈 Monitoramento e Observabilidade
-
Ferramentas Open Source de Monitoramento
- Zipkin - Distributed tracing system
- Prometheus - 🌟 Sistema de monitoramento e alertas
- Documentação
- Thanos - Prometheus de longa duração e alta disponibilidade
- Vector - Pipeline de observabilidade de alta performance
- Fluentd - Coletor de logs unificado
- Jaeger - 🌟 Distributed tracing
- OpenTelemetry - 🌟 Framework de observabilidade unificado
- Loki - 🌟 Agregação de logs inspirada no Prometheus
- Mimir - Backend de métricas da Grafana
- Signoz - 🌟 APM open-source (alternativa ao DataDog)
- Uptrace - APM com OpenTelemetry
- VictoriaMetrics - Time series DB de alta performance
- Cortex - Prometheus multi-tenant escalável
- Fluent Bit - Coletor leve de logs
- Hyperdx - Plataforma de observabilidade open-source
- Best Practices
- Grafana - 🌟 Visualização e dashboards
- Grafana Dashboards - Dashboards prontos
-
Artigos sobre Observabilidade
-
-
🎯 Cultura SRE
-
Artigos Fundamentais
- What is Site Reliability Engineering? - Entrevista com Ben Treynor Sloss sobre a origem do SRE
- Keys To SRE - Palestra fundamental de Ben Treynor
- Google SRE Resources - Portal oficial de recursos do Google SRE
- How Google Runs Production Systems - Introdução ao livro SRE do Google
- SRE vs DevOps: What's the Difference? - Comparação entre SRE e DevOps
-
SRE em Empresas
- Site Reliability Engineering at Dropbox - SRE no Dropbox
- Site Reliability Engineering at Netflix - De Sysadmin para SRE Netflix
- SRE at Airbnb - Blog de engenharia do Airbnb
- SRE at Spotify - Blog de engenharia do Spotify
- SRE at Twitter/X - Blog de engenharia do Twitter
- Site Reliability Engineering at Google - Como o Google faz SRE
- SRE at Facebook/Meta - Production Engineering na Meta
- Site Reliability Engineering at Uber - História do SRE na Uber
- How we do SRE at GitLab - Handbook público do GitLab
- How we do SRE at GitLab - Handbook público do GitLab
-
Cultura e Mindset
- The Softer Side of DevOps - Aspectos humanos do DevOps/SRE
- Blameless Culture - Cultura sem culpa
- Toil: A Word Every Engineer Should Know - Entendendo e eliminando toil
- SRE Cultural Values - Valores culturais do SRE
-
-
🏢 Case Studies
-
📹 Vídeos e Canais
-
Vídeos Essenciais
-
Canais YouTube
- CNCF - Cloud Native Computing Foundation
- DevOps Conference
- HashiCorp - Terraform, Vault, etc.
- Google Cloud Tech - Conteúdo Google Cloud/SRE
- CNCF - Cloud Native Computing Foundation
- DevOps Conference
- HashiCorp - Terraform, Vault, etc.
-
Playlists Recomendadas
- SREcon Talks - Palestras SREcon
- KubeCon Talks - Palestras KubeCon
- Google SRE Classroom
- SREcon Talks - Palestras SREcon
- KubeCon Talks - Palestras KubeCon
- Google SRE Classroom
-
-
📘 Fundamentos e Conceitos
-
Pirâmide de Necessidades SRE
- Practical Applications of the Dickerson Pyramid - Aplicações práticas
- Dickerson's Hierarchy of Reliability - A hierarquia de confiabilidade
-
Conceitos Core
- The Four Golden Signals - Latência, Tráfego, Erros, Saturação
- Error Budgets - Orçamentos de erro
- Service Level Objectives - SLOs explicados
- Release Engineering - Engenharia de releases
-
Artigos Técnicos
- The Production Environment at Google - Ambiente de produção do Google
- Simplicity: A Prerequisite for Reliability - Simplicidade e confiabilidade
- Distributed Systems at Google - Sistemas distribuídos
-
-
🤖 Automação e Toil
-
Conceitos
-
Ferramentas de Automação
-
-
👔 Contratação e Carreira
-
Artigos sobre Carreira
- So You Want to Be an SRE?
- How to Get Into SRE - Alice Goldfuss
-
Preparação para Entrevistas
- System Design Primer - 🌟 Design de sistemas
- Awesome System Design
- SRE Interview Preparation Guide - 🌟 Guia completo
- Engineering Manager SRE Interview Prep
-
Job Boards
-
-
📊 SLIs, SLOs e SLAs
-
Documentação Oficial
- SRE Fundamentals: SLIs, SLAs and SLOs - Fundamentos
- Implementing SLOs - Implementação prática
- Setting SLOs: a step-by-step guide - Guia passo a passo
-
Ferramentas
- Availability Calculator - Calculadora de disponibilidade
- Pyrra - SLOs com Prometheus
- Sloth - Gerador de SLOs para Prometheus
- SLO Generator - Ferramenta do Google
- OpenSLO - 🌟 Especificação open-source para SLOs
-
Artigos e Tutoriais
- The Art of SLOs - Workshop do Google
- SLO Alerting for Mortals - Alertas simplificados
- Alerting on SLOs - Alertas baseados em SLO
- Error Budget Policy - Políticas de error budget
- Consequences of SLO violations
-
-
📚 Livros Gratuitos
-
Outros Livros Gratuitos
- Production-Ready Microservices
- The Phoenix Project - Romance sobre DevOps (capítulos gratuitos)
- Kubernetes Up & Running - K8s gratuito pela Microsoft
-
Livros Gratuitos da O'Reilly
- Chaos Engineering - Chaos Engineering (disponível com trial)
- Observability Engineering - Observabilidade
- The Human Side of Postmortems - Post-mortems
- The Human Side of Postmortems - Post-mortems
-
Livros do Google (100% Gratuitos)
- Site Reliability Engineering - 🌟 O livro definitivo de SRE
- The Site Reliability Workbook - 🌟 Workbook prático
- Building Secure & Reliable Systems - Segurança e confiabilidade
-
-
🛡️ Confiabilidade e Resiliência
-
Artigos
-
Padrões de Resiliência
- Circuit Breaker Pattern - Martin Fowler
- Timeout Pattern
- Release It! - Padrões de estabilidade
- Retry Pattern
- Retry Pattern
-
Production Readiness
- Production Checklist - Checklist para K8s
- Production Readiness Spectrum
- Production Readiness Review - Modelo do Google
-
-
🚨 Incident Management e On-Call
-
Guias e Handbooks
- Atlassian Incident Management Handbook - Handbook Atlassian
- PagerDuty Incident Response Guide - 🌟 Guia completo e gratuito
- The On-Call Handbook - 🌟 Handbook open-source
- GitLab Incident Management - Processo do GitLab
- GitLab Incident Management - Processo do GitLab
-
Artigos Fundamentais
- Avoiding Burnout for SREs
- Incident Management at Google - Como o Google gerencia incidentes
- On-Call Doesn't Have to Suck - Cindy Sridharan
- Being an On-Call Engineer - Perspectiva Google SRE
- Emergency Response - Resposta a emergências
-
Ferramentas Open Source
- Grafana OnCall - On-call management open-source
- Dispatch by Netflix - 🌟 Gerenciamento de incidentes
- Keep - Plataforma de alerting open-source
- Oncall by LinkedIn - Gerenciamento de on-call
- Response by Monzo - Gerenciamento de incidentes Slack
-
Templates de Runbooks
- Incident Response Template - Templates PagerDuty
- Runbook Template - Template de runbook
-
-
📝 Post-Mortems e Blameless Culture
-
Filosofia e Cultura
- The Infinite Hows - Além dos "5 Whys"
- Blameless PostMortems and a Just Culture - Etsy
-
Coleções de Post-Mortems
- Kubernetes Failure Stories - Histórias de falhas em K8s
- Collection of Post-Mortems - 🌟 Coleção de post-mortems públicos
- SRE Horror Stories - Histórias de falhas
-
Ferramentas
- Incident.io - Gerenciamento de incidentes
- Jeli - Análise de incidentes (tem tier gratuito)
- Jeli - Análise de incidentes (tem tier gratuito)
-
Templates e Guias
- Postmortem Templates Collection - 🌟 Coleção de templates
- Google Postmortem Template - Exemplo do Google
- Etsy Debriefing Guide - Guia de facilitação
-
-
📐 Capacity Planning
-
Artigos e Guias
- How do you do Capacity Planning? - Julia Evans
- Capacity Planning - Capítulo do livro SRE
- Intent-based Capacity Planning
-
Ferramentas
- KEDA - Event-driven autoscaling
- Vertical Pod Autoscaler
- Kubernetes HPA - Auto-scaling horizontal
- Kubernetes HPA - Auto-scaling horizontal
-
-
💻 Programação para SRE
-
Recursos de Aprendizado
- Go for SREs - PDF sobre Go para SRE
- Automate the Boring Stuff with Python - 🌟 Livro gratuito
- The Linux Command Line - Livro gratuito de Bash
-
Bibliotecas Úteis
- Prometheus Client Libraries - Instrumentação
- OpenTelemetry SDKs - Telemetria
- OpenTelemetry SDKs - Telemetria
-
-
💬 Comunidades
-
Slack
- Hangops Slack - 🌟 Comunidade DevOps/SRE
- Kubernetes Slack - Comunidade K8s oficial
- CNCF Slack - Cloud Native community
-
Reddit
- r/devops - Subreddit DevOps
- r/kubernetes - Subreddit K8s
- r/sysadmin - Subreddit SysAdmin
- r/sre - 🌟 Subreddit de SRE
-
Discord
-
Fóruns
-
-
📧 Newsletters
-
Sites de Referência
- KubeWeekly - Newsletter Kubernetes
- SRE Weekly - 🌟 Newsletter semanal de SRE
- Chaos Engineering Newsletter
- Monitoring Weekly - Newsletter de monitoramento
- DevOps Weekly - Newsletter DevOps
- TLDR DevOps - Resumo diário
-
-
🎤 Conferências e Meetups
-
Conferências Principais
- LISA - SysAdmin/SRE
- All Day DevOps - Conferência online gratuita
- QCon - Engenharia de software
- DevOpsDays - Eventos DevOps globais
- KubeCon + CloudNativeCon - Cloud Native
- SREcon - 🌟 A conferência oficial de SRE
- SREcon - 🌟 A conferência oficial de SRE
- Velocity - Performance e operações
-
Meetups
-
-
🎧 Podcasts
-
Sites de Referência
- Google SRE Prodcast - 🌟 Podcast oficial Google SRE
- The Changelog - Open source e desenvolvimento
- Arrested DevOps - Podcast de DevOps
- Screaming in the Cloud
- Kubernetes Podcast - Podcast oficial K8s
- Software Engineering Daily - Entrevistas técnicas
- The Ship Show - Build engineering
- DevOps Paradox
- On-Call Nightmares - Histórias de on-call
-
-
🏗️ Infrastructure as Code
-
Kubernetes Manifests
-
Policy as Code
- Open Policy Agent - 🌟 Policy engine
- Kyverno - Policy engine para K8s
- Checkov - Static analysis para IaC
-
Terraform
- Terraform Best Practices
- Terragrunt - Wrapper para Terraform
- Awesome Terraform - Lista curada
- Terraform Documentation
-
-
🎓 Educação e Aprendizado
-
Cursos Gratuitos Online
- edX - Introduction to DevOps - Cursos gratuitos de DevOps
- Google Cloud - SRE Fundamentals - Curso no Coursera (audit gratuito)
- School of SRE by LinkedIn - 🌟 Currículo completo e gratuito de SRE
- Intro to DevOps - Udacity - Fundamentos de DevOps
- AWS Training - Free Digital Courses - Treinamentos AWS gratuitos
- Linux Foundation - Free Courses - Cursos gratuitos Linux Foundation
- Microsoft Learn - DevOps - Trilha DevOps Microsoft
-
Roadmaps
- SRE Roadmap - Roadmap visual para DevOps/SRE
- Platform Engineering Roadmap - Glossário CNCF
-
Certificações Relevantes
-
Tutoriais Práticos
- Kubernetes the Hard Way - Aprenda K8s da forma difícil
- SRE Classroom: Distributed PubSub - Workshop prático
- Chaos Engineering Bootcamp - Bootcamp de Chaos Engineering
-
-
🔥 Chaos Engineering
-
Ferramentas Open Source
- Steadybit - Plataforma de chaos (tier gratuito)
- Litmus - 🌟 Chaos Engineering para Kubernetes
- Chaos Mesh - 🌟 Plataforma de Chaos para K8s
- Toxiproxy - Proxy para simular condições de rede
- Pumba - Chaos testing para Docker
- Chaos Monkey - 🌟 Ferramenta original da Netflix
- ChaosBlade - Ferramenta de chaos da Alibaba
- PowerfulSeal - Chaos testing para K8s
- Gremlin Free - Tier gratuito do Gremlin
- Gremlin Free - Tier gratuito do Gremlin
-
Princípios e Filosofia
- Principles of Chaos Engineering - 🌟 Princípios fundamentais
-
Artigos e Tutoriais
- Chaos Engineering Resources - 🌟 Lista curada
-
-
📜 Cursos e Certificações
-
Plataformas com Conteúdo Gratuito
- Play with Docker - Playground Docker gratuito
- Play with Kubernetes - Playground K8s gratuito
- Katacoda Scenarios - Cenários interativos
- Killercoda - Cenários interativos (sucessor do Katacoda)
- KodeKloud - Free Labs - Labs gratuitos de K8s
-
YouTube - Séries Educacionais
- freeCodeCamp DevOps - 📹 Cursos completos
- That DevOps Guy - 📹 Tutoriais avançados
- That DevOps Guy - 📹 Tutoriais avançados
-
-
📋 Templates e Checklists
-
Calculadoras
- Uptime Calculator - Calculadora de uptime
-
Checklists
- AWS Security Checklist
- SRE Cheat Sheet - Cheat sheet de SRE
- Production Readiness Checklist - Checklist de produção
- Production Readiness Checklist - Checklist de produção
- Kubernetes Production Best Practices - Best practices K8s
-
Templates
- Incident Response Docs - Documentação de IR
- SLO Templates - Templates de SLO
-
Programming Languages
Categories
📈 Monitoramento e Observabilidade
22
🎯 Cultura SRE
19
🔧 Ferramentas Open Source
18
🚨 Incident Management e On-Call
17
📹 Vídeos e Canais
16
☸️ Kubernetes e Cloud Native
15
🎓 Educação e Aprendizado
15
📰 Blogs e Sites
15
💬 Comunidades
13
📊 SLIs, SLOs e SLAs
13
🔥 Chaos Engineering
12
📝 Post-Mortems e Blameless Culture
11
🎤 Conferências e Meetups
11
⚡ Performance Engineering
11
🛡️ Confiabilidade e Resiliência
11
🏗️ Infrastructure as Code
10
📚 Livros Gratuitos
10
👔 Contratação e Carreira
10
🎧 Podcasts
9
📘 Fundamentos e Conceitos
9
🤖 Automação e Toil
8
📋 Templates e Checklists
8
📜 Cursos e Certificações
8
🔗 Links Úteis
8
📐 Capacity Planning
7
📧 Newsletters
6
💻 Programação para SRE
6
🏢 Case Studies
5
📄 Licença
1
Sub Categories
Ferramentas Open Source de Monitoramento
19
Sites de Referência
18
Ferramentas Open Source
15
Ferramentas
12
SRE em Empresas
10
Artigos Fundamentais
10
Conferências Principais
8
Blogs de Empresas
8
Ferramentas de Performance
8
Cursos Gratuitos Online
7
Canais YouTube
7
Artigos e Tutoriais
6
Ferramentas de Automação
6
Ferramentas de Debugging
6
Documentação Oficial
6
Playlists Recomendadas
6
Guias e Handbooks
5
Checklists
5
Padrões de Resiliência
5
Plataformas com Conteúdo Gratuito
5
CI/CD
5
Repositórios Awesome
5
Preparação para Entrevistas
4
Terraform
4
Blogs Pessoais
4
Job Boards
4
Segurança K8s
4
Cultura e Mindset
4
Conceitos Core
4
Livros Gratuitos da O'Reilly
4
Service Mesh
4
Reddit
4
Coleções de Post-Mortems
3
Artigos e Guias
3
Tutoriais Práticos
3
Kubernetes Manifests
3
Recursos Fundamentais
3
Slack
3
Artigos
3
Fóruns
3
Policy as Code
3
Artigos sobre Observabilidade
3
Discord
3
Meetups
3
YouTube - Séries Educacionais
3
Bibliotecas Úteis
3
Secrets Management
3
Vídeos Essenciais
3
Production Readiness
3
Templates e Guias
3
Livros do Google (100% Gratuitos)
3
Recursos de Aprendizado
3
Artigos Técnicos
3
Outros Livros Gratuitos
3
Ferramentas Online
3
Certificações Relevantes
3
Templates
2
Roadmaps
2
Templates de Runbooks
2
API Gateway
2
Google
2
Filosofia e Cultura
2
Outros
2
Conceitos
2
Feature Flags
2
Artigos sobre Carreira
2
Tutoriais Gratuitos
2
Observabilidade Stack Completo
2
Pirâmide de Necessidades SRE
2
Latência - Números que Todo SRE Deve Saber
1
Calculadoras
1
Princípios e Filosofia
1
Netflix
1
Keywords
kubernetes
15
devops
6
incident-response
5
docker
5
sre
5
monitoring
5
site-reliability-engineering
5
post-mortem
4
security
4
chaos-engineering
4
oncall
4
awesome
4
awesome-list
4
go
3
testing
3
metrics
3
chaos-testing
3
golang
3
chaos
3
alerting
3
postmortem
3
containers
2
incident-reports
2
debugging
2
python
2
alerts
2
interview
2
incident-management
2
observability
2
logs
2
infrastructure-as-code
2
security-tools
2
vulnerability-detection
2
chaos-monkey
2
fault-injection
2
microservice
2
slo
2
prometheus
2
kubectl
2
reliability
2
azure
2
documentation
2
pagerduty
2
aws
2
list
2
team-security
2
service-level-objective
2
netflix-chaos-monkey
1
chaos-community
1
testing-tools
1