{"id":24529148,"url":"https://github.com/eabykov/sre","last_synced_at":"2026-01-19T17:34:53.511Z","repository":{"id":46735275,"uuid":"499149215","full_name":"eabykov/sre","owner":"eabykov","description":"Надежность — это не отсутствие сбоев. Это способность системы, команды и человека вместе подняться после падения, переосмыслить, перестроить и идти дальше — с новыми правилами игры, где человеческая уязвимость не угроза, а часть уравнения","archived":false,"fork":false,"pushed_at":"2025-06-04T12:18:29.000Z","size":237,"stargazers_count":3,"open_issues_count":0,"forks_count":1,"subscribers_count":1,"default_branch":"sre","last_synced_at":"2025-08-04T22:32:09.325Z","etag":null,"topics":["chaos-testing","error-budget","incident","monitoring","mttd","mttm","mttr","postmortem","reliability","sla","sli","slo","sre","stamp"],"latest_commit_sha":null,"homepage":"https://eabykov.github.io/sre/","language":null,"has_issues":false,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/eabykov.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null}},"created_at":"2022-06-02T13:36:22.000Z","updated_at":"2025-06-04T12:18:30.000Z","dependencies_parsed_at":"2023-01-20T07:53:56.018Z","dependency_job_id":"40af5c12-dcdf-4906-af6f-a5217070da59","html_url":"https://github.com/eabykov/sre","commit_stats":null,"previous_names":["eabykov/sre"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/eabykov/sre","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/eabykov%2Fsre","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/eabykov%2Fsre/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/eabykov%2Fsre/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/eabykov%2Fsre/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/eabykov","download_url":"https://codeload.github.com/eabykov/sre/tar.gz/refs/heads/sre","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/eabykov%2Fsre/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":28577421,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-01-19T16:29:19.148Z","status":"ssl_error","status_checked_at":"2026-01-19T16:29:17.772Z","response_time":67,"last_error":"SSL_read: unexpected eof while reading","robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":false,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["chaos-testing","error-budget","incident","monitoring","mttd","mttm","mttr","postmortem","reliability","sla","sli","slo","sre","stamp"],"created_at":"2025-01-22T07:34:58.867Z","updated_at":"2026-01-19T17:34:53.501Z","avatar_url":"https://github.com/eabykov.png","language":null,"readme":"### Материалы и подготовка\n\n1. [Вопросы на собеседовании](questions.md)\n2. [Основные принципы SRE](main.md)\n3. [Пример хронологии инцидента с ключевыми метриками](example-incident.md)\n4. [Паттерны надежности](patterns-of-reliability.md)\n5. [Четыре столпа наблюдаемости](observability.md)\n6. [Создание неуязвимого мониторинга](disaster-prevention.md)\n7. [Внедрение STAMP в Google](stamp-google.md)\n8. [Критика MTTx метрик](critic-mttx-metrics.md)\n\n### Основные термины SRE\n\n| Термин | Значение |\n|-|-|\n| **SLI** | Текущий показатель обслуживания — 99.9% успешных запросов или 99.9% запросов обрабатываются менее чем за 1 секунду\n| **SLO** | Цель уровня обслуживания — приложение отвечает быстрее 1 секунды в 99% случаев или сервис доступен 99,5% времени в году\n| **SLA** | Документально утвержденная договоренность об уровне обслуживания с потребителями сервиса аналогична SLO, с возможными санкциями за нарушение или премиями за соблюдение\n| **Error Budget** | Бюджет проблем — соотношение SLI к SLO, которое помогает разработчикам планировать выполнение задач по улучшению показателей устойчивости и задач с добавлением или изменением функциональности в сервис. Если это соотношение меньше 100%, то в приоритете проблемы с доступностью или производительностью\n| **Состояние Опасности** | Свойство системы или набор условий, которые вместе с определенным набором наихудших обстоятельств окружающей среды приведут к инциденту\n| **Инцидент** | Ситуация, при которой сервис выходит из нормального (стабильного) состояния, например диск базы данных заполняется с значительно большей скоростью, чем раньше, и на нем не останется места через 1 месяц, время ответа возросло с 1 сек до 2 сек, процент ошибок стал 0.4% вместо 0.06% \n| **Postmortem** | Проработка после инцидента — это анализ произошедшего и планирование мероприятий по предотвращению повторения подобного или уменьшению его последствий \n| **MTTD** | Время с начала инцидента до его обнаружения (командой мониторинга, сработавшее оповещение и т. д.)\n| **MTTI** | Время с обнаружения инцидента до его изоляции - идентификации места поломки, например `Сломан сервис Х` или `Проблемы на балансиловщике Y`\n| **MTTM** | Время от изоляции проблемы до устранения ее воздействия на пользователей/партнеров (например, путем переключения трафика на резервную систему или включения обходного пути).\n| **MTTR** | Время с изоляции проблемы до полного ее устранения и восстановления нормальной работы сервиса\n| **RTO** | Максимально допустимое время простоя системы до её восстановления (определяется в зависимости от критичности системы)\n| **RPO** | Максимально допустимая потеря данных (измеряется во времени: например, данные за последние 15 минут могут быть потеряны)\n| **STAMP** | Система, спроектированная на достижение безопасного состояния системы (уход от Состояние Опасности). Для понимания причин произошедшего инцидента необходимо определить, почему система управления была неэффективной. Для предотвращения будущих инцидентов необходимо переключить внимание с предотвращения инцидентов на более широкую цель - разработку и внедрение средств контроля, которые обеспечат соблюдение необходимых ограничений для безопасности.\n","funding_links":[],"categories":[],"sub_categories":[],"project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Feabykov%2Fsre","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Feabykov%2Fsre","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Feabykov%2Fsre/lists"}