SR-инженер (SRE). 4 год строит и эксплуатирует отказоустойчивые системы, сопровождает их, обрабатывает и анализирует сбои.
Помогает увидеть уровень сервиса через SLI/SLO. Строит систему сбора логов.
Более 13 лет в разработке, более 18 лет в IT. Начал с сисадмина, дошел до руководителя группы программистов, а потом перешел в backend-разработку, где увлекся темой надежности систем и стал SRE.
Имеет опыт работы в сфере телекоммуникаций, финтеха и ретейла.
Спикер конференций DevOpsConf, HighLoad.
Автор телеграм-группы «ALLSO — все про SLO».
Сейчас — инженер по надежности в Ви. Tech.
Ты — разработчик, который «продал» руководству идею SLO. Все ждут быстрого результата, и ты уверен, что найдешь готовый рецепт — ведь Google и другие уже всё придумали. Но оказывается, универсального решения нет. Инструменты разрознены, практики — в статьях и докладах, а времени мало: пока энтузиазм не угас, нужно показать хоть что-то работающее.
Расскажу, как мы проходили этот путь — что сработало, а что нет. Всё, что хотел бы знать в самом начале. И отдам наши наработки, чтобы вы могли перепрыгнуть все те грабли, которые собрали мы.
Минус 2 года мучений: быстро внедряем SLO