Т‑Банк — это не только банк. Это еще брокер, мобильный оператор, страховая компания и другие сервисы. Все они с самого начала создавались с расчетом на использование в онлайне. Это значит, что критически важно поддерживать SLA и обнаруживать проблемы раньше, чем они причинят ущерб. Такое возможно, только если выстроить качественный мониторинг на всех уровнях — от инфраструктуры до бизнес-процессов.
Изначально инструменты мониторинга в Т‑Банке представляли собой солянку из десятков инстансов Zabbix, ELK, Graylog, Prometeus и др. Такой зоопарк не позволял делать сквозной анализ, настройка алертинга была болью. Не говоря уже о сложности его администрирования.
Чтобы сделать мониторинг более централизованным, развернули Splunk — универсальную платформу для обработки машинных данных. С частью систем Splunk интегрировался автоматически, для других настроили заливку логов руками. Аналитики были очень довольны: наконец-то стало возможно строить сложные запросы к логам. Правда, стоимость Splunk была завязана на объем данных, а данных в Т‑Банке уже тогда было очень много, но это не успело стать проблемой.
В 2019 году Splunk скоропостижно покинул Россию, продлить лицензию стало невозможно. Идеальной замены на рынке не было, наступать второй раз на грабли вендорлока тоже не хотелось. Приняли решение разработать собственный инструмент — так появился Sage.
Мы хотели переехать на Sage бесшовно, для этого нужно было иметь:
- свой Splunk-подобный язык запросов;
- всеядность относительно формата логов;
- визуализацию и алертинг.
Собрали небольшую команду из опытных инженеров, и уже через год Sage был на проде. Переезд со Splunk завершился успешно.