Ad Widget

**astrix89** · 16-05-2018, 05:31

есть инсталяция с 20792 хостов, 4048827 метрик, 1821013 триггеров, ~15k nvps, проблема аналогичная, правда все метрики снимаются через 8 прокси серверов(хотя это не столь значимо).
перемещение базы в раздел в оперативной памяти на ситуацию не влияет.

**bjornskau** · 16-05-2018, 08:47

Originally posted by astrix89

есть инсталяция с 20792 хостов, 4048827 метрик, 1821013 триггеров, ~15k nvps, проблема аналогичная, правда все метрики снимаются через 8 прокси серверов(хотя это не столь значимо).
перемещение базы в раздел в оперативной памяти на ситуацию не влияет.

Если не секрет, можете поделиться архитектурой? И есть ли идеи что именно вызывает такие тормоза фронта?

По ссылке на гугл на всякий случай выдержка из slow queries log:

slow.txt

https://drive.google.com/file/d/1kN4giaFLsP1X2myNDvFXooZsQQXFP5MJ/view?usp=sharing

**Viks** · 16-05-2018, 14:32

Добрый вам всем,
скажу по опыту и вставлю своих 5 копеек.

Ой, тут я вижу много проблем, да именно проблем а не косяков или багов,
одна из самих существенных это неправильный выбор элементов и архитектуры, данная связка компонентов не подходит для таких объёмов, а то что правильно то неразвёрнутое и несконфигурено в нужном образе.

У меня недавно надо било опять сконструировать и поднимать большую мониторинг ферму и подключать туда несколько точек по миру, "зная всю глубину всех глубин", первым делом я вычеркнул из списка любую имплементацию MYSQL, это тут самая большая проблема, а то что это в любых DOCs как самая простая дБ это назначит что ee можно использовать в любых масштабах, да нет жe можно использовать но потом вот появляются во такие вот записи в форумах, тут конечно разработчики будут оппонировать, но не стоит, можем за кофе в другом месте об этом побеседовать.
Значит по делу,
тут я невижу Load Balancing не для DB, таки и не для Frontend, дальше я боюсь даже спросить сколько записей находится внутри HISTORY and TREND таблес and file size on disk, не ну небоюс просто знаю что д@^&я.

Скажу так, АН-2 можно красить в цвета истребителя МИГ-29, но из-за этого он не будет летать как истребитель,

надо в корне менять архитектуру, я очень тепло рекомендую переехать на PostgreSQL;

дальше отказаться от ACTIVE-ACTIVE Databases (любых - это самое страшное по перформанце что может только бить, детали почему я шас пропускаю, это другой топик), и перейти на Master-Slave-Slave Databases;
я подозреваю что переехать на PostgreSQL сразу не получится, люди будут сопротивляться (пока сами не погуляют по полю с граблями и не отобьют сами себе весь лоб), значит будут пробовать шото чинит в этой имплементации, ну ладно, мои рекомендации поэтому такие:

в USER PROFILE всем USERS убрать “Refresh” time на минимум "2 мин", люди любят там ставить 30 сек, так как если кто-то у себя в компе в нескольких tabs открыл какой-то screen с time scale 1 дай, а таких screens несколько, и таких чуваков тоже несколько, и они оставили комп и ушли дамой или обедать, то всё это время идёт очень большой и ненужный оверлоад на Zabbix Web server + DB;
тут вообще то надо зделать запрос девелоперам переделать и ограничить это и жёстко контролировать только с разрешение Админов;
зделать UPGRADE на Zabbix 3.4.х, хотя пока соберётесь будет уже 4.0.х;
"СУБД развернута на двух узлах MariaDB Galera Cluster 10" - это по определению неправильно, 2 машины нельзя никак, минимум это 3 машины;
- а) дальше "MariaDB Galera Cluster" убираем, и оставляем Master-Slave-Slave можете оставить на MariaDB (Pacemaker etc все делала конечно тоже) но между DB и Zabbix (SRV and WEB) ставим посередине "MariaDB MaxScale" штоби зделать horizontal scale на SELECT;
- б) если не захотите ставить "MariaDB MaxScale" и не будите убирать "Galera Cluster", то надо переделать " "Galera Cluster" как полноценный ACTIVE-ACTIVE-ACTIVE, а именно используя "FLOATING-IP" которую будут иметь все 3 nodes одновременно, и на которую будут настроены Zabbix Сервер и Веб морда, так будет распределятся нагрузка на несколько ДБ серверов одновременно, это немножко ускорит, но основные проблемы остаются:
  - где практически невозможно зделать грамотный backup, потому что на долго будет LOCK на TABLES и не только в одном ДБ сервере а во всём CLUSTERE одновременно, из за чего мониторинг проста остановится и станет бесполезным на долго, на час а то и 2 и 3, правда можно замутить backup с параметрами штоби наделал LOCK но там другие проблемы, штоби этого избежать лучше всего подцепить одну СЛАВЕ ДБ и от нею забирать backup;
  - ну а OPTIMIZE TABLE and/or ALTER TABLE с этом вообще страшно, от этого не избежать, если запустить, то тоже всё накроется медным тазом, вот и одно из преимуществ PostgreSQL с его autovakuum;
обязательно зделать “Database Partitioning” это существенно поднимет перформанце и частично по решает приведшие проблемы, а также решит HouseKeeping проблемы, которые у вас должны бить большие;
в вашей ситуации подозреваю что стоит активизировать ElecticSearch функционал, тут разработчики может бить что-то скажут, но по теории выглядит как полезная и очень нужная штука;
переделать Zabbix Server на Active-Passive cluster;
всю вашу инфраструктуру разбить так сказать на несколько секторов и каждый сектор штоби работал через свой Zabbix-Proxy (каждый притом Active-Passive инсталляция), и таких Zabbix-Proxy парочек в вашем случае, например, где-то 8-10, это сильно разгрузит Zabbix сервер, и зделает вашу жизнь по легче и спокойнее, можно будет делать маинтенанце прямо по середине дня и это не будет мешать работе мониторинга;
переделать HAProxy на ACTIVE-ACTIVE для Frontend + checks ет (для ДБ HAProxy не нужен тут), убрать APACHE, а за ним поставить несколько машин с WebFrontend на Nginx + PHP-FPM + Memcached Cluster, и это всё очей хорошо будет снимать нагрузку на WebMordu и самое главное меньше один USER будет мешать другим;
“DB disks space” использовать Host Local Disk storage na SSD, и для этого НЕ использовать Shared Network storage (NFS, ISCSI, ...).

После всего этого получится хороший такой Бомбардировщик, надёжный и выносливый, какой вам шас и нужен, правда на не большие расстояния, но Истребитель тут никак не получится, особенно с MySQL на борту.

Можно также и ПМ,
если есть какие-то вопросы не для всех ушей и штоби меньше спам....

**bjornskau** · 16-05-2018, 14:55

Originally posted by Viks

Добрый вам всем,
скажу по опыту и вставлю своих 5 копеек.

Спасибо вам. Очень полезный опыт. Уход от MySQL сейчас для нас маловероятен, а вот MaxScale Partitioning, nginx + php-fpm и Zabbix Proxy попробуем внедрить.)

**Viks** · 16-05-2018, 15:01

Да не за что, пожалуйста.

Как говорится обращайтесь.

Ad Widget

Ускорение работы фронтенда Zabbix при мониторинге 20 000 хостов.

Ускорение работы фронтенда Zabbix при мониторинге 20 000 хостов.

Comment

Comment

Comment

Comment

Comment