Ad Widget

**samosvat** · 07-08-2016, 00:22

/etc/my.cnf

Code:

# Percona Server template configuration

[mysqld]

collation-server = utf8_bin
init-connect='SET NAMES utf8'
character-set-server = utf8

datadir=/var/lib/mysql
socket=/var/lib/mysql/mysql.sock

# Disabling symbolic-links is recommended to prevent assorted security risks
symbolic-links=0

log-error=/var/log/mysqld.log
pid-file=/var/run/mysqld/mysqld.pid
slow-query-log = 1
slow-query-log-file = /var/log/mysql_sq.log
long_query_time = 2000
skip-name-resolve

#innodb_flush_method = O_DIRECT
innodb_flush_method = O_DIRECT_NO_FSYNC
#sync_binlog = 0
query_cache_size=32M
query_cache_type=1

innodb_file_format = Barracuda
innodb_file_per_table = 1
innodb_buffer_pool_size=200G
innodb_page_cleaners = 8
#innodb_buffer_pool_instances = 8
tmp_table_size = 256M

#innodb_tmpdir=/var/lib/mysql-tmp
#tmpdir=/var/lib/mysql-tmp

innodb_log_file_size=256M
max_allowed_packet=256M
default_password_lifetime=0
bind-address = 0.0.0.0

#enforce-gtid-consistency
#gtid-mode=ON
#log-bin = mysql-bin
#server-id = 1
innodb_flush_log_at_trx_commit = 0
#expire_logs_days = 10
event_scheduler = on

max_connections = 10000

# Remove leading # to set options mainly useful for reporting servers.
# The server defaults are faster for transactions and fast SELECTs.
# Adjust sizes as needed, experiment to find the optimal values.
# join_buffer_size = 128M
# sort_buffer_size = 2M
# read_rnd_buffer_size = 2M

/etc/zabbix/zabbix_server.conf

Code:

LogFile=/var/log/zabbix/zabbix_server.log
LogFileSize=100
DebugLevel=3
PidFile=/var/run/zabbix/zabbix_server.pid
DBSocket=/var/lib/mysql/mysql.sock
DBName=zabbix
DBUser=zabbix
DBPassword=PASSWD
StartPollers=16
StartIPMIPollers=1
StartPollersUnreachable=8
StartTrappers=16
StartPingers=4
StartDiscoverers=2
StartHTTPPollers=4
SNMPTrapperFile=/var/log/snmptrap/snmptrap.log
HousekeepingFrequency=0
CacheSize=1024M
HistoryCacheSize=1024M
HistoryIndexCacheSize=32M
TrendCacheSize=32M
ValueCacheSize=1024M
Timeout=30
AlertScriptsPath=/usr/lib/zabbix/alertscripts
ExternalScripts=/usr/lib/zabbix/externalscripts

Code:

Количество узлов сети (активированных/деактивированных/шаблонов)                621      301/220/100
Количество элементов данных (активированных/деактивированных/неподдерживаемых)  25818    19415/6009/394
Количество триггеров (активированных/деактивированных [проблема/ок])            13525    13356/169[154/13202]
Количество пользователей (в сети)                                               65       4
Требуемое быстродействие сервера, новые значения в секунду                      237.72

**samosvat** · 07-08-2016, 00:37

Скриншоты сюда прикладывать не удобно, мелкие шибко. Вот ссылки на них:

Запросы в момент очередного фриза: https://www.dropbox.com/s/rmvderqzk5...56.27.png?dl=0
InnoDB i/o: https://www.dropbox.com/s/79qk0vd5y0...56.39.png?dl=0
Открытые таблицы: https://www.dropbox.com/s/e3xbteb5ov...56.56.png?dl=0
Хистори синкер: https://www.dropbox.com/s/snp51dkexm...03.12.png?dl=0
Запросов к БД: https://www.dropbox.com/s/1rw9fz81s7...03.28.png?dl=0
Нагрузка на сервер (Zabbix+DB+Front): https://www.dropbox.com/s/hc5lp5ezr6...26.45.png?dl=0

**glebs.ivanovskis** · 07-08-2016, 19:36

Как выглядит использование value cache? Этот график должен быть в стандартных шаблонах.

Я вижу запросы данных из базы за неделю. Обычно сервер старается не читать данные из базы, а хранить их в памяти. Исключение - при нехватке места в value cache он переходит в low memory mode, и это очень сильно сказывается на производительности.

Процесс history syncer не только пишет исторические данные в базу, но и считает на их основе триггеры. Копайте в сторону того, какие данные провоцируют фриз (много данных по одним и тем же элементам данных, пересчёт большого числа триггеров, переполнение value cache...)

**samosvat** · 07-08-2016, 20:34

По тем 3 запросам, которые висят при "фризе":
1 запрос - это метрика (itemid = 237823) которая формируется через LLD на одном из добавляемых хостов. Всего хостов 50..100, метрик у каждого 50...100 (в том числе и LLD). Итого в сумме добавляю от 2500 до 10 тыс метрик.

Метрика:

Dropbox - Error - Simplify your life

https://www.dropbox.com/s/5mexbdyhs2lphrz/item.PNG?dl=0

триггеры этой метрики (выделено):
https://www.dropbox.com/s/tg5wac8b4t...ggers.PNG?dl=0

Остальные 2 аналогичные. В триггерах вроде "криминала" нет.

**samosvat** · 07-08-2016, 20:35

Value cache
Добавление хостов было в диапазоне (примерно) с пол первого до часа ночи, на графиках видны отклонения в это время.. но вот как их интерпретировать?

Zabbix value cache, % free

Dropbox - Error - Simplify your life

https://www.dropbox.com/s/3jesdvgzomtlk7g/value_cache.PNG?dl=0

Zabbix value cache hits

Dropbox - Error - Simplify your life

https://www.dropbox.com/s/v19a210hm5s1aen/value_cache_hits.PNG?dl=0

Zabbix value cache misses

Dropbox - Error - Simplify your life

https://www.dropbox.com/s/0dft2uickdbogdb/value_cache_miss.PNG?dl=0

Zabbix value cache operating mode

Dropbox - Error - Simplify your life

https://www.dropbox.com/s/v4f2974ulroqst3/value_cache_mode.PNG?dl=0

**samosvat** · 07-08-2016, 20:39

Originally posted by glebs.ivanovskis

Я вижу запросы данных из базы за неделю. Обычно сервер старается не читать данные из базы, а хранить их в памяти. Исключение - при нехватке места в value cache он переходит в low memory mode, и это очень сильно сказывается на производительности.

Странно что он запрашивает историю по элементам данных за неделю, тогда как этих элементов данных вроде в базе быть не должно, это свежие с пылу с жару lld-метрики.

Originally posted by glebs.ivanovskis

Процесс history syncer не только пишет исторические данные в базу, но и считает на их основе триггеры. Копайте в сторону того, какие данные провоцируют фриз (много данных по одним и тем же элементам данных, пересчёт большого числа триггеров, переполнение value cache...)

Может раскрыть мысль по подробнее, не до конца понял: что значит "много данных по одним и тем же элементам данных"

Спасибо!

**glebs.ivanovskis** · 09-08-2016, 13:14

Originally posted by samosvat

Value cache
Добавление хостов было в диапазоне (примерно) с пол первого до часа ночи, на графиках видны отклонения в это время.. но вот как их интерпретировать?

Zabbix value cache, % free

Dropbox - Error - Simplify your life

https://www.dropbox.com/s/3jesdvgzomtlk7g/value_cache.PNG?dl=0

Zabbix value cache hits

Dropbox - Error - Simplify your life

https://www.dropbox.com/s/v19a210hm5s1aen/value_cache_hits.PNG?dl=0

Zabbix value cache misses

Dropbox - Error - Simplify your life

https://www.dropbox.com/s/0dft2uickdbogdb/value_cache_miss.PNG?dl=0

Zabbix value cache operating mode
https://www.dropbox.com/s/v4f2974ulr..._mode.PNG?dl=0

Это интересные графики. Обращения к value cache происходят при вычислении триггерных функций. Hits - данные уже были в памяти, misses - данных в памяти не было и пришлось обратиться к базе данных. Время "затыка" history syncer'а совпадает с началом периода с большим числом misses. Процесс пересчёта триггеров получается долгим и это тормозит весь процесс синхронизации истории.

Originally posted by samosvat

Странно что он запрашивает историю по элементам данных за неделю, тогда как этих элементов данных вроде в базе быть не должно, это свежие с пылу с жару lld-метрики.

Может раскрыть мысль по подробнее, не до конца понял: что значит "много данных по одним и тем же элементам данных"

Спасибо!

Если в триггерной функции стоит недельный интервал, то и запрос будет про неделю. Случай новых метрик никак отдельно не обрабатывается. И насколько я знаю логику работы value cache, если в памяти данных за период не нашлось, он будет обязан обратиться к базе. (Может данных в памяти нет по причине недавнего рестарта?) Кстати, по графикам видно, что как только Zabbix "разобрался" в ситуации, следует пик value cache hits и падает загруженность history syncer'ов.

Возможно такая логика работы value cache не идеальна, смело пишите ZBX/ZBXNEXT с жалобами/предложениями и описанием ситуации. А как временное решение проблемы я бы посоветовал не создавать 50 хостов сразу, растяните этот процесс, чтобы не создавать пиковую нагрузку. Если Вы не жалуетесь на быстродействие базы данных, то увеличение числа history syncer'ов тоже может помочь.

"много данных по одним и тем же элементам данных" - если нужно обработать сразу много значений одного айтема, то они обрабатываются строго по одному в порядке очереди, чтобы сохранить причинно-следственные связи. Это медленнее, чем обработка значений "пачками".

Ad Widget

Резкий рост нагрузки на HistorySyncer при добавлении

Резкий рост нагрузки на HistorySyncer при добавлении

Comment

Comment

Comment

Comment

Comment

Comment

Comment