Ad Widget

Collapse

Некорректное отображение данных

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Alekseyv78
    Junior Member
    • Oct 2020
    • 11

    #1

    Некорректное отображение данных

    Добрый день.
    Нужна помощь вот в каком вопросе.
    Zabbix 5.0
    На панели отображается что с устройство к примеру камера и ее http сервис не работает но по факту камера в сети данные с нее поступают. Через какое то время Событие автоматически получает статус решено и такая проблема происходит периодически со многими устройствами в сети по факту
    оборудование работает в штатном режиме а в панели Zabbix отображается что оно не доступно. Данные с устройств получаются в основном штатными шаблонами шаблонами.
    С чем может быть это связано. В конфигурационные файлы сильно не менялись
    Менялись такие параметры как "StartPinger" "StartDiscoverers" и еще несколько параметров для распределения нагрузки.

    Как решить данный вопрос.
    Не пинайте сильно Zabbix только начинаю осваивать и разбираться с ним многое еще не понятно но хочется освоить.
    Спасибо за ответы
    Вот сейчас на одном из объектов Панель мониторинга показывает что все камеры отключены уже в течение 4 часов но при всем при этом регистратор на который они заведены отображает картинку с них и запись идет. Опять же если посмотреть Последние данные по данным камерам там информация отображается что все устройства в сети и их слжбы запущены и активны
    Click image for larger version

Name:	Безымянный.jpg
Views:	348
Size:	30.7 KB
ID:	411021
    Last edited by Alekseyv78; 19-10-2020, 08:52.
  • Hamardaban
    Senior Member
    Zabbix Certified SpecialistZabbix Certified Professional
    • May 2019
    • 2713

    #2
    Т.к. штатные экстрасенсы на самоизоляции попробуем дать направляющий импульс самостоятельно.
    Что нужно\можно сделать:
    1) разобраться что имеено получает элемент данных? как получает? с какой периоичностью?
    2) понять на что реагирует триггер и как настроено восстановление.

    по прикрепленной картинке можно заключить что собирается состояние интерфейса (см вопрос1) и триггер реагирует на состояние =2. Тут мы приходим к противоречию с показаниями насчет "если посмотреть Последние данные по данным камерам там информация отображается" - смотрите на последние данные имеено по тому ЭД по которому триггер сработал!

    Comment

    • Alekseyv78
      Junior Member
      • Oct 2020
      • 11

      #3
      Originally posted by Hamardaban
      Т.к. штатные экстрасенсы на самоизоляции попробуем дать направляющий импульс самостоятельно.
      Что нужно\можно сделать:
      1) разобраться что имеено получает элемент данных? как получает? с какой периоичностью?
      2) понять на что реагирует триггер и как настроено восстановление.

      по прикрепленной картинке можно заключить что собирается состояние интерфейса (см вопрос1) и триггер реагирует на состояние =2. Тут мы приходим к противоречию с показаниями насчет "если посмотреть Последние данные по данным камерам там информация отображается" - смотрите на последние данные имеено по тому ЭД по которому триггер сработал!
      Срабатывает тригер Unavailable by ICMP ping по какой причине он срабатывает мне не понятно
      Если смотреть по последним данным то там все корректно отображается
      Пробовал одновременно запускал пинг устройства с другой машины в сети и смотрел что показывает Забикс в момент когда показывает что устройство не в сети пинг запущенный с другой машины не показывает обрывов связи (может забикас как то по своему проверяет доступность в сети не знаю)

      Элемент данных тут настраивал по примерам в документации.
      Или же где то все таки накосячил при настройке.
      Использую шаблон Template Module Generic SNMPv2

      Но самое что непонятное это то что это происходит не со всеми устройствами.
      Такое ощущение что я неправильно использую шаблоны при создании узлов сети
      Click image for larger version  Name:	Безымянный1.jpg Views:	0 Size:	95.6 KB ID:	411030
      Caption
      Last edited by Alekseyv78; 19-10-2020, 11:12.

      Comment

      • Hamardaban
        Senior Member
        Zabbix Certified SpecialistZabbix Certified Professional
        • May 2019
        • 2713

        #4
        смотрите в логи заббикс сервера - может информация из него наведет на мысли.
        но помоему вы немного совсем не разобрались в происходящем - первый пост об одном (явно snmp) \ второй о другом (пинги)....
        (для сведения - бесполезно пинговать устройство с другого хоста для понимания работы забикса. то что с другого все ок - ничего не дает. если уж озадачились - пингуйте с сервера забикс используя fping как сервер делает. да и то это малополезно - бывают случаи кгда забикс данные получает но записать не может \не успевает. смотрите в последнии данные по исследуемому ЭД)
        Могу только посоветоваь читать документацию и проецировать полученные сведения на рабочую систему - и придет озарение!

        Comment

        • Alekseyv78
          Junior Member
          • Oct 2020
          • 11

          #5
          Originally posted by Hamardaban
          смотрите в логи заббикс сервера - может информация из него наведет на мысли.
          но помоему вы немного совсем не разобрались в происходящем - первый пост об одном (явно snmp) \ второй о другом (пинги)....
          (для сведения - бесполезно пинговать устройство с другого хоста для понимания работы забикса. то что с другого все ок - ничего не дает. если уж озадачились - пингуйте с сервера забикс используя fping как сервер делает. да и то это малополезно - бывают случаи кгда забикс данные получает но записать не может \не успевает. смотрите в последнии данные по исследуемому ЭД)
          Могу только посоветоваь читать документацию и проецировать полученные сведения на рабочую систему - и придет озарение!
          Спасибо за советы.
          Документацию читаю но по ка не все понимаю.
          Как говорится опыт приходит со временем.
          Еще раз спасибо

          грешу еще на то что некоторые обьекты связаны радиомостами на базе микротик и возможно на них происходят потери. прокладка оптики туда в планах
          Last edited by Alekseyv78; 19-10-2020, 11:34.

          Comment


          • Hamardaban
            Hamardaban commented
            Editing a comment
            ок. логика работы забикс проста: получаем значение метрики с периодичностью указанной в настройках. при каждом получении проходимся по тригерам связанным с этим эд . если условие тригера дало true - создаем проблему. ели для тригера созданы действия - выполняем эти действия. Проблема может быть закрыта руками, при получении нового значения которое делает тригер false или так как написано в выражжении восстановления триггера. Для "копания" смотрим в последние данные и состояние эд + логи сервера. Удачи!
        • Steal
          Member
          • May 2020
          • 44

          #6
          Была такая же проблема. Иногда, при хорошей загрузке сети на устройстве, ping не проходит с первого раза. Даже на новых серверах HP G9 и G10. Решил проблему исправив выражение триггера в шаблоне на {Template Module ICMP Ping:icmpping.max(#2)}=0 . Таким образом триггер сработает , если два раза подряд не удалось сделать ping устройства. Если важно время реакции, то сделай интервал обновления данных не 1 минуту, а 30 сек. Получится, что при отключении устройства, ты об этом узнаешь через эту же минуту.
          Last edited by Steal; 19-10-2020, 14:16.

          Comment

          • Alekseyv78
            Junior Member
            • Oct 2020
            • 11

            #7
            Originally posted by Steal
            Была такая же проблема. Иногда, при хорошей загрузке сети на устройстве, ping не проходит с первого раза. Даже на новых серверах HP G9 и G10. Решил проблему исправив выражение триггера в шаблоне на {Template Module ICMP Ping:icmpping.max(#2)}=0 . Таким образом триггер сработает , если два раза подряд не удалось сделать ping устройства. Если важно время реакции, то сделай интервал обновления данных не 1 минуту, а 30 сек. Получится, что при отключении устройства, ты об этом узнаешь через эту же минуту.
            Спасибо Попробую

            Comment

            • Alekseyv78
              Junior Member
              • Oct 2020
              • 11

              #8
              Originally posted by Steal
              Была такая же проблема. Иногда, при хорошей загрузке сети на устройстве, ping не проходит с первого раза. Даже на новых серверах HP G9 и G10. Решил проблему исправив выражение триггера в шаблоне на {Template Module ICMP Ping:icmpping.max(#2)}=0 . Таким образом триггер сработает , если два раза подряд не удалось сделать ping устройства. Если важно время реакции, то сделай интервал обновления данных не 1 минуту, а 30 сек. Получится, что при отключении устройства, ты об этом узнаешь через эту же минуту.
              у меня в выражении тригера стоит 3 попытки есть ли смысл менять на 2? я подумываю может увеличить наоборот
              {Template Module ICMP Ping:icmpping.max(#3)}=0

              Comment

              • Steal
                Member
                • May 2020
                • 44

                #9
                Originally posted by Alekseyv78

                у меня в выражении тригера стоит 3 попытки есть ли смысл менять на 2? я подумываю может увеличить наоборот
                {Template Module ICMP Ping:icmpping.max(#3)}=0
                Если не критично время обнаружения, то можно и увеличить. Но я бы лучше увеличит интервал опроса. Так и нагрузка на сервер будет меньше

                Comment

                • Kos
                  Senior Member
                  Zabbix Certified SpecialistZabbix Certified Professional
                  • Aug 2015
                  • 3404

                  #10
                  Можно ещё на стандартном графике "Zabbix data gathering process busy %" посмотреть загруженность процессов icmp pinger data collector (возможно, их надо добавить в конфиге сервера).

                  Comment

                  • Steal
                    Member
                    • May 2020
                    • 44

                    #11
                    Originally posted by Kos
                    Можно ещё на стандартном графике "Zabbix data gathering process busy %" посмотреть загруженность процессов icmp pinger data collector (возможно, их надо добавить в конфиге сервера).
                    Кстати да.Была ситуация, когда узлов стало больше 400, по циклу переставали поступать данные от рабочих станций. Оказалось нехватало пре-форков ICMP Ping. Поднял в конфиг файле StartPingers до 10 и проблема исчезла.

                    Comment

                    • Alekseyv78
                      Junior Member
                      • Oct 2020
                      • 11

                      #12
                      Originally posted by Kos
                      Можно ещё на стандартном графике "Zabbix data gathering process busy %" посмотреть загруженность процессов icmp pinger data collector (возможно, их надо добавить в конфиге сервера).
                      С этой проблемой сталкивался. Значение я менял с дефолтного. Сейчас стоит 5

                      Comment

                      • Alekseyv78
                        Junior Member
                        • Oct 2020
                        • 11

                        #13
                        Originally posted by Steal
                        Если не критично время обнаружения, то можно и увеличить. Но я бы лучше увеличит интервал опроса. Так и нагрузка на сервер будет меньше
                        время не сильно критично. но все же чем раньше тем лучше но я думаю 30-60 секунд не сильно изменят ситуацию. хотя бывают случаи когда меняют
                        Просто не понятно подобные ошибки идут не на всех устройствах а как то выборочно. в основном это камеры терминалы учета рабочего времени и несколько видеорегистраторов.
                        На критичных узлах подобных проблем нет
                        а интервал опроса чет в настройках триггера я не увидел. или же это в настройках узла сети меняется?
                        Last edited by Alekseyv78; 20-10-2020, 12:30.

                        Comment

                        • Alekseyv78
                          Junior Member
                          • Oct 2020
                          • 11

                          #14
                          Originally posted by Steal
                          интервал опроса
                          Если я не ошибаюсь это интервал обновления который задается в Элементе Данных правильно?
                          Если да то там стоит интервал в 1 минуту

                          Comment

                          • Steal
                            Member
                            • May 2020
                            • 44

                            #15
                            Originally posted by Alekseyv78

                            Если я не ошибаюсь это интервал обновления который задается в Элементе Данных правильно?
                            Если да то там стоит интервал в 1 минуту
                            Попробуй всё же увеличть значение с 5 на 10. И увеличь число опросов с 3 на 5. И я бы проверил всё же сеть. Может коннекторы грязные....

                            Comment

                            Working...