Ad Widget

Collapse

Server is unreachable

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • MurgaNikolay
    Junior Member
    • May 2014
    • 21

    #1

    Server is unreachable

    Привет.

    Есть 25 серверов в одном датацентре и zabbix сервер в другом.
    Сервера не в продакшене и в данный момент не нагружены, на заббикс сервер тоже.

    И вот выявилась проблема - часто срабатывают триггеры
    Server is unreachable и переодически триггеры Web мониторинга.
    В логах было что-то вроде "Mysql gone away" - перешли на postgres. Это сообщение пропало ушло.
    Дисковая система на забикс сервере ваще не нагружена, проц тоже.
    Памяти вагон.

    В логах много записей типа:

    Zabbix agent item "vfs.fs.inode[/,pfree]" on host "DB1" failed: first network error, wait for 10 seconds

    Элементы данных могут быть произвольными.
    Пинги между серверами ровные, без задержек.
    Тюнил конфиг *zabbix сервера, базу - все без толку. Уже крутятся мысли слить забикс и взять чето другое. Но уже столько настроено и как-то не хочется опять все настраивать.
    Посоветуйте че делать, и куда копать.
    Zabbix 2.4.0
    Ubuntu 14.04
    Спасибо.
  • Strategist
    Member
    • Sep 2013
    • 54

    #2
    Может быть у вас слишком часто происходит опрос, особенно в первых версия видел такое: опрос каждого параметра происходит раз в секунду, и сколько примерно по длительности ваши ровные пинги?
    в крайнем случае попробуйте взять более раннюю и стабильную версию Zabbix, у нас к примеру как и у многих все работает и при том с солидными нагрузками, так что это скорее ваша локальная проблема с железом или ОС

    Comment

    • kuzmi4
      Junior Member
      • Aug 2014
      • 4

      #3
      failed: First network error, wait for 10 seconds
      Эта ошибка говорит что заббикс не смог достучаться до заббикс агента.
      Причины могут как в сетевой недоступности, так во всяких антивирусах или загружености агентов.

      Comment

      • MurgaNikolay
        Junior Member
        • May 2014
        • 21

        #4
        64 bytes from *************: icmp_seq=53818 ttl=55 time=26.1 ms

        За 25-26 ms. За сутки ни одной задержки.
        Возможно есть смысл в датацентре где основная инфраструктура поднять прокси?

        Originally posted by Strategist
        Zabbix, у нас к примеру как и у многих все работает и при том с солидными нагрузками
        Вот в том то и дело, все отзываются положительно, мне он нравится, но такая мелочь выносит мозг.

        Comment

        • MurgaNikolay
          Junior Member
          • May 2014
          • 21

          #5
          Originally posted by kuzmi4
          Эта ошибка говорит что заббикс не смог достучаться до заббикс агента.
          Да я уже понял, что ошибка не говорит о недоступности сервера как такового, а о невозможности подконектится к ангенту;
          У нас был момент когда мы делали нагрузочное тестирование, и агент не смог ответить, но тогда я и по ssh не мог зайти на сервак. Щас сервера мирно спят посапывая. Забикс агент самый нагружающий сервис в топе
          Last edited by MurgaNikolay; 20-07-2015, 14:50.

          Comment

          • Strategist
            Member
            • Sep 2013
            • 54

            #6
            Если у вас датацентры разнесены территориально, то думаю имеет смысл, мы тоже в некоторых случаях используем zabbix proxy.

            Comment

            • MurgaNikolay
              Junior Member
              • May 2014
              • 21

              #7
              Серваки в британии у www.redstation.com а мониторинг у Hetznera в германии.

              Положа руку на сердце Hetzner мне не нравится, в прошлом был опыт вылетания веников почти на всех серваках одновременно (6 серваков было) Но этот один сервак остался и он один за пределами основной инфраструктуры. Логично было мониторить извне, поэтому Zabbix Server туда и запилили. Я бы на сервак гнал если бы он не тянул, но он тоже не нагружен ваще.
              Короче щас поднимем прокси и посмотрим че изменится.

              Comment

              • yukra
                Senior Member
                • Apr 2013
                • 1359

                #8
                1) Заббикс-прокси
                2) Агенты в режим активных проверок по возможности.

                Comment

                • MurgaNikolay
                  Junior Member
                  • May 2014
                  • 21

                  #9
                  Ситуация такова.

                  1. Обновил забикс до последней версии.
                  2. Установил прокси на одном из серверов.

                  В общем ситуация не изменилась, все как было так и осталось.
                  Но есть изменения!
                  Раньше очередь на сервере была пустой. читал в какойто ветке в первую очередь туда поглядеть!

                  Все было зелененьким, теперь покраснело.

                  Прокси 5 секунд 10 секунд 30 секунд 1 минута 5 минут Более 10 минут
                  zabbix_proxy 16 10 5 4 10 17

                  Много ошибок как в первом посте (failed: first network error, wait for 15 seconds)
                  и дебаг к ним
                  22762:20150721:171853.639 Item [node_name:system.cpu.util[,system,avg1]] error: Get value from agent failed: ZBX_TCP_READ() failed: [4] Interrupted system call
                  22762:20150721:171853.639 End of get_value():NETWORK_ERROR
                  Last edited by MurgaNikolay; 21-07-2015, 18:24.

                  Comment

                  • MurgaNikolay
                    Junior Member
                    • May 2014
                    • 21

                    #10
                    Я немного в недоумении.
                    Поставил прокси на тот сервер который больше всего рапортует о NETWORK_ERROR и....в логах прокси та же самая проблема.
                    То-есть прокси конектится на агент который расположен на тож же !!! хосте что прокси и получет ошибку NETWORK_ERROR...

                    Comment

                    • MurgaNikolay
                      Junior Member
                      • May 2014
                      • 21

                      #11
                      Агент в свою очередь генерит

                      Process listener error: ZBX_TCP_WRITE() failed: [32] Broken pipe

                      Comment

                      • MurgaNikolay
                        Junior Member
                        • May 2014
                        • 21

                        #12
                        Методом тыка забороли!
                        Заменили в конфиге агента DNS адрес сервера в поле Server на его айпишник, и в логах стало чисто.

                        Comment

                        • sadman
                          Senior Member
                          • Dec 2010
                          • 1611

                          #13
                          Теперь проверьте, куда ведет ресолв имени узла, которое стояло ранее...

                          Comment

                          • MurgaNikolay
                            Junior Member
                            • May 2014
                            • 21

                            #14
                            В общем рано радовался.
                            Сутки прошли и опять пошли ошибки.

                            Comment

                            • MurgaNikolay
                              Junior Member
                              • May 2014
                              • 21

                              #15
                              Обратил внимание много соединений в состоянии time_wait.
                              Около 100-200 штук, в зависимости от сервера.

                              Comment

                              Working...