Ad Widget

Collapse

Странное поведение PollersUnreachable

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • novoselov.ai
    Senior Member
    • Jun 2009
    • 107

    #1

    Странное поведение PollersUnreachable

    Добрый день!

    Давно массовых обвалов оборудования небыло - вот случилось. Отвалилось 205 узлов.



    падало в 11,05 и 11,30 видно что после восстановления график Unreachable Pollers process показывает нагрузку еще долгое время.

    При этом база перегружается запросами

    Code:
    update ids set nextid=nextid+4 where nodeid=0 and table_name='events' and field_name='eventid'	
    update ids set nextid=nextid+1 where nodeid=0 and table_name='events' and field_name='eventid'
    Конфиг
    Code:
    Timeout=20
    UnreachablePeriod=40
    UnreachableDelay=20
    UnavailableDelay=120
    Прошлый раз останавливал сервер очищал таблицу ids, и всё вроде заработало.

    Что делать?

    P.S.

    База Postgresql.
    Ваккумм базы производится ночью.
    Выключен автоваккуум... с ним ситуация еще хуже.

    Видимо придется партицирование снова вводить, либо триггерами
    обслуживание таблицы делать в таких случаях.
    Last edited by novoselov.ai; 06-06-2013, 13:37.
  • novoselov.ai
    Senior Member
    • Jun 2009
    • 107

    #2
    Поставил StartPollersUnreachable=1 (было 10)

    Стало лучше, если не считать постоянной загрузки в 30-80% PollersUnreachable (в случае массовых отключений устройств).
    Такое впечатление, что если запущено несколько пуллеров PollersUnreachable, они между собой создают взаимные блокировки запросами на таблицу ids.

    Comment

    • OKyHb
      Senior Member
      • Sep 2010
      • 103

      #3
      У нас такие же сложности на mysql - zabbix 2.0.6 - sql блокировки при unreachable

      Стабильно проявляется при ~5 минутной недоступности >300 коммутаторов.

      Сегодняшний пример - в 4:20 обновили прошивку агрегирующем свиче. В 10 утра надоело это наблюдать, рестартанул zabbix-server.



      Разбираться с проблемными запросами скила не хватает, поэтому, наверно, попробуем вернуться на 2.0.5.

      Comment

      • boe
        Junior Member
        • Dec 2012
        • 24

        #4
        У себя тоже видел такое, при недоступности узлов повышается загрузка unreachable poller, и чем больше узлов падает - тем выше загрузка.
        Если не ошибаюсь, то это было и до обновления до 2.0.6, потому не уверен что откат версии до 2.0.5 поможет.

        Comment

        • OKyHb
          Senior Member
          • Sep 2010
          • 103

          #5
          Так в том-то и дело, что хосты становятся доступными уже через 10 минут, а PollersUnreachable не отпускает значительно дольше.

          Comment

          • novoselov.ai
            Senior Member
            • Jun 2009
            • 107

            #6
            Попробуйте StartPollersUnreachable=1, если поможет - надо разработчикам сообщить.

            Comment

            • OKyHb
              Senior Member
              • Sep 2010
              • 103

              #7
              Как-то даже стрёмно пробовать StartPollersUnreachable=1. Сейчас у нас стоит 24, и наблюдается такая картина (нормальный день без проблем):



              Даже без аварий/техработ постоянно что-то лежит - там или света нет, или проблемы с доступом, или переделывают что-то...

              Comment

              • OKyHb
                Senior Member
                • Sep 2010
                • 103

                #8
                Сейчас используем 2.0.9 - и проблема всё ещё актуальна. PollersUnreachable залипает, и в базе куча запросов вида:
                Code:
                +--------+-----------------+-----------+--------+---------+-------+-----------------------------+------------------------------------------------------------------------------------------------------+-----------+---------------+
                | Id     | User            | Host      | db     | Command | Time  | State                       | Info                                                                                                 | Rows_sent | Rows_examined |
                +--------+-----------------+-----------+--------+---------+-------+-----------------------------+------------------------------------------------------------------------------------------------------+-----------+---------------+
                | 248754 | zabbix          | localhost | zabbix | Query   |     0 | updating                    | update ids set nextid=nextid+1 where nodeid=0 and table_name='events' and field_name='eventid'       |         0 |             0 |
                | 248755 | zabbix          | localhost | zabbix | Query   |     0 | updating                    | update ids set nextid=nextid+1 where nodeid=0 and table_name='events' and field_name='eventid'       |         0 |             0 |
                Помогает "service zabbix-server restart", но это реально напрягает.

                Что можно проверить при проявлении проблемы?

                Comment

                Working...