Ad Widget

Collapse

Zabbix proxy разрывы связи с агентами

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Ivan_S
    Junior Member
    • Apr 2024
    • 4

    #1

    Zabbix proxy разрывы связи с агентами

    Здравствуйте.
    Есть заббикс прокси и несколько серверов на которых стоят заббикс агенты. В неопределенные промежутки времени прокси теряет связь с агентами на этих серверах. То с одним то с несколькими. При этом пингуется сам прокси и с прокси пингуются сервера с агентами и телнетом проверяю доступность нужных портов. Прилагаю пару логов с прокси и агентов сомневаюсь что они что то дадут но все же. Может кто сталкивался с таким и подскажет куда копать?
    1172:20240410:144909.495 In zbx_is_ip4() ip:'SRV_DC'
    1172:20240410:144909.495 In zbx_is_ip6() ip:'SRV_DC'
    1172:20240410:144909.495 In get_hostid_by_host_or_autoregister() host:'SRV_DC AEA423CB' metadata:'virtual'
    1196:20240410:144912.056 In zbx_async_check_agent() key:'net.if.out[Мини-порт глобальной сети (SSTP)]' host:'SRV_DC AEA423CB' addr:'SRV_DC' conn:'unencrypted'
    1196:20240410:144912.056 In zbx_is_ip4() ip:'SRV_DC'
    1196:20240410:144912.056 In zbx_is_ip6() ip:'SRV_DC'
    1196:20240410:144912.056 In zbx_is_ip4() ip:'SRV_DC'
    1196:20240410:144912.056 In zbx_is_ip6() ip:'SRV_DC'
    1171:20240410:144914.539 trapper got '{"request":"active checks","host":"SRV_DC AEA423CB","host_metadata":"virtual","interface":"S RV_DC","config_revision":1,"session":"a99dbf865983 08e7de5314b6d2773e26"}'
    1171:20240410:144914.539 In zbx_is_ip4() ip:'SRV_DC'
    1171:20240410:144914.539 In zbx_is_ip6() ip:'SRV_DC'
    1171:20240410:144914.539 In get_hostid_by_host_or_autoregister() host:'SRV_DC AEA423CB' metadata:'virtual'
    1196:20240410:144916.057 In zbx_async_check_agent() key:'net.if.out[Мини-порт глобальной сети (PPPOE)]' host:'SRV_DC AEA423CB' addr:'SRV_DC' conn:'unencrypted'
    1196:20240410:144916.057 In zbx_is_ip4() ip:'SRV_DC'
    1196:20240410:144916.057 In zbx_is_ip6() ip:'SRV_DC'
    1196:20240410:144916.057 In zbx_is_ip4() ip:'SRV_DC'
    1196:20240410:144916.058 In zbx_is_ip6() ip:'SRV_DC'
    1196:20240410:144916.091 In process_async_result() key:'net.if.out[Мини-порт глобальной сети (SSTP)]' host:'SRV_DC AEA423CB' addr:'SRV_DC'
    1196:20240410:144916.091 In process_async_result() key:'net.if.out[Мини-порт глобальной сети (PPPOE)]' host:'SRV_DC AEA423CB' addr:'SRV_DC'
    1196:20240410:144916.091 Zabbix agent item "net.if.out[Мини-порт глобальной сети (PPPOE)]" on host "SRV_DC AEA423CB" failed: another network error, wait for 15 seconds
    1169:20240410:144917.558 trapper got '{"request":"active check heartbeat","host":"SRV_DC AEA423CB","heartbeat_freq":60}'
    1171:20240410:144919.572 trapper got '{"request":"active checks","host":"SRV_DC AEA423CB","host_metadata":"virtual","interface":"S RV_DC","config_revision":1,"session":"a99dbf865983 08e7de5314b6d2773e26"}'
    1171:20240410:144919.572 In zbx_is_ip4() ip:'SRV_DC'
    1171:20240410:144919.572 In zbx_is_ip6() ip:'SRV_DC'
    1171:20240410:144919.572 In get_hostid_by_host_or_autoregister() host:'SRV_DC AEA423CB' metadata:'virtual'
    1172:20240410:144924.615 trapper got '{"request":"active checks","host":"SRV_DC AEA423CB","host_metadata":"virtual","interface":"S RV_DC","config_revision":1,"session":"a99dbf865983 08e7de5314b6d2773e26"}'
    1172:20240410:144924.615 In zbx_is_ip4() ip:'SRV_DC'
    1172:20240410:144924.615 In zbx_is_ip6() ip:'SRV_DC'
    1172:20240410:144924.615 In get_hostid_by_host_or_autoregister() host:'SRV_DC AEA423CB' metadata:'virtual'
    1170:20240410:144929.660 trapper got '{"request":"active checks","host":"SRV_DC AEA423CB","host_metadata":"virtual","interface":"S RV_DC","config_revision":1,"session":"a99dbf865983 08e7de5314b6d2773e26"}'
    1170:20240410:144929.660 In zbx_is_ip4() ip:'SRV_DC'
    1170:20240410:144929.661 In zbx_is_ip6() ip:'SRV_DC'
    1170:20240410:144929.661 In get_hostid_by_host_or_autoregister() host:'SRV_DC AEA423CB' metadata:'virtual'
    1196:20240410:144931.056 In zbx_async_check_agent() key:'net.if.out[Мини-порт глобальной сети (PPTP)]' host:'SRV_DC AEA423CB' addr:'SRV_DC' conn:'unencrypted'
    1196:20240410:144931.056 In zbx_is_ip4() ip:'SRV_DC'
    1196:20240410:144931.056 In zbx_is_ip6() ip:'SRV_DC'
    1196:20240410:144931.056 In zbx_is_ip4() ip:'SRV_DC'
    1196:20240410:144931.056 In zbx_is_ip6() ip:'SRV_DC'




    1824:20240410:144955.086 End of collect_perfstat()
    1864:20240410:144955.101 In send_buffer() host:'10.10.1.249' port:10051 entries:0/100
    1864:20240410:144955.101 End of send_buffer():SUCCEED
    1864:20240410:144955.102 In refresh_active_checks() host:'10.10.1.249' port:10051
    1864:20240410:144955.102 In zbx_connect_to_server() [10.10.1.249]:10051 [timeout:3, connection timeout:3]
    1864:20240410:144955.102 sending [{"request":"active checks","host":"SRV_DC AEA423CB","host_metadata":"virtual","interface":"S RV_DC","config_revision":1,"session":"a99dbf865983 08e7de5314b6d2773e26"}]
    1864:20240410:144955.102 before read
    1864:20240410:144955.103 got [{"response":"success"}]
    1864:20240410:144955.103 In parse_list_of_checks()
    1864:20240410:144955.103 End of parse_list_of_checks():SUCCEED
    1864:20240410:144955.103 End of refresh_active_checks():SUCCEED
    1864:20240410:144955.103 In process_active_checks() server:'10.10.1.249' port:10051
    1864:20240410:144955.103 End of process_active_checks()
    1864:20240410:144955.103 In get_min_nextcheck()
    1864:20240410:144955.104 End of get_min_nextcheck():-1
    1824:20240410:144956.087 In collect_perfstat()
    1824:20240410:144956.087 End of collect_perfstat()
    1864:20240410:144956.118 In send_buffer() host:'10.10.1.249' port:10051 entries:0/100
    1864:20240410:144956.119 End of send_buffer():SUCCEED
    1824:20240410:144957.095 In collect_perfstat()
    1824:20240410:144957.095 End of collect_perfstat()
    1864:20240410:144957.123 In send_buffer() host:'10.10.1.249' port:10051 entries:0/100
    1864:20240410:144957.124 End of send_buffer():SUCCEED
    1824:20240410:144958.111 In collect_perfstat()
    1824:20240410:144958.111 End of collect_perfstat()
    1864:20240410:144958.126 In send_buffer() host:'10.10.1.249' port:10051 entries:0/100
    1864:20240410:144958.126 End of send_buffer():SUCCEED
    1824:20240410:144959.123 In collect_perfstat()
    1824:20240410:144959.124 End of collect_perfstat()
    1864:20240410:144959.140 In send_buffer() host:'10.10.1.249' port:10051 entries:0/100
    1864:20240410:144959.141 End of send_buffer():SUCCEED
    1824:20240410:145000.126 In collect_perfstat()
    1824:20240410:145000.127 End of collect_perfstat()
    1864:20240410:145000.145 In send_buffer() host:'10.10.1.249' port:10051 entries:0/100
    1864:20240410:145000.145 End of send_buffer():SUCCEED
    1864:20240410:145000.145 In refresh_active_checks() host:'10.10.1.249' port:10051
    1864:20240410:145000.145 In zbx_connect_to_server() [10.10.1.249]:10051 [timeout:3, connection timeout:3]
    1864:20240410:145000.146 sending [{"request":"active checks","host":"SRV_DC AEA423CB","host_metadata":"virtual","interface":"S RV_DC","config_revision":1,"session":"a99dbf865983 08e7de5314b6d2773e26"}]
    1864:20240410:145000.146 before read
    1864:20240410:145000.146 got [{"response":"success"}]
    1864:20240410:145000.147 In parse_list_of_checks()
    1864:20240410:145000.147 End of parse_list_of_checks():SUCCEED
    1864:20240410:145000.147 End of refresh_active_checks():SUCCEED
    1864:20240410:145000.147 In process_active_checks() server:'10.10.1.249' port:10051
    1864:20240410:145000.147 End of process_active_checks()
    1864:20240410:145000.147 In get_min_nextcheck()
    1864:20240410:145000.147 End of get_min_nextcheck():-1​
  • Alex_UUU
    Senior Member
    • Dec 2018
    • 541

    #2
    А с сеткой все в порядке?
    У меня время от времени выскакивает проблема потери связи ( и в форуме несколько аналогичных записей есть). При этом сервер "идет в разнос", т.е. сотни серверов начинают также терять связь.
    Пока у меня одно предположение: сетевая проблема, когда связь в однй сторону прервалась и на уровне TCP не пришел отлуп. В результате сервер считает, что агент с ним законнектился, а агент считает, что коннекта нет.
    Как поправить - не знаю.

    Comment

    • Griboed0ff
      Senior Member
      • Sep 2022
      • 153

      #3
      Имею такую же проблему! Есть у меня 3 системы мониторинга на основе заббикса, у некоторых машин получается так, что их мониторят все три заббикса. И вот на одном из них срабатывает, что агент на такой-то машине недоступен, а на двух других заббксах не срабатывает, так же может сработать и на двух, а на третьем тишина. Усиленные мониторинги сети в это время ничего не дают, сеть в абсолютном порядке! Так же агент в порядке на машине, по логам как будь-то агент не отвечает заббикс прокси, хотя в это же время отвечает двум другим прокси. Пока идей как излечить данный баг непонятно, потому как проблему не нашел, а алерты периодически прилетают считаю все таки каким-то багом. Заводить тикет не стал, так как проблема не воспроизводится специально.
      Last edited by Griboed0ff; 19-04-2024, 09:20.

      Comment

      • Shiro
        Junior Member
        • Oct 2023
        • 19

        #4
        В моём случае, проблема была в том, что прокси сервера пытались собрать нереально огромный список файлов в одной папке, сервис не падал, но переставал отдавать данные. Проверь логи в реальном времени.

        Comment

        • Alex_UUU
          Senior Member
          • Dec 2018
          • 541

          #5
          Originally posted by Shiro
          В моём случае, проблема была в том, что прокси сервера пытались собрать нереально огромный список файлов в одной папке, сервис не падал, но переставал отдавать данные. Проверь логи в реальном времени.
          Непонятно насчет файлов. ПРокси не создает никаких файлов. Он работает с БД, где и хранит данные.

          Comment

          • Griboed0ff
            Senior Member
            • Sep 2022
            • 153

            #6
            Originally posted by Alex_UUU

            Непонятно насчет файлов. ПРокси не создает никаких файлов. Он работает с БД, где и хранит данные.
            Коллега предоставил вам пример, в котором один из элементов данных наблюдаемой машины, возвращал большой объем данных, при котором агент не падал, но переставал некоторое время посылать\отвечать данные. В его примере агент возвращал огромный список папок в какой-то директории на наблюдаемой машине.

            Comment

            Working...