Ad Widget

Collapse

Самовольный рестарт услуги zabbix-server

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • varhin23
    Member
    • Mar 2019
    • 96

    #1

    Самовольный рестарт услуги zabbix-server

    Несколько раз на день падает услугу заббикса

    Serwer
    [CODE]
    OS- Oracle Linux 8.9
    vCPU - 12
    Mem – 48GB
    SQL - MariaDB – 10.6.11
    SQL Size SSD – 1TB
    Zabbix 7.0.0
    Hosts 700
    Items 90k
    [/CODE/

    Zabbix_server.conf
    Code:
    LogFile=/var/log/zabbix/zabbix_server.log
    LogFileSize=1024
    PidFile=/run/zabbix/zabbix_server.pid
    SocketDir=/run/zabbix
    DBName=zabbix
    DBUser=zabbix
    DBPassword=xxxxxx
    StartPollers=300
    StartPollersUnreachable=300
    StartPingers=900
    StartDiscoverers=100
    StartTimers=2
    StartEscalators=2
    VMwareCacheSize=2G
    SNMPTrapperFile=/var/log/snmptrap/snmptrap.log
    ListenIP=0.0.0.0
    HousekeepingFrequency=1
    MaxHousekeeperDelete=10000
    CacheSize=5G
    CacheUpdateFrequency=60
    StartDBSyncers=4
    HistoryIndexCacheSize=1G
    TrendCacheSize=1024M
    TrendFunctionCacheSize=1024M
    ValueCacheSize=2G
    Timeout=30
    StatsAllowedIP=127.0.0.1
    3 лога ошибками
    Code:
    [3216645]: failed to write [cannot accept incoming IPC connection: [24] Too many open files] into log file
    3216637:20240623:055511.231 cannot write to IPC socket: Broken pipe
    3216637:20240623:055511.231 cannot send data to IPC client
    3216637:20240623:055511.232 One child process died (PID:3216645,exitcode/signal:1). Exiting ...
    3216638:20240623:055511.234 HA manager has been paused
    3218217:20240623:055511.309 cannot write to IPC socket: Broken pipe
    3218217:20240623:055511.309 cannot send data to preprocessing service
    3218344:20240623:055511.312 cannot write to IPC socket: Broken pipe
    3218344:20240623:055511.312 failed to request alert results
    zabbix_server [3216637]: Error waiting for process with PID 3216645: [10] No child processes
    3216638:20240623:055511.474 HA manager has been stopped
    3216637:20240623:055511.484 syncing trend data...
    3216637:20240623:055656.778 syncing trend data done
    3216637:20240623:055656.806 Zabbix Server stopped. Zabbix 7.0.0 (revision 49955f1fb5c).
    3241406:20240623:055707.087 Starting Zabbix Server. Zabbix 7.0.0 (revision 49955f1fb5c).
    Code:
    zabbix_server [3241414]: failed to open log file: [24] Too many open files
    zabbix_server [3241414]: failed to write [cannot accept incoming IPC connection: [24] Too many open files] into log file
    3241406:20240623:060646.131 cannot write to IPC socket: Broken pipe
    3241406:20240623:060646.131 cannot send data to IPC client
    3241406:20240623:060646.132 One child process died (PID:3241414,exitcode/signal:1). Exiting ...
    3241407:20240623:060646.134 HA manager has been paused
    zabbix_server [3241406]: Error waiting for process with PID 3241414: [10] No child processes
    3241407:20240623:060646.367 HA manager has been stopped
    3241406:20240623:060646.378 syncing history data...
    3241406:20240623:060646.463 syncing history data... 60.465116%
    3241406:20240623:060646.463 syncing history data done
    3241406:20240623:060646.463 syncing trend data...
    3241406:20240623:060832.322 syncing trend data done
    Code:
    3267727:20240623:061233.927 cannot write to IPC socket: Broken pipe
    3267727:20240623:061233.928 cannot send data to preprocessing service
    zabbix_server [3266014]: Error waiting for process with PID 3266024: [10] No child processes
    3266015:20240623:061233.993 HA manager has been stopped 3266014:20240623:061234.005 syncing history data...
    3266014:20240623:061234.026 [Z3008] query failed due to primary key constraint: [1062] Duplicate entry '58713-1719115953-436377204' for key 'PRIMARY' 3266014:20240623:061234.063 skipped 171 duplicates
    3266014:20240623:061234.072 syncing history data... 100.000000%
    3266014:20240623:061234.073 syncing history data done
    3266014:20240623:061234.073 syncing trend data...
    3266014:20240623:061347.098 syncing trend data done
    ​
    Last edited by varhin23; 26-06-2024, 11:48.
  • Kos
    Senior Member
    Zabbix Certified SpecialistZabbix Certified Professional
    • Aug 2015
    • 3404

    #2
    Могу поделиться тайными знаниями, почерпнутыми буквально вчера: в версии 7 для работы сервера может потребоваться более высокое значение системного параметра, определяющего максимальное количество открытых файлов на процесс (ulimit -n). Как правило, по умолчанию в современных дистрибутивах Linux этот параметр имеет значение 1024; надо увеличить его раза в четыре.

    (добавлено)
    Если у вас сервер Zabbix запускается как systemd unit, то можно в его unit-файле поправить строку:
    Code:
    LimitNOFILE=4096
    (если её нет, то добавить в секцию "[Service]"), после чего перечитать конфигурацию ("systemctl daemon-reload"), а затем перезапустить сервер Zabbix ("systemctl restart zabbix-server").
    Last edited by Kos; 26-06-2024, 14:14.

    Comment

    • varhin23
      Member
      • Mar 2019
      • 96

      #3
      Originally posted by Kos
      Могу поделиться тайными знаниями, почерпнутыми буквально вчера: в версии 7 для работы сервера может потребоваться более высокое значение системного параметра, определяющего максимальное количество открытых файлов на процесс (ulimit -n). Как правило, по умолчанию в современных дистрибутивах Linux этот параметр имеет значение 1024; надо увеличить его раза в четыре.

      (добавлено)
      Если у вас сервер Zabbix запускается как systemd unit, то можно в его unit-файле поправить строку:
      Code:
      LimnitNOFILE=4096
      (если её нет, то добавить в секцию "[Service]"), после чего перечитать конфигурацию ("systemctl daemon-reload"), а затем перезапустить сервер Zabbix ("systemctl restart zabbix-server").
      Если я Вас правильно понял, то у нас начиная с версии 6.4 уже установлен 500000 или я ошибаюсь? Если да, подскажите в каком файле можно посомтреть данную опцию и поменять.

      unlimit -a

      Code:
      core file size (blocks, -c) 0
      data seg size (kbytes, -d) unlimited
      scheduling priority (-e) 0
      file size (blocks, -f) unlimited
      pending signals (-i) 191148
      max locked memory (kbytes, -l) 64
      max memory size (kbytes, -m) unlimited
      [B]open files (-n) 500000[/B]
      pipe size (512 bytes, -p) 8
      POSIX message queues (bytes, -q) 819200
      real-time priority (-r) 0
      stack size (kbytes, -s) 8192
      cpu time (seconds, -t) unlimited
      [B]max user processes (-u) 500000[/B]
      virtual memory (kbytes, -v) unlimited
      file locks (-x) unlimited

      Comment

      • varhin23
        Member
        • Mar 2019
        • 96

        #4

        Originally posted by Kos
        Могу поделиться тайными знаниями, почерпнутыми буквально вчера: в версии 7 для работы сервера может потребоваться более высокое значение системного параметра, определяющего максимальное количество открытых файлов на процесс (ulimit -n). Как правило, по умолчанию в современных дистрибутивах Linux этот параметр имеет значение 1024; надо увеличить его раза в четыре.

        (добавлено)
        Если у вас сервер Zabbix запускается как systemd unit, то можно в его unit-файле поправить строку:
        Code:
        LimnitNOFILE=4096
        (если её нет, то добавить в секцию "[Service]"), после чего перечитать конфигурацию ("systemctl daemon-reload"), а затем перезапустить сервер Zabbix ("systemctl restart zabbix-server").
        Если я Вас правильно понял, то у нас начиная с версии 6.4 уже установлен 500000 или я ошибаюсь? Если да, подскажите в каком файле можно посомтреть данную опцию и поменять.

        unlimit -a

        Code:
        core file size (blocks, -c) 0
        data seg size (kbytes, -d) unlimited
        scheduling priority (-e) 0
        file size (blocks, -f) unlimited
        pending signals (-i) 191148
        max locked memory (kbytes, -l) 64
        max memory size (kbytes, -m) unlimited
        [B]open files (-n) 500000[/B]
        pipe size (512 bytes, -p) 8
        POSIX message queues (bytes, -q) 819200
        real-time priority (-r) 0
        stack size (kbytes, -s) 8192
        cpu time (seconds, -t) unlimited
        [B]max user processes (-u) 500000[/B]
        virtual memory (kbytes, -v) unlimited
        file locks (-x) unlimited
        Добавили в /usr/lib/systemd/system/zabbix-server.service
        LimnitNOFILE=4096

        Code:
        zabbix_server [452774]: failed to open log file: [24] Too many open files
        zabbix_server [452774]: failed to write [cannot accept incoming IPC connection: [24] Too many open files] into log file
        452765:20240626:111143.365 cannot write to IPC socket: Broken pipe
        452765:20240626:111143.365 cannot send data to IPC client
        452765:20240626:111143.366 One child process died (PID:452774,exitcode/signal:1). Exiting ...
        452767:20240626:111143.368 HA manager has been paused
        zabbix_server [452765]: Error waiting for process with PID 452774: [10] No child processes
        452767:20240626:111143.678 HA manager has been stopped
        452765:20240626:111143.692 syncing history data...
        452765:20240626:111144.062 syncing history data... 99.665552%
        452765:20240626:111144.063 syncing history data done
        452765:20240626:111144.063 syncing trend data...
        LimnitNOFILE=147456


        Code:
        [11:23 AM] Słowiński Kamil
        [B]/usr/lib/systemd/system/zabbix-server.service[/B]
        [B]LimnitNOFILE=4096[/B]
        zabbix_server [452774]: failed to open log file: [24] Too many open files
        zabbix_server [452774]: failed to write [cannot accept incoming IPC connection: [24] Too many open files] into log file
        452765:20240626:111143.365 cannot write to IPC socket: Broken pipe
        452765:20240626:111143.365 cannot send data to IPC client
        452765:20240626:111143.366 One child process died (PID:452774,exitcode/signal:1). Exiting ...
        452767:20240626:111143.368 HA manager has been paused
        zabbix_server [452765]: Error waiting for process with PID 452774: [10] No child processes
        452767:20240626:111143.678 HA manager has been stopped
        452765:20240626:111143.692 syncing history data...
        452765:20240626:111144.062 syncing history data... 99.665552%
        452765:20240626:111144.063 syncing history data done
        452765:20240626:111144.063 syncing trend data..
        [B]LimnitNOFILE=147456[/B]
        zabbix_server [469342]: failed to open log file: [24] Too many open files
        zabbix_server [469342]: failed to write [cannot accept incoming IPC connection: [24] Too many open files] into log file
        469332:20240626:112034.785 cannot write to IPC socket: Broken pipe
        469332:20240626:112034.785 cannot send data to IPC client
        469332:20240626:112034.786 One child process died (PID:469342,exitcode/signal:1). Exiting ...
        469335:20240626:112034.787 HA manager has been paused
        zabbix_server [469332]: Error waiting for process with PID 469342: [10] No child processes
        469335:20240626:112035.074 HA manager has been stopped
        469332:20240626:112035.091 syncing history data...
        469332:20240626:112035.099 syncing history data... 98.214286%
        469332:20240626:112035.099 syncing history data done
        469332:20240626:112035.099 syncing trend data...

        Comment

        • Kos
          Senior Member
          Zabbix Certified SpecialistZabbix Certified Professional
          • Aug 2015
          • 3404

          #5
          Originally posted by varhin23
          Добавили в /usr/lib/systemd/system/zabbix-server.service
          LimnitNOFILE=4096
          Извините, я опечатался (уже поправил).
          Code:
          LimitNOFILE=4096
          И перед перезапуском не забыть перечитать конфигурацию systemd ("systemctl daemon-reload").

          Comment

          • varhin23
            Member
            • Mar 2019
            • 96

            #6
            Originally posted by Kos
            Извините, я опечатался (уже поправил).
            Code:
            LimitNOFILE=4096
            И перед перезапуском не забыть перечитать конфигурацию systemd ("systemctl daemon-reload").
            Спасибо вам за помощь! Да, мы тут тоже опечатались, хотя несколько раз пересматривали
            На данный момент, вроде все работает. Но бывало так, что останоки были и после 4-х часов непрырывной работы.
            Если до завтра не сорвет, то значит все помогло.

            Comment

            • Kos
              Senior Member
              Zabbix Certified SpecialistZabbix Certified Professional
              • Aug 2015
              • 3404

              #7
              Originally posted by varhin23
              Спасибо вам за помощь! Да, мы тут тоже опечатались, хотя несколько раз пересматривали
              На данный момент, вроде все работает. Но бывало так, что останоки были и после 4-х часов непрырывной работы.
              Если до завтра не сорвет, то значит все помогло.
              Отпишитесь потом, пожалуйста, в любом случае. Теперь самому интересно - действительно это ли причина, или же проблема в чём-то другом.

              Comment

              • varhin23
                Member
                • Mar 2019
                • 96

                #8
                Originally posted by Kos

                Отпишитесь потом, пожалуйста, в любом случае. Теперь самому интересно - действительно это ли причина, или же проблема в чём-то другом.
                Извиняюсь за поздний ответ, после 4-х дней,полет отличный, все работает, ничего не рестартуется самовольно.
                Единственное при изменение значения на х4, проблема осталась, но когда поменяли на и изменили на большее значение х40, все работает как часы.

                Comment

                Working...