オスロ大学様導入事例

ノルウェー最大規模の教育機関オスロ大学
3,000台以上のサーバーやサービスからなる異機種混在型インフラの監視ソリューションとしてZabbixを採用

university_oslo_logo
 

PROBLEM

以前導入していた監視ツールは、現状以上の拡張ができなかった

多くのシステム管理者が監視に関わるため設定の管理が困難だった

ツールやツールの稼働環境が統合できていない多種類の監視ツールを利用していた

REQUIREMENTS

様々な監視ツールから受信した通知を中央監視システムに連携したい

先進的なユーザー認証/承認を採用したい

APIやイベント生成などを活用し、インフラストラクチャ内の他のシステムとの統合を実現したい

APPROACH

新しい機器の監視設定、様々なリソースへのアクセス定義の設定を高いレベルで自動化

既存の設定管理ツール、通知チャネル、Elasticsearch、Logstash、Kibana、Grafanaと統合

OUTCOME

3,000台以上のサーバーやサービスを監視、1日20万件以上の通知、1日約1億3,000万件の測定結果のデータベース保存ができるようになった

監視データの受信、処理を行う集中型ハブとなるメイン監視ソリューションの構築


Internet

約3万人の学生が在籍するノルウェー最大規模の教育機関であるオスロ大学は、数千台のサーバーとクライアントからなり、あらゆる種類のデバイスが接続され、各種オペレーティングシステムを使用し、複数の拠点と数百人のITスタッフを持つ異機種混在型のインフラストラクチャを有している。

この事例では、Zabbixによって解決された課題と、オスロ大学の主要監視ツールとしてZabbixを導入した際の挑戦を紹介する。Zabbixはオスロ大学のITセンターの完全自動化と権限移譲という目標の達成を1年半にわたり、支援してきた。


大規模インフラストラクチャのマイナス面

Rafael Martinez Guerrero
オスロ大学
ITセンター
チーフエンジニア
Rafael Martinez Guerrero氏

オスロ大学のインフラストラクチャは、記録用の約3,000台のサーバー(LinuxおよびWindows)、13,000TBのストレージ、あらゆる種類の1,500のデータベース、2,500台のルーター、交換機、およびWiFiアクセスポイントからなり、26TB以上のデータが毎日ネットワーク上を送受信される、非常に複雑なものだ。

この2年間、改善とアップグレードが必要な4つの分野に注力してきた。1つ目はインフラストラクチャを流れる情報の処理方法、2つ目はインフラストラクチャの監視方法、3つ目は傾向分析、そして最後はログ解析だ。

「複数の異なる監視ソリューションを利用していた2014年、私たちは、このうちいくつかは測定さえもできていないという事実に直面し、メンテナンスや設定さえも難しい状況でした。」とオスロ大学ITセンターのチーフエンジニア、Rafael Martinez Guerrero氏は語る。さらに、その環境は、ソリューションが実行されている環境との統合もなされていなかった。これをきっかけにオスロ大学は、ITセンターによるITインフラストラクチャの監視の改善を試みるためにZabbixの導入を決意した。


期待以上の新監視ソリューション

ITの管理、開発、サポートには約300人が関わっていたため、ITインフラストラクチャ全体を監視する集中システムの導入には克服しなければならない多くの課題があった。

「要件を設定し、監視方法の変更を決定した後、設定作業を最小限減らし、IT管理の効率を高めるために、私たちは自動化を最優先することに決めました。」(Guerrero氏)

スムーズな統合およびAPIによる自動化が不可欠であることだけではなく、求められる機能は膨大で大掛かりなものだった。最重要機能の中には、システムを拡張するための分散監視、アクセス制限のあるネットワークエリアの監視などが含まれる。300人以上が運用を行うシステムを制御するには、権限設定とユーザーグループ機能を備えたZabbixの先進的なアクセス制御システムが不可欠だった。また、不必要な通知を行わないこと、障害の根本的原因分析ができることも非常に重要だった。

Zabbixの選択について、Guerrero氏はこう語る。「計画をしていた変更に対して懐疑的な意見はあったものの、Zabbixの機能について詳細な調査と比較を行い、APIやイベント生成機能、データを処理する先進的な主要機能、先進的なアクセス制御システムは、私たちの目標達成に役立つと確信しました。」

Zabbixは、オスロ大学で現在利用できるインフラストラクチャ上で稼働している。つまり、Red Hat Linux 7を実行する仮想マシン上で稼働し、バックエンドとしてPostgreSQLデータベースを使用しており、システム全体の設定はCFEngineでオーケストレーションを行っている。


どのように自動化プロセスを完成させるか

オスロ大学では、システム内のすべてのZabbixコンポーネントについて専用サーバーを使用している。Apache WebサーバーでZabbixダッシュボードとAPIを運用し、システム中枢部の専用データベースサーバーとZabbixサーバーおよびインフラストラクチャ内の複数の拠点にある複数のプロキシで、監視しているコンポーネントの測定結果を収集している。

Zabbixプロキシをアクティブモードで使用すると、Zabbixエージェントからデータを収集するために必要なリソースが減少するため、セキュリティ上もパフォーマンス上もメリットがある。最適なパフォーマンスを実現するため、各監視更新間隔は、30秒から数時間まで幅広く設定している。「テストのため、最初は、すべてのディスクを毎分ごとに監視するように設定し、毎秒3,000~4,000件の値が生成されました」(Guerrero氏)。拡張性を確保するため、更新間隔はより現実の要望にあわせた形で最適化を行なった。

現在のシステム概要は、3,000台のサーバー、350,000の監視項目、200,000のトリガー、アクセスユーザーは350人。オスロ大学のITセンターは、異なる権限を持った複雑な役割を管理し、異なるユーザーにそれぞれ独自の設定用テンプレートを割り振ることが可能な、Zabbixのホストグループ機能に大きく依存している。

オスロ大学では、Niylheimと呼ばれる独自のソフトウェアを開発し、大学のすべてのホストからの設定データやシステム情報を取得するのに利用しており、Nivlheimエージェントを利用して収集したすべての情報は、Nivlheimサーバーでインデックス付けして保管され、REST API経由でアクセスできる。

新しい機器の追加や、古い機器の削除プロセスは、完全に自動化されている。Nivlheimで得られる情報を使用し、権限や所有者にあったホストグループおよびテンプレートが自動的にZabbixに作成され、新しい機器は迅速かつ簡単に追加される。Nivlheimエージェントを導入できない機器は、オスロ大学にて開発した端末クライアントZabbix-cliを利用して更新が可能だ。

Zabbix導入当初には、予期せぬ問題がいくつか起きたが、問題の主な原因がZabbixマシン上で稼働しているSELinuxであり、すぐに解決された。SELinuxを考慮に入れたことで、すべてが順調に進みはじめた。

パフォーマンスの最適化も、Zabbixの導入を行う上で重要だった。最初は、データベースのCPU使用率は常に高負荷の状態だったが、システムコールのプロファイリング後はパフォーマンスは最適化され、原因不明のCPU使用率の問題はなくなった。

現行のシステムを新しいVMwareクラスタに移行してからは、CPU使用率はさらに改善された。「私たちはこの経験から、仮想環境では、リソースの割り当て超過に十分に注意しなければならないことを学びました」(Guerrero氏)。

そして、「力が大きくなればそれだけ責任も増加すると言われますが、これは本当です。ものごとを非常に早く解決するという点で自動化はすばらしいものですが、破壊するのも早くなるのです」とも強調した。自動化スクリプトの大規模テストを行なった際、予期せぬ状況で引き起きるような特別な不具合は見つからなかったのだが、この自動化スクリプトが、システム全体をダウンさせ、Zabbixのすべての設定や定義を失うという事態が起きた。それでも、問題の原因を理解し解決した後には、自動化により、多くの作業を行うことなく、 すべてを迅速に再作成することができたのだ。

ユーザーがZabbixからより簡単にデータにアクセスできるように、オスロ大学はZabbixとさまざまな他のシステムとの統合を進めてきた。そのために使用されているソリューションの1つが、Zabbixから取得したデータとその他のシステムのデータを統合して、独自のダッシュボードを作成することを可能にするGrafanaからZabbixデータにアクセスするためのGrafana-Zabbixプラグインだ。

Zabbixからの警告情報はElasticsearch、Logstash、Kibanaにも送信されるため、Kibanaダッシュボードから警告情報にアクセスし、無数のシステムからのデータで構成されるダッシュボードに統合して、Zabbixデータを他のシステムからのログ情報と関連付けることが可能だ。

このように、Zabbixはさまざまなシステムと簡単に統合でき、そのデータを他のツールとともに使用して堅実なITインフラストラクチャを概観するハブの作成を可能にする。

オスロ大学のITセンターは、継続的にシステムの改善に努め、タスクの自動化や警告生成のチューニングの新しい方法を常に探り続けている。目標は、大学に高品質なサービスを提供するために役立つ通知機能のある極めて効率的な中央監視システムを持つことだ。


システム概要

監視対象サーバー数: 約3,000

Zabbixプロキシ数: 4

トリガー数: 約 200,000

アイテム数: 約 350,000

ユーザー数: 350

Zabbix DB: 約 400GB

Zabbixのパフォーマンスデータ(NVPS(1秒あたりの監視項目数)): 約 1,500


University of Oslo


オスロ大学概要

キャンパス: オスロ(ノルウェー)
設立:1811年
教職員数:6,000
運営予算:75億ノルウェークローネ

university_oslo_logo


オスロ大学は、ノルウェーで最も古く最大規模の大学で、世界中からの約3万人の学生が学んでいます。オスロ大学には8つの学部、2つの博物館、19の図書館があります。

1811年に設立されたオスロ大学は、法律、数学および自然科学、薬学、人文科学、神学、社会学、および教育科学の分野で優れた専門家を育ててきました。オスロ大学の5人の科学者が、ノーベル賞を受賞しています。


監視ソリューションの活用事例をご紹介いただける場合は

質問事項にお答えください

または、マーケティングチームまでお気軽にお問い合わせください。