2021年5月5日以降、複数回、boardへアクセスができない事象が発生しております。
ご迷惑をおかけいたしまして、大変申し訳ございません。
同様の事象につきましては、当記事にて、発生日時と調査状況を随時更新していきます。
(2021年5月7日14時30分追記)原因の特定ができ、現在、対応の準備中です。
(2021年5月8日2時10分追記)障害の原因について対策をいたしました。詳細は下記「調査状況」の追記をご覧ください。
(2021年5月14日9時15分追記)最終報告を追記しました。
最終報告
2021年5月5日以降に発生した4回の障害につきまして、原因が特定されたため、5月8日午前1時からの緊急メンテナンスで対応を行い、完了いたしました。
このたびは、ご迷惑をおかけして申し訳ございませんでした。
<障害発生日時>
今回、以下の日時でboardをご利用いただけない状況が発生いたしました。
- 2021年5月5日18時57分頃から19時15分頃まで
- 2021年5月6日15時16分頃から15時35分頃まで
- 2021年5月6日23時34分頃から23時50分頃まで
- 2021年5月7日20時33分頃から20時40分頃まで
<原因>
boardでは、システムのサーバー類としてAWS(Amazon Web Services)を利用していますが、このうちデータを保管するデータベースには、AWSが提供している「Aurora」というデータベースサービスを利用しています。今回の障害は、このAuroraの不具合に起因する可能性が高いと考えられるものでした。
事象が発生した2021年5月5日18時57分頃以降、弊社による調査では、自社で開発しているアプリケーション側では考えられる要因が見つからず、各種の状況やログ等から、Auroraの障害である可能性が考えられたため、社内の調査に並行してAWSへの問い合わせを行いました。
この返信を待つ間に2回目の障害(2021年5月6日15時16分頃)が発生したため、あらためてAWSに緊急度を上げて調査依頼を行ったところ、翌日の2021年5月7日13時50分頃、「調査の結果、Auroraの不具合に起因している可能性が高い」との回答を受けました。
この不具合は、具体的にはデータベースの各処理がスタック(処理ができなくなってしまうこと)し、フェイルオーバー(普段使用しているサーバーに障害が発生した際、待機していた予備のサーバーに自動的に切り替わること)が発生するというものです。
実際、今回発生した障害においても、1回目、3回目の発生時には、15分程度にわたり大幅な遅延やタイムアウト(処理がスタックした状態)が生じており、その後にAuroraが自動的にフェイルオーバーしたことで復旧していました。なお、2回目、4回目の発生時には、弊社ですぐに対応できる状況であったため、手動でフェイルオーバーさせて復旧を行いました。
<原因への対応>
当事象への対応方法について、AWSによれば、Auroraを当不具合が修正された最新バージョンにアップグレードする他ないとの回答であったため、2021年5月8日午前1時より緊急メンテナンスを行い、Auroraをアップグレードいたしました。
なお、今回のAuroraの不具合は、通常の利用においては発生しづらく、特定のシチュエーションが重なった時にのみ発生するものであったため、再現することが難しく、このアップグレードによって今回の問題が完全に解消しているかを判断することも難しい状況です。そのため、5月8日から5月10日までの3日間は、深夜時間帯以外はすぐに復旧作業を行えるように待機していましたが、この間には問題が発生しなかったため、今後は通常の監視体制に戻すこととしました。
<Auroraの不具合にあたるまでの経緯>
boardでは、2018年よりAuroraを使用してきましたが、このたびAWSからAuroraのバージョンをアップグレードするよう連絡があったため、2021年4月29日の計画メンテナンスの際に、新しい安定版へのアップグレードを行いました。
しかし、このバージョンに不具合があったため、今回の障害が発生したという経緯になります。
4月29日のAuroraのアップグレードに際しては、1ヶ月以上前からテスト環境で動作確認を行い、準備を進めてきましたが、上記のとおり、この不具合は特定のシチュエーションが重なった場合にのみ発生するものであったため、通常のテストでは事前に発見することができず、今回の障害に繋がってしまいました。
<今後の対策>
本件は、AuroraというAWSのマネージドサービスでの不具合に起因すると考えられること、また、その不具合もテスト段階では発見が難しい種類のものであったことから、事前の対策は非常に困難なものと考えています。
一方、今回の状況を踏まえ、弊社として行える対策、改善の方法として、以下の整備を進めています。
■監視の強化
これまでも様々なシステム監視を行ってまいりましたが、今回生じた「Auroraの不具合の可能性」については十分に想定できていなかったため、最初にAWSに問い合わせを行った際には、伝達すべき情報の共有が不十分となり、その分原因の特定に時間がかかったものと考えています。これを受け、その不足していた部分を改善する方法を検討いたします。
■障害状況の集約
boardに障害が発生した場合は、board自体のお知らせも更新・閲覧することができなくなるため、これまでも障害の一次報告や、復旧の進捗等については、FacebookページおよびTwitterにてアナウンスしておりました。
しかし、boardのFacebookページやTwitterの存在が認識されていないケースもあり、お客様がお探しになった様々な経路を通してお問い合わせをいただいたり、復旧後にも「障害時の状況がわからない」等のご意見をいただきました。
そのため、こうした事態に際して、お客様がすぐに確認できる「ステータスページ(サービス稼働状況報告ページ)」の準備を進めています。こちらは準備ができ次第、あらためて周知いたします。
*以下は障害発生時以降・最終報告掲載以前に公開、随時追記していた内容です。
アクセスができない事象が発生した時間帯
以下の時間帯に、同様の原因と思われる事象が発生いたしました。
- 2021年5月5日18時57分頃から19時15分頃まで
- 2021年5月6日15時16分頃から15時35分頃まで
- 2021年5月6日23時34分頃から23時50分頃まで
- 2021年5月7日20時33分頃から20時40分頃まで
調査状況
データベース(AWS Aurora)に問題が発生していた状況と考えられますが、その原因は特定できておらず、現在、サーバーとして利用しているAWSに問い合わせをして調査をしております。
そのため、現時点ではまだ原因の特定ができていない状況ですが、詳細がわかり次第、随時追記していきます。
なお、同事象が発生した場合の復旧方法は判明しているため、同事象が発生した場合は、速やかに復旧作業を行います。
(2021年5月7日0時5分追記)
データベースが応答しなくなり、しばらく経過後にフェイルオーバーするという現象が発生しています。アクセスが非常に少ない時間帯でも発生しているため負荷によるものではないと考えられます。
データベースは、AWSのAuroraというサービスを利用しているため、AWSに問い合わせをして調査を依頼しています。しかし、現時点では原因が特定できていない状況です。
(2021年5月7日14時30分追記)
AWSに問い合わせを行い、調査が進められた結果、AWSが提供するデータベースサービス「Aurora」の不具合によるものであることが判明いたしました。
この不具合を回避するため、事前の告知期間が短く大変申し訳ありませんが、本日深夜または近日中に緊急メンテナンスを行うことを検討しています。また、このメンテナンスに際して、1〜2時間程度boardを利用できなくなります。申し訳ありませんが、ご了承ください。
なお、上記の対応が完了するまでに同様の事象が発生した場合は、速やかに復旧作業を行います。
(2021年5月8日2時10分追記)
5月5日より4回発生した障害は、AWSに問い合わせを行い調査が進められた結果、AWSが提供するデータベースサービス「Aurora」の不具合による可能性が高いという結論となり、本日のメンテナンスでは、その修正が行われているバージョンへのアップグレードを行いました。
これにより、本問題が発生しないか、数日監視をした上で、最終的に報告いたします。
障害発生時のアナウンスについて
障害発生時は、当記事を更新できない可能性が高いため、一次報告は、FacebookページおよびTwitterで行っております。