2019年3月6日 10時46分頃〜11時40分頃までアクセスできない障害が発生していました

2019年3月6日 10時46分頃〜11時40分頃まで、boardをご利用頂けない障害が発生しておりました。

ご迷惑をおかけして申し訳ありませんでした。
以下、原因と今後の対策となります。

 

原因

データベースの一時領域の空き容量がなくなり、アクセスできない状態になっていました。

 

以下、原因の詳細は、システム的な内容となりますのでご了承ください。

 

boardでは、データベースにAmazon Auroraを使用しております。

Amazon Auroraは、データ量に応じて自動的にストレージも拡張する仕組みになっており、通常、空き容量不足になることはありませんが、今回問題が発生したのは、「一時テーブル用のローカルストレージ」と呼ばれるもので、このローカルストレージは自動拡張されません。

ローカルストレージは自動拡張されないというAmazon Auroraの仕様を把握しておらず、システムの監視項目にも含まれていなかったため、空き容量の逼迫を事前察知できず、今回の問題が発生致しました。

ローカルストレージの容量はインスタンスタイプ及びサイズによって決まるため、今回は、インスタンスをスケールアップさせることでローカルストレージ領域を約2倍に拡張し、復旧致しました。

 

今後の対策

Amazon Auroraのローカルストレージの空き容量を監視項目に追加し、空き容量が逼迫してきた場合に、事前に気づいて対処できるように致しました。なお、この変更はDBクラスター内の全てのノードに対して適用済みです。

また、現時点で、これまでの使用量と比べて十分な領域を確保できていますので、当面は問題ないかと思いますが、合わせて、ローカルストレージが逼迫した根本原因については継続して調査し、対策を検討したいと思います。

このたびは、ご不便、ご迷惑をおかけして申し訳ありませんでした。

一覧に戻る
サポートの実績報告(2019年2月) ››