2019年3月6日 10時46分頃〜11時40分頃まで、boardをご利用いただけない障害が発生しておりました。
ご迷惑をおかけして申し訳ありませんでした。
以下、原因と今後の対策となります。
原因
データベースの一時領域の空き容量がなくなり、アクセスできない状態になっていました。
以下、原因の詳細は、システム的な内容となりますのでご了承ください。
boardでは、データベースにAmazon Auroraを使用しております。
Amazon Auroraは、データ量に応じて自動的にストレージも拡張する仕組みになっており、通常、空き容量不足になることはありませんが、今回問題が発生したのは、「一時テーブル用のローカルストレージ」と呼ばれるもので、このローカルストレージは自動拡張されません。
ローカルストレージは自動拡張されないというAmazon Auroraの仕様を把握しておらず、システムの監視項目にも含まれていなかったため、空き容量の逼迫を事前察知できず、今回の問題が発生いたしました。
ローカルストレージの容量はインスタンスタイプ及びサイズによって決まるため、今回は、インスタンスをスケールアップさせることでローカルストレージ領域を約2倍に拡張し、復旧いたしました。
今後の対策
Amazon Auroraのローカルストレージの空き容量を監視項目に追加し、空き容量が逼迫してきた場合に、事前に気づいて対処できるようにいたしました。なお、この変更はDBクラスター内のすべてのノードに対して適用済みです。
また、現時点で、これまでの使用量と比べて十分な領域を確保できていますので、当面は問題ないかと思いますが、合わせて、ローカルストレージが逼迫した根本原因については継続して調査し、対策を検討したいと思います。
このたびは、ご不便、ご迷惑をおかけして申し訳ありませんでした。