2021/02 site24x7 でのSLA状況・統計データ

じゃんくはっく
じゃんくはっく

ついに99.95%以上を達成したよ!

きたー!おめでとうー

ぴー
ぴー
じゃんくはっく
じゃんくはっく

2月のダウンタイムは3 分 29 秒でした

スマホサーバなのにがんばったね!

ぴー
ぴー

site24x7のスターターパックを2020の10月から始めています。監視サービスでSLAを99.95%目指していましたが、ついに達成できました!

稼働率・SLA99.95%をスマホ自宅サーバで目指せ!まずは1ヶ月間

LINK

ちなみに、先月は97.42%で無理でした。site24x7の監視サービスは強力ですが、まだ自動的に復旧する仕組みを作っていないので、再起動は人力となっています。これができれば常に目標SLAを達成できそうです。

2021・02のSLA

さて、今月の結果から!
ダウンタイムの3 分 29 秒で、SLAは99.991%となり今月は目標の99.95%に届きました! やったー!

ツイッターで、呟いていたらSite24x7の中の人がうれしいメッセージを送ってくれました。

嬉しいツイート、ありがとうございます!

少しダウンした原因は?

毎回、いいところでダウンするので今月は意図的に再起動を手動でしておきました。毎回、ある程度時間が経過すると「Bad Gateway」が出てしまうんです。とりあえず、再起動を少し入れて様子見をしてたんですが、それが良かったようです。赤い部分は再起動を入れたので、そのダウンタイムです。

まとめ

今回の教訓は以下となります。

・再起動は有効だった
・根本原因はまだ未調査。対処療法で再起動して対応
・再起動を自動化するには、スマホのリセットを外部から行う仕組み作りが必要
・実験用で、UmidigiF2にその仕組みを模索したい

あとがき

前回から、スマホを意図的に再起動させる仕組みをどうするか考えています。ハードウェア的に再起動を行うには、バッテリーを外して、電源をリモートからコントロールするようにするとか考えていましたが、root化してある端末ですので、他にも方法がありそうです。それにハードウェア的にリブートさせてもandroidシステムのいろいろな問題(例えば再起動後はロック解除しないとホーム画面まで行けないなど)があります。

ソフトウェア的には、以下コマンドでシステムが瞬時にシャットダウンします。

$ tsu
# reboot -p
Done

-pオプションを取れば、リブートします。しかし、このリブートだとWiFi接続に自動的に接続しなかったり、再起動時はロック解除をしないとHOME画面まで行かないのでTermux bootが動作しなかったりと問題があります。

そこで、以下を試しています。

Google Play : MacroDroid – デバイス自動化

https://play.google.com/store/apps/details?id=com.arlosoft.macrodroid

このアプリはよく出来ていて、これを使うことにより、以下のような事ができることがわかりました。

・一定曜日の特定時刻にソフトリブート(要root化必要)
・起動時にWiFiの特定APへ接続(ヘルパーアプリ使用)
・起動時に特定アプリを強制起動(termuxを起動させる)

このリブートだと、ロック解除しなくても特定アプリが動かせるし、WiFiへの接続も問題なさそうです。

termux が動作すれば termux boot でtermux内部のソフトウェアは起動します。今は、テストでdnsmasqやsshdを自動起動させていますが問題なさそうです。とりあえずは、一定間隔でリブートさせることは出来そうです。

site24x7の障害検知サービスをどのように受けて、このシステムと切り離してトリガーしてリブートできるよう、何か良い方法はないかなと考えているところです。トリガーはいろいろあるので、その方法を模索中です。

著者にメッセージ

間違いのご指摘など、コメントじゃなくて、個人的にやりとりしたい場合はこちらからどうぞ。お返事が遅くなるときもありますが、ご了承を。