Service outage and Degraded performance
Incident Report for Lyyti
Postmortem

Tiedote katkoksesta 15.5.2019

Keskiviikkona 15.5.2019 klo 9:01 Lyytin tekninen operaatiotiimi havaitsi poikkeuksellisen suuren kuormituksen palvelussa. Kuormitus aiheutti palvelun hidastumisen, joka lopulta johti palvelun laajamittaiseen katkoon suurimmalla osalla käyttäjistä. Häiriötilasta tiedotettiin Lyytin tilanne-sivulla, sekä siihen liittyvillä sähköposti- ja tekstiviesti- ilmoituksilla klo 9:17.

Ongelman syynä oli yksittäiseen tapahtumaan kohdistunut poikkeuksellisen suuri ilmoittautuminen. Ruuhka oli palvelun mittakaavassa ennennäkemätön ja ylitti palvelun sietokyvyn. Hyvin lyhyessä ajassa ilmoittautumassa oli kymmeniä tuhansia ihmisiä. Saimme toteutettua toimenpiteet palvelun toimintakyvyn palauttamiseksi 10:15 ja palvelu palautui toimintakykyiseksi.

Palvelua on kehitetty viime vuosina huomattavasti sietokykyisemmäksi ja skaalautuvammaksi, mutta tämä yksittäinen ruuhka ylitti palvelumme kyvyn. Häiriötila paljasti meille uusia pullonkauloja palvelun toimintakyvyssä ja aloitamme niiden kehitystoimenpiteet välittömästi.

Pyydämme syvästi anteeksi asiakkaillemme, käyttäjille ja osallistujille aiheutunutta harmia. Pyrkimyksemme on tarjota asiakkaillemme ensiluokkaista palvelua. Katkokset, hidastumiset ja häiriöt eivät voi olla osa tätä palvelukokemusta ja teemme kaikkemme niiden välttämiseksi.

Juho HarmaaPetri Hollmén

TeknologiajohtajaToimitusjohtaja

Incident Announcement 15th of May 2019

On wednesday 15th of May 2019 at 9:01 EET Lyyti’s technical operations team was alerted due to a degraded performance in the service. The performance issue shortly led to a situation where the service was unavailable to most of our users. The incident was announced in Lyyti status page and emailed to incident subscribers at 9:17 EET.

The issue was caused by a huge spike in registrations within a single customer event. The amount of traffic was beyond anything we have experienced before. We managed to restore the service gradually from 10:15 EET.

We have improved the service scalability greatly in the past years but were surprised by the sheer amount of connections in this single case. We have evaluated the service bottlenecks and will immediately start improving the service to handle such situations in the future.

We sincerely apologise our customers, users and participants for the trouble we have caused. Our intention is to provide excellent service and interruptions and incidents such as these cannot be part of that endeavour. We will work tirelessly to provide you a better service in the future.

Juho HarmaaPetri Hollmén

CTO CEO

Posted May 15, 2019 - 15:34 EEST

Resolved
All components have recovered to normal state. We are still actively monitoring servers. We apologise for the inconvenience caused.
Posted May 15, 2019 - 11:03 EEST
Monitoring
Lyyti is currently recovering from slowness and most components work normally. We are monitoring the issue.
Posted May 15, 2019 - 10:27 EEST
Identified
We have identified the problem and are currently solving the issue.
Posted May 15, 2019 - 09:48 EEST
Investigating
The Lyyti services are currently responding very slowly and may be inaccessible, starting at 6:01 UTC. We are currently investigating and will report back when we have more information to share. Sorry for the inconvenience.
Posted May 15, 2019 - 09:17 EEST
This incident affected: Lyyti Portal, Lyyti registration, Messaging, API & Integrations, Lyyti Android application, and Lyyti iOS application.