Služba a incident

Předchozí články nás seznámily se službami. V tomto článku si představíme základní koncept Incident managementu, který je důležitou součástí IT služby jak z pohledu provozu, tak kvality služby.

24. 2. 2021 Alexandr Kolovratník Článek

Bez popisku

IT služby nás obklopují nonstop takovou měrou, že si ani neuvědomujeme jejich přítomnost do té doby, než přestanou fungovat a jejich nedostupnost nás ovlivní. Představte si, že vám třeba vypadne internet (incident) a to neštěstí, že nebudete moct otevřít tento článek.

Incident je tedy označení stavu služby ve chvíli, kdy je její funkčnost negativně ovlivněna. Není tím myšlena jen kompletní nedostupnost, ale i neplánované snížení kvality (např. zpomalení internetu, nemožnost odeslat e-mail na konkrétní adresu). Cílem Incident managementu je pak co nejrychleji zajistit její obnovení do stavu, ve kterém má být dodávána uživateli.


„Incident je neplánované přerušení služby IT nebo omezení kvality služby IT.“


Praktiky Incident managementu pomáhají nastavit procesy pro řešení incidentů. Díky tomu je budeme schopni spolehlivě řešit, budeme vědět, jaké kroky je třeba učinit a přestat se spoléhat na hrdiny, kteří si budou moct oddechnout s vědomím, že je vše vhodně zahlídáno. Cílem je především jednotné nastavení skrze všechny služby, což umožní jednodušší orientaci v komplexitě služeb a jejich komponent.

Selský Incident management light version*
*(výrobky se slovem „selský“ se prý lépe prodávají)

Proces je možné rozdělit do několika částí, které jsou na sebe přirozeně navazující (viz. obrázek: "procesní diagram Incident managementu).

Procesní diagram incident managementu

Detekce incidentu (Incident detection)

Je prvním krokem v procesu řešení incidentů. Když pomineme samotné uživatele, kteří mohou nahlásit incident, tak využíváme monitorovací nástroje pro detekci chybových stavů. Jsou to často osamělé sondy bez jakýchkoliv dalších vazeb. V takových chvílích je velice těžké vyhodnotit, co sonda vlastně reprezentuje a jaká akce se stala nebo by měla nastat. V tomto mohou pomoct orchestrační nástroje a konfigurační databáze, které pomohou včasně a přesně detekovat incident/příčinu a spuštění procesu samotného.

Registrace incidentu (Incident registration)

Zjištěný incident musí být zaevidován, měl by obsahovat maximum informací, které byly vstupem pro detekci incidentu. Například automatické založení incidentu z monitorovacího nástroje v požadavkovém systému.

Klasifikace incidentu ( Incident classification)

Sumarizace a určení kroků k odstranění incidentu, např. dle priority, skupiny vlastníků, skupiny služeb a jiné. Nejen, že tento bod pomáhá rychle a efektivně zacílit na řešitelský tým, ale je to o krok blíže k automatizaci. A to ať už směrem k uživateli (formuláře pro hlášení incidentu automaticky přiřazující klasifikaci), tak i směrem k ServiceDesku či správci (automaticky spouštěné události/opravy).

Diagnostika incidentu (Incident diagnostics)

Někdy nejsou příčiny incidentu zjevné, jako např. výpadek proudu nebo již zdokumentované a zaznamenané incidenty. Díky předchozímu kroku klasifikace je možné jednoduše a automatizovaně určit, kdo má být notifikován a jakou roli plní při řešení – např. formou Teams kanálu pro snazší a rychlejší komunikaci/diagnostiku.

Vyřešení incidentu (Incident resolution)

Není pouze odstraněním příčiny, je důležité věnovat péči i uživateli, ujistit se o správnosti opravy a incident s uživatelem uzavřít. V některých případech je incident odstraněn jednoduše, jindy vyžaduje potřebu změn např. v konfiguraci. Výstupem by vždy mělo být rozšíření dokumentace např. popisem, jak byla provedena oprava či workaround, pokud je oprava časově náročnější a nelze nasadit hned.

Uzavření incidentu (Incident conclusion)

Incident nekončí jen odstraněním příčiny a ověřením u uživatele. Součástí uzavření je i vytvoření reportu o incidentu. Cílem reportu je poskytnout přehled o tom, jak je služba dodávána v čase směrem k uživateli (vlastník služby/management), a také umožňuje průběžně zlepšovat službu samotnou díky tomu, že z reportu mohou vyniknout potencionální slabá místa či rozšíření dokumentace služby.

Záznam incidentu (Incident record)

Záznam by měl obsahovat všechny kroky, které byly v rámci incidentu provedeny. Tento bod je důležitý nejen z pohledu efektivnějšího a přehlednějšího řízení incidentu, ale i z pohledu případného zachycení incidentů vysoké priority.

Detailnější představení Incident managementu by bylo na mnohem delší čtení, a to především díky tomu, že Incident management dle ITIL se podrobně věnuje popisu rolí/zodpovědnostem a procesu samotnému. To budeme prezentovat a diskutovat o tom se zainteresovanými stranami jinou formou. Záměrně jsme se v textu snažili vyhýbat popisu zodpovědných rolí za jednotlivé oblasti/aktivity. Každý, kdo se alespoň trochu pohybuje kolem IT, se určitě najde v některé části nebo i v celém životním cyklu incidentu, který byl popsán. Incident management nám toto pomůže pojmenovat, nastavit hranice a osvobodit se od některých duplicit těchto aktivit, neboť máme dedikované týmy plnící některé tyto role.

Incident management jsou především praktika s intuitivním a logickým procesem, který má jasný cíl včasně a vhodně řešit vzniklé incidenty a učit se z nich. Zároveň pomáhá být více transparentní skrz všechny služby, snižuje zátěž na jednotlivcích a umožňuje nám vystupovat jako jeden tým k našim uživatelům.


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.