5 Best Practices voor het automatiseren van Major Incident Management

Schrijver: Roger Morrison
Datum Van Creatie: 27 September 2021
Updatedatum: 7 Kunnen 2024
Anonim
Your first steps after installing TubeBuddy   - Hosted by Owen Hemsath
Video: Your first steps after installing TubeBuddy - Hosted by Owen Hemsath

Inhoud



Bron: Pixtum / iStockphoto

Afhaal:

Met een slimme automatiseringsstrategie kunt u sneller en eenvoudiger dan ooit reageren op incidenten - downtime en mogelijke inbreuken op de beveiliging minimaliseren.

Grote IT-incidenten vinden elke dag plaats binnen bedrijven. Hoewel slechts een handjevol de krantenkoppen haalt, kunnen evenementen zoals uitval en inbreuken op de beveiliging de productiviteit van medewerkers ernstig verlammen, de perceptie van klanten negatief beïnvloeden en, nog belangrijker, leiden tot omzetverlies.

Dus als het gaat om het beheren van grote IT-incidenten, is het het beste om u te concentreren op de zakelijke impact en de bedrijfsresultaten. Volgens het Ponemon Institute waren de gemiddelde kosten van downtime in 2016 $ 8.851 per minuut - dat is meer dan $ 500.000 per uur, en typische downtimes gemiddeld meer dan 90 minuten. En dit zijn slechts de onmiddellijke kosten! De impact op de langere termijn, zoals reputatieschade en uitputting door klanten, is onvoorspelbaar en mogelijk catastrofaal.


Hoewel u niet alle grote incidenten volledig kunt vermijden, kunt u uw organisatie wapenen om zo goed mogelijk voorbereid te zijn om ze aan te pakken wanneer ze zich voordoen. En een belangrijk onderdeel van uw strategie zou automatisering moeten zijn. Organisaties die het gebruik van automatisering in hun belangrijkste incidentoplossingsprocessen maximaliseren, realiseren sneller serviceherstel en veel minder fouten door menselijke fouten. Dit komt omdat automatisering rechtstreeks van invloed is op uw vermogen om de duur van het zakelijke impactvenster te verkleinen - of die dure periode waarin uw gebruikers en bedrijfsactiviteiten daadwerkelijk de impact van een incident voelen. (Zie Automatisering: de toekomst van data science en machine learning voor meer informatie over automatisering?)

Om de voordelen van automatisering te maximaliseren, moet u onderzoeken welke activiteiten moeten plaatsvinden tijdens het impactvenster en uitzoeken hoe u alle andere activiteiten kunt verplaatsen naar, voordat het incident begint of nadat het bedrijf terugkeert naar de normale bedrijfsvoering. Hier zijn vijf handige manieren om te beginnen.


1. Ontwikkel en definieer een proces

Bij het definiëren van een belangrijk incidentbeheerproces gaat het erom te bepalen wat er tijdens een incident kan worden gepland, gecoördineerd of uitgevoerd. Dit kan bijvoorbeeld betekenen dat belangrijke supportteamleden worden geïdentificeerd op basis van vaardigheden en planning, zodat uw servicedesk hen zo snel en efficiënt mogelijk kan betrekken. Het betekent ook uitzoeken hoe u relevante informatie aan uw team doorgeeft, zodat zij het probleem meteen kunnen oplossen, en de juiste belanghebbenden op de hoogte houden en op de hoogte houden.

Automatisering is van cruciaal belang voor belangrijke aspecten van dit proces. U kunt bijvoorbeeld de opname van relevante informatie uit uw monitoringtools in uw servicedesk-tickets automatiseren of informatie van de servicedesk opnemen in meldingen aan de incidentresolvers. Je kunt het hele incident ook documenteren in een enkele bron van uitgebreide waarheid die voor iedereen toegankelijk is. Vergeet niet dat u dit proces kunt oefenen om het goed te doen - u hoeft niet te wachten op een incident in de praktijk om uw aanpak te testen.

2. Zorg dat uw infrastructuur goed is

In deze tijd van alarmmoeheid is het van essentieel belang dat u uw teams niet blijft bombarderen met irrelevante meldingen en informatie die niet op hen van toepassing is. Door filters toe te passen op uw monitoringwaarschuwingen, kunnen uw teams gemakkelijker op de naald in de hooiberg van routinematig lawaai passen. Dit is essentieel om al uw inzichten en gegevens echt bruikbaar te maken, in plaats van alleen maar toe te voegen aan informatie-overload.

Goede manieren om te automatiseren, zijn onder meer het gebruik van een APM-oplossing om al uw applicaties en systemen te crawlen om proactief de grondoorzaken te lokaliseren op het punt van prestatievermindering, voordat er grote storingen optreden. U kunt ook uw monitoring, servicedesk, samenwerkingsapps en chat-tools integreren om conuele informatie in realtime te delen.

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

Je kunt je programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

3. Meet MTTR nauwkeurig

Hoe meet je de gemiddelde reparatietijd (MTTR)? Baseer je het op de totale tijd dat IT-teams zijn betrokken, of op de totale tijd dat het bedrijf daadwerkelijk wordt beïnvloed? Als uw antwoord het eerste is, moet u overwegen om het impactvenster in plaats daarvan vanuit het zakelijke perspectief te meten. Dit is een veel nauwkeuriger nadeel voor uw optimalisatie-inspanningen, omdat uw doel is om de impact van incidenten te minimaliseren en niet alleen betere responsrapporten aan uw board te presenteren. (Voor meer informatie over downtime en hoe hiermee wordt omgegaan, leest u wat Mean Time Between Failures echt betekent.)

U kunt automatiseren door applicaties volledig inzichtelijk te maken om zo nodig met terugwerkende kracht "de klok te starten" en een volledig overzicht te bewaren van uw afwikkelingsactiviteiten en communicatie voor analyse en audit om uw processen te verbeteren.

4. Houd belanghebbenden op de hoogte - maar zonder de resolutie te onderbreken

Stakeholders verwachten effectieve en tijdige communicatie en verwachten ook dat materiedeskundigen zich blijven concentreren op het oplossen van problemen. Hoewel u een communicatiepunt kunt aanwijzen om zakelijke gebruikers te monitoren en te betrekken, zou een effectievere strategie zijn om een ​​zelfbedieningswebpagina met statusupdates te maken. Dit stelt de stakeholder in staat om zelf te controleren zonder uw team te bombarderen met verdere telefoontjes en s. Vergeet niet om uw belanghebbenden regelmatig bij te werken, zodat zij altijd het nieuwste statusrapport ontvangen en dit kunnen verwachten. Vergeet niet dat de communicatie niet moet stoppen gewoon omdat de service is hersteld! Het is belangrijk dat stakeholders een samenvatting krijgen van wat er is gebeurd, wat is geleerd en hoe de situatie in de toekomst kan worden voorkomen.

In dit geval kan automatisering worden geïmplementeerd om een ​​automatische, realtime statuspagina voor belanghebbenden te maken, evenals slash-opdrachten in uw chat-tool op te bouwen om die pagina bij te werken.

5. Verzamel gegevens om probleembeheer te ondersteunen

Herstelservice betekent niet het einde van incidentbeheer! In feite vinden enkele van de meest waardevolle activiteiten plaats na de oplossing. Door diagnostische en impactgegevens te verzamelen en een hoofdoorzaakanalyse uit te voeren, kunt u een volledige audit van een groot incident uitvoeren, inclusief preventieve maatregelen om soortgelijke incidenten in de toekomst te voorkomen. Bovendien, zelfs als een herkenbaar incident opnieuw optreedt, kunt u een gedefinieerde procedure maken voor de soorten gegevens die u moet verzamelen en de stappen die moeten worden ondernomen om de resolutie te stimuleren. Op deze manier hoeft uw team gewoon naar een checklist te verwijzen en zich te concentreren op hun kerndoel om de service te herstellen, in plaats van zich zorgen te maken over wat ze nodig hebben en wanneer.

Automatisering kan hier resolutie-activiteiten vastleggen en bewaren, waaronder zaken als chattranscripties, in een enkel registratiesysteem voor analyse. Bovendien helpt het u een catalogus van bekende incidenten of problemen samen te stellen, best practices voor elk te consolideren en daarom de oplossnelheid in de toekomst te verhogen.

Conclusie: automatiseer slimmer, niet meer

Wees gewaarschuwd dat meer automatisering niet noodzakelijk de betere aanpak is! Het is belangrijker dat u begrijpt wanneer, waar en hoe u uw IT-systemen met elkaar kunt verbinden ter ondersteuning van incidentbeheer. U wilt geen onnodige complexiteit toevoegen vanwege de toenemende geautomatiseerde processen. Onthoud dat het doel is om de activiteiten zo veel mogelijk te vereenvoudigen en te consolideren, zodat uw teams zich gemachtigd voelen om problemen efficiënt aan te pakken. Het gaat om intelligente implementatie van automatisering om een ​​goed gecoördineerde set van processen, deskundig personeel en effectieve communicatie met belanghebbenden mogelijk te maken, om de algemene zakelijke impact van grote incidenten te minimaliseren.