Professional Documents
Culture Documents
ANS 05-fdgndfgd
ANS 05-fdgndfgd
Postoji mišljenje da je postavljanje sistema upozoravanja vrsta veštine, koja zahteva godine
vežbanja, što podrazumeva veliki broj pokušaja i grešaka. Međutim, u praksi često nije
moguće toliko čekati na sticanje potrebnog iskustva. Zbog toga je veštinu postavljanja
sistema upozoravanja bolje posmatrati kao naučnu disciplinu, zasnovanu na logici i
verovatnoći. U svakom slučaju, postavljanje sistema upozoravanja se svodi na balansiranju
između dva suprotstavljena cilja: osetljivosti (koja treba da da odgovor kada neku
anomaliju klasifikovati kao problematičnu) i specifičnosti (odnosno, kada je bezbedno
pretpostaviti da problem ne postoji). Ova dva cilja usmeravaju konfigurisanje sistema
upozoravanja u dva suprotna smera. Odabir prave strategije nije jednostavan zadatak.
Dobar izbor je uslovljen organizacionim prioritetima, nivoom oporavka koji je moguće
postići u posmatranom sistemu, kao i očekivanim posledicama kada stvari krenu po zlu. U
skladu sa svim navedenim, u ovoj nastavnoj jedini ćemo se baviti izazovima postavljanja
sistema upozoravanja, preduslovima za njegovo postavljanje, razjašnjavanjem grešaka i
njihovog uticaja na sistem, anatomijom upozorenja i vrstama upozorenja.
Praćenje traga
Mnogi događaji su rezultat prestanka rada sistema zbog planiranih izmena u produkcionom
sistemu. Neke od tih izmena se pokreću automatski, kao što su periodične primene
bezbednosnih zakrpa, dok su druge manuelne, kao što su konfiguracione izmene koje
realizuje administrator mreže, po sistemu „korak po korak”. Upravljanje preciznim i
potpunim nadzorom (hronološkom evidencijom promena u sistemu), pomaže u markiranju
uzroka i posledica, tako što povezuje nedozvoljena stanja sistema sa tačnim vremenima u
evidenciji događaja (logovima). Na taj način se formira trag o svakom događaju u sistemu,
koji je moguće pratiti. Brzo otkrivanje grešaka na ovaj način značajno pospešuje proces
oporavka.
Praćenje događaja
Sistem za praćenje događaja (issue tracking system – ITS) pomaže u postavljanju prioriteta
prijavljenih upozorenja, što doprinosi praćenju situacije dok problem ne bude rešen.
Koordinacija osoba koje sarađuju na rešavanju problema se obavlja pomoću tiketa (tickets),
što obezbeđuje da ni u jednom trenutku proces rešavanja ne ostane nedovršen. Zbog toga
bi svako upozorenje trebalo da bude evidentirano u ITS-u. Na taj način, efektivnost sistema
upozoravanja može u bilo kom trenutku da bude relevantno izmeren.
Kod velikog broja problema i incidentnih situacija koje mogu da se pojave u dnevnim
operacijama nekog sistema, samo jedan deo njih iziskuje opravdanu intervenciju
administratora. Problemu koji se pojavi dodeljuje se alarm kada je značaj tog problema
toliki da utiče na funkcionisanje sistema. Opšteprihvaćeno pravilo je da prag tog značaja
bude situacija u kojoj sistem ne može sam da se oporavi nakon što se problem javi. Zbog
toga, ozbiljnost neke incidentne situacije može da se analizira po dva osnova: mogućnost
oporavka i stepen uticaja na sistem.
Mogućnost oporavka je sposobnost sistema da povrati svoje stanje na nivo na kom je bio
pre nastanka problema, bez intervencije administratora. Mogućnost oporavka može da se
izrazi i kao odnos verovatnoće nestanka problema koji se javio i potrebnog vremena da se
taj proces realizuje.
• trajna nedostupnost,
• delimičan gubitak dostupnosti,
• povećano vreme odziva,
• smanjen kvalitet servisa,
• nedovoljno korišćenje resursa.
5. Događaji koji ne zahtevaju intervenciju. Grupa događaja koja uzrokuje da manji broj
korisnika primećuje prolazne, ali ozbiljne probleme koji momentalno nestaju sami od
sebe. Zbog velike brzine oporavka, ovi događaji ne zahtevaju intervenciju jer su
rešeni „sami od sebe”, pre nego što administrator može da ih „uhvati” i analizira.
Zbog toga, nema nikakvog efekta aktivirati alarm za ovakav tip događaja. Učestalost
ovakvih događaja bi u svakom slučaju trebalo da se proverava, kako bi se potvrdilo
da su trenutni padovi u performansama ostali neznatni.
7. Rani indikatori. Prolazni događaji koji imaju mali do srednji uticaj na manji skup
korisnika. Oni su posledica trenutnih opterećenja resursa i manjih grešaka u
softveru. Ovi događaji mogu da budu rani pokazatelji da sistem ne može uspešno da
realizuje sve zadatke u trenucima kada postoji veći broj zahteva.
8. Optimizacioni zadaci. Događaji koji nemaju nikakav efekat na rad sistema, ali mogu
da budu uzrok neefikasnom korišćenju resursa. Moguće ih je eliminisati hardverskim
restruktuiranjem sistema ili softverskom optimizacijom.
9. Ne uzrokuju nikakav problem. Anomalije čiji uticaj nije moguće primetiti i koje se
manifestuju kao sastavni deo drugih sistemskih operacija.
Samo prve četiri grupe događaja zahtevaju implementaciju sistema upozoravanja, zbog
toga što je samo u slučaju njihovog pojavljivanja sistem pod rizikom, pa je jedino tada
neophodna intervencija administratora u cilju promene stanja sistema. Za prve četiri grupe,
konfiguracija sistema upozoravanja se razmatra u kontekstu dva kontradiktorna cilja: brzine
i pouzdanosti detekcije problema.
Druga grupa događaja se klasifikuje kao urgentni događaji i oni isto tako zahtevaju brzu
intervenciju, ali njihova relativno visoka učestalost i manja opasnost od kritičnih događaja
dopuštaju mogućnost čekanja na kreiranje dodatnih tačaka podataka, pre aktivacije
upozorenja. Alarm se i kod ovih događaja aktivira relativno rano, ali sa većom pouzdanošću.
Slično kao u prethodnom opisu, događaji nakon kojih se sistem odmah oporavlja ne bi
trebalo da aktiviraju alarm, sve dok ne postane očigledno da oporavak traje isuviše dugo ili
dok se ne konstatuje da mogu da prerastu u ozbiljne probleme.
Preostalih pet grupa ne zahteva aktiviranje upozorenja, ali u mrežnim okruženjima nekih
kompanija, administratori mogu da se odluče da postave podešavanja koja će i za njih
aktivirati alarme i kreirati tikete niskog prioriteta, za potrebe evidencije i proučavanja van
sistema. U praksi, dovoljno je da događaji koji imaju uticaj od malog značaja budu
nadgledani i povremeno proučavani, kako bi se potvrdilo da njihov nivo uticaja na rad
sistema ne raste.
Identifikacija uzroka
Veliki spektar različitih uzroka koji mogu da izazovu greške i problem može da se klasifikuje
u četiri grupe.
Anatomija alarma
Bulova funkcija
Alarm može da bude prikazan u obliku Bulove funkcije. U bilo kom trenutku, njegova
vrednost vraća jedno od dva moguća stanja: „alarm” ili „ništa”. Njima možemo da dodelimo
binarne vrednosti 1 i 0, respektivno. Kada se rezultat obrade funkcije promeni iz 0 u 1 ili iz
1 u 0, takva situacija se zove promena stanja alarma ili alarm state transition. Alarmna
funkcija prikazuje odnose između određenih ulaza, koji mogu da pripadaju jednom od tri
tipa: metrički kontrolori (metric monitors), procena datuma/vremena (date/time
evaluations) i ostali alarmi. Sva tri tipa takođe mogu da imaju vrednosti 1 ili 0. Alarmna
funkcija se ponovo proračunava kada bilo koja od ulaznih komponenti promeni svoje stanje.
Svaki put ponovno izračunavanje stanja može da rezultuje u njegovoj promeni (iz 0 u 1 ili iz
U suštini, alarm može da se definiše kao zatvorena kutija u kojoj se nalaze uslovi i akcija
koje će se pokrenuti ukoliko su uslovi ispunjeni. Ovo predstavlja najjednostavniji model. Ali,
zavirimo sada u niže nivoe i elemente alarmne funkcije, kako bi bilo jasnije šta ovoj
konstrukciji daje mogućnost kreiranja sofisticiranih konfiguracija.
Metrički kontrolori
Metrički kontrolori ili metric controlors su srž većine alarma. Oni opisuju uslove
prekoračenja praga i menjaju njihovo stanje kada dođe do prekoračenja (ili pada ispod)
definisanih limita za tačke podataka, u posmatranim vremenskim serijama. Metrički
kontrolori su sastavljeni iz četiri dela:
Gornja granica. Kontrolori prekoračenja gornje granice se aktiviraju kada tačke podataka
prekorače definisanu vrednost. To su najčešće korišćeni tipovi prekoračenja. Kada u
metrikama posmatrate ekstremno visoke vrednosti povećanog korišćenja resursa (što često
vodi i ka povećanju troškova) ili ekstremno visoke vrednosti degradacije performansi,
preporuka je da koristite kontrolor prekoračenja gornje granice. Na taj način ćete omogućiti
da vam metrike za praćenje korišćenja resursa izbace upozorenje o dostizanju definisanih
limita, a metrike za praćenje kašnjenja da prikažu upozorenje o usporenom izvršavanju
serverisa.
Donja granica. Kontrolori prekoračenja donje granice se aktiviraju kada nivo izmerenih
vrednosti padne ispod definisane granice. Njihova uloga je da skrenu pažnju administratora
Van opsega. Kontrolori izlaska van opsega se koriste u vremenskim serijama u kojima se
očekuje da njihove tačke podataka osciliraju u oblasti ograničenom donjom i gornjom
graničnom vrednošću. Korisni su za nadgledanje dvosmernog odstupanja od standardne
norme. Kontrolor izlaska van opsega može da se predstavi kao kombinacija dva kontrolora:
kontrolora prekoračenja donje granice i kontrolora prekoračenja gornje granice, koji su
povezani logičkim OR (ILI) operatorom. Analogno tome, postoji mogućnost pravljenja
kontrolora unutrašnjeg opsega, ali takvi kontrolori se uglavnom retko koriste.
Objašnjenje
Tačke podataka nisu evidentirane. U nekim situacijama sistem može da bude ugašen,
što za posledicu ima prestanak evidentiranja bilo kakvih informacija. Tehnički gledano, kada
nema novih tačaka podataka, neće doći ni do prekoračenja donje ili gornje granice, ali to ne
znači da je sa sistemom sve u redu, već, naprotiv, da on ne funkcioniše kako bi trebalo.
Ovakva situacija je dopustiva kada monitoring sistem kasni za jednu ili dve tačke podataka
iza procesa prikupljanja podataka u realnom vremenu, ali ukoliko više tačaka podataka nije
prikazano, to bi trebalo da bude dovoljan razlog za analizu situacije. Ovaj tip prekoračenja
se aktivira upravo tada – ne postoji definisana granična vrednost, već maksimalni broj
zakasnelih tačaka podataka koji se smatra prihvatljivim, nakon čega sledi stanje koje
iziskuje slanje notifikacije administratoru.
Funkcija procene vremena definiše vremenski uslov koji vraća vrednost true u definisanim
trenucima i vrednost false za ostatak vremena (sve ostale trenutke). Potoji mnogo razloga
zbog kojih biste mogli da uključite funkciju procene vremena kao ulaz za određeni alarm. Na
primer:
• želite da deaktivirate neku grupu alarma u određenom trenutku tokom dana, kada se
sprovode redovne aktivnosti održavanja sistema;
• ne želite da se alarmi aktiviraju tokom vikenda.
Funkcije procene vremena svoju primenu najčešće nalazi u deaktivaciji alarma, ali mogu da
budu korišćene i kao pomoćni okidači. Na primer:
• ako neke metrike odu van uobičajenih nivoa u nekom trenutku (zbog prirode
poslovnih aktivnosti koji se tada realizuju), možete formirati alarm koji će se
pokrenuti kada metrike ostanu stabilne za vreme kada se očekuje pojava pikova; To
su, zapravo, alarmi koji se aktiviraju kada izostanu očekivani događaji;
• kada želite da inicirate simulaciju prekida rada u cilju testiranja, napravićete alarm
koji će se isključiti određenog dana, jednom kvartalno;
• možete, jednostavno, da obavestite tim inženjera i podsetite ih na predstojeći
događaj u sistemu, koji zahteva njihovu pažnju.
Pitanje
Grupa događaja koja uzrokuje da manji broj korisnika primećuje prolazne, ali ozbiljne
probleme koji momentalno nestaju predstavlja:
a. urgnentne događaje,
b. događaje koji zahtevaju intervenciju,
c. događaje koji ne zahtevaju intervenciju,
d. automatizovane zadatke,
e. rane indikatore.
Objašnjenje: Zbog velike brzine oporavka, ovi događaji ne zahtevaju intervenciju jer su
rešeni „sami od sebe”, pre nego što administrator može da ih uhvati i analizira. Zbog toga
nema nikakvog efekta aktivirati alarm za ovakav tip događaja. Učestalost ovakvih
događaja bi u svakom slučaju trebalo da se proverava, kako bi se potvrdilo da su trenutni
padovi u performansama ostali neznatni.
Kako stanja alarma mogu da uzmu Bulove vrednosti, ne postoji nijedan razlog zbog koga
izlaz iz jednog alarma ne bi mogao da predstavlja ulaz za druge alarme. Ugnježdavanje
alarma je moćan koncept, koji omogućava kreiranje hijerarhije alarma. Posebna pažnja
mora da se obrati na kružne zavisnosti u kojima dolazi do direktnog ili indirektnog
referenciranja na sopstvene vrednosti, naročito kod posrednih alarma. Ovakve situacije
nemaju praktičnu upotrebu i trebalo bi ih izbegavati.
Alarm1 = ServiceA1_Monitor
Alarm2 = ServiceA2_Monitor
Alarm3 = Network_Monitor
Kada mreža prestane da funkcioniše, sva tri alarma će se aktivirati i operator će primiti tri
tiketa za jedan isti slučaj. U većini situacija ovako nešto nije poželjno. Kako bi se
deaktiviralo generisanje tiketa i notifikacija za downstream elemente sistema, moguće je
dodati logiku maskiranja događaja. To se svodi na jednostavno produženje uslova alarma
Alarm1 i Alarm2 pomoću sintakse „AND NOT SupressionCondition” na sledeći način:
Na ovaj način, kada dođe do pada u mrežnoj konekciji, operator će dobiti jedan tiket za
događaj sa najjačim uticajem. Ako nakon oporavka mrežne konekcije bilo koji od servisa
bude u disbalansu i njegovo stanje zahteva praćenje, odgovarajući tiketi će se generisati
automatski, odmah nakon što se uspostavi funkcionisanje mreže i pravila za deaktivaciju
više ne budu korišćena.
1. Any. Tip agregacije Any ima značenje logičkog OR (ili) povezivanja ulaza. Ovo je
najosetljiviji tip agregacije i trebalo bi da se koristi samo kada posmatrani entiteti
imaju puno kritičnih komponenti, gde svaka ima nizak stepen javljanja problema.
Šablon za Any agregaciju izgleda ovako:
Primer koji pokazuje kako Any agregacija može da bude adekvatno primenjena bi
mogao da glasi ovako. Uzmimo serijski tok podataka, koji se sastoji od pet
elemenata: A1, A2, A3, A4 i A5. Podaci se unose počev od A1 i procesiraju redno dok
se ne završi obrada podatka A5. Ukoliko se dogodi problem sa jednim elementom ili
bilo kojom kombinacijom elemenata, tok podataka će biti zaustavljen. Zbog toga,
logičko povezivanje OR-om individualnih monitora uvek vraća informaciju o
stopiranju procesa i generiše samo jedan tiket.
2. All. Tip agregacija All se sastoji od logičkog AND (i) povezivanja ulaza. Ovaj veoma
zahtevni tip agregacije se koristi kod entiteta višeg nivoa koji sadrže više ne tako
kritičnih podentiteta, sa relativno visokom verovatnoćom pojave greške. Odnosno, to
se može predstaviti i situacijom kada redudantne komponente dele isti zadatak, a
jedna od njih može da preuzme procese koje izvršavaju ostale.
Kao dobar primer, uzmimo mali map-reduce klaster u kome postoje tri servera, gde
svaki ima relativno visok stepen javljanja grešaka. Međutim, tokom vremena većina
servera je sposobna da se sama oporavi od greške. Jedna mašina u klasteru može da
preuzme na sebe većinu zadataka koji se izvršavaju u klasteru, mada će to usloviti
njen sporiji rad u odnosu na brzinu rada kada funkcionišu sva tri servera u klasteru.
Vaš cilj je da se alarm aktivira samo ukoliko dođe do prekida izvršavanja zadatka,
što će se dogoditi samo u slučaju da sva tri servera prestanu sa radom u isto vreme.
Rešenje je da sakupite sva tri monitora u jedan alarm pomoću logičkog operatora
AND.
Tipovi alarma
Kada se alarm aktivira i sistem pređe u stanje upozorenja, postoji mogućnost slanja
notifikacija administratoru kako bi mu se skrenula pažnja na novonastali problem.
Notifikacija o alarmu se odnosi na pojam upozoravanja. Bez obzira da li se pokreće zbog
zlonamernih korisnika, loše planiranih kapaciteta, preopterećenosti bandwidtha ili
softverskih grešaka, rezultujući alarm mora da omogući reakciju administratora. To znači da
administratoru mora da omogući da eliminiše grešku ili problem koji se pojavio. Ukoliko
administrator nema konkretnu ideju šta bi trebalo da uradi, najbolje bi bilo da isprati
definisanu proceduru prosleđivanja problema na dalje rešavanje (tzv. eskalaciju problema).
Alarmi mogu da imaju različite oblike i forme, navešćemo nekoliko.
• E-mail. Najčešći oblik notifikacija je e-mail poruka, zbog toga što one praktično ne
iziskuju nikakve dodatne troškove, e-mail sistemi su široko dostupni i imaju visoku
pouzdanost što se tiče vremena isporuke. E-mail se uobičajeno koristi kao pomoćni
notifikacioni mehanizam, zbog toga što se u današnje vreme razmenjuje veliki broj
e-mail poruka i neretko se dešavaju situacije da se pročitana e-mail poruka brzo
zaboravi ili čak spontano ignoriše. Kao dodatak ovom načinu upozoravanja, mnogo
češće se koristi GSM tehnolgoija, zbog svoje prirode da je dostupnija nego pristup
internetu. Kao posledica ove činjenice, notifikacija zasnovana na SMS-u i mobilnim
telefonima se smatra mnogo pouzdanijom.
• SMS. Administrator ili operater koji je na dužnosti može da primi tekstualnu poruku
sa kratkim opisom problema i referencom ka odgovarajućem tiketu. Kako
notifikacioni sistem nema načina da „sazna” da li je odgovorna osoba kojoj je poruka
poslata istu i pročitala i upoznala se sa njenim sadržajem, ukoliko na poruku ne bude
odreagovano u kratkom vremenskom intervalu (5-10 minuta), sistem će otpočeti
proceduru automatskog preusmeravanja problema na viši nivo podrške, u skladu sa
hijerarhijom. Glavna prednost SMS poruka je njihova niska cena, brza i pouzdana
isporuka i visoka zastupljenost korišćenja mobilnih telefona.
Svi alarmi koji se pojave trebalo bi da budu evidentirani u ITS tiketima. Na taj način se
sprečava da nešto promakne i moguće je kreirati metainformacije o procesu upozoravanja,
koje kasnije mogu da budu analizirane, merene i korišćene u cilju poboljšanja sistema
upozoravanja.
Rezime
• Svaki problem za posledicu ima određene troškove, koji odgovaraju stepenu uticaja
problema na rad sistema. Problemu koji se pojavi se dodeljuje alarm kada je značaj
tog problema toliki da utiče na funkcionisanje sistema. Ozbiljnost neke incidentne
situacije može da se analizira na dva osnova: mogućnost oporavka i stepen uticaja
na sistem. Klasifikacija događaja: kritični, urgentni, zahtevaju intervenciju, mogu da
se oporave, ne zahtevaju akciju, automatizovani zadaci, optimizacioni zadaci i ne
uzrokuju nikakav problem. Samo prve četiri grupe događaja zahtevaju
implementaciju sistema upozoravanja, zbog toga što je samo u slučaju njihovog
pojavljivanja sistem pod rizikom. Preostalih pet grupa ne zahteva aktiviranje
upozorenja, ali u mrežnim okruženjima nekih kompanija, administratori mogu da se
odluče da postave podešavanja koja će i za njih aktivirati alarme i kreirati tikete
niskog prioriteta.
• Veliki spektar različitih uzroka koji mogu da izazovu greške i probleme može da se
klasifikuje u četiri grupe:
• Metrički kontrolori opisuju uslove prekoračenja praga i menjaju njihovo stanje kada
dođe do prekoračenja (ili pada ispod) definisanih limita za tačke podataka, u
posmatranim vremenskim serijama. Kako bi se izbeglo aktiviranje alarma zbog
prolaznih anomalija, kontrolor definiše minimalni broj tačaka podataka koje je
potrebno da se pojave kako bi se prešlo u stanje upozorenja. Najčešće se koriste
četiri tipa prekoračenja:
• Funkcija procene vremena definiše vremenski uslov koji vraća vrednost true u
određenim trenucima i vrednost false za ostatak vremena (sve ostale trenutke).
o e-mail,
o sms,
o telefonski poziv,
o ostali tipovi notifikacija.