You are on page 1of 9

Clustering in electroenergetica

Profesor indrumator: Sef Lucr.Dr.Inginer Gheorghe Grigoras

Student:Atanasoaei Marian
Grupa 6605
1. Descriere

Sarcinile de a cataloga seturi mari de date și de a le împărți în grupuri de elemente care


au caracteristici comune se regăsesc deseori în numeroase domenii. Pentru experții umani poate
fi extrem de dificil și de obicei imposibil să realizeze o clasificare pe grupuri de obiecte cu
proprietăți comune a unor date abstracte nestructurate, așa cum deseori este nevoie să se facă.
Acest tip de probleme intră în categoria problemelor de clustering din invățarea nesupervizată.
Prin clustering, termen provenit de la cuvantul din limba engleza cluster, care în
traducere înseamnă îngrămădire, sau fascicul, se înțelege metoda de a segmenta un set de date
(care pot fi înregistrări, vectori, instanțe) în mai multe grupuri (clusteri), pe baza unei anumite
similarități.
Învățarea nesupervizată constă în aplicarea unor algoritmi de grupare pentru un set de
date, în mod direct, fără a menționa criteriul de grupare și fără a utiliza o etapă de antrenare,
eliminând necesitatea folosirii unor date suplimentare de antrenament. Ideea de partiționare a
diferitelor obiecte în grupuri, pe baza similarității lor, a apărut pentru prima dată în secolul IV
î.H. la Aristotel și Teophrastos.
Tehnicile de clustering pot fi privite ca forme de învățare nesupervizată în care datele de
test sunt compuse dintr-un set de vectori de intrare cărora inițial nu le corespund niciun set de
vectori de ieșire. Astfel, algoritmul primește doar date neetichetate, iar sarcina acestuia este
aceea de a găsi o reprezentare adecvată a distribuției datelor, urmând a fi grupate în clusteri
relevanți.

I.I Scopul tehnicilor de clustering

Se poate afirma că tehnicile de clustering reprezintă tehnici speciale de aranjare a


datelor de intrare pe baza dispunerii spațiale a vectorilor corespunzători acestora. În cadrul unui
astfel de proces, vectorii de intrare sunt grupați în funcție de distanța care separă punctele
reprezentative. În urma procesului de clustering rezultă unul sau mai multe grupuri care
reprezintă poziționarea spațială a caracteristicilor datelor. În interiorul unui cluster, punctele sunt
mai apropiate între ele în raport cu un centru comun decât în raport cu centrele altor clustere.
Exemplu grafic
Figura 1. Reprezenarea grafică a unor clusteri și evidențierea centroizilor[12]

I.II Formalizarea problemei


Problema referită în acest articol este o problemă clasică de clustering aplicată pe diferite
seturi de date. Considerând un set de date format din mai multe entități, problema formalizată va
fi următoarea:
X  {x1 , x2 ,..., xn }
Se dă un set de date , unde xi, i  1, n este o entitate neetichetată căreia
îi este asignat un vector de atribute Vi m-dimensional (cu m caracteristici). Se cere să se
găsească k partiții cât mai naturale ale mulțimii X: , cu , astfel încât entitățile
care aparțin aceleiași clase să fie cât mai apropiate, iar cele care aparțin la clase diferite să fie cât
mai depărtate posibil.
Algoritmii generali de clustering prezintă următoarele două caracteristici:
1) Fiecare entitate aparţine minim unui grup:
k

C i X
i 1

2) Fiecare grup conţine minim o entitate:


Ci 
 , i  1, k
O altă proprietate poate fi considerată:
3) O entitate apartine doar unui singur grup:
Ci  C j  C 
, i  j , i  , i, j  1, k , fixat
Această condiție nu este valabilă pentru algoritmii de clustering fuzzy, în cadrul cărora o entitate
aparține fiecărui cluster, cu un anumit grad.

I.III Etapele unui proces de clustering

Etapele unui proces de clustering se referă la rezolvarea următoarelor probleme:


1) Stabilirea elementelor supuse operației de clustering: este o etapă principală
care presupune colectarea și aranjarea lor înaintea procesului de clustering.
2) Definirea unei distanțe între elementele mulțimii: necesită selectarea unei
metrici de determinare a distanței dintre două entități, aceasta putând fi folosită
pentru a caracteriza similitudinea conceptuală dintre două sau mai multe
elemente. Totodată, utilizarea cunoștințelor disponibile referitoare la domeniul
dat, pot ajuta la pregătirea datelor și la alegerea măsurii de similaritate.
3) Realizarea procesului de clustering propriu-zis: se produce prin utilizarea unui
algoritm specific de clustering pe mulțimea de date care se dorește a fi
clasificată.
4) Extragerea rezultatelor: are loc prin obținerea acestora într-o formă cât mai
simplă și mai reprezentativă. În acest caz, simplitatea poate fi privită fie din
perspectiva analizei automate, fie din perspectiva umană, astfel încât să fie cât
mai ușor de înțeles de către experți umani.
5) Evaluarea rezultatelor: această etapă se poate realiza prin aprecierea robusteții
și validității modelului obținut repetând procesul sau folosind anumite măsuri de
calitate pentru rezultatele generate. Repetarea procesului se poate face: folosind
și alte măsuri de similaritate corespunzătoare contextului, utilizând și alte tehnici
de clustering sau rulând algoritmul de mai multe ori, dar ignorând unul sau mai
multe obiecte la fiecare iterație. În urma repetării procesului se analizează
rezultatele obținute.
I.IV Clasificarea tehnicilor de clustering

Există numeroase tipuri de clustering, bazate pe diferite metode, fiecare dintre acestea
putând genera ca și rezultat diferite moduri de a grupa datele. O posibilă clasificare este aceea de
a împărți algoritmii de clustering în două mari categorii: tehnici de clustering bazate pe
partiționarea datelor și tehnici de clustering bazate pe metode ierarhice. De asemenea, există și
algoritmi mai noi care se pot grupa în algoritmi bazați pe densitate, bazați pe grid sau bazați pe
modele. Clasificarea algoritmilor de clustering nu este simplă, deseori se ajunge la concluzia că
unele categorii de algoritmi se suprapun. Pe lângă tehnicile enumerate mai sus, se pot aminti:
algoritmi de clustering bazați pe constrângeri, bazați pe grafe, algoritmi scalabili, algoritmi
speciali pentru date cu multe dimensiuni. În cadrul învățării automate, au apărut și metode
evloutive de clustering și unele care folosesc rețele neuronale.
Există numeroase tipuri de clustering, bazate pe diferite metode, fiecare dintre acestea
putând genera ca și rezultat diferite moduri de a grupa datele.
Cele mai cunoscute metode partiționale sunt:
• K-Means – care presupune calcularea centrului de greutate al unui cluster si asignarea
unei entități acelui cluster în funcție de o anumită metrică,
• K-Medoids – presupune alegerea unui element reprezentativ (medoid) pentru fiecare
cluster, la fiecare iterație,
• PAM (Partitioning Around Medoids),
• CLARA (Clustering Large Applications),
• CLARANS (Clustering Large Applications based upon RANdomized Search)
În cadrul învățării automate, au apărut și metode evloutive de clustering și unele care
folosesc rețele neuronale.
II. Descoperirea unui scurtcircuit intr-o retea
industriala, utilizand tehnici Fuzzy Clustering
In acest capitol, vom realiza localizarea defectelor de retea prin utilizarea tehnicilor
de clustering fuzzy C-mean. Aceasta tehnica introduce metode de normalizare a datelor
disponibile si selectarea numarului optim de clustere de clasificare a datelor. Tehnica dezvoltata
este aplicata la o retea existenta de distributie, care se intinde pe o suprafata de aproximativ 60
km . Rezultatele simularii au demonstrat fezabilitatea si eficienta metodei sugerate de localizare
a defectelor.
Sistemul de distributie este format din trei linii radiale aeriene de transport, fiecare de
cate 8-10 km lungime,

Fig. Reteaua de distributie


Datorita imbatranirii sistemului, problemele zonale de la distanta si vremea aspra a
desertului, reteaua expeimenteaza avarii repetate. Din cauza indisponibilitatii releelor diferentiale
si/sau a sigurantelor de sectionare, este foarte dificil si mult timp este consumat pentru a localiza
orice defect in aceasta retea. Problema se reflecta in mod pasiv asupra productivitatii petrolului
in aceasta zona importanta.
Vom folosi tehnica de fuzzy clustering c-mean pentru a clasifica locatiile posibile de
avarie, care pot fi aproape la orice nod din retea sau in apropierea unui set ales de noduri.
Experienta operatorului, va fi utilizata pentru a contribui la gasirea celui mai apropiat nod
(uri) de avarie.
Numarul optim de grupuri (clustere) este calculat folosind tehnica de clustering a
valabilitate. Cele 13 de cazuri ramase se utilizeaza ca si cazuri de testare.

Tabelul 1: Rezumatul parametrilor care sunt selectati pentru a construi matricea caracteristica

II.I Rezultate si discutii


Programul MATLAB este scris pentru a implementa cele sase trepte de mai sus, iar
rezultatele sunt analizate si rezumate dupa cum urmeaza:
a. Numarul optim de clustere este douazeci si cinci

Fig: Legatura dintre numarul de cluster si eroarea corespunzatoare


b. Tabelul 19 arata efortul economisit pentru a localiza 13 cazuri de avarie

Table 2: Efort economisit


Din tabelul 2, se poate observa ca:
• Economia de efort pentru fiecare test = 1-Raportul dintre numarul de locatii posibile pentru
numarul total de noduri *100%.
De asemenea, putem defini urmatorii termeni:
• Procentul de incercari de succes (raportul dintre cazurile de includere a celui mai apropiat nod
in locatiile posibile pentru numarul total de cazuri de testare *100%) = 92%..
• Economie medie de efort (insumarea procentelor de economisire a efortului impartit la
numarul total de cazuri) = 75% (47)
Este important de remarcat ca tehnica de fuzzy clustering nu a reusit sa localizeze avaria
la datele de test 4 din cauza lipsei de informatii din apropierea acestei locatii. Cu toate acestea,
este de asteptat ca primind informatii suplimentare, executarea acestei tehnici va fi imbunatatita.

III. Concluzii
Tehnicile de clustering pot rezolva multe probleme actuale din electroenergetica, metoda fiind
folosita si in segmentarea pietei in electroenergetica.
Este important de remarcat ca performanta tehnicilor de clustering depinde de calitatea
informatiilor primite.
IV. Biografie

1) Codrean Florina-Modele de învățare nesupervizată;


2) Muhammad M.A.S. Mahmoud- APPLICATION OF FUZZY LOGIC IN ELECTRICAL
POWER NETWORK, INDUSTRY AND SAFETY;