Gruparea Ierarhică vs Partitională

Clustering-ul este o tehnică de învățare automată pentru analiza datelor și împărțirea la grupuri de date similare. Aceste grupuri sau seturi de date similare sunt cunoscute sub denumirea de clustere. Analiza clusterului analizează algoritmi de clustering care pot identifica automat clusterele. Ierarhice și Partitionale sunt două astfel de clase de algoritmi de clustering. Algoritmii de clustering ierarhici împart datele într-o ierarhie de clustere. Algoritmii parțiali împart setul de date în partiții reciproc disjuncte.

Ce este gruparea ierarhică?

Algoritmii de clustering ierarhici repetă ciclul fie fuzionează clustere mai mici cu cele mai mari sau împărțind clustere mai mari la altele mai mici. Oricum, produce o ierarhie de clustere numită dendogramă. Strategia de aglomerare de aglomerare folosește abordarea de jos în sus a îmbinării grupurilor cu cele mai mari, în timp ce strategia de clustering divizivă folosește abordarea de sus în jos pentru a împărți în cele mai mici. În mod obișnuit, abordarea lacomă este utilizată pentru a decide care grupuri mai mari / mai mici sunt utilizate pentru contopire / împărțire. Distanța euclidiană, distanța Manhattan și asemănarea cosinusului sunt unele dintre cele mai utilizate metrici de similitudine pentru datele numerice. Pentru datele care nu sunt numerice, se folosesc metrici precum distanța Hamming. Este important de menționat că observațiile (instanțele) efective nu sunt necesare pentru gruparea ierarhică, deoarece numai matricea distanțelor este suficientă. Dendograma este o reprezentare vizuală a clusterelor, care afișează foarte clar ierarhia. Utilizatorul poate obține diferite grupări în funcție de nivelul la care este tăiată dendograma.

Ce este clusteringul partițional?

Algoritmii de clustering partițional generează diverse partiții și apoi le evaluează după un anumit criteriu. Acestea sunt, de asemenea, denumite non-ierarhice, deoarece fiecare instanță este plasată exact într-unul dintre k grupuri care se exclud reciproc. Deoarece doar un set de clustere este rezultatul unui algoritm tipic de clustering parțial, utilizatorul este obligat să introducă numărul dorit de clustere (numit de obicei k). Unul dintre cei mai frecvent folosiți algoritmi de clustering parțial este algoritmul de clustering k-means. Utilizatorul este obligat să furnizeze numărul de clustere (k) înainte de a începe și algoritmul inițiază mai întâi centrii (sau centrele) din partițiile k. Pe scurt, k-înseamnă algoritmul de clustering alocă apoi membrii pe baza centrelor curente și centre de re-estimare bazate pe membrii actuali. Aceste două etape sunt repetate până când o anumită funcție obiectivă de similaritate intra-cluster și funcția obiectivă de disimilaritate dintre cluster sunt optimizate. Prin urmare, inițializarea sensibilă a centrelor este un factor foarte important în obținerea unor rezultate de calitate din algoritmi de clustering parțiali.

Care este diferența dintre clusterizarea ierarhică și cea parțială?

Clusterizarea ierarhică și parțială au diferențe cheie în timpul de execuție, ipoteze, parametri de intrare și grupuri rezultate. În mod obișnuit, clusteringul partițional este mai rapid decât cel de ierarhizare. Clusterizarea ierarhică necesită doar o măsură de similitudine, în timp ce clusteringul parțial necesită presupuneri mai puternice, precum numărul de clustere și centrele inițiale. Clusterizarea ierarhică nu necesită niciun parametru de intrare, în timp ce algoritmii de clustering parțiale necesită numărul de clustere pentru a începe să funcționeze. Clusterizarea ierarhică întoarce o diviziune mult mai semnificativă și subiectivă a clusterelor, dar clusteringul parțial are ca rezultat exact clustere k. Algoritmii de clustering ierarhici sunt mai potriviți pentru date categorice, atât timp cât o măsură de similitudine poate fi definită în consecință.