Klyngeanalyse - Hva er det, definisjon og konsept

Klyngeanalyse er et sett med multivariate statistiske teknikker som tar sikte på å gruppere et sett av saker eller individer i klynger eller klynger.

Klyngeanalyse er derfor en type statistisk gruppering. Målet er å gjøre dataene i hver klynge mest mulig lik hverandre og så forskjellige som mulig i forhold til de andre gruppene. Det kan også gjøres med variabler.

Datatransformasjon i klyngeanalyse

Et av problemene vi møter når vi grupperer data er at data noen ganger er i forskjellige måleenheter. Av denne grunn må det utføres et analysetrinn før klyngen som tillater klynging.

Den vanligste metoden er standardisering. Dette brukes til å transformere dataene slik at de har lignende måleenheter. To regler må tas i betraktning, binære variabler er ikke standardiserte, og hvis de er kategoriske, blir de binære (tilstedeværelse / fravær).

Metoder i klyngeanalyse

Det er mange metoder for å utføre klyngeanalysen, men i Economy-Wiki.com vil vi, etter prinsippet om enkelhet som kjennetegner oss, se det mest relevante på en skjematisk måte.

Hierarkiske metoder

En første klassifisering vil være hierarkiske eller ikke-hierarkiske metoder. De tidligere grupperer enkeltpersoner i hierarkiske faser (derav navnet deres). På denne måten endrer bare ett objekt gruppe om gangen, resten forblir på samme sted.

Disse klassifiseres i sin tur i:

Agglomerative metoder

Den består av å gruppere individer i mindre klynge hver gang. Det starter fra et antall grupper som tilsvarer antall tilfeller og avtar.

De mest kjente er:

  • Nærmeste nabometode: I dette tilfellet bruker du en algoritme til å gruppere dataene. Det du leter etter er minimumsavstanden mellom de nærmeste individene. Det er veldig følsomt for data som kan forårsake såkalt "støy". Den lengste nabometoden er lik.
  • Gjennomsnittlig metode mellom gruppene: Det den gjør er å beregne gjennomsnittet av avstanden mellom individene i en gruppe og en av dem spesielt. Det er veldig nyttig å redusere den såkalte "støyen".
  • Wards metode: Hva det gjør er å legge til kvadratene for avvikene mellom hver enkelt og gjennomsnittet av klyngen hans, for å unngå tap av informasjon. Det er en av de mest kjente og har fordelene med metoden basert på den gjennomsnittlige, men større diskrimineringskraften.

Dissosiative metoder

I dette tilfellet er det du deler. Det begynner med en enkelt klynge, og divisjoner foreslås basert på en rekke krav.

De vanligste er:

  • Gjennomsnitt mellom grupper, nærmeste nabo og lengste nabometode: Disse tre metodene er lik den forrige saken, men bruker den dissosiative metoden. Det vil si at det vi gjør denne gangen er atskilt og ikke gruppe.
  • Centroid-metoden: Det er mye brukt i optimaliseringsproblemer for lokasjoner. Bruk denne typen analyser for å finne de mest passende.

Ikke-hierarkiske metoder

I dette tilfellet starter de med en forhåndsinnstilt løsning. Dette er utgangspunktet for klyngeanalyse. På denne måten etableres gruppene på forhånd, og hvert tilfelle vil bli plassert i en av dem, avhengig av dens egenskaper. I sin tur kan vi dele dem inn i andre undergrupper.

  • Omfordelingsmetoder: De mest relevante er sentroidmetodene, for eksempel k-middel. De av medioider, som PAM. Eller det av dynamiske skyer.
  • Direkte metoder: Det viktigste er klyngeklynging, mye brukt i data mining.
  • Reduktive metoder: Disse er basert på faktoranalyse.
  • Metoder for tetthetssøk: På den ene siden ville det være typologiske tilnærminger, for eksempel modal analyse. På den andre har vi de sannsynlige, som Wolf.

Eksempler på klyngeanalyse

La oss endelig se noen eksempler på applikasjoner for klyngeanalyse.

  • La oss forestille oss at vi har en gruppe land som vi ønsker å gruppere basert på visse makroøkonomiske variabler, som inflasjon eller arbeidsledighet. Vi kan bruke denne typen analyser til å lage homogene grupper, for eksempel mer eller mindre utviklede land.
  • Et annet eksempel kan være en rekke forbrukere med visse sosiodemografiske egenskaper. Tanken er å opprette grupper med lignende individer, og som igjen er veldig forskjellige fra hverandre.
  • Men i tillegg til økonomi er klyngeanalyse nyttig i andre vitenskaper. For eksempel i biologi, for å klassifisere arter, eller i geologi, for å gjøre det samme med mineraler.

Du vil bidra til utvikling av området, dele siden med vennene dine

wave wave wave wave wave