Data Mining - Hva det er, definisjon og konsept

Innholdsfortegnelse:

Data Mining - Hva det er, definisjon og konsept
Data Mining - Hva det er, definisjon og konsept
Anonim

Data mining er prosessen med å søke i store databaser for å finne nyttig informasjon som kan brukes til beslutningstaking. Det engelske begrepet "data mining" brukes også.

Det kan forstås som teknologien og programvaren som brukes til å finne atferdsmønstre i databasen. Det grunnleggende grunnlaget for dette er at disse mønstrene hjelper til å ta beslutning. For eksempel kan det hjelpe bedrifter å forstå atferdsmønstrene til kundene sine. På en slik måte at det vil legge til rette for etablering av strategier for å øke salget eller redusere kostnadene.

Fordeler med data mining

Den grunnleggende fordelen med denne dataanalyseprosessen er det store antallet forretningsscenarier den kan brukes på, som et eksempel vi har:

  • Prediksjon: Prognose for selskapets salg.
  • Sannsynlighet: Valg av de beste klientene for direkte kontakt enten via telefon eller e-post.
  • Sekvensanalyse: Analyse av produktene som kundene har kjøpt og sjekker innbyrdes forhold mellom dem.

Stadier av data mining

Innen en data mining prosess kan vi finne fem faser:

  • Mål og datainnsamling: Det første av alt er å fokusere på hvilken type informasjon vi ønsker å få. La oss forestille oss eksemplet om at et supermarked vil vite hvilken tid på dagen der det er mest kundeoppmøte. Dette vil være målet og informasjonen som handelen ønsker å få i dette tilfellet.
  • Databehandling og styring: Når vi kjenner dataene vi ønsker å samle inn, setter vi dataene i bruk. Dette er kanskje den vanskeligste fasen i prosessen. Vel, det krever å velge den representative prøven som analysen skal utføres på. Når prøven er valgt, må den analyseres hvilken type variabler eller regresjonsmodell som skal utføres på prøven.
  • Modellvalg: Det er nært knyttet til forrige fase. Det handler om å lage en modell eller algoritme som gir oss et best mulig resultat. For å gjøre dette må det utføres en uttømmende analyse av variablene som skal inngå i modellen. Dette blir en komplisert oppgave siden det vil avhenge av hvilken type informasjon som skal analyseres. Derfor utfører databearbeidere forskjellige tester av algoritmen, for eksempel: lineær regresjon, beslutningstreet, tidsserier, nevrale nettverk, etc.
  • Analyse og gjennomgang av resultatene: I utgangspunktet er det å analysere resultatene for å se om de gir en logisk forklaring. Forklaring som letter beslutningstaking basert på informasjonen resultatene gir.
  • Modelloppdatering: Det siste trinnet i prosessen vil være oppdateringen av modellen. Det er veldig viktig at det gjøres over tid, slik at det ikke blir foreldet. Variablene i modellen kan bli ubetydelige, og det kreves derfor en periodisk kontroll av modellen.