Skip to content

Het gebruik van classificatie bij datamining

16 de juli de 2021
GettyImages 609179193 5a4676eb842b170037c6e8a5

Classificatie is een mijnbouwtechniek die categorieën toewijst aan een verzameling gegevens om te helpen bij nauwkeurigere voorspellingen en analyses. Classificatie is een van de vele methoden die bedoeld zijn om de analyse van zeer grote datasets effectief te maken.

Waarom classificatie?

Zeer grote databases worden de norm in de hedendaagse wereld van grote gegevens. Stel je een database voor met terabytes aan gegevens – een terabyte is er één biljoen bytes aan gegevens. Alleen Facebook verwerkt elke dag 600 terabytes aan nieuwe gegevens (vanaf 2014, de laatste keer dat het deze specificaties rapporteerde). De belangrijkste uitdaging van big data is hoe je er betekenis aan kunt geven. En niet alleen het volume is het enige probleem: big data is ook vaak divers, ongestructureerd en snel veranderend. Denk aan audio- en videogegevens, posts op sociale media, 3D-gegevens of geospatiale gegevens. Dit soort gegevens is niet gemakkelijk te categoriseren of te organiseren. Om deze uitdaging aan te gaan, is een reeks automatische methoden ontwikkeld voor het extraheren van nuttige informatie, waaronder: classificatie.

Hoe classificatie werkt

Het doel van een analist is om een ​​reeks classificatieregels te creëren die een vraag beantwoorden, een beslissing nemen of gedrag voorspellen. Om te beginnen wordt een set trainingsgegevens ontwikkeld die een bepaalde set attributen en de waarschijnlijke uitkomst bevatten. De taak van het classificatie-algoritme is om te ontdekken hoe die set attributen tot zijn conclusie komt. Overweeg een creditcardmaatschappij die probeert te bepalen welke prospects een creditcardaanbieding moeten ontvangen. De trainingsgegevens van het bedrijf kunnen zijn:

Naam Leeftijd Geslacht Jaarlijks inkomen Creditcardaanbieding
John Doe 25 M $39.500 Nee
Jane Doe 56 F $ 125.000 Ja
Trainingsdata
De voorspellingskolommen Leeftijd, Geslacht, en Jaarlijks inkomen bepaal de waarde van het “predictor attribuut” Creditcardaanbieding. In een trainingsset is het predictorattribuut bekend. Het classificatie-algoritme probeert vervolgens te bepalen hoe de waarde van het voorspellerattribuut is bereikt: welke relaties bestaan ​​er tussen de voorspellers en de beslissing? Het zal een reeks voorspellingsregels ontwikkelen, meestal een IF/THEN-statement. Het is duidelijk dat dit een eenvoudig voorbeeld is en dat het algoritme een veel grotere gegevenssteekproef nodig heeft dan de twee records die hier worden getoond. Verder zijn de voorspellingsregels waarschijnlijk veel complexer, inclusief subregels om attribuutdetails vast te leggen. Vervolgens krijgt het algoritme een “voorspellingsset” van gegevens om te analyseren, maar deze set mist het voorspellingsattribuut (of beslissing):

Naam Leeftijd Geslacht Jaarlijks inkomen Creditcardaanbieding
Jack Frost 42 M $ 88.000
Mary Murray 16 F $ 0
Voorspellergegevens
Deze voorspellingsgegevens helpen de nauwkeurigheid van de voorspellingsregels te schatten en de regels worden vervolgens aangepast totdat de ontwikkelaar de voorspellingen effectief en nuttig vindt.

Dagelijkse voorbeelden van classificatie

Classificatie en andere mijnbouwtechnieken liggen ten grondslag aan een groot deel van onze dagelijkse ervaring als consumenten. Weersvoorspellingen gebruiken classificatietechnieken om te melden of de dag regenachtig, zonnig of bewolkt zal zijn. De medische professie analyseert gezondheidstoestanden om waarschijnlijke medische resultaten te voorspellen. Een type classificatiemethode, Naive Bayesian, gebruikt voorwaardelijke waarschijnlijkheid om spam-e-mails te categoriseren. Meer van Lifewire

  • Illustratie van een pikhouweel omringd door elektronische verbindingen die datamining voorstellen

    Het regressiestatistisch model definiëren

  • Quantum computer interieur

    Wat is kwantumcomputers?

  • Databasebeheerder die aan bureau werkt

    Een databasedomein definiëren

  • Kaspersky Total Security

    Kaspersky Total Security Review

  • Man die meerdere computers en een smartphone gebruikt

    Wat is end-to-end-encryptie?

  • Mensen uit het bedrijfsleven bespreken via laptop aan bureau in vergadering

    Een databasekenmerk definieert de eigenschappen van een tabel

  • Wat is datamining?

  • ondernemer werkt met virtueel scherm

    Wat is ‘Big Data’ precies?

  • Vrouw met fiets aan de kant van de weg

    Cyclemeter GPS Fiets App voor de iPhone

  • Beste gewichthef-apps voor iOS en Android

    De 8 beste gewichthef-apps van 2021

  • WD My Passport-SSD

    WD My Passport SSD Beoordeling

  • Een persoon die een smartphone-app gebruikt om te sparen en geld te verdienen.

    De 7 beste geldbesparende apps van 2021

  • Architect kijkt naar database op computer

    Definitie van databaserelatie

  • Een goede kredietscore.

    De 4 beste gratis kredietscore-apps

  • Entiteit-relatiediagram

    Entiteit-relatiediagram Definitie

  • Drie zakenmensen bekijken gegevensgrafieken op een groot scherm

    Wat is K-Means-clustering?

reddingsdraad

Volg ons

  • Facebook

  • Over ons
  • Reclame maken
  • Privacybeleid
  • Cookie beleid
  • carrières
  • Redactionele richtlijnen
  • Contact
  • Gebruiksvoorwaarden
  • EU-privacy
  • Privacyverklaring Californië
  • TRUSTe

Uw privacyrechten

Lifewire en onze externe partners gebruiken cookies en verwerken persoonlijke gegevens zoals unieke identificatiegegevens op basis van uw toestemming om informatie op een apparaat op te slaan en/of te openen, gepersonaliseerde advertenties weer te geven en voor inhoudsmeting, doelgroepinzicht en productontwikkeling. Klik hieronder om uw toestemmingskeuzes voor Lifewire.com te wijzigen of in te trekken, inclusief uw recht om bezwaar te maken wanneer een legitiem belang wordt gebruikt. U kunt uw instellingen op elk moment bijwerken via de link “EU-privacy” onderaan elke pagina. Deze keuzes worden wereldwijd aan onze partners gesignaleerd en hebben geen invloed op de browsegegevens. Lijst met partners (leveranciers)

Wij en onze partners verwerken gegevens om:

Scan actief apparaatkenmerken voor identificatie. Gebruik nauwkeurige geolocatiegegevens. Informatie op een apparaat opslaan en/of openen. Selecteer gepersonaliseerde inhoud. Maak een gepersonaliseerd inhoudsprofiel. Meet advertentieprestaties. Selecteer basisadvertenties. Maak een gepersonaliseerd advertentieprofiel. Selecteer gepersonaliseerde advertenties. Pas marktonderzoek toe om doelgroepinzichten te genereren. Inhoudsprestaties meten. Ontwikkelen en verbeteren van producten. Lijst met partners (leveranciers)