Ingezonden persbericht
Data mining (DATM)
Dealing with the data flood
STT symposium, 23 april, WTC Rotterdam
Introduction of data mining, text- en multimedia mining: ways to convert data into knowledge.
info, aanmelden: otten@stt.nl, 070-3029834
Data-explosie
Hoewel de hoeveelheid beschikbare data de laatste decennia exponentieel is toegenomen (De komende tien jaar wordt evenveel gecodificeerde informatie gegenereerd als in alle jaren daarvoor), zijn maar weinig mensen zich bewust van de omvang of - belangrijker nog - het potentieel van de groeiende datavoorraad. De probleemstelling voor het project 'Data mining' ligt eigenlijk al hierin besloten: de mogelijkheden en middelen om de gegevens te benutten blijven ver achter bij de toename in beschikbare data. Veel informatie is wel aanwezig, maar kan alleen gevonden worden met een grote dosis toeval (Internet), is niet expliciet beschikbaar (databases van bedrijven) of alleen toegankelijk voor mensenogen na de inzet van forse rekencapaciteit (astronomische, meteorologische en aardobservatiegegevens). Enige feiten:
De beste zoekmachine op Internet indexeert slechts zestien procent van de sites. Momenteel bevat het Internet ongeveer vijftien terabytes gegevens (Nature, 1999b); De hoeveelheid data in GenBank, de internationale opslagplaats voor gen-sequenties verdubbelt iedere veertien maanden (Economist, 1999); De 'Large Hadron Collider' van het CERN zal twintig terabytes testgegevens per dag produceren, vijftien jaar lang (Nature, 1999a).
Gevoegd bij de toenemende waarde van kennis leidt deze ontwikkeling tot een duidelijke behoefte aan middelen om de enorme hoeveelheden informatie en kennis verstopt in gegevens te ontsluiten. Een van deze middelen is data mining.
Data mining
Voor dit project wordt de volgende definitie van data mining gehanteerd: 'Data mining is het extraheren van voorheen onbekende informatie uit (vaak grote hoeveelheden) data. In de juiste context leidt dit tot kennis'. 1) Volgens deze definitie kan data mining toegepast worden op een brede reeks van gegevensbronnen, van statische data warehouses tot real time datastromen van videosignalen of andere bronnen. Hierbij gaat het vooral om de relaties tussen de gegevens, in tegenstelling tot zoekacties (queries) waarbij voornamelijk gefilterd wordt. Zo kan met data mining de optimale zoekactie voor het selecteren van een bepaalde doelgroep bepaald worden. Ook kunnen clusters of patronen in gegevens ontdekt worden, op basis waarvan voorspellingen gedaan kunnen worden.
Data, informatie en kennis
In dit project worden de onderstaande definities gehanteerd (vrij naar Schreiber (1998):
Definitie
Voorbeeld
Data
ongeïnterpreteerde signalen of symbolen, waarneembaar of in opslagsystemen.
..-..
Informatie
data waaraan een betekenis toegekend is.
Morse-code: S.O.S
Kennis
het geheel van data en informatie dat door mensen in acties omgezet kan worden, om taken uit te voeren of nieuwe informatie te creëren.
Mensen in nood, start reddingsoperatie
In de gereedschapskist van de data miner bevinden zich statistische methoden, beslisbomen, neurale netwerken, evolutionaire algoritmen, associatieregels, inductief programmeren en nog vele andere technieken. Binnen deze technieken is ook weer variatie mogelijk door bijvoorbeeld de toegepaste algoritmen te wijzigen. Het gaat echter niet alleen om de gegevensanalyse, voor een zinvolle analyse is begrip van de context (domeinkennis) in het toepassingsgebied van doorslaggevend belang. Deze domeinkennis kan door experts geleverd worden, maar ook in toenemende mate door lerende systemen.
Toepassingen
Het voordeel van het gebruik van verborgen informatie uit de bestaande databases komt reeds duidelijk naar voren bij de (direct-)marketingacties van banken en verzekeringsmaatschappijen. Door aanbiedingen voor nieuwe producten te koppelen aan speciaal daarvoor geselecteerde klantgroepen realiseert men een hogere respons. Op het gebied van de wetenschap en voor individueel gebruik biedt data mining mogelijkheden om het rendement van het genereren van kennis te verhogen. In de komende decennia kan data mining ertoe bijdragen dat een enorme vooruitgang wordt geboekt in ambitieuze projecten als de 'Sloane Digital Sky Survey' 2) (Szalay, 1999), bij het in kaart brengen van het menselijk genoom of het creëren van autonome systemen voor de ruimtevaart. Gecombineerd met ontwikkelingen in draadloze data-overdracht, beeldherkenning en spraakinteractie worden toepassingen als de 'context-bewuste' persoonlijke digitale assistent mogelijk.
Naarmate de mogelijkheden van data mining toenemen, neemt helaas ook de kans toe op gebruik ervan voor malafide doeleinden, evenals de kans op gebruik zonder respect voor de rechten van het individu. Tezamen met de gestaag toenemende registratie is aantasting van de privacy niet denkbeeldig. Deze ontwikkelingen zullen grote invloed hebben op ons leven, onze manier van werken, leren en spelen. Het brede spectrum van mogelijke gevolgen van het toepassen van data mining in de komende twintig jaar rechtvaardigt een grote inspanning bij het genereren van een toekomstvisie, het doel van dit STT-project.
Het project
De doelgroep van het project bestaat uit beleidsmakers en strategen bij bedrijfsleven en overheid. Naast het genereren van toekomstvisies streven we ernaar kansen en gevaren te benoemen en op basis hiervan aanbevelingen te doen.In het project wordt aandacht geschonken aan de toepassing van data mining voor de wetenschap, het bedrijfsleven, de overheid en de individuele burger. In elk van deze toepassingsgebieden zullen de mogelijke gevolgen in kaart gebracht worden. Eerst worden de ontwikkelingen in methoden en technieken voor data mining geïnventariseerd, op basis van aannamen over ICT in de komende twintig jaar. Maatschappelijke behoeften en bedreigingen zullen accenten leggen bij de verdere uitwerking in de genoemde toepassingsgebieden. Voorbeelden van toepassingen in de wetenschap zijn reeds genoemd. In het bedrijfsleven wordt data mining gebruikt bij het voorspellen van klantgedrag, analyse van productgegevens en het beoordelen van risico's. Overheden kunnen data mining gebruiken voor detectie en preventie van misdaad. Ook de burger kan er baat bij hebben: data mining kan hem helpen informatie op het Internet beter te ontsluiten, digitale bibliotheken toegankelijk te maken of multimediabestanden te doorzoeken. Aan de andere kant zal diezelfde burger in toenemende mate persoonlijk geconfronteerd worden met de via data mining gegenereerde kennis vanuit de wetenschap, het bedrijfsleven en de overheid.
Noten: 1) De meeste definities in de literatuur hebben betrekking op data mining in een commerciële omgeving. Hier is bewust gekozen voor een ruime omschrijving, die ook wetenschappelijke en persoonlijke toepassingen omvat. 2) Hierbij wordt een groot deel van de noordelijke hemisfeer van het heelal in kaart gebracht. Zie ook www.sdss.org/
projectleider
ir. J.M. Meij
Voor meer informatie kunt u contact opnemen met Jeroen Meij,
tel. (070) 3029833, of via e-mail jeroen.meij@stt.nl
Status: Lopend project, Publicatie: 2001 STT home
Bijgewerkt: 13-02-02