You are on page 1of 20

Text mining en Information Management

8-dec-2009 P. Slaats p.slaats@hszuyd.nl Opleiding Information Management Hogeschool Zuyd http://im.hszuyd.nl

Text mining
´The non trivial extraction of implicit, previously unknown, and potentially useful information from (large amount of) textual dataµ.

‡ Het betreft het zoeken van patronen in ongestructureerde tekst
± Rechtstreeks door documenten te beschouwen als een zwerm van tekstfragmenten en collecties als een zwerm documenten ± Indirect door eerst voor te structureren aan de hand natuurlijke taalregels ‡ NLP (klassiek) ‡ Information Extraction (IE) ‡ Ontology based Information Extraction (OBIE)

Text mining ‡ µGeautomatiseerde¶ classificatie van content ‡ Versnipperen van content naar data en metadata ‡ Patronen via: ± Statistische verbanden ± Taalkundige patronen gekoppeld aan kennisstructuren (=expliciete relaties) ± (automatische) annotatie gekoppeld aan kennisstructuren .

Text mining ‡ IE + Data mining = Text (data) mining ‡ DB kan ook semantisch netwerk zijn ‡ IE + Reasoning = Knowledge engineering .

lokaties. ‡ Voorbeelden: namen. ± Named Entity Extraction (NE) ‡ Classificeren van IE-elementen naar voor gedefineerde categorieën op basis van eigenschappen. tijdselementen . hoeveelheden. ‡ Lokaliseren van specifieke items in natuurlijke taal.Text mining ‡ Verschillende mate van verfijning van classificatie ± Tekstcategorisatie ‡ Classificatie van volledige µdocumenten¶ ‡ Clustering van µgelijkwaardige¶ documenten ± Information Extraction (IE) ‡ Identificatie en classificatie van woorden en fragmenten binnen µdocumenten.

. ± het managen van (financiële) data ± ««.Information Management ‡ Informatiemanagement is: ± het managen van de business-ICT relatie (uitgangspunt in de praktijk). ± het managen van informatie als een bedrijfsmiddel (resource) (uitgangspunt in de literatuur / theorie). ± het managen van ICT.. ± het managen met ICT.

paper documents. as we know it today. includes both electronic and physical information. electronic documents. audio. ‡ for delivery through multiple channels that may include cell phones and web interfaces. ‡ regardless of source or format (data.«in deze presentatie: ‡ AIIM (Association for Information and Image Management ) ± Information.) . . ± The organizational structure must be capable of managing this information throughout the information lifecycle. video. etc.

Legacy OLTP ERP CRM CMS Blog DMS E-mail Bestandsysteem Wiki 47% ~62% 31% ~16% 22% 22% ETL EAI EII EIM ECM TDWI Research (eind 2006) .

and load (ETL) ETL betreft het volgende bij databases en in het bijzonder bij data warehouses: Extracting: verkrijgen van data van externe bronnen Transforming: prepareren (aanpassen en verrijken) van de data zodat het geschikt is voor de verdere verwerking Loading: het laden in de doelbestemming (database or data warehouse) .Legacy OLTP ERP CRM CMS Blog DMS E-mail Bestandsysteem Wiki 47% ~62% 31% ~16% 22% 22% ETL EAI EII EIM ECM Extract. transform.

.Legacy OLTP ERP CRM CMS Blog DMS E-mail Bestandsysteem Wiki 47% ~62% 31% ~16% 22% 22% ETL EAI EII EIM ECM Enterprise Application Integration (EAI) EAI is gedefineerd als het gebruik van software en systemen binnen architectuur principes om tot een integrale set van applicatie voor de organisatie.

Deze data wordt via een uniforme informatie representatie als een enkele set van datastructuren en naamgeving.Legacy OLTP ERP CRM CMS Blog DMS E-mail Bestandsysteem Wiki 47% ~62% 31% ~16% 22% 22% ETL EAI EII EIM ECM Enterprise Information Integration (EII) EII is een proces van informatie integratie dat via een uniforme data toegang (enkele interface) toegang biedt tot alle data binnen de organisatie. .beschikbaar gesteld. De doelstelling is het voor de eindgebruiker beschikbaar maken van een groot aantal hetrogene databronnen alsof het één enkele homogene databron is.

Legacy OLTP ERP CRM CMS Blog DMS E-mail Bestandsysteem Wiki 47% ~62% 31% ~16% 22% 22% ETL EAI EII EIM ECM Enterprise Content Management .

This means "unstructured data" is increasingly becoming closer to "structured." Such alignment is necessary to ensure semantic consistency within the company.´ .‡ Gartner: ³Tools are evolving to bring content under greater control.

‡ Combinatie van: ‡ Data integratie (gestructureerd met ongestructureerd) ‡ BI met ECM ‡ Master data management (MDM) met Metadata Management ‡ Information Quality management ‡ Gericht op: ‡ Diverse architectuur lagen ‡ Organisatie en µGovernance¶ ‡ Strategie en cultuur .Legacy OLTP ERP CRM CMS Blog DMS E-mail Bestandsysteem Wiki 47% ~62% 31% ~16% 22% 22% ETL EAI EII EIM ECM Enterprise Information Management (EIM) EIM combineerd Business intelligence (BI) [gestructureerde data] met enterprise content management (ECM) [ongestructureerde data] tot één enkel aanpak van de informatievoorziening vanuit een holistische benadering.

EIM ‡ Omdat er steeds sneller gereageerd moet worden. ± Meer tijd nodig & minder tijd beschikbaar. . terwijl er steeds meer tijd nodig is om uit de toenemende hoeveelheid data relevant informatie te destilleren. ‡ Text mining kan hier helpen: ± Selectie van relevante informatie uit toenemende ongestructureerde en minder snel toegankelijke content.

± Door geautomatiseerd een voorselectie te maken van relevante bronnen. ± ongeacht de bron. nl voorzien in: ± tijdige.EIM ‡ Omdat gebruikersgecentreerde aanpak noodzakelijk is.en persoonsgebonden te maken. ± in een wereld met steeds meer nieuwe soorten van informatiebronnen. accurate en bruikbare informatie. ‡ Text mining kan hier helpen: ± Door content gerichter beschikbaar te maken en meer context. .

± Door geautomatiseerd externe bronnen te verwerken die buiten de invloedsfeer van de organisatie liggen. ‡ Text mining kan hier helpen: ± Door content geschikt te maken voor verwerking met reeds beschikbaar data. .EIM ‡ Omdat integraal management van gestructureerde en ongestructureerde interne en externe bronnen noodzakelijk is.

Legacy ERP OLTP CRM CMS DMS Blog E-mail Bestandsysteem Wiki 31% ~16% 22% 22% ~62% 47% ETL EAI EII EIM ECM 2 DW/ DM ODS/ CDS 3 Zoekindexen ‡Query & Reporting ‡OLAP ‡Datamining ‡Dashboard/cockpit ‡Information Retrieval ‡Visualistie ‡Text mining * 1 ‡Semantic search 4 Portal .

Text mining: Effectief? ‡ Als er grote hoeveelheden content verwerkt moeten worden ‡ Als snelheid van groot belang is ‡ Als semantische nauwkeurigheid niet absoluut moet zijn. . ‡ Als er een compleet µplaatje¶ gewenst is.