You are on page 1of 31

R es RapidMiner integraci o

Jeszenszky Peter
jeszenszky.peter@inf.unideb.hu
Debreceni Egyetem, Informatikai Kar
R integracio kereskedelmi es egyeb termekekben
Budapest Users of R Network Meetup
2014. oktober 13., Budapest
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 1 / 31
RapidMiner
Vezeto adatbanyaszati es analitikai megoldas, mely elerheto szabad es nylt
forras u szoftverkent is
A fejlesztoceg honlapja szerint 200 000-nel tobb aktv felhasznalo, az
ugyfelek kozott olyan vallalatokkal, mint peldaul a Lufthansa, a
PayPal es a Telenor Group (forras:
http://rapidminer.com/learning/faqs/)
KDnuggets 15th Annual Analytics, Data Mining, Data Science
Software Poll: RapidMiner Continues To Lead. June 7, 2014. url:
http://www.kdnuggets.com/2014/06/kdnuggets-annual-
software-poll-rapidminer-continues-lead.html
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 2 / 31
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 3 / 31
Jellemz ok
Platformf uggetlenseg (Java)
Intuitv grakus felhasznaloi fel ulet
Szamos adatforras tamogatasa (CSV, Excel, XML, relacios
adatbazisok, . . . )
Kiterjeszthetoseg: az alapfunkciokat bovto kiterjesztesek
rendelkezesre allasa (RapidMiner Marketplace)
Aktv felhasznaloi es fejlesztoi kozosseg: forum, konferenciak
(RapidMiner World, korabban: RCOMM)
Kivalo eszkoz adatbanyaszat oktatasahoz
Nem t ul hatekony memoriahasznalat
Bizonyos feladatokat csak nyakatekert modon lehet megoldani benne
Bosszanto hibak, melyek kijavtasa nem t ul gyorsan tortenik
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 4 / 31

Uzleti modell es rendelkezesre allas (1)


Fejleszto: RapidMiner (korabban: Rapid-I)
Termekek: RapidMiner Studio (korabban: RapidMiner), RapidMiner
Server (korabban: RapidAnalytics)
2013-ban jelentos valtozas az uzleti modellben: a korabbi open source
modelltol eltolodas egy business source modell fele

Ingyenesen a szoftvereknek csupan egy korlatozott lehetosegekkel bro


kiadasa erheto el (Starter)

A fejlesztoceg gerete szerint az aktualisnal eggyel korabbi fo


verzioszam u verziok szabad es nylt forras u szoftverkent lesznek
elerhetoek a GNU AGPLv3 hatalya alatt (forras: http:
//rapidminer.com/the-core-of-rapidminer-is-open-source/)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 5 / 31

Uzleti modell es rendelkezesre allas (2)


Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 6 / 31
Szabad es nylt forras u verzi o
Az 5.x es korabbi szam u verziok erhetok el a GNU AGPLv3 hatalya
alatt a http://sourceforge.net/projects/rapidminer/ cmen

A legutobbi ilyen verzio az 5.3.15 szam u, mely 2013. oktober 31.-en


jelent meg
A 6.x verzioszam sorozat alatt futo RapidMiner Studio-ban a grakus
felhasznaloi fel ulet alakult at jelentosen, funkciok tekinteteben nincs
t ul sok latvanyos ujdonsag
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 7 / 31
Ajanlott irodalom
Markus Hofmann and Ralf Klinkenberg, eds.
RapidMiner: Data Mining Use Cases and Business
Analytics Applications. Chapman & Hall/CRC Data
Mining and Knowledge Discovery Series. CRC Press,
2013. isbn: 9781482205497. url: http://www.
crcpress.com/product/isbn/9781482205497
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 8 / 31
Sajat fejlesztes u oktatasi anyag
A T

AMOP-4.1.2.A/1-11/1-2011-0103 azonostoj u palyazat kereteben


kesz ult magyar es angol nyelv u elektronikus tananyag az adatbanyaszat
gyakorlati oktatasahoz Adatbanyaszati esettanulmanyok/Case Studies in
Data Mining cmmel
Szerzok: F ulop Andras, Gonda Laszlo, Ispany Marton, Jeszenszky
Peter, Szathmary Laszlo

Osszesen 56 darab, a RapidMiner gyakorlati hasznalatat szemlelteto


video es a kserletek lerasat tartalmazo elektronikus konyv
A Digitalis Tankonyvtar portalon lesz elerheto
http://www.tankonyvtar.hu/
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 9 / 31
RapidMiner es R
Az R Extension az R-t integralja a RapidMiner-be
Licenc: GNU AGPLv3
Egy Execute Script nev u operator biztost R kod RapidMiner
folyamatok reszekent torteno vegrehajtasahoz

A RapidMiner es az R kozott ketirany u adatkommunikacio lehetseges,


mely nagyszer u lehetosegeket rejt magaban

Adatok a ket szoftver kozotti atadasa soran ExampleSet data frame


konverzi o

Tipikus felhasznalas:
(1) Adatokat adunk at a RapidMiner-b ol az R-nek
(2) Egy R szkript elemzest vagy transzformaci okat vegez az adatokon
(3) Az eredmenyt visszaadjuk a RapidMiner-nek
Az R nagyszer u grakus lehetosegei nem ker ulnek kiaknazasra a fenti
forgatokonyv mellett
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 10 / 31
Pelda a felhasznalasra: adatgeneralas (1)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 11 / 31
Pelda a felhasznalasra: adatgeneralas (2)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 12 / 31
Pelda a felhasznalasra: adatgeneralas (3)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 13 / 31
Pelda a felhasznalasra: adatgeneralas (4)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 14 / 31
Pelda a felhasznalasra: adatgeneralas (5)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 15 / 31
Pelda a felhasznalasra: adatfeldolgozas (1)
A k-adik legkozelebbi szomszedoktol mert tavolsag meghatarozasa (peldaul
az parameter ertekenek valasztasahoz a DBSCAN klaszterezesnel):
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 16 / 31
Pelda a felhasznalasra: adatfeldolgozas (2)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 17 / 31
Pelda a felhasznalasra: adatfeldolgozas (3)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 18 / 31
Pelda a felhasznalasra: adatfeldolgozas (4)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 19 / 31

Abrakesztes: RapidMiner vs R
Az R egyik legnagyobb erosseget kivalo grakus kepessegei jelentik
Az R-rel kesztett abrak akar matematikai formulakat is
tartalmazhatnak
A RapidMiner grakus eszkoztaraval kesztett abrak szegenyesek az
R-ben elerheto minoseghez kepest
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 20 / 31
Pelda halad o szint u R grakara (1)
Histogram of x
x
D
e
n
s
i
t
y
0 5 10 15 20 25
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
0
.
1
0
Gamma distribution with parameters = 5 and = 0.5
g
,
(x) = x
1

e
x
()
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 21 / 31
Pelda halad o szint u R grakara (2)
x <- rgamma(500, 5, 0.5)
h <- hist(x, breaks = 15, freq = FALSE, col = "wheat")
rug(x)
curve(dgamma(x, 5, 0.5), col = "red", lwd = 2, add = TRUE)
title(sub = substitute(
paste("Gamma distribution with parameters ",
alpha == a, " and ", beta == b),
list(a = 5, b = 0.5)))
expr <- expression(
g[list(alpha, beta)](x) == x^{alpha - 1} *
frac(beta^alpha * e^{-beta * x}, Gamma(alpha))
)
arrows(0.75 * max(x), 0.05, max(x) / 2,
dgamma(max(x) / 2, 5, 0.5),
length = 0.15, col = "red", lwd = 2)
text(0.75 * max(x), 0.05, expr, pos = 3)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 22 / 31
Jelenteskesztes a RapidMiner-ben
A Reporting Extension jelentesek kesztesehez biztost operatorokat
A jelentesek tablakat es abrakat tartalmazhatnak
A tamogatott kimeneti formatumok: HTML, PDF, RTF es Excel
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 23 / 31
Egy sajat fejlesztes
Az R szkriptek altal eloalltott grakus kimenetek nem illeszthetok be
a RapidMiner-rel kesztett jelentesekbe
Ezt a funkciot tobb alkalommal is kertek a felhasznalok a forumon,
melyre a fejlesztok a kovetkezot valaszoltak:

. . . unfortunately this is
currently not possible, but it is already on our todo list. . .
Sajat fejlesztes u megoldas a problemara:

Peter Jeszenszky. ?Incorporating R Plots into RapidMiner Reports?


In: Proceedings of the 3rd RapidMiner Community Meeting and
Conference (RCOMM 2012). Ed. by Simon Fischer and Ingo Mierswa.
2012, pp. 1926. isbn: 978-3-8440-0995-8
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 24 / 31
Az R Plot Operator
Az Execute Script es a Report operatorok keresztezesevel letrehozott
hibrid
Lehetove teszi a Reporting Extension altal letrehozott jelentesekhez
az R-rel kesztett abrak hozzaadasat
Bemenete egy ExampleSet
Egy R szkriptet hasznal egy abra letrehozasahoz
Az Execute Script es a Report operatorokhoz hasonloan hasznalhato
(a parameterek jelentese is ugyanaz)
Segtsegevel professzionalis abrak hozhatoak letre, melyek akar
matematikai formulakat is tartalmazhatnak
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 25 / 31
Az operator parameterei
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 26 / 31
Pelda az uj operator hasznalatara (1)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 27 / 31
Pelda az uj operator hasznalatara (2)
Az operator altal vegrehajtando szkript:
attach(X)
xmean <- mean(x) ; xsd <- sd(x)
hist(x, breaks = 25, freq=FALSE, col="wheat")
rug(x)
curve(dnorm(x, mean = xmean, sd = xsd), add=TRUE, col="red")
detach(X)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 28 / 31
Pelda az uj operator hasznalatara (3)
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 29 / 31
Tervek a kozelj ov ore nezve
A jelenlegi implementacio PNG kepeket kepekkent kepes az abrak
beillesztesere, jobb lenne inkabb vektorgrakat (SVG) hasznalni
A felhasznalo szamara lehetove tenni tpusfeladatok megoldasara
szolgalo szkript sablonok hasznalatat
Technikai jelleg u javtasok a forraskodban
A RapidMiner Marketplace-en nyilvanosan elerheto kiadas
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 30 / 31
K oszon om a gyelmet!
This talk was supported by the T

AMOP-4.2.2.C-11/1/KONV-2012-0001
project. The project has been supported by the European Union,
co-nanced by the European Social Fund.
Jeszenszky Peter (Debreceni Egyetem) R es RapidMiner integracio Budapest R Meetup 2014 31 / 31

You might also like