Professional Documents
Culture Documents
Autors: Matss Rikters Studenta apliecbas nr. mr08089 Vadtjs: Dr.dat. Uldis Bojrs
RGA 2012
ANOTCIJA
bakalaura darba mris ir izptt, k tiek analizti dati no socil tkla Twitter un atrast lietdergks metodes, kas paldz dus datus analizt. aj darb tiks apskattas metodes, risinjumi un rki, kas vartu bt nodergi jebkdas tematikas Twitter datu analzei. Darba gait, pielietojot apskatts metodes un risinjumus, tiks izveidots un aprakstts rks universlai Twitter datu analzei. Atslgvrdi: socilais tmeklis, socilie tkli, Twitter, tmeka zintne
ABSTRACT
Universal methods for Twitter data analysis The objective of this thesis is to explore how data from the Twitter social network can be analyzed and to find the most useful methods that would help to analyze such data. This thesis will describe the methods, solutions and tools that could be used for analyzing Twitter data of any topic. In the course of the work a universal tool for analyzing Twitter data will be developed using the methods described. Keywords: social web, social networks, Twitter, web science
ABSTRACT
Universal-Methoden zur Twitter-Datenanalyse Der ziel dieses Bachelorarbeits ist es zu erforschen wie analysiert man Daten aus dem sozialen Netzwerk Twitter und zu finden die ntzlichsten Methoden die helfen wrden diese Daten zu analysieren. Dieser Bachelorarbeit wird die Methoden, Lsungen und Werkzeuge beschreiben das knnten fr die Analyse von Twitter-Daten von jedem beliebigen Thema verwendet werden. Im Verlauf der Arbeit wird auch ein universelles Werkzeug fr die Analyse von Twitter-Daten entwickelt mit Hilfe dieser Methoden und beschrieben werden. Stichwrter: Soziales Web, Soziales Netzwerk, Twitter, Web Wissensacht
SATURS
APZMJUMU SARAKSTS.....................................................................................................6 IEVADS .....................................................................................................................................7 1. SOCILAIS TMEKLIS....................................................................................................8 1.1. Twitter ........................................................................................................................8 2. PROBLMAS APRAKSTS.............................................................................................11 3. ESOIE TWITTER DATU ANALZES RKI ................................................................13 3.1. ThinkUp....................................................................................................................13 3.2. IMB BigSheets .........................................................................................................15 3.3. The Archivist ............................................................................................................17 3.4. TweetReach ..............................................................................................................19 3.5. Row Feeder...............................................................................................................21 3.6. Apkopojums .............................................................................................................23 4. PILOTPROJEKTS ...........................................................................................................24 4.1. Twitter datu vkana.................................................................................................24 4.2. Datu apstrde ............................................................................................................26 4.3. Rezultti....................................................................................................................26 4.4. Secinjumi ................................................................................................................28 5. TWITTER ZIU APSTRDES PROCESS....................................................................29 5.1. Datu vkana.............................................................................................................29 5.2. Datu priekapstrde ..................................................................................................30 5.2.1. Teksta attrana................................................................................................30 5.2.2. Morfoloisk analze ........................................................................................31 5.2.3. Tokenizcija......................................................................................................31 5.2.4. Twitter zias temata noteikana .......................................................................31 5.2.4.1. Ar klasifikatoru.............................................................................................32 5.2.4.2. Pc atslgvrdiem .........................................................................................33 5.2.4.3. Tmas izvle no saraksta ..............................................................................33 5.3. Twitter zias analze.................................................................................................33 5.3.1. Metadati ............................................................................................................33 5.3.2. Vrdi un Kolokcijas ........................................................................................34 5.3.3. Atslgvrdu efektivitte....................................................................................34 5.3.4. Emotikoni .........................................................................................................35 6. UNIVERSLS TWITTER DATU ANALZES RKS ....................................................36 6.1. Prasbu specifikcija .................................................................................................37 6.1.1. Funkcionls prasbas.......................................................................................37 rjs saskarnes prasbas .................................................................................40 6.1.2. 6.2. Projektjuma apraksts...............................................................................................41 6.2.1. Saskarnes projektjums ....................................................................................41 6.2.2. Algoritmu projektjums....................................................................................45 6.3. Rka testana ...........................................................................................................46 6.4. Saldzinjums ar esoajiem rkiem ...........................................................................48 SECINJUMI ..........................................................................................................................50 PATEICBAS ...........................................................................................................................51 IZMANTOT LITERATRA ................................................................................................52
APZMJUMU SARAKSTS
Apzmjums API Skaidrojums Application Programming Interface (angu val.). Lietojumprogrammu programmanas interfeiss noteikts likumu Hatags un specifikciju kopums, ar kuru paldzbu lietojumprogrammas var komunict viena ar otru. Hashtag (angu val.). Birka jeb vrds vai frze, kas skas ar simbolu #. Parasti apzm kdu konkrtu tmu, kas piemt tvtam. NLP
Natural Language Processing (angu val.). Virziens, kas pta datora mijiedarbbu ar cilvka dabisko valoda, dotaj kontekst, analizt cilvku raksttos tekstus.
Tweet (angu val.). 140 simbolus gara zia Twitter socilaj tkl. Mikroblogoanas socilais tkls, kur cilvki var rakstt sas zias jeb tvtus. Uniform Resource Locator (angu val.). Simbolu virkne, kas satur standartiztu resursa adresi Internet.
IEVADS
Pieaugot socilo tklu, k, piemram, Twitter, Facebook un Google+, popularittei, cilvki tajos atstj arvien pieaugou daudzumu dadas informcijas. Pavisam nesen Twitter reistrto lietotju skaits sasniedza 500 miljonus lietotju un Facebook 800 miljonus [5], kamr Google+ reistrto lietotju skaits ir ap 90 miljoniem [6]. Lai gan daa o datu ir nekam nedergi jeb t saucamie troki, tomr tajos netrkst ar nodergas informcijas par visdadkajm tmm, saiu uz citm interesantm lapm, saturgu birku, atsauu uz citiem lietotjiem un citas informcijas, kas varbt no pirm acu uzmetiena nav tik acmredzami lietderga. Paemot pietiekami lielu daudzumu das vairk vai mazk saturgas informcijas un to izanalizjot, var atklt iepriek neievrotas pazmes par konkrto ziu tmu, piemram, vcot savu draugu tvtus par anu, spilgti izcls, cik daudz kds tvto par kkm, cits par kafiju. d veid var ar izptt, k interneta vid uzvedas kdi konkrti ziu autori. Neapaubmi, tas nodertu dadiem uzmumiem, lai pavrotu, ko par tiem run tauta, k ar valsts iestdm, kam, iespjams, vajadzgi kdi statistiski dati. Tikpat labi ar vienkriem mjas lietotjiem var sagribties pasekot ldzi, ko par kdu notikumu vai vietu run citi, piemram, par politiku pirms vlanm. aj darb plnots izptt pamienus, ar kdiem ldzgas iespjas tiek nodrointas palaik, un ar atrast vl citus, iespjams, labkus veidus, k analizt Twitter ziu datus. Galu gal, liekot liet apskatts metodes, izveidot universli pielietojamu Twitter datu analzes rku.
1. SOCILAIS TMEKLIS
Skotnj tmeka versija jeb t saucamais WEB 1.0 tika izstrdta t, ka tikai augsta ranga profesioni spja taj ievietot saturu un viss, uz ko bija spjgi parastie mjas lietotji, bija tikai o saturu apskatt. Pie tam, is saturs prsvar bija tikai tekstula informcija ar samr maz attliem, video un audio informciju. Taj bija vairkas problmas ierobeots satura daudzums, ierobeotas cilvku rados izpausmes, ar ierobeotas biznesa izpleans iespjas. Tpc, lai risintu s problmas, lnm ska rasties WEB 2.0 jeb socilais tmeklis, kas ir balstts uz lietotju pau radtu saturu internet [1]. Socilais tmeklis sastv no daudzo interneta lietotju savstarpjm attiecbm plaaj tmeka vid. Tas ietver visas interneta mjas lapas un programmatru, kas atbalsta un veicina socils mijiedarbbas starp to lietotjiem. K piemrus vartu mint socilo tklu mjas lapas, dadas interneta sples, atsevius interneta veikalus. Viens no galvenajiem du lapu aspektiem ir sekmt mijiedarbbu starp cilvkiem ar ldzgm interesm, k ar paldzt tiem atrast lietas, kas vius vartu interest, bt nodergas. Lnm un ne tik uzkrtoi sk pilnveidoties ar nkam tre tmeka versija (WEB 3.0), kas balstta uz nozmes pieiranu saraotajiem datiem (semantisko tmekli) un personalizciju [2]. Palielinoties interneta lietotju skaitam, palielins ar viu aktivittes tmekl un ldz ar to ar o cilvku savstarpjs attiecbas internet paliek arvien uzskatmkas un pieejamas citu apskatei. Msdiens simtiem miljonu interneta lietotju ir virtuli saistti ar saviem draugiem vai veido jaunas draudzbas, veido un dals ar dadu internet izvietojamu saturu fotogrfijm, video, mjas lapm, blogiem. Tas viss pateicoties socil tmeka sniegtajm iespjm. Tiei is lietotju radtais saturs (user generated content) obrd ir viena no straujk augoajm satura formm internet. Labums taj ir tas, ka lietotju radtais saturs ir pavisam neparedzams. Tomr to var izmantot, lai prognoztu citas lietas, k, piemram, analizjot Twitter lietotju nosakojumu bijis iespjams diezgan preczi prognozt izmaias akciju tirg [7].
1.1. Twitter
Viens no msdienu socil tmeka gigantiem ir socilais tkls Twitter. Twitter ir mikroblogoanas platforma, kur lietotji var dalties ar tekstulm zim garum ldz 140 rakstu zmm jeb t saucamajiem tvtiem. Tas tika izveidots un palaists darbb 2006. gada vasar. obrd tas ir sasniedzis oti ietekmga medija statusu ar vairk k 500 miljoniem reistrtu lietotju, no kuriem vairk k 140 miljoni ir aktvi lietotji, kuri ik dienu saraksta vairk k 340 miljonus tvtu [8]. Twitter ir savas apkrtnes izpratnes ldzeklis, kas auj sekot 8
ldzi notikumiem citu cilvku, zmolu, slavenbu jaunumiem, un uzzint svaigks zias no ziu portliem vai firmm. Tikpat labi Twitter ir informcijas apraides ldzeklis, lai lietotji vartu citiem sniegt informciju ar tvtu paldzbu, vai sazias instruments, aujot lietotjiem vienam otram atbildt, uzskt dialogus, polilogus. T k tvti, atirb no zim citos socilajos tklos, ir tik si, tos biei vien ir iespjams viennozmgi interprett un ldz ar to ar kopum vienkrk analizt. Viena liela Twitter atirba no citiem tkliem ir t, ka taj starp lietotjiem pastv viena virziena saites. Respektvi tur nav obligtas abpusjas draudzbas, k, piemram, Facebook draudzbas, kur Jnis ir Ptera draugs un Pteris ir Ja draugs, bet t viet vienpusja sekoana citiem lietotjiem, kur, ja Pteris seko Jnim, tas nenozm, ka Jnis obligti seko ar Pterim. Citiem vrdiem sakot, Twitter lietotju savstarpjs saites ir vienvirziena jeb asimetriskas. Ldz ar to rodas nevis viens konkrts skaits ar draugiem, bet gan lietotji, kuri seko (followers) un lietotji, kuriem tiek sekots (following).
Twitter sfr ir ar savi paie jdzienu apzmjumi. Ldzs jau iepriek mintajam tvtam, par kuru tiek dvta katra 140 zmju gar zia, ir ar tdi apzmjumi k retvts, hatags, DM un reply. Retvts ir kda cita autora tvta prpublicana saviem sekotjiem. Tvti tiek prpublicti vai nu ar pogas Retweet paldzbu, vai ar, prkopjot oriinl autora tvtu un tam priek pierakstot savu komentru, ja ir vieta, un lielos burtus RT, kas apzm ReTweet. Par hatagu jeb latviski birku tiek dvti vrdi, kas tvt skas ar # simbolu. Birkas parasti tvtos lieto, lai identifictu kdu konkrtu tmu, notikumu vai paskumu. Birkas ar atvieglo prjiem Twitter lietotjiem moment atrast citus tvtus ar tdu pau birku, uz t uzklikinot. DM jeb direct message ir privta vstule no viena lietotja otram, kas ar drkst bt maksimli 140 simbolus gara. DM iespjams stt tikai saviem sekotjiem. Visbeidzot reply jeb atbilde ir tvts, kur tiek atbildts uz kdu citu tvtu.
Twitter socilais tkls tpat k daudzi citi piedv lietot ar API saviem servisiem. Twitter piedv divus API veidus REST API un Streaming API [9]. Twitter REST API piedv ldzekus darbam ar jau esoajiem datiem, turpretim Streaming API paldz strdt ar rel laik dabjamiem tvtiem. Ar REST API var gan meklt un iegt jau uzraksttos tvtus, gan ar iegt informciju par paiem lietotjiem. Tomr meklanas rezulttus var iegt tikai par tvtiem, kas rakstti pdjo seu ldz deviu dienu period. Streaming API ir domts, lai pc atbilstbas noteiktiem atslgvrdiem vai kdam citam kritrijam ievktu relaj laik uzrakstto tvtu plsmu. Tiei API, k ar liel skaita samr so teksta ziu d Twitter ir oti pateicgs datu ievkanai un analizanai.
10
2. PROBLMAS APRAKSTS
Ideja radt universli izmantojamu Twitter datu analzes rku rads 2011. gada rudens specseminra Web Science ietvaros. seminra laik ar tika skts darbs pie Twitter datu analzes pilotprojekta (4. nodaa) ar nosaukumu Twitdiens1. Twitdiena tma ir Twitter dati par anu un dieniem. Tas neprtraukti ievc tvtus, izmantojot Twitter Streaming API [9], analiz tos un atspoguo rezulttus tmeka vietn un Nokia Belle telefoniem paredzt lietojumprogrammatr. Tas izrdjs oti interesants projekts un va apstiprint vairkus jau iepriek nojauamus faktus uz ziemu popularitte pieauga mandarniem, t ar uz o to, kas nebija uzreiz tik acmredzams tjai un okoldei ir lielka popularitte k kafijai. Praktiski uzreiz pc servisa palaianas pardjs pieprasjums no vairkiem lietotjiem par ldzgu rku izveidi par viiem aktulm tmm, k, piemram, par politiku, foto, mziku un citm. Tas vl jo vairk liecinja par universla Twitter datu analzes rka nepiecieambu. Problma ir, ka obrd nav atrodama universla lietojumprogrammatra, kura pilnb apmierintu visas lietotju, kuri ieminja pilotprojektu, prasbas. s prasbas iekauj: 1. Informcijas ievkanu no Twitter Ievkanu rel laik no Twitter plsmas meklanas rezultti ir vairk vai mazk statiski, tau rel laika plsma ir dinamiska. Pie tam Twitter mdz filtrt [1017] meklanas rezulttus, turpretim Twitter plsma netiek filtrta. Par jebkdiem atslgvrdiem t k Twitter auj tvtu ievkan nordt ldz pat 400 dadiem atslgvrdiem, btu nodergi o ierobeojumu apzinties un ievkanu veikt pc vairk k tikai viena atslgvrda. Iespju tri un rti ievktos datus eksportt daai lietotju galvenais ir rt veid tikt pie strukturtiem datiem, kurus pc tam pai vartu analizt vai k citdi izmantot. 2. Pc iespjas plaku un skku ievkto datu analzi Citviet jau biei pielietots metodes o Tvtu skaita izmaias kd laika period ja tvti tiek vkti ilgku laiku, vienmr ir interesanti paskatties, kuros bros to skaits pieaudzis visvairk. o Tvtos biek pieminto vrdu, lietotjvrdu, birku analze biei vien, vcot pc konkrta atslgvrda, visos ievktajos tvtos sastopams ne vien is atslgvrds bet ar citi vrdi, birkas, kas apraksta konkrto tmu. K ar varbt ne tik plai pielietots
http://www.twitediens.tk 11
o Tvtu attloana uz kartes ja tiek savkts pietiekams daudzums tvtu, tad var ar ievrot, ka daa to autoru ir nordjui savu atraans vietu un tos var attlot uz kartes. o Tvtu metadatu analze katram tvtam ldzi nk ar kaudze dadu metadatu, kas to apraksta un kurus ir vrtgi apskatt skk. o Tvtos sastopamo emotikonu analze emotikoni apraksta tvta autora emocionlo nostju, ldz ar to pc tiem var secint kaut vai, cik priecgi vai bdgi ir tvtotji. o Meklan izmantoto atslgvrdu analze ja tvti tika ievkti pc vairkiem atslgvrdiem un gar laika period, noteikti ir vrts paskatties, kuri no atslgvrdiem bijui visragkie. 3. rti iegstamu un lietojamu rku Bezmaksas ne visi var atauties iegdties drgas licences. Atvrt pirmkoda tpc, lai citi vartu to uzlabot, papildint, pielgot savm specifiskajm vajadzbm. Lietotjam draudzgu tdu, lai to vartu izmantot ne vien specili apmcti cilvki, bet ar parasti mjas lietotji, kurus pki ieinteresjusi kda tma. Viegli uzstdmu, pielgojamu bez striktm un grti realizjamm augstm opertjsistmu, programmatras vai aparatras prasbm. Par darba mri tika izvirzts izzint dadus pamienus, k darboties ar Twitter datiem, tos apstrdt, analizt un attlot lietotjam viegli saprotam veid. Darba pln ietilpst ar realizt praktiski izptts metodes, uzbvjot Twitter datu analzes platformu, kas atbilst ar vism izteiktajm prasbm.
12
3.1. ThinkUp
ThinkUp2 ir bezmaksas atvrt pirmkoda tmeka lietojumprogramma, kas uzkrj iepriek autentificta lietotja datus no socilajiem tkliem Twitter, Facebook un Google+ lokl datu bz un ik pc kda noteikta laika perioda tos atjaunina. ThinkUp os datus atspoguo prskatmos grafikos un diagramms, kas paldz saskatt jgu lietotju socilo tklu darbbs.
2
http://thinkupapp.com 13
Thinkup ir paredzts k lielm organizcijm, kam ir aktuli uzzint par savu biznesu socilajos tklos, t ar aktviem socilo tklu lietotjiem, kuri vlas dzik izptt savas darbbas tmekl. Attl 5.1. redzama ThinkUp darbvirsma (Dashboard), kur tiek grafiski attlotas jaunks darbbas, sekotju izmaia pa dienm un pa nedm, Twitter klientu pielietojuma sadaljums un ziu tipi. Katru no tm sadam var apskatt ar tuvk. Skk izptma ir ar ziu sadaa (Tweets), draugu sadaa (Who You Follow) un saiu sadaa (Links). Ja zis ir pieejami dati par atraans vietu, tad ThinkUp ar tiem spj izveidot vizualizciju un attlot uz kartes.
Kritrijs Cena Vide Atvrt pirmkoda risinjums Spja vkt rel laika datus
J Analiz lietotja aktivitti socilajos tklos un attlo to grafikos. Spj attlot citu lietotju atbildes uz zim kart. auj meklt tvtos un eksportt tos k .csv failu. Skuma skat jeb darbvirsm (Dashboard) rti prskatmas svargks pdj laika aktivittes. Spj analizt ne vien Twitter, bet ar Facebook un Google+. Analiz tikai autentifict lietotja datus. Twitter zias tekstu skk neanaliz, viengi atpazst, kuras zias bijuas jautjumi.
Trkumi
ThinkUp ir diezgan rti lietojams, iespjm bagts un kopum patkams rks, kuru iespjams lietot dadiem nolkiem. Fakts, ka ThinkUp pirmkods ir visiem brvi apskatms, padara to vl jo patkamku citiem programmatras izstrdtjiem. Tau t viens lielais trkums spja vkt tikai autentifict lietotja datus neizvlties ThinkUp un t viet meklt citu risinjumu. vartu bt pietiekams iemesls
15
Vrtba Pamata versija pieejama bez maksas Tmeka programmatra (nepiecieama vai nu Red Hat Enterprise Linux vai SUSE Linux Enterprise Server servera opertjsistma)
Atvrt pirmkoda risinjums Spja vkt rel laika datus Iespja eksportt datus Analzes metodes
N J J Piedv pievienot spraudus, kas spj analizt valodu, taj skait sentimentu. Kop ar IBM Many Eyes vai kdu citu spraudni izveido datiem dadas vizualizcijas, k, piemram, birku mkoni.
Biznesa izpte Kop ar spraudiem oti plaas un spcgas iespjas. Spj tikt gal ar oti lieliem datu daudzumiem. Spj lot ar pa tmeka lapm vai ieldt 16
analizjamos datus no datora. Trkumi Diezgan sareti uzstdt. Samr nerta lietoana - ar datiem jdarbojas k ar izkljlapm. T k IBM BigSheets ir nopietns biznesa rks, tas noteikti nebs piemrots visiem. Pat tad, kad tas ir veiksmgi uzstdts, lietoana nav oti patkama, it pai bez papildus spraudiem. Lai gan kopum spcgs, IBM BigSheets tomr nebs rks ko izvlsies parastais mjas lietotjs vai pat neliels uzmums, kuram nav daranas ar milzgiem datu apjomiem.
http://archivist.visitmix.com/ 17
Kritrijs Cena Vide Atvrt pirmkoda risinjums Spja vkt rel laika datus Iespja eksportt datus Analzes metodes
Vrtba Bezmaksas Pieejama gan tmeka programmas versija, gan Windows versija. N N J (tikai Windows versij) Windows versij grafiski attlo ziu skaitu laika gait un aktvkos lietotjus. Tmeka versij zias izanaliz plak, taj skait ar nedaudz no paa zias teksta. Arhvu iespjams saglabt k XML vai teksta failu.
Statistikas izpte Dau sekunu laik uzkrj un izanaliz pdj laika tvtus par ievadtajiem atslgvrdiem. Attlo rezulttus seos (tmeka versij) vai divos 18
(Windows versij) prskatmos grafikos. Trkumi Windows versij attlo oti maz rezulttus. Tmeka versija analiz samr maz no zias teksta tikai populrkos vrdus. Windows versija vispr neanaliz pau tekstu. Ar The Archivist oti s laika period iespjams tikt pie piekljga datu apjoma un laika gait to vl papildint. Ir viegli darboties gan ar tmeka versiju, kura piedv vairkus analzes skatus savktajiem datiem, gan ar Windows versiju, kurai analzes iespju ir mazk, tau, kura piedv eksportt savktos datus dados formtos. Dieml im rkam trkst iespjas vkt rel laika datus, bet, neskatoties uz to, tas vartu bt lietotjiem pievilcgks k divi iepriek apskattie.
3.4. TweetReach
TweetReach4 ir serviss, kas izanaliz Twitter zias un sagatavo par tm atskaites. Tas spj uzkrt zias vai nu ts mekljot ar Twitter Search API (bezmaksas) vai ar ievcot rel laika zias ar Twitter Streaming API (par samaksu). TweetReach galvenokrt ir paredzts, lai atspoguotu ziu sniegumu (reach) pc mekljam atslgvrda jeb to, cik daudzi lietotji vartu bt s zias izlasjui. Papildus tam TweetReach ar atspoguo ietekmgkos Twitter kontus un jaunks zias par konkrto tmu. is rks auj rti sekot ldzi uzmumu mrketinga kampam, sekot ldzi kdam zmolam vai notikumam, vai vienkri paptt kda atslgvrda efektivitti Twitter socilaj tkl.
http://tweetreach.com 19
Kritrijs Cena Vide Atvrt pirmkoda risinjums Spja vkt rel laika datus Iespja eksportt datus Analzes metodes
Vrtba Pamata versija pieejama bez maksas, PRO versija skot no $84 mnes Tmeka programmatra N J (PRO versij) J Uzskaita iespjamo zias ekspozciju skaitu, k ar lietotjus ar lielko ietekmi par tmu, visvairk
20
prpublicts zias Tipiskais pielietojums Priekrocbas Attlo tvtu skaita izmaiu laika gait Piedv atskaites saglabt k Excel vai PDF dokumentus. Par nelielu samaksu piedv ar bezmaksas (ne PRO) lietotjiem saglabt pilna izmra atskaiti ldz 1500 zim. Trkumi Bezmaksas versij apskata tikai 50 jaunks zias. Lai vktu rel laika datus, ar jmaks. Statistikas izpte / Biznesa izpte
TweetReach bezmaksas versija labi ilustr savktos datus un ar to ir rti darboties, bet t k taj tiek apskatti tikai 50 jaunkie tvti, lielas jgas no ts nav, tpc lietotjiem tiem lietderga ir tikai PRO versija. T k par PRO versiju ir jmaks, t noteikti neders ikvienam, tomr pat nelielie uzmumi btu spjgi iegdties ltko no TweetReach PRO versijm.
https://rowfeeder.com 21
Kritrijs Cena Vide Atvrt pirmkoda risinjums Spja vkt rel laika datus Iespja eksportt datus Analzes metodes
Vrtba Pamata versija pieejama bez maksas, PRO versija - skot no $35 mnes. Tmeka programmatra N J J Tvtu skaita laika gait attloana. Sarunu analze starp tvtotjiem. Atraans vietas analze. Vairku atslgvrdu saldzinana. Ietekmes analze (ar datiem no Klout6) Piedv atskaites saglabt k Excel dokumentus. Bezmaksas ievcamo tvtu skaitu iespjams papildint, piesaistot citus lietotjus.
Trkumi
Bezmaksas versij auj ievkt tikai 500 zias mnes un tikai pc viena atslgvrda.
http://www.klout.com 22
Row Feeder ir diezgan ldzgs TweetReach, tomr tas dod vairk iespjas bezmaksas lietotjiem rt veid vkt tvtus pc kda viena atslgvrda un sagatavot dadas analzes atskaites. Ar PRO versija, kas sniedz iespju vkt lielkus datu apjomus, Row Feeder ir ltka nek TweetReach. Tomr Row Feeder piedv tikai vienu faila formtu, kas vartu trauct citiem lietotjiem apskatt analzes rezulttus.
3.6. Apkopojums
No pieciem apskattajiem rkiem visrtkais, lietoanai patkamkais un iespjm bagtkais izrdjs ThinkUp. Tas bija ar viengais, kuram ir atvrtais pirmkods. Tomr ThinkUp ir viens oti vr emams ierobeojums tas vc tikai konkrtu autentifictu lietotju datus un nespj ievkt datus no Twitter meklanas un Twitter plsmas. Datu ievkana no plsmas tiek realizta tikai IBM BigSheets, TweetReach (maksas versij) un Row Feeder, kuri bezmaksas lietotjiem piedv samr maz iespju. Visiem apskattajiem rkiem bija iespja eksportt datus. Tiem ar bija dadi izanalizti skati uz datiem, kas tomr kopum bija vairk vai mazk ldzgi. Lietotjiem, kuriem pietiek ar meklan atrodamajiem rezulttiem un kuri vlas bezmaksas produktu, ieteicams izmantot The Archivist, jo, to lietojot, oti tri var tikt pie pietiekami liela apjoma datiem un tos ar rti prskatt. Tiem, kuri vlas bezmaksas datus no Twitter plsmas, jlieto Row Feeder ar ierobeojumiem. No maksas produktiem labkie ir TweetReach un Row Feeder, jo, atirb no tre maksas rka IBM BigSheets, ie divi bija gan vienkrk lietojami, gan iebvtajm iespjm bagtki. T k visiem iem rkiem tika konstatti vai nu trkumi vai ar neatbilstba kdam no izvirztajiem kritrijiem, tomr ir nepiecieams izveidot spcgu, universlu un visaptverou Twitter analzes rku, kas prklj visas prasbas.
23
4. PILOTPROJEKTS
Pirms erans pie universla Twitter analzes rka izstrdes, lai izmintu mints visprgs analzes metodes un saprastu, ko ar tm var iegt, tika izstrdts neliels pilotprojekts ar nosaukumu Twitdiens. Tas ir balstts uz tvtu vkanu par vienu konkrtu tmu anu.
Tas nav glui viss, ko piedv Twitter par katru ziu, bet konkrti ie dati ita nodergkie tlkai analzei. Pievienojot ziu datubzei, tam ar tiek noteikta sentimenta (noskaojuma) klasifikcija pozitvs, negatvs vai neitrls ar uClassify [13] teksta autora noskaojuma klasifikatoru. Klasifikators tika izveidots un uztrents specili im projektam. Ievkanas brd katra zia tiek sadalta pa vrdiem un katrs vrds tiek prbaudts, vai tds vrds jau atrodas vrdu datubz un vai tas ir nomarts k diens/dzriens. Ja tds vrds datubz ir atrodams (no kda cita tvta) un tas ir marts k diens/dzriens, tad ievktais vrds ar tiek pievienots datubzei kop ar tvta ID, kur tas atrasts, un ar nomarts k diens / dzriens. Ja tds vrds ir datubz, bet nav marts k diens/dzriens, tas netiek pievienots. Ja da vrda vl nav datubz, tad tas kop ar tvta ID, kur vrds atrasts, tiek pievienots rind uz manulu maranu. Vrdi tiek marti ar roku, ldz ko pards divi viendi vl nenomarti vrdi. Projekta skum tika manuli nomarti apmram 15000 vrdu, kas aizma vairkas stundas, bet kop t laika (trs mneos) jauni pardjuies vien 24
ap desmit jaunu vrdu. d veid marjot, ja vrds ir diens vai dzriens, tam tiek pievienota gan vrda nominatva pamatforma, gan vrda angliskais tulkojums, kas nepiecieams gan saistto datu, k, piemram, diena apraksta angu valod, gan uztura piramdas grupas, kurai pieskaitms konkrtais vrds, atraanai. dieni tika dalti ses grups, kas ir veselgas uzturas piramdas [16] sastvdaas: Graudaugu produkti, maize, biezputras, makaroni (6); Drzei (5); Augi, ogas (4); Piena produkti (3); Gaa, olas, zivis (2); Tauki, saldumi (1).
Dzrieni tika dalti divs grups: alkoholiskie un bezalkoholiskie. Par katru vrdu datu bz tiek ierakstti di dati: vrds kds tas pards zi; vrds nominatva pamatform, ja tas ir diens/dzriens; vrds angu valod, ja tas ir diens/dzriens; grupa uztura piramd, ja tas ir diens/dzriens; zias ID, kur vrds ticis piemints, ja tas ir diens/dzriens; vai vrds ir, vai nav diens/dzriens.
zupu zupa Soup 6 (Graudaugu produkti, maize, biezputras, makaroni) 122284398044390000 1 (ir)
Zias ID Ir diens?
Atsevi datubzes tabul tiek uzglabtas ar visas vietas, no kurm lietotji rakstjui savus Twitter zias. Informcija par vietu tiek emta no Twitter zias, kur t ir dota teksta form pilstas nosaukums, novada nosaukums, reizm pat ielas nosaukums. Ar Google Maps API [15] paldzbu no da teksta tiek noskaidrotas preczas atraans vietas koordintas. ie dati nepiecieami, lai tmeka lietojumprogrammai atvieglotu darbu un tai 25
katru reizi nebtu juzmekl katras vietas koordintas. T tiek papildinta katru reizi, kad tiek atvrta Twitter gardu karte7 lapas sadaa, kur atzmtas visas vietas tabul. Par katru atraans vietu datubz tiek ierakstti sekojoi dati: vietas nosaukums; garums (longitude) un platums (latitude). tmeka lietojumprogramm un starp zim ir pardjusies kda jauna vieta, par kuru vl nav datu aj
4.3. Rezultti
Tvti tiek neprtraukti vkti un glabti datubz. Projektam ir publiska interneta lapa8, kur iespjams apskatt ievkto informciju no dadiem rakursiem : autentificties ar savu Twitter kontu un redzt savu draugu tvtus par anu; apskatt, par kdiem dieniem tiek tvtots; apskatt, kurs nedas diens un kuros laika posmos par anu tvto visbiek; apskatt, no kurm valstm, pilstm tvto un cik daudz; apskatt aktvko dju-tvtotju topu; k ar kopjo statistiku par visu projektu.
7 8
http://twitediens.tk/karte http://www.twitediens.tk 26
Divarpus mneu laik (06.10.2011 17.01.2012) tika savkti 60956 tvti. 38370 (63%) no tiem ir piemints kds diens vai dzriens. Tos rakstjui 17028 dadi lietotji, no kuriem 2091 (12%) bija nordjui savu atraans vietu. No tvtiem, kuros bija nordta atraans vieta, 1882 ir rakstti Latvij, 203 rzems. No Latvijas tvtiem visvairk nk tiei no Rgas 1131 (60%). [4.1. att. Tvtu statistika] Vis projekta gait ikvienam bija pieejama interneta lapa, lai gan t netika pai reklamta. To laika posm no 7. novembra 2011 ldz 16. janvrim 2012 apskatja 705 apmekltji. Aktvks dienas bija 14. novembris, 30. novembris un 9. novembris ar 65, 48 un 46 apmekljumiem. Visvairk apskatt lapas sadaa bija Statistika ar 1267 skatjumiem. 32% no iem apmekltjiem nca no Twitter, 20% - pa tieo ievadot adresi, 17% no draugiem.lv un prjie no citm vietm. Visaktvkais tvtotjs par anu ir ar 88 tvtiem par anas tmm. Par anu visvairk tiek tvtots svtdiens un visaktvks stundas ir no septiiem ldz deviiem vakar, kad cilvki parasti ietur vakarias vai ar ir sarpjui sev kdu gardumu, ko izbauda pc saspringts dienas. is laiks nav nemaz tik vlu, pieemot, ka cilvki gult iet ap vienpadsmitiem. Veselgi ir pdjo dienas maltti ieturt ne vlk k 2 stundas pirms gultieanas [16]. Dotaj vl rudens, agrs ziemas laika period populrkie produkti bija mandarni, okolde, tja, saldjums, pica, zupa un kafija. Projekta skumposm un stabili starp populrkajiem dieniem dominja okolde, bet, tuvojoties Ziemassvtkiem, Latvijas Twitter lietotji tri topa auggal izvirzja daudz veselgkos mandarnus.
https://github.com/saifer/TwitEdiens 27
4.4. Secinjumi
is pilotprojekts radja labu priekstatu par Twitter-sfr pieejamo informciju - k to apkopot, apstrdt, izanalizt un attlot. Tas ar radja izpratni par to, kdas metodes bs nodergas jebkuras tmas tvtu analzei, kdas neders citm tmm, k ar veicinja idejas par citiem pamieniem, kas vl btu klt pieliekami.
28
https://dev.twitter.com/docs/api/1/get/statuses/show/%3Aid 29
o Apraksts Par birkm o Teksts o Tvta id, kur birka pardjusies Par tvt piemintajiem lietotjiem o Piemint lietotja lietotjvrds o Tvta id, kur lietotjs piemints Par saitm tvtos o Pilnais URL o Attlojamais URL o Tvta id, kur saite pieminta
5.2.3. Tokenizcija
Tokenizcija jeb teksta sadalana pa vrdiem ir pdjais datu priekapstrdes solis. Taj jem vr gan vrdi un vrdu salikumi, kas iegti no saistto datu resursiem, gan vrdu pamatformas, kas iegtas morfoloiskaj analz. Visi katra tvta vrdi, izemot tos, kas sakrt ar no saistto datu resursiem iegtajiem, jsadala viets, kur ir atstarpes un jsaglab datu bz. Ar diem tokeniem ir ievrojami vieglk strdt un tos analizt, nek tas btu ar visu tvta tekstu kop.
11 12
http://www.uclassify.com/browse/uClassify/Text-Language http://valoda.ailab.lv/ws/morph/ 31
Ja zinms ziu preczs vai kaut aptuvens temats, par to var iegt lietdergu informciju no saistto datu (linked data) resursiem [3]. Ldz ar semantisk tmeka attstbu pards arvien vairk brvi pieejamo datu kopu, no kurm lielks un populrks ir DBPedia13, GeoNames14, UMBEL15. Viena no saistto datu kopm vartu bt kdas kategorijas jdzienu uzskaitjums, ko var iegt no DBPedia. Piemram, ja zinms, ka tvtu tma ir par karsto dzrienu tmu, tad no saistto datu avotiem vartu iegt, ka pie karstajiem dzrieniem pieder tja, kakao, kafija u.c. Ldz ar s informcijas ieganu vlk analzes fz to vartu likt liet, prskaitot, cik kuri dzrieni pieminti utt. Cits veids, k izmantot di iegtu informciju tokenizcijas posm neatdalt vrdu savienojumus, kas pieskaitmi pie noteikts kategorijas jdzieniem, lai pck ar tiem vartu strdt k patstvgiem tokeniem. Tematikas noteikanai izvlti divi veidi, k automtiski btu iespjams to noskaidrot, un viens manulai tmas noteikanai. No automtiskajiem pirmais ir ar iepriek uztrentu klasifikatoru, klasificjot dau pirmo ievkto tvtu. Otrais - no atslgvrdiem, pc kuriem atlasti tvti vai nu viengo atslgvrdu, ja ievadts tikai viens, uzskatt par tematu un turpmk darboties ar tdu piemumu, vai ar to pau klasifikatoru, kas mints pirmaj veid, noteikt vairku atslgvrdu tematu. Treais veids, lai gan bdams vispreczkais, tomr pieprasa lielku lietotja piepli, ir atrast savu izvlto tematu plaaj pieejamaj visu tematu hierarhij. Tas btu izmantojams, ja pirmie divi automtiskie vai nu nenostrdtu, vai ar sniegtu apaubmus rezulttus. Viens no avotiem, kur emt sarakstu ar iespjamajm tmm, ir DBPedia.
5.2.4.1. Ar klasifikatoru
Viens pamiens automtiskai tmas noskaidroanai btu to noteikt ar specili im mrim uztrentu teksta klasifikatoru. Klasifikatoram padodot pirmos n tvtus no visa korpusa vai ar visus tvtus, ja to kopskaits neprsniedz n, vartu noteikt o n tvtu tematiku un turpmk pieemt, ka t atbilst ar visam prjam korpusam. Skaitlis n btu jizvlas vismaz 10 vai vairk, jo, t k tvti ir samr si, ar mazk par 10 tvtiem vartu bt pagrti noteikt tematu. Tomr, izvloties prk lielu n vrtbu, var gadties, ka klasificanas process ieilgst, it pai, ja tiek izmantots kds rjs teksta klasifikcijas serviss. Pau teksta klasifikatoru var veidot ar kdu no manu mcans pamieniem, vai ar izvlties kdu jau gatavu teksta klasificanas servisu tmekl. Tiei dam nolkam
13 14
paredzts serviss uClassify16. Taj ir pat jau gatavs uztrents teksta klasifikators, kas nosaka angu valod rakstta teksta piederbu kdam no diem tematiem - Arts, Business, Computers, Games, Health, Home, Recreation, Science, Society, Sports.
5.2.4.2. Pc atslgvrdiem
Diezgan dros un preczs veids, k noteikt tvtu tematu ir - pc atslgvrdiem. Teiksim, ja tvtu vkanai ievadts tikai viens atslgvrds, tad ir oti liela iespjamba, ka tas ir ar galvenais savkto ziu temats. Ja ievadti vairki atslgvrdi, tad tie jklasific ldzgi k iepriek mints par tvtiem.
5.3.1. Metadati
Pie tvta metadatiem pieskaitmi visi datu vienumi, kas kop ar pau tvta tekstu tiek padoti no Twitter API taj skait datums, eogrfisk atraans vieta, retvtu (prpublicjumu) skaits, publicanas avots, lietotjvrds, kuram tiek atbildts, un citi. Visus os datus var gan attlot patstvgos grafikos, gan to izmaiu laika gait. o grafiku attloanai oti parocgi izmantot Google Chart Tools18. Turpretim visas eogrfisks atraans vietas var atzmt uz pasaules kartes, izmantojot Google Maps API19.
16 17
Pie Metadatiem var skaitt ar hatagus jeb birkas, tvtos piemintos lietotjus un WWW saites. Lai gan ie dati pards ar pa tvta tekst, tie tiek ar atdalti atsevii un ldz ar katru tvtu no API padoti k metadati. Gan birkas, gan piemintos lietotjus, k ar WWW saites oti prskatmi ir attlot vrdu mkou form (word cloud), kas ir vrdu grafiska attloana pc to bieuma tekst jo biek vrds tekst piemints, jo lielks tas tiek attlots un pretji. oti iespjm bagtu da veida vrdu mkou attloanu piedv interneta serviss Wordle20.
20 21
http://www.wordle.net/create http://viewer.opencalais.com/ 34
5.3.4. Emotikoni
Lai gan tikai 140 simbolus gari, tomr tvti biei vien paldz to autoram paust savu attieksmi. Ir daudz veidu k ar manmcans pamieniem noteikt teksta sentimentu jeb noskaojumu, tomr oti labi to var novrtt pc emotikonu pielietojuma tekst. Teiksim, lai sadaltu tvtus pozitvajos, negatvajos un neitrlajos, var pieemt, ka neitrlie ir visi, kuros nav neviena emotikona, pozitvie kur pards kds no priecgajiem emotikoniem, piemram, :) un negatvie kur pards kds no bdgajiem emotikoniem, piemram, ):. Lai noskaidrotu, kdi ir populrkie Twitter pielietotie emotikoni, tika paemts pilotprojekta gait savktais tvtu korpuss un taj tika meklti emotikoni no Vikipdijas visu emotikonu saraksta22. Tika atlasti 17 visbiek pielietotie emotikoni ar pozitvu noskau un 17 visbiek pielietotie ar negatvu noskau. Emotikoni, kas visbiek ajos tvtos pardjs, redzami tabul [5.1. tabula]. T k teksta priekapstrdes fz attranas posm pirms tokenizcijas tiek izvkti vairki emotikonos biei pielietoti simboli, tad emotikonus pie tokeniem nebs iespjams atrast un tie bs jmekl pau tvtu tekstos. 5.1. tabula
Populrkie emotikoni
Pozitvie emotikoni
:D :) (: ;) ;] :-) :] [: :D ;D xD ^_^ ^^ 8) :P :* ;*
Negatvie emotikoni
:S :( ): :-( :[ ]: ;( ); ]; ;[ :@ :/ :| :? -_:O O:
22
http://en.wikipedia.org/wiki/List_of_emoticons 35
23 24
https://github.com/saifer/TweetTool http://www.twitediens.tk/tool/ 36
Par birkm o Birkas teksts o Tvta id, kur birka pieminta Par tvt piemintajiem lietotjiem o Piemint lietotja lietotjvrds o Tvta id, kur lietotjs piemints Par saitm tvtos o Pilnais URL o Attlojamais URL o Tvta id, kur saite pieminta
Apstrde: Ievadtais laiks tiek prveidots sekunds. Ievadtie atslgvrdi tiek saglabti atsevi fail, lai tos vartu izmantot vlk. Ievktie dati no Twitter plsmas tiek apstrdti atkarb no lietotja izvltajiem normalizcijas iestatjumiem. Izvaddati: Pc sekmgas ievaddatu ievadanas pards paziojums par datu vkanas uzskanu: Collecting of tweets has begun! Results will start appearing shortly, un tiek uzskta datu vkana. Pc tam, ldz ko tiek ievkti pirmie dati, statistikas lap apskatmi pirmie analzes rezultti. Kdu paziojumi: 1. Ja kd no abiem ievadlaukiem informcija nav ievadta, pie attiecg lauka pards kdas paziojums: Please fill out this field.
38
39
41
Skuma lapas centr redzama izvle starp tvtu ievkanu no Twitter plsmas un jau gatavas datu bzes ieldi analizanai. Zem TweetTool logo atrodas izvlnes ikonas, kas ved uz prjm lapm. Lapas apakda tiek piedvts ievktos datus eksportt uz .csv failu.
6.2. att. Kalendrs, Birkas, Piemintie lietotji, Tmeka saites, Karte, Top lietotji.
ajs laps redzami ievkto datu analzes rezultti dados griezumos. Kalendra lap redzams ievkto ziu sadaljums pa dienm un laikiem. Birku, pieminto lietotju un tmeka saiu laps redzami vrdu mkoi ar birkm, lietotjvrdiem un saitm. Kartes lap redzams ziu, kurs bijui atraans vietas dati, izvietojums pasaules kart. Top lietotju lap redzami aktvkie lietotji.
42
Uz katra no laikiem kalendra lap, birkm, piemintajiem lietotjiem, tmeka saitm un atraans vietm kart var ar uzklikint un apskatt tvtus, ar kuriem tas saistts, k redzams attl [6.3. att.].
Ldzgi var ar detaliztk apskatt katru atsevio lietotju, uzklikinot uz t vrda TOP lietotju lap vai kd no lapm, kurs redzami tvti [6.4. att.].
43
6.2.1.3. Statistika
Statistikas lap redzama detalizta informcija par ziu ievkanas procesa gaitu un par ievktajm zim. Statistikas lapai ir ar apaksadaa, kur apskatma skka emotikonu statistika.
6.2.1.4. Uzstdjumi
6.6. att. TweetTool uzstdjumi Uzstdjumu lap redzamas visas konfigurjams sistmas vrtbas. Taj iespjams nordt informciju par datu bzi, kur tiks saglabti dati, Twitter lietotju, ar kuru tiks veikts pieslgums pie Twitter plsmas, un datu normalizciju. 44
45
6.8. att. 1. testa statistikas ekrnuzmums Sagaidmais rezultts Rezultts Veiksmgs Divu minu laik tika savkti 30 tvti. Visi k viens atbilstoi ievadtajam atslgvrdam nikon. Birkas netika izmaintas, lietotjvrdi un tmeka saites aizstti. Tomr netika saemts neviens tvts, kur btu atraans vietas dati. 46 Tiks savkts neliels daudzums tvtu. Pardsies pilnvrtgi analzes rezultti.
Savkto tvtu skaits bs lielks nek iepriekj test. Pardsies pilnvrtgi analzes rezultti. Veiksmgs Divu minu laik tika savkti 858 tvti, no kuriem lielk daa atbilstoi atslgvrdam iphone, tad nokia un vismazk motorola. Lietotjvrdi, birkas un tmeka adreses palikuas oriinlform.
47
Attls
Savkto tvtu skaits bs samr mazs, tomr saturgs un pilnvrtgi izanalizjams. Veiksmgs Divu stundu laik tika savkti 13 tvti prsvar par Ventspili un Rgu, mazk par Jrmalu un neviens par Tukumu. Lietotjvrdi, birkas un tmeka adreses palikuas oriinlform.
Visi testi prsvar noritja veiksmgi. Viengi pirmaj test izvltaj laika period netika ievkti nekdi dati par atraans vietm un ldz ar to nebija iespjams nevienu tvtu attlot uz kartes.
48
TweetTool var sav ikdien pielietot k liels organizcijas, kam ir aktuli izptt kdu biznesa nozari Twitter tkl, t ar vienkri cilvki, kuriem vartu pki interest kda konkrta tma un ko par to citi raksta. Saldzinjums pc kritrijiem: 6.1. tabula
TweetTool novrtjums
Kritrijs Cena Vide Atvrt pirmkoda risinjums Spja vkt rel laika datus Analzes metodes Tipiskais pielietojums Priekrocbas
Vrtba Bezmaksas Tmeka programmatra J J Attlo tvtu skaita izmaiu laika gait
Statistikas izpte / Biznesa izpte Piedv eksportt ievktos datus uz .csv dokumentu. Piedv diezgan plau skatjumu uz datiem. Pie milzgiem datu apjomiem patr daudz servera resursu.
Trkumi
49
SECINJUMI
Bakalaura darba problmas aprakst izvirztie mri izptt Twitter datu analzi un izstrdt universli pielietojamu Twitter datu analzes rku tika stenoti. Darba skum tika apskatts socilais tmeklis un noskaidrots, kpc no visiem socilajiem tkliem tiei Twitter ir pateicgs liela daudzuma ldzga veida tekstulu datu ieganai. Tika izptti un saldzinti vairki obrd aprit esoie socilo tklu analzes rki un izzintas metodes, kas tajos pielietotas. Darba gait k pilotprojekts tika izveidots rks aura loka Twitter datu analzei, lai preczk saprastu, k is process notiek un uzzintu, kas vl btu nepiecieams universl analzes rk. Tika ar izgudroti un aprakstti vairki citi analzei nodergi pamieni, kas nebija sastopami saldzintajos rkos un visi kop apvienoti un aprakstti Twitter ziu apstrdes proces. Darba beigu da, izmantojot pilotprojekta gait uzzinto un vairumu aprakstto metou, tika izveidots universli pielietojams atvrt pirmkoda Twitter datu analzes rks. Tomr izstrdtais rks vl var tikt tlk papildints, pirmkrt, ar vism Twitter ziu apstrdes noda apraksttajm funkcijm, otrkrt, ar citm, pc plakas lietotju iesaistans noskaidrotm, nodergm funkcijm, un, trekrt, ar iespjm to lietot no mobilajm iekrtm mobilajiem telefoniem un planetdatoriem. is bakalaura darbs vartu atvieglot citiem darbu ar socilo tklu analzi, k ar kalpot par pamatu turpmkiem ptjumiem aj virzien.
50
PATEICBAS
Darba autors vlas izteikt pateicbu Latvijas Universittes Datorikas fakulttes 2012. gada pavasara specseminra Web Science dalbniekiem un vadtjiem, kas paldzja Twitter analzes rka TweetTool izstrd. Pateicba Normundam Grztim, Renram Liepiam, Krlim Gediam un Jnim Beam par paldzbu informcijas savkan, metodiskiem ieteikumiem darba izstrd, un ieteikumiem, k uzlabot topoo rku. Atseviu pateicbu autors izsaka Uldim Bojram, kas vadja un motivja TweetTool izstrdi, k ar vadja autora bakalaura darba izstrdi.
51
IZMANTOT LITERATRA
1. Zintniskie raksti 1. O'Reilly T. What is web 2.0: Design patterns and business models for the next generation of software, Communications & Strategies, No. 1, p. 17, First Quarter 2007 2. Gruber, T. Collective knowledge systems: Where the Social Web meets the Semantic Web, Web Semantics: Science, Services and Agents on the World Wide Web 6, 2008, p. 413 3. Bizer, C., Heath, T., Berners-Lee, T. Linked Data - The Story So Far. International Journal of Semantic Web and Information Systems, Special Issue on Linked Data, 2009a 4. Bojrs U. Socil tmeka satura apkopoana un analze, Latvieu valoda digitlaj vid: datorlingvistika, Informatvi izgltojou seminru cikla materili, Rga, 2012. 44-52. lpp. 2. Elektroniskie informcijas avoti 5. Twitter 'to hit 500 million registered users [tiesaiste] - [atsauce 15.03.2012.]. Pieejams: http://www.telegraph.co.uk/technology/twitter/9098557/Twitter-to-hit-500-millionregistered-users.html 6. Google says social network has 90M users [tiesaiste] - [atsauce 15.03.2012.]. Pieejams: http://articles.cnn.com/2012-01-19/tech/tech_social-media_google-plus-users_1_searchengine-social-network-results-pages?_s=PM:TECH 7. Twitter mood predicts the stock market [tiesaiste] - [atsauce 26.05.2012.]. Pieejams: http://www.relevantdata.com/pdfs/IUStudy.pdf 8. Twitter turns six [tiesaiste] - [atsauce 15.03.2012.]. Pieejams: http://blog.twitter.com/2012/03/twitter-turns-six.html 9. Streaming API Methods [tiesaiste] - [atsauce 12.04.2012.]. Pieejams: https://dev.twitter.com/docs/streaming-api/methods 10. Streaming API Concepts [tiesaiste] - [atsauce 17.05.2012.]. Pieejams: https://dev.twitter.com/docs/streaming-api/concepts#result-quality 11. BigSheets: extend business intelligence with big data [tiesaiste] - [atsauce 20.04.2012.]. Pieejams: http://www-01.ibm.com/software/ebusiness/jstart/bigsheets/ 12. Welcome to Apache Hadoop! [tiesaiste] - [atsauce 20.04.2012.]. Pieejams: http://hadoop.apache.org/ 13. uClassify teksta autora noskaojuma klasifikators [tiesaiste] - [atsauce 25.04.2012.]. Pieejams: http://uclassify.com/browse/saifer/emo 52
14. Veselga uztura ieteikumi [tiesaiste] - [atsauce 15.01.2012.]. Pieejams: http://www.apollo.lv/portal/ipasums/articles/154909/galery/ 15. Google Maps API [tiesaiste] - [atsauce 25.04.2012.]. Pieejams: http://code.google.com/apis/maps/index.html 16. 7 jautjumi par veselgu uzturu [tiesaiste] - [atsauce 15.01.2012.]. Pieejams: www.mansmazais.lv/article/227290/ 17. Paikens P. Lexicon-based morphological analysis of Latvian language [tiesaiste] [atsauce 27.05.2012.]. Pieejams: www.semti-kamols.lv/doc_upl/Kamols-Kaunas-paper3.pdf
53
Bakalaura darbs Universlas metodes Twitter datu analzei izstrdts LU Datorikas fakultt.
Ar savu parakstu apliecinu, ka ptjums veikts patstvgi, izmantoti tikai taj nordtie informcijas avoti un iesniegt darba elektronisk kopija atbilst izdrukai. Piekrtu sava darba publicanai internet. Autors: _____________________________ (Autora paraksts) Ar savu parakstu apliecinu, ka esmu lasjis augminto bakalaura darbu un atzstu to par piemrotu/nepiemrotu (nevajadzgo svtrot) aizstvanai Latvijas Universittes datorzintu bakalaura studiju programmas gala prbaudjuma komisijas sd. Darba vadtjs(-ja): ______________________________ (Vadtja paraksts) Darbs iesniegts Datorikas fakultt __________________________________. (Iesnieganas datums) Ar o es apliecinu, ka darba elektronisk versija ir augupieldta LU informatvaj sistm. Metodie: _____________________________. (Metodies paraksts) Recenzents: ______________________________ Darbs aizstvts bakalaura darbu gala prbaudjuma komisijas sd _________________________ prot. Nr. ______, vrtjums _____________________ (Darba aizstvanas datums) Komisijas sekretrs: _______________________________ (Sekretra paraksts)
54