You are on page 1of 54

LATVIJAS UNIVERSITTE DATORIKAS FAKULTTE

UNIVERSLAS METODES TWITTER DATU ANALZEI


BAKALAURA DARBS

Autors: Matss Rikters Studenta apliecbas nr. mr08089 Vadtjs: Dr.dat. Uldis Bojrs

RGA 2012

ANOTCIJA
bakalaura darba mris ir izptt, k tiek analizti dati no socil tkla Twitter un atrast lietdergks metodes, kas paldz dus datus analizt. aj darb tiks apskattas metodes, risinjumi un rki, kas vartu bt nodergi jebkdas tematikas Twitter datu analzei. Darba gait, pielietojot apskatts metodes un risinjumus, tiks izveidots un aprakstts rks universlai Twitter datu analzei. Atslgvrdi: socilais tmeklis, socilie tkli, Twitter, tmeka zintne

ABSTRACT
Universal methods for Twitter data analysis The objective of this thesis is to explore how data from the Twitter social network can be analyzed and to find the most useful methods that would help to analyze such data. This thesis will describe the methods, solutions and tools that could be used for analyzing Twitter data of any topic. In the course of the work a universal tool for analyzing Twitter data will be developed using the methods described. Keywords: social web, social networks, Twitter, web science

ABSTRACT
Universal-Methoden zur Twitter-Datenanalyse Der ziel dieses Bachelorarbeits ist es zu erforschen wie analysiert man Daten aus dem sozialen Netzwerk Twitter und zu finden die ntzlichsten Methoden die helfen wrden diese Daten zu analysieren. Dieser Bachelorarbeit wird die Methoden, Lsungen und Werkzeuge beschreiben das knnten fr die Analyse von Twitter-Daten von jedem beliebigen Thema verwendet werden. Im Verlauf der Arbeit wird auch ein universelles Werkzeug fr die Analyse von Twitter-Daten entwickelt mit Hilfe dieser Methoden und beschrieben werden. Stichwrter: Soziales Web, Soziales Netzwerk, Twitter, Web Wissensacht

SATURS
APZMJUMU SARAKSTS.....................................................................................................6 IEVADS .....................................................................................................................................7 1. SOCILAIS TMEKLIS....................................................................................................8 1.1. Twitter ........................................................................................................................8 2. PROBLMAS APRAKSTS.............................................................................................11 3. ESOIE TWITTER DATU ANALZES RKI ................................................................13 3.1. ThinkUp....................................................................................................................13 3.2. IMB BigSheets .........................................................................................................15 3.3. The Archivist ............................................................................................................17 3.4. TweetReach ..............................................................................................................19 3.5. Row Feeder...............................................................................................................21 3.6. Apkopojums .............................................................................................................23 4. PILOTPROJEKTS ...........................................................................................................24 4.1. Twitter datu vkana.................................................................................................24 4.2. Datu apstrde ............................................................................................................26 4.3. Rezultti....................................................................................................................26 4.4. Secinjumi ................................................................................................................28 5. TWITTER ZIU APSTRDES PROCESS....................................................................29 5.1. Datu vkana.............................................................................................................29 5.2. Datu priekapstrde ..................................................................................................30 5.2.1. Teksta attrana................................................................................................30 5.2.2. Morfoloisk analze ........................................................................................31 5.2.3. Tokenizcija......................................................................................................31 5.2.4. Twitter zias temata noteikana .......................................................................31 5.2.4.1. Ar klasifikatoru.............................................................................................32 5.2.4.2. Pc atslgvrdiem .........................................................................................33 5.2.4.3. Tmas izvle no saraksta ..............................................................................33 5.3. Twitter zias analze.................................................................................................33 5.3.1. Metadati ............................................................................................................33 5.3.2. Vrdi un Kolokcijas ........................................................................................34 5.3.3. Atslgvrdu efektivitte....................................................................................34 5.3.4. Emotikoni .........................................................................................................35 6. UNIVERSLS TWITTER DATU ANALZES RKS ....................................................36 6.1. Prasbu specifikcija .................................................................................................37 6.1.1. Funkcionls prasbas.......................................................................................37 rjs saskarnes prasbas .................................................................................40 6.1.2. 6.2. Projektjuma apraksts...............................................................................................41 6.2.1. Saskarnes projektjums ....................................................................................41 6.2.2. Algoritmu projektjums....................................................................................45 6.3. Rka testana ...........................................................................................................46 6.4. Saldzinjums ar esoajiem rkiem ...........................................................................48 SECINJUMI ..........................................................................................................................50 PATEICBAS ...........................................................................................................................51 IZMANTOT LITERATRA ................................................................................................52

APZMJUMU SARAKSTS
Apzmjums API Skaidrojums Application Programming Interface (angu val.). Lietojumprogrammu programmanas interfeiss noteikts likumu Hatags un specifikciju kopums, ar kuru paldzbu lietojumprogrammas var komunict viena ar otru. Hashtag (angu val.). Birka jeb vrds vai frze, kas skas ar simbolu #. Parasti apzm kdu konkrtu tmu, kas piemt tvtam. NLP
Natural Language Processing (angu val.). Virziens, kas pta datora mijiedarbbu ar cilvka dabisko valoda, dotaj kontekst, analizt cilvku raksttos tekstus.

Tvts Twitter URL

Tweet (angu val.). 140 simbolus gara zia Twitter socilaj tkl. Mikroblogoanas socilais tkls, kur cilvki var rakstt sas zias jeb tvtus. Uniform Resource Locator (angu val.). Simbolu virkne, kas satur standartiztu resursa adresi Internet.

IEVADS
Pieaugot socilo tklu, k, piemram, Twitter, Facebook un Google+, popularittei, cilvki tajos atstj arvien pieaugou daudzumu dadas informcijas. Pavisam nesen Twitter reistrto lietotju skaits sasniedza 500 miljonus lietotju un Facebook 800 miljonus [5], kamr Google+ reistrto lietotju skaits ir ap 90 miljoniem [6]. Lai gan daa o datu ir nekam nedergi jeb t saucamie troki, tomr tajos netrkst ar nodergas informcijas par visdadkajm tmm, saiu uz citm interesantm lapm, saturgu birku, atsauu uz citiem lietotjiem un citas informcijas, kas varbt no pirm acu uzmetiena nav tik acmredzami lietderga. Paemot pietiekami lielu daudzumu das vairk vai mazk saturgas informcijas un to izanalizjot, var atklt iepriek neievrotas pazmes par konkrto ziu tmu, piemram, vcot savu draugu tvtus par anu, spilgti izcls, cik daudz kds tvto par kkm, cits par kafiju. d veid var ar izptt, k interneta vid uzvedas kdi konkrti ziu autori. Neapaubmi, tas nodertu dadiem uzmumiem, lai pavrotu, ko par tiem run tauta, k ar valsts iestdm, kam, iespjams, vajadzgi kdi statistiski dati. Tikpat labi ar vienkriem mjas lietotjiem var sagribties pasekot ldzi, ko par kdu notikumu vai vietu run citi, piemram, par politiku pirms vlanm. aj darb plnots izptt pamienus, ar kdiem ldzgas iespjas tiek nodrointas palaik, un ar atrast vl citus, iespjams, labkus veidus, k analizt Twitter ziu datus. Galu gal, liekot liet apskatts metodes, izveidot universli pielietojamu Twitter datu analzes rku.

1. SOCILAIS TMEKLIS
Skotnj tmeka versija jeb t saucamais WEB 1.0 tika izstrdta t, ka tikai augsta ranga profesioni spja taj ievietot saturu un viss, uz ko bija spjgi parastie mjas lietotji, bija tikai o saturu apskatt. Pie tam, is saturs prsvar bija tikai tekstula informcija ar samr maz attliem, video un audio informciju. Taj bija vairkas problmas ierobeots satura daudzums, ierobeotas cilvku rados izpausmes, ar ierobeotas biznesa izpleans iespjas. Tpc, lai risintu s problmas, lnm ska rasties WEB 2.0 jeb socilais tmeklis, kas ir balstts uz lietotju pau radtu saturu internet [1]. Socilais tmeklis sastv no daudzo interneta lietotju savstarpjm attiecbm plaaj tmeka vid. Tas ietver visas interneta mjas lapas un programmatru, kas atbalsta un veicina socils mijiedarbbas starp to lietotjiem. K piemrus vartu mint socilo tklu mjas lapas, dadas interneta sples, atsevius interneta veikalus. Viens no galvenajiem du lapu aspektiem ir sekmt mijiedarbbu starp cilvkiem ar ldzgm interesm, k ar paldzt tiem atrast lietas, kas vius vartu interest, bt nodergas. Lnm un ne tik uzkrtoi sk pilnveidoties ar nkam tre tmeka versija (WEB 3.0), kas balstta uz nozmes pieiranu saraotajiem datiem (semantisko tmekli) un personalizciju [2]. Palielinoties interneta lietotju skaitam, palielins ar viu aktivittes tmekl un ldz ar to ar o cilvku savstarpjs attiecbas internet paliek arvien uzskatmkas un pieejamas citu apskatei. Msdiens simtiem miljonu interneta lietotju ir virtuli saistti ar saviem draugiem vai veido jaunas draudzbas, veido un dals ar dadu internet izvietojamu saturu fotogrfijm, video, mjas lapm, blogiem. Tas viss pateicoties socil tmeka sniegtajm iespjm. Tiei is lietotju radtais saturs (user generated content) obrd ir viena no straujk augoajm satura formm internet. Labums taj ir tas, ka lietotju radtais saturs ir pavisam neparedzams. Tomr to var izmantot, lai prognoztu citas lietas, k, piemram, analizjot Twitter lietotju nosakojumu bijis iespjams diezgan preczi prognozt izmaias akciju tirg [7].

1.1. Twitter
Viens no msdienu socil tmeka gigantiem ir socilais tkls Twitter. Twitter ir mikroblogoanas platforma, kur lietotji var dalties ar tekstulm zim garum ldz 140 rakstu zmm jeb t saucamajiem tvtiem. Tas tika izveidots un palaists darbb 2006. gada vasar. obrd tas ir sasniedzis oti ietekmga medija statusu ar vairk k 500 miljoniem reistrtu lietotju, no kuriem vairk k 140 miljoni ir aktvi lietotji, kuri ik dienu saraksta vairk k 340 miljonus tvtu [8]. Twitter ir savas apkrtnes izpratnes ldzeklis, kas auj sekot 8

ldzi notikumiem citu cilvku, zmolu, slavenbu jaunumiem, un uzzint svaigks zias no ziu portliem vai firmm. Tikpat labi Twitter ir informcijas apraides ldzeklis, lai lietotji vartu citiem sniegt informciju ar tvtu paldzbu, vai sazias instruments, aujot lietotjiem vienam otram atbildt, uzskt dialogus, polilogus. T k tvti, atirb no zim citos socilajos tklos, ir tik si, tos biei vien ir iespjams viennozmgi interprett un ldz ar to ar kopum vienkrk analizt. Viena liela Twitter atirba no citiem tkliem ir t, ka taj starp lietotjiem pastv viena virziena saites. Respektvi tur nav obligtas abpusjas draudzbas, k, piemram, Facebook draudzbas, kur Jnis ir Ptera draugs un Pteris ir Ja draugs, bet t viet vienpusja sekoana citiem lietotjiem, kur, ja Pteris seko Jnim, tas nenozm, ka Jnis obligti seko ar Pterim. Citiem vrdiem sakot, Twitter lietotju savstarpjs saites ir vienvirziena jeb asimetriskas. Ldz ar to rodas nevis viens konkrts skaits ar draugiem, bet gan lietotji, kuri seko (followers) un lietotji, kuriem tiek sekots (following).

1.1. att. Twitter zia

Twitter sfr ir ar savi paie jdzienu apzmjumi. Ldzs jau iepriek mintajam tvtam, par kuru tiek dvta katra 140 zmju gar zia, ir ar tdi apzmjumi k retvts, hatags, DM un reply. Retvts ir kda cita autora tvta prpublicana saviem sekotjiem. Tvti tiek prpublicti vai nu ar pogas Retweet paldzbu, vai ar, prkopjot oriinl autora tvtu un tam priek pierakstot savu komentru, ja ir vieta, un lielos burtus RT, kas apzm ReTweet. Par hatagu jeb latviski birku tiek dvti vrdi, kas tvt skas ar # simbolu. Birkas parasti tvtos lieto, lai identifictu kdu konkrtu tmu, notikumu vai paskumu. Birkas ar atvieglo prjiem Twitter lietotjiem moment atrast citus tvtus ar tdu pau birku, uz t uzklikinot. DM jeb direct message ir privta vstule no viena lietotja otram, kas ar drkst bt maksimli 140 simbolus gara. DM iespjams stt tikai saviem sekotjiem. Visbeidzot reply jeb atbilde ir tvts, kur tiek atbildts uz kdu citu tvtu.

Twitter socilais tkls tpat k daudzi citi piedv lietot ar API saviem servisiem. Twitter piedv divus API veidus REST API un Streaming API [9]. Twitter REST API piedv ldzekus darbam ar jau esoajiem datiem, turpretim Streaming API paldz strdt ar rel laik dabjamiem tvtiem. Ar REST API var gan meklt un iegt jau uzraksttos tvtus, gan ar iegt informciju par paiem lietotjiem. Tomr meklanas rezulttus var iegt tikai par tvtiem, kas rakstti pdjo seu ldz deviu dienu period. Streaming API ir domts, lai pc atbilstbas noteiktiem atslgvrdiem vai kdam citam kritrijam ievktu relaj laik uzrakstto tvtu plsmu. Tiei API, k ar liel skaita samr so teksta ziu d Twitter ir oti pateicgs datu ievkanai un analizanai.

10

2. PROBLMAS APRAKSTS
Ideja radt universli izmantojamu Twitter datu analzes rku rads 2011. gada rudens specseminra Web Science ietvaros. seminra laik ar tika skts darbs pie Twitter datu analzes pilotprojekta (4. nodaa) ar nosaukumu Twitdiens1. Twitdiena tma ir Twitter dati par anu un dieniem. Tas neprtraukti ievc tvtus, izmantojot Twitter Streaming API [9], analiz tos un atspoguo rezulttus tmeka vietn un Nokia Belle telefoniem paredzt lietojumprogrammatr. Tas izrdjs oti interesants projekts un va apstiprint vairkus jau iepriek nojauamus faktus uz ziemu popularitte pieauga mandarniem, t ar uz o to, kas nebija uzreiz tik acmredzams tjai un okoldei ir lielka popularitte k kafijai. Praktiski uzreiz pc servisa palaianas pardjs pieprasjums no vairkiem lietotjiem par ldzgu rku izveidi par viiem aktulm tmm, k, piemram, par politiku, foto, mziku un citm. Tas vl jo vairk liecinja par universla Twitter datu analzes rka nepiecieambu. Problma ir, ka obrd nav atrodama universla lietojumprogrammatra, kura pilnb apmierintu visas lietotju, kuri ieminja pilotprojektu, prasbas. s prasbas iekauj: 1. Informcijas ievkanu no Twitter Ievkanu rel laik no Twitter plsmas meklanas rezultti ir vairk vai mazk statiski, tau rel laika plsma ir dinamiska. Pie tam Twitter mdz filtrt [1017] meklanas rezulttus, turpretim Twitter plsma netiek filtrta. Par jebkdiem atslgvrdiem t k Twitter auj tvtu ievkan nordt ldz pat 400 dadiem atslgvrdiem, btu nodergi o ierobeojumu apzinties un ievkanu veikt pc vairk k tikai viena atslgvrda. Iespju tri un rti ievktos datus eksportt daai lietotju galvenais ir rt veid tikt pie strukturtiem datiem, kurus pc tam pai vartu analizt vai k citdi izmantot. 2. Pc iespjas plaku un skku ievkto datu analzi Citviet jau biei pielietots metodes o Tvtu skaita izmaias kd laika period ja tvti tiek vkti ilgku laiku, vienmr ir interesanti paskatties, kuros bros to skaits pieaudzis visvairk. o Tvtos biek pieminto vrdu, lietotjvrdu, birku analze biei vien, vcot pc konkrta atslgvrda, visos ievktajos tvtos sastopams ne vien is atslgvrds bet ar citi vrdi, birkas, kas apraksta konkrto tmu. K ar varbt ne tik plai pielietots

http://www.twitediens.tk 11

o Tvtu attloana uz kartes ja tiek savkts pietiekams daudzums tvtu, tad var ar ievrot, ka daa to autoru ir nordjui savu atraans vietu un tos var attlot uz kartes. o Tvtu metadatu analze katram tvtam ldzi nk ar kaudze dadu metadatu, kas to apraksta un kurus ir vrtgi apskatt skk. o Tvtos sastopamo emotikonu analze emotikoni apraksta tvta autora emocionlo nostju, ldz ar to pc tiem var secint kaut vai, cik priecgi vai bdgi ir tvtotji. o Meklan izmantoto atslgvrdu analze ja tvti tika ievkti pc vairkiem atslgvrdiem un gar laika period, noteikti ir vrts paskatties, kuri no atslgvrdiem bijui visragkie. 3. rti iegstamu un lietojamu rku Bezmaksas ne visi var atauties iegdties drgas licences. Atvrt pirmkoda tpc, lai citi vartu to uzlabot, papildint, pielgot savm specifiskajm vajadzbm. Lietotjam draudzgu tdu, lai to vartu izmantot ne vien specili apmcti cilvki, bet ar parasti mjas lietotji, kurus pki ieinteresjusi kda tma. Viegli uzstdmu, pielgojamu bez striktm un grti realizjamm augstm opertjsistmu, programmatras vai aparatras prasbm. Par darba mri tika izvirzts izzint dadus pamienus, k darboties ar Twitter datiem, tos apstrdt, analizt un attlot lietotjam viegli saprotam veid. Darba pln ietilpst ar realizt praktiski izptts metodes, uzbvjot Twitter datu analzes platformu, kas atbilst ar vism izteiktajm prasbm.

12

3. ESOIE TWITTER DATU ANALZES RKI


obrd tmekl ir atrodami dadi tvtu analzes rki katrs gan ar visprgm, gan tikai sev raksturgm pabm. Dai ir bezmaksas, citi maksas, vl pris ir ar bezmaksas pamata iespjm un plakm maksas iespjm. Tau tdu, kas kaut daji atbilst darba izvirztajai problmai, ir samr maz. aj noda tiek apskatti pris tuvkie atrastie du rku kandidti. Saldzinjumam tika izvlti pieci rki ThinkUp, IBM BigSheets, The Archivist TweetReach un Row Feeder. Izvlti tiei ie pieci, jo tie spj iespjami vairk tuvoties izvirzts problmas risinjumam. Tie tiks saldzinti pc diem kritrijiem: Cena bezmaksas vai par kdu summu. Lieliem uzmumiem vartu ar nebt problma samakst, bet parastais mjas lietotjs naudiu drzk palos; Vide - Tmeklis, Windows, Linux, utt. Visrtk vide neapaubmi ir tmeklis, jo tmeka prlks ir pieejams gandrz katr ar internetu savienojam ierc (dator, telefon, planet); Vai ir atvrt pirmkoda risinjums iespja apskatt pirmkodu liela priekrocba tiem, kas vlas izveidot ko ldzgu vai ar saprast, k tiei darbojas konkrt programmatra; Vai ievc rel laika datus t k meklan esoie dati tiek filtrti, pilnvrtgka informcija iegstama no Twitter plsmas; Vai ir iespja eksportt datus lai ar cik bagtas nebtu katra rka analzes metodes, noderga btu spja eksportt datus kd vispratzt formt, lai ar tiem btu iespjams strdt ar citviet; Analzes metodes; Tipiskais pielietojums kdiem lietotjiem un nolkiem rks paredzts; Priekrocbas; Trkumi.

3.1. ThinkUp
ThinkUp2 ir bezmaksas atvrt pirmkoda tmeka lietojumprogramma, kas uzkrj iepriek autentificta lietotja datus no socilajiem tkliem Twitter, Facebook un Google+ lokl datu bz un ik pc kda noteikta laika perioda tos atjaunina. ThinkUp os datus atspoguo prskatmos grafikos un diagramms, kas paldz saskatt jgu lietotju socilo tklu darbbs.
2

http://thinkupapp.com 13

Thinkup ir paredzts k lielm organizcijm, kam ir aktuli uzzint par savu biznesu socilajos tklos, t ar aktviem socilo tklu lietotjiem, kuri vlas dzik izptt savas darbbas tmekl. Attl 5.1. redzama ThinkUp darbvirsma (Dashboard), kur tiek grafiski attlotas jaunks darbbas, sekotju izmaia pa dienm un pa nedm, Twitter klientu pielietojuma sadaljums un ziu tipi. Katru no tm sadam var apskatt ar tuvk. Skk izptma ir ar ziu sadaa (Tweets), draugu sadaa (Who You Follow) un saiu sadaa (Links). Ja zis ir pieejami dati par atraans vietu, tad ThinkUp ar tiem spj izveidot vizualizciju un attlot uz kartes.

3.1. att. ThinkUp darbb

Saldzinjums pc kritrijiem: 3.1. tabula


ThinkUp novrtjums

Kritrijs Cena Vide Atvrt pirmkoda risinjums Spja vkt rel laika datus

Vrtba Bezmaksas Tmeka programmatra J N 14

Iespja eksportt datus Analzes metodes

J Analiz lietotja aktivitti socilajos tklos un attlo to grafikos. Spj attlot citu lietotju atbildes uz zim kart. auj meklt tvtos un eksportt tos k .csv failu. Skuma skat jeb darbvirsm (Dashboard) rti prskatmas svargks pdj laika aktivittes. Spj analizt ne vien Twitter, bet ar Facebook un Google+. Analiz tikai autentifict lietotja datus. Twitter zias tekstu skk neanaliz, viengi atpazst, kuras zias bijuas jautjumi.

Tipiskais pielietojums Priekrocbas

Persong konta prskats

Trkumi

ThinkUp ir diezgan rti lietojams, iespjm bagts un kopum patkams rks, kuru iespjams lietot dadiem nolkiem. Fakts, ka ThinkUp pirmkods ir visiem brvi apskatms, padara to vl jo patkamku citiem programmatras izstrdtjiem. Tau t viens lielais trkums spja vkt tikai autentifict lietotja datus neizvlties ThinkUp un t viet meklt citu risinjumu. vartu bt pietiekams iemesls

3.2. IMB BigSheets


IBM BigSheets [11] tmeka lietojumprogrammatra ar gan bezmaksas, gan ar maksas versiju. IBM BigSheets izmanto Apache Hadoop [12] ietvaru, lai veiklk sptu opert ar lieliem strukturtu un ar nestrukturtu datu apmriem. K vienu no strukturtu datu piemriem IBM BigSheets spj analizt ar Twitter datus.

15

3.2. att. IBM BigSheets darbb

Saldzinjums pc kritrijiem: 3.2. tabula


IBM BigSheets novrtjums

Kritrijs Cena Vide

Vrtba Pamata versija pieejama bez maksas Tmeka programmatra (nepiecieama vai nu Red Hat Enterprise Linux vai SUSE Linux Enterprise Server servera opertjsistma)

Atvrt pirmkoda risinjums Spja vkt rel laika datus Iespja eksportt datus Analzes metodes

N J J Piedv pievienot spraudus, kas spj analizt valodu, taj skait sentimentu. Kop ar IBM Many Eyes vai kdu citu spraudni izveido datiem dadas vizualizcijas, k, piemram, birku mkoni.

Tipiskais pielietojums Priekrocbas

Biznesa izpte Kop ar spraudiem oti plaas un spcgas iespjas. Spj tikt gal ar oti lieliem datu daudzumiem. Spj lot ar pa tmeka lapm vai ieldt 16

analizjamos datus no datora. Trkumi Diezgan sareti uzstdt. Samr nerta lietoana - ar datiem jdarbojas k ar izkljlapm. T k IBM BigSheets ir nopietns biznesa rks, tas noteikti nebs piemrots visiem. Pat tad, kad tas ir veiksmgi uzstdts, lietoana nav oti patkama, it pai bez papildus spraudiem. Lai gan kopum spcgs, IBM BigSheets tomr nebs rks ko izvlsies parastais mjas lietotjs vai pat neliels uzmums, kuram nav daranas ar milzgiem datu apjomiem.

3.3. The Archivist


The Archivist3 ir serviss, kas arhiv Twitter zias, kuras tas iegst, mekljot pc atslgvrdiem, izmantojot Twitter Search API. Savkto ziu arhvu tas auj saglabt dator dados formtos, k ar izanalizt un attlot rezulttus viegli uztverams vizualizcijas. The Archivist var lietot k tmeka programmu vai Windows programmu.

3.3. att. The Archivist Windows versija

http://archivist.visitmix.com/ 17

3.4. att. The Archivist tmeka versija

Saldzinjums pc kritrijiem: 3.3. tabula


The Archivist novrtjums

Kritrijs Cena Vide Atvrt pirmkoda risinjums Spja vkt rel laika datus Iespja eksportt datus Analzes metodes

Vrtba Bezmaksas Pieejama gan tmeka programmas versija, gan Windows versija. N N J (tikai Windows versij) Windows versij grafiski attlo ziu skaitu laika gait un aktvkos lietotjus. Tmeka versij zias izanaliz plak, taj skait ar nedaudz no paa zias teksta. Arhvu iespjams saglabt k XML vai teksta failu.

Tipiskais pielietojums Priekrocbas

Statistikas izpte Dau sekunu laik uzkrj un izanaliz pdj laika tvtus par ievadtajiem atslgvrdiem. Attlo rezulttus seos (tmeka versij) vai divos 18

(Windows versij) prskatmos grafikos. Trkumi Windows versij attlo oti maz rezulttus. Tmeka versija analiz samr maz no zias teksta tikai populrkos vrdus. Windows versija vispr neanaliz pau tekstu. Ar The Archivist oti s laika period iespjams tikt pie piekljga datu apjoma un laika gait to vl papildint. Ir viegli darboties gan ar tmeka versiju, kura piedv vairkus analzes skatus savktajiem datiem, gan ar Windows versiju, kurai analzes iespju ir mazk, tau, kura piedv eksportt savktos datus dados formtos. Dieml im rkam trkst iespjas vkt rel laika datus, bet, neskatoties uz to, tas vartu bt lietotjiem pievilcgks k divi iepriek apskattie.

3.4. TweetReach
TweetReach4 ir serviss, kas izanaliz Twitter zias un sagatavo par tm atskaites. Tas spj uzkrt zias vai nu ts mekljot ar Twitter Search API (bezmaksas) vai ar ievcot rel laika zias ar Twitter Streaming API (par samaksu). TweetReach galvenokrt ir paredzts, lai atspoguotu ziu sniegumu (reach) pc mekljam atslgvrda jeb to, cik daudzi lietotji vartu bt s zias izlasjui. Papildus tam TweetReach ar atspoguo ietekmgkos Twitter kontus un jaunks zias par konkrto tmu. is rks auj rti sekot ldzi uzmumu mrketinga kampam, sekot ldzi kdam zmolam vai notikumam, vai vienkri paptt kda atslgvrda efektivitti Twitter socilaj tkl.

http://tweetreach.com 19

3.5. att. TweetReach darbb

Saldzinjums pc kritrijiem: 3.4. tabula


TweetReach novrtjums

Kritrijs Cena Vide Atvrt pirmkoda risinjums Spja vkt rel laika datus Iespja eksportt datus Analzes metodes

Vrtba Pamata versija pieejama bez maksas, PRO versija skot no $84 mnes Tmeka programmatra N J (PRO versij) J Uzskaita iespjamo zias ekspozciju skaitu, k ar lietotjus ar lielko ietekmi par tmu, visvairk

20

prpublicts zias Tipiskais pielietojums Priekrocbas Attlo tvtu skaita izmaiu laika gait Piedv atskaites saglabt k Excel vai PDF dokumentus. Par nelielu samaksu piedv ar bezmaksas (ne PRO) lietotjiem saglabt pilna izmra atskaiti ldz 1500 zim. Trkumi Bezmaksas versij apskata tikai 50 jaunks zias. Lai vktu rel laika datus, ar jmaks. Statistikas izpte / Biznesa izpte

TweetReach bezmaksas versija labi ilustr savktos datus un ar to ir rti darboties, bet t k taj tiek apskatti tikai 50 jaunkie tvti, lielas jgas no ts nav, tpc lietotjiem tiem lietderga ir tikai PRO versija. T k par PRO versiju ir jmaks, t noteikti neders ikvienam, tomr pat nelielie uzmumi btu spjgi iegdties ltko no TweetReach PRO versijm.

3.5. Row Feeder


Row Feeder5 ir serviss, ievc datus no Twitter plsmas un uzener par tiem atskaites. Tam ir Bezmaksas iespja ievkt ldz 500 tvtiem mnes ar vienu atslgvrdu un par maksu ar vairk. Tomr t k 500 tvtu mnea laik ir diezgan maz, tas, iespjams, paredzts tikai k maksas produkts. Pie tam oti populrus atslgvrdus aj servis bezmaksas versij nav iespjams vkt, piemram, ievadot atslgvrdu android vai blackberry, Row Feeder pazioja, ka vrda vidjais ziu daudzums stund ir prk liels, lai to vktu bezmaksas versij. Papildus Twitter, obrd beta testa versij Row Feeder piedv ievkt datus ar no Facebook.

https://rowfeeder.com 21

3.6. att. Row Feeder darbb

Saldzinjums pc kritrijiem: 3.5. tabula


Row Feeder novrtjums

Kritrijs Cena Vide Atvrt pirmkoda risinjums Spja vkt rel laika datus Iespja eksportt datus Analzes metodes

Vrtba Pamata versija pieejama bez maksas, PRO versija - skot no $35 mnes. Tmeka programmatra N J J Tvtu skaita laika gait attloana. Sarunu analze starp tvtotjiem. Atraans vietas analze. Vairku atslgvrdu saldzinana. Ietekmes analze (ar datiem no Klout6) Piedv atskaites saglabt k Excel dokumentus. Bezmaksas ievcamo tvtu skaitu iespjams papildint, piesaistot citus lietotjus.

Tipiskais pielietojums Priekrocbas

Statistikas izpte / Biznesa izpte

Trkumi

Bezmaksas versij auj ievkt tikai 500 zias mnes un tikai pc viena atslgvrda.

http://www.klout.com 22

Atskaites pieejamas tikai Excel dokumentu form un nek citdi.

Row Feeder ir diezgan ldzgs TweetReach, tomr tas dod vairk iespjas bezmaksas lietotjiem rt veid vkt tvtus pc kda viena atslgvrda un sagatavot dadas analzes atskaites. Ar PRO versija, kas sniedz iespju vkt lielkus datu apjomus, Row Feeder ir ltka nek TweetReach. Tomr Row Feeder piedv tikai vienu faila formtu, kas vartu trauct citiem lietotjiem apskatt analzes rezulttus.

3.6. Apkopojums
No pieciem apskattajiem rkiem visrtkais, lietoanai patkamkais un iespjm bagtkais izrdjs ThinkUp. Tas bija ar viengais, kuram ir atvrtais pirmkods. Tomr ThinkUp ir viens oti vr emams ierobeojums tas vc tikai konkrtu autentifictu lietotju datus un nespj ievkt datus no Twitter meklanas un Twitter plsmas. Datu ievkana no plsmas tiek realizta tikai IBM BigSheets, TweetReach (maksas versij) un Row Feeder, kuri bezmaksas lietotjiem piedv samr maz iespju. Visiem apskattajiem rkiem bija iespja eksportt datus. Tiem ar bija dadi izanalizti skati uz datiem, kas tomr kopum bija vairk vai mazk ldzgi. Lietotjiem, kuriem pietiek ar meklan atrodamajiem rezulttiem un kuri vlas bezmaksas produktu, ieteicams izmantot The Archivist, jo, to lietojot, oti tri var tikt pie pietiekami liela apjoma datiem un tos ar rti prskatt. Tiem, kuri vlas bezmaksas datus no Twitter plsmas, jlieto Row Feeder ar ierobeojumiem. No maksas produktiem labkie ir TweetReach un Row Feeder, jo, atirb no tre maksas rka IBM BigSheets, ie divi bija gan vienkrk lietojami, gan iebvtajm iespjm bagtki. T k visiem iem rkiem tika konstatti vai nu trkumi vai ar neatbilstba kdam no izvirztajiem kritrijiem, tomr ir nepiecieams izveidot spcgu, universlu un visaptverou Twitter analzes rku, kas prklj visas prasbas.

23

4. PILOTPROJEKTS
Pirms erans pie universla Twitter analzes rka izstrdes, lai izmintu mints visprgs analzes metodes un saprastu, ko ar tm var iegt, tika izstrdts neliels pilotprojekts ar nosaukumu Twitdiens. Tas ir balstts uz tvtu vkanu par vienu konkrtu tmu anu.

4.1. Twitter datu vkana


Tvti tiek vkti pc atslgvrdiem, par kuriem galvenokrt tika izvlti latvieu valod biek lietotie darbbas vrdi, kas raksturo anas procesu. Tie nav saistti ar konkrtu dienu un aptver plaku mekljamo tvtu kopu nek, ja tvtu vkan tiktu izmantots ierobeots skaits ar atslgas vrdiem, kas ir dienu nosaukumi. Ziu vkana notiek ar php programmu, izmantojot Twitter Streaming API metodi statuses/filter [9]. Par katru ziu tiek ievkti un datubz ierakstti di dati: zias ID; atraans vietas nosaukums, ja tds ir; zias saturs; zias autora lietotjvrds; zias datums un laiks; zias noskaojums.

Tas nav glui viss, ko piedv Twitter par katru ziu, bet konkrti ie dati ita nodergkie tlkai analzei. Pievienojot ziu datubzei, tam ar tiek noteikta sentimenta (noskaojuma) klasifikcija pozitvs, negatvs vai neitrls ar uClassify [13] teksta autora noskaojuma klasifikatoru. Klasifikators tika izveidots un uztrents specili im projektam. Ievkanas brd katra zia tiek sadalta pa vrdiem un katrs vrds tiek prbaudts, vai tds vrds jau atrodas vrdu datubz un vai tas ir nomarts k diens/dzriens. Ja tds vrds datubz ir atrodams (no kda cita tvta) un tas ir marts k diens/dzriens, tad ievktais vrds ar tiek pievienots datubzei kop ar tvta ID, kur tas atrasts, un ar nomarts k diens / dzriens. Ja tds vrds ir datubz, bet nav marts k diens/dzriens, tas netiek pievienots. Ja da vrda vl nav datubz, tad tas kop ar tvta ID, kur vrds atrasts, tiek pievienots rind uz manulu maranu. Vrdi tiek marti ar roku, ldz ko pards divi viendi vl nenomarti vrdi. Projekta skum tika manuli nomarti apmram 15000 vrdu, kas aizma vairkas stundas, bet kop t laika (trs mneos) jauni pardjuies vien 24

ap desmit jaunu vrdu. d veid marjot, ja vrds ir diens vai dzriens, tam tiek pievienota gan vrda nominatva pamatforma, gan vrda angliskais tulkojums, kas nepiecieams gan saistto datu, k, piemram, diena apraksta angu valod, gan uztura piramdas grupas, kurai pieskaitms konkrtais vrds, atraanai. dieni tika dalti ses grups, kas ir veselgas uzturas piramdas [16] sastvdaas: Graudaugu produkti, maize, biezputras, makaroni (6); Drzei (5); Augi, ogas (4); Piena produkti (3); Gaa, olas, zivis (2); Tauki, saldumi (1).

Dzrieni tika dalti divs grups: alkoholiskie un bezalkoholiskie. Par katru vrdu datu bz tiek ierakstti di dati: vrds kds tas pards zi; vrds nominatva pamatform, ja tas ir diens/dzriens; vrds angu valod, ja tas ir diens/dzriens; grupa uztura piramd, ja tas ir diens/dzriens; zias ID, kur vrds ticis piemints, ja tas ir diens/dzriens; vai vrds ir, vai nav diens/dzriens.

Piemrs: 4.1. tabula


Piemrs vrdam datu bz

Vrds Nominatvs Vrds angu valod Grupa

zupu zupa Soup 6 (Graudaugu produkti, maize, biezputras, makaroni) 122284398044390000 1 (ir)

Zias ID Ir diens?

Atsevi datubzes tabul tiek uzglabtas ar visas vietas, no kurm lietotji rakstjui savus Twitter zias. Informcija par vietu tiek emta no Twitter zias, kur t ir dota teksta form pilstas nosaukums, novada nosaukums, reizm pat ielas nosaukums. Ar Google Maps API [15] paldzbu no da teksta tiek noskaidrotas preczas atraans vietas koordintas. ie dati nepiecieami, lai tmeka lietojumprogrammai atvieglotu darbu un tai 25

katru reizi nebtu juzmekl katras vietas koordintas. T tiek papildinta katru reizi, kad tiek atvrta Twitter gardu karte7 lapas sadaa, kur atzmtas visas vietas tabul. Par katru atraans vietu datubz tiek ierakstti sekojoi dati: vietas nosaukums; garums (longitude) un platums (latitude). tmeka lietojumprogramm un starp zim ir pardjusies kda jauna vieta, par kuru vl nav datu aj

4.2. Datu apstrde


Katrs tvts tiek saglabts datu bz gan vesels, gan sadalts pa vrdiem. Pirms vrdi no katra tvta tiek saglabti datubz, no tiem tiek atmestas visas interneta lapu adreses, kas skas ar http vai www, visi skaiti, pieturzmes un jaunas rindas simboli. Katrs tvts tiek padots specili uztrentam uClassify klasifikatoram [13], kur to iedala pozitv, neitrl vai negatv kategorij. is iedaljums tlk tiek izmantots, apkopojot ar dieniem saisttos tvtus un dalot tos pc noskaojuma. Skotnji ar roku tika nomarti apmram 750 tvti un padoti klasifikatoram apmcbai. Pc tam tika automtiski saklasificti ar prjie tvti. Tomr is klasifikators uzrda prk lielu negatvi noskaoto tvtu skaitu, kas rada aizdomas, ka tas darbojas diezgan nepreczi. Manuli marjot, no 750 tvtiem k negatvie tika atzmti oti maz apmram 15 - 20. Ttad tvtus ar negatvu noskaojumu vartu sagaidt mazk par 5%, bet obrd ir ap 12% negatvo. oti iespjams, ka turpmk projekta gait tvtu noskaojuma analizana tiks prtraukta un t viet tiks apskatti tvtos atrodamie emotikoni.

4.3. Rezultti
Tvti tiek neprtraukti vkti un glabti datubz. Projektam ir publiska interneta lapa8, kur iespjams apskatt ievkto informciju no dadiem rakursiem : autentificties ar savu Twitter kontu un redzt savu draugu tvtus par anu; apskatt, par kdiem dieniem tiek tvtots; apskatt, kurs nedas diens un kuros laika posmos par anu tvto visbiek; apskatt, no kurm valstm, pilstm tvto un cik daudz; apskatt aktvko dju-tvtotju topu; k ar kopjo statistiku par visu projektu.

Radtais pirmkods, k ar datubze un dokumentcija ir brvi pieejama9.

7 8

http://twitediens.tk/karte http://www.twitediens.tk 26

Divarpus mneu laik (06.10.2011 17.01.2012) tika savkti 60956 tvti. 38370 (63%) no tiem ir piemints kds diens vai dzriens. Tos rakstjui 17028 dadi lietotji, no kuriem 2091 (12%) bija nordjui savu atraans vietu. No tvtiem, kuros bija nordta atraans vieta, 1882 ir rakstti Latvij, 203 rzems. No Latvijas tvtiem visvairk nk tiei no Rgas 1131 (60%). [4.1. att. Tvtu statistika] Vis projekta gait ikvienam bija pieejama interneta lapa, lai gan t netika pai reklamta. To laika posm no 7. novembra 2011 ldz 16. janvrim 2012 apskatja 705 apmekltji. Aktvks dienas bija 14. novembris, 30. novembris un 9. novembris ar 65, 48 un 46 apmekljumiem. Visvairk apskatt lapas sadaa bija Statistika ar 1267 skatjumiem. 32% no iem apmekltjiem nca no Twitter, 20% - pa tieo ievadot adresi, 17% no draugiem.lv un prjie no citm vietm. Visaktvkais tvtotjs par anu ir ar 88 tvtiem par anas tmm. Par anu visvairk tiek tvtots svtdiens un visaktvks stundas ir no septiiem ldz deviiem vakar, kad cilvki parasti ietur vakarias vai ar ir sarpjui sev kdu gardumu, ko izbauda pc saspringts dienas. is laiks nav nemaz tik vlu, pieemot, ka cilvki gult iet ap vienpadsmitiem. Veselgi ir pdjo dienas maltti ieturt ne vlk k 2 stundas pirms gultieanas [16]. Dotaj vl rudens, agrs ziemas laika period populrkie produkti bija mandarni, okolde, tja, saldjums, pica, zupa un kafija. Projekta skumposm un stabili starp populrkajiem dieniem dominja okolde, bet, tuvojoties Ziemassvtkiem, Latvijas Twitter lietotji tri topa auggal izvirzja daudz veselgkos mandarnus.

4.1. att. Tvtu statistika

https://github.com/saifer/TwitEdiens 27

4.4. Secinjumi
is pilotprojekts radja labu priekstatu par Twitter-sfr pieejamo informciju - k to apkopot, apstrdt, izanalizt un attlot. Tas ar radja izpratni par to, kdas metodes bs nodergas jebkuras tmas tvtu analzei, kdas neders citm tmm, k ar veicinja idejas par citiem pamieniem, kas vl btu klt pieliekami.

28

5. TWITTER ZIU APSTRDES PROCESS


Ldzs visprgajm Twitter ziu analzes metodm un tm, kuras tika pielietotas pilotprojekt, universlam tvtu analzes rkam vartu bt lietdergas ar vairkas citas, kas, iespjams, jau pastvoajos tvtu analizatoros netiek pielietotas. aj noda tiks aprakstts viss ziu process tiei td secb, kd paredzta to izpilde. is process skas ar datu vkanu, tad datu priekapstrdi un beidzot ar pau analzi [4].

5.1. Datu vkana


Atirb no pilotprojekta un ldzgi k piemintajos esoajos rkos, datus vcot, btu nodergk saglabt ne vien pau ziu, ts ID, datumu, autoru un atraans vietu, bet ar citus metadatus, k, piemram, informciju par to, vai zia ir bijusi prpublicta, u.c. Vcot datus no Twitter, btu jsaglab iespjami vairk informcijas, ko tas piedv, tomr ne glui visu. Twitter par katru tvtu sniedz oti ski detaliztus datus10, kuri vietm atkrtojas, k, piemram, tvta uniklais identifikators ir pieejams gan k id skaitliska vrtba, gan k id_str tekstula vrtba. Dau no iem liekajiem datiem var atmest, lai liel daudzum glabjot datu bz tvtus, t tomr tik veikli neprpildtos un darbotos vl raitk. Krtgk paptot piedvtos datus, darba autors secina, ka visnodergkie turpmkai analzei vartu bt di: Par pau tvtu o Tvta ID o Tvta teksts o Tvta autora lietotjvrds o Tvta izveidoanas datums o eogrfisks atraans vietas nosaukums, no kuras rakstts tvts o Autora lietotjvrds, kuram atbild tvts o Tvta rakstanas avots Par tvta autoru o Pilnais autora vrds o Profila attla adrese o Lietotja ID o Mjas lapas adrese o Lietotjvrds
10

https://dev.twitter.com/docs/api/1/get/statuses/show/%3Aid 29

o Apraksts Par birkm o Teksts o Tvta id, kur birka pardjusies Par tvt piemintajiem lietotjiem o Piemint lietotja lietotjvrds o Tvta id, kur lietotjs piemints Par saitm tvtos o Pilnais URL o Attlojamais URL o Tvta id, kur saite pieminta

5.2. Datu priekapstrde


Pirms uzskt tlku tvtu analizanu, jveic datu priekapstrde un normalizcija, lai analzes fz btu vieglk ar iem datiem apieties. Priekapstrdes fz btu, pirmkrt, jattra teksts no visdiem liekiem simboliem un vrdiem. Otrkrt, jnosaka, par kdu tmu bs tvti un, trekrt, tvts jsadala das jeb tokenos.

5.2.1. Teksta attrana


Teksta attranas jeb normalizcijas posms sadalms divs das paa tvta attran un tvt esoo vrdu jeb tokenu attran. Pirms tvta teksta saglabanas datu bz no t btu ieteicams izvkt visus piemintos lietotjvrdus, kas Twitter ir atirami ar @ zmi priek, un aizstt tos ar kdu vienu simbolu virkni, kas identifictu, ka taj viet tvta tekst piemints lietotjs, bet visur btu vienda un netrauctu, analizjot tekstu. Ldzgi ieteicams aizstt visas tmeka adreses (URL) no tvtiem. Vl vartu ar attrt tvta tekstu no taj sastopamajm birkm, kas Twitter skas ar simbolu #. Tomr biei vien m birkm ir ar diezgan liela saturisk vrtba, tpc tas, vai attran iekaut birkas, btu jizvrt pirms katras tvtu vkanas konkrto atslgvrdu un tmas kontekst. T k datu bz atsevii tiek saglabti tvtos piemintie lietotjvrdi, tmeka adreses un birkas, ar pc to aizstanas tvt ar kdu citu simbolu virkni, pc nepiecieambas bs iespjams salikt kop oriinlo tvta saturu. Pirms teksta sadalanas vrdos jeb tokenizcijas btu jattra teksts ar no visdm pieturzmm (. , ! ? ; : ( ) { } [ ] / \ < >), simbolu virknes RT, kas Twitter apzm zias prpublicanu un citdi nav nozmga. Iespjams, vl btu jizvc no tokeniem simbolu virknes, kas sastv tikai no skaitiem, un simbolu virknes, kas skas par 1 simbolu, bet ldzgi k ar birkm, tas btu jdara atkarb no ievcamo tvtu konteksta. 30

5.2.2. Morfoloisk analze


Vl k pdjais solis pirms tvta sadalanas tokenos btu jveic tvt esoo vrdu morfoloisk analze, un k tokeni jsaglab tikai vrdu pamatformas. da vrdu prvrana to pamatforms paldztu analzes fz noskaidrot tiei cik, kur un k katrs vrds piemints, neatkargi no formas, kur tas pierakstts. Pirms var skt morfoloisko analzi, vispirms jnoskaidro, kd valod teksts rakstts. im nolkam var izmantot dadus manmcans pamienus, tau visrtk btu atkal izmantot kdu jau gatavu teksta valodas noteikanas servisa. Vienu tdu piedv uClassify11. Kad valoda noskaidrota, jpielieto kds konkrts valodas morfoloiskais analizators. Internet brvi pieejami daudzu valodu morfoloiskie analizatori. Viens no tiem ir pat latvieu valodai Matemtikas un informtikas institta mkslg intelekta laboratorijas tmeka serviss morfoloiskais analizators / sintezators12. Viengie vrdi, kurus vartu izlaist morfoloiskaj analz, vartu bt par tvtu tematu noskaidrots frzes un vrdu salikumi, kas iegti no saistto datu resursiem. Tie btu jatstj tds forms, kds tie ir, lai vlk, kad tos bs nepiecieams izmantot, vrdu formas neatirtos no tm, kas iegstamas no saistto datu resursiem.

5.2.3. Tokenizcija
Tokenizcija jeb teksta sadalana pa vrdiem ir pdjais datu priekapstrdes solis. Taj jem vr gan vrdi un vrdu salikumi, kas iegti no saistto datu resursiem, gan vrdu pamatformas, kas iegtas morfoloiskaj analz. Visi katra tvta vrdi, izemot tos, kas sakrt ar no saistto datu resursiem iegtajiem, jsadala viets, kur ir atstarpes un jsaglab datu bz. Ar diem tokeniem ir ievrojami vieglk strdt un tos analizt, nek tas btu ar visu tvta tekstu kop.

5.2.4. Twitter zias temata noteikana


Twitter zias temata noteikana nav obligts solis, kur nav tik btisks priekapstrdes proces, tau, ja tas tiek izpildts, tlk analz var veikt citas interesantas darbbas. T k o soli iespjams izlaist, tas piemints k pdjais no priekapstrdes punktiem, bet, ja tas tiek realizts, t vieta secb btu pirms tokenizcijas.

11 12

http://www.uclassify.com/browse/uClassify/Text-Language http://valoda.ailab.lv/ws/morph/ 31

Ja zinms ziu preczs vai kaut aptuvens temats, par to var iegt lietdergu informciju no saistto datu (linked data) resursiem [3]. Ldz ar semantisk tmeka attstbu pards arvien vairk brvi pieejamo datu kopu, no kurm lielks un populrks ir DBPedia13, GeoNames14, UMBEL15. Viena no saistto datu kopm vartu bt kdas kategorijas jdzienu uzskaitjums, ko var iegt no DBPedia. Piemram, ja zinms, ka tvtu tma ir par karsto dzrienu tmu, tad no saistto datu avotiem vartu iegt, ka pie karstajiem dzrieniem pieder tja, kakao, kafija u.c. Ldz ar s informcijas ieganu vlk analzes fz to vartu likt liet, prskaitot, cik kuri dzrieni pieminti utt. Cits veids, k izmantot di iegtu informciju tokenizcijas posm neatdalt vrdu savienojumus, kas pieskaitmi pie noteikts kategorijas jdzieniem, lai pck ar tiem vartu strdt k patstvgiem tokeniem. Tematikas noteikanai izvlti divi veidi, k automtiski btu iespjams to noskaidrot, un viens manulai tmas noteikanai. No automtiskajiem pirmais ir ar iepriek uztrentu klasifikatoru, klasificjot dau pirmo ievkto tvtu. Otrais - no atslgvrdiem, pc kuriem atlasti tvti vai nu viengo atslgvrdu, ja ievadts tikai viens, uzskatt par tematu un turpmk darboties ar tdu piemumu, vai ar to pau klasifikatoru, kas mints pirmaj veid, noteikt vairku atslgvrdu tematu. Treais veids, lai gan bdams vispreczkais, tomr pieprasa lielku lietotja piepli, ir atrast savu izvlto tematu plaaj pieejamaj visu tematu hierarhij. Tas btu izmantojams, ja pirmie divi automtiskie vai nu nenostrdtu, vai ar sniegtu apaubmus rezulttus. Viens no avotiem, kur emt sarakstu ar iespjamajm tmm, ir DBPedia.

5.2.4.1. Ar klasifikatoru
Viens pamiens automtiskai tmas noskaidroanai btu to noteikt ar specili im mrim uztrentu teksta klasifikatoru. Klasifikatoram padodot pirmos n tvtus no visa korpusa vai ar visus tvtus, ja to kopskaits neprsniedz n, vartu noteikt o n tvtu tematiku un turpmk pieemt, ka t atbilst ar visam prjam korpusam. Skaitlis n btu jizvlas vismaz 10 vai vairk, jo, t k tvti ir samr si, ar mazk par 10 tvtiem vartu bt pagrti noteikt tematu. Tomr, izvloties prk lielu n vrtbu, var gadties, ka klasificanas process ieilgst, it pai, ja tiek izmantots kds rjs teksta klasifikcijas serviss. Pau teksta klasifikatoru var veidot ar kdu no manu mcans pamieniem, vai ar izvlties kdu jau gatavu teksta klasificanas servisu tmekl. Tiei dam nolkam

13 14

http://dbpedia.org/ http://www.geonames.org/ 15 http://umbel.org/ 32

paredzts serviss uClassify16. Taj ir pat jau gatavs uztrents teksta klasifikators, kas nosaka angu valod rakstta teksta piederbu kdam no diem tematiem - Arts, Business, Computers, Games, Health, Home, Recreation, Science, Society, Sports.

5.2.4.2. Pc atslgvrdiem
Diezgan dros un preczs veids, k noteikt tvtu tematu ir - pc atslgvrdiem. Teiksim, ja tvtu vkanai ievadts tikai viens atslgvrds, tad ir oti liela iespjamba, ka tas ir ar galvenais savkto ziu temats. Ja ievadti vairki atslgvrdi, tad tie jklasific ldzgi k iepriek mints par tvtiem.

5.2.4.3. Tmas izvle no saraksta


Tomr vispreczkais pamiens, k tikt pie tvtu temata, ir pieprast lietotjam to izvlties no kda plaa, visaptveroa saraksta. Sarakstu ar dadiem tematiem un ar to skkiem iedaljumiem var iegt no DBPedia galveno tmu sadaljuma17. Par katru no galvenajm tmm tur var atrast ar skkus iedaljumus apaktms un ar dadus ar katru no kategorijm un apakkategorijm saisttus jdzienus, kuri tad bs nodergi turpmkajos posmos.

5.3. Twitter zias analze


Ldz ko saemtie dati apstrdti un normalizti, var uzskt analzi. Analze sadalta vairks das metadatu, vrdu, kolokciju, atslgvrdu un emotikonu analz. o dau secba nav svarga.

5.3.1. Metadati
Pie tvta metadatiem pieskaitmi visi datu vienumi, kas kop ar pau tvta tekstu tiek padoti no Twitter API taj skait datums, eogrfisk atraans vieta, retvtu (prpublicjumu) skaits, publicanas avots, lietotjvrds, kuram tiek atbildts, un citi. Visus os datus var gan attlot patstvgos grafikos, gan to izmaiu laika gait. o grafiku attloanai oti parocgi izmantot Google Chart Tools18. Turpretim visas eogrfisks atraans vietas var atzmt uz pasaules kartes, izmantojot Google Maps API19.

16 17

http://www.uclassify.com/browse/uClassify/Topics http://dbpedia.org/page/Category:Main_topic_classifications 18 https://developers.google.com/chart/ 19 https://developers.google.com/maps/ 33

Pie Metadatiem var skaitt ar hatagus jeb birkas, tvtos piemintos lietotjus un WWW saites. Lai gan ie dati pards ar pa tvta tekst, tie tiek ar atdalti atsevii un ldz ar katru tvtu no API padoti k metadati. Gan birkas, gan piemintos lietotjus, k ar WWW saites oti prskatmi ir attlot vrdu mkou form (word cloud), kas ir vrdu grafiska attloana pc to bieuma tekst jo biek vrds tekst piemints, jo lielks tas tiek attlots un pretji. oti iespjm bagtu da veida vrdu mkou attloanu piedv interneta serviss Wordle20.

5.3.2. Vrdi un Kolokcijas


Provizoriski interesantu analzes rezulttu noteikti vartu sniegt tvtu tekst visbiek piemintos vrdu izpte. Ja tvtu ievkana notiek pc liela atslgvrdu skaita, ajos biek piemintajos vrdos noteikti bs iespjams atrast vrdus, kuri vartu nodert nkamaj ievkanas proces par to pau tmu. T k visi vrdi priekapstrdes fz tiek prveidoti pamatforms, to nebs prk daudz dadu un biek pielietotie spilgti izcelsies. Tpc ar atsevios visbiek piemintos vrdus visprskatmk bs attlot vrdu mkon. Dabgs valodas ir pilnas ar kolokcijm jeb ciei saisttiem vrdu savienojumiem, kas ik pa laikam atkrtojas. Tie vartu bt, piemram, personvrdi, vietvrdi, organizciju nosaukumi, produkti. Ldzgi k atsevios vrdus, ar kolokcijas var attlot vrdu mkon, lai ts btu prskatmkas. Vl cits interesants veids, k pielietot kolokcijas, ir, izmantojot kdu brvi pieejamu nosaukto vienumu atpazanas (named entity recognition) servisu, k, piemram, The Calais Web Service21, un ar t paldzbu iegt papildus datus par iem vrdu savienojumiem.

5.3.3. Atslgvrdu efektivitte


T k tvti tiek vkti pc noteiktiem atslgvrdiem, oti nodergi btu vkanas gait vai beigs izptt, kuri atslgvrdi uzrda visvairk rezulttu. Izstrdjot pilotprojektu, is solis netika sperts un tikai, kad projekts jau bija gal, izrdjs, ka liela daa atslgvrdu pa vairkiem mneiem nebija sniegui nevienu pau rezulttu. Ja vkanas periods ir oti ilgs un atslgvrdu skaits ir tuvu 400, kas ir Twitter noteiktais maksimums, tad tie btu jizmanto pc iespjas efektvk. Ldzgi k citus datus, ar atslgvrdus var prskatmi attlot ar Google Chart Tools.

20 21

http://www.wordle.net/create http://viewer.opencalais.com/ 34

5.3.4. Emotikoni
Lai gan tikai 140 simbolus gari, tomr tvti biei vien paldz to autoram paust savu attieksmi. Ir daudz veidu k ar manmcans pamieniem noteikt teksta sentimentu jeb noskaojumu, tomr oti labi to var novrtt pc emotikonu pielietojuma tekst. Teiksim, lai sadaltu tvtus pozitvajos, negatvajos un neitrlajos, var pieemt, ka neitrlie ir visi, kuros nav neviena emotikona, pozitvie kur pards kds no priecgajiem emotikoniem, piemram, :) un negatvie kur pards kds no bdgajiem emotikoniem, piemram, ):. Lai noskaidrotu, kdi ir populrkie Twitter pielietotie emotikoni, tika paemts pilotprojekta gait savktais tvtu korpuss un taj tika meklti emotikoni no Vikipdijas visu emotikonu saraksta22. Tika atlasti 17 visbiek pielietotie emotikoni ar pozitvu noskau un 17 visbiek pielietotie ar negatvu noskau. Emotikoni, kas visbiek ajos tvtos pardjs, redzami tabul [5.1. tabula]. T k teksta priekapstrdes fz attranas posm pirms tokenizcijas tiek izvkti vairki emotikonos biei pielietoti simboli, tad emotikonus pie tokeniem nebs iespjams atrast un tie bs jmekl pau tvtu tekstos. 5.1. tabula
Populrkie emotikoni

Pozitvie emotikoni
:D :) (: ;) ;] :-) :] [: :D ;D xD ^_^ ^^ 8) :P :* ;*

Negatvie emotikoni
:S :( ): :-( :[ ]: ;( ); ]; ;[ :@ :/ :| :? -_:O O:

22

http://en.wikipedia.org/wiki/List_of_emoticons 35

6. UNIVERSLS TWITTER DATU ANALZES RKS


Darba gait, izmantojot pc iespjas vairk iepriekj noda aprakstto metou, tika izstrdts universls rks Twitter datu analzei tmeka programmatra, kas paredzta uzstdanai personlaj dator vai server. rka mris galvenokrt ir apmierint visas lietotju iepriek izteikts, k ar paa autora izvirzts prasbas un sniegt iespjami plaku prskatu par ievktajiem datiem. Tpat k pilotprojektam, ar im universlajam rkam tika pieirts nosaukums TweetTool jeb tvtu rks. Tomr, atirb no Twitdiena, TweetTool lietotja saskarne paredzta ar starptautiskiem lietotjiem. Tpc taj visi teksti un kdu paziojumi bs angu valod. obrd TweetTool pirmkoda jaunk strdjo versija pieejama GitHub repozitorij23. Pau rku var ar izmint darbb tmeka vietn24, tomr ierobeoto servera resursu d tas ir paredzts tikai k vieta rka izminanai. Plakai lietoanai nepiecieams uzinstalt GitHub repozitorij pieejamo rku. Turpmkajs apaknodas aprakstts rka izstrdes process. Izstrdes proces piedaljs viens cilvks, kur bija projekta dokumentcijas autors, lietojumprogrammas arhitekts, k ar programmtjs. Konsultcijas sniedza darba vadtjs. Pirmie veicamie darbi bija prasbu analze, prasbu specifikcijas un projektjuma apraksta izstrde. Pc tam notika programmatras izveide un kodana, paralli pielabojot programmatras projektjuma aprakstu. Programmanas gait tika veikti vienbtesti katram modulim atsevii un programmanas beigs ar integrcijas testana visam kop. Prasbu specifikcija apaknodaa ir paredzta, lai vartu preczi noformult sistmas nepiecieams prasbas. eit apraksttas topos sistmas prasbas, pc kurm notiks sistmas izstrde. Gatavaj produkt bs realiztas visas dokument mints prasbas. Prasbu specifikcijas sastdan tika emts vr pilotprojekt apgtais, citu lietotju ieteikumi, k ar visas paa autora vlmes un ieceres.

23 24

https://github.com/saifer/TweetTool http://www.twitediens.tk/tool/ 36

6.1. Prasbu specifikcija


6.1.1. Funkcionls prasbas 6.1.1.1. Datu ievkana no Twitter plsmas
Mris: Funkcijas mris ir nodroint datu ievkanu no Twitter plsmas tuvu relajam laikam pc ievadtajiem atslgvrdiem. Ievaddati: Nepiecieams nodroint iespju ievadt du informciju: atslgvrdi; informcijas vkanas ilgums. datu bzes nosaukums; datu bzes adrese; datu bzes lietotjvrds; datu bzes lietotja parole; Twitter lietotjvrds; Twitter lietotja parole. Par pau tvtu o Tvta ID o Tvta teksts o Tvta autora lietotjvrds o Tvta izveidoanas datums o eogrfisks atraans vietas nosaukums, no kuras rakstts tvts o Autora lietotjvrds, kuram atbild tvts o Tvta rakstanas avots Par tvta autoru o Pilnais autora vrds o Profila attla adrese o Lietotja ID o Mjas lapas adrese o Lietotjvrds o Apraksts 37

Ja nav vl vienreiz izdarts, jievada uzstdjumos da informcija:

No Twitter plsmas tiek ievkti di dati:

Par birkm o Birkas teksts o Tvta id, kur birka pieminta Par tvt piemintajiem lietotjiem o Piemint lietotja lietotjvrds o Tvta id, kur lietotjs piemints Par saitm tvtos o Pilnais URL o Attlojamais URL o Tvta id, kur saite pieminta

Apstrde: Ievadtais laiks tiek prveidots sekunds. Ievadtie atslgvrdi tiek saglabti atsevi fail, lai tos vartu izmantot vlk. Ievktie dati no Twitter plsmas tiek apstrdti atkarb no lietotja izvltajiem normalizcijas iestatjumiem. Izvaddati: Pc sekmgas ievaddatu ievadanas pards paziojums par datu vkanas uzskanu: Collecting of tweets has begun! Results will start appearing shortly, un tiek uzskta datu vkana. Pc tam, ldz ko tiek ievkti pirmie dati, statistikas lap apskatmi pirmie analzes rezultti. Kdu paziojumi: 1. Ja kd no abiem ievadlaukiem informcija nav ievadta, pie attiecg lauka pards kdas paziojums: Please fill out this field.

38

6.1.1.2. Datu normalizcija pc lietotja izvles


Mris: Funkcijas mris ir nodroint lietotjam iespju izvlties, kdi dati vkanas laik tiks aizstti lietotjvrdi ar _@user, birkas ar _@hashtag un tmeka adreses ar _@URL. Ievaddati: Nepiecieams nodroint iespju ievadt du informciju: izvle, kurus datus normalizt. Apstrde: Ldz ko skas datu ievkana no Twitter plsmas, emot vr lietotja izvltos parametrus, ievktie dati tiks attiecgi normalizti. Izvaddati: Pc izvles saglabanas pards paziojums: Settings saved!. Vcot datus no Twitter plsmas, tie tiek normalizti pc izvltajiem iestatjumiem. Kdu paziojumi: Nav paredzti.

6.1.1.3. Datu eksports uz .csv failu


Mris: Funkcijas mris ir nodroint ievkto datu prveidoanu ar komatiem atdaltu vrtbu form un izvadanu .csv fail, kuru lietotjam iespjams saglabt. Ievaddati: Nepiecieams nodroint iespju ievadt du informciju: izvle, kuru datu bzes tabulu eksportt. Apstrde: Kad izvlta tabula, taj esoie dati tiek sarakstti teksta fail, atdalot vrtbas ar komatu. Izvaddati: Pc datu apstrdes lietotjam tiek piedvts saglabt gatavu .csv failu. Kdu paziojumi: Nav paredzti.

39

6.1.1.4. Ievkto datu grafiska reprezentcija


Mris: Funkcijas mris ir ievktos datus attlot grafiski lietotjam rti prskatm un saprotam veid. Ievaddati: Nepiecieams nodroint iespju ievadt du informciju: ievktie dati no Twitter plsmas. Apstrde: Ievktie dati tiek sagrupti un sakrtoti, k nepiecieams konkrtajai grafiskajai reprezentcijai. Izvaddati: Atkarb no datiem, kas jattlo, tiek uzzmts vai nu vrdu mkonis (birkm, piemintajiem lietotjiem, tmeka adresm), vai grafiks (kalendram, emotikoniem, atslgvrdiem), vai karte (atraans vietm). Kdu paziojumi: 1. Ja dati vl nav savkti un datu bze ir tuka, pards paziojums: The database is empty!

6.1.2. rjs saskarnes prasbas 6.1.2.1. Lietotja saskarnes prasbas


Minimls lietotja saskarnes prasbas rtai sistmas darbbai: lietotja saskarnei jbt vismaz vien valod angu, bet vlams ar cits, k, piemram, latvieu; lietotjam ievadot programm datus, lietotja ievadto datu kdu vai nepilnbu gadjum uz ekrna jizvada kdas paziojums un lauks, kur konstatta kda, jiekrso sarkan krs; pc kdas izlaboanas, kdas paziojumam jpazd un lauka krsai jatgrieas skotnj izskat.

6.1.2.2. Aparatras saskarnes prasbas


Minimls aparatras prasbas stabilai sistmas darbbai: procesors ar 1.3GHz takts frekvenci (ieteicams 1.5GHz vairk); operatv atmia 128MB (ieteicams 256MB vai vairk); video adapteris un monitors ar Super VGA (800px * 600px) vai augstku izirtspju; 40

tastatra un pele; stabils pieslgums internetam.

6.1.2.3. Programmatras saskarnes prasbas


Minimls programmatras prasbas stabilai sistmas darbbai: jbt uzstdtai opertjsistmai ar servera programmatru, kur ietilpst o PHP 5.3.8 vai jaunka versija; o MySQL 5.5.16 vai jaunka versija.

6.1.2.4. Veiktspjas prasbas


Statisks prasbas: programmai jatbalsta tikai viens lietotjs vienlaicgi. izmantojot datoru ar minimlajm prasbm, vism lapm jieldjas trk par piecm sekundm. Dinamisks prasbas:

6.2. Projektjuma apraksts


apaknodaa paredzta, lai apraksttu, k tiek realizta prasbu specifikcij aprakstt funkcionalitte. Tas ir nepiecieams, lai vartu atvieglot darbu, sistmu programmjot.

6.2.1. Saskarnes projektjums 6.2.1.1. Skuma lapa

Attls 6.1 TweetTool skuma lapa

41

Skuma lapas centr redzama izvle starp tvtu ievkanu no Twitter plsmas un jau gatavas datu bzes ieldi analizanai. Zem TweetTool logo atrodas izvlnes ikonas, kas ved uz prjm lapm. Lapas apakda tiek piedvts ievktos datus eksportt uz .csv failu.

6.2.1.2. TweetTool datu analzes sadaas

6.2. att. Kalendrs, Birkas, Piemintie lietotji, Tmeka saites, Karte, Top lietotji.

ajs laps redzami ievkto datu analzes rezultti dados griezumos. Kalendra lap redzams ievkto ziu sadaljums pa dienm un laikiem. Birku, pieminto lietotju un tmeka saiu laps redzami vrdu mkoi ar birkm, lietotjvrdiem un saitm. Kartes lap redzams ziu, kurs bijui atraans vietas dati, izvietojums pasaules kart. Top lietotju lap redzami aktvkie lietotji.

42

Uz katra no laikiem kalendra lap, birkm, piemintajiem lietotjiem, tmeka saitm un atraans vietm kart var ar uzklikint un apskatt tvtus, ar kuriem tas saistts, k redzams attl [6.3. att.].

6.3. att. Tvti konkrtaj laika posm

Ldzgi var ar detaliztk apskatt katru atsevio lietotju, uzklikinot uz t vrda TOP lietotju lap vai kd no lapm, kurs redzami tvti [6.4. att.].

6.4. att. Detalizta informcija par lietotju

43

6.2.1.3. Statistika

6.5. att. TweetTool statistika

Statistikas lap redzama detalizta informcija par ziu ievkanas procesa gaitu un par ievktajm zim. Statistikas lapai ir ar apaksadaa, kur apskatma skka emotikonu statistika.

6.2.1.4. Uzstdjumi

6.6. att. TweetTool uzstdjumi Uzstdjumu lap redzamas visas konfigurjams sistmas vrtbas. Taj iespjams nordt informciju par datu bzi, kur tiks saglabti dati, Twitter lietotju, ar kuru tiks veikts pieslgums pie Twitter plsmas, un datu normalizciju. 44

6.2.2. Algoritmu projektjums


aj apaknoda aprakstts sistm pielietoto algoritmu projektjums blokshmu veid.

6.2.2.1. TweetTool darbba


aj blokshm [6.7. att.] ilustrts, kd secb norisins TweetTool procesi. Rka darbba skas ar datu vkanu, kas ir vai nu no Twitter plsmas, vai ar, ieldjot jau iepriek savktu un eksporttu datu bzi rk. Nkam fze rka darbb ir datu priekapstrde, kur savktie dati tiek sagatavoti tlkajiem analzes procesiem. Visbeidzot notiek datu analze un analzes rezulttu attloana lietotjam uz ekrna.

6.7. att. TweetTool darbba

45

6.3. Rka testana


aj apaknoda aprakstti pris testa piemri, lai nodemonstrtu rku darbb. Tika veikti un dokumentti tikai testi visas sistmas kopjai darbbai. Moduu atsevia testana tika veikta izstrdes laik, bet t netika atsevii dokumentta. Testanas ievaddati tika sagatavoti t, lai vartu prbaudt, k TweetTool vartu nodert gan lielm firmm (Nikon, Motorola, Nokia), gan individuliem lietotjiem, kam interes, ko tvto par kdu konkrtu reionu (Tukums, Rga, Ventspils).

6.3.1. Tvtu vkana pc viena plai pielietota atslgvrda


Testa apraksts Ievaddati aj test tiek prbaudts, k notiek tvtu vkana, ievadot tikai vienu atslgvrdu un laiku, cik ilgi vkt datus. Atslgvrds nikon; datu vkanas laiks 2 mintes. Uzstdjumos nordts, ka jaizstj tmeka adreses ar _@URL un lietotjvrdi ar _@username, bet birkas jatstj k ir. Attls

6.8. att. 1. testa statistikas ekrnuzmums Sagaidmais rezultts Rezultts Veiksmgs Divu minu laik tika savkti 30 tvti. Visi k viens atbilstoi ievadtajam atslgvrdam nikon. Birkas netika izmaintas, lietotjvrdi un tmeka saites aizstti. Tomr netika saemts neviens tvts, kur btu atraans vietas dati. 46 Tiks savkts neliels daudzums tvtu. Pardsies pilnvrtgi analzes rezultti.

6.3.2. Tvtu vkana pc vairkiem plai pielietotiem atslgvrdiem


Testa apraksts Ievaddati aj test tiek prbaudts, k notiek tvtu vkana, ievadot vairk par vienu atslgvrdu un laiku, cik ilgi vkt datus. Atslgvrdi nokia, iphone, motorola; datu vkanas laiks 2 mintes. Uzstdjumos nordts, lai netiktu aizstti ne lietotjvrdi, ne birkas, ne tmeka adreses. Attls

6.9. att. 2. testa statistikas ekrnuzmums

Sagaidmais rezultts Rezultts

Savkto tvtu skaits bs lielks nek iepriekj test. Pardsies pilnvrtgi analzes rezultti. Veiksmgs Divu minu laik tika savkti 858 tvti, no kuriem lielk daa atbilstoi atslgvrdam iphone, tad nokia un vismazk motorola. Lietotjvrdi, birkas un tmeka adreses palikuas oriinlform.

6.3.3. Tvtu vkana pc vairkiem maz pielietotiem atslgvrdiem


Testa apraksts aj test tiek prbaudts, k notiek tvtu vkana, ievadot vairk par vienu atslgvrdu, kuri visi nav plai pielietoti Twitter zis un laiku, cik ilgi vkt datus. Ievaddati Atslgvrdi Tukums, Rga, Jrmala, Ventspils; datu vkanas laiks 2 stundas. Uzstdjumos nordts, lai netiktu aizstti ne lietotjvrdi, ne birkas, ne tmeka adreses.

47

Attls

6.10. att. 3. testa statistikas ekrnuzmums

Sagaidmais rezultts Rezultts

Savkto tvtu skaits bs samr mazs, tomr saturgs un pilnvrtgi izanalizjams. Veiksmgs Divu stundu laik tika savkti 13 tvti prsvar par Ventspili un Rgu, mazk par Jrmalu un neviens par Tukumu. Lietotjvrdi, birkas un tmeka adreses palikuas oriinlform.

Visi testi prsvar noritja veiksmgi. Viengi pirmaj test izvltaj laika period netika ievkti nekdi dati par atraans vietm un ldz ar to nebija iespjams nevienu tvtu attlot uz kartes.

6.4. Saldzinjums ar esoajiem rkiem


Ldzgi k septtaj noda tika saldzinti esoie rki, pc tiem paiem kritrijiem tika izvrtts ar is darba autora izveidotais universlais rks. TweetTool ir bezmaksas atvrt pirmkoda tmeka lietojumprogramma, kas uzkrj pc lietotja ievadtiem atslgvrdiem (jebkur valod) atrastus datus no socil tkla Twitter un saglab tos lokl datu bz. is process notiek tuvu relajam laikam jeb td laik, k Twitter tos spj padot. Ievktos datus TweetTool atspoguo prskatmos grafikos un diagramms, kas paldz prskatt visu, kas atrasts par mekltajiem atslgvrdiem. Neskaitot to, TweetTool ar piedv rel laika datu vkanas viet vienkri ieldt jau gatavu iepriek noformtu datu bzi un izanalizt to.

48

TweetTool var sav ikdien pielietot k liels organizcijas, kam ir aktuli izptt kdu biznesa nozari Twitter tkl, t ar vienkri cilvki, kuriem vartu pki interest kda konkrta tma un ko par to citi raksta. Saldzinjums pc kritrijiem: 6.1. tabula
TweetTool novrtjums

Kritrijs Cena Vide Atvrt pirmkoda risinjums Spja vkt rel laika datus Analzes metodes Tipiskais pielietojums Priekrocbas

Vrtba Bezmaksas Tmeka programmatra J J Attlo tvtu skaita izmaiu laika gait

Statistikas izpte / Biznesa izpte Piedv eksportt ievktos datus uz .csv dokumentu. Piedv diezgan plau skatjumu uz datiem. Pie milzgiem datu apjomiem patr daudz servera resursu.

Trkumi

49

SECINJUMI
Bakalaura darba problmas aprakst izvirztie mri izptt Twitter datu analzi un izstrdt universli pielietojamu Twitter datu analzes rku tika stenoti. Darba skum tika apskatts socilais tmeklis un noskaidrots, kpc no visiem socilajiem tkliem tiei Twitter ir pateicgs liela daudzuma ldzga veida tekstulu datu ieganai. Tika izptti un saldzinti vairki obrd aprit esoie socilo tklu analzes rki un izzintas metodes, kas tajos pielietotas. Darba gait k pilotprojekts tika izveidots rks aura loka Twitter datu analzei, lai preczk saprastu, k is process notiek un uzzintu, kas vl btu nepiecieams universl analzes rk. Tika ar izgudroti un aprakstti vairki citi analzei nodergi pamieni, kas nebija sastopami saldzintajos rkos un visi kop apvienoti un aprakstti Twitter ziu apstrdes proces. Darba beigu da, izmantojot pilotprojekta gait uzzinto un vairumu aprakstto metou, tika izveidots universli pielietojams atvrt pirmkoda Twitter datu analzes rks. Tomr izstrdtais rks vl var tikt tlk papildints, pirmkrt, ar vism Twitter ziu apstrdes noda apraksttajm funkcijm, otrkrt, ar citm, pc plakas lietotju iesaistans noskaidrotm, nodergm funkcijm, un, trekrt, ar iespjm to lietot no mobilajm iekrtm mobilajiem telefoniem un planetdatoriem. is bakalaura darbs vartu atvieglot citiem darbu ar socilo tklu analzi, k ar kalpot par pamatu turpmkiem ptjumiem aj virzien.

50

PATEICBAS
Darba autors vlas izteikt pateicbu Latvijas Universittes Datorikas fakulttes 2012. gada pavasara specseminra Web Science dalbniekiem un vadtjiem, kas paldzja Twitter analzes rka TweetTool izstrd. Pateicba Normundam Grztim, Renram Liepiam, Krlim Gediam un Jnim Beam par paldzbu informcijas savkan, metodiskiem ieteikumiem darba izstrd, un ieteikumiem, k uzlabot topoo rku. Atseviu pateicbu autors izsaka Uldim Bojram, kas vadja un motivja TweetTool izstrdi, k ar vadja autora bakalaura darba izstrdi.

51

IZMANTOT LITERATRA
1. Zintniskie raksti 1. O'Reilly T. What is web 2.0: Design patterns and business models for the next generation of software, Communications & Strategies, No. 1, p. 17, First Quarter 2007 2. Gruber, T. Collective knowledge systems: Where the Social Web meets the Semantic Web, Web Semantics: Science, Services and Agents on the World Wide Web 6, 2008, p. 413 3. Bizer, C., Heath, T., Berners-Lee, T. Linked Data - The Story So Far. International Journal of Semantic Web and Information Systems, Special Issue on Linked Data, 2009a 4. Bojrs U. Socil tmeka satura apkopoana un analze, Latvieu valoda digitlaj vid: datorlingvistika, Informatvi izgltojou seminru cikla materili, Rga, 2012. 44-52. lpp. 2. Elektroniskie informcijas avoti 5. Twitter 'to hit 500 million registered users [tiesaiste] - [atsauce 15.03.2012.]. Pieejams: http://www.telegraph.co.uk/technology/twitter/9098557/Twitter-to-hit-500-millionregistered-users.html 6. Google says social network has 90M users [tiesaiste] - [atsauce 15.03.2012.]. Pieejams: http://articles.cnn.com/2012-01-19/tech/tech_social-media_google-plus-users_1_searchengine-social-network-results-pages?_s=PM:TECH 7. Twitter mood predicts the stock market [tiesaiste] - [atsauce 26.05.2012.]. Pieejams: http://www.relevantdata.com/pdfs/IUStudy.pdf 8. Twitter turns six [tiesaiste] - [atsauce 15.03.2012.]. Pieejams: http://blog.twitter.com/2012/03/twitter-turns-six.html 9. Streaming API Methods [tiesaiste] - [atsauce 12.04.2012.]. Pieejams: https://dev.twitter.com/docs/streaming-api/methods 10. Streaming API Concepts [tiesaiste] - [atsauce 17.05.2012.]. Pieejams: https://dev.twitter.com/docs/streaming-api/concepts#result-quality 11. BigSheets: extend business intelligence with big data [tiesaiste] - [atsauce 20.04.2012.]. Pieejams: http://www-01.ibm.com/software/ebusiness/jstart/bigsheets/ 12. Welcome to Apache Hadoop! [tiesaiste] - [atsauce 20.04.2012.]. Pieejams: http://hadoop.apache.org/ 13. uClassify teksta autora noskaojuma klasifikators [tiesaiste] - [atsauce 25.04.2012.]. Pieejams: http://uclassify.com/browse/saifer/emo 52

14. Veselga uztura ieteikumi [tiesaiste] - [atsauce 15.01.2012.]. Pieejams: http://www.apollo.lv/portal/ipasums/articles/154909/galery/ 15. Google Maps API [tiesaiste] - [atsauce 25.04.2012.]. Pieejams: http://code.google.com/apis/maps/index.html 16. 7 jautjumi par veselgu uzturu [tiesaiste] - [atsauce 15.01.2012.]. Pieejams: www.mansmazais.lv/article/227290/ 17. Paikens P. Lexicon-based morphological analysis of Latvian language [tiesaiste] [atsauce 27.05.2012.]. Pieejams: www.semti-kamols.lv/doc_upl/Kamols-Kaunas-paper3.pdf

53

Bakalaura darbs Universlas metodes Twitter datu analzei izstrdts LU Datorikas fakultt.
Ar savu parakstu apliecinu, ka ptjums veikts patstvgi, izmantoti tikai taj nordtie informcijas avoti un iesniegt darba elektronisk kopija atbilst izdrukai. Piekrtu sava darba publicanai internet. Autors: _____________________________ (Autora paraksts) Ar savu parakstu apliecinu, ka esmu lasjis augminto bakalaura darbu un atzstu to par piemrotu/nepiemrotu (nevajadzgo svtrot) aizstvanai Latvijas Universittes datorzintu bakalaura studiju programmas gala prbaudjuma komisijas sd. Darba vadtjs(-ja): ______________________________ (Vadtja paraksts) Darbs iesniegts Datorikas fakultt __________________________________. (Iesnieganas datums) Ar o es apliecinu, ka darba elektronisk versija ir augupieldta LU informatvaj sistm. Metodie: _____________________________. (Metodies paraksts) Recenzents: ______________________________ Darbs aizstvts bakalaura darbu gala prbaudjuma komisijas sd _________________________ prot. Nr. ______, vrtjums _____________________ (Darba aizstvanas datums) Komisijas sekretrs: _______________________________ (Sekretra paraksts)

54

You might also like