You are on page 1of 205

31.05.

2023 02:06 Ders : Büyük Veri - eKitap

İstanbul Üniversitesi
Açık ve Uzaktan Eğitim Fakültesi
 
 

 
Büyük Veri
DOÇ. DR. ORHAN ER
Doç. Dr. Orhan ER
 
 

about:blank 1/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

İÇİNDEKİLER

1. BÜYÜK VERİYE GİRİŞ


2. BÜYÜK VERİNİN TARİHSEL GELİŞİMİ
3. BÜYÜK VERİ MAHREMİYETİ
4. BÜYÜK VERİDE ANONİMLEŞTİRME
5. AÇIK VERİ
6. SEMANTİK VERİ
7. BÜYÜK VERİ TEKNOLOJİLERİ
8. BÜYÜK VERİ ANALİZİNDE KULLANILAN TEKNİKLER
9. BÜYÜK VERİ VE YAPAY ZEKA
10. TÜRKİYE’DE VE DÜNYADA BÜYÜK VERİ
UYGULAMALARI
11. SAĞLIK ALANINDA BÜYÜK VERİ
12. BÜYÜK VERİDE HUKUKİ KONULAR
13. APACHE SPARK ve PYSPARK TEKNOLOJİLERİ
14. BÜYÜK VERİ UYGULAMASI

about:blank 2/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

1. BÜYÜK VERİYE GİRİŞ


Birlikte Düşünelim
1.    Büyük veri kavramından ne anlamaktayız?

2.    Neden büyük veri önemlidir?

3.    Büyük veride gizli kalmış örüntüler nasıl çıkarılabilir?

4.    Veri teknolojilerinin temelinde hangi kaygılar göz önünde bulundurulabilir?

5.    Verinin bileşenleri hangi açıdan değerlidir?

6.    Verinin hacmi kadar önemli başka özellikleri sizce ne olabilir?

Başlamadan Önce
Büyük veri ve bu verinin analizi, dijital çağın en önemli basamaklarının başında gelmektedir. Gelişmiş ülkeler
bünyesinde yer alan büyük kuruluşlar çeşitli kaynaklardan gelen verileri toplamakta: Sağlık verileri, finansal
veriler, mobil veriler, üretime dayalı veriler, müşteri araştırmaları/davranışları verileri, sosyal medya verileri,
vb.

Artan veri miktarının işlenebilmesi için yeni analiz teknikleri ve güçlü bilgisayar kaynaklarına ihtiyaç
duyulmaktadır. Bilişim sektöründe güçlü firmaların sunmuş olduğu online kaynaklara anında erişim olanağı
sayesinde, akademinin yeni yöntem araştırmaları ile yeni ve güçlü araçlar ortaya çıkarmıştır. Bu büyük güç,
analitik araçların destek vermesiyle, geçmişte hayal olarak görülen birçok yeni fırsatı gerçekleştirme olanağı
sağlamıştır.

Ancak gelişen yeni teknoloji ve araçlara rağmen büyük veriyi analiz etmenin önündeki en önemli engel
verinin içerdiği ve görülemeyen karmaşık örüntüleri analiz edebilmektir. Doğrusunu isterseniz, büyük veriyi
işlemek hâlâ karmaşık ve yoğun emek gerektiren bir süreçtir.

1.1. Büyük Veri Kavramı


Pandemi döneminde dijitalleşmenin hız kazanması ile birlikte birçok alandaki araştırmacıların sıklıkla
duyduğu kavramların başında büyük veri (big data) gelmektedir. Büyük veri kavramını açıklamadan önce
veri kavramını açıklamak gerekir. Türk Dil Kurumu’na göre veri kavramı bir araştırmada, bir tartışmada, bir
akıl yürütmede sonuca ulaşabilmek için gereken ilk bilgi olarak tanımlanmasının yanında dijital dünyada,
bilişimde olgu, kavram ya da komutların, iletişim, yorum ve işlem için elverişli biçimsel gösterimi olarak ifade
edilmektedir.

Verileri anlamak, değerlendirmek, farklı bakış açıları ile analiz edebilmek ve sonuçta beklenen hedefe veya
istenilen kararlara erişilebilmesi için, veriler dört grupta sınıflandırılmıştır. [1-2]

§ Veri parçası (data spot), analizlerde dikkate alınan erişilebilir verinin bir alt kümesi olarak gruplandırılır.

§ Erişilebilir veri (light data), her an kullanıma hazır ve erişilebilir olan veri grubudur.

§ Gri veri (gray data), erişemediğimiz ancak nitelikli varsayımlar yapabildiğimiz ve analiz ettiğimiz sistemin
bir parçası olan veri gruplarıdır.

§ Karanlık veri (dark data) ise, nitel veya nicel olup olmadığı anlaşılamayan, bilinmeyen veya
gruplandırılamayan veri grubudur. Bu veriler kısaca bilmediğimizin veya bilemediğimizin farkında bile
olamadığımız veri gruplarıdır.

about:blank 3/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Büyük veri ise; dijital ortamlardaki çalışmalardan, araştırmalardan, gözlemlerden, arama motorlarından,
forumlardan, sosyal medya hesaplarından ve diğer birçok kurumsal kaynaktan elde edilen verilerin anlamlı ve
işlenebilir hale getirilmiş veri biçimine denir. Tanım olarak büyük veri; “farklı ortamlardan hızlı bir şekilde
farklı formatlara sahip büyük hacimdeki veriyi üretmek” olarak adlandırılabilir. Yani büyük veri; “verinin
analiz edilip sınıflandırılmış, anlamlı ve işlenebilir hale dönüştürülmüş büyük hacimli halidir.”

Yakın zamana kadar veriler, elektronik tablolar veya veri tabanları ile sınırlıydı ve hepsi çok düzenliydi. Ancak
pandeminin de hız kattığı dijital çağın muazzam bir şekilde ilerleyişiyle birlikte artık veri kavramı çok
karmaşık bir yapıyı dönüşmesinin yanı sıra farklı formatlarda (fotoğraf, video, ses kaydı, yazılı metin ve sensör
verileri) ve büyük hacimlerde (terabyte, petabyte, ekzabyte, zetabyte) oluşmasından kaynaklı olarak da analiz
ve işlenmesinde ihtiyaç duyulan ekonomik yatırımlardan ötürü uzun süre sadece depolanmıştır. Fakat
teknolojiyi yakından takip eden işletmeler tüm bu karmaşıklığın çözülmesi için kendi yapıları altında büyük
veriye yatırım yapmak durumunda kalmışlardır.

Büyük veriye sahip kuruluşlar için bu kaynak eşsiz fırsatlar sunarken beraberinde de bu büyük hacmi
yönetebilmek için çeşitli sorunları da çözmeye itmektedir. Bu sorunların başında büyük verinin saklanması,
işlenmesi ve anlamlı bilgilere erişim için gerekli araçlara sahip olunması gelmektedir. Klasik işleme araçlarının
yetersiz kalmasının yanında, donanım kaynaklarının da geliştirilmesi ihtiyacı oluşmaktadır. Dolayısıyla bu
alanda istihdam edilecek uzman personel ihtiyacı ve yeni bir yatırım maliyeti de gerektirmektedir. Bu
gerekçelerden ötürü kuruluşlar verinin bir kısmından çeşitli örneklemler alarak ve klasik makine öğrenmesi
yöntemleri ile analiz etme yoluna gitmektedir. Fakat burada tüm örneklem uzayını temsil edecek gerçek
değerleri bulunmamaktadır. Bu problemin çözümü için gelişmiş analiz uygulamalarına ve büyük kuruluşlara
yatırım yaparak; gerçek veri analizini tümüyle daha hızlı, daha doğru ve daha kapsayıcı olarak
yapılabilmektedir.  

Şekil 1.’de görüldüğü üzere farklı ortamlardan gelen çok çeşitli bilgilerin toplandığı büyük veri ambarının
analizi, kuruluşların doğru kararlar almalarına ve stratejiler geliştirmelerine önemli katkılar sağlar. Her alanda
kendine yer bulan büyük verinin kullanım alanlarını sınırlamak da çok mümkün gözükmüyor.

Şekil 1.1. Büyük verinin yoğun bir şekilde elde edildiği alanlar

Kamu ve özel sektörde yer alan kurum ve kuruluşların elektronik ortamlarda kayıt altına aldığı verileri:

§ Elektronik ortamdaki davranışları (tıklama alışkanlıkları vb. yapılan tüm işlemler),

§ Gönderilen elektronik postalar,

§ Networkteki veri trafiği,

§ Haberleşme içerikleri (e-postalar, metinler, belgeler, videolar, sesler, resimler),

about:blank 4/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

§ Sistem günlükleri,

§ Arama sorguları, sosyal ağ etkileşimleri,

§ Sağlık kayıtları,

§ Bilimsel araştırma verileri,

§ Devlet ve özel sektöre ait kayıtları (abone ve vatandaşlık bilgileri, üretim ve pazarlama bilgileri vb.)

§ Kurumların abonelerine sağlamış olduğu akıllı şebeke verileri

her boyutuyla analiz etmek, bu verilerden anlamlı ve katma değerli örüntüleri çıkarmak büyük önem arz
etmektedir.

Yukarıda bahsi geçen veri ortamlarından 3 farklı yapıda veri elde edilmektedir:

1. Yapısal veri: Yapısal veri, analiz işlemlerinde modellenmesi, girdi olarak alınması, saklanması,
sorgulanması, işlenmesi ve görselleştirilmesi kolay olan tüm veri türlerini ifade etmektedir. Genel olarak,
belirli tür ve boyutlarda önceden tanımlı alanlarda sunulmakta, ilişkisel veri tabanlarında veya tablolarda
yönetilebilmektedir. Katı bir yapıya sahip olan bu veri türünde, süreçlerin yüksek performanslı yetenekler veya
paralel teknikler gerektirmemesinden dolayı faydalı bilgilerin elde edilmesi diğer veri türlerine kıyasla daha
kolaydır.

2. Yarı yapısal veri: Yarı yapısal veya kendi kendini açıklayan (self-describing) veri, yapısal bir veri türünü
yansıtmakla birlikte özünde sadece katı bir modeli barındırmamaktadır. Diğer bir ifadeyle yarı yapısal veri,
yapısallığın tanımlandığı modellerin yanı sıra belirli ögeleri ve verideki farklı alanların hiyerarşik bir
gösterimini tanımlamak adına kullanılan etiketler ve işaretler gibi çeşitli meta modelleri de bulundurmaktadır.
Yarı yapısal verinin en çok bilinen örnekleri arasında XML (Extensible Markup Language) ve JSON
(JavaScript Object Notation) programlama dilleri yer almaktadır.

3. Yapısal olmayan veri: Yapısal olmayan veri, tanımlı bir format haricinde sunulan ve depolanan kayıt
türleridir. Genellikle kitaplar, makaleler, belgeler, e-postalar gibi serbest formatlardaki metinlerden ve resim,
ses, video gibi medya dosyalarından oluşmaktadır. Bu türdeki verinin katı bir şekilde sunulmasının zor olması,
veri işleme süreçlerinde NoSQL (Not only SQL) gibi yeni mekanizmaların ortaya çıkmasına neden olmuştur
[1].

Bununla birlikte mobil teknolojilerinin yaygınlaşması ve Android cihazların her alanda kullanılmasının da
katkısıyla bu veriler çok yoğun bir trafik sağlamakta ve GSM ürün geliştiricileri için yapısal olmayan bir
büyük veri ortamı oluşturmaktadır (Şekil 1.2).

Şekil 1.2. Mobil teknolojilerin kullanım alanları.

about:blank 5/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

1.2. Büyük Veri Nerelerde Kullanılır


Günümüzde büyük verinin pek çok farklı alanda kullanımı mevcuttur. Ayrıca yeni kullanım alanları da her
geçen gün oluşmaktadır. Büyük verinin en çok kullanıldığı alanlardan bazıları aşağıda kısaca özetlenmiştir.

Müşteri Davranışları: Büyük verinin bugün en çok bilinen kullanım alanlarının başında müşteri davranışları
gelmektedir. Firmalar web sitelerini ve sosyal medya hesaplarını topladıkları veriler sayesinde analiz ederek
müşteri eğilimlerini belirleyerek ve bu eğilimlere göre yeni stratejiler geliştirmektedir. Yani firmalar uygun
müşteri kitlelerine ulaşmak için müşteri davranışlarını incelerler. Diğer bir deyişle, büyük veri müşteri
davranışlarını daha doğru tahmin etmeye yardım eder.

Örneğin, ABD merkezli perakende zinciri Target, müşterilerinin alışveriş ve arama sonuçlarını dikkate alarak
müşterilerin hamile olup olmadığını öğrenebiliyor ve buna uygun ürünleri reklam alanlarında göstererek hedef
kitleye ulaşmayı amaçlıyor. Benzer şekilde, araç sigorta şirketleri müşterilerinin ne derecede iyi bir sürücü
olduğunu, telekomünikasyon şirketleri müşterilerinin telefon kullanım alışkanlıklarını büyük veri analizi
sayesinde daha iyi biliyor ve müşterilerine farklı yaklaşımlarla ulaşmayı hedefliyorlar.

Lojistik ve İnsan Kaynakları: Büyük veri iş dünyasında da sıkça kullanılmaya başlamıştır. Perakende
şirketleri; sosyal medya verileri, arama motoru verileri ve hava tahmini raporlarına göre stoklarındaki malların
niteliğini ve niceliğini optimize etmektedirler. Yani bir ürüne ilgi bir anda patladıysa, insanlar Google’da “deli
gibi” o ürünü arıyorlarsa perakende şirketi envanterinde bulunan o ürünün miktarını artırma yoluna büyük veri
analizi sayesinde gitmektedir.

Tedarik zinciri ve ürün teslim rotasının optimize edilmesi de yine büyük veri analizi sonucunda
gerçekleşmektedir. Mevcut trafik durumuna göre coğrafik konum ve GPS sensörleriyle teslimat araçlarının en
kısa mesafeden hedefe ulaşmaları büyük veri analizi sayesinde olmaktadır.

İnsan kaynakları alanında büyük veriyi kullanan firmaların başında gelen Sociometric Solutions şirketinin
yaptığı büyük veri uygulamasında süreç şöyle işliyor: Şirkette çalışan personelin yakasına bir sensör
yerleştirilerek bu sensör sayesinde çalışanın gün içinde kaç kişiyle konuştuğunu, ne kadar yürüdüğünü, molada
ne kadar zaman geçirdiğini, günde kaç telefon görüşmesi yaptığını ve hatta konuşmalardaki ses tonunu dahi
kaydetmektedir. Bu sayede o çalışanın performansı ve psikolojisi hakkında bilgi toplanarak analiz
edilmektedir.

Ölçüm ve Performans Analizi: Büyük veri sadece şirketler ve devlet kurumları için değil; bireysel analizler
için de kullanılabilir. Giyilebilir akıllı cihazlardan toplanan veriler, insan sağlığı ile ilgili bilimsel
araştırmalarda kullanılmaktadır. Bireylerin harcadığı kalori miktarı, günlük yürüme mesafesi, uyku düzeni gibi
bilgiler milyonlarca kişiden toplandığı zaman bu konularda olumlu araştırmalar ve buna bağlı çözüm önerileri
ortaya çıkmaktadır.

Jawbone adlı şirketin Up adlı akıllı bilekliği her gece 60 yıllık uyku verisi toplamakta ve bu kadar veriden elde
edilen analizler kullanıcılara feedback olarak geri dönmektedir.

Sağlık: Modern bilgisayarların gelişmiş donanım kaynakları üzerinde analiz edilen büyük veri sayesinde tüm
DNA sarmallarını dakikalar için deşifre etmek mümkün hale gelmiştir. Elde edilen bilgiler neticesinde
hastalıklara yeni tedavi yöntemleri bulmayı ve hastalıkların nasıl bir seyir izleyeceğini anlamada kolaylık
sağlamaktadır. Akıllı saatler ve giyilebilir cihazlardan toplanan milyonlarca veriden elde edilecek büyük veri
düşünüldüğünde de elde edilen tıbbi numuneler sayılı insanlardan değil, milyonlarca insandan tedarik
edilmekte ve topluma genellenebilir çıktılar elde edilmektedir.

Apple’ın yeni sağlık uygulaması ResearchKit, cep telefonunu biyomedikal bir araştırma cihazına
dönüştürmüştür. Bilim insanları bu uygulama sayesinde topladıkları veriler aracılığı ile yeni çalışmalar
yürütebilmektedir. Buna benzer uygulamaların yaygınlaşmasıyla sürecin daha kolay ve daha hızlı işlemesi;
daha doğru sonuçların ortaya çıkmasına imkan sağlamaktadır.

Sporcu Performansı: Pek çok spor dalında büyük veri analizinden yararlanılmaktadır. Örneğin, IBM’in
SlamTracker uygulaması, tenis turnuvalarında kullanılmakta ve oyuncuların hareketleri video bazlı analiz
edilerek oyunu geliştirmek için antrenörlere bir rapor olarak sunulmaktadır. Benzer şekilde; golf topu ve
sopası, basketbol topu gibi farklı spor ekipmanlarına takılan sensörler de oyunculara ve antrenörlere
about:blank 6/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

kullanabilecekleri veriler sunmaktadır. Ayrıca atletlere ve sporculara takılan çipler sayesinde spor etkinliği
dışında da sporcular takip edilebilmekte; uyku ve beslenme alışkanlıkları izlenebilmektedir. Sporcuların sosyal
medya paylaşımları analiz edilerek psikolojik durumları tahlil edilebilmektedir.

Amerikan Futbolu Ligi NFL’de de takımlara karar verme aşamalarında destek sağlayan uygulamalar
kullanılmaktadır. Çim durumu, hava durumu, oyuncuların dönemlik performansları gibi veriler elde edilmekte,
böylece her takımın en iyi performansı sergilemesi olanağının yanında sakatlıkların önüne de geçilmektedir.

Araştırma-Geliştirme (AR-GE): Bilim, teknoloji, araştırma-geliştirme alanları büyük verinin sağladığı


imkanlardan yararlanan disiplinler arasında yer almaktadır. CERN’deki büyük hadron çarpıştırıcısı, evrenin
sırlarını çözmeyi amaçlamakta ve aynı zamanda akıl almaz boyutlarda veri üretmektedir.

CERN veri merkezinde 65.000 işlemci, 30 petabayt veriyi işlemek için 150 farklı veri merkezindeki
bilgisayarlardan yararlanmaktadır. Bu kadar devasa bir bilgisayar gücü bilimsel araştırmalarda çağ
atlatabilecek düzeyde donanım kaynağı sağlamaktadır.

Makine ve Cihaz Performans Optimizasyonu: Büyük veri analizi makine ve cihazların daha akıllı ve daha
otonom olmasına önemli katkılar sağlamaktadır. Örneğin, Toyota Prius içine entegre edilen kameralar, GPS
araçları ve sensörler sayesinde insan müdahalesi olmadan yol alabilmektedir. Ayrıca büyük veri araçları
sayesinde Google şirketi de kendi kendini sürebilen otomobil üretmeyi hedeflemektedir.

Xcel Energy, ABD’nin Colorado eyaletinde “akıllı şebeke” denemelerine başlamış durumdadır. Buna göre
evlere yerleştirilen sensörler sayesinde insanlar internet üzerinden günlük enerji, su, gaz kullanımlarını gerçek
zamanlı görebilmektedir. Buradan toplanan veriler de şirketlerin ve belediyelerin altyapı gereksinimleriyle
ilgili sağlam öngörülerde bulunmasına yardımcı olmaktadır.

Akıllı Şehircilik ve Belediyecilik: Büyük veri, şehir ve ülke altyapısı için kullanılmaktadır. Örneğin, sosyal
medya ve hava durumu bilgileriyle, trafik ışıklarının sürelerini ayarlamak ve trafiğin akışını optimize etmek
mümkün hale gelmiştir. Altyapı ve hizmetler arasında da büyük veri analizi aracılığıyla ilişki kurmak mümkün
olmuştur. Geciken trenden bilgi alan otobüsün yolcuları beklemesi buna örnek olarak verilebilir.

Kaliforniya’nın Long Beach kenti de sulama şebekesini akıllı sayaçlarla izleyerek illegal sulamaların önüne
geçilmiş olup bu yolla yılda %80’e varan su tasarrufu sağlanmıştır.

Finans: Finans sektöründe büyük veri, özellikle yüksek frekanslı alım satım alanında sıkça kullanılmaktadır.
Büyük veri algoritmaları alım-satım kararını vermede etkili bir şekilde kullanılmaktadır. Hisse senedi alım
satımları da sosyal medyadan ve haber sitelerinden toplanan verilerden istifade edilerek saniyeler içinde
gerçekleştirilebilmektedir.

Karmaşık algoritmalarıyla piyasaları tarayarak yatırım, alım-satım fırsatları aramak için kullanılan bilgisayarlar
insan müdahalesi olmadan müşterinin ihtiyaç ve isteklerine göre programlanabilmektedir.

1.3. Büyük Veri Bileşenleri


Büyük veri platformunun oluşumunda beş ana bileşen vardır. Bunlar; Şekil 1.3’te verildiği üzere variety,
velocity, volume, verification ve value 'dir. Genel olarak 5v diye açıklandığı için İngilizce karşılıklarına yer
verilmiştir [3].

about:blank 7/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 1.3. Büyük veride 5V bileşenleri.

Variety (Çeşitlilik): Üretilen verinin yüzde 80’i yapısal değildir ve her yeni üretilen teknoloji, farklı
formatlarda veri üretebilmektedir. Telefonlardan, tabletlerden, bütünleşik devrelerden gelen türlü çeşitlilikte
veri tipleri ile uğraşılması gerekmektedir. Bir de bu verilerin farklı dillerde, non-Unicode olabileceğini
düşünürseniz, bütünleşik olmaları, birbirlerine dönüşmeleri de gereklidir.

Velocity (Hız): Büyük verinin üretilme hızı çok yüksektir ve gittikçe artmaktadır. Daha hızlı üreyen veri, o
veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğurmaktadır.

Volume (Veri Büyüklüğü): International Data Corporation (IDC) istatistiklerine göre 2020’de ulaşılacak veri
miktarı, 2009’un 44 katı olacak. Kurumların veri arşivleme, işleme, bütünleştirme, saklama vb. teknolojilerinin
bu büyüklükte veri hacmi ile nasıl başa çıkacağının kurgulanması gerekmektedir. 2010'lu yıllarda dünyadaki
toplam bilişim harcamaları yılda %5 artarken üretilen veri miktarı sadece %40 artmaktaydı.

Verification (Doğrulama): Bilgi yoğunluğu içinde verinin akışı sırasında “güvenli” olması da bir diğer
bileşendir. Akış sırasında, verinin doğru akması ve istenilen güvenlik seviyesinde izlenmesi, doğru kişiler
tarafından görünmesi veya gizli kalması gerekebilir.

Value (Değer): En önemli bileşen ise değer yaratmasıdır. Belirtilen eforlarla tarif edilen büyük verinin, veri
üretim ve işleme katmanlarından sonra kurum için bir artı değer yaratması gerekmektedir. Karar veriş
süreçlerinize anlık olarak etki edebilmesi, doğru kararın verilebilmesi için kolay erişilebilir olması
gerekmektedir. Örneğin; sağlık konusunda stratejik kararlar alan bir devlet kurumu anlık olarak bölge, il, ilçe
vb. detaylarda hastalık, ilaç, doktor dağılımlarını görebilmelidir. Hava Kuvvetleri, bütün uçucu envanterindeki
taşıtlarının anlık yerlerini ve durumlarını görebilmeli, geriye dönük bakım tarihlerini izleyebilmelidir [4].

1.4. Büyük Veride Kaygılar


Büyük verinin getirdiği eşsiz fırsatlara paralel olarak aynı zamanda gerekli soruları da sormayı zorunlu
kılmaktadır:

Veri Güvenliği: Verilerin dijital ortamda tutulmasından kaynaklı ve içerisinde barındırdığı değerli bilgilerin
dışarıdaki art niyetli kişilerce ele geçirilmesi hususunda gerekli önemlerin alınması gerekmektedir.

Veri Gizliliği: Oluşturulan büyük veri, bireylerin özel birçok önemli bilgisini içermektedir. Giderek açığa
çıkarılan kişisel veri miktarı ile büyük veri tarafından desteklenen uygulamaların ve hizmetlerin sunduğu
imkanlar arasında bir denge kurulması gerekmektedir. Ayrıca veriyi toplayan kurum tarafından da verilerin
gizliliğinin sağlanması kötü amaçlı kullanılmaması önem arz etmektedir.

about:blank 8/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Veri Ayrımcılığı: Bireylerin yaşantılarında sahip oldukları mahrem verilere dayanarak insanlara karşı
ayrımcılık yapma olasılıklarının ortadan kaldırılması gerekmektedir. Örneğin, kişilerin banka kredisi
alabilmelerine karar vermek için kullanılan kredi puanlama ve sigorta işlemleri yoğun bir şekilde mahrem
veriye dayanmaktadır. Daha ayrıntılı analiz ve değerlendirme daha az kaynak veri ve bilgiye erişim ile
sağlanabilmelidir. Bu işlemlerin neticesinde bireylerin hayatlarını zor hale getirecek çıktılardan kaçınılması
ayrımcılık altında dikkat edilmesi gereken bir husustur [5].

Bu zorlukların üstesinden gelmek, büyük verinin önemli bir sorunudur. Veriden yararlanmak isteyen kuruluşlar
tarafından ele alındığı gibi yasalarla da denetlenmelidir. Bunu yapmamak, işletmeleri sadece itibarı açısından
değil, yasal ve mali açıdan da savunmasız bırakabilir.

Bölüm Özeti
Büyük veri kavramından önce veri kavramını anlamanın önemini ve verinin türlerini bilmek gerekmektedir.
Büyük veri; verinin analiz edilip sınıflandırılmış, anlamlı ve işlenebilir hale dönüştürülmüş büyük hacimli
halidir. Dijitalleşen dünyanın elektronik kayıtlarının artması ve çok çeşitli formatlarda veri elde edilmesinden
kaynaklı olarak verinin hem toplanması hem de saklanması için yatırıma ihtiyaç duyulmaktadır. Bu nedenle,
küçük işletmelerden ziyade büyük firmaların odak noktası haline gelmiştir. Bu büyük firmalar çok çeşitli
sektörlerde bulunmakla birlikte temel odak noktaları toplanan büyük veriler ile müşterilerine daha akılcı
çözümler ve ürünlerle ulaşmaktır. Bu sayede hizmet kalitelerini yükselterek ekonomik girdilerini
arttırmaktadırlar.

Büyük veri platformunun oluşumunda beş ana bileşen bulunmakla birlikte bunlar 5V (variety, velocity,
volume, verification ve value) olarak isimlendirilmektedir. Büyük verinin bu 5 bileşenine sahip kuruluşlar
avantajlarının yanı sıra bazı sorunları ve kaygıları da minimize etmek durumunda kalmaktadırlar. Bunlar; veri
güvenliği, veri gizliliği ve veri ayrımcılığıdır. Bu zorlukların üstesinden gelmek, büyük verinin önemli bir
zorunluluğudur. Bu zorunlulukları yerine getirmeyen işletmeler sadece itibar açısından değil, yasal ve mali
açıdan da olası zararlara karşı savunmasız kalabilir.

Kaynakça
[1] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O.,
Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.

[2] Lugmayr, A., Lugmayr, A., Stockleben, B., Stockleben, B., Scheib, C., Scheib, C., ... & Mailaparampil, M.
A. (2017). Cognitive big data: survey and review on big data research and its implications. What is really
“new” in big data?. Journal of Knowledge Management, 21(1), 197-212.

[3] Özgür, Ç. A. R. K., YILDIZ, İ., & KARADENİZ, A. T. (2019). Sanayi 4.0 Kapsamında İşletmeler
Açısından Büyük Veri. International Journal of Multidisciplinary Studies and Innovative Technologies, 3(2),
114-120.

[4] Wikipedia Official Website. (Son Erişim: 20.01.2022)

URL: https://tr.wikipedia.org/wiki/Büyük_veri

[5] Yeni İş Fikirleri Web Sitesi (Son Erişim: 20.01.2022)

URL:https://www.yeniisfikirleri.net/buyuk-veri-big-data-nerelerde-ve-nasil-kullaniliyor/

Ünite Soruları
Soru-1 :

Veri ile ilgili aşağıda verilen bilgilerden hangisi hatalıdır?


about:blank 9/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(Çoktan Seçmeli)

(A) Bir tartışmada sonuca ulaşmak için gerekli ilk bilgidir.

(B) Bilişimde komutların iletişim için elverişli biçimsel gösterimidir.

(C) Büyük ölçekli bilginin analiz edilmesine veri adı verilir.

(D) Büyük verinin en küçük yapıtaşıdır.

(E) Karanlık veri bir veri sınıfı olup anlaşılamayan veri gruplarını kapsamaktadır.

Cevap-1 :

Büyük ölçekli bilginin analiz edilmesine veri adı verilir.

Soru-2 :

Büyük Veri ile ilgili aşağıda verilen bilgilerden hangisi hatalıdır?

(Çoktan Seçmeli)

(A) Dijital ortamlardaki birçok farklı kaynaktan elde edilen büyük hacimdeki verilerin anlamlı ve işlenebilir
hale getirilmiş biçimine denir.

(B) Büyük veri aynı formattaki farklı veri gruplarının bir araya gelmesinden oluşmaktadır.

(C) Büyük ölçekli bilgilerin analiz edilerek anlamlı örüntülerin ortaya çıkması olarak ifade edilebilmektedir.

(D) Büyük veri TeraByte, PetaByte, EkzaByte veya ZetaByte şeklinde farklı hacimlerde bulunabilmektedir.

(E) Mobil teknolojilerin gelişmesi ve Android sistemlerin yayınlaşması ile önemli bir büyük veri toplama
ortamı ortaya çıkmıştır.

Cevap-2 :

Büyük veri aynı formattaki farklı veri gruplarının bir araya gelmesinden oluşmaktadır.

Soru-3 :

Aşağıdakilerden hangisi büyük verinin bileşenlerinden biri değildir?

(Çoktan Seçmeli)

(A) Çeşitlilik

(B) Değer

(C) Veri

(D) Hız

(E) Doğrulama

Cevap-3 :

Veri

about:blank 10/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Soru-4 :

Büyük verinin kullanımının pek çok alanda sağladığı avantajların yanı sıra bazı kaygılara da sebep
olduğu bilinmektedir. Verilen bilgilerden hangileri bu kaygılardandır?qq

I. Veri ayırımcılığı

II. Veri güvenliği

III. Veri büyüklüğü

IV. Veri gizliliği

(Çoktan Seçmeli)

(A)  I-II

(B)  II-IV

(C) I-II-III

(D) I-II-IV

(E) Hepsi

Cevap-4 :

I-II-IV

Soru-5 :

Genellikle kitaplar, makaleler, belgeler, e-postalar gibi serbest formatlardaki metinlerden ve resim, ses,
video gibi medya dosyalarından oluşan tanımlı bir format haricinde sunulan ve depolanan kayıt türü
aşağıdaki veri türlerinden hangisidir?

(Çoktan Seçmeli)

(A) Yapısal veri

(B) Yapısal olmayan veri

(C) Büyük veri

(D) Yarı yapısal veri

(E) Erişilebilir veri

Cevap-5 :

Yapısal olmayan veri

Soru-6 :

Erişemediğimiz ancak nitelikli varsayımlar yapabildiğimiz ve analiz ettiğimiz sistemin bir parçası olan
veri grupları aşağıdakilerden hangisidir?

(Çoktan Seçmeli)

about:blank 11/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(A) Erişilebilir veri

(B) Yapısal veri

(C) Yapısal olmayan veri

(D) Gri veri

(E) Karanlık veri

Cevap-6 :

Gri veri

Soru-7 :

Aşağıdakilerden hangileri büyük verinin yoğun bir şekilde elde edildiği alanlardandır?qq

I. Sağlık teknolojileri

II. Akıllı binalar

III. Üretim-pazarlama

IV. Altyapı

V. Ulaşım

(Çoktan Seçmeli)

(A) I-II-V

(B) II-III-IV

(C) I-II-III

(D) I-II-IV

(E) Hepsi

Cevap-7 :

Hepsi

Soru-8 :

Bir araç sigorta şirketinin müşterilerinin iyi bir sürücü olup olmadığını büyük veri analizi sayesinde daha iyi
biliyor ve müşterilerine farklı yaklaşımlarla ulaşmayı hedefliyorlar. Bu durum büyük verinin aşağıdaki
kullanımlarından hangisi için bir örnektir?

(Çoktan Seçmeli)

(A) Lojistik ve İnsan Kaynakları

(B) Ölçüm ve Performans Analizi

(C) Makine ve Cihaz Performans Optimizasyonu

(D) Müşteri Davranışları


about:blank 12/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(E) Araştırma-Geliştirme

Cevap-8 :

Müşteri Davranışları

Soru-9 :

'Bilgi yoğunluğu içinde verinin akışı sırasında güvenli olması’ büyük veri platfomundaki hangi bileşenle
ilgilidir?

(Çoktan Seçmeli)

(A) Variety

(B) Velocity

(C) Volume

(D) Verification

(E) Value

Cevap-9 :

Verification

Soru-10 :

Büyük veri için farklı formatlarda veriler toplanmaktadır. Aşağıdakilerden hangileri bu formatlardandır?

I. Ses kaydı

II. Video,

III. Sensör verileri

IV. Yazılı metin

V. Fotoğraf

(Çoktan Seçmeli)

(A) I-III

(B) II-IV-V

(C) I-II-V

(D) I-II-IV

(E) Hepsi

Cevap-10 :

Hepsi

about:blank 13/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

2. BÜYÜK VERİNİN TARİHSEL GELİŞİMİ


Birlikte Düşünelim
1.    Büyük verinin tarihsel gelişiminde sizce dönüm noktası ne olmuştur?

2.    Büyük veri hangi türlerde olabilir, nasıl kategorize edilebilir?

3.    Hangi hacimdeki veriler büyük veri sayılır?

4.    Büyük verinin geleceğinde sıradaki adım ne olabilir?

5.    SMART kavramı sizlere neyi çağrıştırmaktadır?

Başlamadan Önce
Büyük veri ilk olarak veri kavramından doğmuştur. Gelişiminde; kapsamlı veri, büyük veri ve son olarak
SMART veri olarak isimlendirilmiş olup veriden istatistiksel olarak anlamlı sonuçlar çıkarmayla gelişimine
başlamıştır. 

Büyük veri kümeleri, ilk olarak 1600'lü yıllarda veriden istatistik yöntemler ile anlamlı sonuçlar çıkarmaya
dayanmaktadır. 1960-1970'li yıllarda ortaya çıkan bilgisayarlar ile ilk veri merkezleri ve veri tabanlarının
geliştirilmesiyle birlikte veri dünyası günümüzde bilinen halini almaya başlamıştır.

Büyük verinin bir sonraki adımı sınıf bilişim ifadesidir.

2.1. Büyük Verinin Tarihi


Büyük veri kavramı nispeten yeni olsa da büyük veri kümelerinin kökenleri, ilk olarak 1600'lü yıllarda veriden
istatistik yöntemler ile anlamlı sonuçlar çıkarmaya dayanmaktadır. 1960-1970'li yıllarda ortaya çıkan
bilgisayarlar ile ilk veri merkezleri ve veri tabanlarının geliştirilmesiyle birlikte veri dünyası günümüzde
bilinen halini almaya başlamıştır.

IBM’in 1956 yılında üretmiş olduğu bilgisayarın sadece 5 MB hard diski bulunuyordu ve bu hard disk Şekil
2.1.’de görüldüğü üzere forklift yardımıyla taşınabiliyordu. Bugün ise 5 TB hard diski cebe sığacak küçüklükte
bulunmakla birlikte cep telefonlarının ve kişisel bilgisayarların internete bağlanması ile sınırsız denebilecek
büyük veriye erişim imkanı doğmuştur.

about:blank 14/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 2.1. IMB’in 5MB kapasiteli bilgisayarı.

1960’lı yıllarda insanlık ilk kez kendi dünyasının dışına çıkmış aya ayak basmıştır. O gün aya yollanmış olan
Apollo uzay mekiğinin bilgisayarı tam 32 kiloydu ve bu bilgisayar sadece 1 mhz işlemciye 2 kb hafızaya
sahipti. Bugün boş bir word dosyasına isminizi soy ismini yazıp kaydettiğinizde 10 kb’tan fazla yer
kaplamaktadır. Bunun en önemli nedenlerinin başında depolama alanlarımızın büyümesi ve bilgisayar
kaynaklarının gelişmesi gelmektedir. Buna paralel olarak toplanan veri miktarı artmış ve farklı kavramlar
olarak karşımıza çıkmıştır. Şekil 2.2’de görüldüğü gibi büyük veri gelişim yolculuğunda farklı kavramlarla
isimlendirilmiştir.

Şekil 2.2. Büyük verinin gelişimi.

SMART veri (self-monitoring, analysis and reporting technology / kendini izleme, analiz ve raporlama
teknolojisi) ile büyük veriyi analiz etmek ve raporlayabilmek büyük verinin tarihsel gelişiminde önemli bir
dönüm noktası olmuştur.

Verinin ilk olarak duran veri formunda elde edilmesi ile başlayıp sırasıyla bağlı veriler, zaman serileri ve
akışkan verileri olarak Şekil 2.3’de görülen farklı veri türleri olarak tarihsel gelişiminde karşımıza çıkmaktadır.

about:blank 15/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 2.3. Büyük verinin türleri.

Başta Facebook, YouTube gibi sosyal medya platformları ve diğer çevrimiçi hizmetler yoluyla kullanıcıların
ürettiği veriler gözlemlenmeye ve anlaşılmaya başlandı. Aynı zamanda büyük veri kümelerini depolamak ve
analiz etmek için oluşturulan açık kaynaklı bir sistem olan Hadoop uygulaması geliştirildi. Buna paralel olarak
da bir veri tabanı uygulaması olan NoSQL de popülerlik kazanmaya başladı. Hadoop vb. açık kaynaklı
sistemlerin geliştirilmesi sayesinde büyük verilerin gelişimi ve bu veri üzerinde daha ucuz ve daha hızlı
geliştirilen sistemler, büyük verilerin koordineli şekilde çalışmasını ve depolanmasını mümkün hale getirmiştir.
Tarihsel gelişiminde üstel olarak artan veri miktarını işleyecek bilgisayar kaynakları da bunu gelişimi
tetiklemiştir. Kullanıcılar hala çok büyük miktarlarda veri oluşturmaya devam ediyor ancak veri oluşturma
işlemini yalnızca insanların yaptığını düşünmek bizleri büyük bir yanılgıya düşürebilir.

İnternet altyapısının gelişmesi ve 5G teknolojilerinin ortaya çıkması ile Nesnelerin İnterneti (IoT) kavramı
doğmuştur. Nesnelerin İnterneti (IoT) ile müşteri kullanım şekilleri ve ürün performansı hakkında veri
toplanması yoluyla internete daha fazla nesne ve cihaz bağlanır duruma gelmiştir. Bunun yanında yapay zeka
kavramının temelinde yer alan örneklerden öğrenme işlemi için gerekli verilerin ortamlardan sürekli
toplanması ile kaliteli veri hacmi artmıştır.

Bulut bilişim teknolojilerinin artması, uygun depolama ortamlarının büyük firmalar tarafından tesisi ile birçok
kurum ve kuruluşun büyük verilerini bu ortamlara taşımalarına olanak sağlayarak hacimde artışa neden
olmuşlardır. Bulut bilişim ortamı, geliştiricilerin bir veri kümesini test etmek için geçici kümeleri kolayca
işleme sokabilecekleri oldukça esnek ölçeklenebilirlik sunan bir platform olarak karşımıza çıkmaktadır.

Büyük veri, son yıllarda iş dünyasında devrim yaratan teknolojilerin başında gelmektedir. Büyük veriyi;
şirketlerin makine öğrenimi, tahmine dayalı modelleme ve diğer gelişmiş veri analitiği uygulamaları
aracılığıyla iş maksatlı kullanabilecekleri bilgi koleksiyonu olarak görmeleri bu konuya ilgiyi arttırmıştır. Şekil
2.4’te görüldüğü üzere toplanan veriden anlamlı sonuçlar çıkarıldıkça şirketler bu sonuçlar üzerine önemli
stratejiler geliştirmiş, kurumları için ekonomik girdilere ve karar alma süreçlerine yansıtmaya başlamıştır. Bu
süreçleri gören diğer kurum/kuruluşlar da bunun üzerine yönelmişlerdir. Dolayısıyla enformasyon oranları
artarak içerik zenginleşmiş, veriyi anlama ve veriden anlamlı bilgi çıkarımı artmıştır.

Şekil 2.4. Bilgi piramidi [1,2]


about:blank 16/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

2.2. Büyük Verinin Gelişiminde Önemli Tarihler


Bugün bildiğimiz anlamda gelişmiş büyük veri analitiğine yol açan veri analizinin tarihi 17. yüzyıl Londra’sına
kadar uzanıyor. Şimdi kronolojik sırayla büyük verinin tarihine yakından bakalım:

a. Veri kavramının doğuşu [3]:

1663: İngiltere'de meydana gelen kara ölüm olarak da bilinen hıyarcıklı veba salgını ile ilgili Londralı bilim
insanı John Graunt’in sunduğu istatistiksel veri analizi, büyük veri için milat olarak kabul edilir. Yaptığı
çalışma ile ölüm nedenlerini sistematik olarak ölçmeye çalışan Graunt, ölüm oranlarını ve bunların
varyasyonlarını kaydettiği ilk halk sağlığı kayıtları koleksiyonunu 1663’te yayınladı.

1865: Yazar Richard Millar Devens "Cyclopædia of Commercial and Business Anecdotes" adlı kitabında
“Business Intelligence” yani “İş Zekası” terimini ilk kez kullanır. Devens kitabında bir bankacının kar elde
etmek için çevresinden gelen bilgileri nasıl kullandığını anlatmıştır. Bugün bildiğimiz anlamıyla, verileri analiz
etme ve ardından eyleme dönüştürülebilir bilgiler sunmak için kullanma süreci olan iş zekasının 1960-85
yılları arasında gelişen karar destek sistemlerinden (DSS: Decision Support Systems) geliştirildiği söylenebilir.

1884: Dr. Herman Hollerith, veri işlemenin başlangıcı olarak kabul gören delikli kartı kullanarak istatistik
verilerinin daha hızlı bir biçimde değerlendirilmesini mümkün kılan makine ve sistemi icat eder. Hollerith’in
geliştirdiği sistem 1890'da ABD'nin nüfus sayımı verilerini işlemek için kullanıldı. 1911'de Dr. Herman
Hollerith, sonrasında ismi IBM olacak olan Computing-Tabulating-Recording şirketini kurdu.

1990: Hubble Teleskobu, 1990 yılında uzaya fırlatılmış olup yaklaşık 4 metre büyüklüğünde bir uzay
teleskobudur. Yaklaşık olarak bir evin odası büyüklüğünde olan bu teleskop, fırlatıldığı tarihten itibaren sadece
bir yıl içerisinde insanlık tarihi boyunca üretilen veriden daha fazla veri üretilmiştir. Yaklaşık 30 yıldır insanlık
için veri üreten Hubble teleskobunun veri birikiminin büyük veri örneklerinden en değerli bilgileri içeren bir
örneği olarak görülmektedir.

1926: Tesla, 1926 yılında teknolojinin geleceğini yorumladığı röportajında, insanların bir gün "yelek cebinde"
taşınabilen bir cihaz aracılığıyla büyük miktarda veriye erişebileceklerini öngörür. Tesla, bu değerlendirmeyi
kablosuz teknolojinin parçacıkları değiştireceği konusundaki anlayışına dayanarak tahmin etmiş ve bu konuda
şu yorumu yapmıştır: "Kablosuz teknolojiyle tüm dünya devasa bir beyne dönüşecek ve mesafeden bağımsız
olarak birbirimizle anında iletişim kurabileceğiz.”

1928: Alman mühendis Fritz Pfleumer, 1928 yılında çelik tel yerine üzeri demir oksit tanecikleri kaplı kağıt
şeride çok daha kaliteli ses kaydı yapmayı başardı. Daha sonra da ünlü Alman firması AEG’nin desteğiyle
kağıt yerine ince plastik şerit kullanarak daha pratik ve kaliteli manyetik kayıtlar geliştirdi.

1943: İngiltere’de İkinci Dünya Savaşı sırasında düşmanın gizli haberleşme kodlarını çözmek için teorik bir
bilgisayar ve ilk veri işleme makinelerinden biri icat edildi. Bletchley Park’taki kod çözme merkezinde
faaliyete geçen ilk büyük ölçekli elektronik bilgisayar olan Colossus, büyük hacimli verileri analiz etmek için
kullanıldı.

1959: IBM programcısı ve yapay zeka biliminin öncüsü Arthur Samuel, 1952'de "Makine Öğrenimi" terimini
ortaya attı.

1965: ABD, milyonlarca vergi beyannamesi ve parmak izini manyetik bantta saklamak için ilk veri
merkezlerini inşa etmeye başladı.

1969: Dağıtık kontrol ve TCI/IP protokollerini içeren ilk geniş alan ağı olan Advanced Research Projects
Agency Network (ARPANET) kuruldu. Bu, günümüz internetinin temelinin atılması anlamına geliyordu.

b. İnternet çağı: büyük verinin şafağı [3]

Bilgisayarlar, internet sayesinde katlanarak daha yüksek oranlarda bilgi paylaşmaya başladıkça, büyük verinin
gelişimindeki bir sonraki aşama da şekillenmeye başladı.

1989 ve 1990: Tim Berners - Lee ve Robert Cailliau, World Wide Web, HTML, URL ve HTTP protokolünü
geliştirdiler. Böylece verilere yaygın ve kolay erişim ile internet çağı başlamış oldu.
about:blank 17/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

1996: Dijital veri depolama, ilk kez kağıda bilgi depolamaktan daha uygun maliyetli hale geldi. Bu bilgi R. J.
T. Morris ve B.J. Truskowski’in 2003 yılında IBM Systems Journal’da yer alan "Depolama Sistemlerinin
Evrimi" makalesinde yer aldı.

1997: Google, bugün kullandığı alan adını 15 Eylül 1997'de etkinleştirdi ve 4 Eylül 1998'de Google şirketi
resmen kuruldu. Arama motoru devrimi ile makine öğrenimi, büyük veri ve analitik teknolojiler de dahil olmak
üzere çok sayıda diğer teknolojik yeniliğin geliştirilmesine başlanmadan bir yıl önce “Google.com”
tescillenmiş oldu.

1998: “NoSQL” sözcüğü ilk defa Carlo Strozzi tarafından 1998 yılında kullanıldı. Geliştirdiği ilişkisel veri
tabanının sorgulama dili olarak SQL’i kullanmadığını belirtmek isteyen Strozzi, açık kaynak kodlu veri tabanı
için “NoSQL DB” ‘ismini kullandı.

1999: İlk baskısı 2000 yılında yayımlanan Hal R. Varian ve Peter Lyman'ın “How Much Information” isimli
kitabı 1999'daki verilere dayanarak, bugüne kadar dünyada mevcut olan dijital bilgi miktarını belirlemeye
çalıştı.

c. 21. yüzyılda büyük veri [3]

Bugün bildiğimiz anlamıyla büyük veri teknolojisi 2000 yılının başı itibarıyla hayatımıza girmeye başladı ve
dokunduğu tüm endüstrileri etkileyerek dijital dünyada yeni bir dönemin kapısını açtı.

2001: Bilgi teknolojileri firması Gartner'dan Doug Laney, 3V'yi (hacim, çeşitlilik ve hız) kullanarak büyük
verinin boyutlarını ve özelliklerini tanımladı. Büyük verinin ne anlama geldiğini çok iyi özetleyen bu tanım, bu
teknolojinin 21. yy için ne kadar önemli olduğunu da ortaya koymuştur. Bu açıklamanın ardından doğruluk,
değer ve değişkenlik gibi alt özellikler de büyük veri tanımına eklenmiştir.

2005: Bilgisayar bilimcileri Doug Cutting ve Mike Cafarella, Yahoo'dan ayrılan mühendislerden oluşan bir
ekip ile büyük veri kümelerini depolamak ve işlemek için kullanılan açık kaynaklı yazılım araçları koleksiyonu
Apache Hadoop'u (Şekil 2.5) geliştirdi.

Şekil 2.5. Günümüzde en popüler büyük veri uygulamalarından Apache Hadoop.

2006: Amazon Web Services (AWS), bulut bilişim olarak bilinen web tabanlı bilgi işlem altyapısı hizmetleri
sunmaya başladı. Şu anda AWS, küresel pazar payının yaklaşık üçte biri ile bulut hizmetleri sektörünün
hakimidir.

2008: Dünyadaki tüm CPU'ların, kişi başına yaklaşık 12 gigabayta eşit olan 9,57 zettabayttan (veya 9,57
trilyon gigabayt) fazla veri işlediği açıklandı. Küresel olarak yeni bilgi üretimi tahmini olarak 14,7 eksabayt
büyüklüğündedir.

2009: Gartner, iş zekasının CIO'lar için en önemli öncelik olduğunu açıkladı. Büyük Durgunluk nedeniyle bir
ekonomik dalgalanma ve belirsizlik dönemiyle karşı karşıya kalan şirketler için artık veriden değer yaratmak
vazgeçilmez hale gelmeye başladı.

2011: McKinsey, 2018 yılına kadar ABD'nin analitik yetenek sıkıntısı ile karşı karşıya kalacağını açıkladı.
Buna göre söz konusu tarihe kadar ABD’nin derin analitik becerilere sahip 140 bin - 190 bin kişiye ve doğru
veriye dayalı kararlar alma becerisine sahip 1,5 milyon analist ve yöneticiye ihtiyacı olacaktı.

about:blank 18/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Ayrıca Facebook, enerji açısından verimli veri merkezleri için teknik özellikleri paylaşmak üzere Open
Compute Project’i başlattı. Girişimin hedefi, maliyetleri %24 düşürüp, enerji verimliliğinde %38 artış
sağlamaktı.

2012: ABD, ulusal güvenlik ve öğrenme dönüşümü vizyonu kapsamında veriden değerli iç görüler elde etme
ve STEM uygulamalarının büyümesini hızlandırmak için 200 milyon dolarlık bir taahhütle Büyük Veri
Araştırma ve Geliştirme Girişimi'ni duyurdu. STEM’e o dönemde sanatı temsilen “A” harfi eklendi ve
STEAM oldu.

Harvard Business Review, veri bilimci mesleğini 21. yüzyılın en arz edilen mesleği ilan etti. Daha fazla şirket,
yapılandırılmamış verileri sıralama ve bunlardan iç görü elde etme ihtiyacını anladıkça, veri bilimcilere olan
talep de arttı.

2013: Büyük verinin global pazar hacmi 10 milyar dolara ulaştı.

2014: ABD'de masaüstü bilgisayarlardan daha fazla mobilden internete erişim sağlandığı verisi ilk kez rapor
edildi. Dünyanın geri kalanı takip eden 2 yıl içinde ABD’yi bu konuda yakaladı.

2016: Dünyadaki verilerin yüzde doksanının yalnızca son iki yılda oluşturulduğu açıklandı. IBM, her gün 2,5
kentilyon bayt veri oluşturulduğunu bildirdi.

2017: IDC, büyük veri analizi pazarının 2020'de 203 milyar dolara ulaşacağını tahmin etti.

2020: Allied Market Research, büyük veri ve iş analitiği pazarının 2019'da 193,14 milyar dolara ulaştığını ve
yıllık %10,9'luk bileşik büyüme oranında 2027'ye kadar 420,98 milyar dolara çıkacağını tahmin etti.

Teknoloji çok hızlı gelişiyor. 2020 yılına geldiğimizde dünya üzerinde yaşamını sürdüren her bir insan
saniyede ortalama 1.7 megabayt veri üretmektedir. Dünya nüfusu ile düşünüldüğünde ve bireyin yaşam süresi
dikkate alındığında toplanan verinin boyutu oldukça büyük hacimdedir.

d. Büyük verinin geleceği: büyük veride sıradaki adım ne?

Hızlı, neredeyse gerçek zamanlı analiz ve yanıt sağlamak için verilerin oluşturuldukları yere yakın bir şekilde
işlenmesi, analiz edilmesi ve depolanması anlamına gelen sınır bilişim, büyük verinin bir adım sonrasını ifade
ediyor. Bu kavram önümüzdeki yıllarda çok daha fazla karşımıza çıkması beklenmektedir. Bağlı cihazların her
geçen gün artması, buluta artan bağımlılığımız ve yaklaşan uç bilgi işlem devrimi nedeniyle, büyük veri odaklı
atılması gereken çok fazla adım bulunmaktadır.

Örneğin, makine öğrenimi, yapay zeka ve IoT analitiği gibi teknolojiler; verileri işleme, analiz etme ve bunlara
göre hareket etme becerimizi büyük ölçüde geliştirerek sınırları zorlamaya devam ediyor. Büyük veri ve
analitikte önemli gelişmelerin çok kısa süre içinde hayatımıza gireceği bir gerçektir.

Her ne kadar geleneksel sistemlerle büyük veri kullanmaya başlamış olsak da asıl büyümeyi yakalayabilmiş
değiliz. Gelecek 10 yıl içerisinde asıl devrimin yaşanması öngörülmektedir. İnternet’e bağlanabilen nesnelerin
kullanımının artmasıyla birlikte, anında nerede sorun olduğu bildirilecek ve böylece büyük miktarda veriler de
ortaya çıkacaktır. Bundan dolayı elimizdeki veri miktarında gelecek yıllarda büyük bir sıçrama beklenmektedir.
IDC verilerine göre 2025 yılında 163 zetabayt olacağı tahmin edilmektedir.

about:blank 19/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 2.6. Dünyada dijital verinin yıllar itibarıyla artışı (Kaynak: International Data Corporation (IDC), 2017).

Nicola Tesla’nın “Gelecekte insanlar cebine sığabilecek kadar küçük bir cihazla, uçsuz bucaksız miktardaki
veriye ulaşabilecek ve analiz edebilecekler.” sözleri bulut bilişim sistemleri ve arama motorları sayesinde
günümüzde mümkün hale gelmiş olup gelecekle ilgili bizlerin neleri beklediği ise tam bir muammadır.

Bölüm Özeti
Büyük veri kavramının miladı, İngiltere'de meydana gelen kara ölüm olarak da bilinen hıyarcıklı veba salgını
ile ilgili Londralı bilim insanı John Graunt’in sunduğu istatistiksel veri analizidir. Ardından 1865’te Yazar
Richard Millar Devens’in "Cyclopædia of Commercial and Business Anecdotes" adlı kitabında “Business
Intelligence” yani “İş Zekası” terimi ilk kez kullanılır.

1960-1970'li yıllarda ortaya çıkan bilgisayarlar ile ilk veri merkezleri ve veri tabanlarının geliştirilmesiyle
birlikte veri dünyası günümüzde bilinen halini almaya başlamıştır. 1956 yılında IBM tarafından üretilen
bilgisayar 5 MB hard diske sahipti ve forklift yardımıyla taşınabiliyordu. Günümüzde 5 TB büyüklüğe sahip
hard diski cepte taşımak mümkün hale gelmiştir.

 ‘Google’ bugün kullandığı alan adını 15 Eylül 1997'de etkinleştirdi ve 4 Eylül 1998'de Google şirketi resmen
kuruldu. “NoSQL” sözcüğü ilk defa Carlo Strozzi tarafından 1998 yılında kullanıldı.

Büyük verinin zaman içerisindeki gelişimi; veri, kapsamlı veri, büyük veri ve smart veri şeklinde olmuştur. Bu
gelişimi farklı veri türleri ile şu şekilde yapmak mümkündür; duran veri, bağlı veriler, zaman serileri, akışkan
veriler.

Çeşitli sosyal medya platformları (Facebook, YouTube gibi) ve diğer çevrimiçi hizmetler yoluyla kullanıcıların
ürettiği veriler gözlemlenmeye ve anlaşılmaya başlandı. Bu büyük veri kümelerini depolamak ve analiz etmek
için oluşturulan açık kaynaklı bir sistem olan Hadoop uygulaması geliştirildi. Aynı zamanda bir veri tabanı
uygulaması olan NoSQL kullanımı da yaygınlaştı.

İnternet altyapısının gelişmesi ve 5G teknolojilerinin ortaya çıkması ile Nesnelerin İnterneti (IoT) kavramı
doğmuştur. Nesnelerin İnterneti (IoT) ile müşteri kullanım şekilleri ve ürün performansı hakkında veri
toplanması yoluyla internete daha fazla nesne ve cihaz bağlanır duruma gelmiştir.

2020 yılında Allied Market Research, büyük veri ve iş analitiği pazarının 2019'da 193,14 milyar dolara
ulaştığını ve yıllık %10,9'luk bileşik büyüme oranında 2027'ye kadar 420,98 milyar dolara çıkacağını tahmin
etmiştir.

Büyük verinin bir adım sonrası olan sınıf bilişim ifadesi; hızlı, neredeyse gerçek zamanlı analiz ve yanıt
sağlamak için verilerin oluşturuldukları yere yakın bir şekilde işlenmesi, analiz edilmesi ve depolanması
anlamına gelmektedir.

about:blank 20/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Kaynakça
[1] Yüzer V. and Okur MR. “Temel Bilgi Teknolojileri-I”, T.C. Anadolu Üniversitesi, Açıköğretim Fakültesi
Yayını No:2071, 2015.

[2] Ahsan, S., & Shah, A. (2006). Data, information, knowledge, wisdom: A doubly linked chain. In the
proceedings of the 2006 international conference on information knowledge engineering (s. 270–278).

[3] Innova- Web Sitesi, “Büyük verinin kısa tarihçesi”, (Son Erişim:20.01.2022)

URL: https://www.innova.com.tr/tr/blog/buyuk-veri-blog/buyuk-verinin-kisa-tarihcesi

Ünite Soruları
Soru-1 :

 I. Kapsamlı Veri

II. Büyük Veri

III. Veri

IV. Smart Veri

Büyük veri gelişim yolculuğunda farklı kavramlarla isimlendirilmiştir. Bu kavramların tarihsel olarak
geçmişten günümüze doğru olarak sıralaması nasıl olmalıdır?

(Çoktan Seçmeli)

(A) I-II-III-IV

(B) I-IV-III-II

(C) III-I-II-IV

(D) II-I-III-IV

(E) III-I-IV-II

Cevap-1 :

III-I-II-IV

Soru-2 :

Tarihsel gelişime göre farklı veri türleri vardır. Aşağıdakilerden hangisi bu tarihsel gelişim sürecindeki
sıralamada yer almaz?

(Çoktan Seçmeli)

(A) Akışkan veriler

(B) Sayı matrisleri

(C) Zaman serileri


about:blank 21/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(D) Duran veri

(E) Bağlı veriler

Cevap-2 :

Sayı matrisleri

Soru-3 :

1663 yılında İngiltere'de meydana gelen kara ölüm olarak da bilinen hıyarcıklı veba salgını ile ilgili
büyük veri için milat olarak kabul edilen istatistiksel veri analizi yöntemini sunan Londralı bilim insanı
kimdir?

(Çoktan Seçmeli)

(A) John Graunt

(B) Carlo Strozzi

(C) Doug Cutting

(D) B.J. Truskowski

(E) Richard Millar Devens

Cevap-3 :

John Graunt

Soru-4 :

Arama motoru devrimi ile makine öğrenimi, büyük veri ve analitik teknolojiler de dahil olmak üzere
çok sayıda diğer teknolojik yeniliğin geliştirilmesine başlanmadan bir yıl önce “Google.com” tescillenmiş
oldu. Google, bugün kullandığı alan adını kaç yılında almıştır?

(Çoktan Seçmeli)

(A) 2001

(B) 1989

(C) 1990

(D) 1997

(E) 1969

Cevap-4 :

1997

Soru-5 :

2001 yılında bilgi teknolojileri firması Gartner'dan Doug Laney, 3V'yi kullanarak büyük verinin
boyutlarını ve özelliklerini tanımladı. 3V aşağıdakiler terimlerden hangilerini ifade etmektedir?

about:blank 22/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(Çoktan Seçmeli)

(A) Hacim, Sabitlik ve Hız

(B) Hacim, Çeşitlilik ve Hız

(C) Veri, Verimlilik ve Güvenlik

(D) Veri, Hız ve Çeşitlilik

(E) Çokluk, Çeşitlilik ve Ulaşılabilirlik

Cevap-5 :

Hacim, Çeşitlilik ve Hız

Soru-6 :

Makine Öğrenimi kavramı IBM programcısı ve yapay zeka biliminin öncüsü Arthur Samuel tarafından
ilk kez kaç yılında ortaya atılmıştır?

(Çoktan Seçmeli)

(A) 1950

(B) 1960

(C) 2000

(D) 1851

(E) 1959

Cevap-6 :

1959

Soru-7 :

Hızlı, neredeyse gerçek zamanlı analiz ve yanıt sağlamak için verilerin oluşturuldukları yere yakın bir
şekilde işlenmesi, analiz edilmesi ve depolanması anlamına gelen ifade aşağıdakilerden hangisidir?

(Çoktan Seçmeli)

(A) Sınır Bilişim

(B) Akışkan Veri

(C) Büyük Veri

(D) SMART Veri

(E) Enformasyon

Cevap-7 :

Sınır Bilişim

about:blank 23/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Soru-8 :

Bilgisayar bilimcileri Doug Cutting ve Mike Cafarella tarafından geliştirilen büyük veri kümelerini
depolamak ve işlemek için kullanılan açık kaynaklı yazılım araçları koleksiyonu nedir?

(Çoktan Seçmeli)

(A) Sınır Bilişim

(B) NoSQL DB

(C) Apache Hadoop

(D) STEAM

(E) SMART veri

Cevap-8 :

Apache Hadoop

Soru-9 :

1865 yılında "Cyclopædia of Commercial and Business Anecdotes" adlı kitabında “Business
Intelligence” yani “İş Zekası” terimini ilk kullanan yazar kimdir?

(Çoktan Seçmeli)

(A) Tesla

(B) R. J. T. Morris

(C) Mike Cafarella

(D) John Graunt

(E) Richard Millar Devens

Cevap-9 :

Richard Millar Devens

Soru-10 :

Kendini izleme, analiz ve raporlama teknolojisi olarak bilinen, büyük veriyi analiz etmek ve
raporlayabilmek için büyük verinin tarihsel gelişiminde önemli bir dönüm noktası olan veri türünün adı
nedir?

(Çoktan Seçmeli)

(A) SCAR veri

(B) Büyük veri

(C) STEAM

(D) SMART veri

about:blank 24/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(E) Kapsamlı veri

Cevap-10 :

SMART veri

about:blank 25/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

3. BÜYÜK VERİ MAHREMİYETİ


Birlikte Düşünelim
1.    Büyük verinin mahremiyeti neden önemlidir?

2.    Büyük veriyi nasıl koruyabiliriz?

3.    Büyük veriyi tehdit eden durumlar nelerdir?

4.    Mahremiyet konusunda hangi politikalar yürütülebilir?

Başlamadan Önce
Veri mahremiyeti tanımının doğru yapılması kişi, kurum ve kuruluşlarca bu kavramın önemini anlamaya
yardımcı olacaktır. Başka kavramlarla karışmaması için birçok farklı veri mahremiyeti tanımı yapılmıştır.

Büyük verinin geniş kitlelere mahremiyetin korunarak ulaştırılabilmesi için farklı politikalar vardır.
Mahremiyetin korunmasını gerektiren 3 tip veri grubu mevcuttur.

Mahremiyetteki ihlallerin en aza indirmek oldukça önemlidir. Bunun sağlanması için k-Anonimlik, ℓ-
Çeşitlilik, t-Yakınlık, δ-Mevcudiyet, Mondrian, Yukarıdan-Aşağıya Özelleştirme, Yukarıdan-Aşağıya
Özelleştirme gibi koruma modelleri kullanılmaktadır.

Veri mahremiyetinin korunması için ulusal ve uluslararası hukuki düzenlemeler yapılmıştır.

3.1. Büyük Veri Mahremiyetine Giriş


Veri mahremiyeti literatürde, “bilgisel seçici kontrol” [1] ve “muhatapların bilgilerinin doğru kullanımı ve
muhatabın hangi bilgisinin, kiminle ve ne derecede paylaşılmasına karar verme mekanizması” [2] olarak
tanımlanmıştır. Bu tanımlara ek olarak aşağıda sunulan tanımlar da konuyu daha iyi anlamaya yardımcı
olacaktır. Bu tanımlar:

§ Veri üzerinde uygulanacak herhangi bir metot, teknik veya arka plan bilgileri ile veri sahiplerinin ifşa riskinin
mümkün olduğu kadar minimize edilmesi,

§ Veriden bir ya da daha fazla kişiye doğrudan veya dolaylı olarak erişilmesinin mümkün olduğu kadar
önlenmesi,

§ Verinin kiminle, hangi seviyede ve ne amaçla paylaşılacağına dair sınırların belirlenmesinde veri sahibinin
seçici kontrolü,

§ Veriden kişiye ulaşmayı sağlayacak herhangi bir ilişkinin mümkün olduğu ölçüde ortadan kaldırılmasıdır.

Veri mahremiyeti tanımının doğru yapılması kişi, kurum ve kuruluşlarca bu kavramın özümsenmesini daha da
kolaylaştıracaktır. Genellikle güvenlik ve gizlilik gibi kavramlarla karıştırılan mahremiyet kavramının,
yukarıda belirtilen tanımlar doğrultusunda bu kavramlardan ayrıştığı açıkça görülmektedir [3]. Şekil 3.1’de
görüldüğü üzere mobil cihazlara verilen güvenlik anahtarlarının mahremiyetle karıştırılması örnek olarak
verilebilir.

about:blank 26/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 3.1. Mahremiyet kavramının gizlilik ile karıştırılması.

Büyük verinin içerisinde barındırdığı anlamlı değerler kaynağı olarak analiz edilmesi, saklanması, üçüncü
taraflara açılması ve satışı, yeniden kullanımı ve/veya yeni amaçlarla kullanılmak üzere değiştirilmesi gibi
etkinliklerin gün geçtikçe artması bireysel kaygıları da beraberinde getirmektedir. Zira büyük veri yığınlarıyla
ve söz konusu yığınlardan anlamlı sonuçlar çıkarılması yeteneğinin gelişimiyle doğru orantılı olarak gelişmesi
ile kişilerin yasal hakları konusunda da tehditler oluşturması kaçınılmazdır. Bu durum büyük veri konusundaki
temel politikalar olmak üzere mahremiyet ile ilgili birçok yeni düzenlemeyi beraberinde getirmiştir [3]. Bu
doğrultuda büyük verinin geniş kitlelere ulaştırılması için Şekil 3.2’de verilen mimari içerisinde farklı
politikalarla veri mahremiyeti korumalı hale getirildikten sonra alıcılara ulaştırılmaktadır. Bu işleme “verinin
anonimleştirilmesi” denilmektedir. Mahremiyet korumalı yaklaşımlarda, anonimleştirme teknikleri yaygın
olarak kullanılır. Anonimleştirme, verinin detaylarını azaltan, verinin tipi ve biçimini koruyarak kimlik
bilgilerinden arındıran mahremiyet koruyucu işlemlerdir.

Şekil 3.2.Verinin mahremiyeti [3]

Büyük veri, mahremiyet korumasına ihtiyaç duymayan genel verilerin yanında mahremiyet korumasına ihtiyaç
duyan hassas verileri de içerir. Genel verilere; iklim verileri, tarım verileri, enerji verileri, coğrafik veriler gibi
kişisel veya kurumsal hassas bilgi barındırmayan veriler örnek olarak verilebilir. Hassas verilere ise; hasta
verileri, tapu verileri, sigorta verileri, eğitim verileri, vergi mükellef verileri, banka verileri gibi bireyi
doğrudan nitelendirebilen yani tanımlayabilen veriler örnek olarak verilebilir. Bu aşamada genel veriler olarak
nitelendirdiğimiz verilerde mahremiyet konusu dikkate alınmazken, hassas verilerde mahremiyet en üst
seviyede ele alınması gereken bir konudur.

about:blank 27/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Büyük veride mahremiyet kavramı küresel ölçekte değerlendirilmekle birlikte kültürden kültüre hatta zaman
zaman bireyden bireye değişiklik gösterebilen bir kavramdır. Bu nedenle kavramın tanımlanması, sınırlarının
belirlenmesi güçleşmektedir. Mahremiyet yaklaşımları üç boyutta ele alınmaktadır. Bunlar [4]:

§ Bölgesel mahremiyet: Bir insanı çevreleyen fiziksel alanla ilgili gizlilik.

§ Kişi mahremiyeti: Bir bireyin fiziksel varlığına karşı gereksiz müdahaleyi temsil eder (örn: fiziksel arama).

§ Bilgi mahremiyeti (gizliliği): Kişisel verilerin toplanması, depolanması veya nasıl işlenebileceğinin ve
dağıtılabileceğinin kontrol edilmesi ile ilgilidir.

3.2. Mahremiyet Korumalı Büyük Verinin Yayını


Büyük veri mahremiyeti, veriyi toplayan kurum ve kuruluşların hakları, verilerinin üçüncü taraflarla ve hangi
yöntemlerle paylaşılabileceği ve kullanılabileceği ile ilgilidir. Bir başka deyişle, bireylerin kendisine özgü
bilgileri kimin ne zaman ve ne kapsamda kullanabileceğine dair karar verme hakkıdır. Kişisel veriler, eldeki
verilerden kolaylıkla tanımlanabilen ve bu bilgilerden kişilerin kimliğini ortaya çıkarabilen ilişkili verilerdir.
Örneğin; isim, adres, resim, telefon numarası, kişisel e-posta adresi, doğum tarihi, banka ve ödeme ayrıntıları,
yakın akrabalık ilişkileri, pasaport bilgileri, ırksal veya etnik kökeni, siyasi görüşleri, dini inançları, sendika
üyeliği, fiziksel veya zihinsel sağlık konuları, cinsel yönelim/yaşamı ile ilgili bilgiler, iddia edilen veya gerçek
cezai faaliyet ve ceza kayıtlarıyla alakalı bilgiler vb. kişisel ve hassas verilerdir. Bu veriler mahremiyet
koruması gerektirir.

Mahremiyet koruması gerektiren hassas verileri içeren büyük veriler muhatapları hakkında verdikleri bilgilere
göre; tekil tanımlayıcı, yarı tanımlayıcı ve hassas veriler olmak üzere 3 grupta sınıflandırılır. Tekil
tanımlayıcılar, büyük veri içerisindeki veri sahiplerinin kimliğini açık olarak doğrudan tanımlayan verilerdir.
Pasaport numarası, T.C. kimlik numarası, telefon numarası tipik tekil tanımlayıcı örnekleridir. Büyük veriler
içerisinde yer alan yarı tanımlayıcılar tek başına veri sahiplerinin kimliklerini tanımlayamayan ancak bir araya
geldiklerinde kimliklerin tanımlanabilmesini sağlayan verilerdir. Posta kodu, doğum tarihi ve cinsiyet en iyi
bilinen yarı tanımlayıcı örnekleridir. Mahremiyet korumasına ihtiyaç duyan verilere hassas veriler denir.
Hassas verilere; hasta verileri, tapu verileri, sigorta verileri, eğitim verileri, vergi mükellef verileri, banka
verileri gibi bireyi doğrudan nitelendirebilen yani tanımlayabilen veriler örnek olarak verilebilir.

Büyük veri, modern mahremiyet düzenlemelerinin dayandığı adil veri işleme uygulamaları bakımından bir
tehdit oluşturmaktadır. Büyük veri analizleri sayesinde işletmeler daha başarılı reklam/promosyon
uygulamaları geliştirebilmekte, tüketici tercihlerini etkileyebilmektedir. Nitekim bazı analistler, bireylerin ciddi
bir hastalığa yakalanma ihtimalini belirleyebileceklerini ve bu bilgileri kullanarak sigorta poliçesi
pazarlamanın oldukça kolay olduğunu ifade etmektedir.

Bugün, bazı hayat sigortalarının uygulanması konusunda sigorta şirketleri, bireylerin tüketim alışkanlıklarına
ilişkin veriler üzerinden beklenen yaşam süresini hesaplamakta ve söz konusu veriler ışığında prim oranı ile
hizmetin kapsamı gibi unsurlara karar vermektedir [5]. Bu ve benzeri mahremiyet açıkları ile kişilerin
doğrudan yaşamlarını etkileyici kararlar alınabilmektedir.

Büyük Veride Mahremiyet Açıkları Üzerine Bir Örnek:

Veri mahremiyetinde hukuki olarak elde edilen verilerin birbiri ile eşleştirmesi üzerine ABD’de meydana gelen
bir olayı özetlemek gerekirse:

ABD’de, Ulusal Sağlık Veri Örgütleri Birliği (NAHDO), sağlık verilerinin toplanmasını ve kullanılmasını
geliştirmeyi amaçlayan, kâr amacı gütmeyen ulusal bir dernektir. 2002’de, 17 eyaletin hastanelerinden ve
kliniklerinden hasta verilerini toplamaya başlamıştır. Şekil 3.3’te verilen görselin sol tarafında yer alan
hastanın doğum tarihi, cinsiyeti, posta kodu, etnik kökeni gibi bilgiler bu kapsamda elde edilen verilere aittir.

Massachusetts eyaletinde, Grup Sigorta Komisyonu (Group Insurance Commission - GIC) devlet çalışanları
için sağlık sigortası satın almakla sorumlu bir diğer şirkettir. GIC, 135.000 devlet çalışanı ve aileleri için özel
olarak sağlık bilgilerini toplamış ve verileri anonimleştirdiğini düşünerek araştırmacılarla paylaşmıştır.

about:blank 28/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 3.3. Veriler ilişkilendirerek mahremiyet açığı oluşur.

Şekil 3.3’ün sağ tarafındaki veriler ise Sweeney’nin 20 dolar karşılığında Massachusetts Cambridge için
seçmen kayıt listesinden yasal yolla satın almış olduğu verileri göstermektedir. Sweeney bu iki bilgiyi
birbiriyle ilişkilendirerek o sırada Massachusetts valisi olan William Weld’in kişisel bilgilerine ulaşmayı
başarmıştır.

Seçmen listesine göre, altı kişinin doğum tarihi aynı, sadece üçü erkek ve 5 haneli posta kodundaki tek kişi
olan Massachusetts valisiydi. Bu örnekte, anonimleştirildiğine inanılan iki veri seti bir araya getirilerek, önemli
bir kişinin kimliği ortaya çıkartılabilmiş ve veri setinde yer alan kişilerin yaklaşık %87’inin kimlik
tanımlanması mümkün olmuştur [6].

3.3. Büyük Verideki Mahremiyet Tehditleri


Büyük verinin, savunmasız ve teknolojik açıdan yetersiz bireylerin mahremiyetini olumsuz etkilemesi
karşısında bireylerin çevrimiçi eylemlerinin hassasiyet derecesini değerlendirebilir hale gelmesi ihlaller
açısından önem arz etmektedir.

Arka plan bilgileri ile veri bağlama (eşleştirme) yöntemleri büyük veri mahremiyetine yönelik tehditlerin
başında gelir [6]. Yayınlanan veriler ile halka açık veya önceden edinilmiş arka plan bilgilerinin bağlanmasıyla
yapılan veri eşleştirmeleri sonucunda istenmeyen ifşalar meydana gelir. Aşağıda en sık karşılaşılan veri ifşa
ihlalleri verilmiştir:

§ Kimlik ifşası

§ Hassas veri ifşası

§ Üyelik ifşası

Arka plan bilgisine sahip saldırgan sahip olduğu bilgiler ile yayınlanan veriler arasında kayıt, hassas öznitelik
veya tablo düzeyinde bağlantı kurarak saldırı düzenleyebilir. Bu saldırılar sonucunda yukarıda belirtilen
kimlik, hassas veri ve üyelik ifşaları yaşanır.

1. Kimlik İfşası

Arka plan bilgisine sahip bir saldırganın, kamuya açık kimlik bilgileri içeren veri tabanlarıyla ve bu veri
tabanlarının alt kümesi olan yayınlanmış kimliksiz verilerin kayıt düzeyinde yarı tanımlayıcılar üzerinden
eşleştirilmesi sonucunda ulaştığı veriler kimlik ifşası olarak tanımlanır.

Kimliksizleştirilmiş verileri hedef alan bu saldırı yönteminde, saldırgan kimliksiz yayınlanan veri içerisindeki
kurbana ait hassas bilgileri öğrenerek kurbanın kimliğini hassas bilgileriyle birlikte ifşa eder (Şekil 3.4).

about:blank 29/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 3.4. Kimlik ifşası.

2. Hassas Veri İfşası

Saldırgan sahip olduğu arka plan bilgileri ile yayınlanan tablodaki özniteliklerin homojen dağılımına bağlı
olarak kurbanın hassas bilgilerini veri bağlama yapmadan öğrenebilir. Saldırganların hassas veri ifşasındaki
temel amacı büyük veri içerisindeki belirlemiş olduğu kişinin hassas verilerine ulaşmaktadır.

Saldırgan paylaşılan verilerden hangi kaydın kurbana ait olduğunu öğrenemez. Ancak hassas verilerin aynı
olmasından kimliğini tanımlayamadığı kurbanının hassas verisini ifşa eder.

3. Üyelik İfşası

Saldırgan kurbanın paylaşılan büyük veri kümesinde olup olmadığını öğrendiğinde herhangi bir bilgiyi ifşa
edemez ancak yayınlanan veriye göre üst seviye çıkarımlar yapabilir. Yayınlanan veride kurbanın yer aldığını
bilen bir saldırgan kurbanın bu veriyi yayınlayan ile ilişkisini ortaya koyarak üyelik ifşasını gerçekleştirir.

Bundan sonraki süreçte saldırgan kurbanın kimlik ve hassas özniteliklerinin ifşası için üyelik ifşasından elde
etmiş olduğu bilgiyi geliştirerek arka plan bilgilerini arttırmaya ve bunları kullanacağı kamuya açık diğer veri
tabanlarını bulmaya çalışır (Şekil 3.5).

Şekil 3.5. Üyelik ifşası.

3.4. Büyük Veride Mahremiyet Modelleri


about:blank 30/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Yukarıda belirtilen mahremiyet ihlallerini en aza indirgemek adına literatürde sıklıkla kullanılan yaygın ve
temel mahremiyet koruma modelleri aşağıda özetlenmiştir. Bu modeller kullanılarak elde edilen büyük veri
kümeleri kullanıma sunulmaktadır.

k-Anonimlik: Her bir kayıt tekil birer kişiye ait olmak üzere, bir tane kaydın en az k-1 tane kayıttan ayırt
edilemediği modeldir. İlk bakışta basit bir problem olarak görünmesine karşılık optimum k-Anonimliği
sağlamanın zor bir problem olduğu ispatlanmış ve yaklaşık çözümler üretilmeye çalışılmıştır.

Literatürde büyük veriyi anonimleştirmek için k-Anonimlik algoritması kullanan Hadoop ve MapReduce
sistemleri üzerinde pek çok algoritma mevcuttur.

ℓ-Çeşitlilik: k-Anonimlik kimlik ifşasına karşı koruma sağlarken, hassas verilerin ifşasına karşı koruma
sağlayamaz. Literatüre geçmiş bir çalışma, k-Anonimlik modelinin bu sorununu vurgulayarak hassas
öznitelikleri koruyan ℓ-çeşitlilik yöntemini önermiştir. k-Anonimlik modeli uygulanan veriler içerisinde yer
alan hassas verilerin aynı olduğu durumlarda kimlik bilgisi yeniden tanımlanamasa da hassas veriler ifşa olur.
Literatürde öznitelik ifşası olarak adlandırılan bu saldırı, hassas özniteliklerin çeşitlilik eksikliğinden
kaynaklanır. ℓ-Çeşitlilik modeli hassas verilerin ifşa edilememesi amacıyla hassas verilerin en az ℓ sayıda
olmasını garanti eder. Bu modeli gerçekleyen algoritmaların MapReduce dağıtık programlama mimarisine
uygun olarak geliştirilmesiyle, ℓ-Çeşitlilik modelinin büyük veri uyumluluğu sağlanmıştır [7,8,9].

t-Yakınlık: ℓ-Çeşitlilik güçlü bir mahremiyet modeli olmasına rağmen, literatüre geçmiş çalışmalarda çarpık
veri dağılımına sahip veri kümelerinde mahremiyet koruması için ℓ-Çeşitlilik modelinin yetersiz olduğunu
göstermiş ve t-Yakınlık modelini önermişlerdir [10].

ℓ-Çeşitlilik, hassas değerler arasındaki anlamsal yakınlıklara ve hassas değerlerin dağılımının genel dağılımdan
önemli ölçüde farklı olmasına bağlı olarak yapılacak olan çarpıklık saldırılarına karşı mahremiyet korumasında
yetersiz kalır.

Örneğin, bir hassas verinin geneldeki oranı %5 iken, bir yarı tanımlayıcı grubu içerisindeki oranı %50 ise bu
durumda ciddi bir mahremiyet ihlali ortaya çıkabilir. t-Yakınlık yöntemi, yarı-tanımlayıcılar üzerindeki
herhangi bir gruptaki bir hassas özniteliğin dağılımını tüm tablodaki özniteliklerin dağılımına yakın olmasını
gerektirir. Bu metot, iki hassas öznitelik dağılımının arasındaki yakınlığı ölçmek üzere bu amaç için
oluşturulmuş (EMD vb.) farklı fonksiyonlar kullanır. Bu modeli de gerçekleyen algoritmaların MapReduce
mantığı çerçevesinde geliştirilmesi ile büyük veri uyumluluğu sağlanır.

δ-Mevcudiyet: Açık kaynaklar, sosyal ağlar, yazılı ve görsel basın, sohbet ve gerçek dünyadaki ilişkilerden
elde edilebilen arka plan bilgileri mahremiyet saldırılarının ve ihlallerinin yaşanmasında önemli rol oynar. Arka
plan bilgisine sahip saldırganın yayınlanan verilerde kurbanın olup olmadığını bilmesi önemli bir mahremiyet
zafiyeti oluşturur. Üyelik bilgisine ve arka plan bilgisine sahip olan saldırgan veri bağlama yöntemleriyle
yapacağı saldırılar sonucunda yeniden kimliklendirme yapabilir.

ℓ- Çeşitlilik ve k-Anonimlik modelleri kimlik ve öznitelik ifşalarına karşı koruma sağlarken üyelik ifşalarına
karşı koruma sağlayamaz. Üyelik bilgisinin keşfini zorlaştırarak mahremiyet riskini azaltmak amacıyla
literatüre geçmiş bir çalışmada δ-mevcudiyet modelini önermiştir [11].

Temel yaklaşım, yayınlanan veri kümesinin saldırganın arka plan bilgisini temsil eden genel veri kümesinin alt
kümesi olarak modellenebilmesidir. Bu modeli de gerçekleyen algoritmaların MapReduce mantığı
çerçevesinde geliştirilmesi ile büyük veri uyumluluğu sağlanır.

Mahremiyet modellerinin veri kümelerine uygulanmasıyla oluşturulan çözüm uzayında çözüme en uygun
adayın bulunmasını sağlayan arama algoritmalarından bazıları ise aşağıda maddeler halinde özetlenmiştir.

Mondrian: Çok boyutlu bölütleme işlemi yapan özyinelemeli bir algoritmadır. Tüm veri kümesi üzerinde
işlemlere başlayarak herhangi bir yarı tanımlayıcı grubunun mahremiyet ihlali yaptığı ana kadar devam eder.

Her bir özyineleme, en iyi bölütleyen boyutun ve ilgili bölütleme noktasının bulunması, veri kümesinin iki
veya daha fazla alt veri kümesine bölünmesi ve alt veri kümeleri üzerinde işlemlerin özyinelemeli olarak
çağırılması işlemlerinden oluşur.

about:blank 31/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Yukarıdan-Aşağıya Özelleştirme: Öznitelik sınıflandırma ağacında en üstteki elemandan başlayarak


özyinelemeli olarak aşağı doğru iner. Her bir döngü üç aşamadan oluşur. Bunlar; en iyi özelleştirmeyi bulma,
özelleştirmeyi gerçekleştirme ve bir sonraki döngü için arama metriğini güncellemedir.

Yukarıdan-Aşağıya Özelleştirme: Öznitelik sınıflandırma ağacının en altından başlayarak yukarıya doğru


ilerleyen öz yinelemeli bir işlemdir. Her bir döngüde dört aşama gerçekleştirilir. Bunlar;

§ Mevcut verinin anonimlik gereksinimini karşılayıp karşılamadığının belirlenmesi,

§ Bilgi kaybının hesaplanması,

§ En iyi genelleştirmenin bulunması

§ En iyi genelleştirme yönteminin belirlenmesi

Literatür incelendiğinde, büyük veri kapsamında mahremiyet korumalı veri yayınlama modellerinin
oluşturulmadığı veya önerilmediği görülmüştür. Ancak büyük veri konseptine uygun veri yayınlama
modellerinin oluşturulması günümüz şartlarında bir ihtiyaçtır. Büyük veride mahremiyet koruma süreci ve
örnek veri yayınlama modeli Şekil 3.6’da verilmiştir [12].

Şekil 3.6. Büyük veri mahremiyetinin koruma süreci [12]

3.5. Küresel Mahremiyet


Büyük verinin ortaya çıkmasına zemin hazırlayan temel gelişmelerden biri olan bulut bilişim teknolojilerinden,
veride gerçekleşen üstel büyüme karşısında gün geçtikçe daha yoğun faydalanılmaktadır. Bulut bilişim
sayesinde kuruluşların coğrafi sınırlara bağlı olmaksızın büyük verilerle çalışabilmesi, kişisel verilerin
işlenmesi alanında uygulanacak hukuk kurallarının belirlenmesini kritik hale getirmektedir [13].

Nitekim AB Veri Koruma Tüzüğü ile getirilen, verinin aktarılacağı üçüncü ülkelerde AB’de sağlanan veri
koruma çerçevesine uygun bir yeterli koruma düzeyinin sağlanması şartı, bu alanda uluslararası mevzuat
uyumuna olan ihtiyacı ortaya koymaktadır. Ayrıca, OECD’nin 2017 Sayısal Görünüm Raporu’nda da OECD
ülkelerinde hükümetlerin çoğunda kişisel verilerin korunması alanında uluslararası iş birliğine girme eğilimi
olmakla birlikte, pek çoğunun hâlâ kendi mahremiyet politikalarını koordine etmekte geciktiği
vurgulanmaktadır. Bu kapsamda, mahremiyet düzenlemelerinin koordinasyonu ve uyumlaştırılması yoluyla
küresel anlamda birlikte çalışabilirlik, ele alınması gereken önemli bir sorun alanı olarak ortaya çıkmaktadır.

Mahremiyet, özel hayatın gizliliği ve kişisel verilere yönelik uluslararası düzenlemelerde aşağıdaki gibi ele
alınmıştır:

about:blank 32/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

§ Birleşmiş Milletler İnsan Hakları Evrensel Beyannamesi 12. Maddesi: “Kimsenin özel yaşamına, ailesine
konutuna ya da haberleşmesine keyfi olarak karışılamaz, şeref ve adına saldırılamaz. Herkesin bu gibi karışma
ve saldırılara karşı yasa tarafından korunmaya hakkı vardır” şeklinde düzenlenmiştir (İnsan Hakları Evrensel
Beyannamesi, 1949)

§ Birleşmiş Milletler’in Kişisel ve Siyasal Haklar Sözleşmesi’nin 17. maddesi “Mahremiyet Hakkı” (Right to
Privacy) olarak düzenlenmiştir (Kişisel ve Siyasal Haklar Sözleşmesi, 1966)

§ Ekonomik Kalkınma ve İşbirliği Örgütü (OECD-Organization for Economic Co-operation and


Development-) 1980’de “Mahremiyetin Korunması ve Sınır Ötesi Veri Akışına Dair Rehber İlkeler” başlıklı
metni yayımlamıştır (OECD, 2013).

§ Avrupa Konseyi’nin Avrupa İnsan Hakları Sözleşmesi’nin 8. Maddesi özel hayata ve aile hayatına saygı
hakkı olarak tanımlanmıştır (Avrupa Konseyi, 1950).

§ Avrupa Birliği’nin 95/46 sayılı “Kişisel Verilerin İşlenmesinde Gerçek Kişilerin Korunması ve Bu Verilerin
Serbest Dolaşımı” isimli yönergesi, Birlikteki her üye ülkede kişisel verilerin eşit seviyede korunmasının
garanti altına alınması amaçlanmıştır. Avrupa Komisyonu tarafından üye ülkelerde uygulanmakta olan AB veri
koruma kurallarında, Veri Koruma Direktifi’nde benimsenen ilkelerin modernize edilmesi ve gelecekte
vatandaşların mahremiyet hakkının garanti altına alınması amacıyla, kapsamlı bir reforma gidilmesi ihtiyacı
ortaya çıkmıştır. Bu çerçevede Avrupa Parlamentosu tarafından 14 Nisan 2016 tarihinde “Genel Veri Koruma
Tüzüğü (General Data Protection Regulation–GDPR)” onaylanmıştır [14].

Dünya’da kişisel verilerin korunması ve mahremiyete yönelik yapılan düzenlemeler değerlendirildiğinde,


kişisel verilerin korunmasının temel insan hak ve özgürlükleri olarak kabul edildiği anlaşılmaktadır. Bugün
artık küresel boyutlarda yapılan veri paylaşımının güvenliğine yönelik ülkelerin gerek bölgesel gerekse
uluslararası boyutlarda çözüm aradıkları ve konuya yönelik çalışmaların düzenli olarak yapıldığı
değerlendirilmektedir.

Bu bağlamda Birleşmiş Milletler, Ekonomik Kalkınma ve İşbirliği Örgütü, Avrupa Konseyi, Avrupa Birliği gibi
uluslararası oluşumların yetkin çalışmaları ortaya çıkmıştır. Türkiye’de de 2010 yılında yapılan bir Anayasa
değişikliği ile kişisel verilerin korunması anayasal hak statüsüne kavuşmuştur. Kişisel verilerin korunmasına
yönelik atılan bu önemli adım Avrupa birliği Temel Hakları Şartını da karşılamaktadır. Akabinde Avrupa
Konseyince hazırlanan 108 sayılı Sözleşme ile AB Direktiflerine paralel bir şekilde hazırlanan Kişisel Verilerin
Korunması Kanunu Tasarısı ve 2016 yılında çıkarılan Kişisel Verilerin Korunması Kanunu’yla, AB ülkeleri
nezdinde veri koruma bakımından güvenilir ülke statüsüne kavuşulması konusunda önemli bir kriter
karşılanmış bulunmaktadır [15].

3.6. Türkiye’de Veri Mahremiyeti


Kişisel verilerin korunması konusunun tartışılmaya başlandığı 1970’li yıllardan bu yana mahremiyet hakkı ve
kişisel verilerin korunması kavramları, anayasalar ile güvence altına alınan özel hayatın gizliliğinin korunması
hakkının uzantıları olarak değerlendirilmiştir.

Dünyadaki ve ülkemizdeki büyük veri ortamları incelendiğinde bazı önemli problemlerin giderilmesi üzerine
geliştirilen politikalar, mevzuat düzenlemeleri ve idari faaliyetler kapsamında önemli gelişmeler
gözlemlenmiştir. Özellikle büyük verinin mahremiyetine ilişkin atılan adımların başında verinin
anonimleştirilmesi ve bununla ilgili yasal çerçeve üzerine odaklanılmıştır.

2010 yılında yapılan değişiklikle Anayasa’nın 20’nci maddesine aşağıdaki hüküm ikinci fıkra olarak
eklenmiştir:

“Herkes, kendisiyle ilgili kişisel verilerin korunmasını isteme hakkına sahiptir. Bu hak; kişinin kendisiyle ilgili
kişisel veriler hakkında bilgilendirilme, bu verilere erişme, bunların düzeltilmesini veya silinmesini talep etme
ve amaçları doğrultusunda kullanılıp kullanılmadığını öğrenmeyi de kapsar. Kişisel veriler, ancak kanunda
öngörülen hallerde veya kişinin açık rızasıyla işlenebilir. Kişisel verilerin korunmasına ilişkin esas ve usuller
kanunla düzenlenir.”

about:blank 33/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

                Kişisel verilerin işlenmesi ile ilgili temel ilkeler 6698 sayılı Kanun’un 4’üncü maddesinde yer
almaktadır. Maddenin birinci fıkrasında kişisel verilerin ancak Kanun’da ve diğer kanunlarda öngörülen usul
ve esaslar çerçevesinde işlenebileceği belirtildikten sonra ikinci fıkrada kişisel verilerin işlenmesiyle ilgili
temel ilkeler sayılmıştır. Tablo 3.1’de görüldüğü üzere temel özellikleri itibarıyla örtüşen ülkemizdeki 6698
sayılı Kanun’daki temel ilkelerle AB Genel Veri Koruma Tüzüğü’nde yer alan ilkeler kişisel verilerin işlenmesi
alanındaki teknolojik gelişmelerle uyumlu esneklikte kaleme alınmıştır. AB Genel Veri Koruma Tüzüğü ile,
söz konusu ilkelerin uygulanmasından sorumlu olan süjenin açıkça belirlenmesi kaydıyla veri kontrolörünün
hesap verebilirliği artırılmıştır [16].

Tablo 3.1. Kişisel Verileri Koruma İlkeleri Bakımından 6698 sayılı Kanun ile AB Genel Veri Koruma
Tüzüğü’nün Karşılaştırılması

Kişisel verilerin büyük veri gibi yenilikçi teknolojiler karşısında korunması için değiştirilmesi güçlü ve katı
hukuki metinler yerine, bu teknolojilerden yararlanılmasını kolaylaştıran temel ilkelerin yorumlanmasını ve yol
göstericiliğini güçlendiren yeni düzenleme ve politikaların belirlenmesi önem arz etmektedir.

6698 sayılı Kanun’da yer alan rızaya ilişkin sorumluluğun bireyden veri işleyenlere kayması gerektiği, veri
toplama ve veri kullanımı süreçlerinin ayrı ayrı değerlendirilmesi gerektiği tespit edilmiştir. Ayrıca Kanun’da
yer almayan tasarımdan itibaren güvenlik ilkesinin mevzuata kazandırılması ve söz konusu ilkenin veri
sorumlularınca nasıl uygulanması gerektiğine ilişkin rehberlerin yayımlanması önem arz etmektedir.

Büyük veriyle giderek yaygınlaşan verinin ikincil kullanımları alanında ortaya çıkacak yeni durumların
ilgililere bildirilmesini öngören düzenlemelerin hayata geçirilmesi gerektiği görülmüştür. Bu kapsamda
şeffaflık artırıcı mekanizmalardan biri olan, bireylerin kişisel verilerine makinalar tarafından okunabilir
formatta erişim sağlama imkânının tanınması gerektiği değerlendirilmektedir.

Sonuç olarak, Türkiye’de de büyük veri alanında mahremiyet risklerinin önlenmesi amacıyla, eğitim ve
farkındalık çalışmalarının hayata geçirilmesi gerekmektedir.  Büyük veri işleyen küresel ölçekte güçlü veri
aktörlerine karşı mevzuatın güçlü bir biçimde uygulanabilmesi için, Kişisel Verileri Koruma Kurumu’nun
nitelikli teknik ve hukuki personel ihtiyacının en kısa sürede tamamlanması gerekmektedir.

Bölüm Özeti
Veri mahremiyeti tanımının doğru yapılması kişi, kurum ve kuruluşlarca bu kavramın önemini anlamaya
yardımcı olacaktır. Bilgisel seçici kontrol ve muhatapların bilgilerinin doğru kullanımı, muhatabın hangi
bilgisinin, kiminle ve ne derecede paylaşılmasına karar verme mekanizması olarak tanımlanan veri
mahremiyetinin farklı tanımları da mevcuttur.

about:blank 34/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Mahremiyet kavramının, güvenlik ve gizlilik kavramları ile karışmasını engellemek için doğru tanımlama
oldukça önemlidir.

Farklı politikalarla büyük veri mahremiyetinin korunarak geniş kitlelere ulaştırılmasına verinin
anonimleştirilmesi denir.

Mahremiyet koruması gerektiren hassas verileri içeren büyük veriler muhatapları hakkında verdikleri bilgilere
göre 3 grupta sınıflandırılır. Bunlar: pasaport numarası, T.C. kimlik numarası, telefon numarası verileri gibi
tekil tanımlayıcılar; posta kodu, doğum tarihi ve cinsiyet gibi yarı tanımlayıcılar ve hasta verileri, tapu verileri,
sigorta verileri, eğitim verileri, vergi mükellef verileri, banka verileri gibi bireyi doğrudan nitelendirebilen
hassas verilerdir.

Yayınlanan veriler ile halka açık veya önceden edinilmiş arka plan bilgilerinin bağlanmasıyla yapılan veri
eşleştirmeleri sonucunda kimlik ifşası, hassas veri ifşası ve üyelik ifşası gibi istenmeyen ifşalar meydana gelir.

Büyük veride mahremiyet ihlallerini en aza indirmek için farklı mahremiyet koruma modelleri vardır. Bu
modellerin yaygın ve temel olanları; k-Anonimlik, ℓ-Çeşitlilik, t-Yakınlık, δ-Mevcudiyet, Mondrian,
Yukarıdan-Aşağıya Özelleştirme, Yukarıdan-Aşağıya Özelleştirmedir.

Büyük verinin ortaya çıkışında etkili olan bulut bilişim teknolojileri ile, kuruluşların coğrafi sınırlara bağlı
olmaksızın çalışabilmesi için kişisel verilerin işlenmesi alanında uygulanacak hukuk kuralları oldukça
önemlidir. Mahremiyet; özel hayatın gizliliği ve kişisel verilere yönelik uluslararası düzenlemelerde yer
almaktadır.

Türkiye’de mahremiyet hakkı ve kişisel verilerin korunması kavramları anayasa ile güvence altına alınmıştır.

Kaynakça
[1] Jain P., Gyanchandani M., and Khare N., "Big data privacy: a technological perspective and review",
Journal of Big Data, 3(1): 25, (2016).

[2] Yavuz CANBAY, Yılmaz VURAL, Şeref SAĞIROĞLU. Conceptual model suggestions for privacy
preserving big data publishing. Politeknik Dergisi, 23(3): 785-798, (2020).

[3] Chibba M. and Cavoukian A., "Privacy, consumer trust and big data: Privacy by design and the 3 C’S",
IEEE ITU Kaleidoscope: Trust in the Information Society,(2015).

[4] Kokolakis, S. (2017). Privacy attitudes and privacy behaviour: A review of current research on the privacy
paradox phenomenon. Computers & Security, 64, 122-134. https://doi.org/10.1016/j.cose.2015.07.002

[5] Drum, “Privacy is dead. Long live transparency!”, 2013, (erişim tarihi: 11.07.2017)
http://www.motherjones.com/politics/2013/10/future-of-privacy-nsa-snowden, 11.07.2017

[6] Sweeney, L. (2002). “k-anonymity: a model for protecting privacy”, International Journal on Uncertainty
Fuzziness and Knowledge-Based Systems, vol. 10, s. 557-570.

[7] B. C. Fung, K. Wang, A. W.-C. Fu, and S. Y. Philip, Introduction to privacy-preserving data publishing:
Concepts and techniques. CRC Press, 2010.

[8] H. Zakerzadeh, C. C. Aggarwal, and K. Barker, “Privacy-preserving big data publishing,” in Proceedings of
the 27th International Conference on Scientific and Statistical Database Management, 2015, p. 26: ACM.

[9] A. Machanavajjhala, J. Gehrke, D. Kifer, and M. Venkitasubramaniam, “L-diversity: privacy beyond k-


anonymity,” in 22nd International Conference on Data Engineering (ICDE’06), 2006, pp. 24-24.

[10] N. Li, T. Li, and S. Venkatasubramanian, “Closeness: A new privacy measure for data publishing,” IEEE
Transactions on Knowledge and Data Engineering, vol. 22, no. 7, pp. 943-956, 2010.

[11] M. E. Nergiz, M. Atzori, and C. Clifton, “Hiding the presence of individuals from shared databases,” in
Proceedings of the 2007 ACM SIGMOD international conference on Management of data, 2007, pp. 665-676:
about:blank 35/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

ACM.

[12] Canbay Y., Vural Y. ve Sağıroğlu S., “Mahremiyet korumalı büyük veri yayınlama için kavramsal model
önerileri”, Politeknik Dergisi, 23(3): 785-798, (2020).

[13] Fishleigh, J., “A Non-Technical Journey into the World of Big Data: an Introduction”, Legal Information
Management, 2014, pp. 149-151.

[14] Akıncı, A. N. (2017). Avrupa Birliği Genel Veri Koruma Tüzüğü’nün getirdiği yenilikler ve Türk Hukuku
bakımından değerlendirilmesi (Çalışma Raporu No. 2968).

[15] Eroğlu Ş. “The Concept of Privacy and Personal Data in Digital Life: Analysis of Perceptions of Students'
at Hacettepe University Department of Information Management.” Hacettepe University Journal of Faculty of
Letters Volume: 35 Number:2, 2018.

[16] Akıncı A.N. “Büyük Veri Uygulamalarında Kişisel Veri Mahremiyeti”, Uzmanlık Tezi, T.C.
Cumhurbaşkanlığı Strateji ve Bütçe Başkanlığı, 2019.

Ünite Soruları
Soru-1 :

 I. Cinsiyet

II. T.C. kimlik numarası

III. Posta kodu

IV. Pasaport numarası

V. Telefon numarası

Tekil tanımlayıcılar, büyük veri içerisindeki veri sahiplerinin kimliğini açık olarak doğrudan tanımlayan
verilerdir. Yukarıdakilerden hangileri tekil tanımlayıcılardandır?

(Çoktan Seçmeli)

(A) I-III

(B) I-IV-V

(C) II-IV-V

(D) III-IV-V

(E) II-V

Cevap-1 :

II-IV-V

Soru-2 :

Büyük veriler içerisinde yer alan yarı tanımlayıcılar tek başına veri sahiplerinin kimliklerini
tanımlayamayan ancak bir araya geldiklerinde kimliklerin tanımlanabilmesini sağlayan verilerdir.
Aşağıdakilerden hangisi yarı tanımlayıcı verilerdendir?
about:blank 36/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(Çoktan Seçmeli)

(A) Banka verileri

(B) Doğum tarihi

(C) Pasaport numarası

(D) Sigorta verileri

(E) Telefon numarası

Cevap-2 :

Doğum tarihi

Soru-3 :

Coğrafi sınırlara bağlı olmaksızın büyük verilerle çalışabilmesi için kişisel verilerin işlenmesi alanında
uygulanacak hukuk kurallarının belirlenmesi gerekir. Bu hukuk kuralları aşağıdakilerden hangisinin
korunması için önem arz etmektedir?

(Çoktan Seçmeli)

(A) Küresel Mahremiyet

(B) Üyelik Mahremiyeti

(C) Kimlik Mahremiyeti

(D) Hassas Veri Mahremiyeti

(E) Genel Veri Mahremiyeti

Cevap-3 :

Küresel Mahremiyet

Soru-4 :

Aşağıdakilerden hangisi büyük verideki mahremiyet modellerinden değildir?

(Çoktan Seçmeli)

(A) Çeşitlilik

(B) k-Anonimlik

(C) Mevcudiyet

(D) Yukarıdan-Aşağıya Özelleştirme

(E) Yatay Genelleştirme

Cevap-4 :

Yatay Genelleştirme

about:blank 37/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Soru-5 :

Aşağıdakilerden hangisi ‘Veri Mahremiyeti’ ifadesinin tanımlarından değildir?

(Çoktan Seçmeli)

(A) Veriden kişiye ulaşmayı sağlayacak herhangi bir ilişkinin mümkün olduğu ölçüde ortadan kaldırılması

(B) Veri üzerinde uygulanacak herhangi bir metot, teknik veya arka plan bilgileri ile veri sahiplerinin ifşa
riskinin mümkün olduğu kadar minimize edilmesi

(C) Verinin herkes için her yerden ulaşabilmesi, verinin ulaşılabilirliği ile ilgilidir ve her zaman mümkün
olmalıdır.

(D) Veriden bir ya da daha fazla kişiye doğrudan veya dolaylı olarak erişilmesinin mümkün olduğu kadar
önlenmesi

(E) Muhatapların bilgilerinin doğru kullanımı ve muhatabın hangi bilgisinin, kiminle ve ne derecede
paylaşılmasına karar verme mekanizması

Cevap-5 :

Verinin herkes için her yerden ulaşabilmesi, verinin ulaşılabilirliği ile ilgilidir ve her zaman mümkün olmalıdır.

Soru-6 :

I. Birleşik büyük veri

II. Büyük verinin dağıtık depolaması

III. Mahremiyet korumalı dağıtık büyük veri

IV. Dağıtık denge mekanizması

Büyük veride mahremiyetin koruma sürecinin basamaklarında veriden verinin yayını arasındaki
süreçlerin doğru sıralanışı hangisidir?

(Çoktan Seçmeli)

(A) I-II-III-IV

(B) II-IV-III-I

(C) I-III-IV-II

(D) III-I-II-IV

(E) II-III-IV-I

Cevap-6 :

II-IV-III-I

Soru-7 :

Çok boyutlu bölütleme işlemi yapan özyinelemeli bir algoritmadır. Tüm veri kümesi üzerinde işlemlere
başlayarak herhangi bir yarı tanımlayıcı grubunun mahremiyet ihlali yaptığı ana kadar devam eder.

about:blank 38/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Tanımı verilen büyük veri mahremiyetindeki ihlallerin azaltılmasında kullanılan mahremiyet koruma
modeli aşağıdakilerden hangisidir?

(Çoktan Seçmeli)

(A) Çeşitlilik

(B) k-Anonimlik

(C) Mevcudiyet

(D) Yukarıdan-Aşağıya Özelleştirme

(E) Mondrian

Cevap-7 :

Mondrian

Soru-8 :

I. En iyi genelleştirmenin bulunması

II. Mevcut verinin anonimlik gereksinimini karşılayıp karşılamadığının belirlenmesi

III. En iyi genelleştirme yönteminin belirlenmesi

IV. Bilgi kaybının hesaplanması

Öznitelik sınıflandırma ağacının en altından başlayarak yukarıya doğru ilerleyen öz yinelemeli bir
işlemdir. Her bir döngüde dört aşama vardır. Bu aşamaların sırası hangisinde doğru verilmiştir?

(Çoktan Seçmeli)

(A) II-IV-I-III

(B) I-II-III-IV

(C) III-I-IV-II

(D) II-I-IV-III

(E) IV-III-II-I

Cevap-8 :

II-IV-I-III

Soru-9 :

Mahremiyet korumasına ihtiyaç duyan verilere hassas veriler denir. Aşağıdakilerden hangisi hassas
verilerden değildir?

(Çoktan Seçmeli)

(A) Hasta verileri

(B) Tapu verileri


about:blank 39/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(C) Banka verileri

(D) Sigorta verileri

(E) T.C. kimlik numarası

Cevap-9 :

T.C. kimlik numarası

Soru-10 :

Farklı politikalarla veri mahremiyeti korumalı hale getirildikten sonra alıcılara ulaştırılmaktadır. Bu
işleme “verinin anonimleştirilmesi” denilmektedir. Anonimleştirme ile ilgili verilenlerden hangisi
yanlıştır?

(Çoktan Seçmeli)

(A) Anonimleştirme, verinin tipini korur.

(B) Anonimleştirme, verinin biçimini korur.

(C) Anonimleştirme, verinin detaylarını azaltır.

(D) Anonimleştirme, veriyi kişinin kimlik bilgilerinden arındırır.

(E) Anonimleştirme, veri sahibinin isminin gizlenerek tüm verilerinin paylaşmasıdır.

Cevap-10 :

Anonimleştirme, veri sahibinin isminin gizlenerek tüm verilerinin paylaşmasıdır.

about:blank 40/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

4. BÜYÜK VERİDE ANONİMLEŞTİRME


Birlikte Düşünelim
1.    Anonimleştirme kelimesi sizlere ne ifade etmektedir?

2.    Büyük verinin anonimleştirilmesinin önemi nedir?

3.    Hangi anonimleştirme teknikleri vardır?

4.    Hangi anonimleştirme tekniğinin uygun olduğu nasıl belirlenir?

5.    Anonimleştirmenin başarısız olması nasıl bir sorun ortaya çıkarır?

6.    Anonimleştirme işlemlerinde dikkat edilmesi gereken önemli hususlar nelerdir?

Başlamadan Önce
Anonimleştirme, kimlik bilgilerini kaldıran veya değiştiren bir veri işleme tekniğidir; sonuç olarak, hiçbir
bireyle ilişkilendirilemeyen anonim veriler ortaya çıkar.

Paylaşılmış büyük veri küme setlerinde yer alan veri sahiplerinin kimlik bilgisi ve hassas verilerinin ifşa
edilmesini önlemek, gizliliklerini korumak ve veri sahiplerine yapılabilecek her türlü saldırıları önlemek
amacıyla kullanıcı verilerinde veri anonimleştirilmesi yapılır.

Anonimleştirilmiş verileri analiz ederek güvenli, değerli ürünler ve özellikler oluşturabilir. Örneğin girilen bir
arama sorgusunun otomatik olarak tamamlanması Google tarafından bu yöntemle sağlanmakta ve kimlik avı,
kötü amaçlı site ve benzeri güvenlik tehditlerini bu analiz sonucunda tespit edebilir. Aynı zamanda birçok
kuruluş anonim verileri harici olarak güvenli bir şekilde paylaşabilir, kullanıcıların gizliliğini riske atmadan
başkalarının yararlanabilmesini sağlar.

Anonimleştirme işlemi, veri tipi ve biçiminde bir değişikliğe sebep olmadan onları korur. Bu işlemindeki
temel amaç veriyi paylaşılabilir yapmaktır. Fakat paylaşılan veriler bilişim teknikleri ve arka- plan bağlama
yöntemleri gibi çeşitli uygulamalar ile kişilerin kimlikleri tespit edilmesi önemli bir sorundur.

Anonimliğin bozulmasına dair bilinçli olarak yürütülen işlemlere “anonimliğin bozulmasına yönelik
saldırılar” denilmektedir. Bu kapsamda, anonim hale getirilmiş kişisel verilerin çeşitli müdahalelerle tersine
döndürülmesi ve anonim hale getirilmiş verinin yeniden kimliği tespit edici ve gerçek kişileri ayırt edici hale
dönüşmesi riski olup olmadığı araştırılarak ona göre işlem tesis edilmelidir.

4.1. Veriyi Anonimleştirme


Veri anonimleştirme, büyük veri içerisinde depolanan değişkenlerden doğrudan kişiyi adresleyecek
tanımlayıcıların silinmesi veya şifrelenmesi yönetimiyle özel, hassas ya da kişisel nitelikli verilerin kötü amaçlı
kullanımından koruma işlemidir. Örneğin, doğrudan kişiyi adresleyecek isimler, sosyal güvenlik numaraları,
T.C. kimlik numaraları ve adres gibi veri setleri anonimleştirilerek verinin korunması sağlanır. Ancak,
tanımlayıcıların verileri temizlense bile, saldırganlar tarafından kişisel veri anonimleştirme süreci tersten
işleterek anonimleştirme yöntemleri deşifre edebilir.

Genellikle anonimleştirme işleminden arındırma teknikleri birden fazla kaynaktan geçtiğinden anonimleştirme
teknikleri kaynaklara çapraz referans verebilir ve kişisel bilgileri açığa çıkarabilir. 6698 Sayılı Kişisel Verilerin
Korunması Kanunu’nda da (KVKK) veri anonimleştirme ya da anonim hale getirme, kişisel ve özel nitelikli
kişisel verilerin korunması için alınması gereken teknik tedbirler kapsamındadır.

about:blank 41/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Yasal düzenlemeler şirketlerin tüm tanımlayıcıları verilerden kaldırdığı sürece istatistikî amaçla
anonimleştirilmiş veri toplanmasına, kullanmasına ve süresiz olarak saklamasına izin vermektedir. Veri sahibi
topladığı büyük veri kümesinden anonimleştirme yöntemlerini kullanarak veri alıcısına şekil 4.1’de görüldüğü
üzere anonim veri kümesi halinde getirerek sunar.

Şekil 4.1. Büyük verinin anonimleştirilmesi.

Verinin açık hale getirilmesi amacıyla yapılan işlemler ile ilgili temel kavramlar tablo 4.1’de verilmiştir.

Tablo 4.1. Büyük verinin anonimleştirilmesi ile ilgili temel kavramlar [1,2]

4.2. Veriyi Anonimleştirme Teknikleri


Anonimleştirme kimlik ve hassas bilgiler içeren verilerin ifşasının önlenmesi amacıyla mahremiyet modelleri
tarafından yarı tanımlayıcı öznitelikler üzerinde yapılan dönüşüm işlemleridir. Bu işlemler sayesinde verinin
tipi ve biçimi korunarak paylaşılmış büyük veri kümelerinde yer alan veri sahiplerinin kimlik bilgileri ve
hassas verilerinin ifşa edilmesi zorlaştırılır.

Anonimleştirmenin kabul edilebilir düzeyde veri kaybıyla yapılması büyük veriden sağlanan fayda açısından
önemlidir. Veri kayıplarındaki artış veri kalitesini düşürerek paylaşılan büyük veriden sağlanan faydanın
azalmasına hatta tamamen yok olmasına yol açabilir.

Anonimleştirme kavramı için, hassas verinin yapısı ve biçimi korunarak değiştirilmesi veya çıkarılması
işlemleri, mahremiyet-duyarlı verilerin gizlenmesi gibi farklı tanımlamalar yapılmıştır.

about:blank 42/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Anonimleştirme işleminin temel amacı, veriyi çeşitli katma değerler elde etmek adına paylaşılabilir kılmaktır.
Veri paylaşımları içeren büyük veri uygulamaları, mahremiyet ihlallerini de beraberinde getirebilir. Her ne
kadar büyük veri karmaşık olarak görünse de çeşitli mahremiyet odaklı saldırılar ile veri sahibinin kimliği veya
hassas verileri ifşa edilebilir.

Buna en basit örnek veri bağlama (veri eşleştirme) saldırısıdır. Bu saldırıda, saldırgan daha önceden farklı
yollardan temin ettiği çeşitli veriler ile yayınlanan veriler arasında bir ilişki tespit etmesi halinde kimlik ve
hassas veriler ifşa edebilir. Önceki bölümlerde de anlatıldığı üzere, 1990 yılında ABD’de sayım uygulamasıyla
toplanan cinsiyet, posta kutusu ve doğum tarihi gibi yarı tanımlayıcı bilgilerin kullanılarak ABD nüfusunun
%87’sinin kimliklerinin tespit edilebileceği Sweeney tarafından raporlanmıştır.

Dolayısıyla geleneksel anonimleştirme işleminde en temel tekniklerle bile yeterli koruma sağlanamadığı tespit
edildiği için, kişisel, kurumsal ve ulusal verilerin korunması açısından yeni tekniklerin büyük veriden sağlanan
fayda dikkate alınarak geliştirilmesi hem bir ihtiyaç hem de bir gerekliliktir.

Veri mahremiyetinin korunmasına yönelik, çeşitli anonimleştirme teknikleri ve çözümleri mevcuttur. Bu


teknikler en temelde, kayıt bağlama, öznitelik bağlama, tablo bağlama ve olasılık saldırılarına karşı koruma
sağlar.

Veriyi anonimleştirme için yaygın olarak kullanılan bazı teknikler [3]:

Veri Maskeleme (Data Masking): Verilerin değiştirilmiş değerlerle gizlenmesi yöntemidir. Veri maskeleme
de en çok kullanılan yöntemlerin başında şifreleme, simge kullanma, bulanıklaştırma, karıştırma,
geçersizleştirmedir. Veri maskelemede veri formatı değiştirilmez sadece değerler değiştirilir ancak bu değişim
herhangi bir şekilde tespit edilmeyecek ve geri döndürülmeyecek şekilde yapılmalıdır. Örneğin, bir değer
karakteri “*” ya da “x” gibi bir sembolle değiştirebilir. Veri maskeleme, tersine mühendislik veya algılamayı
imkânsız hale getirir. Doğru uygulanmış herhangi bir yöntemle herhangi biri kurumlardaki kişisel verilerin
güvenliği için yeterlidir. Veri maskeleme 5 farklı şekilde yapılabilir:

§ Statik veri maskeleme

§ Dinamik veri maskeleme

§ Anında veri maskeleme

§ Deterministik veri maskeleme

§ İstatistiksel veri maskeleme

Statik veri maskeleme orijinal veri tabanının bir kopyasının değiştirilerek kullanıma açılması ile oluşturulur. 
Bu yöntem yetkili erişimlere karşı güvenlik sağlamakta ancak yetkisiz erişimlere karşı güvenlik
sağlamamaktadır.

Dinamik veri maskeleme verilerin veri tabanından çağrıldığı anda maskeleme işleminin yapılması demektir.
Dinamik maskelemede kimlik yetkilendirme yöntemi kullanılarak kimlerin hangi verilere ulaşabileceği
belirlenerek sadece yetkisi olan kişilerin görmesi gereken bilgileri görmesi ve diğer bilgilerin maskelenmesi
sağlanır. Dinamik çalışmasından dolayı tehditler karşısında daha güvenlidir.

Anında maskeleme dinamik veri maskeleme gibi sonuçlar üretmekle birlikte çok fazla veri maskeleme
gerektiren uygulamalar veya kurumlar için kullanılabilecek olan bir maskeleme türüdür. Kullandığı ETL
(Extract Transform Load) yöntemiyle daha hızlı ve daha az işlem ile maskeleme yapılmasını sağlar.

Deterministtik veri maskeleme bir sütundaki verinin, aynı satırda, aynı tabloda, aynı veri tabanında, veri tabanı
türleri arasında aynı değerle değiştirilmesi yöntemidir. Örneğin; bir veri tabanında adı “Ali” olanların her
zaman “Mehmet” değeri ile değiştirilmesi işlemidir.

İstatistiksel veri maskeleme orijinal verilerin birtakım istatistiksel özelliklerini koruyan verilerin rastlantısal
bozulmalarına dayanır. İstatistiksel veri gizleme yöntemlerine örnek olarak Diferansiyel Gizlilik ve DataSifter
yöntemleri verilebilir [4].

about:blank 43/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Takma Adlandırma (Pseudonymization): Özel tanımlayıcıları sahte tanımlayıcılarla veya takma adlarla
değiştiren, örneğin “Levent KARTAL” tanımlayıcısını “Mert DEMİR” ile değiştiren bir veri yönetim ve kimlik
belirleme yöntemidir. Takma adlandırma, istatistiksel doğruluğu ve veri bütünlüğünü korurken aynı zamanda
değiştirilen verilerin eğitim, geliştirme, test ve analitik için kullanılmasına izin verir ve veri gizliliğini korur.

Burada takma ad ile adlandırılan hassas veri sahte bir dizgi ile değiştirilir. Elde edilen dizgi her zaman aynı
giriş için aynı olacak şekilde kullanılır. Bu gizlenmiş bir anahtar ile yapılmaktadır. Sadece bu anahtarı bilenler
orijinal veriyi elde edebilmektedir. Veri güvenliğini artırmak için bu gizli anahtarın da periyodik değişimi
gerçekleştirilmelidir.

Genelleme (Generalization): Daha az tanımlanabilir hale getirmek maksadıyla bazı verilerin kasıtlı olarak
kaldırılması yöntemidir. Örneğin, bir adresteki bina numarasının kaldırılması durumunda sokak isminin
kaldırılmaması önem arz etmektedir. Buradaki amaç, veri doğruluğu ölçüsünü korurken bazı tanımlayıcıları
ortadan kaldırmaktır.

Ayrıca bu yöntem ile bazı alanlardaki değerler daha geniş bir kategori ile değiştirilir. Örneğin boy alanında yer
alan değer ‘≥ 170 cm’ veya ‘180 cm≥ boy ≥ 160 cm’ şeklinde değiştirilerek genelleme yapılabilir. Bu değişim
hassas verilerde kalıcıdır ve geri dönüşü olmayan bir işlemdir.

Veri Değiştirme (Data Swapping): Karıştırma ve permütasyon olarak da bilinir, veri kümesi öznitelik
değerlerini orijinal kayıtlara karşılık gelmeyecek şekilde yeniden düzenlemek maksadıyla kullanılan bir
tekniktir. Örneğin doğum tarihi gibi tanımlayıcı değerleri içeren verilerin (sütunlar) anonimleştirme üzerinde
üyelik türü değerlerinden daha fazla etkisi olabilir.

Veri Bozulması (Data Perturbation): Sayıları yuvarlayan ve rastgele gürültü ekleyen teknikler uygulayarak
orijinal veri kümesinin biraz değiştirilmesi yöntemidir. Değer aralığı, bozulma ile orantılı olmalıdır. Küçük bir
taban zayıf anonimleştirmeye yol açarken, büyük bir taban veri kümesinin faydasını azaltabilir. Örneğin,
orijinal değerle orantılı olduğundan, yaş veya ev numarası gibi değerleri yuvarlamak için 5 tabanını
kullanabilirsiniz. Bir bina numarasını 15 ile çarpabilirsiniz ve değer onun güvenilirliğini koruyabilir. Bununla
birlikte, 15 gibi daha yüksek bazların kullanılması, yaş değerlerinin sahte görünmesini sağlayabilir.

Sentetik Veriler (Synthetic Data): Gerçek olaylarla bağlantısı olmayan algoritmik olarak üretilmiş bilgilerin
kullanılması yöntemidir. Sentetik veriler, orijinal veri kümesini değiştirmek veya olduğu gibi kullanmak, aynı
zamanda gizlilik ve güvenliği riske atmak yerine yapay veri kümeleri oluşturmak için kullanılır. İşlem, orijinal
veri kümesinde bulunan kalıplara dayalı istatistiksel modeller oluşturmayı içerir. Sentetik verileri oluşturmak
için standart sapmalar, medyanlar, doğrusal regresyon veya diğer istatistiksel teknikler kullanabilir [5].

Anonim Hale Getirmeyi Kuvvetlendirici İstatistik Yöntemler

Anonimleştirilmiş veri kümelerinde yer alan kayıtlardaki bazı değerlerin tekil senaryolarla bir araya gelmesi
sonucunda, kayıtlardaki kişilerin kimliklerinin tespit edilmesi veya kişisel verilerine dair varsayımların
türetilebilmesi ihtimali ortaya çıkabilmektedir. Bu sebeple anonimleştirilmiş veri kümelerinde çeşitli
istatistiksel yöntemler kullanılarak veri kümesi içindeki kayıtların tekilliğini minimuma indirerek anonimlik
güçlendirilebilmektedir. Bu yöntemlerdeki temel amaç, anonimliğin bozulması riskini en aza indirirken, veri
kümesinden sağlanacak faydayı da belli bir seviyede tutabilmektir.

K-Anonimlik: Anonim hale getirilmiş veri kümelerinde, dolaylı tanımlayıcıların doğru kombinasyonlarla bir
araya gelmesi halinde kayıtlardaki kişilerin kimliklerinin saptanabilir olması veya belirli bir kişiye dair
bilgilerin rahatlıkla tahmin edilebilir duruma gelmesi anonim hale getirme süreçlerine dair olan güveni
sarsmıştır. Buna istinaden çeşitli istatistiksel yöntemlerle anonim hale getirilmiş veri kümelerinin daha
güvenilir duruma getirilmesi gerekmiştir.

K-anonimlik, bir veri kümesindeki belirli alanlarla, birden fazla kişinin tanımlanmasını sağlayarak, belli
kombinasyonlarda tekil özellikler gösteren kişilere özgü bilgilerin açığa çıkmasını engellemek için
geliştirilmiştir. Bir veri kümesindeki değişkenlerden bazılarının bir araya getirilerek oluşturulan
kombinasyonlara ait birden fazla kayıt bulunması halinde, bu kombinasyona denk gelen kişilerin kimliklerinin
saptanabilmesi olasılığı azalmaktadır. Örneğin; Tablo 4.1’de ad-soyad, doğum tarihi, cinsiyet, hastalık ve posta
kodu gibi değişkenler vardır.

Tablo 4.1. K-anonimlik uygulanmış veri kümesi


about:blank 44/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Tabloda ad-soyad ve posta kodu değişkenlerine dair değerlerde maskeleme uygulanarak veri anonim hale
getirilmiş olmakla birlikte, böyle bir anonimleştirme yapılırken aynı değerleri içeren sadece bir kayıt varsa bu
kayıtla doğru kişiyi tespit mümkün olacaktır. Ancak kayıtların çoklanması halinde, tekillik yaratabilecek
değişkenlere dair belli bir çeşitlilik sağlanmış olacaktır. Örneğin; Tablo 4.1’de 1983 yılında doğmuş, cinsiyeti
erkek ve posta kodu 3440 ile başlayan 3 adet kayıt için “Hastalık Adı” alanında üç ayrı hastalık çeşitliliği
sağlanmış olduğundan 1983 yılında doğmuş cinsiyeti erkek olan ve posta kodu 3440 ile başlayan bir kişinin bu
3 hastalıktan hangisine sahip olduğuna dair tahmin yürütmek mümkün olmayacaktır.

L-Çeşitlilik: K-anonimliğin eksikleri üzerinden yürütülen çalışmalar ile oluşan L-çeşitlilik yöntemi aynı
değişken kombinasyonlarına denk gelen hassas değişkenlerin oluşturduğu çeşitliliği dikkate almaktadır. Tablo
4.2’de, bir hastanede yatmakta olan kişilere ait hastalık bilgisi verilirken bu kişilerin ad soyad veya kimlik
numarası verilmeyerek K-anonimlik uygulanmış olmakla birlikte posta kodu, yaş ve etnik köken bilgisi
paylaşılmış olduğundan tespit edilebilme ihtimali bulunmaktadır.

Tablo 4.2. L-Çeşitlilik orijinal veri kümesi

Tablo 4.3. L-Çeşitlilik uygulanmış veri kümesi

about:blank 45/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Tablo 4.3’ten görüleceği üzere, tablo 4.2’de yer alan bilgiler maskeleme mantığı (posta kodu ve yaş bilgisinden
maskelemeyle 4’erli gruplar yaratılmıştır) içerisinde gruplanarak öncelikle K=4 anonimlik yöntemiyle
anonimliği kuvvetlendirilmiştir. Ancak ilk işlem sonucunda tablodan görüleceği gibi son 4 kayıttaki grupta tüm
“Hastalık” değerleri “Kanser” olarak gruplanmıştır. Bu durum posta kodu 130 ile başlayan 30’lu yaşlardaki
herkesin uyruğundan bağımsız olarak “Kanser” hastası olduğu bilgisini paylaşmaktadır. Bu iki bilgiye sahip
olan bir kullanıcı, tanıdığı bu özellikte bir kişinin kanser hastası olduğu sonucuna kolaylıkla varabilecektir. Bu
nedenle her bir grubun içinde belli bir çeşitlilik yaratılmasına dikkat edilerek maskeleme yöntemi
kullanılmalıdır.

T-Yakınlık: L-çeşitlilik yöntemi kişisel verilerde çeşitlilik sağlıyor olmasına rağmen, söz konusu yöntem
kişisel verilerin içeriğiyle ve hassasiyet derecesiyle ilgilenmediği için yeterli korumayı sağlayamadığı durumlar
oluşmaktadır. Bu haliyle kişisel verilerin, değerlerin kendi içlerinde birbirlerine yakınlık derecelerinin
hesaplanması ve veri kümesinin bu yakınlık derecelerine göre alt sınıflara ayrılarak anonim hale getirilmesi
sürecine T-yakınlık yöntemi denmektedir. Tablo 4.4’te; doğum tarihi, cinsiyet ve posta kodu alanlarına göre
K=3 olacak şeklinde K-anonimlik ve L=3 olacak şekilde L-çeşitlilik sağlanmasına rağmen 1970 yılında
doğmuş, 3440* adresinde oturan ve cinsiyeti erkek olan bir kişinin hastalıkları kanser, beyin tümörü ve hepatit
b gibi ciddi hastalıklar olduğu için, bu grupta söz konusu kişinin hastalığının ciddi olduğu tespit edilebilir.

Tablo 4.4. T-Yakınlık orijinal veri kümesi.

Bu tahmin gücünü azaltabilmek için de anonimleştirme içindeki gruplamalarda Tablo 4.5’te görülebileceği
üzere öyle bir düzenleme yapılmıştır ki üçerli kayıtlardan oluşan gruplarda (K=3) en az 3 farklı (L=3) hastalık
tipi olacak şekilde ayarlanmış ancak bir araya gelen bu 3 farklı hastalığın da hepsinin ciddi olmaması
sağlanarak (beyin tümörü ve Hepatit-B ciddi hastalıklar iken baş ağrısı ciddi sayılmayacak bir hastalıktır) o
gruptaki hastalara dair tahminler azaltılmıştır.

Tablo 4.5. T-Yakınlık uygulanmış veri kümesi.

Yukarıda verilen yöntemlerin yanında bir kişisel verinin silinmesi ya da yok edilmesi yerine
anonimleştirilmesine karar verilebilmesi için veri sorumlusunun yerine getirmesi gereken bazı şartlar vardır:

§ Anonimleştirilmiş veri kümesinin bir başka veri kümesiyle birleştirilerek anonimliğin bozulamaması,

§ Bir ya da birden fazla değerin bir kaydı tekil hale getirebilecek şekilde anlamlı bir bütün oluşturulmaması,

§ Anonim hale getirilmiş veri kümesindeki değerlerin birleşip bir varsayım veya sonuç üretebilir hale
gelmemesi.

Bu riskler sebebiyle veri sorumlularının, anonim hale getirdikleri veri kümeleri üzerinde bu maddede sıralanan
özellikler değiştikçe kontroller yapmaları ve anonimliğin korunduğundan emin olmaları gerekmektedir [6].

about:blank 46/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

4.3. Veriyi Anonimleştirme Yöntemlerinde Seçim Kriterleri


Veri sorumluları yukarıdaki yöntemlerden hangilerinin uygulanacağına ellerindeki verilere bakarak karar
verirler. Anonimleştirme yöntemleri uygulanırken sahip olunan veri kümesine dair aşağıdaki özelliklerin de
veri sorumluları tarafından dikkate alınması gerekmektedir:

§ Verinin niteliği,

§ Verinin büyüklüğü,

§ Verinin fiziki ortamlarda bulunma yapısı,

§ Verinin çeşitliliği,

§ Veriden sağlanmak istenen fayda / işleme amacı,

§ Verinin işleme sıklığı,

§ Verinin aktarılacağı tarafın güvenilirliği,

§ Verinin anonim hale getirilmesi için harcanacak çabanın anlamlı olması,

§ Verinin anonimleştirmenin bozulması halinde ortaya çıkabilecek zararın büyüklüğü, etki alanı,

§ Verinin dağıtıklık / merkezilik oranı,

§ Kullanıcıların ilgili veriye erişim yetki kontrolü ve

§ Anonimleştirmeyi bozacak bir saldırı kurgulanması ve hayata geçirilmesi için harcayacağı çabanın anlamlı
olması ihtimali.

Bir veriyi anonimleştirmeyi düşünen veri sorumlusu, kişisel veriyi aktardığı diğer kurum ve kuruluşların
bünyesinde olduğu bilinen ya da kamuya açık bilgilerin kullanılması ile söz konusu verinin yeniden bir kişiyi
tanımlar nitelikte olup olmadığını, yapacağı sözleşmelerle ve risk analizleriyle kontrol etmek
sorumluluğundadır [6].

4.4. Veriyi Anonimleştirme Çalışmalarında Başarısız Örnekler


Anonimleştirme işlemi, kişisel verilere uygulanan ve veri kümesinin ayırt edici ve kimliği belirleyici
özelliklerini yok etme işlemi olduğundan bu işlemlerin çeşitli müdahalelerle tersine döndürülmesi ve
anonimleştirilmiş verinin yeniden kimliği tespit edici ve gerçek kişileri ayırt edici hale dönüşmesi riski
bulunmaktadır. Bu durum anonimliğin bozulması olarak ifade edilir.

Yeterli düzeyde anonimleştirme seviyesi sağlanmadan paylaşılan veri kümelerinin saldırıya ve ihlale açık
olduğu bilinmektedir. Saldırıların motivasyonlarını aşağıdaki başlıklarda toplayabiliriz:

§ Anonimliğin derecesini ve güvenilirliğini test etmek amacıyla yapılan saldırılar,

§ Kurumları, şirketleri, organizasyonları, belirli bir kişiyi veya topluluğu zor durumda bırakmaya ve itibar riski
yaratmaya yönelik saldırılar,

§ Anonimliğin bozulması sonucu ortaya çıkacak kişisel verilerden ve elde edilebilecek değerlerden maddi veya
manevi fayda sağlama amacıyla yapılan saldırılar.

Yukarıda sıralanan senaryoların farklılığına bağlı olarak saldırıları yürüten kullanıcıların profilleri ve erişim
yetkileri de değişkenlik göstermektedir. Bu kişiler aşağıda listelenen örneklerdeki profillere sahip olabilirler:

§ Kamuya açılmış veriye erişimi olan genel bir kullanıcı,

§ Yazılım, istatistik, veri madenciliği konularında uzmanlaşmış bir profesyonel, akademisyen veya araştırmacı,
about:blank 47/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

§ Kuruluş, şirket, organizasyon içinde çalışan veya sistemlere erişim hakkı olan bir kullanıcı,

§ Anonim hale getirilmiş veriyi kullanarak çalışan ancak diğer bazı verilere veya sistemlere erişimi olan
kullanıcı,

§ Açıklanmış /paylaşılmış veri kümesinde yer aldığını bildiği bir kişinin yakını, aile üyesi veya arkadaşı.

Saldırıların sonucunda başarılı olunmuş ve anonimlik bozulmuşsa ortaya çıkan kişisel veriye dair üç farklı
senaryo oluşmaktadır. Bu senaryolar;

§ Gerçek kişinin kimliğinin tamamen ortaya çıkmış olması,

§ Gerçek kişiye ait belli bir bilginin ortaya çıkmış olması,

§ Bir kişiye dair varsayımsal bir bilginin ortaya çıkmış olması,

olarak sayılabilir.

Kişinin kimliğinin tamamen ortaya çıkmış olması durumu, çoğunlukla saldırganın elindeki anonim hale
getirilmiş veriyi elde ettiği veya erişiminin olduğu bir başka veri kümesiyle birleştirmesinden veya doğrudan
tanımlayıcılar yerine kullanılan kod veya takma isimlerin kodlamalarının bozulmasından kaynaklanabilir.

Böyle bir durumda gerçek kişinin doğrudan tanımlayıcılarına ulaşılır ve kimlik tamamen saptanabilir hale gelir.

Bu duruma bilinen en iyi örneklerden biri, 2006 yılında AOL firması tarafından çeşitli araştırma faaliyetleri
için, kullanıcı kimliği ve IP numarası silinerek 650 bin kadar kullanıcıya ait 20 milyon arama sorgu verisi
paylaşılmış, ancak birkaç gün içerisinde bu sorguların kimlere ait olduğu araştırmacılar tarafından tespit
edilmiştir.

Veri mahremiyetinin korunamadığı durumlarda veri sahibinin mahremiyetini ihlal eden durumlara bir diğer
örnek çevrimiçi yayıncılık ve DVD satış sitesi Netflix’in kullanıcıların geçmiş oylamalarına dayanan film öneri
sistemini geliştirmek için 2006’da başlattığı ödüllü yarışmadır. Netflix 500 bin kadar abonesinin film
derecelendirmeleriyle ilgili yaklaşık 100 milyon kaydı içeren veri kümesini bu yarışma için yayınlamıştır.
Aboneleri tanımlayan kişisel bilgiler (ad, soyad, IP adresi vb.) yarışma için yayınlanan kayıtlardan
çıkarılmıştır. Aboneleri birbirinden ayırt etmek amacıyla sayısal numaralar kayıtlara verilere eklenerek
yayınlanmıştır. Ancak, 2007’de Austin Üniversitesi’nden iki araştırmacı, yayınlanan veri kümelerini İnternet
Film Veritabanı (IMDB) üzerindeki film derecelendirmeleriyle eşleştirerek abonelerin kimliklerinin yeniden
tanımlanabileceğini göstermiştir.

Massachusetts’de 1990’lı yıllarda Grup Sigorta Komisyonu isimli bir sigorta şirketi bölgedeki kamu
personelinin sağlık sigortası süreçlerini üstlenerek, talep eden araştırmacılara ücretsiz olarak işçilerin hastane
ziyaretlerine ait olan veriyi anonimleştirerek paylaşabileceğini duyurmuştur. Paylaşımlar öncesinde Grup, isim,
adres, sosyal güvenlik numarası gibi direkt betimleyicileri veriden çıkartarak güvenli ve anonimleştirilmiş bir
veri kümesi yaratmayı hedeflenmiştir. Latanya Sweeney isimli araştırmacı sigorta grubundan bu veriyi talep
eder, sonrasında ise Massachusetts eyaletinde yer alan Cambridge şehrinin belediyesinden 20 dolar karşılığında
tüm seçmen kayıtlarını satın alır. Bu iki veri kümesinde posta kodu, doğum tarihi ve cinsiyet değişkenleri
ortaktır. Bu üç değişken üzerinden iki veri kümesi birbiriyle eşleştirildiğinde kişilerin kimliklerinin kolaylıkla
tahmin edilebileceği kayıtlar yaratılmış olur. Örneğin, Massachusetts eyalet valisi William Weld o günlerde
Cambridge’de oturmaktadır ve kamu personeli olduğundan kayıtlarının sigorta grubunun sağlık verileri içinde
yer aldığı bilinmektedir. Sweeney’in eşleştirmesinden sonra ortaya çıkan veri kümesinde sadece 6 kişi vali ile
aynı doğum tarihini paylaşmaktadır, bunlardan sadece 3’ü erkektir ve sadece biri vali gibi 5 rakamlı posta
koduna sahiptir. Sweeney araştırmanın önemini vurgulamak adına kayıtlar içinde kimliğini saptayabildiği
valinin teşhis ve tedavi detaylarını da içeren sağlık kayıtlarını ofisine postalamıştır.

AOL, 1998 yılında 12 milyon, 2006 yılında 27 milyon gibi abone sayılarına ulaşabilmiş Amerika’da hizmet
veren büyük bir servis sağlayıcıdır. Şirket, 2006 yılında “AOL Research” adıyla yeni bir girişimde bulunarak,
AOL arama motorlarındaki 650.000 kullanıcıya ait olan 20 milyon arama sorgu kaydını sitelerinde kamuya ifşa
ederek araştırmacıların dikkatine sunmuşlardır. Arama sorguları ifşa edilmeden önce anonimleştirilerek kimlik
saptaması yapılabilecek kişisel verilerden arındırılmış ve bunun yerine kullanıcılara numaralar atanmıştır.
Ancak kısa zaman içinde araştırmacılar, arama sorguları içindeki ifadeleri takip ederek ve aynı kullanıcı
about:blank 48/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

numarasına ait birden fazla sorguyu birleştirdiklerinde birebir kimlik saptaması yapılabildiğini görmüşlerdir.
Bu durum önceki bölümlerde çalıştığımız, birden fazla anonimleştirilmiş veri kümesinin birleşiminden ve veri
kümelerindeki dolaylı betimleyicilerin kombinasyonlarından orijinal kümenin açığa çıktığı modele güzel bir
örnektir.

İfşa edilen sorgu veri kümesinde ‘4417749’ kullanıcı numarası ile yer alan kişi “Lilburn, Ga’daki bahçe
düzenleyicileri”, “Gwinnet County Georgia’da satılık göl kenarı parsel”, ve pek çok “Arnold” soyadlı kişiye ait
aramalar yapmıştır. Bu üç veri takip edilip Internet üzerinde arama yapıldığında 62 yaşında Lilburn,
Georgia’da yaşayan Thelma Arnold isimli kişinin kimliği kolaylıkla saptanmıştır. Thelma Arnold bunun gibi
“hissiz parmaklar”, “60 bekar adam”, “her yere işeyen köpekler” gibi özel hayatıyla ilgili pek çok hassas detayı
açık eden ve toplumda utanç verici bir konuma düşmesine sebep olacak aramalar da yapmıştır. Kimliği ifşa
edilmiş kayıtlar içinde teşhis edildikten sonra kişiye dair bu ve benzeri pek çok hassas veri açığa çıkmış ve
kişinin özel alan gizliliği ve kişisel verileri ihlal edilmiştir.

4.5. Veriyi Anonimleştirme Çalışmalarında Önemli Hususlar


Bu bölümde değinilen birçok husus teknik ve içeriksel açıdan ele alınmış olup ancak bu çalışmaların hukuki
boyutunun geri kaldığını görmekteyiz. Anonimleştirme süreçlerinin teknik ve istatistiksel çözümler üretiyor
olması, konunun yalnızca teknik çerçevesine odaklanılmasına sebep olmuş ve süreç istatistiksel metotların
başarı oranlarına odaklanmış bulunmaktadır. Literatüre geçmiş bazı çalışmalarda gizlilik ve fayda kavramının
içeriklerine odaklanmış ancak bu içeriğin hukuki tanımı yerine sosyal içeriğini vurgulamıştır. Buna istinaden,
bu çalışmada elde edilen en önemli sonuçlardan biri anonimleştirmenin güvenilirliği tartışmasının hukuki
olarak ele alınmamış ve anonimleştirmenin genel esaslarının hukuksal bir yaklaşımla belirlenmemiş olmasıdır.

Yasal mevzuatlar incelendiğinde görülmektedir ki, anonimleştirme, silme ve rıza kavramlarıyla ikame olarak
ele alınmış ve birbirinin yerine geçebilen süreçler olarak değerlendirilmiştir. Veri yönetimi süreçlerinde
verilerin silinmesi kayıtların tüm arşiv ve yedekleme ortamlarından geri dönüşsüz olarak yok edilmesi
anlamına gelmektedir. Ancak böyle bir yok etme işlemi, ilişkisel veri tabanlarındaki mimariyi bozacağından
sistem yöneticileri verilerin tamamen uçurulması yerine pasif olarak sistemde varlıklarını sürdürmesini tercih
etmektedir. Yani veriler zaman içinde ilişkiler kurdukları tablolara, raporlara, veri ambarlarına zarar gelmemesi
için tamamen yok edilmez, sistemde pasif olarak tanımlanır. Örneğin mobil operatörüyle aboneliğini
sonlandırılmış bir müşterinin veriler, operatörün veri tabanlarından hemen silinemez. Bu durum o müşterinin
verilerinin yer aldığı tüm strateji, pazarlama, trafik yönetimi vs. raporlarını bozacak bir eylemdir. Diğer
taraftan, kayıtların çok eskimesi halinde verinin tamamen yok edilmesi halinde de o veriye yeniden ulaşmak
mümkün olmayacaktır. Her iki durumda da silme işlemi anonimleştirilmiş veri ile denk değildir.

Anonimleştirilmiş veri her daim belli kimlik saptama risklerini barındırmaktadır. Ancak silme işleminin
uygulanış şekline göre riskleri değişkendir ve anonimleştirilmiş veri ile bir tutulması yerine silme işleminin de
süreçlerinin net şekilde çalışılması gerekmektedir. Benzer şekilde rıza kavramı da farklı dinamiklere sahiptir.
Rızası alınan müşteri veya kullanıcının verileri genel bilgi güvenliği kuralları çerçevesinde işlenebilir hale
gelmektedir. Ancak burada veri öznesiyle olan ilişkinin kopartılmasına dair bir şart koşulmamıştır. Hâlbuki,
veri anonimleştirme süreci pek çok şartı ve hesaplamayı içerir. Rıza alındıktan sonraki süreç açıkça
belirlenmediğinden, veri işlem sorumlusu olan işletmeciler veya kurumlar, rızası alınan veri öznesinin verileri
üzerinde daha fazla hak iddia edebilmektedirler. Bu anlamda anonimleştirilmiş veri, rızası alınmış veriden daha
güvenli hale gelmektedir.

Burada önemli olan, anonimleştirmenin çerçevesinin ve ilkelerinin belirlenmesi ve anonimleştirmeye hukuki


bir yaklaşım kazandırılmasıdır. Buna istinaden, anonimleştirmenin ilkelerini şöyle tanımlayabiliriz;

Anonimleştirme tekil bir çözüm olarak ele alınmalıdır: Anonimleştirme ikame bir çözüm olarak değil,
uygulama alanı ve sınırları belli bir tekil çözüm olarak ele alınmalıdır. Silme ve rıza gibi farklı dinamikleri olan
süreçlerin bir ikamesi olarak ele alınması anonimleştirme süreçlerine karşı hukuki yaklaşımda yanlış algıların
oluşmasına sebep olmaktadır.

Anonimleştirme veri kümesinin niceliğine ve niteliğine bağlı gerçekleşmelidir: Anonimleştirme süreçleri


anonimleştirmenin uygulandığı veri kümesinden bağımsız olarak ele alınamaz. Burada önemli olan verinin
niteliği, hassas ve özel kategorilerde veriler içerip içermediği, veri öznelerinin koruma dereceleri (çocuklar
v.s), verinin çeşitliliği ve büyüklüğü, dış veriye olan hassasiyeti konularında değerlendirmelere tabi tutulduktan

about:blank 49/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

sonra anonimleştirmenin uygulanıp uygulanmaması gerektiğine ve hangi metodun daha uygun olacağına karar
verilmelidir.

Anonimleştirme iş ve çalışma modellerini dikkate almalıdır: Veri sorumlularının ve veri odaklı çalışan tüm
ticari ve idari kuruluşların çalışma yöntemleri birbirinden farklıdır. Bu durum kuruluşların veri yönetim
süreçlerine, veri politikalarına ve yapılan yatırımlara yansımaktadır. Bu çeşitliğin içinde anonimleştirme
süreçleri kuruluşların iş ve çalışma şekillerini dikkate alarak uygulanmalıdır. Bir üniversitenin verilerine
istinaden uyguladığı anonimleştirme süreci ile dünya çapında tanınan bir arama motorunun uygulaması
beklenen anonimleştirme süreci aynı olamaz. Kuruluşun sahip olduğu veri hacmi, veri yönetimi yatırımları,
tabi olduğu güvenlik politikaları, bilinirliği, dış kaynak ilişkileri, yurt dışı bağlantıları gibi iş modelini
etkileyen kriterler dikkate alınarak anonimleştirme çözümleri değerlendirilmelidir.

Anonimleştirme seviyelendirilmelidir: Anonimleştirme kuruluşların bilgi güvenliği politikaları nezdinde


seviyelendirilmeli ve hangi şartlar altında başvurulacak bir çözüm olduğu netleştirilmelidir. Özellikle şirket içi
paylaşımlar söz konusu olduğunda bilgi güvenliği politikaları, yetki profilleri, erişim kısıtları, fiziksel önlemler
gibi süreçler dikkate alınarak anonimleştirmenin konumu diğer tüm tedbirler içinde netleştirilmelidir.

Anonimleştirmeye bağlı ihlaller öncül ve ardıl yaptırımlarla denetlenmelidir: Hukuksal yaptırımların


sadece öncül ya da sadece ardıl olarak ele alınması anonimleştirme riskleri hususunda eksik yaklaşımlar
gelişmesine sebep olacaktır. Yalnızca öncül yaklaşımlar geliştirilmesi, yukarıda incelediğimiz üzere kurumların
anonimleştirme metotlarını uyguladıktan sonra yasal yükümlülüklerinden kurtuldukları imajını yaratarak olası
bir ihlal durumunda sorumluluk almalarını engelleyecektir. Aynı şekilde fazla korumacı gizlilik politikaları,
kurumlar tarafından art niyetli veya dar yorumlanarak özellikle araştırma ve geliştirme süreçlerinin devamlılığı
için gerekli olan veri kümelerini paylaşmaktan veya ifşa etmekten kaçınmalarına yol açabilir. Diğer taraftan
yalnızca ardıl yaptırımlar uygulanması, zararın oluşmasından sonra sürece müdahale edilmesini gerektirir.

Anonimleştirme muafiyet getirmemelidir: Anonimleştirilmiş verinin “tüm veri koruması ilkelerinden muaf
tutulması”, anonimleştirme sürecini yerine getiren işletme veya kurum için veri güvenliğini sağlanmıştır
algısını oluşturmaktadır. Halbuki anonimleştirilmiş veri de hassas veriler gibi ayrı bir veri sınıfı olarak
algılanmalı ve anonimleştirmenin olası risklerine istinaden de güvenlik önlemleri önemini korumalıdır.

Bölüm Özeti
             Anonimleştirme, verinin tipinin ve biçiminin korunarak paylaşılmış büyük veri kümelerinde yer alan
veri sahiplerinin kimlik bilgileri ve hassas verilerinin ifşa edilmesini önlemek amacıyla yapılan bir işlemdir.
Anonimleştirmede, büyük veriden fayda sağlayabilmek için veri kaybı yapılmalıdır. Ama veri kayıplarındaki
artış veri kalitesini düşürür ve bu da veriden sağlanacak faydanın azalmasına sebep olur. O yüzden
anonimleştirme işlemi sırasında veri kaybı kabul edilir düzeyde yapılmalıdır.

             Anonimleştirme işleminin temel amacı, veriyi paylaşılabilir kılmaktır. Veri anonimleştirme için yaygın
olarak kullanılan teknikler ise; veri maskeleme (data masking), takma adlandırma (psuedonymization),
genelleme (generalization), veri değiştirme (data swapping), veri bozulması (data perturbation), sentetik veriler
(synthetic data) işlemleridir. Veri anonimleştirilmesi sırasında dikkate alınması gereken bazı kriterler olmuştur.
Bunlar, verinin niteliği, büyüklüğü, çeşitliği, aktarılacağı tarafın güvenliği vb. durumlar dikkate alınması
gereken kriterlerdir.

             Anonimliğin bozulması durumu, anonimleştirme işlemi kişisel verilere uygulanan ve kimlik belirleyici
özelliklerin yok edilmesi işlemi olduğu için çeşitli müdahalelerle tersine döndürülmesi ve anonimleşmiş
verinin yeniden kimlik tespit edici hale dönüşme durumuna verilen isimdir. Anonimliği bozulan veriden
kaynaklı kişisel verilerin açığa çıkmasından veri sahiplerine maddi manevi kayıplar yaşatabilir. İtibar riski
yaşanabilir.

Kaynakça
[1] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O.,
Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.

about:blank 50/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

[2] Lugmayr, A., Lugmayr, A., Stockleben, B., Stockleben, B., Scheib, C., Scheib, C., ... & Mailaparampil, M.
A. (2017). Cognitive big data: survey and review on big data research and its implications. What is really
“new” in big data?. Journal of Knowledge Management, 21(1), 197-212.

[3] Proente Web (Son Erişim:20.01.2022)

URL: https://proente.com/big-data-buyuk-veri-nedir/

[4] BeyazNet Web Sitesi. (Son Erişim: 17.09.2019)

URL:https://www.beyaz.net/tr/guvenlik/makaleler/veri_maskeleme_nedir_turleri_nelerdir.html

[5] Terra Bilişim Web Sitesi (Son Erişim: 10.11.202)

URL: https://terabilisim.com/kvkk-veri-anonimlestirme-nedir-nasil-yapilir/

[6] Kişisel Verileri Koruma Kurumu (KVKK), (2017), Kişisel Verilerin Silinmesi, Yok Edilmesi veya Anonim
Hale Getirilmesi Rehberi, ISBN: 978-975-19-6807-4

Ünite Soruları
Soru-1 :

Aşağıdakilerden hangisi büyük verinin anonimleştirmesiyle ilgili temel kavramlardan biri değildir?

(Çoktan Seçmeli)

(A) Anonimleştirme

(B) Maskeleme

(C) İmha

(D) Üretme

(E) Saklama

Cevap-1 :

Üretme

Soru-2 :

Kullanılan verinin dış kaynaklardan çıkarılması iş süreçlerinde hangisi yapılmamaktadır?

(Çoktan Seçmeli)

(A) Verinin birleştirilmesi

(B) Verinin dönüştürülmesi

(C) Verinin temizlenmesi

(D) Verinin veri tabanı veya veri ambarına yüklenmesi

about:blank 51/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(E) Verinin silinmesi

Cevap-2 :

Verinin silinmesi

Soru-3 :

Anonimleştirme sırasında veri kayıplarındaki artış aşağıdakilerin hangisine sebebiyet vermektedir?

(Çoktan Seçmeli)

(A) Verinin kalitesinin artmasına

(B) Veriden sağlanılacak faydanın azalmasına

(C) Verinin kolay okunmasına

(D) Verinin daha anlamlı olmasına

(E) Verinin daha kolay analiz edilmesine

Cevap-3 :

Veriden sağlanılacak faydanın azalmasına

Soru-4 :

Aşağıdakilerden hangisi veri maskeleme yöntemlerinden biri değildir?

(Çoktan Seçmeli)

(A) Durağan Veri Maskeleme

(B) Anında Veri Maskeleme

(C) Statik Veri Maskeleme

(D) Dinamik Veri Maskeleme

(E) Deterministik Veri Maskeleme

Cevap-4 :

Durağan Veri Maskeleme

Soru-5 :

Veri maskelemede yapılan işlem nedir?

(Çoktan Seçmeli)

(A) Sadece veri formatı değiştirilir, değerler değiştirilmez

(B) Veri formatı değiştirilmez sadece değerler değiştirilir

(C) Ne veri formatı ne de değerler değiştirilmez


about:blank 52/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(D) Hem veri formatı hem de değerler değiştirilir

(E) Veri formatı isteğe bağlı değiştirilirken değerler asla değiştirilmez

Cevap-5 :

Veri formatı değiştirilmez sadece değerler değiştirilir

Soru-6 :

Anonimleştirme işlemi yapılacak veri kümesi için aşağıdakilerden hangisini veri sorumluları dikkate
almamalıdır?

(Çoktan Seçmeli)

(A) Verinin niteliği

(B) Verinin çeşitliliği

(C) Verinin anonim hale getirilmesi için harcanacak çabanın anlamlı olmaması

(D) Verinin işleme sıklığı

(E) Verinin dağıtıklık oranı

Cevap-6 :

Verinin anonim hale getirilmesi için harcanacak çabanın anlamlı olmaması

Soru-7 :

Aşağıdakilerden hangisi anonimleştirme ilkelerinden biri değildir?

(Çoktan Seçmeli)

(A) Tekil bir çözüm olarak ele alınması

(B) Seviyelendirilmesi

(C) Çalışma modellerini dikkate alması

(D) Muafiyet getirmemesi

(E) Öncül ve ardıl yaptırımlarla denetlenmemesi

Cevap-7 :

Öncül ve ardıl yaptırımlarla denetlenmemesi

Soru-8 :

Veri değiştirme (Data Swapping) işlemi ile aslında ne yapılmaktadır?

(Çoktan Seçmeli)

(A) Yok etme ve sıfırlama

about:blank 53/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(B) Üretme ve rassal değer atama

(C) Sıralama ve kombinasyon

(D) Karıştırma ve permütasyon

(E) Eleme ve tekrarlı permütasyon

Cevap-8 :

Karıştırma ve permütasyon

Soru-9 :

“………, orijinal veri kümesinde bulunan kalıplara dayalı yapay veri kümeleri oluşturarak istatistiksel modelle
oluşturur.”

Cümlesi aşağıdakilerden hangi veri anonimleştirme tekniği ile tamamlanır?

(Çoktan Seçmeli)

(A) Takma adlandırma

(B) Genelleme

(C) Veri Değiştirme

(D) Veri Bozulması

(E) Sentetik veriler

Cevap-9 :

Sentetik veriler

Soru-10 :

Kişisel verilerin silinmesi, yok edilmesi veya anonim hale getirilmesi işlemi nedir?

(Çoktan Seçmeli)

(A) Anonimleştirme

(B) Maskeleme

(C) İmha

(D) Silme

(E) Saklama

Cevap-10 :

İmha

about:blank 54/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

5. AÇIK VERİ
Birlikte Düşünelim
1.    Büyük veriyi açık hale neden getirmeliyiz?

2.    Ülkemizde örnek açık veriler nelerdir?

3.    Açık verinin dünyadaki örnekleri ile ülkemizdeki örnekleri arasında nasıl farklar ve benzerlikler vardır?

4.    Hangi konularda açık verilere ulaşım kolaydır? Bunun nedeni ne olabilir?

Başlamadan Önce
Belli alanlarda toplanan ve vatandaşlar ile araştırmacıların kullanımına sunulması amacıyla elde edilen büyük
veri kümeleri açık hale getirilir. Bu sebepledir ki, belirli prensipler çerçevesinde veriye erişimi kolaylaştırmayı
amaçlayan ve bu sayede ulaşım, sağlık ve haberleşme gibi özellikle son kullanıcıyla etkileşimi yüksek olan
sektörler açısından getireceği faydalar da göz önünde bulundurulduğunda, açık veri kavramı büyük önem arz
etmektedir.

Açık verinin, ücretsiz ve sürekli erişilebilir olması, yeniden kullanılabilir olması, inovasyon odaklı olması gibi
prensipleri başta olmak üzere pek çok prensibi gereği üst düzey kalitede veriye erişimi kolaylaştırması
sebebiyle vatandaşlar, kamu sektörü ve özel sektör açısından getirileri olacaktır.

Özellikle enerji kazanımları ve bilimsel gelişim gibi etkilerinin de olacak olması sebebiyle ekolojik açıdan da
faydası olacağı, hayat kurtarıcı çözümler üzerindeki etkisi de göz önünde bulundurulduğunda açık veri
politikalarının farklı paydaşlara hizmet edeceği belirtilmelidir.

Bu kapsamda, dünyadaki ulaşım, gayrimenkul, sağlık ve hava durumu konularını ilgilendiren örnekler de baz
alınarak Türkiye’de, kamu ve özel sektörün katılımıyla açık veriye ilişkin oluşturulacak ekosistemlerin farklı
sektörlerin gelişimi için etkili olacağı aşikardır.

5.1. Açık Veriye Giriş


İnsanlığın veri çağı olarak isimlendirdiği dijital dünyanın hızlı bir ilerleme ile yaşantımızın her noktasına
sirayet ettiği günümüzde devletler, kurum ve kuruluşlar daha yüksek oranda katma değer içeren hizmetler
sunabilmek için veriye dayalı iş modellerini geliştirmektedir.

Büyük veriden ekonomik ve sosyal/kültürel değer yaratmanın en etkili yöntemi veriye erişimin olmasıdır. Bazı
veri kümeleri telif hakkı gibi nedenler dolayısıyla istenildiği şekilde kullanılamazken, bazı veri kümeleri ise
veriyi işleyecek teknolojik altyapıya uygun yapıda olmamasından kaynaklı olarak kullanılamamasıdır. Bazen
de ihtiyaç duyulan veri kümesinin temininin mümkün olmamasıdır. Bu ve benzeri nedenlerden ötürü boyutları
üstel olarak artan veri kümelerinin oluşturduğu veri yığınlarını kullanarak basit veya karmaşık problemlere
çözüm bulmak her zaman olası olmamaktadır.

Bu türden zorlukları aşma amacıyla ‘açık veri’ (open data) kavramı, tüm dünyada ve ülkemizde veri
ekosistemleri içerisinde yer bulmakta ve gittikçe yaygınlaşmaktadır. Bunun sonucunda da açık veri yaklaşımı
ile geliştirilen uygulamalar son yıllarda giderek artmaktadır.

“Açık veri, herkesin özgürce ve yeniden kullanabileceği ve yeniden dağıtılabileceği, yalnızca nitelik ve
paylaşım gereksinimine tabi olan veridir.”

Açık veri (open data), herhangi bir telif hakkına sahip olmayan, herkes tarafından kullanılabilen,
düzenlenebilen ve dağıtılabilen veridir. Veri araştırmacıların odak noktası veriyi bulma, işleme, analiz etme,
düzenleme, paylaşma ve görselleştirmektir. Bu amaçlar için kullanılan açık veride kurumların ve devletin
about:blank 55/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

şeffaflığı ve katılımı amaçlanır. Açık veri sayesinde kurumlar hem ekonomik hem de sosyal anlamda
verimliliklerini artırabilir. Veri herkese açık ve özgürce kullanılabilir olduğunda vatandaşların da farkındalığı
artar.

Açık veriler, özellikle de büyük kuruluşlar ile açık hükümet verileri, henüz kullanılmayan, muazzam birer
kaynaktır. Pek çok kişi ve kuruluş, görevlerini yerine getirmek için çok çeşitli veri türlerini toplamaktadır. Hem
topladığı verilerin miktarı ve merkezciliğinden ötürü, hem de bu verilerinin çoğunun kamuya açık veriler
olması ve bu nedenle açık ve diğerlerinin kullanımına sunulması oldukça önemlidir. Açık verilerin değerli
olduğu ve örneklerin nasıl kullanılabileceğini önceden tahmin edebileceğimiz birçok alan vardır. Ayrıca
kuruluşların kendisi de dâhil olmak üzere açık verilerin kullanılmasından istifade edebilecek birçok farklı grup
ve kişi vardır. Aynı zamanda, gelecekte nasıl ve nerede değer yaratılacağını tam olarak tahmin etmek
olanaksızdır. Yeniliğin doğası, gelişmelerin genellikle olası olmayan yerlerden geldiğidir.

Şekil 5.1. Büyük veriden açık veriye evrişimi.

Kuruluşların verilerinin değer yarattığı çok sayıda alan vardır:

§ Katılım

§ Kendi kendini güçlendirme

§ Geliştirilmiş veya yeni özel ürünler ve hizmetler

§ İnovasyon/Yenilik

§ Verimliliği artırılmış devlet hizmetleri

§ Şeffaflık ve demokratik kontrol

§ Devlet hizmetlerinin etkililiğinin iyileştirilmesi

§ Politikaların etki ölçümü

§ Birleştirilmiş veri kaynakları ve büyük veri hacimlerindeki modellerden yeni ve anlamlı bilgiler

about:blank 56/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 5.2 Büyük ve Açık verinin kazandırdıkları.

Verilerin açık hale getirilmesi sonucu aşağıda belirtilen bazı temel özellikleri bulunmaktadır. Bunlar:

i. Kullanılabilirlik ve Erişim

Veri bir bütün olarak, yeniden üretim maliyetini aşmayacak şekilde, tercihen internet üzerinden indirilebilir ve
uygun bir biçimde mevcut olmalıdır.

ii. Tekrar Kullanım ve Yeniden Dağıtım

Veri, diğer veri kümeleri ile karıştırılarak kullanılması dahil olmak üzere, yeniden kullanıma ve yeniden
dağıtılmaya izin veren şartlar altında sağlanmalıdır.

iii. Evrensel Katılım

Açık veri ekosistemi veri üreten, yayımlayan ve kullanan paydaşların birlikte çalışabileceği bir ortamdır. Bu
ekosistemde yer alan veri, kişilere veya gruplara karşı herhangi bir ayrımcılık yapılmadan herkes için
kullanılabilir ve dağıtılabilir olmalıdır.

Veri, aşağıdaki durumları karşıladığında açık veri özelliğini kazanır:

§ Teknik olarak Açıklık: Makineler tarafından okunabilen (machine-readable) standart yapıya uygunluk
sağlamalıdır. Bilgisayar uygulamaları tarafından alınabilmeli ve anlamlı bir şekilde işleme tabi tutulabilmelidir.

§ Yasal olarak Açıklık: Açık bir şekilde lisanslanmalıdır. Herhangi bir sınırlama olmaksızın, ticari ya da ticari
olmayan kullanım ve tekrar kullanıma izin vermelidir.

5.2. Açık Veri İlkeleri


Açık veri kavramı üzerine farklı kurum ve kuruluşların çalışmaları olduğundan, açık veri ilkelerinin neler
olduğu ve içeriklerinin ne şekilde detaylandırılacağına dair literatürde farklı görüşler yer almaktadır. Bu farklı
görüşler arasında kabul edilmiş olan ilkeler şunlardır:

a. Ücretsiz ve sürekli erişilebilirlik: Açık veri kapsamına giren bilgiler herhangi bir telif hakkı, patent, erişim
alanını daraltan lisanslar veya bunların dışında kalan ama kullanımı kısıtlayan farklı bir unsura tabi
olmamalıdır. Bu anlamda açık veri kavramı, erişime sınırsız bir şekilde açık olan veridir. Bu durum, açık
verinin kullanımı yaygın cihazlar ve dosya tipleri üzerinden erişime açık olması gerekliliğini de içerir. Aksi
takdirde açık verinin erişilebilirliği azalır ve söz konusu veri “açık” olma özelliğini kaybetmeye başlar. Açık
veri olarak tanımlanan bilgiler, dileyen herkesin erişimine ücretsiz ve dolayısıyla eşit şekilde açık olmalıdır.

b. Yeniden kullanılabilir ve paylaşılabilirlik: Açık veriler sınırsız kullanım özelliği taşıdıklarından bu verileri
edinen kişiler, herhangi bir izne tabi olmaksızın söz konusu bilgileri başkalarıyla paylaşabilir ve yeniden
kullanabilir.

c. İnovasyon odaklılık: Sosyal ve ekonomik yönden toplum faydasını amaçlayan açık veriler, toplumsal ve
kurumsal yapıların ihtiyaçlarına cevap veren inovatif çözümler sunmalıdır. İnovatif açık veri, tarımsal
verimliliğin artırılmasına ilişkin olduğu gibi küresel iklim değişikliğiyle mücadeleye dair bir veri de olabilir,
yani birbirinden çok farklı birçok alanlarla ilişki halindedir. Ölçeği de buna bağlı olarak ulusal ya da küresel
fayda üzerine olabilir. Açık veri özel sektör ve sivil toplum kuruluşlarıyla yapılan işbirlikleri yoluyla her iki
ölçekte de toplumsal ve ekonomik faydayı en üst düzeyde tutmayı amaçlar.

d. Kapsayıcılık: Açık veriler belli bir konuyla sınırlandırılmayacak şekilde geniş bir alana yayılır. Açık veriler,
haritalar, meteorolojik tahminler, yasalar, trafik bilgileri, mali tablolar, ekonomik görünümler, finans sektörüyle
ilgili veriler vb. birçok farklı alanı kapsayabilir. Bu kapsayıcılık beraberinde açık verinin çok yönlü olma
özelliğini de getirir. Gerçekten üst düzey kalitede ve başka verileri besleyen açık verilerden yararlanılmasının
yanı sıra, ortak ve genel geçer bir açık veri politikasıyla hareket edilmesi halinde bu etki katlanarak artabilir.
Kapsayıcılık ilkesi, açık verinin daima eksiksiz olması anlamına da gelir.

about:blank 57/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

e. Şeffaflık ve hesap verilebilirlik: Kâr amacı gütmeyen bir yapıya sahip olan açık veriler, kamu kurumlarının
şeffaf ve buna bağlı olarak hesap verebilir bir halde olmasında etkilidir. Böylece demokratik altyapıyı
güçlendirir, çoğulcu ve katılımcı işleyişe ise genellikle doğrudan katkıda bulunur. Ayrıca, elde edilecek yeni
geri bildirimler sayesinde hizmet kalitesi de yükselir. Bütün bu sürecin sağlıklı işleyebilmesi için karar
mekanizmalarının doğru şekilde kurulması oldukça önemlidir.

f. Güncellik: Açık verinin değeri, son kullanıcıya ulaşım hızıyla doğru orantılı olarak artar veya azalır. Bu
nedenle verinin değerini korumak adına, bu veriden yararlanacak kişilere ve kurumlara, yani toplumsal tabana
olabildiğince zamanında ulaşmalıdır.

g. Standartlaşma: Açık veri elde etme sürecinde, bilgiye dönüştürülecek veriler toplanırken açık standartlar
belirlenmelidir. Hatta ilk hedef, bu standartların uluslararası normlar kıstas alınarak ortaya konulması olmalıdır.
İlgili verinin yayınlanmasında da mevcut protokoller korunup gerekiyorsa geliştirilmeli ve verinin yeniden
kullanımı için yeni politikalar oluşturulmalıdır. Açık verilerin standardizasyonunda üretilecek verinin kısa ve
uzun vadelerde çeşitli pazarların yararına sunulabilecek potansiyel taşıması, kamu sistemlerine uyumlu olması
ve paydaşlarla etkileşime girebilmesi gibi çeşitli hususlar da göz önüne alınmalıdır.

h. İşlenebilirlik: Açık veri aynı zamanda toplumun doğrudan kendisinden edinilmiş ham veri olduğu için
işlenebilirliği de yüksek olan veri anlamına gelir. Diğer bir deyişle, her açık veri daha gelişmiş açık verilere bir
temel sağlar ki, bu da toplumsal açıdan birikimli ilerlemenin yolunu açar. Bu sebeple açık veriler, analizi teşvik
eden ve yeniden kullanılabilecek şekilde sunulan verilerden oluşmalıdır.

5.3. Açık Verinin Faydaları


Açık veri ile çalışmanın hem hükümetler hem özel sektör açısından çok yönlü faydaları bulunmaktadır. Açık
veri, hükümetlerin/özel kuruluşların şeffaflık ve hesap verilebilirliğini arttırdığı gibi vatandaşların/çalışanların
toplumsal katılımı için önemli bir araç haline gelmektedir. Özel sektör açısından değerlendirildiğinde yeni iş
modellerinin ve ekonomik değerin yaratılması açık verinin en önemli faydaları olarak öne çıkmaktadır. Açık
verinin kamu ve özel sektör açısından faydalarını aşağıdaki temel başlıklarda toplamak mümkündür.

§ Halihazırda kullanılmış olan veya kullanılan verilerin açık veri haline getirilmesi sonucunda açık veri sadece
onu üreten ve toplayanlar ile sınırlı olarak kullanılmayacak olması; bu sayede bu veriyi kullanan farklı
paydaşlar tarafından yenilikçi çözümlerin üretilmesi.

§ İdareler ve organizasyonlar arasında açık veri kullanımının arttırılması, verinin tek kaynaktan açık şekilde
kullanılması ve verinin sektörler arası çapraz kullanımı sayesinde maliyetlerin düşmesi ve etkinliğin artması.

§ Özel sektör tarafından kamu idarelerine yardım amacıyla verinin nasıl haritalanacağına veya yayınlanacağına
ilişkin yapılan veri harmanlama çalışmaları ile veri kalitesinin arttırılması ve veri alanında yapılacak
kullanımlar için bir zemin oluşturulması.

§ Kaliteli ve ihtiyaca yönelik verinin açık veri olarak kullanımıyla beraber hem müşterilerin hem de iş
dünyasına içgörü sağlanması sonucunda yeni iş modellerinin yaratılması.

§ Açık verinin hesap verilebilirlik ve şeffaflık sağlaması nedeniyle açık veriyi paylaşan kamu veya özel sektör
aktörlerinin tüketici nezdinde güven kazanmaları.

Açık verinin son kullanıcı açısından faydalarını; zaman kazanımı, çevre, sağlık, enerji, güvenlik ve bilimsel
çalışmalar anlamındaki faydaları olarak daha somut bir şekilde örneklendirmemiz de mümkündür;

a. Zaman kazanımı

Zamanının artan değeri göz önüne alındığında, açık verinin insanların gündelik yaşamına sağladığı en büyük
verimliliğin zaman kazanımı olduğu söylenebilecektir. Özellikle büyük şehirlerde vaktinde gelmeyen toplu
taşıma araçları ve yaşanan trafik sıkışıklıkları insanların zamanlarını verimli kullanmalarını engellemektedir.
Oysaki toplu taşıma araçlarına ait zaman çizelgelerine, trafiğin sıkışık olduğu saatlere vb. verilere rahat
ulaşabilmesine bağlı olarak insanların yolda geçirdikleri zaman azaltılarak insanlara zaman kazanımı
sağlanabilir. Bu amaçla toplu taşımaya ilişkin verilerin açılarak, uygulama geliştirmede kullanılması söz
konusudur.
about:blank 58/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Örneğin, Polanya’da geliştirilen ‘Warszawski Ninja’ isimli bir uygulama ile, toplu taşıma aracı kullanan
vatandaşların yoldaki problemler ve gecikmeler hakkında bilgi sahibi olması sağlanmaktadır. Bu sayede
vatandaşlar alternatif yolları tercih edip yolda geçirdikleri süreleri kısaltabilmektedir. Ülkemizde de benzer
olarak, İstanbul Elektrik Tramvay ve Tünel İşletmeleri Genel Müdürlüğü’nün uygulaması olan Mobiett ile,
duraklardan hangi otobüslerin ne zaman geçeceği gerçek zamanlı olarak görüntülenebilmektedir.

b. Çevre üzerindeki etkisi

Açık verinin çevresel sürdürülebilirlik üzerinde doğrudan etkileri olduğu belirtmektedir. Bu etkiler aşağıdaki
gibi sıralanabilir;

§ Çevre kirliliği hakkındaki bilgilere erişimin kolaylaşması,

§ Enerji verimliliğinin detaylı bir şekilde gözlemlenebilmesi,

§ Çevre koruma kampanyalarının yaratılması için temel oluşturulması.

Sera etkisi ve iklim değişikliği günümüzde en çok endişe edilen konuların başında gelmektedir. Devletler
bunların toksik etkilerinin azaltılabilmesi için yeni yollar aramaktadır. Açık verinin, bu zararlı etkilerin sağlık
açısından riskler oluşturduğu alanlar hakkında detaylı bilgiler edinilmesini sağlayarak, bu zararlı etkilerin
azaltılması için kullanılabileceği belirtilmektedir.

Bu amaçlarla paralel olarak geliştirilen, “Plume Labs” isimli bir uygulama ile, dünyadaki 60 şehrin hava
kirliliği seviyeleri saatlik olarak takip edilebilmektedir. Uygulama Airparif gibi farklı ajanslar tarafından
kamuya açılan açık verileri kullanarak, kirlilik seviyelerini “kritik” veya “zararlı” olarak gösterilmekte ve hava
kirliliği konusunda farkındalık yaratılmaktadır.

c. Hayat kurtarıcı çözümler üzerindeki etkisi

i. Trafik kazalarındaki ölüm oranının azalması: Dünya Sağlık Örgütü (“DSÖ”) Küresel Yol Güvenliği 2018
raporuna göre, dünyada her yıl yaklaşık 1 milyon 350 bin insan trafik kazalarında hayatını kaybetmektedir.
Açık verinin kullanımı ile ölüm ile sonuçlanan trafik kazalarının büyük oranda engellenebileceği dile
getirilmektedir.

Örneğin, kazaların nerede ve hangi zamanlarda olabileceğini tahmin edebilen yazılımlar geliştirilebilmektedir.
Yine bu amaçla geliştirilen “Lifesaver” isimli bir uygulama, kişinin araba kullandığını tespit ettiği anda
telefonu otomatik olarak kilitlemektedir.

ii. Sağlık hizmetlerinin kalitesinin arttırılması: Tüm Avrupa ülkelerinin açık veri portallarında ayrı bir sağlık
bölümü bulunduğu ve diğer veri setlerine kıyasla sağlıkla ilgili verilerin en çok indirilen veriler olduğu
belirtilmektedir. Sağlık verilerinin açılmasıyla, sağlık hizmetlerinin kalitesi hakkında bilgi sahibi olunabileceği
ifade edilmektedir. Bununla birlikte, Amerika’da yapılan bir hesaplamaya göre, özel sağlık veri tabanlarının
açılmasıyla, sadece Amerika’daki 90.000 kişinin kalp krizi geçirmesinin önüne geçilebileceği ve 25.000 kişinin
ölümünün engellenebileceği belirtilmektedir.

Açılan sağlık verileri kullanılarak, ilk yardım noktalarının nerede olması gerektiği tespit edilebilmekte, bu
sayede de özellikle kalp durması kaynaklı ölümlerin gerçekleşmesi önlenebilmektedir. Ayrıca, bir hastalığının
her bir hastanedeki görünme ve tedavi oranlarına ilişkin verilerin açılması, bu hastalığın tedavisinde daha
başarılı olan hastanelerden tedaviye dair bilgi paylaşımı yapılmasını ve bu şekilde hastalığın tedavi oranlarının
azaltılmasını sağlayabileceği belirtilmektedir.

Birçok farklı ülkede açık veri kullanan uygulamalar ile acil durumlara müdahale süresi azaltılabilmekte ve
hastaların hayatta kalma oranları arttırılabilmektedir. Hayat kurtarma oranı en yüksek olan uygulamaların kalp
durması kaynaklı ölümlere odaklandığı ifade edilmektedir. Bilindiği gibi, kalp durmalarının kişinin hayatı
üzerindeki etkileri ilk yardımın zamanlamasına bağlı olarak değişmektedir. Bu uygulamalardan olan
Amerika’daki PulsePoint, hastanın konumuna yakın kalp masajı konusunda eğitimli kişileri ve en yakın ilk
yardım alabileceği yerleri işaretlemektedir.

iii. İtfaiye hizmetlerinin gelişimi: İtfaiye çalışanları için olaya müdahalede tercih edecekleri yolun uygunluğu,
olay yerindeki binalarda tehlikeli maddelerin bulunup bulunmadığı gibi veriler, karar verme aşamaları için

about:blank 59/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

kritik önemdedir. Bu verilen açılmasıyla itfaiye ekiplerinin, riskler ve gerekli olan ekipmanlar hakkında daha
iyi muhakeme yapabileceği belirtilmektedir. Bu sayede de karşılaşılabilecek riskler, bu bilgilerin gerçek
zamanlı olarak erişebilir olmasıyla azalabilmekte ve yangında mahsur kalan kişilerin kurtulma olasılığı
artabilmektedir.

d. Enerji kazanımı

Çevre koruma perspektifinden bakıldığında her bir aile, enerji tüketimlerini ölçümleyip azaltarak açık veriden
yarar sağlayabilecektir. Tüm hane halklarının enerji tüketimleri gösterildiğinde ve benzer hane halklarıyla
karşılaştırma yapılabildiğinde farkındalığın artacağı belirtilmektedir. Ayrıca bireylerin, ortalama hane
halklarıyla karşılaştırma yaptığında kendi enerji tüketimlerini azaltmaya yöneldikleri ve bu sayede daha az
tutarlı fatura ödedikleri gözlemlenmiştir. Avrupa Veri portalının raporuna göre açık veri kullanılarak enerji
tüketiminin %16 azaltılabileceğini hesaplanmıştır. Bu durum sadece bireyler için değil aynı zamanda özel ve
kamu sektöründeki kuruluşlar için de geçerlidir.

e. Güvenliğe katkıları

Verinin açılması sadece sağlık sektörüne fayda sağlamamakta, insan hayatını tehlikeye atabilecek olaylar
engellenebilmektedir. Örneğin LuckyMe isimli uygulama, kullanıcılarının soyguna veya saldırıya uğrama
risklerini bulundukları ortama göre puanlamaktadır. Kullanıcılar bu uygulama ile örneğin karanlık bir sokağa
girmeden önce, sokağın risk oranını ölçebilmektedir. Ayrıca uygulama sayesinde kullanıcılar da, yaşadıkları
olayları (soygun, kavga vb.) raporlayabilmekte veya bir konum hakkında kendi sübjektif hislerine göre
puanlama yapabilmektedir.

f. Bilimsel gelişim

Özellikle üniversite bünyelerinde yapılan araştırmaların, tezlerin veya raporların kamuya açılması, ilgili konu
hakkında çalışan kişilerin bunlardan yararlanarak bilimsel gelişimi desteklemesini sağlamaktadır. Ülkemizde
de “ulusal tez merkezi” altında birçok konu hakkında yazılan tezlere ulaşılabilmektedir.

Açık veri denildiğinde tüm dünyada hükümetlere ait verilerin yine hükümet organizasyonlarına veya özel
sektöre açılması anlaşılsa da açık veri kavramı özel sektöre ait verinin açılması durumunu da içermektedir.
Bugün özel sektörün elinde en az hükümetler kadar önemli veri setleri bulunmaktadır. Hükümetlerin ve özel
sektörün ellerindeki veri setlerinin açık veri haline getirilerek değiş tokuş edilmesi durumunda veriden elde
edilecek faydalar artacaktır. Buna birkaç örnek verecek olursak;

i. 2020 yılına kadar dünyada neredeyse 3 milyar insanının akıllı telefonu olması beklenmektedir. Bir kriz
anında bu telefonlarda konum belirleme (lokasyon) verisi paylaşılması bireylerin şehir içerisinde nasıl hareket
ettiğini ortaya koyacak, dolayısıyla kriz yönetimi kolaylaşacaktır,

ii. Dünyanın etrafında 1000’in üzerinde uydu bulunmaktadır. Bu uydulardan dünyanın çeşitli bölgelerinin yol
durumlarına, elektrik kullanımına vb. unsurlara dair alınan veriler dünyanın ekonomik gidişatı ve aktivitesi
hakkında fikir verebilecektir,

iii. Her saniye 6000’in üzerinde tweet atılmaktadır; bu tweetlerin analiz edilmesiyle hükümetler vatandaşlarına
daha iyi hizmetler sunabilecektir.

Bunun yanında halihazırda özel sektör verisinin açık veri olarak paylaşılması hem özel sektörün hem
hükümetlerin kararlarını diğer kaynaklardan aldıkları veri setleri ile birleştirerek veri analitiği temelli
yapmasını sağlayacaktır. Bugün veri temelli karar alma mekanizmalarını benimseyen şirketlerin %5-6 daha
verimli ve etkili çıktı ile doğuran kararlar alındığı bilinmektedir. Özel sektör özelinde verilerin hükümetlere,
özel sektöre veya vatandaşlara açılmasının faydalarını aşağıdaki temel başlıklar altında toplamak mümkündür;

§ Hukuki ve regülatif yükümlülüklerin yerine getirilmesi,

§ Veri ile ilgili hizmetlerin sunulması,

§ Hükümet özel sektör birlikteliğini desteklemek,

§ İşbirliğini geliştirmek ve işbirlikçi inovasyonu desteklemek,

about:blank 60/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

§ Güven yaratmak ve tanınırlığı arttırmak,

§ Şeffaflık ve yolsuzluğu engelleyici önlemler almak,

§ Müşterilerle ilişki kurabilmek için platformalar yaratmak.

5.4. Dünyada Açık Veri Örnekleri


Bugün dünyada birçok merkezi ve yerel yönetim kamu veri kümelerini toplumun tüm kesimlerinin erişimine
açarak açık devlet (open government) yaklaşımıyla yönetişimlerini açıklık, şeffaflık, hesap verilebilirlik, iş
birliği, katılımcılık, karşılıklı etkileşim ilkeleri çerçevesinde şekillendirmektedir.

Açık devlet olabilmek için öncellikle kişisel verilerden, ticari sırlardan ve gizli devlet verilerinden arındırılmış,
güncelliği sağlanmış, kamu kurum ve kuruluşları tarafından üretilmiş veri kümelerinin; herhangi bir kısıtlama
olmadan açık lisanslar kapsamında, makine tarafından okunabilir formatlarda, toplumun her kesimi tarafından
özgürce kullanılabilen ve dağıtabilen açık devlet verisi (open government data) haline dönüştürülmesi
gerekmektedir. Dünyada başarılı açık veri amaçları ile kurulan kuruluşlar şöyle sıralanabilir [1,2]:

i. Uluslararası Açık Bilgi (Open Knowledge International, OKI). Nisan 2014 tarihine kadar Açık Bilgi Vakfı
(Open Knowledge Foundation, OKF) olarak bilinen Uluslararası Açık Bilgi organizasyonu Rufus Pollack
tarafından 24 Mayıs 2004 tarihinde Birleşik Krallık’ta kurulmuştur.

ii. Web Vakfı (World Wide Web (WWW) Foundation). Tim Berners-Lee tarafından 14 Eylül 2008 tarihinde
Washington’da duyurulan Web Vakfı 15 Kasım 2009 tarihinde çalışmalara başlamıştır.

iii. Açık Devlet Ortaklığı (Open Government Partnership, OGP). 20 Eylül 2011 tarihinde Birleşmiş Milletler
Genel Kurulundan 8 ülke tarafından kurulmuştur.

iv. Global Açık Veri İnisiyatifi (Global Open Data Initiative, GODI). 11 Haziran 2013 tarihinde 5 farklı
organizasyon tarafından açık veri dünyasındaki eş güdümü sağlama amacıyla kurulmuş bir ortaklıktır.

v. Açık Veri İzleme (Open Data Watch). 2013 yılında kalkınma verisi uzmanları tarafından kurulmuştur.

vi. Kalkınma İçin Açık Veri (Open Data for Development, OD4D). 2011 yılında çalışmalara başlayan
Kalkınma İçin Açık Veri oluşumu dünyada sürdürülebilir açık veri ekosistemlerinin oluşturulmasına destek
olması için kurulmuş bir ortaklıktır.

Açık veri platformlarına ve kullanım alanlarına ilişkin olarak dünyada birtakım uygulamalar öne çıkmaktadır.
Trafik verileri, nüfus verileri, sağlık verileri, emlak verileri gibi kamu elinde bulundurulan veriler üzerinden
hayata geçirilmiş açık veri projelerinin niceliğinin yüksek olması nedeniyle, işbu rapor tahtında yer verdiğimiz
örnekler de kamu sektörü altında yoğunlaşmıştır. Bu sebeple, bu başlık altında yer verdiğimiz uygulama
örnekleri, sektörden ziyade konu bazında sınıflandırılmıştır:

i. Sağlık:

eHealth Ireland, İrlanda Sağlık sektöründen toplanan tüm verilerin bir araya getirildiği bir platformdur.
Platform, birçok veri sağlayıcının yanı sıra, temel olarak Sağlık Bakanlığı ve Ulusal Sağlık Projesi tarafından
sunulan açık veriyi kullanmaktadır. Söz konusu veri, en yakın ulaşılabilir sağlık servisleri, hastane vakalarına
ilişkin istatistikler, ulusal bekleme listesi, sağlık müdahalelerinde ödenen ortalama ücretler vb. istatistikleri bir
araya getirmektedir.

ii. Gayrimenkul:

NestReady, Kanada’nın uygulamalarına örnek teşkil eden NestReady, konut, inşaat ve emlak sektöründe
faaliyet gösteren bir internet sitesidir. İlgili site, Kanada Nüfus Sayımı verileri ve ABD Nüfus Sayımı
Bürosu’nun demografik verileri, Kanada Eğitim Bakanlıklarının eyalet düzeyinde eğitim verileri ve ABD
Jeoloji Araştırması verilerini toplayarak konut arama maliyetlerini kişi özelinde özelleştirmekte ve bu
maliyetleri azaltmaktadır. Ev satın alma işlemlerinde emlak şirketleri gibi aracıları aradan çıkartarak zamandan
ve maliyetten tasarruf sağlamaktadır.

about:blank 61/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Rentsquare internet sitesi, bir bölgenin ne kadar tercih edildiğini ve genellikle ilgili bölgedeki kira fiyatlarının
ne olduğunu analiz etmek için belediye verilerini toplamaktadır. Aynı veriler, ev arayan kişi sayısını ve hangi
bölgelerde evlerin boş olduğunun belirlenmesinde kullanılmaktadır. Uygulama ile kiracılar uygun fiyatlı evleri
bulabilmekte ve kiralarını çevre bölgelerin kira bedelleriyle karşılaştırabilmektedir.

iii. Ulaşım:

Waze, 2008 yılında 40 farklı dilde geliştirilmiş ve Hollanda Ulusal Trafik Bilgileri Veri Ambarı tarafından
sunulan verileri kullanarak oluşturulmuş bir uygulamadır. Uygulama kullanıcılara gerçek zamanlı trafik ve yol
bilgileri sunmakta olup, kullanıcılar gitmek istedikleri yer bilgilerini uygulamaya girerek, en uygun yol seçimi
konusunda uygulama tarafından yönlendirilmektedirler. Ayrıca, kullanıcıların da sisteme veri sağlaması
mümkün olmakta, kullanıcılar yolda karşılaştıkları kazalar ya da yapım çalışmaları gibi durumlar hakkında
uygulamaya veri sağlayabilmektedirler.

Trafikkflyt, Norveç’ten çıkan bir uygulama olan Trafikkflyt ile Ulusal Kamu Yolu İdareleri’nden alınan bilgiler
trafik yoğunluğuna ilişkin haritaların oluşturulmasında kullanılmaktadır. Gerçekleşmiş kazalar ve diğer trafik
olayları insanların yoğun trafik bölgelerinden kaçınabilmeleri için bir haritada listelenmekte ve
işaretlenmektedir. Uygulama ile daha iyi bir trafik akışı amaçlanmaktadır.

Tarktee yol, hava ve planlanan yol çalışmalarını dikkate alarak seyahat önerileri sunmakta ve daha verimli
seyahat rotaları oluşturmaktadır. Uygulama ile açık veriler yol koşullarıyla eşleştirilmekte ve bu bilgiler
seyahat tavsiyelerine uyarlanmak için kullanılmaktadır.

Predina, trafik kazalarına ilişkin risk faktörlerini analiz etmek adına açık kaza verilerini analiz etmektedir.
Predina ayrıca risk faktörlerini kullanıcıya özel olarak ayarlamak için kullanıcı verilerini toplamaktadır. Bu
sayede uygulama, kişisel verileri, sürüş stili verilerini geçmiş kaza verileriyle birleştirerek sürücü için en
güvenli yolu belirlemektedir. Ayrıca Predina, herhangi bir sürücü için trafik kazası riskini azaltmak için yapay
zeka teknolojisini kullanmaktadır.

iv. Hava Durumu

Meteo Protect, hava durumu risk yönetimine ilişkin bir sigorta ve reasürans brokeridir. Kurum, hava durumu
verilerinin takibinde, hava durumu ve uydu bilgileriyle ilgili açık verileri kullanmaktadır. Bir sigorta hizmeti
olan Meteo Protect, şirketlere ilişkin risklerin belirlenmesi için şirket başına hava durumu endeksi
oluşturmaktadır. Hava şartları işletme kârlarını olumsuz yönde etkilediğinde veya ek maliyet oluşturduğunda
açık veriden elde edilen bilgilere göre oluşturulan sigorta zararları karşılamaktadır.

v. Araştırma Altyapısı

Data.Gov, ABD hükümeti tarafından, iki farklı açık kaynak uygulamaları vasıtasıyla oluşturulan bir açık veri
platformudur. Sağlık, iklim, ekosistem, eğitim, yerel yönetim, üretim, tarım, enerji, finans, kamu sağlığı,
denizcilik ve bilim alanlarında verilere erişim sağlamakta olan platforma; federal, eyalet, yerel ve federal
yönetime tabi olan kabile yönetimlerinin verileri kaynak oluşturmaktadır. Oluşturulan platform aracılığıyla
kullanıcılar veri araması yapmak suretiyle kamu verilerine erişim sağlayabilmekte olduğundan, data.gov
uygulamasının, açık veri platformları arasında en geniş kapsamlı örnek olduğu söylenebilmektedir.

OpenAIRE, Avrupa’da açık bursa geçişe önderlik eden ve bilimsel iletişimde açıklığı kolaylaştıracak bir AB
kuruluşudur. Gerçek bir e-Altyapı olan OpenAIRE, AB bölgesinde açık bursu teşvik etmektedir ve bilimsel
disiplinler ve tematik alanlarda, Avrupa’da ve sınır ötesindeki araştırma sonuçlarının bulunabilirliğini,
erişilebilirliğini, paylaşıla bilirliğini, yeniden kullanılabilirliğini, yeniden üretile bilirliğini ve izlenmesini
geliştirmektedir.

InstaVIN, araba satın alacakların, satın almak istedikleri araba ile ilgili bilgilerini artırmayı amaçlayan bir
internet sitesidir. İlgili site çalıntı araçlar hakkında bilgi almak için ABD Adalet Bakanlığı ve kolluk
kuvvetlerinden ilgili verileri toplamaktadır ve bu bağlamda bir arabanın durumu hakkında araç geçmişi
verilerini kullanarak rapor oluşturmaktadır.

Quandl, gerçek zamanlı piyasa verilerini toplayan bir açık veri platformudur. 400.000’in üzerinde kullanıcıya
finansal, ekonomik ve sosyal veri depoları havuzuna ücretsiz erişim sağlamaktadır. İlgili uygulama,
aşağıdakiler de dahil olmak üzere birçok ülkenin resmi kurumlarından ekonomik veri ve endeksleri, sanayi,
about:blank 62/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

para, emtia ve faiz verilerini toplamaktadır, bu kurumlara ABD Uluslararası Kalkınma Ajansı, İsrail Bankası,
Brezilya Coğrafya ve İstatistik Enstitüsü, Arjantin Merkez Bankası, Japonya Maliye ve Banka Bakanlığı örnek
gösterilebilir. İlgili uygulama, ekonomi alanında çalışan profesyonellerin ve analistlerin veri aramak, veri
temizlemek veya veri dönüştürmek gibi işlemlerde vakit kaybetmemelerini sağlamaktadır.

London Open Workspaces Map internet adresi, haritada mevcut çalışma alanlarının konumlarını tanımlamak
için coğrafi veriler gibi açık veriler ile çalışma alanlarının kullanılabilirliği ve sağladıkları hizmetler
hakkındaki verileri kullanır. London Open Workspaces Map, Londra’da yer alan kuluçka merkezleri, ortak
çalışma alanları, start-up çalışma alanları ve sanatçı stüdyolarının tespitinde kılavuzluk yapmaktadır. Harita,
kullanıma açık yaklaşık 330 çalışma alanının konumlarını ve içeriklerini işaretlemektedir.

Explore UK, coğrafi veriler ve suç oranları ve yoksulluk hakkındaki resmi veriler gibi açık verileri
kullanmaktadır. Bu verileri etkileşimli bir harita oluşturmak için kullanmakta ve böylece ticari satış, web
uygulamaları veya dahili kullanım için raporlar oluşturmaktadır. İlgili uygulama, Birleşik Krallık’ın herhangi
bir yerinde taşınmaz satın almak veya kiralamak isteyenler için yararlı bir web uygulamasıdır. Platform;
ulaşım, eğitim, çevre, suç ve nüfus istatistiklerini bir araya getirerek, interaktif bir harita üzerinde bölgeleri
birbirleriyle kıyaslamaya olanak sağlamaktadır. Kişi harita üzerinden istediği bölgeye tıklayarak o bölge
hakkındaki tüm bilgilere tek elden ulaşabilmektedir.

Grow London, Londra Belediyesi tarafından geliştirilmiş bir uygulama olup, nüfus, büyüme, işsizlik oranları,
kiralık ve satılık bedelleri, semt bazında ticari özellikler, ulaştırma şebekesi ve daha birçok bilgiyi
içermektedir. Bu uygulama ile Londra’da iş kurmak ya da Londra’ya herhangi bir şekilde yatırım yapmak
isteyen tüm firmalara ihtiyaç duyacakları tüm bilgileri sunarak, kritik kararlar almaları aşamasında yardımcı
olmak hedeflenmektedir.

Riigiteenused internet sitesi, Estonya hükümetinin Mart 2016’dan bu yana yayınlanmış açık veri hizmeti
istatistiklerini kullanmaktadır. Sunulan istatistikler arasında kamu hizmet işlemlerinin sayısı, hizmet
kanallarının türü ve ortalama memnuniyet durumu yer almaktadır. İlgili site, Estonya devlet hizmetlerinin
kullanımı ve performansı hakkında kurumlar ve vatandaşlar arasındaki bağlantıda şeffaflık sağlamaktadır.
Hangi devlet kurumlarının iyi hizmetler sunduğunu ve hangilerinin gelişmesi gerektiğini açık verilerin
analizini yapmak suretiyle göstermektedir.

Open Oil, hükümet kaynaklarından, STK’lardan ve petrol şirketlerinden elde edilen açık verileri
kullanmaktadır. Veriler biçimlendirilir, görselleştirilir ve kamuya duyurulur, böylece petrol şirketi ağları ve
petrol, gaz ve madencilik projelerinin finansal modelleri daha şeffaf hale gelir. İlgili program petrol
sözleşmeleri ve şirketleri ile ilgili bilgileri kolayca erişilebilir kılmaktadır. İnternet sitesi, kurumsal petrol
şirketi ağlarını ve şeffaflığı arttırıcı faaliyetleri görselleştirmektedir.

vi. Sanat

The Albert Kahn Departmental Museum, müzedeki farklı sanat eserleri hakkında etkileşimli bir harita
oluşturmak ve ziyaretçilere müzede yer alan eserlere ilişkin bilgi sağlamak için açık veri ve coğrafi verileri
toplamaktadır. Müzenin internet sitesinde, kullanıcıların bir sanat eserinin hangi ülke, bölge veya ilde olduğunu
görmek için tıklayabilecekleri etkileşimli bir harita bulunmaktadır.

5.5. Ülkemizde Açık Veri Örnekleri


Türk mevzuatında “açık veri” ibaresine açıkça yer verilen herhangi bir kanun, yönetmelik veya tebliğ
bulunmamaktadır. Ancak Türkiye 2011 yılından bu yana açık veri anlamında birtakım çabalar sarf etmiştir.
Açık Veri Dizininin 2013 yılı sonuçlarında yer almayan Türkiye, 2014 yılı sonuçlarına göre 97 ülke arasında
30. sırada, 2015 yılı sonuçlarına göre 122 ülke arasında 47. sırada, 2016 yılı sonuçlarına göre 94 ülke arasında
45. sırada yer almaktadır. Ülkemizde açık veri üzerine örnek çalışmalar şöyle özetlenebilir:

a. Resmi İstatistik Portalı

Resmi İstatistik Programı (“RİP”), resmi istatistiklerin üretimine ve yayımına ilişkin temel ilkeler ile
standartları belirlemek, ulusal ve uluslararası düzeyde ihtiyaç duyulan alanlarda güncel, güvenilir, zamanlı,
şeffaf ve tarafsız veri üretilmesini sağlamak amacıyla 5429 sayılı Türkiye İstatistik Kanunu’na dayanılarak
beşer yıllık dönemler için hazırlanmaktadır. RİP kapsamında TÜİK ve Programa dahil tüm kurum ve
about:blank 63/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

kuruluşlarca üretilen istatistiklerin, Türkiye istatistik sistemine ilişkin bilgilerin ve gelişmelerin kamuoyuna
internet üzerinden tek kapıdan sunumunu gerçekleştirmek amacıyla RİP Portalı hazırlanmış ve 2014 Mart
ayında kullanıcıların hizmetine sunulmuştur. Bu portal üzerinden resmi olarak sağlanan tüm istatistiklere açık
erişim sağlanabilmektedir.

b. T.C. Tarım ve Orman Bakanlığı Açık Veri Portalı

Bakanlık tarafından yönetilen ve üretilen verilere hızlı ve kolay erişimin sağlanması amacıyla hazırlanmış bir
portaldir. Veri setleri; “sınırlar”, “arazi örtüsü”, “korunan alanlar” ve “su” olarak ayrıştırılmıştır.

c. TÜBİTAK Açık Arşivi

Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (“TÜBİTAK”), “TÜBİTAK Açık Bilim Politikası”
uyarınca, kendisi tarafından yürütülen veya desteklenen projelerden üretilen yayınlar (hakemli makaleler vd.)
ile araştırma verilerinin TÜBİTAK Açık Arşivinde depolanmasını ve bu sayede bu verilere açık erişim
sağlanmasını hedeflemektedir. TÜBİTAK Açık Arşivi Aperta adıyla geliştirilmektedir. Aperta kapsamına giren
bilimsel çalışmalar, bu portala yüklenebilmekte ya da yüklenmiş çalışmalara kolayca erişilebilmektedir.

d. Açık Veri ve Açık Veri Gazeteciliği Derneği

28 Aralık 2015’te kurulan Açık Veri ve Veri Gazeteciliği Derneği (“AVVGD”) veri okuryazarlığı alanında
çalışmalar yürütmektedir. AVVGD’nin en önemli çalışmalarından birisi Gazeteciler Cemiyeti ekibiyle birlikte
oluşturduğu “Açık Veri Sözlüğü”dür. Çalışma kapsamında açık veri ve beraberinde gelişen yabancı terimler
Türkçe ’ye kazandırılmıştır. Açık Veri El Kitabı (Open Data Handbook) kaynağından yararlanılarak hazırlanan
“Açık Veri Sözlüğü”, açık veri ve veri gazeteciliği terimlerini öğrenmek isteyen, merak edenler için rehber
niteliği taşımaktadır.

e. T.C. Sağlık Bakanlığı Açık Veri Portali

T.C. Sağlık Bakanlığı’nın 2018 yılı faaliyet raporunda Açık Veri Portali’yle ilgili olarak; “açık veri paylaşım
ilkeleri, kişisel bilginin güvenliği / mahremiyeti gözetilerek kamu kurumlarında, yerel yönetimlerde, özel
sektörde ve sivil toplum kuruluşlarında üretilen veriler açık veri olarak ortak bir veri kaynağından tüm fayda
sağlayıcıların kullanımına açılacaktır” ifadelerine yer verilmiştir.

Bakanlığın internet sitesinde de “Açık Veri Portalı-pilot çalışma” başlığı altında birçok sağlık verisi
yayımlanmaktadır. Ayrıca, Kan, Organ ve Doku Nakli Hizmetleri Dairesi Başkanlığı Resmi Sayfasının
istatistikler bölümünde de organ doku istatistikleri paylaşılmaktadır.

f. Dijital Dönüşüm Portalı

Türkiye’de kamu kurumları, özel sektör, akademi ve STK gibi Dijital Devlet (d-Devlet) ekosistemi paydaşları
arasında bilgi paylaşımı sağlamak amacıyla TÜBİTAK-BİLGEM Yazılım Teknolojileri Araştırma Enstitüsü
(YTE) tarafından Dijital Dönüşüm portali oluşturulmuştur. Dijital dönüşüm kapsamında açık veri hakkında da
çalışmalar yapıldığı görülmektedir. Başbakanlık ve TÜBİTAK-BİLGEM-YTE iş birliği ile 20 Mart 2013
tarihinde “Kamu Yönetiminde Gelişen Trendler: Açık Devlet ve Açık Veri” konulu panel düzenlenmiştir.

i. Ticaret Bakanlığı

T.C. Ticaret Bakanlığı’nın yayımladığı politikalar, stratejiler ve tarafından ülkemizde gerçekleştirilecek açık
veri konusundaki faaliyetlere oldukça önem verilmekte ve de Bakanlık tarafından yürütülen büyük veri analizi
ve yapay zeka projeleri kapsamında da, firmalar, üniversiteler ve araştırma kuruluşları ile işbirliği yapılması
hedeflenmekte, bu kapsamda Bakanlıkça tutulan verilerin, daha etkin politikalar sunulması amacıyla diğer
paydaşlarla paylaşımı konusunda çalışmalar devam etmektedir [3].

Bölüm Özeti
Açık Veri (open data), “Herkesin ücretsiz ve özgürce erişebileceği, kullanabileceği, dağıtılabileceği ve değerler
üretebileceği” veridir. Verilerin makine tarafından okunabilir biçimde, toplu olarak ve açık lisanslı bir şekilde

about:blank 64/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

bulunması sayesinde açık hale getirilir. Dünyada son yıllarda internetin yaygınlaşmasıyla baş döndürücü
şekilde yükselen trendlerin başında “açık veri” gelmektedir.

Kamu ve özel sektör konunun önemini kavramış, açık veri platformlarını kurarak verilerini araştırmacıların
kullanımına açmaları ile şeffaflık, sürdürülebilirlik, teknolojik ve bilimsel alanlarda gelişimlerin inanılmaz
hızda artmasının önü açılmıştır. Bu verilerin açık ve işlenebilir olması ise bilgi ve buna bağlı katma değer
üretimindeki en önemli faktördür. Buna bağlı olarak da açık veri platformları yaygınlaşmaktadır. Uluslararası
teknoloji devleri bu konulara en fazla yatırım yapan ve ürün geliştiren şirketlerdir.

Dünyada olgunlaşma seviyesini aşan ve neredeyse durağan hale gelen büyük verinin açık hale getirilmesi
teknolojileri, analitiği, güvenliği ve mahremiyeti konularına baktığımızda ülkemizde bu konuyu önemseyen
çalışmalar yapılsa da bunun yaygınlaştırılmasında işin başında olduğumuz da açıktır.

Açık veri platformlarının oluşturulması, kaynak israfını da önlemek için mevcut kaynaklardan faydalanılması,
kurulu olan merkezlerden bilgiler alınması, çok gerekli ise de kurum bünyelerine kurulmalıdır.

Kaynakça
[1] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O.,
Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.

[2] Lugmayr, A., Lugmayr, A., Stockleben, B., Stockleben, B., Scheib, C., Scheib, C., ... & Mailaparampil, M.
A. (2017). Cognitive big data: survey and review on big data research and its implications. What is really
“new” in big data?. Journal of Knowledge Management, 21(1), 197-212.

[3] Özkan Özlem, (Ağustos 2019), “Açık Veri”, Hukuk, Düzenlemeler ve Kamu İlişkileri Çalışma Grubu
Raporu. Türkiye Bilişim Vakfı.

[4] Web Sitesi (Son Erişim: Temmuz 2021)

URL: Sitesihttps://www.bundesregierung.de/breg-en/news/open-data-strategy-1940558

Ünite Soruları
Soru-1 :

Aşağıdakilerden hangisi verilerin açık hale getirilmesi ile beraberinde getirmez?

(Çoktan Seçmeli)

(A) Evrensel Katılım

(B) Yeniden Dağıtım

(C) Kullanılabilirlik

(D) Erişim

(E) Tek kullanımlık

Cevap-1 :

Tek kullanımlık

Soru-2 :
about:blank 65/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Aşağıdakilerden hangisi açık veri ilkelerinden biri değildir?

(Çoktan Seçmeli)

(A) Hesap verilebilirlik

(B) Güncellik

(C) Standart dışına çıkma

(D) İşlenebilirlik

(E) Kapsayıcılık

Cevap-2 :

Standart dışına çıkma

Soru-3 :

Aşağıdakilerden hangisi açık verinin faydalarından biridir?

(Çoktan Seçmeli)

(A) Zaman kazanımı

(B) Gizlilik

(C) Enerji kaybı

(D) Erişim kısıtlamaları

(E) Olağanlık

Cevap-3 :

Zaman kazanımı

Soru-4 :

Kullanıcılarının saldırıya uğrama risklerini bulundukları ortama göre puanlayan XX isimli uygulama,
açık verinin hangi faydasını sağlar?

(Çoktan Seçmeli)

(A) Çevre üzerindeki katkısı

(B) Güvenliğe katkısı

(C) Enerji kazanımı

(D) Zaman kazanımı

(E) Bilimsel Gelişim

Cevap-4 :

Güvenliğe katkısı
about:blank 66/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Soru-5 :

“Yaşanılan bir kriz anında telefonlardan konum belirleme verisinin paylaşılması, bireylerin şehir içinde
nasıl hareket ettiklerini ortaya çıkaracaktır” 

Yukarıdaki bu cümle açık verinin hangi katkısına örnektir?

(Çoktan Seçmeli)

(A) Ekonomik gidişatın takibi

(B) Hükümetin vatandaşlara iyi hizmet sunumu

(C) Emlak sektörünün takibi

(D) Kriz yönetimi

(E) Sağlık alanındaki yeniliklerin takibi

Cevap-5 :

Kriz yönetimi

Soru-6 :

Aşağıdakilerden hangisi ülkemizdeki açık veri üzerine yapılan çalışmalardan biri değildir?

(Çoktan Seçmeli)

(A) Resmi İstatistik Portalı

(B) TÜBİTAK Açık Arşivi

(C) Dijital Dönüşüm Portalı

(D) Açık Veri Gazeteciliği Derneği

(E) Web Vakfı

Cevap-6 :

Web Vakfı

Soru-7 :

“Büyük veride, ekonomik ve sosyokültürel değer yaratmanın en etkili yöntemi ………………….olmasıdır.” 

Yukarıdaki cümle aşağıdaki kavramlardan hangisi ile tamamlanır?

(Çoktan Seçmeli)

(A) Saf verinin elde edilebilir

(B) Verinin temizlenebilir

(C) Veriye erişimin

about:blank 67/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(D) Verinin okunaklı

(E) Sabit verinin

Cevap-7 :

Veriye erişimin

Soru-8 :

“………., herhangi bir telif hakkına sahip olmayan, herkes tarafından kullanılabilen, düzenlenebilen ve
dağıtılabilen veridir.”

Yukarıdaki cümle aşağıdakilerden hangi kavram ile tamamlanabilir?

(Çoktan Seçmeli)

(A) Kapalı veri

(B) Açık veri

(C) Ayıplı veri

(D) Bilimsel veri

(E) Kategorileştirilmiş veri

Cevap-8 :

Açık veri

Soru-9 :

Ülkemizde yürütülen bilimsel çalışmaların yüklendiği portal neresidir?

(Çoktan Seçmeli)

(A) Dijital Dönüşüm Portalı

(B) Resmi İstatistik Portalı

(C) TÜBİTAK Açık Arşivi

(D) Web Vakfı

(E) Uluslararası Açık Bilgi

Cevap-9 :

TÜBİTAK Açık Arşivi

Soru-10 :

Büyük Veriden Açık Veriye evrim sırası nasıldır?

(Çoktan Seçmeli)

about:blank 68/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(A) E-Dönüşüm - Açık Devlet - Sayısallaşma

(B) E-Dönüşüm - Sayısallaşma - Açık Devlet

(C) Açık Devlet - Sayısallaşma - E-Dönüşüm

(D) Sayısallaşma - Açık Devlet - E-Dönüşüm

(E) Sayısallaşma - E-Dönüşüm - Açık Devlet

Cevap-10 :

Sayısallaşma - E-Dönüşüm - Açık Devlet

about:blank 69/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

6. SEMANTİK VERİ
Birlikte Düşünelim
1.    Semantik teknolojileri ile nasıl bir büyük veri havuzunda yüzebiliriz?

2.    Semantik web’e neden ihtiyaç duyulmuştur?

3.    Semantik teknolojilerinin tarihsel gelişiminde önemli dönüm noktalarının başında ne gelmektedir?

Başlamadan Önce
Semantik, en temel halinde kelimelerin içerdiği anlamları ifade eder. Web 3.0 ile birlikte yazıların içinde yer
alan kelimelerden ziyade onların anlam bütünlüğü ön plana geçer. Arama motorları bu yol ile çok daha akıllı
hale gelirler.

Semantik Web 3.0 sayesinde arama motoru, girişi yapılan semantik kelimeler üzerinden ne bulunmak
istendiğini kısa sürede anlar ve en doğru arama sonuçlarına yönlendirir. Anlam bilimi olan Semantik, Web 3.0
teknolojisinin temellerinden biri olarak, insanlar ve yazılımlar arasında anlamsal ilişkinin kurgulanmasını
sağlar. Bu sayede makineler ve insanlar arasında daha fazla etkileşim ön plana çıkar.

6.1. Semantik Veriye Giriş


World Wide Web (www)’in mucidi olarak bilinen bilgisayar bilimi mühendisi Tim-Berners-Lee, 1999 yılında
semantik web için şu ifadeyi kullanmıştır: "Web için bir hayalim var, öyle ki bilgisayarlar web üzerindeki
bütün veriyi, içerikler, linkler ve insanlarla bilgisayarlar arasındaki bütün işlemler gibi, analiz etmeye muktedir
olacaklar. Henüz ortaya çıkmamış olsa da ortaya çıktığı zaman anlamsal ağ ticaretin günlük mekanizmaları,
bürokrasi ve günlük yaşamlarımız birbiri ile konuşan makinalar tarafından yürütülecek. İnsanlığın asırlardır
konuşup durduğu "akıllı ajanlar" nihayet gerçekleşecek."

Semantik (Anlamsal) teknolojiler, çeşitli araştırma alanlarında veri ve kaynak keşfi, indeksleme, sorgulama ve
entegrasyonda önemli bir rol oynamıştır. Semantik teknolojilerin kullanılmasının amacı, büyük veri
içerisindeki veri ve kaynakların anlamlarını elde etmektir. Bu, kullanıcıların ve makinelerin içeriği anlamasına
yardımcı olur. Doğal olarak dijital veri ve kaynaklar anlaşılabilir bir şekilde alınabilir, paylaşabilir ve
birleştirebilirler. Bu anlamlandırma Şekil 6.1’de görüldüğü üzere farklı yöntemlerle geliştirilebilir.

about:blank 70/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 6.1. Verinin farklı yöntemlerle anlamlandırılması (semantik veri işleme)

Günümüzde, anlamsal meta verilerin kullanılmasına yönelik birçok servis vardır. Bilgiyi artık sadece metin
üzerinden değil anlamı üzerinden de bulabilir ve organize edilebilmektedir.

Semantik (Anlamsal) teknolojiler kelimelerin veya tümceciklerin eşit olduğu yerleri kolayca anlayabilir.
Örneğin ‘Jaguar’ kelimesini otomobil endüstrisi içeriği ile bulmak istendiğinde sistem ‘Jaguar’ kelimesini
içeren hayvanlar ile ilgili dokümanları dikkate almayacaktır. Sistem bir aramanın konusu üzerinden diğer
anlamsal ilgili konuları da içeren bilgilerin yerini belirleyerek kullanıcıya sunacaktır.

Anlamsal verilerin uygulanması webdeki çeşitli yerlerde, örneğin belirli arama deneyimlerinde görülmektedir.
Bu zengin, yeni bilgi katmanı sayesinde, arama motorları ve diğer botlar, en alakalı içeriği doğrudan
kullanıcıya sunabilir ve insanların zaman ve emekten tasarruf etmesini sağlayan en önemli parçalara göre
düzenlenebilir. Bu sayede pratik ve somut bilgiler sorgulandığında konu ile ilgili hızlı bir öneri sunarak
aranılan bilgi anında kullanıcıya sunulmaktadır. Örneğin Şekil 6.2’de arama motoruna ‘Almanya’nın Nüfusu’
şeklinde bir anahtar girildiğinde çıkan sorgu sayesinde istenilen bilgiye anında ulaşılmaktadır.

Şekil 6.2. Semantik web tabanlı sorgu sonuçları

Anlamsal teknolojiler, bilginin gösterilmesi (sunulması) yöntemlerini de geliştirmektedir. Sorgulama


sonuçlarının bir sayfa içinde sıralı gelmesi yerine sonuçların anlamına göre sınıflandırılarak gösterilmesi
mümkün olmamaktadır. Daha ileri adımlarda istediğimiz bilgi ile ilgili bulunan tüm dokümanlardan fazlalıkları
ayıklayarak tümleştirip uygun bir özet haline getirildikten sonra kullanıcıya sunmak mümkün olabilmektedir.
Dokümanlar içindeki temel varlıklar arasındaki ilişkiler kullanıcıya görsel olarak sunulabilmektedir. Tüm
bunlar mevcut bir bilgiden anlamlı yeni bir bilgi yaratmak için çıkarsama yapmayı gerektirmektedir.

Farklı büyük veri ortamlarında yer alan veri tabanlarında, aynı kavramlar için farklı tanımlar kullanılmaktadır.
Bu tür problemler aynı veritabanını kullanan veya geliştirenler için sözlükler kullanılarak giderilmektedir.
Ancak farklı veri tabanlarındaki aynı kavramlar için henüz tam anlamıyla bir çözüm bulunabilmiş değildir.
Anlamsal teknolojilerde ontolojiler kullanılarak bu tür problemler çözülmeye çalışılmaktadır. Bir anlamsal web
dokümanı, terimlerin anlamlarını ve bu terimler arası ilişkileri ifade etmek için bir ontolojiye işaret etmektedir.

Ontoloji kavramı bir ajan ya da ajan topluluğunun sahip olabileceği kavramların ve ilişkilerin tanımıdır.
Ontoloji, varlıkları ilişkileriyle birlikte tanımlayan felsefecilerin kullandığı bir sözcüktür ve semantik web en
temel bileşenidir.

Kurum içi veya kurumlar arası farklı kaynaklarda bulunan bilginin entegrasyonu için anlamsal meta verinin
kullanılması çok önem arz etmektedir. Çünkü kurumlarda bilginin sınıflandırılması ve tanımı için farklı
şemalar kullanılmakla beraber bilginin kendi içinde de farklı terminolojiler kullanılmaktadır. Bu amaç
doğrultusunda XML şemaları önemli bir imkan sunmaktadır. XML ve benzeri farklı bilgi gösterim şemaları
arasında kurulacak eşleştirme işlemi ile kullanılacak bilgilerin birlikte çalışabilirliğini sağlamaya yönelik ortak
bir gösterim anlamsal teknolojileri ile mümkün olabilmektedir. Buradaki temel amaç veriler ilgili veriler
arasında tam bir uyum sağlayabilmek ve ilgili verilerle eşleştirme yapabilmektedir. Günümüzde veri
uyumluluğunu sağlamak şirketlerin en çok para harcadığı alanlardandır. Bu sorunun üstesinden gelmek için
yapay zekâ alanında da kullanılan ontolojilerden faydalanılması düşünülmüştür.

about:blank 71/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Anlamsal teknolojiler ortak yöntem ve işlemler içinde kullanılabilmektedir (Örn: web servisleri). Bir web
servisi fonksiyonu anlamsal olarak tanılanabildiğinde, bu web servisine ihtiyacı olan sistem tarafından
kolaylıkla bulunabilir. Mevcut web servislerine kendi fonksiyon ve bağlamının tanımlandığı meta veri
sağlandığında, yeni web servisleri mevcut web servislerinin yeni yapısına otomatik olarak bağlanabilmekte ve
iletişim kurabilmektedir. Bu amaç doğrultusunda farklı semantik veri modelleri geliştirilmektedir.

Semantik veri modeli (SDM) büyük veri kümeleri için üst düzey semantik tabanlı bir veritabanı açıklaması ve
yapılandırma formalizmidir (veritabanı modeli). Bu veritabanı modeli, bir uygulama ortamının anlamını çağdaş
veritabanı modelleriyle mümkün olandan daha fazla yakalamak için tasarlanmıştır. Bir SDM belirtimi, bir
veritabanını uygulama ortamında var olan varlık türleri, bu varlıkların sınıflandırmaları ve gruplamaları ve
bunlar arasındaki yapısal bağlantılar açısından tanımlar. SDM, bir uygulama ortamının semantiğini yakalamak
için bir üst düzey modelleme ilkelleri koleksiyonu sağlar. SDM, türetilmiş bilgileri bir veritabanı yapısal
özelliğinde barındırarak, aynı bilgilerin çeşitli şekillerde görüntülenmesine izin verir; bu, veritabanı
uygulamalarında tipik olarak mevcut olan çeşitli ihtiyaçları ve işleme gereksinimlerini doğrudan karşılamayı
mümkün kılar. Mevcut SDM'nin tasarımı, onun bir ön versiyonunu kullanma deneyimimize dayanmaktadır.
SDM, veritabanı sistemlerinin etkinliğini ve kullanılabilirliğini artırmak için tasarlanmıştır. Bir SDM veri
tabanı açıklaması, bir veri tabanı için resmi bir belirtim ve dokümantasyon aracı olarak hizmet edebilir; çeşitli
güçlü kullanıcı ara yüzü olanaklarını desteklemek için bir temel sağlayabilir, veritabanı tasarım sürecinde
kavramsal bir veritabanı modeli olarak hizmet edebilir ve yeni bir tür veritabanı yönetim sistemi için veritabanı
modeli olarak kullanılabilir.

Büyük veri kümeleri üzerinde işlenen anlamsal web’in ön plana çıkan bazı kazanımları şu şekilde
sıralamaktadırlar:

§ Bilgi anlamına uygun olarak kavramsal alanda organize edilecektir.

§ Tutarsızlıklar ve ortaya çıkarılan yeni bilgiyi kontrol etmek için otomatik araçlar sürekliliği destekleyecektir.

§ Anahtar kelime tabanlı arama, insancıl bir yolla sunulan, çıkarılan ve kurtarılacak olan veri tabanı sorgu
cevapları tarafından istenilen bilgi değiştirilecektir.

§ Veri tabanı sorgu cevapları üzerinden çeşitli belgeler desteklenecektir.

§ Bilginin önemli parçaları için (belgelerin bölümleri) kimlerin görüntüleyebileceğini tanımlamak mümkün
olabilecektir.

6.2. Semantik (Anlamsal) Verinin Gelişimi


Anlamsal veri modellerine duyulan ihtiyaç ilk olarak 1970'lerin ortalarında Birleşik Bilgisayar Destekli Üretim
(ICAM) programının bir sonucu olarak ABD Hava Kuvvetleri tarafından fark edilmiştir. Bu programın amacı,
bilgisayar teknolojisinin sistematik uygulaması yoluyla üretim verimliliğini artırmaktır. ICAM Programı,
üretim verimliliğini artırmaya dahil olan kişiler için daha iyi analiz ve iletişim tekniklerine ihtiyaç olduğunu
belirlemiştir. Sonuç olarak, ICAM Programı, aşağıdakileri içeren bir dizi teknik geliştirmiştir [1]:

IDEF0: Çevre veya sistem içindeki faaliyetlerin veya süreçlerin yapılandırılmış bir temsili olan bir “fonksiyon
modeli” üretmek için kullanılır.

IDEF1: Çevre veya sistem içindeki bilginin yapısını ve anlamını temsil eden bir “bilgi modeli” üretmek için
kullanılır. IDEF1X ise anlamsal bir veri modelleme tekniğidir. Bir ortam veya sistem içindeki bilginin yapısını
ve anlamını temsil eden bir grafik bilgi modeli üretmek için kullanılır. Bu standardın kullanımı, bir kaynak
olarak verilerin yönetimini, bilgi sistemlerinin entegrasyonunu ve bilgisayar veri tabanlarının oluşturulmasını
desteklemeye hizmet edebilecek anlamsal veri modellerinin oluşturulmasına izin verir.

IDEF2: ortamın veya sistemin zamanla değişen davranış özelliklerini temsil eden bir "dinamik model" üretmek
için kullanılır.

1990'larda, anlamsal modelleme tekniklerinin uygulanması, ikinci tür anlamsal veri modelleriyle
sonuçlanmıştır. Bunun bir örneği, anlamsal modelleme dili Gellish (2005) olarak daha da geliştirilen ISO
15926 -2 (2002) olarak standartlaştırılmış anlamsal veri modelidir. Gellish dilinin tanımı, anlamsal bir veri
about:blank 72/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

modeli şeklinde belgelenmiştir. Gellish'in kendisi, başka anlamsal modeller oluşturmak için kullanılabilen bir
anlamsal modelleme dilidir. Bu anlamsal modeller, anlamsal veri tabanları olan Gellish veritabanlarında
saklanabilir.

Web’deki verilerin çok büyük olması, bu verilerin yazılımlar tarafından daha kolay kullanılabilir ve
anlaşılabilir olmasını gerektirmektedir. Bu amaçla semantik Web ve semantik veri kavramı ortaya konmuştur.
Son 15 yılda geliştirilen semantik web protokolleri ile Web verileri daha anlamlı bir şekilde tanımlanabilir ve
birbiriyle ilişkilendirilebilir. Böylece bu tür verilerin yazılımlar tarafından aranması, bulunması ve kullanımı
çok daha kolay olacaktır. Bu yöntemle açık semantik veriye geçiş yapılmış olacaktır. Bu şekilde verilerin
tanımlandığı Web’e ise Web 3.0 denmektedir. Mevcut web’de bu standartlara uygun oldukça fazla veri
bulunmaktadır ve bunlar da açık bir şekilde kullanıma sunulmaktadır.

Şekil 6.3 Web’in gelişimi [2]

Web 1.0 adı verilen ilk evrede bilgiye erişim ve ağda yer alma durumu söz konusu iken, Web 2.0 insanlar arası
sosyal iletişimi sağlamayı amaçlamaktadır. Web 3.0 ise içinden geçtiğimiz dönemi kapsamakta ve bilgilerin
anlamsal olarak ele alınarak makinelerin bunu okumasına olanak sağlamıştır. Web 3.0, anlamlandırıp bilgileri
bağlama işini yaparak interneti daha kullanışlı ve keyifli kılmayı amaçlamaktadır. Web 4.0 daha sonraları
karşımıza çıkacaktır. Web 4.0 her yerde erişebileceğimiz bir yapıda akılların birbiri ile bağlantısını sağlayacak
internet olarak karşımızda olacaktır. İnternetin evrimi Şekil 6.3’te ve gelişim evreleri ile ilgili yapı Şekil 6.4’te
verilmiştir.

about:blank 73/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 6.4. İnternet gelişimi ile semantik web’in doğuşu [3].

Semantik Web, Web 3.0 ile hayatımıza girmiş olup dokümanlara semantik anlamlar ekleyerek makinelerin
bunu okuyabilir/anlayabilir hale getirilmesi ve makinelerin birbiri ile etkileşiminin artırılmasını sağlamaktır.
Bu yüzden Web’de dokümanların hâkimiyeti yerine veriye doğru bir dönüşüm başlamıştır. Fakat şimdiye kadar
gerçekleşen değişim çok sınırlıdır. Bunun ana sebebi çoğu web sayfasının farklı formatlarda
biçimlendirilmemiş metin veya veri halinde olmasıdır.

Semantik web teknikleri günümüz teknolojileri için göreceli olarak yenidir. Bu yenilikleri takip ederek,
kullanımını yaygınlaştırmak için ihtiyaçları analiz edip uygun alanlarda yeni tanımlamalar getirecek
organizasyonlara ihtiyaç bulunmaktadır. Bu organizasyonlardan bir kısmı çok geniş alanlarda hizmet
vermekteyken, bir kısmı web teknikleri, bir kısmı da semantik web üzerine standartlar geliştirmektedir.

Semantik web için standartları geliştiren bazı organizasyonlar aşağıdaki gibidir [3];

§ Uluslararası Standartlar Organizasyonu- International Organization for Standardization (ISO)

§ Uluslararası Elektroteknik Organizasyonu- International Electotechnical Commission (IEC)

§ Yapılandırılmış Bilgi Standartlarını Geliştirme Organizasyonu- Organization for the Advancement of


Structured Information Standards (OASIS)

§ Dünya Çapında Ağ Birliği- World Wide Web Consortium (W3C)

§ İnternet Mühendisliği Görev Grubu- International Engineering Task Force (IETF)

§ Ulusal Standartlar ve Teknoloji Enstitüsü- National Institute of Standards and Technology (NIST)

§ Nesne Modelleme Grubu- The Object Modeling Group (OMG)

§ Anlamsal Ağ Servisi- Semantic Web Services Initiative (SWSI)

§ Birleşik Devletler Ulusal Tıp Kütüphanesi- United States National Library of Medicine (NLM)

Artan dijital sistemlerin uzaktan erişimi tetiklemesi, birçok işin web ortamına aktarılması ile günümüzde web
sayfaları muazzam büyüklükte veri alanlarına dönüşmüştür. Bu sayfaların içerdiği veriler çeşitli araçlar veya
uygulamalar için bir standart dahilinde olmadığından kullanılamaz durumdadırlar. Kullanıcıların uygulamaları
ve web siteleri arasında yapısal veri aktarımı sağlamak ve tarayıcı uygulamalarında kullanıcı deneyimlerini
geliştirmek için verilerin belirli kurallar dizisi çerçevesinde yayınlanması gerekliliği doğmuştur. Bu kurallar
dizisi Şekil 6.5’te verilmiştir.

about:blank 74/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

 Bu gerekçelerden hareketle semantik web büyük veri kümelerinde hızlı yol almak adına geliştirilmiş ve
günümüzde popüler olarak kullanılmaktadır. Bu tarihsel gelişim henüz nihai sonuca ulaşamamış olmakla
birlikte web 4.0 ile çok daha gelişmiş ve web 3.0 temelleri üzerine kurulmuş daha akıllı ve daha hızlı ajanlar
oluşturacağı aşikardır. Bu sayede makinelerin etkileşiminin yanında makine-insan etkileşiminin de üst seviyeye
ulaşması beklenmektedir.

Şekil 6.5. Semantik web’in katmanları [4]

6.3. Semantik (Anlamsal) Verinin Temel Hedefleri


İki bilgi sisteminin anlamsal olarak veriyi işlemesi olarak karşımıza çıkan semantik web teknolojisini birlikte
işlerlik bakımından yeni bir yaklaşım olarak görülmektedir. Semantik web teknolojisi beklenmedik bir
durumda bile “doğru olanı yapan” profesyonel sistemler geliştirmemize yardımcı olabilecektir. Bu kadar uçsuz
limitsiz bilgiyi barındıran dünyada, sınırlama yapan karar verme süreçlerine ihtiyaç duyulmaktadır. Örneğin
internette özel yeni bir servis aradığımızda ilgili olan kelimeleri sınırlandırarak bir arama yapmamız
gerekecektir. Klasik erişim kontrol mekanizmaları ile aradığınız sonuca ulaşmak çoğu zaman mümkün
olmamaktadır. Daha esnek kuralların işlerlik kazandığı yeni karar verme süreçlerine ihtiyaç duyulmaktadır.
Semantik web teknolojileri bunu gerçekleştirecek teknik çerçeveyi bünyesinde barındırmaktadır. Semantik web
teknolojisi esnek, zeki bilgi sistemlerinin inşa edilmesi için çaba sarf edilen bir yaklaşımdır [5].

Semantik web çatısı altında oluşturulan anlamsal bir veri modeli birçok amaca hizmet etmek için kullanılabilir.
Bazı temel hedefleri şunları içerir:

1. Veri Kaynaklarının Planlanması: Bir işletmeyi çalıştırmak için gereken verilerin genel bir görünümünü
sağlamak için bir ön veri modeli kullanılabilir. Model daha sonra, paylaşılan veri kaynakları oluşturmaya
yönelik projeleri belirlemek ve kapsamını belirlemek için analiz edilebilir.

2. Paylaşılabilir Veritabanlarının Oluşturulması: Kullanıcılar tarafından doğrulanabilen ve daha sonra


çeşitli veritabanı yönetim sistemleri teknolojilerinden herhangi biri için fiziksel bir veritabanı tasarımına
dönüştürülebilen verilerin uygulamadan bağımsız bir görünümünü tanımlamak için tam olarak geliştirilmiş bir
model kullanılabilir. Tutarlı ve paylaşılabilir veritabanları oluşturmanın yanı sıra, veri modelleme yoluyla
geliştirme maliyetleri önemli ölçüde azaltılabilir.

3. Satıcı Yazılımının Değerlendirilmesi: Bir veri modeli aslında bir organizasyonun altyapısını temsil
ettiğinden, yazılımın ima ettiği altyapı ile şirketin fiilen iş yapma şekli arasındaki olası tutarsızlıkları
belirlemek için satıcı yazılımı bir şirketin veri modeline göre değerlendirilebilir.

4. Mevcut Veritabanlarının Entegrasyonu: Mevcut veritabanlarının içerikleri anlamsal veri modelleri ile
tanımlanarak bütünleşik bir veri tanımı türetilebilir. Uygun teknoloji ile, ortaya çıkan kavramsal şema,
dağıtılmış bir veritabanı ortamında işlem işlemeyi kontrol etmek için kullanılabilir. ABD Hava Kuvvetleri

about:blank 75/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Entegre Bilgi Destek Sistemi (I2S2), heterojen türde bir veritabanı yönetim sistemleri ortamlarına uygulanan
bu tür teknolojinin deneysel bir gelişimi ve gösterimidir.

6.4. Semantik (Anlamsal) Web’in Uygulama Yerleri


Bilgisayar ile karşılıklı etkileşim sayesinde internet üzerinden iş yapma biçimi değişmiştir. Uygulamalarda
kişiler, yerler ve kavramlar üzerine kurulu yönlendirmeler olanaklı hale gelmiştir. Bu alanlara aşağıdaki
örnekler verilebilir:

Yazılım ajanı tabanlı dağıtık işlem uygulamaları:

Ontolojiler aracılığıyla tanımlanmış, yapılandırılmış ve anlamlandırılmış bilgiler, yazılım ajanlarının bu


bilgileri büyük veri kümeleri içerisinde taraması, harmanlaması ve kullanmasını sağlayacaktır. Bu birçok
alanda şu anda hayal edilen uygulamanın gerçekleştirilmesini sağlayacaktır. Web tabanlı yazılımların en
önemli özelliklerinden biri olup bu alanda yoğun kullanılmaktadır.

Anlam tabanlı web arama makineleri:

Ontolojiler ile tanımlanmış web kaynakları, web arama makinelerinin daha akıllı sorgulamaları yapmasına
imkân verecektir. Ülkelerin bağımsızlığını tehdit edecek kişi veya grupların web üzerinden kullanmış oldukları
anahtar kelimelerin bir araya gelmesi ile takibe takılması sayesinde tehditlere erişimin sağlanması mümkündür.

Anlam tabanlı sayısal kütüphaneler:

Anlamsal web teknolojilerinin sağladığı etkili sınıflandırma ve endeksleme yöntemleri sayısal kütüphanelerde
bulunan çoklu ortam veri içeriğine ulaşımı ve sayısal kütüphaneler arası birlikte işleye bilirliği
kolaylaştıracaktır. Ülkemizde de en büyük sayısal kütüphane dergipark çatısı altında oluşturulmuş olup
kaynakların bilgisayar ortamına aktarılması ile sayısallaştırılması olarak ifade edilmektedir.

Ontoloji destekli kurumsal bilgi yönetimi:

Küresel ekonomi ile birlikte, iş gücü, sermaye ve stok yönetimi gibi geleneksel kaynakların yanında, bilginin
bir kaynak olarak kurumlarda yönetimi çok önem kazanmakta ve önemli bir üretkenlik etmeni olarak ortaya
çıkmaktadır. Anlamsal web teknolojileri kurumsal bilgilerin etkin bir şekilde yönetilmesini ve kullanılmasını
sağlamaktadır.

Otomatik web servisi keşfi, aktive edilmesi, karşılıklı işleyebilirliği ve izlenebilirliği:

Web servisleri son zamanlarda en çok konuşulan ve web ortamında yeni fırsatlara yok açacak bir teknolojidir.
Anlamsal web bu servislerin otomatik olarak bulunması, seçilmesi, çalıştırılması, karşılıklı izlenebilirliğini ve
izlenmesini sağlamaktadır.

Bölüm Özeti
Bilgi gün geçtikçe artmakta, farklı yapılarda büyük veri kümeleri oluşmakta ve bu bilgiler daha karmaşık bir
hal almaktadır. Günümüzdeki teknolojilerle bilgiler arasındaki ilişkileri, anlamaları ortaya koymak oldukça
güçtür. Semantik teknolojiler büyük veri üzerindeki bu olumsuzluk giderilerek sonuca ulaşma mümkün
kılınmaktadır.

§ Semantik teknolojiler ile kullanıcıların büyük veri kümesi içerisinde aradıkları bilgilere daha kolay ve hızlı
ulaşabilmesi hedeflenmektedir.

§ Semantik teknolojiler gün geçtikçe çok fazla araştırmacı, kurum ve kuruluşun ilgisini çekmiş, büyük
kurumlar bu teknolojilere ciddi yatırımlarda bulunmuşlardır.

§ Semantik teknolojiler ile web 3.0 dönemine geçilmiş olup internet dünyasında devrim niteliğinde yeniliklere
yol açmaya çalışılmaktadır.

about:blank 76/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

§ Semantik web ile her geçen gün artan internet kullanıcı sayısı ve büyük veri yığını daha anlamlı hale
gelecektir.

§ Web üzerinde yapılan dar aramalar yerine, birbiri ile ilişkilendirilebilen aramalar yapılabilecektir.

§ Her geçen gün artan ve yenilenen teknolojileri ile çok da uzak olmayan bir zamanda semantik web’in
günümüzdeki web’in tamamen yerini alması beklenmektedir.

§ İnternetteki tüm bilgi kaynaklarını bir araya getirerek aranan bilgiye ulaşmayı sağlayan anlamsal web,
geliştirilmeye devam etmektedir.

Kaynakça
[1] Stringfixer Web Sitesi, “Anlamsal veri modeli”. (Son Erişim:20.01.2022)

URL: https://stringfixer.com/tr/Semantic_data_model

[2] Spivack N. 2007 How the WebOS Evolves? (Son Erişim: 20.01.2022)

URL: http://www.novaspivack.com/technology/how-the-webos-evolves

[3] Beden Ş. “Bir Semantik Web-Tabanlı Öğrenme Yönetim Sistemi Modeli”, Yüksek lisans tezi, İstanbul
Üniversitesi, 2012.

[4] W3C/MIT, 2001, W3C Semantic Web Activity, Proceedings of Semantic Web Kick-off Seminar, Finland.

[5] Berners-Lee, T., Hendler, J., ve Lassila, O. (2001). “The semantic web. Scientific American”, 184(5),34-43.

Ünite Soruları
Soru-1 :

“Bir işletmeyi çalıştırmak için gereken verilerin genel bir görünümünü sağlamak için bir ön veri modeli
kullanılabilir. Model daha sonra, paylaşılan veri kaynakları oluşturmaya yönelik projeleri belirlemek ve
kapsamını belirlemek için analiz edilebilir.”

Yukarıda açıklaması verilen tanım hangi semantik veri hedefine aittir?

(Çoktan Seçmeli)

(A) Veri kaynaklarının anonimleştirilmesi

(B) Paylaşılabilir veri tabanlarının oluşturulması

(C) Veri Senkronizasyonu

(D) Satıcı yazılımının değerlendirilmesi

(E) Veri kaynaklarının planlanması

Cevap-1 :

Veri kaynaklarının planlanması

Soru-2 :
about:blank 77/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Dijital veri ve kaynakların anlamlandırılması farklı yöntemlerle gerçekleştirilir. Aşağıdakilerden hangisi


bu basamaklardan biri değildir?

(Çoktan Seçmeli)

(A) Bilgisayarlı Görü

(B) Modelleme

(C) Sorgulama

(D) Veriye Erişim

(E) Veri İşleme

Cevap-2 :

Veriye Erişim

Soru-3 :

Felsefede varlıkları ilişkileriyle birlikte tanımlamada kullanılan ve semantik webin en temel bileşeni
olan kavram aşağıdakilerden hangisidir?

(Çoktan Seçmeli)

(A) Ontoloji

(B) Semantik Veri

(C) Büyük Veri

(D) Mantık

(E) Bulut Bilişim

Cevap-3 :

Ontoloji

Soru-4 :

Aşağıdakilerden hangisi Semantik Web’in uygulama yerlerinden değildir?

(Çoktan Seçmeli)

(A) Anlam tabanlı web arama makineleri

(B) Ontoloji destekli kurumsal bilgi yönetimi

(C) Yazılım ajanı tabanlı dağıtık işlem uygulamaları

(D) Ontoloji destekli pratik bilgi yönetimi

(E) Verilerin anonimleştirilmesi

Cevap-4 :

about:blank 78/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Verilerin anonimleştirilmesi

Soru-5 :

Aşağıdakilerden hangisi Semantik Verinin temel hedeflerinden değildir?

(Çoktan Seçmeli)

(A) Veri mahremiyetinin korunması

(B) Satıcı yazılımının değerlendirilmesi

(C) Veri kaynaklarının planlanması

(D) Paylaşılabilir veri tabanlarının oluşturulması

(E) Veri tabanı entegrasyonu

Cevap-5 :

Veri mahremiyetinin korunması

Soru-6 :

Semantik web tekniklerindeki yenilikleri takip ederek, bu tekniklerin kullanımını yaygınlaştırmak için
gerekli olan ihtiyaçların analiz ederek uygun alanlarda yeni tanımlamalar getiren bazı organizasyonlar
vardır.

Aşağıdakilerden hangisi bu organizasyonlardan biri değildir?

(Çoktan Seçmeli)

(A) Dünya Çapında Ağ Birliği (W3C)

(B) Uluslararası Standartlar Teşkilatı (ISO)

(C) Ekonomik Kalkınma ve İşbirliği Örgütü (OECD)

(D) Yapılandırılmış Bilgi Standartlarını Geliştirme Organizasyonu (OASIS)

(E) Uluslararası Elektroteknik Organizasyonu (IEC)

Cevap-6 :

Ekonomik Kalkınma ve İşbirliği Örgütü (OECD)

Soru-7 :

Semantik (Anlamsal) teknolojiler ile ilgili verilenlerden hangisi yanlıştır?

(Çoktan Seçmeli)

(A) Kelimelerin veya tümceciklerin eşit olduğu yerleri kolayca anlayabilir.

(B) Bilginin gösterilmesi (sunulması) yöntemlerini geliştirmektedir.

(C) Amacı, büyük veri içerisindeki veri ve kaynaklarının başkaları tarafından elde edilmesine engel olmaktır.
about:blank 79/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(D) Web servisleri gibi ortak yöntem ve işlemler için de kullanılabilmektedir.

(E) Esnek ve zeki bilgi sistemlerinin inşa edilmesi için çaba sarf edilen bir yaklaşımdır.

Cevap-7 :

Amacı, büyük veri içerisindeki veri ve kaynaklarının başkaları tarafından elde edilmesine engel olmaktır.

Soru-8 :

Birleşik Bilgisayar Destekli Üretim (ICAM) programı ile ilgili aşağıdakilerden hangisi yanlıştır?

(Çoktan Seçmeli)

(A) Programın amacı, bilgisayar teknolojisinin sistematik uygulaması yoluyla üretim verimliliğini artırmaktır.

(B) Anlamsal veri modellerine ilk kez ICAM programının sonucu olarak ihtiyaç duyulmuştur 

(C) IDEF0, IDEF1, IDEF2 teknikleri ICAM Programı tarafından geliştirilmiştir.

(D) Amerika Birleşik Devletleri Hava Kuvvetleri tarafından başlatılmıştır.

(E) Veri mahremiyetinin korunması amacı ile geliştirilmiştir.

Cevap-8 :

Veri mahremiyetinin korunması amacı ile geliştirilmiştir.

Soru-9 :

Ortamın veya sistemin zamanla değişen davranış özelliklerini temsil eden bir "dinamik model" üretmek
için kullanılan, Birleşik Bilgisayar Destekli Üretim (ICAM) programı tarafından geliştirilmiş olan teknik
aşağıdakilerden hangisidir?

(Çoktan Seçmeli)

(A) IDEF1

(B) Veri kaynaklarının planlanması

(C) IDEF2

(D) Verilerin görselleştirilmesi

(E) IDEF0

Cevap-9 :

IDEF2

Soru-10 :

Kullanıcıların uygulamaları ve web siteleri arasında yapısal veri aktarımı sağlamak ve tarayıcı
uygulamalarında kullanıcı deneyimlerini geliştirmek için verilerin belirli kurallar dizisi çerçevesinde
yayınlanması gerekliliği doğmuştur. Aşağıdakilerden hangisi bu kurallar dizisinde yer almaz?

(Çoktan Seçmeli)

about:blank 80/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(A) Ontoloji tanımı

(B) Kanıt

(C) Mantık

(D) Güvenirlik

(E) Ulaşılabilirlik

Cevap-10 :

Ulaşılabilirlik

about:blank 81/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

7. BÜYÜK VERİ TEKNOLOJİLERİ


Birlikte Düşünelim
1.    Büyük veri teknolojileri hangi kaynakları kullanır?

2.    Yapay zeka yöntemlerinin büyük veri teknolojilerindeki yeri nedir?

3.    Teknolojik gelişimin tarihsel sürecindeki dönüm noktaları sizce nelerdir?

4.    Büyük veri teknolojilerinin bilinirlik seviyeleri hangi kriterlerle belirlenir?

5.    Büyük veri teknolojileri hangi kriterlere göre sınıflandırılır?

Başlamadan Önce
Kullanıcıların bıraktığı ekonomik, sosyal ve psikolojik dijital izlerin çok yönlü olarak analizine imkan tanıyan
büyük veri, maliyetli ve uzun süreçli saha araştırmalara alternatif ve adaptif teknolojiler olarak
kullanılabilmektedir. Bu teknolojiler sayesinde, çok farklı coğrafyalardan ve örneklemlerden değişik
boyutlarda veri, eş zamanlı olarak elde edilebilmekte ve düşük maliyetlerde analizi sağlanmaktadır. Ayrıca
büyük veri teknolojilerinin çıktıları sayesinde kullanıcıların kişisel profillerinin çıkartılabilmesi ve zaman
içerisinde değişen alışkanlıklarının tespit edilmesinde önemli bir planlama aracı olarak kullanılmaktadır.

Farklı sektörlerdeki müşteri ihtiyaçlarının belirlenmesi, kurumsal kaynak ve tesis planlama, yatırım yönetimi,
gelir-gider yönetimi ve ömür boyu müşteri değerinin ölçülmesi konusunda oteller, ulaşım firmaları, seyahat
acentaları, hizmet işletmeleri ve diğer sektörlerdeki işletmelerin müşteri özelliklerine göre ürün ve hizmet
sunumunu gerçekleştirebilmesi ve maliyet avantajı sağlaması, ilgili sektörlerin büyük veri teknolojilerinin
kullanımına bağlıdır. Hizmet sağlayıcılarının, büyük verinin elde edilmesi ve depolanması konusundaki fiziki
altyapı imkanlarını geliştirmeleri oldukça önem arz etmektedir. Bu noktada, büyük verinin elde edilmesi,
depolanması ve analiz edilerek yorumlanabilmesi/anlamlandırılması için teknik gereksinimlerin karşılanması
ve büyük verinin işletmelerin faaliyetleri için kullanılabilir hale getirilmesine yönelik yetkin personel
istihdamının sağlanması da önemli hususlar arasındadır.

7.1. Büyük Veri Teknolojileri


Günümüz dünyasında pandemi ile gelen dijitalleşmenin hız kazandırdığı, 5G teknolojileri sayesinde akıllı
telefonlar, otomobiller, sosyal medya siteleri, dizüstü bilgisayarlar ve endüstriyel makineler gibi cihazlara
yerleştirilen sensörler sayesinde veriler hızla artmaktadır. Bu nedenle, çeşitli kaynaklardan elde edilen veriler
yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış biçimde bulunabilmektedir. Geleneksel yöntemler
bu veri formatlarını işlemekte yetersiz kalmaktadır. Bu nedenle, şekil 7.1’de şematize edilen veri analitiği
amacıyla büyük verilerle çalışmak için yeni araç ve tekniklere ihtiyaç duyulmaktadır.

about:blank 82/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 7.1. Büyük verinin analitiği.

Bugün geliştirilen bazı teknik ve teknolojiler sayesinde çok büyük yapılandırılmış ve yapılandırılmamış veri
setleri kolayca analiz edilebilmektedir.

Büyük veri teknolojileri, veri madenciliği, veri depolama, veri paylaşımı ve veri görselleştirmeyi içeren yeni
nesil yazılımlardır. Verileri araştırmak, dönüştürmek ve anlamlandırmak için kullanılan araçlar ve teknikleri
içeren veri teknolojisini kapsar. Yapay zeka, makine öğrenimi, derin öğrenme ve IoT gibi diğer teknolojilerle
geniş ölçüde ilişkilendirilir.

Büyük veri teknolojileri operasyonel ve analitik olmak üzere ikiye ayrılabilir;

1. Operasyonel Büyük Veri Teknolojileri

Çevrimiçi işlemler, sosyal medya veya büyük veri teknolojileri tabanlı yazılımlar aracılığıyla analiz için
kullanılan belirli bir firmadan her türlü veri gibi günlük olarak üretilen veri miktarını gösterir. Analitik büyük
veri teknolojilerini besleyen ham veri olarak düşünülebilir.

Operasyonel büyük veri teknolojileri; yöneticilerin birçok uluslu şirketteki ayrıntılarını, Amazon, Flipkart,
Walmart, vb. firmalardan alınan çevrimiçi alım satım ve satın almaları, filmleri, uçuş, demiryolları ve otobüs
vb. için çevrimiçi bilet rezervasyonu ve satın almasını içerir.

2. Analitik Büyük Veri Teknolojileri

Operasyonel büyük veri ile kıyasla biraz karmaşık olan analitik büyük veri teknolojileri gelişmiş bir büyük veri
versiyondur. İş kararları için çok önemli olan büyük verilerin gerçek araştırması ve anlamlandırılması bu
bölümün altındadır. Bu alanda ele alınan bazı örnekler, stok pazarlama, hava tahmini, zaman serisi analizi ve
tıbbi sağlık kayıtlarıdır.

7.2. Büyük Veri Teknolojileri Bilinirlik Seviyeleri


TDWI Big Data Maturity Model temelinde Türkçe olarak tasarlanan ve 5 farklı kategoride anket soruları
sayesinde değerlendirilerek belirlenmektedir. Bu kategoriler aşağıda sunulmuştur [1].

1. Kurumsal olarak büyük verinin bilinirliği: Kurumsal olarak büyük verinin bilinirliğinin ölçümünde
ankette cevabı aranan sorular şöyledir: Başarılı bir büyük veri analitiği programı hangi ölçüde kurumsal
strateji, kültür, liderlik ve bütçe olarak destekleniyor? Büyük veriler için bir analitik kültür mevcut mu? Büyük
veri teknolojileri şirket tarafından takip ediliyor mu? Büyük veri analitiği teknolojileri şirket tarafından
keşfedilmeye başlandı mı? Veri paylaşımı ve iş birliği şirket kültürünün önemli bir parçası mı?

2. Alt yapı seviyesi: Alt yapı seviyesi ölçümünde aşağıdaki soruların cevapları aranmaktadır: Büyük veri
girişimini destekleyen mimari ne kadar gelişmiş ve tutarlı durumdadır? Var olan alt yapı şirketin tüm
bölümlerini ve potansiyel kullanıcılarını ne ölçüde desteklemektedir? Büyük veri yönetimi yaklaşımı ne kadar
etkin kullanılıyor? Hangi teknolojik donanım ve yazılımlar kullanılmakta ve var olan ortamla nasıl bütünleşmiş
durumdadır?

3. Veri Yönetimi: Veri yönetimi kısmında: Şirketin meta veri için bölüm seviyesinde tanımlanmış ve kapsamlı
bir veri yönetimi stratejisi var mı? Varsa bilgisayar kümesinde birden çok iş yükünü aynı anda yapabiliyor mu?
Şirkette tanımlanmış bir veri yaşam döngüsü yönetimi ve baştan sona veri kullanımı sürecini tanımlayan
çerçeve doküman mevcut mu?

4. Analitik çözümlerin bilinirliği: Analitik çözümlerin bilinirliği bölümü: Büyük veriler için kullanılan
verilerin çeşitliliği, hacmi ve hızı ne kadardır? Şirket büyük verilerini analiz etmek için hangi yöntemleri
kullanıyor? Büyük veri teknolojilerini yaygınlaştırmak isteyen üst düzey yönetici mevcut mu? Büyük veri
konusunda deneyimli çalışanlar var mı?

5. Yönetim stratejilerinin bilinirliği: Yönetim stratejilerinin bilinirliği kısmı: Şirketin büyük veri yönetimi
için stratejilerini takım halinde uyguluyor mu? Şirkette veri yönetimi ve entegrasyonunu denetlemek için
kurulmuş bir yönlendirme kurulu var mı?

about:blank 83/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Bir organizasyonların büyük veri teknolojileri olgunluğu, ilgili tüm iç ve dış veri kaynaklarını bütünleştirme,
yönetme ve etki alanına alma gibi yeteneklerindeki dönüşüm kabiliyeti olarak tanımlanmaktadır. Esasen,
yenilikçi bir ekosistem oluşturma ve güçlü etkisi olan bir dönüşüme imkân tanıma olasılığı ile ilgilidir. Başka
bir deyişle, büyük veri alanındaki olgunluk sadece devasa veriyi işleyebilecek gerekli donanımı satın alıp
yerleştirmekten ibaret değildir. Ya da şirket markasının değerini ve müşteriler üzerindeki etkilerini sosyal
medya paylaşımlarından analiz etmek değildir. Olgunluk, teknolojiler, veri yönetimi ve analitiği ve şirket
bileşenlerini kapsayan dinamik bir ekosistem yaratmak ile ilgilidir [1-2].

7.3. Dünyada En Popüler Büyük Veri Teknolojileri


Günümüzde kurum ve kurumların bünyesinde elde edilen büyük veri setlerini saklamak, işlemek, yönetmek,
analiz etmek ve anlamlandırmak için kullanılan teknolojilerin sayısı sürekli artmaktadır. Şekil 7.2’de büyük
veri teknolojileri ekosistemi verilmiştir.

Şekil 7.2. Büyük veri ekosistemi.

Büyük veri teknolojileri her türlü yapıdaki veriyi işleme, ihtiyaca göre genişleme, verileri yedekleme,
erişilebilir olmasını sağlama ve açık kaynaklı projeler olma gibi özelliklere sahiptir. Tablo 1’de verildiği üzere
büyük veri teknolojileri, platform türüne göre lokal ve bulut olmak üzere iki sınıfa ayrılmaktadır.

Tablo 1. Platform türüne göre büyük veri teknolojilerinin sınıflandırılması.

Tablo 2’de verildiği üzere büyük veri teknolojileri veritabanı türüne göre SQL, NoSQL ve In-Memory olarak
üç sınıfa ayrılmaktadır.

Tablo 2. Veritabanı türüne göre büyük veri teknolojilerinin sınıflandırılması.

about:blank 84/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Tablo 3’te verildiği üzere büyük veri teknolojileri fonksiyonellik açısından veri işleme, veri ambarı, veri
toplama & transfer, arama, sorgu dili, istatistik & makine öğrenmesi, iş zekası, görselleştirme ve sosyal medya
analizi olmak üzere farklı sınıflara ayrılabilmektedir.

Tablo 3. Fonksiyonellik açısından büyük veri teknolojilerinin sınıflandırılması.

Büyük verilerin analizinde kullanılabilecek açık kaynak kodlu programların başında Hadoop, Apache Spark,
MongoDB, MapReduce, Orange ve Weka gibi teknolojiler gelmekle birlikte bir sürü teknoloji bu bilim
alanının gelişmesine katkı sağlamaktadır. Bu teknolojilerden bazıları şöyledir:

1. Büyük Tablo:

Büyük Tablo, Google Dosya Sistemi (Google File System-(GFS)) üzerine kurulmuş tescilli dağıtık veritabanı
sistemidir. Büyük Tablo’nun temel amacı, web sayfalarının daha hızlı ve başarılı bir şekilde bulunması,
depolanması ve güncellenmesidir.

Google Dosya Sistemi (GFS), Google tarafından geliştirilen tescilli dağıtık dosya sistemi olup; Hadoop
geliştirilirken GFS den esinlenmiştir. GFS'nin amacı, büyük dosyaları depolamak ve bunlara erişimi
about:blank 85/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

sağlamaktır. Buradaki büyük dosyalar, sabit sürücüye depolanamayan dosyalardır [3].

2. Bulut Bilişim

Bulut bilişim, genellikle dağıtılmış bir sistem olarak yapılandırılmış yüksek ölçeklenebilir bilgi işlem
kaynakların bir ağ üzerinden bir hizmet olarak temin edildiği bir işlem paradigmasıdır. Bulut ortamı, büyük
verilerin hem temel altyapısında hem de analitik altyapısında kolaylaştırıcı olarak ortaya çıkmıştır. Bulut hem
genel hem de özel bulut ayarlarında büyük veri analizi için bir dizi seçenek sunmaktadır. Altyapı tarafında,
Bulut, çok büyük veri setlerini yönetmek ve bunlara erişmek için seçenekler sunarken aynı zamanda güçlü
altyapı unsurlarını nispeten daha düşük maliyetle desteklemektedir.

Bugün bulut bilişim sayesinde hard disklerde depolanan veriler internet ortamında sanal sunucularda
saklanılabilmektedir. Bulut Bilişim, daha hızlı veri transferi, kıt Bilgi Teknolojisi (BT) kaynaklarının daha
etkin kullanılması ve daha hızlı yenilik (inovasyon) kabiliyetine izin vermektedir. İnovasyon düşük maliyetli
sanal ortamların dinamik kullanımı ile etkin olup bu talep üzerine şirketleşme (birleşme) olabilmektedir.
Özellikle büyük şirketler için iş gücü tasarrufu büyük önem arz etmektedir. Bugün sosyal ağlarda yüklenen
video, müzik ve fotoğraf gibi birçok veri o sitelerin bulutlarında depolanmaktadır. Bulut depolama hizmetlerine
örnek olarak Dropbox, Google Drive, SkyDrive, iCloud, Yandex. Disk, Turkcell Akıllı Bulut, TTNET Bulut ve
Ubuntu One verilebilir [4].

Şekil 7.3. Bulut bilişimin veri etkileşimi.

Bulut bilişim temel kaynaktaki yazılım ve bilgilerin paylaşımı sağlar. Ayrıca mevcut bilişim hizmetinin
bilgisayarlar ve diğer aygıtlardan internet üzerinden kullanılmasını sağlar. Şekil 7.3’te görüldüğü üzere, işletme
maliyetini düşürmesine ek olarak bulut teknolojileri radikal iş buluşları, yeni iş modelleri ve bilişimi kullanan
herkes için kullanışlılığı, gözle görülür verimliliği sağlamak için temel haline gelmiştir.

"Bulut" sözcüğü dosyaların bulunduğu yeri belirtir. Bulut bilişimde bu sözcük bilginin işlenme ve saklanma
alanı anlamında kullanılmaktadır.

Bulut özellikle büyük verilerin analizinde çok büyük kolaylıklar sağlamaktadır. Bulut; sanal, uyarlanabilir,
esnek ve güçlü yapısı sayesinde büyük verilerin değişen çevreye uygun hâle gelmesini sağlamaktadır. Bulut
mimarileri, çok büyük veri kümelerinin işlenmesi için ideal olan sanal makine dizilerinden oluşmakta ve bu
işlemler sayısız paralel süreçlere bölünebileceği ölçüde gerçekleştirilir. “Küme işlem” adı verilen bu paralel
işlem mimarilerinde işlem düğümleri olan sunucular raflarda (racks) depolanmaktadır [5]. Bu da genellikle
doğrudan analiz için kullanılabilecek Hadoop kümelerinin geliştirilmesine yol açmıştır.

about:blank 86/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

4. Veri Ambarı

Veri ambarı, verileri raporlamak için optimize edilmiş özelleştirilmiş veritabanıdır. Bu veritabanı genellikle
yapılandırılmış büyük miktardaki veriyi depolamak için kullanır. Veriler Şekil 7.4’te yer alan dış kaynaklar ve
operasyonel veri depolarındaki ETL (extract, transform, and load- çek, dönüştür, yükle) araçları kullanılarak
yüklenir ve sonuçlar genellikle veri küpü içerisinde yer alan iş zekâsı araçları kullanılarak üretilmektedir.

Şekil 7.4. Veri ambarı ve Veri Deposu

5. Data Mart

Bir veri ambarı, bir kuruluşun tüm verileri için merkezi bir depodur. Bununla birlikte, bir data mart’ın amacı,
insan kaynakları yönetimi gibi organizasyon içindeki belirli bir kullanıcı grubunun belirli taleplerini
karşılamaktır. Genel olarak, bir kuruluşun data martları kuruluşun veri ambarının alt kümeleridir [6].

6. Dağıtık Sistem

Dağıtık sistem, birden fazla bilgisayar, bir ağ üzerinden iletişim kurarak, ortak bir hesaplama problemini
çözmek için kullanılır. Problem paralel çalışan bir ya da daha fazla bilgisayar tarafından çözülmekte ve bu
bilgisayarların her biri birden fazla görevi gerçekleştirmektedir. Dağıtık sistemlerin avantajları düşük bir
maliyetle yüksek performans, yüksek güvenilirlik ve daha fazla ölçeklenebilirliği içermesidir.

Şekil 7.5. Dağıtık sistemler.

Dinamo, Amazon tarafından geliştirilen tescilli dağıtık veri depolama sistemidir. Amazon DynamoDB,
herhangi bir ölçekte tutarlı, tek basamaklı milisaniyelik gecikmelere ihtiyaç duyan uygulamalar için hızlı ve
esnek bir NoSQL veritabanı hizmetidir. Dinamo esnek veri modeli ve güvenilir performansı sayesinde mobil,

about:blank 87/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

web, oyun, reklam teknolojisi, Nesnelerin İnterneti ve gerçek zamanlı veri işleme türü de dâhil olmak üzere
diğer birçok uygulama için mükemmel bir uyum sağlar.

7. Hadoop Bileşenleri ve Mimarisi

Hadoop, bir makineden başlayarak, yüzlerce makine üzerine dağılabilen büyük veri kümelerini işlemek için
kullanılan, Java ile geliştirilmiş (ücretsiz) yazılım çatısıdır. Bu uygulamalarda genellikle Web üzerinde
kullanılabilen ve çoğunlukla kullanılan açık uygulama programlama ara yüzleri aracılığıyla açık veri
kaynaklarından erişilen veriler kullanılır (Şekil 7.6).

Şekil 7.6. Hahoop ile büyük veri işleme.

Hadoop, Google’ın Eşleİndirge ve Google File System’inden esinlenerek geliştirilmiştir. Başlangıçta Yahoo
geliştirmiş ve şu an Apache Yazılım Vakfı (Apache Software Foundation) bu sistemi bir proje olarak
yönetmektedir. Apache Hadoop yazılım kütüphanesi, basit programlama modelleri kullanarak büyük veri
kümelerinin bilgisayar kümeleri arasında dağıtılmasını sağlayan bir çerçevedir. Tekli sunuculardan binlerce
makineye ölçeklenmek üzere tasarlanmış olup her biri yerel hesaplama ve depolama imkânı sunmaktadır.
Yüksek erişilebilirlik sağlamak için donanıma güvenmek yerine, kütüphane kendisi, başarısızlıkları uygulama
katmanında algılamak ve ele almak üzere tasarlanmıştır; bu nedenle, her biri başarısızlıklara eğilimli olabilen
bir bilgisayar kümesinin üstünde yüksek oranda mevcut bir hizmet sunmaktadır. Apache Hadoop, anlamlı
bilgiler elde etmek için analitikten yararlanmak için büyük miktarda veri kullanıldığında, büyük verileri
işlemek için bir çözümdür. Apache Hadoop mimarisi, çeşitli hadoop bileşenleri ve karmaşık iş problemlerini
çözmek için muazzam yetenekleri olan farklı teknolojilerin birleşmesinden oluşur.

Hadoop ekosistemindeki tüm bileşenler açık bir şekilde belirginleştirilmiştir. Hadoop mimarisinin bütünsel
yapısını Hadoop Ekosistemi’ndeki; Hadoop Ortak (Hadoop Common), Hadoop YARN (Yet Another Resource
Negotiator), Hadoop Dağıtılmış Dosya Sistemi (Hadoop Distributed File System-(HDFS)) ve Eşleİndirge
(MapReduce) elemanları oluşturmaktadır. Bu ana bileşenlerin altında ise başka araçlar bulunmaktadır. Hadoop
Ortak, tüm Java kitaplıkları, yardımcı programlar, OS (Operating System) seviyesinde soyutlama, gerekli Java
dosyalarını ve Hadoop’u çalıştırmak için komut dosyası sağlarken; Hadoop YARN, iş planlaması ve küme
kaynak yönetimini yapan bir çerçevedir. Hadoop mimarisindeki HDFS, uygulama verisine yüksek verimlilikte
erişim sağlar ve Hadoop Eşleİndirge, büyük veri kümelerinin YARN tabanlı paralel işlenmesini sağlar.

HDFS, Google Dosya Sistemi'ne dayanmakta ve güvenilir, hataya dayanıklı küçük bilgisayar makinelerinin
büyük kümeleri (binlerce bilgisayar) çalıştırılacak şekilde tasarlanmış bir dağıtılmış dosya sistemidir. Apache
Hadoop için varsayılan büyük veri depolama katmanı HDFS'dir. Kullanıcılar, büyük veri kümelerini HDFS'ye
dökebilecekleri için HDFS, Apache Hadoop bileşenlerinin "Gizli Sosu" olarak adlandırılır ve veriler analiz için
burada hazır hâle getirilir. HDFS bileşeni, güvenilir ve hızlı veri erişimi için farklı kümeler arasında dağıtılacak
veri bloğunun birkaç kopyasını oluşturur.

about:blank 88/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Eşleİndirge (Map-Reduce), Google tarafından oluşturulan ve HDFS içerisindeki gerçek verilerin verimli bir
şekilde işlenmesini sağlayan Java tabanlı bir sistemdir. Eşleİndirge, büyük bir veri işleme işini küçük görevlere
bölerek yapar. Eşleİndirge, sonuçları bulmak için veriyi küçültmeden önce büyük veri kümelerini paralel
olarak analiz eder. Hadoop ekosisteminde, Hadoop Eşleİndirge, YARN mimarisine dayanan bir çerçevedir.
YARN tabanlı Hadoop mimarisi, büyük veri kümelerinin paralel işlenmesini destekler ve Eşleİndirge, arıza ve
hata yönetimini göz önüne alarak, binlerce düğümde kolayca uygulamalar yazmada bir çerçeve sağlar.

YARN olarak bilinen Hadoop 2.0, günümüzde dağıtılan büyük verilerin işlenmesi ve yönetilmesi için yaygın
olarak kullanılmakta olan, Ekim 2013'te piyasaya sürülen en son teknolojidir. Hadoop YARN, Hadoop
veritabanı ve HBase ile birlikte Hadoop Ekosistemi ile bağlantılı tüm teknolojilere fayda sağlayacak
performans geliştirmeleri sağlamak üzere Hadoop 1.0'a bir yeniliktir. Hadoop YARN, Hadoop distribitörleri
tarafından gönderilen Hadoop 2.x dağıtımlarıyla birlikte gelir. YARN, Hadoop Eşleİndirge'yi Hadoop
Sistemlerinde kullanmak zorunda kalmayan iş planlaması ve kaynak yönetimi görevlerini yerine getirir.
Hadoop YARN, Hadoop 1.0'ın özgün özelliklerinden farklı olarak geliştirilmiş bir mimariye sahiptir. Bu
sayede sistemler yeni seviyelere kadar ölçeklenebilir ve Hadoop HDFS'deki çeşitli bileşenlere sorumluluklar
açıkça atanabilmektedir [7].

8. Spark

Spark; hız, kullanım kolaylığı ve sofistike analitik üzerine kurulmuş açık kaynaklı bir büyük veri işleme
çerçevesidir. Başlangıçta 2009 yılında UC Berkeley'nin AMPLab'da geliştirilmiş ve 2010 yılında açık kaynaklı
bir Apache projesi olarak hazırlanmıştır. Apache Spark, piyasaya sürülmesinden bu yana geniş çaplı
endüstrilerdeki işletmeler tarafından hızla benimsenmiştir. Netflix, Yahoo ve eBay gibi internet santralleri,
toplu olarak 8000'den fazla düğüm kümeleri üzerinde birden fazla petabayt veri işleyen Spark'ı büyük çapta
kullanıma açmıştır. Spark 250'den fazla şirketin 1000'in üzerinde katkıda bulunanların, büyük veri alanındaki
en büyük açık kaynak topluluğu hâline gelmiştir.

Spark, hızlı hesaplama için tasarlanmış yıldırım hızlı küme bilgi işlem teknolojisidir. Spark, Hadoop ve Storm
gibi diğer büyük verilere ve Eşleİndirge teknolojilerine kıyasla birçok avantaja sahiptir. Her şeyden önce
Spark, doğada çok çeşitli veri setleri (metin verileri, grafik verileri vb.) ve veri kaynağına ulaşıp kullanmayı
sağlar [8]. Spark'ın temel özelliği, bir uygulamanın işlem hızını arttıran bellek içi küme işlemidir. Spark, toplu
iş uygulamaları, yinelemeli algoritmalar, etkileşimli sorgular ve akış gibi çok çeşitli iş yüklerini kapsayacak
şekilde tasarlanmıştır. Spark tüm bu iş yükünü ilgili bir sistemde desteklemenin yanı sıra, ayrı araçları muhaza
ederek yönetim yükünü de azaltmaktadır. Spark aşağıdaki özelliklere sahiptir [9].

1) Hız: Spark Hadoop kümesinde bir uygulamayı çalıştırmaya yardımcı olmaktadır. Spark, Hadoop
kümelerindeki uygulamaları bellekte 100 kat daha hızlı ve disk üzerinde çalışırken bile 10 kat daha hızlı
çalıştırmayı sağlar. Bu sayede, diske okuma/yazma işlemlerinin sayısı azalmaktadır [10].

2) Birden çok dili destekler: Spark; Java, Scala veya Python'da hızlı bir şekilde uygulamalar yazmayı
sağlamaktadır. Spark 80'den fazla üst düzey operatörden oluşan dâhili bir küme ile birlikte gelir. Bu nedenle
Spark, kabuk (shell) içindeki verileri sorgulamak için etkileşimli olarak kullanılabilir.

3) Gelişmiş Analitik: Spark sadece 'Eşle' ve 'İndirge'yi desteklemekle kalmaz. Aynı zamanda SQL sorguları,
akış verileri, makine öğrenme ve grafik algoritmalarını da desteklemektedir. Spark geliştiricileri, bu özellikleri
tek başlarına kullanabilir veya tek bir veri hattı kullanım örneğinde çalıştırmak için birleştirebilirler.

9. Storm

Storm (Gerçek Zamanlı Akış İşlemci, Şekil 7.7), büyük verilerin gerçek zamanlı akışını işlemek için
tasarlanmış teknolojilerdir. Apache Storm Hadoop ile gerçek zamanlı olarak verileri işleme imkânı sağlayan
dağıtılmış, hataya dayanıklı ve açık kaynaklı bir sistemdir. Akış işlemcisi; finansal hizmetlerdeki algoritmik
işlem (alım satım), RFID (Radyo Frekanslı Tanımlama) durum işleme uygulamaları, dolandırıcılık tespiti,
süreç izleme ve telekomünikasyondaki konuma dayalı hizmetler gibi uygulamalar sağlar.

about:blank 89/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 7.7. Storm işlemleri.

10. Metaveri

Metaveri, veri dosyalarının içeriğini ve bağlamını (kaynağını) tanımlayan verilerdir. Örneğin dijital fotoğraf
makinesi ile çekilen fotoğraflarda, fotoğraf dosyası içerisine kaydedilen; fotoğrafın çekildiği tarih, fotoğrafın
yatay ve düşey piksel boyut, fotoğrafın yatay-düşey çözünürlüğü, fotoğrafın odak uzaklığı, fotoğraf
makinesinin markası ve modeli ile fotoğrafın çekildiği yerin GPS koordinatları gibi bilgiler birer metaveridir.
Veri kaynaklarındaki verilerin büyük veri teknolojileri ile ilişkilendirilmesi ve metadatanın yönetimi Şekil
7.8’de verilmiştir.

Şekil 7.8. Metadata yönetim araçları.

11. NoSQL
about:blank 90/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

NoSQL, ilişkisel veritabanı yönetim sistemlerine (RDBMS) bir alternatif olarak ortaya çıkmıştır. NoSQL,
internetteki artan veriyi depolayabilmek ve hızlı veri akışına sahip sistemlerin ihtiyaçlarını karşılamak için
yatay ölçeklemeye başvuran sistemlerdir. Bu özellik her gün terabaytlarca veriyi işleyen Facebook, Google ve
Amazon gibi büyük firmaların NoSQL veri tabanlarını tercih etmelerinde etkin rol oynamıştır. Bunlar aynı
anda birden fazla sunucu ile birlikte çalışabilmekte ve çok büyük ve karmaşık veriler üzerinde işlemler
yapabilmektedir. Bu yönüyle bu veri tabanları veri seli ile mücadele de kuruluşlar için önemli bir araç olarak
ortaya çıkmıştır. NoSQL veri tabanları SQL dilini kullanmadıkları için bunlara “Not Only SQL” adı verilmiştir.
NoSQL veritabanı yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış bütün verileri çok hızlı bir şekilde
özümseyebilmekte ve yüksek performanslı sorgulama kapasitesi sunabilmektedir (Şekil 7.9). NoSQL veri
tabanlarına örnek olarak; Cassandra, HBase, Oracle NoSQL, MongoDB, memsql, Neo4j ve nuodb gibi araçlar
verilebilir. Bu veri tabanlarının her birinin kendine özgü mimarileri bulunmaktadır93. Örneğin Cassandra yatay
ölçeklenebilme özelliği sayesinde kümeye (cluster) yeni sunucular eklenmesine olanak sağlayarak kapasitenin
artmasına izin verir. Ayrıca Cassandra doğrusala yakın ölçeklendirme sayesinde yüksek performansın artmasını
sağlar.

Şekil 7.9. NoSQL’in yetenekleri.

12. BigQuery

BigQuery Mayıs 2012 de Google tarafından geliştirilmiş, büyük veri kümelerinin etkileşimli analizini sağlayan
bir web hizmetidir. BigQuery servisi Google’ın altyapısını kullanarak büyük veri setlerinin hızlı bir şekilde
analiz edilmesini sağlar. BigQuery, iç içe geçmiş verileri depolamak için kolona yönelik bir düzen kullanan
dağıtılmış ve ölçeklenebilir bir sorgu sistemi olan Dremel üzerinde kurulmuştur [11]. BigQuery’nin tercih
edilmesindeki en büyük etken Dremel’i kullanmasıdır. Google tarafından gerçekleştirilen Dremel altyapısı
Eşleİndirge altyapısına göre üç avantaja sahiptir.

Birincisi, Dremel kolon bazlı veri modelini kullandığı için satır bazlı veri modelini kullanan Eşleİndirge’ye
göre daha hızlı çalışmaktadır. Bundan dolayı Dremel, büyük veri setleri üzerindeki analitik işlemlerde çok
hızlıdır.

İkinci olarak, kolon bazlı veri modelinde isim verileri kolon bazında tutulduğu için tekrar eden veri sayesinde
sıkıştırma durumunda satır bazlı veri modeline göre Dremel daha avantajlıdır. Kolon bazlı veri modellerinin
dezavantajı ise az veri ile sorgulama yapıldığında veriye birden fazla okuma ile ulaşılacağından sorgu
performansında bir düşüş olur. Sonuç olarak kolon bazlı veri modelinin büyük veri setlerini okurken tüm
kolonlar yerine belirli kolonlardaki veriye erişilmesinin tercih edilmesi performansın artmasını sağlamaktadır.

Üçüncü olarak, ölçeklenebilirlik açısından; Dremel Google’a göre büyük ölçekli sistemler ile test edilmiş tek
yöntemdir. Dremel, BigQuery servisleri ile büyük veri analizleri Google sunucuları üzerinden yapıldığı için
ayrıca bir veri merkezi kurulmasına gerek olmadığı için herhangi bir sermaye ayırmaya gerek duyulmaz [12].

about:blank 91/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

13. Büyük Veri Bilimi’nde Python ve R Dilinin Önemi

Python, genel amaçlı bir web programlama dili olarak popülerken, özellikle istatistiksel hesaplama için
geliştirilen R, veri görselleştirme için mükemmel özellikleriyle popülerdir. Python ve R dili, veri bilimin de
istatistiksel hesaplamalar için kullanılan temel araçların başında gelmektedir. Veri bilimciler arasında R veya
Phyton’dan hangisinin daha iyi olduğu konusunda tartışmalar hala sürmektedir. Ancak her iki programlama dili
de birbirlerinin tamamlayıcı nitelikte anahtar özelliklerine sahiptirler.

Veri bilimi; istatistik hesaplama, tahmin modelleri oluşturma, verilere erişme ve manipüle etme, açıklayıcı
modeller oluşturma, veri görselleştirmeleri yapma, modelleri üretim sistemlerine entegre etme ve verilere
ilişkin çok daha fazlası gibi birkaç birbiriyle ilişkili ancak farklı faaliyetlerden oluşmaktadır. Python
programlama, veri bilimcilerine, tüm bu işlemleri veri üzerinde gerçekleştirmelerine yardımcı olan bir dizi
kütüphane sağlamaktadır.

Python, sözdizimi basitliği ve farklı ekosistemlerde çalışabilmesinden dolayı geniş bir popülerlik kazanmıştır.
Bu nedenle Python veri bilimi için genel amaçlı çok paradigmalı programlama dilidir. Python programlama,
programlayıcıların veriyle oynamalarına yardımcı olabilir; ihtiyaç duydukları her şeyi veri ile çözme, veri
sürtüşme, web sitesi silme, web uygulaması oluşturma, veri mühendisliği ve daha pek çok şey yapabilmektedir.
Python dili, programcıların bakımı kolay, büyük ölçekli sağlam kod yazmalarını kolaylaştırır.

R dilinden farklı olarak, Python dilinde dâhili paketler bulunmamakla birlikte, veri bilimcilerinin yararlı
istatistiksel ve makine öğrenme görevlerini yerine getirmek için kullanabilecekleri Scikit, Numpy, Pandas,
Scipy ve Seaborn gibi kütüphaneleri desteklemektedir. Python programlama, sözde koda benzer ve İngilizce
dili gibi mantıklıdır. Python da kodda kullanılan ifadeler ve karakterler matematiksel olabilir, ancak mantık
koddan kolaylıkla anlaşılabilmektedir.

R programlama dili, S. adlı bir programlama dilinin bir dalı olup, R, S'nin açık kaynaklı bir uygulamasıdır. R,
S-plus'dan büyük ölçüde yalnızca komut satırı biçiminde farklıdır. R, Yeni Zelanda Auckland Üniversitesi'nde
profesör olan Ross Ihaka ve Robert Gentleman tarafından geliştirilmiştir. Bu profesörlerin adlarının ilk
harflerinden dolayı programa R ismi verilmiştir. Programın geliştirilmesindeki temel amaç, öğrencilerin veri
analizi yapıp, grafik çizebilecekleri ücretsiz bir yazılım geliştirmektir. R, öncelikle istatistikçiler tarafından
benimsenmiş ve günümüzde istatistiksel hesaplama için kullanılan bir programdır.

R Dili, Linux, Windows ve Mac'te bulunan istatistiksel hesaplama ve grafik için açık kaynak programlama dili
ve ortamıdır. R dili, geliştiricilerin, veri ve kodların çapraz platform dağıtımını ve testini sağlayarak işlevselliği
yeni boyutlara taşımasını sağlayan yenilikçi bir paket sistemine sahiptir. R paketleri; R fonksiyonları, veriler ve
kodlardan oluşmaktadır. Paketlerin bilgisayarda saklandığı dizine library denir. R dili, 27 Aralık 2016 itibariyle
Veri Bilimi ve analizi için 10.000’e yakın ücretsiz paketi desteklemektedir.

Milyonlarca veri bilimcisi ve istatistikçi, istatistiksel hesaplama ve niceliksel pazarlamayla ilgili büyük
sorunları ortadan kaldırmak için R programlamayı kullanıyor. Günümüzde R dilini kullanan şirketler ve
kullandıkları alanlar şöyledir: LinkedIn, Twitter, Bank of America, Facebook, Yhoo, Amazon, Airbnb, Google,
Microsoft, Ford and Drug Administration, Ford Motor Company, Llyod ve Uber gibi finans ve işletme analiz
odaklı kuruluşlar için önemli bir araç hâline gelmiştir. Bu şirketlerden bazısının R’yi kullandıkları alanlar
şöyledir: Google reklam kampanyalarında yatırım gelirlerini hesaplamada, ekonomik etkinlik tahmininde, TV
reklamlarının etkinlik analizinde, Facebook statü güncellemelerinde, sosyal network grafiklerinde, Microsoft
istatistiksel analiz için, Bank of America raporlamada, Ford Company veri temelli karar vermede, Llyod’s
sigortalamada ve Uber istatistiksel analiz için kullanmaktadır [13].

Bölüm Özeti
Büyük verinin günümüzde bu kadar önemli ve üzerinde durulan bir konu haline gelmesinin temel nedeni;
süper devletlerin, gelişmiş toplulukların, kamu kurum ve kuruluşların ve özel sektörün yaptıkları işler ve
verdikleri hizmetler yanında, sosyal medya, internet ve benzeri teknolojilerin kullanımı ile yaygınlaşan
uygulamaların sunucularında oluşan ve günümüze kadar değerlendirilmeyen verilerin öneminin anlaşılmasıdır.
Belirtilen bu organizasyonlar büyük verinin işlenmesi ve anlamlandırılması ile kendileri için büyük fayda
sağlayabilecek çıkarımlarım üretebileceklerinin farkına varmışlardır. Bunun sonucunda günümüzde bu sektöre
çok büyük yatırımlar yapmaktadırlar. Bu sonuç büyük veri kavramının popülerliğinin artmasına,
araştırmacıların ilgi odağı haline gelmesine vesile olmuştur. Büyük veri ile birlikte yalnızca teknoloji alanında
about:blank 92/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

değil, insan davranış ve düşünme analizinde, algılama biçimlerimizde, yeni araştırma yöntemlerimizde, daha
pek çok farklı alanda büyük değişiklikler yaşanmaktadır.

Yeni teknolojilerin üretimi veya kullanımı konusunda başta özel sektör olmak üzere kurumlar ve kuruluşlar ile
bireylerin de bu değişimlerin dışında kalamayacağı sonucuna varılmıştır. Özellikle araştırma kurumları büyük
verinin etkin kullanımı konusunda öncü olmalı, üniversitelerin ve bilimle ilgili diğer kurum ve kuruluşların
büyük veri ile ilgili teknoloji ve uygulama geliştirilmesine destek vermeleri gerekmektedir. Büyük veriyi kendi
meslekleri doğrultunda değerlendirmek isteyenler için, gerekli eğitimi almaları konusunda gerekli ortam
sağlanmalı, bu konuya eğitim programlarında yer verilmelidir. Büyük veri konusunda yurt dışı çalışmalar
örnek alınıp incelenmeli, benzeri modeller yurtiçinde özellikle üniversiteler öncülüğünde gerçekleştirilmelidir.
Şüphesiz bu konu birtakım yatırımları gerektirmektedir. Bu durumda malî destek devlet kurum ve kuruluşları
tarafından sağlanabilir.

Kaynakça
[1] Halper, F., & Krishnan, K. TDWI big data maturity model guide interpreting your assessment score. TDWI
Benchmark Guide, 2013.

[2] Ayvaz, S. & Salman, Y.B. Türkiye’de Firmaların Büyük Veri Teknolojileri Bilinirliği ve Kullanımı Analizi.
Avrupa Bilim ve Teknoloji Dergisi, (18), 728-737, 2020.

[3] Ghemawat S, Gobıoff H,  Leung S.T. “The Google File System”, 19th ACM Symposium on Operating
Systems Principles, Lake George, NY, October 2003.

[4] Demir T., “Bulut Bilişim (Cloud Computing) Nedir?”, 2016, http://www.timurdemir.com.tr/bulutbilisim-
cloud-computing-nedir, (07.01.2016).

[5] Gürsakal N, “Büyük Veri”, Genişletilmiş 2. Baskı, Dora, Bursa, ISBN:978 605-4798-803, syf. 157, 2014.

[6] Rouse M. “Data mart (datamart)”, May 2014. (Son Erişim: 12.12.2017)

URL: http://searchsqlserver.techtarget.com/definition/data-mart

[7]  DeZyre, “Hadoop 2.0 (YARN) Framework - The Gateway to Easier Programming for Hadoop Users”, 25
November 2014, https://www.dezyre.com/article/hadoop-2-0-yarn-framework-the-gateway-to-
easierprogramming-for-hadoop-users/84, (10.02.2017).

[8] Apache Spark – Tutorial, “Apache Spark – Introduction”, 2016,


https://www.tutorialspoint.com/apache_spark/apache_spark_introduction.htm, (01.02.2016).

[9] Penchikala Srini, “Big Data Processing with Apache Spark – Part 1: Introduction”, Jan 30, 2015,
https://www.infoq.com/articles/apache-spark-introduction, (22.10.2017).

[10] Databricks, “What is Apache Spark™?”, 2016, https://databricks.com/spark/about/, (01.02.2016).

[11] Melnik S, Gubarev A, Long J.J,  Geoffrey R, Shivakumar S, Tolton M, Vassilakis T. “Dremel: Interactive
Analysis of Web-Scale Datasets”, Proceedings of the VLDB Endowment, Vol. 3, No. 1, Singapore, 2010.

[12] Derinöz C., “Google BigQuery Servisi İle Büyük Veri İşlemleri Ve Sorgu Sonuçlarının BIME İş Zekası
Ürünü İle Görselleştirilip Android Tabanlı Mobil Cihazlar Üzerinden İzlenmesi”, Data & Analytics, Nisan 22,
2014.

[13] Çelik S. “Büyük Veri ve İstatistikteki Uygulamaları”, Ph.D. thesis, Social Science Institution,
Econometrics, University of Uludağ, 2018.

Ünite Soruları
about:blank 93/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Soru-1 :

Aşağıdakilerden hangisi operasyonel büyük veri teknolojilerine bir örnek olarak verilebilir?

(Çoktan Seçmeli)

(A) Verilerin analitik olarak Hadoop sistemlerinde analiz edilmesi.

(B) Çok uluslu şirketlerin örneğin Amazon vb firmalardan çevrim içi alım yapmaları, verilerin ham olarak
toplanması.

(C) Büyük verinin makine öğrenmesi yöntemleri ile analiz edilmesi.

(D) Nesnelerin interneti sayesinde toplanan verinin anlamlandırılması.

(E) Büyük verinin saklanması analitik işlemlerden geçirilmesi ve bir fayda elde edilmesi.

Cevap-1 :

Çok uluslu şirketlerin örneğin Amazon vb firmalardan çevrim içi alım yapmaları, verilerin ham olarak
toplanması.

Soru-2 :

Aşağıdakilerden hangisi büyük veri analitiğinin amaçlarından biri değildir?

(Çoktan Seçmeli)

(A) Büyük verinin güvenliğini sağlamak.

(B) Büyük verinin edinilmesi / sahip olma.

(C) Büyük verinin saklanması.

(D) Büyük veri üzerinde analitik işlemler yapabilme.

(E) Büyük veriden anlamlı bilgiler çıkarma.

Cevap-2 :

Büyük verinin güvenliğini sağlamak.

Soru-3 :

Aşağıdakilerden hangisi büyük veri teknolojilerini en doğru ifade eden sınıflardır?

(Çoktan Seçmeli)

(A) Yerel - Ulusal Büyük Veri Teknolojileri

(B) Akan - Durağan Büyük Veri Teknolojileri

(C) Kişisel -Kurumsal Büyük Veri Teknolojileri

(D) Operasyonel - Analitik Büyük Veri Teknolojileri

(E) İstatistiksel – Makine Öğrenmesi Büyük Veri Teknolojileri


about:blank 94/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Cevap-3 :

Operasyonel - Analitik Büyük Veri Teknolojileri

Soru-4 :

Aşağıdakilerden hangisi şirketlerin olgunluk seviyelerini belirlemede kullanılan kategorik


değerlendirmelerden biri değildir?

(Çoktan Seçmeli)

(A) Kurumsal olarak büyük verinin bilinirliği

(B) Veri yönetiminin bilinirliği

(C) Üst yapı seviyesinin bilinirliği

(D) Analitik çözümlerin bilinirliği

(E) Yönetim stratejilerinin bilinirliği

Cevap-4 :

Üst yapı seviyesinin bilinirliği

Soru-5 :

Platform açısından büyük veri teknolojilerinin sınıflandırılması aşağıdakilerden hangisinde doğru


olarak verilmiştir?

(Çoktan Seçmeli)

(A) Fonksiyonel - Operasyonel

(B) SQL - NoSQL

(C) Kişisel - Kurumsal

(D) Alt Yapı - Üst Yapı

(E) Lokal - Bulut

Cevap-5 :

Lokal - Bulut

Soru-6 :

“………. dağıtılmış bir sistem olarak yapılandırılmış yüksek ölçeklenebilir bilgi işlem kaynakların bir ağ
üzerinden bir hizmet olarak temin edildiği bir işlem paradigmasıdır.”

Boş bırakılan yere aşağıdakilerden hangisi gelmelidir?

(Çoktan Seçmeli)

(A) Data Mart

about:blank 95/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(B) Büyük Tablo

(C) Açık Veri

(D) Bulut Bilişim

(E) Veri Ambarı

Cevap-6 :

Bulut Bilişim

Soru-7 :

Aşağıdakilerden hangisi MetaVeri için doğru bir ifadedir?

(Çoktan Seçmeli)

(A) Veri dosyalarının içeriğini ve bağlamını (kaynağını) tanımlayan verilerdir.

(B) Büyük verilerin gerçek zamanlı akışını işlemek için tasarlanmış teknolojilerdir.

(C) Hızlı hesaplama için tasarlanmış bilgi işlem teknolojisidir.

(D) Verileri raporlamak için optimize edilmiş ve özelleştirilmiş veritabanıdır.

(E) Google tarafından geliştirilen tescilli dağıtık dosya sistemidir.

Cevap-7 :

Veri dosyalarının içeriğini ve bağlamını (kaynağını) tanımlayan verilerdir.

Soru-8 :

Aşağıdakilerden hangisi ETL (extract, transform, and load- çek, dönüştür, yükle) işlemlerinin
gerçekleştirildiği bir büyük veri teknolojisidir?

(Çoktan Seçmeli)

(A) NoSQL

(B) MetaVeri

(C) Büyük Tablo

(D) Dağıtık Sistemler

(E) Veri Ambarları

Cevap-8 :

Veri Ambarları

Soru-9 :

Aşağıdakilerden hangisi fonksiyonellik bakımından kullanılan teknoloji araçları açısından doğru bir
eşleştirme değildir?

about:blank 96/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(Çoktan Seçmeli)

(A) Veri Ambarı - HadoopDB

(B) Veri İşleme - MapReduce

(C) Sorgu Dili – BigQuery

(D) Görselleştirme – Google Charts

(E) İstatistik ve Makine Öğrenimi – Python

Cevap-9 :

Sorgu Dili – BigQuery

Soru-10 :

Aşağıdakilerden hangisi Hadoop için verilen yanlış bir ifadedir?

(Çoktan Seçmeli)

(A) Bir makineden başlayarak, yüzlerce makine üzerine dağılabilen büyük veri kümelerini işlemek için
kullanılan, Java ile geliştirilmiş (ücretsiz) yazılım çatısıdır.

(B) Apache Spark ve MapReduce sistemlerinden esinlenmiştir.

(C) Hadoop, açık uygulama programlama ara yüzleri aracılığıyla açık veri kaynaklarından erişilen verileri
kullanır.

(D) Apache Yazılım Vakfı (Apache Software Foundation) bu sistemi bir proje olarak yönetmektedir.

(E) Apache Hadoop mimarisi, çeşitli hadoop bileşenleri ve karmaşık iş problemlerini çözmek için muazzam
yetenekleri olan farklı teknolojilerin birleşmesinden oluşur.

Cevap-10 :

Apache Spark ve MapReduce sistemlerinden esinlenmiştir.

about:blank 97/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

8. BÜYÜK VERİ ANALİZİNDE KULLANILAN


TEKNİKLER
Birlikte Düşünelim
1.    Büyük verinin analiz edilmesi neden önemlidir?

2.    Niçin büyük veri analizi yapılır?

3.    Büyük veri analiz süreçlerinde hangi adımlar gerçekleştirilmektedir?

4.    Nitel ve nicel büyük veri analizleri arasındaki temel farklar nelerdir?

5.    Büyük veri analizinde en popüler hangi yöntemler kullanılır?

6.    Klasik analiz yöntemleri ile büyük veri analiz edilebilir mi?

Başlamadan Önce
Büyük veri analizi (veri analitiği), yararlı bilgileri keşfetmek üzere verileri temizleme, dönüştürme ve
modelleme sürecidir. İşletmenizin zayıf noktalarını tanımlamanıza, güçlü yönlerden yararlanmanıza ve veriye
dayalı kararlar almanıza yardımcı olur.

Büyük veri analizi; şirketlerin müşterilerini daha iyi anlamaları, reklam kampanyalarını değerlendirmeleri,
içerikleri kişiselleştirmeleri, içerik stratejileri oluşturmaları ve ürün geliştirme açısından oldukça etkili olabilir.
Performans ve kârlılıklarını artırmak isteyen işletmeler veri analizini küçümsememelidir.

Veri analizlerini profesyonel yazılımlar kullanarak birkaç tıklama ile gerçekleştirmek de mümkündür. Böylece
hiçbir şeyi manuel olarak hesaplamanıza gerek kalmadan BI (Business Intelligence) raporlama araçları
kullanılabilir.

Son zamanlardaki bu trendle birçok veri analizi tekniği için, makine öğrenme algoritmalarını ve
otomasyonunu entegre eden özel sistemlere ve yazılımlara başvurulmakta. Ayrıca veri analizi programları,
verilerin depolanması ve paylaşılmasını da kolaylaştırmaktadır.

8.1. Büyük Veri Analizinin Önemi


Büyük veriyi analiz etmek (veri analitiği), büyük ve çeşitli veri setleri üzerinde işlem yapılarak gizli örüntüleri
çıkarma, bilinmeyen ilişkileri keşfetme sürecidir. Kullanılan yöntemlerle elde edilen bilgi; firmalara, kurum-
kuruluşlara veya ticari girişimlere yönelik önemli bilgiler sağlamaktadır. Büyük veri analiz uygulamaları veri
bilimcilere modelleri tahmin etme, istatistikçilere ve diğer analiz alanında çalışan profesyonellere büyüyen
verileri kolay analiz etme yeteneği kazandırır. Büyük veri analitiği klasik yöntemlerle yönetilmesi çok zor olan
çok büyük, yapılandırılmamış ve çok hızlı değişen veriyle uğraşır ve anlamlı örüntüler elde eder. Yani büyük
veri analizinin temel amacı, elde edilen bilginin bilinçli kararlar vermek için kullanılabilmesi için verilerde
anlam bulmaktır.

about:blank 98/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 8.1. Büyük verini katma değerli çıktıya dönüşüm süreci.

Büyük verinin analizi, doğru verilerle ve yöntemlerle yapıldığında, kurum ve kuruluşlara stratejik ve kritik
kararlarında yapılabilecek birçok hatanın önüne geçilmesini sağlayabilmektedir. Şekil 8.1’de görüldüğü üzere
büyük verinin anlamlandırılması amacıyla yapılan büyük veri analizini endüstri, finans, eğitim, sağlık ve
güvenlik sistemleri gibi birçok sektör müşteri memnuniyetini ölçmek ve artırmak amacıyla da kullanmaktadır.

Büyük veri analizi, farklı türlerde içerik barındıran çok geniş ve farklı kayıtları işlemek adına geliştirilmiş
analitik ve paralel tekniklerin kullanılmasıdır. Bu noktada büyük veri analitiği araçları, geleneksel veri tabanı
teknikleri kullanılarak işlenmesi zor olan, hızla değişen ve çok miktardaki yapısal, yarı yapısal ve yapısal
olmayan verinin bir bütün olarak analizi ile veriden değerli bilgiler elde edilmesini amaçlamaktadır.

Şekil 8.2. Firmalar için büyük verinin analiz edilmesinin önemi.

İşletmeler için büyük veri analizi; yeni projelerde kararlar, yapılacak yatırımlar, büyüme ya da küçülme gibi
kritik karar alma süreçlerinde etkin bir araç olarak kullanılabilecek bilimsel bir yöntem olarak karşımıza
about:blank 99/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

çıkmaktadır. Şekil 8.2’de görüldüğü üzere firmaların büyük veri analizi sürecinde kullanılan 5 temel adım
vardır. Bazı özel durumlar için bu adımlar değişse de geleneksel analiz adımları şöyledir:

1.    Amaç Belirleme: Veri analizi sürecinde elde edilmek istenen amaçlar önceden belirlenmeli ve analiz bu
amaçları ortaya çıkaracak şekilde planlanmalıdır. Hedefler belirlenirken, amaçları yerine getirebilecek düzeyde
farklı alt gruplar elde edilebilir.

2.    Veri Toplama: Her ne kadar depolama hacmini ve ek yatırım bütçesine sebep olmasına karşın farklı
kaynaklardan ve çeşitlerden, olabildiğince çok veri toplamak veri analizinin daha doğru sonuçlar ortaya
koymasının önünü açacaktır. Günümüzde veri toplamak için farklı yöntemler kullanılsa da en sık kullanılanlar
arasında bilgisayarlar, sosyal medya ve bloglar, forum siteleri, mobil uygulamalar ve web siteleri yer
almaktadır.

3.    Veri Temizleme: Elde edilen verilerin analize uygun olmayanları elemek ve yanıltıcı sonuçların ortaya
çıkmasını önlemek için planlı hareket edilmelidir. Bu işlem ön hazırlık olarak da adlandırılmaktadır ve veri
toplama süreçlerindeki yapısal olmayan verilerin düzenlenmesi olarak da ifade edilebilmektedir.

4.    Veri Analiz Ekibi ile Çalışma: Büyük veriden anlamlı ve katma değerli çıktılar elde etme sürecini
yürütmek için veri analisti kullanılmaktadır. Veri analizi tek başına uzmanlık gerektiren bir iş olduğundan,
işletmede çalışan herhangi birinin ek görevi olarak ele alınmamalı; veri analizi konusunda uzmanlaşmış kişiler
tarafından süreç yönetimi gerçekleştirilmelidir.

5.    Tekrar Etme ve Optimizasyon: Veri analizi sürecindeki işlemler mümkün olduğunca çok tekrarlanarak,
verilerin tutarlılığı izlenip, en doğru sonuçlara ulaşmak gerekir. Burada analistin tecrübesi ve veriyi
yorumlaması sayesinde en uygun sonuçların elde edilmesi ve raporlanması sürecidir.

Büyük veri analizi nicel veri analiz yöntemleri ve nitel veri analiz yöntemleri olarak 2 ana kategoride
sınıflandırılabilmektedir.

i. Nicel Veri Analizi Yöntemi: Bu yöntem, nicel veriyi baz alarak sonuca ulaşır. Nitel yönteme kıyasla daha
kesin sonuçlar veren bu yöntem grubuna dâhil olan teknikler betimsel ve kestirimsel istatistiktir. Teknikler
kapsamında sayısal veriler analiz edilip düzenlenerek sonuca ulaşılır. Betimsel istatistik, bilimsel araştırmaların
yorumlanması için en etkili teknik olup nicel verilerin tanımlayıcı indekslere evrilmesi adına kullanılır.
Kestirimsel istatistik, betimsel istatistik tekniği kullanılarak ulaşılan sonuçların genellemesinde tercih edilir ve
tahmine dayalıdır.

ii. Nitel Veri Analizi Yöntemi: Bu yöntem ise nitel veriyi (sayısal olmayan) baz alarak sonuca ulaşır. Sosyal
gerçekliğin ortaya konmasında kullanılan yönteme dâhil olan teknikler arasında içerik analizi ve betimsel
analiz bulunur. İçerik analizi tekniğinde veriler detaylı olarak incelenerek kavram ve ilişkilerle açıklanmaya
çalışılır. Betimsel analizde ise derinlemesine inceleme yapılmaz; veriler betimlenir, bulgular yorumlanarak
düzenlenir.

Ayrıca büyük verinin analiz yöntemleri bilimsel araştırma yöntemler açısından aşağıdaki şekilde
sınıflandırılmaktadır:

1.    Betimsel Analiz (Descriptive Analysis): En basit ve herkes tarafından kolaylıkla anlaşılabilir veri analizi
türüdür. Ortalama, standart sapma, yüzde ve sıklık gibi veriler elde etmek için ya tam veriye ya da özetlenmiş
sayısal veri örneğine dayanır. Analiz için kullanılan verilerden “Yaş aralığı” ve “Nicelik” gibi sonuçların hızlı
ve kolay bir şekilde ortaya çıkmasını sağlar.

2.    Keşif Analizi: Analiz sürecinde kullanılan veriler arasındaki doğrudan ya da dolaylı ilişkileri anlamak için
keşif analizinden yararlanılır.

3.    Çıkarımsal Analiz (Inferential Analysis): Küçük miktarda veri kullanarak, daha büyük miktardaki
gruplar hakkında yorum yapabilmek ya da kararlar alabilmek için çıkarımsal analiz kullanılır.

4.    Tahmin Analizi (Predictive Analysis): Bir grup ya da olaydaki verileri kullanarak başka bir grup ya da
olay hakkında yorum yapabilmek için tahmin analizi kullanılır. Yani bu analiz mevcut veya geçmiş verilere
dayanarak gelecekteki sonuçlar hakkında tahminlerde bulunmak için kullanılır. Doğruluğu, ne kadar ayrıntılı
bilgiye sahip olduğunuza bağlıdır. Bir trendin, modelin veya olayın neden gerçekleştiğini anlarsanız,
about:blank 100/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

karşılaşabileceklerinize dair bilinçli bir projeksiyon geliştirebilir, potansiyel sorunların kontrolden çıkmasını
önleyebilirsiniz. Bu sayede, kurum veya kuruluşunu için girişimlerinizi formüle edebilir, etkili kampanyalar
başlatabilirsiniz.

5.    Teşhis Analizi (Diagnostic Analysis): Bu yöntemi, istatistiksel analizi bir adım daha ileri götürerek, bir
şeyin neden olduğunu cevaplamak için kullanabilirsiniz. Teşhis analizi, verilerin davranış kalıplarını
tanımlamak için yararlıdır.

6.    Metin Çözümlemesi (Text Analysis): Metin analizine; “Veri Madenciliği” de denir. Veritabanlarını
kullanarak büyük veri kümelerindeki bir deseni keşfetmeye ve ham verileri iş öngörülerine dönüştürmeye
yarar.

7.    İstatistiksel Analiz (Statistical Analysis): İstatistiksel analiz, bir veri kümesinin veya bir veri örneğinin
analizi için verilerin toplanmasını, analizini, yorumlanmasını, sunumunu ve modellenmesini içerir. Betimsel
Analiz ve Çıkarımsal Analiz olarak iki kategoriye ayrılabilir.

Analiz edilecek veri miktarı arttıkça, bu verinin işlenmesi ve yorumlanması için uzmanlık ve doğru uygulama
zorunluluğu doğar. Uzman kişiler tarafından ve veri analiz uygulamaları kullanılarak gerçekleştirilen veri
analiz işlemleri zamandan tasarruf sağladığı gibi, en doğru sonuçlara ulaşmak için de gerekli olup en doğru
yolu seçmelerine olanak sağlanır (Şekil 8.3) [1].

Şekil 8.3. İşletme için doğru kararlara büyük veri analitiği sayesinde ulaşılır.

Büyük veri analizinde cevap bulunması gereken önemli sorular vardır. Bunlar:

§ Büyük veri boyutu ve çeşitliliği arttıkça, veri analitiğinde karşılaşılacak sorunlarla nasıl başa çıkılacaktır?

§ Verinin tamamı depolanmalı mıdır?

§ Verinin tamamı analiz edilmeli midir?

§ Hangi büyük veri unsurlarının gerçekten önemli olduğuna nasıl karar verilmelidir?

§ En iyi avantajı elde etmek için büyük veri nasıl kullanılmalıdır?

Cevap bekleyen bu sorular, büyük verinin analiz aşamasında çok büyük zorlukları da beraberinde
getirmektedir. Büyük veri, yapısal, yarı yapısal ve yapısal olmayan veri türlerinden oluştuğu için büyük veri
analitiğinde ileri kabiliyetlere gereksinim duyulmaktadır ve çözülmesi gereken en önemli sorunların başında
gelmektedir. Yapısal olmayan verinin yapısal veriye nazaran büyüklüğünün ve büyüme hızının çok fazla
olması, bu manada yapısal olmayan verinin veri tabanlarında yüksek depolama alanı ve enerji tüketimine
ihtiyaç duyması başlıca zorluklar arasında yer almaktadır. Bununla birlikte yapısal olmayan verinin yapısal veri
gibi ilişkisel veri tabanlarında belirli bir düzende depolanamamasından dolayı birlikte çalışabilirliğin olmaması

about:blank 101/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

da aşılması gereken diğer bir zorluktur. Bu zorlukları aşmak için veri depolama sistemlerinde ve sistemler
üzerinde çalışan sorgu dilleri mantığında da değişikliklere gidilmiştir.

Bununla birlikte veri üzerinde yapılması gereken analiz türü, elde edilecek sonuçlara da bağlıdır. Analiz
aşamasında ya tüm büyük veri unsurları birleştirilir, ya da hangi büyük veri unsurunun elde edilecek sonuçla
alakalı olduğu belirlenir [2, 3].

8.2. Büyük Veri Analizi Sayesinde Elde Edilen Kazanımlar


Müşterileriniz her gün bol miktarda veri üretir; devletlerin vatandaşlarına sunduğu her türlü hizmetlerini
kullandığın, e-postanızı her açtıklarında, mobil uygulamanızı kullandıklarında, sizi sosyal medyada
etiketlediklerinde, mağazanıza girdiklerinde, çevrimiçi alışveriş yaptıklarında, bir müşteri hizmetleri
temsilcisiyle konuştuklarında veya sanal bir asistana sizin hakkınızda soru sorduklarında. Büyük veri analitik
araçları bu verileri toplar ve kurum/kuruluşunuz için yararlı olacak şekilde analiz eder.

Daha fazla veriyi daha hızlı bir şekilde analiz edebilme yeteneği, bir kurum/kuruluşa büyük faydalar
sağlayabilir. Bazı önemli kararları almak için veya bazı problemleri tespit etmek için verilerin daha verimli bir
şekilde kullanılmasına olanak sağlar. Büyük veri analitiği, kurum/kuruluşların fırsatları ve riskleri belirlemek
için birden çok kaynaktan büyük miktarda veriyi birden çok biçimde kullanmasına izin vererek kurum ve
kuruluşların hızlı hareket etmelerine ve kârlarını iyileştirmelerine yardımcı olur.

İşletmeler, işle ilgili bazı kararları hızlı ve doğru bir şekilde alabilmek için büyük veri analitiği sistemlerini ve
yazılımlarını kullanabilir. Büyük veri analitiği daha etkili pazarlama, yeni gelir fırsatları, müşteri
kişiselleştirme ve iyileştirilmiş operasyonel verimlilik gibi konularda yardımcı olabilir. Bu faydalar etkili bir
strateji ile rakiplere göre büyük avantajlar sağlayabilir.

Büyük veriyi, her boyuttaki kurum veya kuruluşlar kullanabilir ve yararlanabilir. Organizasyonunuzun,
verimliliğini artırmak, kâr hanenizi büyütmek ve yeni iş modellerini güçlendirmek için büyük veri analitiğinin
size sağladığı kazanımlardan yararlanabilirsiniz [4].

i. Maliyetleri azaltır: Büyük veri analitiği, kullanıcıların işletmelerindeki maliyetleri düşürmelerine yardımcı
olur. Hadoop ve bulut tabanlı analiz sistemleri, kullanıcıların verilerini depolamanın ucuz ve verimli yollarını
sağlar. Elde ettiğiniz veriler ve iç görüler sayesinde işletmenizin düşük ve yüksek performans gösteren
yönlerini kolayca tespit edebilirsiniz.

Örneğin, E-ticaret sitenizde, reklam ve pazarlama biriminiz çok başarılı kampanyalar yürüterek birçok
potansiyel müşteriyi sitenize yönlendirmesine rağmen gerekli satışları yapamadığınızı düşünelim. Büyük veri
analitiğini kullanarak, satışlarınızı kaybetmenize hangi faktörlerin sebep olduğunu araştırabilir ve bunlar için
gerekli önlemleri alabilirsiniz. Belki ödeme sayfanız iyi optimize edilmemiştir, belki sitenizin hızı yeterli
değildir. Bu durumda sorunu çözmek için gerekli aksiyonları hızlıca alabilirsiniz.

ii. Hızlı kararlar almanızı sağlar: Geniş verilerin detaylı ve hızlı bir şekilde kullanılabilir hale gelmesi
sayesinde, kullanıcılar daha hızlı bir şekilde kritik kararlar alabilirler.

iii. İş performansınızı optimize eder: İşletmenizi her yönüyle genel kapsamda görebilmenin önemli faydaları
vardır. Bu sayede çalışmalarınızın veya işlemlerinizin sorunlu olduğu noktaları veya eksiklikleri kolayca teşhis
edebilir ve gerekli önlemleri hızlıca alabilirsiniz. Çoğu büyük veri analitiği sistemleri, destekleyici faktörler
veya ilişkili veri noktaları gibi en azından bazı teşhis bilgilerinin sağlanmasına yardımcı olacaktır.

iv. Verilerinizi doğru yönetmenizi sağlar: Veri yönetimi, büyük verilerin kritik bir özelliğidir. Genel Veri
Koruma Yönetmeliği gibi bazı yasal düzenlemelerden dolayı verilerin akışını kontrol etmek kritik öneme sahip
bir konudur. Veri kalitesi yönetimi verilerin temizlenmesini, toplanmasını, dağıtılmasını ve ilişkilendirilmesini
içerir.

v. Eğilimleri analiz etmenizi sağlar: Eğilimleri tahmin etmek ve davranışları analiz etmek, büyük veri
analitiğinin en önemli özellikleri arasındadır. Geçmiş verilerden yola çıkarak, büyük veri analitiği, sonraki
dönemler için tahminler yapmaya çalışacak ve aynı zamanda sonuçları etkileyebilecek, mevsimsellik, fiyat
dalgalanmaları, farklı tüketici davranışları, marka etkileşimi gibi faktörleri de hesaba katacaktır.

about:blank 102/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

vi. Analizleri kolayca paylaşmanızı sağlar: Görselleştirilmiş ve tablolara dönüştürülmüş İç görüleri


kuruluşunuzdaki diğer kişilerle hızlıca paylaşmanızı sağlar. Tablolar dinamik bir şekilde güncellenir,
etkileşimli pencereler ham verilere dönüştürülür. Tablolar, büyük ölçüde pazarlama, satış veya yönetim gibi
belirli kullanım durumları için uyarlanmıştır. Görselleştirmeler, verimli ve anlamlı yollarla iletişim kurarak
verilerin hikayesini anlatmaya yardımcı olur.

8.3. Büyük Veri Analiz Aşamaları


Büyük veri analizi, verileri keşfetmenizi, içinde bir kalıp bulmanızı ve buna dayanarak kararlar almanızı
sağlayan bir süreçtir. Tüm organizasyonunuzu daha bilgili kılmayı amaçlar. Kapsamlı bir veri analizi aşağıdaki
aşamaları içerir:

1. İhtiyaçları Belirleme: Verilerinizi analiz etmeye veya herhangi bir analiz tekniğini incelemeye başlamadan
önce, kuruluşunuzdaki tüm kilit paydaşlarla iş birliği yapmalı, analiz yapmanın amacına, neyi analiz
edeceğinize ve nasıl ölçeceğinize karar vermelisiniz.

2. Soruları Belirleme: Temel hedeflerinizi belirledikten sonra, görevinize ulaşmanıza yardımcı olmak için
hangi soruların cevaplanması gerektiğini düşünmelisiniz. Bu, başarınızın temellerini şekillendireceğinden en
önemli veri analizi tekniklerinden biridir. Verilerinizin çalıştığından emin olmak için doğru sorularını sormanız
gerekir.

3. Veri Toplama: En doğrulanmış kaynaklardan veri toplamaya, veri toplarken, verilerin toplanma tarihine ve
kaynağına dair notlar tutulmasına ve verilerin analiz için organize edilmesine önem gösterilmelidir.
Kullanılacak veriler geçmiş verileri veya belirli bir girişim için toplanan yeni bilgileri içerebilir. Bir kitlenin
demografik özellikleri, ilgi alanları, davranışları ve daha fazlası hakkında bilgiler içerebilir. Müşteriler ve site
ziyaretçilerinden toplanabilir veya diğer kuruluşlardan satın alınabilir. Bir şirketin kendi müşterileri hakkında
topladığı verilere birinci taraf verileri, bir şirketin başka bir kuruluştan elde ettiği verilere ikinci taraf verileri
denir ve bir şirketin bir pazardan satın aldığı toplu verilere üçüncü taraf verileri denir.

4. KPI’ları Belirleme: KPI’lar, göz ardı etmemeniz gereken birincil yöntemlerden biridir. Anahtar Performans
Göstergelerini (KPI) tanımlamak, verileri doğru bir şekilde ölçmenizi sağlar. KPI’lar başarıyı ve sonuçları nasıl
ölçtüğünüzü tanımlamanıza yardımcı olur. Bir dizi önemli performans göstergesi (KPI) ile belirli alanlardaki
ilerlemenizi izleyebilirsiniz. KPI Nedir? adlı detaylı yazımızı incelemenizi öneririz.

“Kilit performans göstergesi anlamına gelen KPI (Key Performance Indicator), şirketlerin, projelerin ya da
bireylerin kilit hedeflerine etkili bir şekilde ulaşıp ulaşmadığını gösteren ölçülebilir bir değerdir.”

5. Verileri Temizleme: Toplanan veriler arasında yinelenen kayıtlar, hatalı ve alakasız olanlar gibi gereksiz
bilgi yığının kırpılması gerekir. Analizden önce veri temizliğinin yapılması, analizin yalın bilgilerle
beklentilere uygun sonuçlanmasını sağlar. Faydasız olduğunu düşündüğünüz verileri ayıklamak için referans
olarak KPI’larınızı kullanmalısınız. İşletme hedeflerinize uymayan veya KPI yönetim stratejilerinize uymayan
tüm istatistikler, olgular, rakamlar veya metrikler denklemden çıkarılmalıdır.

6. İstatistiksel Analiz: Veriler toplandıktan ve temizlendikten sonra analiz için hazır hale gelir. Bu aşamada,
gereksinimlere göre sonuçlarınızı anlamanıza ve yorumlamanıza yardımcı olacak yukarıdaki gibi veri analiz
tekniklerini ve yazılımlarını kullanabilirsiniz. En önemli analiz türlerinden biri istatistiklerdir. Küme (cluster),
Cohort, Regresyon ve Faktör gibi istatiksel araçlarla veri analizinize daha mantıklı bir yön vermeniz kolaylaşır.

7. Veri Yönetimi Yol Haritası: Verilerinizi depolamanıza, yönetmenize ve işlemenize yardımcı olacak bir
“veri yönetimi yol haritası” oluşturmak analiz yöntemlerinizin daha başarılı olmasına yardımcı olacaktır.

8. Doğru Teknolojiyi Entegre Etmek: Verileri analiz etmenin elbette ki birçok yolu vardır, ancak doğru
yazılımın, güçlü analiz platformlarının seçilmesi zamandan ve emekten tasarruf edilmesini sağlayacak ve
başarınızda etkili olacaktır.

9. Soruların Cevaplanması: Tüm bu aşamalardan sonra ikinci adımda belirlediğiniz soruları hızla
cevaplamaya başlayabilirsiniz. Büyük veriler ve doğru analiz önemli soruların cevaplarını sunarken, iç ve dış
paydaşların, müşterilerle birlikte, verilerden yararlanmasını da sağlamış olur.

about:blank 103/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

10. Verilerin Görselleştirilmesi: Verileri görselleştirme, kuruluşunuzdaki herkesin, teknik altyapısı


olmayanların bile neler olduğunu görebileceği anlamına gelir. Verilerin kolay anlaşılması için grafiksel olarak
gösterilmesi; bilinmeyen gerçekleri ve eğilimleri keşfetmek için kullanılır. Bu şekilde ilişkileri gözlemleyerek
ve veri kümelerini karşılaştırarak, anlamlı bilgiler elde etmenin etkili bir yolunu bulabilirsiniz. Veri
görselleştirme, metriklerinizle bir hikaye anlatmanıza da olanak tanıyan güçlü bir araçtır.

11. Metin çözümlemesi: Metin madenciliği olarak da bilinen metin analizi, büyük miktarda metin verisini
yönetmeyi kolaylaştıracak şekilde düzenleme işlemidir. Modern analiz araçları ve teknikleri; ürün incelemeleri,
makaleler, sosyal medya iletişimleri ve anket yanıtları da dahil olmak üzere çeşitli kelime tabanlı veri
kaynaklarından bilgi elde etmenize yardımcı olarak metin analizi sürecini hızlandırabilir.

12. Tanı analizi: Belirli sorulara doğrudan ve eyleme geçirilebilir yanıtlar sağlamak üzere tasarlanan bu
aşama, perakende analitiği gibi önemli organizasyonel işlevlerin yanı sıra dünyanın en önemli araştırmada
yöntemlerinden biri olarak kabul edilir. Tanı verileri analizi, analistlerin ve şirket yöneticilerinin, bir şeyin
neden olduğuna dair sağlam bir bağlamsal anlayış kazanmalarına yardımcı olur. Bir şeyin neden olduğunu ve
nasıl olduğunu biliyorsanız, sorunu tam olarak çözmenin yollarını belirlemeniz de kolaylaşır.

13. Otonom Teknoloji: Yapay zeka (AI) ve makine öğrenimi (ML) gibi otonom teknolojiler, verilerin daha
etkili bir şekilde nasıl analiz edileceğini anlamada önemli rol oynar. Örneğin, tedarik zinciri KPI’larını
izliyorsanız, geçersiz veya düşük kaliteli veriler göründüğünde tetiklenecek şekilde akıllı alarmlar
ayarlayabilirsiniz. Modern veri analizi tekniklerinden biri olan akıllı alarmlar, bir veri kümesindeki belirli
komutlara veya olaylara dayalı otomatik sinyaller sağlar.

14. Veri Öyküsü: İnsan beyni güçlü hikayelere inanılmaz derecede iyi yanıt verir. Verilerinizi temizledikten,
şekillendirdikten ve görselleştirdikten sonra hikayeleştirmeniz; analitik çabalarınızı daha erişilebilir,
sindirilebilir ve evrensel hale getirebilir.

8.4. Büyük Verinin Analizi


İşletmelerin elindeki büyük veriyi analizi için karar vermesi gereken önemli bir husus da analiz işlemlerinin
nasıl bir donanım/yazılım platformunda hayata geçirecekleri ile ilgilidir. Son yıllarda popülaritesi artan bulut
mimarisi ön plana çıkmaktadır. Bunun yanında veri mahremiyeti veya veri güvenliği ile ilgili firmaya özel
kısıtlara bağlı olarak klasik tip sunucu yapıları da kullanılmaktadır.

Büyük veri uygulamalarının altyapısı genellikle Hadoop ve Spark tabanlı olduğu için ve bu platformlar dağıtık
mimariye izin verdiği için, artık tek bilgisayar üzerinde de çoklu sunucular üzerinde de fiziksel ve/veya sanal
makineler kullanılarak büyük veri uygulamaları ve analizleri geliştirmek mümkün olmaktadır.

Günümüzde firmaların büyük veri departmanları ve araştırmacılar çok değişik büyük veri problemleri ile
karşılaşmaktadırlar. Ellerindeki donanım/yazılım mimarisinin farklı problemlere en hızlı şekilde
uyarlanabilmesi başlı başına bir problemdir. Problemler farklı büyüklüklere ve kurgulara sahip olduklarından
ötürü uygulama geliştiricileri önemli bir ölçekleme problemi ile karşı karşıya kalmaktadırlar.

Burada sistem yöneticilerinin önünde Şekil 8.4’te verilen iki temel seçenek bulunmaktadır:

about:blank 104/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 8.4. Yatay ve Dikey Ölçekleme

1. Yatay Ölçekleme

Bu sistemler tek başına çok fazla işlem gücü olmayan bir veya daha fazla bilgisayar/sunucu içeren bir
mimarinin üzerindeki bilgisayar/sunucu sayısını arttırarak daha güçlü işlem gücüne sahip bir sisteme
dönüştürülmesine karşılık gelmektedir.

Dağıtık mimari ve sanallaştırma teknolojilerindeki ilerlemelere bağlı olarak artık donanım ve yazılım bazlı
paralelleştirmede oldukça iyi seviyelere varılmıştır. Bunun sonucu olarak çok sayıda “mütevazi” bilgisayar
veya sunucunun uygun kurgulamalarla tek bir sunucu gibi hareket etmesi sağlanabilmektedir.

Oluşan bu paralel bileşke sistemin işlem gücüne sahip tek bir fiziksel sunucunun maliyeti çok daha masraflı
olmaktadır. Bu sebeple yatay ölçekleme güçlü bir fiziksel/sanal/bulut sunucu öbeği kurmak isteyen sistem
yöneticileri için iyi bir seçenek sunmaktadır.

Yatay ölçeklemenin avantajları arasında esneklik ve fiyat avantajı ön plana çıkmaktadır. Bu sistemler üzerinde
çalışılan problemin büyüklüğüne bağlı olarak istenilen şekilde ölçeklenebilir. Var olan donanım, problem için
yeterli değilse, istenilen işlem gücü veya büyüklüğe varılana kadar yatay ölçekleme yapılabilir. Teorik olarak
bu ölçeklemenin sınırı olmadığından her tür problem üzerinde çalışmak mümkündür. Veri büyüdükçe maliyeti
karşılama (ölçekleme) masrafı lineer olarak artmaktadır.

Yatay ölçeklemenin dezavantajları ise genellikle yazılım tarafında karşımıza çıkmaktadır. Çok sayıda farklı
donanım biriminden oluşan dağıtık mimari üzerinde verimli bir paralelleştirmenin gerçekleştirilmesi, gerçek
zamanlı hızlı başarım sağlanması, birimler arası haberleşmenin yaratabileceği gecikme veya senkronizasyon
problemleri bu şekilde bir ölçekleme gerçekleştirilen sistemlerde her zaman istenen verimin alınamamasına yol
açabilir. Ayrıca yatay ölçeklemeyi en üst seviyede kullanabilen nispeten sınırlı sayıda yazılım mevcuttur. Fakat
bu dezavantajların giderilmesine yönelik çalışmalar devam etmektedir ve her geçen gün iyi performans
gösteren paralel mimari temelli açık kaynak yazılımların sayısı artmaktadır.

2. Dikey Ölçekleme

Bu sistemler genellikle tek bir sunucu mimarisi üzerinde çalışan yapıların yine tek sunucu olan fakat daha
güçlü işlem gücüne sahip bir sisteme dönüştürülmesine karşılık gelmektedir.

about:blank 105/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Sunucu tek olmasına karşılık artık günümüzde aynı kart üzerinde çok sayıda işlemci (veya aynı işlemci
üzerinde çok sayıda çekirdek) bulunmaktadır. Dolayısıyla tek sunucu sistemlerde bile aynı sunucu içinde de
olsa paralel mimari söz konusudur. Bu paralellikten işletim sistemi ve/veya gerektiğinde yazılım seviyesinde
faydalanılmaktadır. Ayrıca sanal makineler oluşturularak paralellik de sağlanabilmektedir.

Dikey ölçeklemenin en önemli avantajı tek sunucunun sağladığı kurgulama ve yönetim kolaylığıdır. Ne kadar
kolay kurgulanırsa kurgulansın, parallelleştirme donanım ve yazılım seviyesinde ekstra bir çaba gerektirecektir.
Bunun yanı sıra birçok yazılım tek sunucu üzerinde en iyi başarımı sağlayacak şekilde çalışmaktadır, bu
dağıtık mimari içeren sistemlerde bir yavaşlama yaratabilir. Ayrıca bazı problemlerin bu tip sistemlerde
modellenmesi de kolay olmayabilir.

Buna karşılık dikey ölçeklemenin ciddi dezavantajları da bulunmaktadır. İşlem gücünü arttıracak şekilde tek
sunuculu bir sistemin maliyeti toplamda aynı işlem gücüne sahip çok sayıda bilgisayar/sunucudan oluşan bir
sisteme kıyasla çok daha pahalı olacaktır. Ayrıca bu tarz bir sistemde problem büyüklüğü ölçeklemesi de
gerçek anlamda sağlanamamaktadır.

Problem küçük de olsa büyük de olsa, mimari aynı kalacaktır. Bunun sonucu olarak sistem yöneticisi işlem
gücünü karşılaşılabilecek en büyük probleme göre kurgulamak zorunda kalacaktır. Daha küçük bir problemle
karşılaşıldığında bu gereksiz işgücü fazlası verimsizlik yaratacaktır. Buna karşılık daha büyük bir problemle
karşılaşıldığında eğer mevcut işlem gücü yetersiz kalırsa sistem kullanılamayacaktır. Ayrıca ölçeklemenin bir
fiziksel üst sınırı bulunmaktadır. Artan işlem gücü ve veri işleme gereksinimine bağlı maliyetler yatay
ölçeklemenin aksine üstel olarak artacaktır. Tüm bu dezavantajlar günümüzde dikey ölçeklemeye bağlı
çözümlerin eskisi kadar tercih edilmemesine yol açmaktadır.

Bugün istatistik ve bilgisayar bilimlerinde kullanılan araçlara bağlı olarak veri analizinde farklı birçok teknik
kullanılmaktadır. Araştırmacılar özellikle verilerin yeni kombinasyonlarını analiz etmek için yeni teknikleri
geliştirerek mevcut olanları da geliştirmeye devam ediyor. Bugün için büyük miktardaki veriyi analiz eden en
gelişmiş teknikler şunlardır: Yapay Sinir Ağları, Tahmini Analiz Yöntemleri, İstatistikler ve Doğal Dil
İşleme’dir. Büyük veri işleme yöntemleri, uygulamalı matematik, istatistik, bilgisayar bilimleri ve ekonomi
gibi farklı disiplinlerden yararlanmaktadır. Bu disiplinler Veri Madenciliği, Sinir Ağları, Makine Öğrenmesi,
Sinyal İşleme ve Görselleştirme Yöntemleri gibi veri analiz tekniklerinin temelini oluşturmaktadır. Bu
yöntemlerin çoğu birbiri ile ilişkili olup veri işleme sırasında eşzamanlı olarak kullanılır. Dikkat edilirse bu
teknikler büyük veri kullanılmasını gerektiren tekniklerin tamamı değildir. Bazıları küçük veri setlerine de
etkili bir şekilde uygulanabilmektedir. Örneğin, A/B testi ve regresyon analizi küçük veri setlerine de
uygulanabilmektedir. Ancak aşağıda listelenen tekniklerin tamamı büyük verilere uygulanabilir [5, 6].

Veri Madenciliği

Veri Madenciliği, veritabanı yönetimi ile istatistik ve makine öğrenme (machine learning) yöntemlerini
birleştirilerek büyük veri setlerinden desenleri ayıklamak için kullanılan bir dizi tekniktir. Bu teknikler, ilişkili
öğrenme, kümeleme analizi, sınıflandırma ve regresyondur. Veri Madenciliği’ne örnek olarak; müşterilerin
satın alma davranışlarını modellemek için pazar sepeti analizinin kullanılması, insan kaynaklarının veri
madenciliğini kullanarak en iyi çalışanlarının karakterlerini belirlemesi ya da müşteri verisi kullanarak bir
teklife olası verilebilecek cevapların belirlenmesi verilebilir.

Sınıflandırma

Sınıflandırma tekniği bir dizi kategorilere ayırmak için kullanılır. Bu teknik yeni veri noktalarına sahip, daha
önceden kategorize edilmiş veri noktalarını içeren bir eğitim setine dayanmaktadır. Örnek olarak özel müşteri
segment (iş kolu) davranışının tahmini verilebilir ki, burada kesin bir hipotez ya da objektif bir sonuç yoktur.
Yine müşterilerin satın alma kararları, abone kayıp ve tüketim oranı sınıflandırmaya örnek olarak verilebilir.
Bu tekniklerde genellikle bir eğitim seti mevcut olduğundan denetimli öğrenme (supervised learning) olarak
tanımlanmaktadır. Ayrıca, bu teknikler denetimsiz öğrenmenin (unsupervised learning) bir türü olan kümeleme
analizine zıt olup veri madenciliği (data mining) için kullanılır [5].

Kümeleme Analizi

Kümeleme Analizi, nesneleri sınıflandıran istatistiksel bir yöntemdir. Bu yöntem benzer nesneleri daha küçük
gruplar halinde çeşitli alt gruplara ayırır ki, bu nesnelerin benzer karakteristik özellikleri daha önceden
bilinmemektedir. Kümelemede amaç sınıflar arasındaki benzerliğin minimum, sınıfın kendi içerisinde
about:blank 106/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

benzerliğinin maksimum olmasıdır. Kümeleme analizine bir örnek olarak hedefe yönelik pazarlama için
tüketicilerin kendi benzerliklerine göre gruplara ayrılması verilebilir. Bu yöntem denetimsiz öğrenmenin bir
türü olduğundan burada eğitim verisi kullanılmaz. Kümeleme analizi sınıflandırmaya zıt olup genellikle veri
madenciliğinde kullanılmaktadır [5].

Genetik Algoritmalar

Genetik Algoritmalar, optimizasyon için kullanılan bir teknik olup, bu doğal evrim sürecinden veya “en
güçlünün hayatta kalmasından” esinlenmiştir. Bu teknikte, olası çözümler birleştirilebilir ve mutasyon
geçirebilir “kromozomlar” olarak kodlanmıştır. Bu bireysel kromozomlar nüfusun her bir bireyinin
dayanıklılığını ya da performansını belirleyen bir modellenen “çevre” içinde hayatta kalmak için seçilir.
Genellikle “evrimsel algoritma” türü olarak tanımlanan genetik algoritmalar doğrusal olmayan (nonlinear)
problemlerin çözümü için çok uygundur. Genetik algoritmalara örnek olarak, üretimde iş planlaması
iyileştirilmesi ve yatırım portföyünün performansının optimize edilmesi verilebilir [5].

Makine Öğrenme

Yapay zekâ olarak da adlandırılan makine öğrenme; algoritmaların tasarımı ve geliştirilmesi ile ilgili bilgisayar
biliminin bir alt bilim dalıdır. Bu algoritmalar bilgisayarların ampirik verilere dayalı davranışları
evrimleştirmeye izin vermektedir. Makine öğrenme araştırmalarının en önemli odak noktası otomatik olarak
karmaşık desenleri tanımak ve verilere dayalı akıllı kararlar almaktır. Makine öğrenmeye örnek olarak, doğal
dil işleme verilebilir.

Doğal Dil İşleme

Doğal Dil İşleme (NLP), bilgisayar bilimi ve dil biliminin bir alt bilim dalından gelen tekniklerin bir kümesi
olup, beşeri (doğal) dil analizinde bilgisayar algoritmalarını kullanmaktadır. Birçok NLP tekniği makine
öğrenme türleri arasında yer almaktadır. NLP’ye örnek olarak, müşterilerin marka kampanyasına tepkilerini
belirlemek için sosyal medya duygu analizinin kullanılması verilebilir.

Yapay Sinir Ağları

Bilişimsel modeller, verilerdeki desenleri bulmak için biyolojik sinir ağlarının yapısından ve çalışmasından
esinlenerek geliştirilmiştir. Sinir ağlarına örnek olarak, bir beynin içindeki hücreler ve bağlantıları verilebilir.
Sinir ağları tekniği nonlineer (doğrusal olmayan) desenleri bulmakta oldukça başarılıdır. Ayrıca sinir ağları,
örüntü tanıma ve optimizasyon için de kullanılabilmektedir. Bazı sinir ağı uygulamaları denetimli öğrenmeyi
içerirken bazısı da denetimsiz öğrenmeyi içermektedir. Bununla birlikte, sinir ağlarına örnek olarak, belirli bir
şirketten ayrılma riskiyle karşı karşıya olan yüksek değerli müşterilerin ve sahte sigorta taleplerinin
belirlenmesi verilebilir.

Optimizasyon

Optimizasyon, eldeki sınırlı kaynakların en etkin şekilde kullanılması anlamına gelmektedir. Optimizasyonu
matematiksel olarak bir fonksiyonun maksimize veya minimize edilmesi olarak tanımlamakta mümkündür.
Optimizasyona örnek olarak; maliyet, hız ya da güvenilirliği vermek mümkündür. Optimizasyon uygulama
örnekleri; geliştirici işlemsel süreçler olarak, zaman planlama, dağıtım ve zemin düzenleme ve stratejik
kararlar olarak; ürün yelpazesi stratejisi, bağlantılı yatırım analizleri ve Ar-Ge portföy stratejisini içermektedir.
Bununla birlikte genetik algoritmalar da optimizasyon tekniğine örnek olarak verilebilir.

Sinyal İşleme

Sinyal işleme, elektrik mühendisliğinden ve uygulamalı matematikten gelen tekniklerin kümesidir. Bu


teknikler ayrık (discrete) ve sürekli sinyalleri analiz etmek için geliştirilmiştir. Yani analog fiziksel
büyüklüklerin (dijital olarak temsil edilse bile) temsilleri; radyo sinyalleri, ses ve görüntüdür. Bu kategori
sinyal algılama tekniklerini içermekte ve bunlar sinyal ve ses arasındaki farkı ölçebilmektedir [5].

Mekânsal Analiz

Mekânsal analiz, insan davranış kalıplarını ve mekânsal ifadesini, matematik ve geometri bakımından, yani
konumsal analiz açısından açıklamaya çalışan bir coğrafi analiz türüdür. Mekânsal analizin sonuçları, analiz

about:blank 107/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

edilen nesnelerin konumuna bağılı olup, bu tekniği uygulamak için nesnelerin konumlarına ve özelliklerine
erişmek gerekmektedir. Konum verilerine örnek olarak, adresler veya enlem/boylam koordinatları da dâhil
olmak üzere verileri yakalayan coğrafi bilgi sistemleri (GIS) verilebilir. Mekânsal analiz uygulamalarına örnek
olarak mekânsal regresyonlar (Örneğin, bir ürünün yer ile ilişkili tüketici istekliliği nasıl olur?) veya
simülasyonlar (Örneğin, bir imalat tedarik zinciri ağı, farklı yerlerdeki sitelerle nasıl bir performans
gösterebilir?) verilebilir.

Zaman Serileri Analizi

Zaman Serileri, ardışık eşit zaman aralığındaki veri noktalarının dizilerini analiz etmek ve veriden anlamlı
sonuçlar elde etmek için istatistik ve sinyal işleme teknikleri kullanılır. Zaman serisine örnek olarak bir borsa
endeksinin saatlik borsa değeri ya da her gün belli koşullar altında tanısı konulan hasta sayısı verilebilir.
Zaman serisi tahmini; aynı veya başka bir dizi bilinen geçmiş değerlere dayalı bir zaman serisinin gelecekteki
değerlerini tahmin etmek için modelin kullanılmasıdır. Bu tekniklerden bazıları örneğin yapısal modelleme
yaparak serileri; trend, mevsimsellik ve kalıntı bileşenlerinden ayrıştırır. Zaman serileri uygulamalarına örnek
olarak tahmini satış rakamları ya da bulaşıcı bir hastalık için tanısı konulacak insan sayısının tahmin edilmesi
verilebilir.

Görselleştirme (Visualization), Büyük Veri ve Görselleştirme

Görselleştirme, büyük veri analizlerini iletmek, anlamak ve geliştirmek için resimler, diyagramlar ya da
animasyonlar oluşturmak için kullanan bir tekniktir. Görselleştirme, insan ve elektronik veri işlemenin güçlü
yönlerini birleştiren bir teknoloji sunmaktadır. Görselleştirme, insanların ve makinelerin, en etkili sonuçlar için
farklı yetenekleri kullanılarak işbirliği yaptığı, yarı otomatikleştirilmiş bir analitik sürecin aracı hâline
gelmiştir. Görselleştirme de kullanıcı, analizin yönlendirilmesinde nihai otoriteye sahiptir. Bununla birlikte,
sistemin belirli görevleri yerine getirmesi için etkin etkileşim araçlarına da ihtiyaç vardır. Görselleştirme
özellikle çok boyutlu veri setlerinin analizinde büyük öneme sahiptir. Çünkü görselleştirme verideki karmaşık
ilişkileri keşfetmemize ve anlamamıza yardımcı olmaktadır. Büyük veri setlerini tek başına analiz etmek hem
önemli hem de zorken, bu teknikle aynı anda birden fazla veri seti dikkate alındığı için pek çok sorunun
üstesinden kolayca gelinir. Bugün, VisualCue ve veri görselleştirme metotları kullanılarak büyük miktardaki
veriyi resim, diyagram ve renklere dönüştürmek mümkündür [7].

Bölüm Özeti
Büyük veri analizi, bir konu üzerinde kritik karar verme sürecinde kullanılacak bilgileri keşfetmek için verileri
temizleme, dönüştürme ve modelleme süreci olarak tanımlanabilir. Veri analizinin amacı, verilerden faydalı
bilgiler çıkarmak ve bu bilgiler doğrultusunda doğru kararlar verebilmektir. Kısaca veri analizi, geçmişten
günümüze toplanan tüm verilerin incelenerek geleceğe dair tahminlerin oluşturulmasına imkan veren bir
süreçtir.

Büyük veri analizi, verileri keşfetmenizi, içinde bir kalıp bulmanızı ve buna dayanarak kararlar almanızı
sağlayan bir süreçtir. Tüm organizasyonunuzu daha bilgili kılmayı amaçlar. Kapsamlı bir veri analizi birçok
adımdan oluşmaktadır.

İşlerini büyütmek, ilgili sektör ile oluşacak eğilimleri, gelecek tahminlerini yapabilmek için kurum ve
kuruluşlar ellerindeki verileri doğru bir şekilde analiz etmektedirler. Firmalar, sürekli artan veri miktarını
kullanabilme yeteneği, dünyayı ve içindeki her şeyi anlama yeteneği sayesinde hizmet kalitelerin artırmaya ve
yeni hizmetler geliştirme imkanına kavuşacaktır. Bu amaç doğrultusunda en popüler tercih edilen analiz
yöntemleri; yapay sinir ağları, tahmini analiz yöntemleri, istatistikler ve doğal dil işlemedir. Büyük veri işleme
yöntemleri, uygulamalı matematik, istatistik, bilgisayar bilimleri ve ekonomi gibi farklı disiplinlerden
yararlanmaktadır.

                Büyük veri işlemede teknoloji firmalarının karşılaştığı en önemli problemlerin başında verinin hangi
altyapıda analiz edilmesidir. Bu mevcut donanım/yazılım kaynakları ile ilgili olup bu konuda 2 ölçekleme
yöntemi kullanılmaktadır: yatay ve dikey ölçekleme.

Kaynakça

about:blank 108/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

[1] Gtech Web Sitesi, “Veri Analizi ve Etkili Veri Analiz Yöntemleri”. (Son Erişim:20.01.2022)

URL:https://www.gtech.com.tr/veri-analizi-ve-etkili-veri-analiz-yontemleri/

[2] Katal, A., Wazid, M. ve Goudar, R. H. (2013, 08-10 Ağustos). Big Data: Issues, Challenges, Tools and
Good Practices. 2013 Sixth International Conference on Contemporary Computing (IC3), Noida, India, 404-
409.

[3] Aktan E. “Big Data: Application Areas, Analytics and Security Dimension”, Bilgi Yönetimi 1: 1, pp:1-22,
2018.

[4] SmartMind Web Sitesi, “Büyük Veri Analitiği”. (Son Erişim:20.01.2022)

URL: https://www.smartmind.com.tr/buyuk-veri-analitigi-nedir-i-963

[5] Manyika J, Chui M,  Brown B, Bughin J, Dobbs R, Roxburgh C, Byers A.H, “Big Data: The next frontier
for innovation, compettition, and productivity”, Report McKinsey Global Institute, June 2011.

[6] Çelik S. “Büyük Veri ve İstatistikteki Uygulamaları”, Ph.D. thesis, Social Science Institution,
Econometrics, University of Uludağ, 2018.

[7] Lidong W, Wang G, Cheryl Ann A., “Big Data and Visualization: Methods, Challenges and Technology
Progress”, Digital Technologies, Vol. 1, No. 1, 27 June 2015, pp. 33-38.

Ünite Soruları
Soru-1 :

Aşağıdakilerden hangisi büyük verinin analiz edilmesi sonucu elde edilecek faydalar açısından hatalı bir
bilgidir?

(Çoktan Seçmeli)

(A) Elde edilen bilginin bilinçli kararlar vermek için kullanılabilmesi için verilerde anlam bulmaktır.

(B) Veri bilimcilere modelleri tahmin etme, istatistikçilere ve diğer analiz alanında çalışan profesyonellere
büyüyen verileri kolay analiz etme yeteneği kazandırır.

(C) Analiz edilen bilgi sayesinde firmalara, kurum-kuruluşlara veya ticari girişimlere yönelik önemli bilgiler
sağlamaktadır.

(D) Büyük ve çeşitli veri setleri üzerinde işlem yapılarak gizli örüntüleri çıkarır.

(E) Büyük verinin saklanması ve güvenliğinin sağlanması amacıyla bir fayda elde edilmesini sağlamaktadır.

Cevap-1 :

Büyük verinin saklanması ve güvenliğinin sağlanması amacıyla bir fayda elde edilmesini sağlamaktadır.

Soru-2 :

Aşağıdakilerden hangisi büyük verinin analiz süreçlerinden biri değildir?

(Çoktan Seçmeli)

about:blank 109/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(A) Veri analiz ekibi ile çalışma

(B) Veri temizleme

(C) Veri arama

(D) Amaç belirleme

(E) Tekrar etme ve optimizasyon

Cevap-2 :

Veri arama

Soru-3 :

Aşağıdakilerden hangisi bilimsel araştırma yöntemleri açısından büyük verinin analiz yöntemlerinden
biri değildir?

(Çoktan Seçmeli)

(A) Tedavi analizi

(B) Metin çözümlemesi

(C) Teşhis analizi

(D) İstatistiksel analiz

(E) Keşif analizi

Cevap-3 :

Tedavi analizi

Soru-4 :

“Küçük miktarda veri kullanarak, daha büyük miktardaki gruplar hakkında yorum yapabilmek ya da kararlar
alabilmek için ……………… kullanılır.”

Boş bırakılan yere aşağıdakilerden hangisi gelir?

(Çoktan Seçmeli)

(A) Betimsel analizi

(B) Metin çözümlemesi

(C) Teşhis analizi

(D) Çıkarımsal analiz

(E) İstatistiksel analizi

Cevap-4 :

Çıkarımsal analiz

about:blank 110/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Soru-5 :

Aşağıdakilerden hangisi büyük veri analizinde cevap bulması gereken sorulardan biri değildir?

(Çoktan Seçmeli)

(A) Büyük veri boyutu ve çeşitliliği arttıkça, veri analitiğinde karşılaşılacak sorunlarla nasıl başa çıkılacaktır?

(B) Hangi büyük veri unsurlarının gerçekten önemli olduğuna nasıl karar verilmelidir?

(C) Verinin tamamı analiz edilmeli midir?

(D) Verinin tamamı depolanmalı mıdır?

(E) En iyi sonucu elde etmek için hangi yapısallık türü kullanılmalıdır?

Cevap-5 :

En iyi sonucu elde etmek için hangi yapısallık türü kullanılmalıdır?

Soru-6 :

Aşağıdakilerden hangisi büyük veri analizinin kazanımlarından biri değildir?

(Çoktan Seçmeli)

(A) Maliyeti azaltır.

(B) Hukuki sorumlulukları ortadan kaldırır.

(C) Hızlı karar almanızı sağlar.

(D) Verilerinizi doğru yönetmenizi sağlar.

(E) Analizleri kolayca paylaşmanızı sağlar.

Cevap-6 :

Hukuki sorumlulukları ortadan kaldırır.

Soru-7 :

Aşağıdakilerden hangisi büyük veri analizinin aşamalarından biri değildir?

(Çoktan Seçmeli)

(A) Verilerin görselleştirilmesi

(B) Doğru teknolojiyi entegre etme

(C) Veri yönetimi yol haritası belirleme

(D) Fonksiyonel performans göstergeleri belirleme

(E) Metin çözümleme

Cevap-7 :

about:blank 111/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Fonksiyonel performans göstergeleri belirleme

Soru-8 :

Aşağıdakilerden hangisi büyük veri analizinde kullanılan ölçekleme seçeneklerinden biridir?

(Çoktan Seçmeli)

(A) Paralel ölçekleme

(B) Sanal ölçekleme

(C) Yatay ölçekleme

(D) Fonksiyonel ölçekleme

(E) Fiziksel ölçekleme

Cevap-8 :

Yatay ölçekleme

Soru-9 :

“Tek bir sunucu mimarisi üzerinde çalışan yapıların yine tek sunucu olan fakat daha güçlü işlem gücüne sahip
bir sisteme dönüştürülmesine …………………… adı verilmektedir."

Boş bırakılan yere aşağıdakilerden hangisi gelmelidir?

(Çoktan Seçmeli)

(A) Dikey ölçekleme

(B) Sanal ölçekleme

(C) Yatay ölçekleme

(D) Fonksiyonel ölçekleme

(E) Fiziksel ölçekleme

Cevap-9 :

Dikey ölçekleme

Soru-10 :

Aşağıdakilerden hangisi büyük miktardaki veriyi analiz eden en gelişmiş teknikler biri değildir?

(Çoktan Seçmeli)

(A) Makine öğrenmesi

(B) Kavramsal analiz

(C) Genetik algoritmalar

about:blank 112/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(D) Mekansal analiz

(E) Veri madenciliği

Cevap-10 :

Kavramsal analiz

Soru-11 :

“…………… büyük veri analizlerini iletmek, anlamak ve geliştirmek için resimler, diyagramlar ya da
animasyonlar oluşturmak için kullanan bir tekniktir.”

Boş bırakılan yere aşağıdakilerden hangisi gelmelidir?

(Çoktan Seçmeli)

(A) Sinyal işleme

(B) Zaman serisi analizi

(C) Büyük veri görselleştirme

(D) Doğal dil işleme

(E) Optimizasyon

Cevap-11 :

Büyük veri görselleştirme

Soru-12 :

Nicel ve Nitel analiz yöntemleri arasında temel fark aşağıdakilerden hangisinde doğru olarak verilmiştir
?

(Çoktan Seçmeli)

(A) Betimsel istatistik nitel analizde, kavramsal istatistik nicel analizde kullanılır.

(B) İki yöntem de analiz için farklı teknolojiler kullanır.

(C) Nitel veri küçük veri kümelerini nicel veri büyük veri kümelerini analiz eder.

(D) Nitel analiz, nicel analizden daha kesin sonuçlar üretir.

(E) Nicel analiz sayısal verilerle, nitel veri soyut verilerle yapılan analizdir.

Cevap-12 :

Nicel analiz sayısal verilerle, nitel veri soyut verilerle yapılan analizdir.

about:blank 113/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

9. BÜYÜK VERİ ve YAPAY ZEKA


Birlikte Düşünelim
1.    Büyük verinin analiz edilmesinde yapay zekanın katkıları nelerdir?

2.    Büyük veri analizinde hangi yapay zeka teknikleri kullanılır?

3.    Büyük veri analizinde klasik analiz yöntemleri ile yapay zeka yöntemleri arasındaki fark nedir?

4.    Derin öğrenme ile klasik yapay sinir ağları arasındaki farklar nelerdir?

5.    Veri miktarının artması yapay zeka yöntemlerinde nasıl bir avantaj/dezavantaj sağlar?

Başlamadan Önce
Çok sayıda veriyi bir arada kullanabilmek için bir koordinasyon gereklidir. Geliştirilen veya geliştirilmeyen
verilerin büyük bir çoğunluğu, analiz edilmediği ve kullanıma geçirilmediği sürece anlamsız kalmaktadır.
Kullanıcıların bu verilerdeki teknolojiyi kullanıma alabilmesi için yapay zeka ve büyük teknolojileri birbiri ile
koordine bir şekilde çalışması gerekir. 

 Büyük veri analizleri ve yapay zeka algoritmaları günümüz çağında bilgisayar biliminde kullanılan iki büyük
kategoridir. Dijitalleşmenin hız kazandığı günümüzde, büyük veri ve yapay zeka üzerine yapılan çalışmalar
son sürat devam etmektedir. Büyük veri, yapay zeka teknolojisi ile bütünleşmiş bir yapıdır. Öncelikle, büyük
veri teknolojisi üzerine yapılan çalışmaların gelişimi yapay zekaya bağlı şekilde ilerler. Çünkü büyük verinin
gelişiminde birden fazla yapay zeka teorisi ve yöntemi kullanılmaktadır. Diğer yandan bakıldığında ise, yapay
zeka algoritmaları ve teknolojisinin gelişimi için de büyük veri teknolojisine ihtiyaç duyulmaktadır. Çünkü
yapay zeka teknolojisini desteklemek için büyük verilerinin bulunması gerekmektedir. 

Gelişmiş donanım kaynakları ve paralel veri işleme teknikleri kullanan makine teknolojileri ve algoritmalar
verilere dayalı kararlar verebilir, aynı zamanda duygusal zekaya sahip büyük veri sayesinde ulaşabilir. Yani
büyük veriler ile duygusal zekaya dayalı kararlara doğru hızlı bir şekilde ulaşılabilecektir. 

9.1. Yapay Zeka’nın Veri Bilimindeki Önemi


Doğadaki varlıkların akıllı davranışlarını yapay olarak üretmeyi amaçlayan, bu sayede işini mükemmel yapan
canlı sistemlerini ve insan beynini model alan yapay zeka çalışmaları; günlük hayatın farklı alanlarında ürünler
vermesinin yanında, tahmin, sınıflandırma, kümeleme gibi amaçlar için de kullanılmaktadır.

Genel anlamda yapay zekadan kastedilen; insan zekasının, sinir sistemi, gen yapısı gibi fizyolojik ve nörolojik
yapısının ve doğal olayların modellenerek makinelere (bilgisayar ve yazılımlara) aktarılmasıdır.

Özetle yapay zeka; “insan gibi düşünen, insan gibi davranan, akılcı düşünen ve akılcı davranan”, canlıların
zekice olarak kabul edilen davranışlarına sahip bilgisayar sistemleridir ve makine öğrenmesi bu anlamda yapay
zekanın son evresi olarak kabul edilmektedir. Şekil 9.1’de yapay zekanın bilgisayar bilimi altındaki yeri ve
kapsama alanları verilmiştir.

about:blank 114/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 9.1. Yapay zeka bilimi.

Pandemi ile her şeyin uzaktan yapıldığı dijital çağın en büyük getirisi büyük miktarda toplanan verilerdir.
Sürekli farklı ortamlardan akan, değişen ve yüklü miktardaki veri adeta bir sermaye haline gelmiştir. Büyük
veri, sağlıktan eğitime, endüstriden üretime insanoğlunun yaşamının her alanına doğrudan nüfuz etmektedir.
Bugün pek çok devlet, kurum, kuruluş ve şirket büyük verinin sunduğu fırsatlardan yararlanarak analizler
yapmakta ve insanlığa faydalı işler için büyük veriyi anlamlandırmaktadır.

Şekil 9.2. Büyük verinin yapay zeka ile kodlanması.

Farklı sektörlerde ve farklı ortamlarda sınırsız veri bulunmakta, dağınık ve erişilebilir durumdadır. Veri bilimi,
sezgisel gözlemlerle elde ettiğimiz bilgileri daha derin ve kullanılabilir bir seviyeye taşımamızı sağlayan
süreçleri barındırmaktadır. Büyük verinin işlenmesi ve analizinin sorunsuz bir şekilde ilerleyebilmesi için
toplanılan verilerin özenli bir şekilde kayıt altında tutulması gerekir. Önemli olan bu veri yığınını anlamlı bir
hale dönüştürüp ihtiyaç dahilinde kullanmaktır. Büyük veri, veri setleri ile etkili ve kullanılabilir hale
getirilmektedir. Hassasiyetle toplanan veriler aracılığıyla büyük veri setleri oluşturulur. Bu setler, var olan
verilerin düzenlenmiş ve yapılandırılmış halini içermektedir. Büyük veri içerisinde doğru soruların sorulması
ve belirli kalıpların kullanılmasıyla, firmaların ihtiyaçlarına cevap veren veri setleri oluşturulur.

Veri setleri oluşturmak için büyük hacimli ve yapılandırılmış/yapılandırılmamış halde bulunan verileri
dikkatlice işlemek gerekmektedir. Bunu yaparken hız ve sürat, veri setinin güncelliğini ve kullanılabilirliğini
about:blank 115/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

artırmaktadır. Hız ve süratin önemli olduğu veri setlerinin bir örneği, sosyal medyadan elde edilen verilerle
oluşturulan veri setleridir Sosyal medya kanallarını içerecek bir veri setinin her saniye gerçekleşen paylaşımları
içerecek şekilde hazırlanması gerekmektedir. Veri setlerinin güncelliği çalışmaların sağlıklı ilerlemesi için
önem arz etmektedir.

Bilgi teknolojilerinin gelişmesi ile birlikte büyük miktarda veri yığınları meydana gelmiştir. Bu da mevcut veri
yığınları arasındaki anlamlı ilişkilerin, yapıların ve eğilimlerin ortaya çıkarılması ihtiyacını doğurmuştur. Bu
noktada gelişen yapay zeka teknolojilerinin alternatif veri setlerinin oluşturulmasında ve büyük verinin
işlenmesinde veri bilimine katkı sunacağı öngörülmektedir.

Şekil 9.3’te görüldüğü üzere büyük verinin toplanmasından işlenmesine kadar veri bilimin her alanında
kullanılabilecek olan yapay zeka teknolojileri, geleneksel veri analiz yöntemlerinden daha verimli sonuç elde
edilmesini sağlamaktadır.

Şekil 9.3. Büyük veri ve yapay zeka ilişkisi

Büyük verinin ve analizinin önemini kavrayan ve yönetim süreçlerine dahil eden şirketler bu alanda daha hızlı,
daha etkili sonuç almak için yapay zeka teknolojileri ile güçlendirilmiş veri analiz süreçlerine entegrasyonu
teşvik etmektedirler. Öyle gözüküyor ki yapay zeka teknolojileri veri biliminde olduğu gibi daha pek çok
alanda kullanıcılarına yeni fırsatların kapısını aralayacaktır.

9.2. Büyük Veri’de Yapay Zeka Kazanımları


Yapay zeka temelli büyük veri analiz uygulamalarında aşağıda belirtilen önemli kazanımlar elde edilmektedir:

1. Yapay Zeka, tekrarlayan öğrenme ve verisel keşifleri otomatikleştirir.

Ancak yapay zeka, donanım odaklı robotik otomasyondan farklıdır. Yapay zeka, manuel görevleri
otomatikleştirmek yerine sık, yüksek hacimli, bilgisayarlı görevleri güvenilir bir şekilde ve yorulmadan
gerçekleştirir. Bu tür bir otomasyon için, sistemi kurmak ve doğru soruları sormak adına insan gücü hala
gereklidir.
about:blank 116/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

2. Yapay Zeka, halihazırdaki ürünlere zeka ekler.

Çoğu durumda, yapay zeka bireysel bir uygulama olarak satılmayacaktır. Bunun yerine, halihazırda
kullandığınız ürünler, Siri'nin yeni nesil Apple ürünlerine bir özellik olarak eklenmesi gibi, AI yetenekleriyle
geliştirilecektir. Otomasyon, konuşma platformları, botlar ve akıllı makineler, güvenlik istihbaratından yatırım
analizine kadar evde ve işyerinde birçok teknolojiyi iyileştirmek için büyük miktarda veriyle birleştirilebilir.

3. Yapay Zeka, verilerin programlamayı yapmasına izin vermek için aşamalı öğrenme algoritmaları
aracılığıyla uyum sağlar.

Yapay Zeka, verilerde yapı ve düzenlilik bulur, böylece algoritma bir beceri kazanır: sınıflandırıcılık veya
tahmincilik. Yani, algoritma nasıl satranç oynanacağını kendi kendine öğretebildiği gibi, bir sonraki ziyaretinde
kişiye hangi ürünü önereceğini kendi kendine öğretebilir. Ve modeller yeni veriler geldiğinde de buna uyum
sağlar. Geri yayılma, modelin, ilk yanıt tam olarak doğru olmadığında, eğitim ve eklenmiş veriler yoluyla
ayarlamasını sağlayan bir yapay zeka tekniğidir.

4. Yapay zeka, birçok gizli katmana sahip sinir ağlarını kullanarak daha fazla ve daha derin verileri
analiz eder.

Beş gizli katmana sahip bir sahtekarlık tespit sistemi kurmak birkaç yıl önce neredeyse imkansızdı. Tüm bunlar
inanılmaz bir bilgisayar gücü ve doğrudan akışkan büyük veriden öğrendiklerinden, derin öğrenme modellerini
eğitmek için çok sayıda veriye ihtiyacınız var. Onları ne kadar çok veriyle beslerseniz, o kadar doğru olurlar.

5. Yapay Zeka, derin sinir ağları sayesinde önceden imkansız olan bir doğrulukla çalışır.

Örneğin, Alexa, Google Aramaları ve Google Fotoğraflar ile etkileşimlerinizin tümü derin öğrenmeye dayalıdır
ve biz onları kullandıkça daha doğru olmaya devam ederler. Tıp alanında, derin öğrenme, görüntü
sınıflandırma ve nesne tanıma gibi yapay zeka teknikleri, artık yüksek eğitimli radyologlarla aynı doğrulukla
MRI'larda kanseri bulmak için kullanılabilir.

6. Yapay Zeka, büyük verilerden en iyi şekilde yararlanır.

Algoritmalar kendi kendine öğrenirken, verinin kendisi fikri mülkiyet haline gelebilir. Cevap veride saklıdır;
size sadece yapay zekayı kullanarak onu ortaya çıkarmak düşer. Verinin rolü artık her zamankinden daha
önemli olduğundan, rekabet avantajı yaratabilir Rekabetçi bir sektörde en iyi veri sizdeyse, herkes benzer
teknikleri uygulasa bile, her zaman en iyi veri kazanır.

9.3. Yapay Zeka ve Veri Analitiği


Büyük Veri ve yapay zeka arasında karşılıklı bir ilişki vardır. Yapay zeka temelli sistemleri oluşturulurken çok
miktarda veriye ihtiyaç duyulur. Yani veri olmazsa yapay zeka uygulamalarının bir anlamı da olmaz. Büyük
verinin yapay zeka sistemlerinde kullanılması yapay zekanın gücünü daha da attırır. Öte yandan yapay zeka da
büyük veri kullanıcılarına emek isteyen ve zaman alan analitik işlemleri otomatikleştirme ve geliştirme imkanı
sunar. Derin öğrenme, yapay sinir ağları, anormali tespiti ve örüntü tanıma, büyük veri ve yapay zekayı bir
arada kullanan teknolojilerden bazılarıdır.

Yapay zekâ ve veri analitiği alanındaki son gelişmeler, bazı tüketici işlerinin (örn. Akıllı evlerde ve kendi
kendine giden arabalarda) otomasyonunu kolaylaştırıyor ve büyük veriye dayalı, mikro hedefli pazarlama
uygulamalarının kullanılmasına fırsat sağlıyor. Bunun yanında bu gelişmelerin pazarlamacılar, tüketiciler ve
politika yapıcılar için bir gerilim yaratabileceği iddia edilmektedir.

Bir yandan, tüketici seçimlerini daha kolay, daha pratik ve daha verimli hale getirerek tüketicinin refahına
katkıda bulunabilirler. Diğer yandan, tüketicilerin özerklik duygusunu da baltalayabilirler ve bu duygunun
olmaması tüketicinin refahı için zararlı olabilir. Pazarlama, ekonomi, felsefe, sinirbilim ve psikolojiden farklı
perspektiflerden yararlanarak, tüketicilerin seçim yapmadaki özerklik duygusunun refahlarını nasıl etkilediğini
keşfedilmektedir.

Yeni teknolojilerin tüketicilerin seçimlerini kontrol altında tutma algılarını nasıl geliştirebileceğini veya
azaltabileceğini ve bunlardan herhangi birinin tüketicinin refahını nasıl azaltabileceği araştırılmaktadır. Buna

about:blank 117/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

dayanarak, seçim, refah ve tüketici refahı alanındaki açık araştırma sorularını belirliyor ve gelecekteki
araştırmalar için yeni yollar sunmaktadır. Yapay Zekâ ve Büyük Veri Çağı Tüketici Seçimini Nasıl
Yönlendiriyor? Günümüz tüketicileri, bu seçenekler hakkında her zamankinden daha fazla seçenek ve daha
fazla bilgiyle karşı karşıyadır. Fayda teorisinin standart ekonomik perspektifine göre, bu gelişme, tüketicilerin
ihtiyaçlarına en uygun seçenekleri bulmalarına ve seçmelerine yardımcı olmalı, arama maliyetlerini
düşürmelerine ve seçimlerinden elde ettikleri faydayı artırmalarına izin vermelidir.

Pazarlamacılar, araştırmacılar ve politika yapıcılar genellikle arama, işlem ve karar verme maliyetlerini
düşürmenin tüketicileri güçlendirdiğini ve tüketici refahını artırdığını varsaymaktadır. Örneğin, büyük
miktarlarda tüketici verisini karıştıran gelişmiş algoritmalar, çevrimiçi pazarlamacıların yalnızca doğru ürün
veya hizmeti sunmalarına olanak tanıyarak, tüketicileri yalnızca arama maliyetlerinden değil, aynı zamanda
tüketici seçiminin gerektirdiği tatsız ve zor ödünleşmelerden de kurtarır.

Örneğin, davranışsal hedefleme için büyük veri ve yapay zeka kullanan Outbrain veya Taboola gibi içerik öneri
sistemlerini veya Netflix veya Amazon’unki gibi içerik yönetim sistemleri incelendiğinde bu tür sistemler, bir
kişinin mevcut tercihlerine göre tüketmekten keyif alacağı içerik önerir ve tüketicilerin ilgilendikleri içeriği
çaba harcamadan keşfetmelerine olanak tanır. Başka bir örnek olarak, otonom arabalar (örneğin, Mobileye ve
Google) sadece zorlu sürüş görevini üstlenmekle kalmaz, aynı zamanda farklı sürücülerin tercihlerini ne tür bir
rota veya ne tür bir rota için tahmin etmeyi öğrenebilmeleri de beklenir.

Hızlı teknolojik gelişmeler, nesnelerin internetinin nasıl olduğunu da değiştirmektedir. İster kullanıcıların
sıcaklık tercihlerini öğrenen termostatlar (ör. Google’ın Nest) olsun ister tüketicilerin belirttiği isteklerini
dinleyen cihazlar olsun hepsi müşteri tercihlerini tahmin etmeye yönelik çalışmalardır. Ya da müşterinin sesle
istediğini yerine getiren ses tanıma sistemleri de aynı şekilde onların ihtiyaçlarını ve tercihlerini tahmin etmeyi
öğrenebilen cihazlardır. Örnek olarak Amazon’un Alexa’sı, Google’ın Ev veya Apple’ın Siri’si verilebilir.

9.4. Yapay Zeka Kullanan Büyük Veri Örneği


Spotify, İsveç merkezli müzik akışı sağlayıcısı, yapay zeka ve büyük veriyi kullanan şirketlere bir örnek olarak
verilebilir. Spotify veri odaklı bir şirkettir ve müşterilerinin deneyimlerini arttırmak amacıyla müşteri
bilgilerini (dinledikleri müzik türleri vb.) biriktirir. Toplanan veriler, dinleyicilerin müzik tercihlerini tahmin
etmek ve onlara yeni öneriler sunmak için makine öğrenme algoritmalarını eğitmekte kullanılır. Spotify, Şekil
9.4’te verilen ‘Haftalık Keşif’ özelliğiyle kullanıcılara, bu platformda, daha önce duymadıkları
kişiselleştirilmiş bir çalma listesi hazırlar. Spotify’ın haftalık keşif listesini oluştururken kullandığı üç farklı
model vardır:

1.Collaborative Filtering: Benzer kullanıcıların tercihlerini göz önünde bulundurarak kullanıcıların tercihleri
hakkında otomatik tahminler yapmaya çalışır. Algoritma birçok kullanıcıdan gelen bilgileri analiz eder ve
benzer olanların örüntülerini belirler. Bu kullanıcıların ne dinlediğini dikkate alarak bir kullanıcının müzik
zevkini tahmin etmeye çalışır.

2.Natural Language Processing (NLP): Bu algoritmayı kullanarak her şarkı için bir profil bulmaya çalışır
(makaleleri, blog yayınlarını veya müzikle ilgili başka metinleri bulmak için sürekli olarak web’te gezinir).

3.Convolutional Neural Networks (CNN): Spotify’ın öneri sistemini geliştirmek ve doğruluğunu artırmak
amacıyla kullanılır. CNN algoritması diğer algoritmalar gibi az bilinen şarkıları ihmal etmez. CNN, çok
popüler olmayan şarkıların yanı sıra yeni şarkıların da dikkate alınmasını sağlar.

about:blank 118/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 9.4. Spotity firmasının büyük veriyi yapay zeka ile anlamlandırması.

(Kaynak: https://medium.com/nettsi/büyük-veri-yapay-zeka-ai-ve-kelebek-etkisi-ca203f749256)

9.5. Yapay Zeka Yöntemleri


                Doğadaki varlıkların akıllı davranışlarını yapay olarak üretmeyi amaçlayan yapay zeka çalışmaları;
uzman sistemler, genetik algoritmalar, bulanık mantık, yapay sinir ağları, derin öğrenme, makine öğrenmesi
gibi teknikler, genel olarak yapay zeka teknolojileri olarak adlandırılmaktadır. Bu tekniklerin yanı sıra doğanın
taklidi amacıyla da canlılar incelenmekte ve benzeri akıllı yöntemler önerilmektedir. Karınca kolonisi, genetik
algoritmalar, uzman sistemler, parçacık sürü ve yapay arı gibi algoritmalar, yapay zeka optimizasyon teknikleri
olarak kullanılmaktadır. Özetle yapay zeka; canlıların zeki davranışlarının bilgisayar sistemlerine
aktarılmasıdır ve bu süreç makine öğrenmesi olarak isimlendirilmektedir.

Geçmişi daha öncelere dayanan derin öğrenmenin son yıllarda popülaritesinin hızla artmasının temelinde
bahsettiğimiz bu iki neden vardır. Bol miktarda veri ve bu veriyi işleyebilecek uygun donanıma erişimin
artmasıyla derin öğrenme yöntemlerinin kullanımı ve geliştirilmesi üssel olarak artış sağlamıştır. Derin
öğrenmeye olan yönelimin artmasında bir diğer neden; Şekil 9.5.’te [1] görüldüğü gibi geleneksel makine
öğrenme yöntemlerinin başarım oranlarının artan veri miktarına paralel olarak artmamasıdır. Dolayısıyla
araştırmacıların bu geniş ölçekli veriyi etkin bir biçimde kullanacak olan yöntem arayışlarına girmeleri bu
alandaki çalışmaların artmasında rol oynamıştır.

about:blank 119/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 9.5. Derin öğrenme performans veri miktarı ilişkisi [1]

1. Makine Öğrenmesi

Arthur Samuel Makine öğrenmesini 1959’da bilgisayarlara açıkça kod yazmadan öğrenme kabiliyetini
kazandıran çalışma alanı olarak tanımladı [2]. Daha yeni ve formal bir tanımlama olarak Tom Mitchell makine
öğrenmesini şu şekilde tanımlar; bir bilgisayar programının bir T görevini E tecrübesinden P performans
ölçümü ile öğrenmesidir. Eğer P ile ölçülen performans T görevi üzerinde E ile iyileşiyorsa bu işlem makine
öğrenmesi ile gerçekleştirilebilir [3]. Bu iki tanımı birleştirerek makine öğrenmesini şu şekilde
tanımlayabiliriz: Bir görevi açıkça kod yazarak gerçekleştirmek yerine performans ölçümüne bağlı tecrübe ile
bilgisayarın öğrenmesini sağlamaktır. Veri tabanlı yaklaşım da diyebileceğimiz bu yaklaşımda bilgisayar
gerekli tecrübeyi bir veri seti üzerinden öğrenir.

Makine öğrenme algoritmaları; veri setinden öğrenme tipine göre denetimli (supervised), denetimsiz
(unsupervised), yarı denetimli (semi-supervised) ve pekiştirmeli (reinforcement) olarak sınıflandırılır.

a. Denetimli Öğrenme (Supervised Learning)

Denetimli öğrenme etiket adı da verilen cevap değişkeninin bulunduğu veri setlerine uygulanır. Burada cevap
değişkeni sürekli veya kategorik olabilir. Denetimli öğrenme bir dizi eğitim örneğinden oluşan bu etiketli
eğitim verilerinden bir fonksiyon çıkarımı yapar [4]. Örneğin bir dizi hastaya ait olan veri setinde cevap
değişkenimiz her bir hastanın kanser olup olmadığı olabilir veya verilen bir ülke veya şehirdeki ev fiyatlarını
veren veri kümesinde cevap değişkenimiz ev fiyatları olabilir [5]. Denetimli öğrenme örnek girdi cevap
çiftlerine göre bir girdiyi bir cevaba eşleyen fonksiyonu öğrenerek eğitimde kullanılmayan yeni örnekler için
kullanılabilecek fonksiyon çıkarımını üretir [6].

b. Denetimsiz Öğrenme (Unsupervised Learning)

Cevap değişkenlerinin diğer adıyla etiketli verilerin olmadığı veri setlerinde öğrenme denetimsiz olarak
gerçekleştirilir. Denetimsiz öğrenme veri kümesi içerisinde bazı benzerlik veya mesafe ölçümlerine göre
gerçekleşir. Denetimsiz öğrenmede en çok kullanılan teknik kümelemedir. Denetimsiz öğrenmeye örnek olarak
sosyal ağ analizi, görüntü segmentasyonu, klimatoloji, pazarlamada müşteri segmentasyonu ve daha birçok
uygulama sayılabilir [5].

c. Yarı Denetimli Öğrenme (Semi-Supervised Learning)

about:blank 120/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Yarı denetimli öğrenme geniş miktarda etiketsiz verinin yanı sıra az miktarda etiketli veriyi kullanan öğrenme
algoritmasıdır. Geniş miktardaki etiketsiz veri az miktarda etiketli veri ile birlikte kullanıldığında denetimsiz
öğrenmeye göre daha yüksek başarı elde edilirken denetimli öğrenmenin zaman ve maliyet gereksinimlerinden
de kaçınılmış olur [7]. Denetimli öğrenmede veri setinin hazırlanması ve veri setindeki her bir verinin
etiketlenmesi zaman ve maliyet gerektiren işlemlerdir.

d. Pekiştirmeli Öğrenme (Reinforcement Learning)

En iyi sonucu üretebilmek için denetimli ve denetimsiz öğrenme algoritmalarının her ikisi de temiz ve doğru
veriye ihtiyaç duyar. Algoritmanın görmediği örnekler üzerinde de çalışabilmesi için eğitim setinde kullanılan
verinin kapsayıcı olması gerekir. Pekiştirmeli öğrenme, yalnızca verilerin başlangıç durumunun bir girdi olarak
mevcut olduğu ve tek bir olası cevabın olmadığı ancak çok fazla sonucun mümkün olduğu durumlarda ideal bir
seçimdir [5]. Robotik ve sürücüsüz araçlarda uygulanan makine öğrenme algoritmaları pekiştirmeli öğrenme
algoritmaları sınıfındandır. Pekiştirmeli öğrenme algoritmaları sürekli olarak çevresinden öğrenen
algoritmalardır.

2. Yapay Sinir Ağı Temelleri

Özel bir makine öğrenme tekniği olan Yapay sinir ağları (YSA) memeli cerebral korteksinden esinlenerek
tasarlanmış daha küçük ölçekli işleme aygıtlarıdır [8]. YSA’lar değişkenler arasındaki doğrusal olmayan
ilişkileri öğrenebilme ve yüksek dereceli ilişkileri tanıma konusunda oldukça yeteneklidir. YSA’lar denetimli
ve denetimsiz öğrenme algoritmalarının her ikisiyle de uygulanabilirler [5]. Olabilecek en basit sinir ağı tek bir
nöronun hesaplamalı modeli olan Perceptron’dur. Perceptron Warren McCulloch ve Walter Pitts’in daha önceki
çalışmalarından esinlenilerek 1950’lerde Frank Rosenblatt tarafından geliştirilmiştir [9]. Günümüzde YSA
çalışmalarında kullanılan temel nöron modeli sigmoid nöron olarak adlandırılır. Şekil 9.6’da basit bir nöronun
hesaplama işlemleri verilmiştir.

Şekil 9.6 Nöronun bileşenleri.

3. Konvolüsyonel Sinir Ağı (Convolutional Neural Network, CNN)

Derin öğrenme olarak adlandırılın derin sinir ağlarının başında gelen konvolüsyonel sinir ağı, nöronları
arasındaki bağlantı şekli hayvan görsel korteksinden ilham alınmış bir tür ileri beslemeli yapay sinir ağıdır.
CNN bir sınıflandırma işlemini gerçekleştirmeyi direk olan görüntülerden, videolardan, metin veya ses
dosyalarından öğrenen en popüler derin öğrenme algoritmalardan biridir. Sıradan YSA’lara oldukça benzeyen
CNN tıpkı sıradan YSA’lar gibi öğrenilebilen ağırlık ve bias değerlerine sahip nöronlardan oluşur [10, 11].
CNN’in sıradan YSA’lardan en büyük farkı doğası gereği girişlerini iki veya üç boyutlu görüntü olarak
varsaymasıdır. Bu durum ağ parametrelerinin sayısında ciddi miktarda azalma sağlarken görüntü işleme
problemlerinde aşırı öğrenmenin önüne geçerek verim artışı sağlar. Klasik bir CNN mimarisi Şekil 9.7’de
verilmiştir.

about:blank 121/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 9.7. CNN mimarisi

Şekil 9.7.’de [12] görüldüğü gibi CNN bir giriş katmanı ile başlayıp tam bağlantılı bir katmanla (fully
connected layer) son bulan sıralı bir modeldir. Giriş katmanı, giriş görüntülerinin ham piksel değerlerini tutar.
Giriş katmanının boyutları, bir CNN'de kullanılacak veri kümesine göre belirlenir. Tipik bir konvolüsyonel
sinir ağı giriş katmanı ile tam bağlantılı katman arasında farklı sayılarda ve kombinasyonlarda tekrarlanan üç
tip katmana sahiptir. Bu katmanlar sırasıyla konvolüsyon katmanı, ReLU katmanı ve Pooling katmanıdır
(Pooling layer). Bu üç tip katman CNN oluşturulurken defalarca tekrarlanarak ağın derinliği ayarlanır.

Bölüm Özeti
Teknoloji ve yaşamın son yıllarda geldiği noktada, üretilen veriler de çağın gelişmişlik düzeyi ile birlikte
katlanarak büyümektedir. Klasik yöntemlerle keşfedilemeyecek ilişkilerin keşfedilebilmesi, büyük veri
analizinin parlak yönü olarak tebarüz etmektedir. Büyük veri, işletmelere yapay sinir ağları, derin öğrenme,
doğal dil işleme, görüntü tanıma ve ileriye yönelik kişiselleştirme teknolojileri ile işlem görerek çok daha fazla
akıl ve öngörü verebilmektedir. Öte yandan getirdikleri yaklaşımlarla doğadaki canlıların akıllı davranışlarını
taklit eden, insan gibi düşünen ve karar veren modeller oluşturmayı amaçlayan yapay zeka teknikleri, büyük
verilerin üzerinde yapılan çalışmalarda da sağladığı avantajlar ile tercih edilmektedir.

Bugün artık Twitter’ da tweetlerin analizi, Google’ da arama yaparken olası sonuçların tahmini, Facebook’ ta
beğenilen sayfa, içerik veya etkileşime geçilen arkadaşların incelenerek benzer konuların önerilmesi, Apple'ın
Siri ve Google'ın Google Now gibi yazılımları gibi bilgisayar ve sosyal medya analizleri yapay zeka
tekniklerinin de kullanıldığı büyük veri analizleri ile yapılmaktadır.

Kaynakça
[1] Ng, A., Machine Learning Yearning: Technical Strategy for AI Engineers, In the Era of Deep Learning,
Andrew Ng., Draft Version, 2018.

[2] Samuel, A.L., Some studies in machine learning using the game of checkers, IBM Journal of Research and
Development, 3(3), 210-229, 1959.

[3] Mitchell, T., Machine Learning. McGraw Hill, 1997.

[4] Mohri, M., Rostamizadeh, A., Talwalkar, A., Foundations of Machine Learning, The MIT Press, 2012.

[5] Ramasubramanian, K., Singh, A., Machine Learning Using R, 2nd edn., Apress, 2019.

[6] Russell, S.J., Norvig, P., Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall, 2010.

[7] van Engelen, J.E., Hoos, H.H. A survey on semi-supervised learning, Mach Learn, 109, 373–440, 2020.

[8] Caudill, M., Neural Network Primer: Part I, AI Expert, 2(12), 46-52, 1987.

about:blank 122/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

[9] Rosenblatt, F., The perceptron: A probabilistic model for information storage and organization in the brain,
Psychological Review, 65(3), 386-408, 1958.

[10] Lu, Le., Zheng, Yefeng., Carneiro, Gustavo., Yang, Lin., Deep learning and convolutional neural networks
for medical image computing: Advances in Computer Vision and Pattern Recognition, Springer, 2017.

[11] Aghdam, H.A., Heravi, E.J., Guide to Convolutional Neural Networks: A Practical Application to Traffic-
Sign Detection and Classification, Springer, 1st edn., 2017.

[12] Matlab for Artificial Intelligence, https://www.mathworks.com/solutions/deep-learning/convolutional-


neural-network.html, Haziran 2020.

Ünite Soruları
Soru-1 :

Aşağıdaki ifadelerden hangisi doğrudur?

(Çoktan Seçmeli)

(A) Bilgisayar bilimi yapay zeka kavramını kapsar.

(B) Makine öğrenmesi yapay zekayı kapsar.

(C) Makine öğrenmesi derin öğrenme ile ilişkili değildir.

(D) Sadece denetimli öğrenme makine öğrenmesinde tercih edilir.

(E) Sadece pekiştirmeli öğrenme ile denetimsiz öğrenme teknikleri insan gibi düşünen makineler oluşturmak
için geliştirilmiştir.

Cevap-1 :

Bilgisayar bilimi yapay zeka kavramını kapsar.

Soru-2 :

“………….., insan gibi düşünen, insan gibi davranan, akılcı düşünen ve akılcı davranan”, canlıların zekice
olarak kabul edilen davranışlarına sahip bilgisayar sistemleridir.”

Boş yere aşağıdakilerden hangisi gelmelidir?

(Çoktan Seçmeli)

(A) Bilgisayar bilimi

(B) Zeki sistemler

(C) Makine öğrenmesi

(D) Derin öğrenme

(E) Yapay zeka

Cevap-2 :
about:blank 123/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Yapay zeka

Soru-3 :

Aşağıdaki ifadelerden hangisi büyük veri ve yapay zeka ilişkisi için doğru değildir?

(Çoktan Seçmeli)

(A) Yapay zekada veri altyapısı, toplama ve karakteristiği süreçlerinin hepsinde kullanılabilir.

(B) Yapay zeka veri modelleme, algoritma oluşturma ve istatistik süreçlerinde de büyük veri analizinde
kullanılabilir.

(C) Yapay zekaya, büyük veri modellemesinde sanal gerçeklik üzerinden de uygulama geliştirme imkanı
sunmaktadır.

(D) Genetik algoritmalar bulut bilişim sistemlerinde yapay zekaya ihtiyaç duymaz.

(E) Veri analizinde yapay zekaya, hipotez testi oluşturmada kullanabilir.

Cevap-3 :

Genetik algoritmalar bulut bilişim sistemlerinde yapay zekaya ihtiyaç duymaz.

Soru-4 :

Aşağıdakilerden hangisi büyük veri analizinde yapay zekanın kazanımlarından biri değildir?

(Çoktan Seçmeli)

(A) Yapay Zeka, tekrarlayan öğrenme ve verisel keşifleri otomatikleştirir.

(B) Yapay Zeka, halihazırdaki zeki olan ürünlere zeka ekler.

(C) Yapay zeka, birçok gizli katmana sahip sinir ağlarını kullanarak daha fazla ve daha derin verileri analiz
eder.

(D) Yapay Zeka, verilerin programlamayı yapmasına izin vermek için aşamalı öğrenme algoritmaları
aracılığıyla uyum sağlar.

(E) Yapay Zeka, derin sinir ağları sayesinde önceden imkansız olan bir doğrulukla çalışır.

Cevap-4 :

Yapay Zeka, halihazırdaki zeki olan ürünlere zeka ekler.

Soru-5 :

Büyük veride yapay zeka kullanan Spotify firması için aşağıda verilen bilgilerden hangisi kesin doğru
bir bilgi değildir?

(Çoktan Seçmeli)

(A) İsveç merkezli müzik akışı sağlayıcısıdır.

(B) Müşterilerin müzik tercihlerini tahmin etmek ve onlara yeni öneriler sunmak için yapay zekayı kullanır.

about:blank 124/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(C) Haftalık Keşif’ özelliği ile kullanıcılarına kişiselleştirilmiş çalma listesi hazırlar.

(D) Çalma listesi oluştururken dinleyici deneyimleri için derin öğrenme (CNN) teknolojisi kullanır.

(E) Dinleyici verilerini toplama süreçlerinde bulut bilişim ve SQL teknolojilerini bir arada kullanır.

Cevap-5 :

Dinleyici verilerini toplama süreçlerinde bulut bilişim ve SQL teknolojilerini bir arada kullanır.

Soru-6 :

Aşağıdakilerden hangisi bir yapay zeka yöntemi değildir?

(Çoktan Seçmeli)

(A) Karınca kolonisi

(B) Parçacık sürü algoritması

(C) Yapay optimizasyon algoritması

(D) Yapay sinir ağları

(E) Derin sinir ağları

Cevap-6 :

Yapay optimizasyon algoritması

Soru-7 :

Aşağıdakilerden hangisi veri miktarı değiştikçe performans açısından yapay zeka algoritmaları için
doğru bir ifade değildir?

(Çoktan Seçmeli)

(A) En düşük performansa yapay sinir ağları modelleri sayesinde erişilir.

(B) Geleneksel öğrenme algoritmaları en düşük performanslı algoritmalardır.

(C) Sığ sinir ağları, derin sinir ağlarından veri miktarı artıkça da daha düşük performans verir.

(D) Sığ sinir ağları geleneksel öğrenme algoritmalarından daha iyi performans sağlamaktadır.

(E) Derin sinir ağları en iyi performansı sağlamaktadır.

Cevap-7 :

En düşük performansa yapay sinir ağları modelleri sayesinde erişilir.

Soru-8 :

Aşağıdakilerden hangisi makine öğrenme algoritmalarında öğrenme tipine göre sınıflandırmada yanlış
olarak verilmiştir?

(Çoktan Seçmeli)

about:blank 125/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(A) Denetimli öğrenme

(B) Denetimsiz öğrenme

(C) Pekiştirmeli öğrenme

(D) Hiçbiri

(E) Yarı denetimli öğrenme

Cevap-8 :

Hiçbiri

Soru-9 :

“…………….. geniş miktarda etiketsiz verinin yanı sıra az miktarda etiketli veriyi kullanan öğrenme
algoritmasıdır”

Boş bırakılan yere aşağıdakilerden hangisi gelmelidir?

(Çoktan Seçmeli)

(A) Pekiştirmeli öğrenme

(B) Denetimli öğrenme

(C) Algoritmik öğrenme

(D) Denetimsiz öğrenme

(E) Yarı denetimli öğrenme

Cevap-9 :

Yarı denetimli öğrenme

Soru-10 :

Aşağıdakilerden hangisi ilkel bir yapay nöronun bileşeni değildir?

(Çoktan Seçmeli)

(A) Aktivasyon fonksiyonu

(B) Geri besleme

(C) Girdi değerleri

(D) Toplama fonksiyonu

(E) Ağırlıklar

Cevap-10 :

Geri besleme

Soru-11 :
about:blank 126/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Aşağıdakilerden hangisi Konvolüsyonel sinir ağları (CNN) için doğru bir ifade değildir?

(Çoktan Seçmeli)

(A) Derin sinir ağlarının başında gelmektedir.

(B) Hayvan görsel korteksinden ilham almıştır.

(C) Geri beslemeli bir yapay sinir ağıdır.

(D) İleri beslemeli gelişmiş bir yapay sinir ağıdır.

(E) Girişleri iki veya üç boyutlu görüntü olarak varsaymaktadır.

Cevap-11 :

Geri beslemeli bir yapay sinir ağıdır.

Soru-12 :

Aşağıdakilerden hangisi Konvolüsyonel sinir ağları (CNN) nın bir bileşeni değildir?

(Çoktan Seçmeli)

(A) Ağırlıklandırma

(B) Özellik Çıkarma

(C) Sınıflandırma

(D) Havuzlama

(E) Düzleştirme

Cevap-12 :

Ağırlıklandırma

about:blank 127/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

10. TÜRKİYE’DE ve DÜNYADA BÜYÜK VERİ


UYGULAMALARI
Birlikte Düşünelim
1.    Büyük verinin uygulamalarının en sık görüldüğü sektör sizce hangisidir?

2.    Ülkemizdeki büyük veri potansiyeli dünyanın neresindedir?

3.    Dünyada büyük veri yatırımlarının başında hangi örnekler gelmektedir?

4.    Dünya ülkelerinin büyük verilerinin gelişmişlik düzeylerine katkısı hangi seviyelerdedir?

5.    Ülkemizin dünya ölçeğine ulaşması için hangi önemli adımları atmalıdır?

Başlamadan Önce
Şehirleşmenin hızlanması, üretim kapasiteleri ve tesislerin büyümesi, ağa bağlı cihaz sayısının hızla artması,
Büyük Veri’nin anlamlı aksiyonlara dönüştürülmesini zorunlu kılıyor. IDC, ‘Büyük Verinin Devrimi’ olarak
da adlandırılan ve şirketleri daha verimli ve yenilikçi hale getirme potansiyeli olan bu değişime kolay adapte
olabilen şirketlerin, rakiplerine göre büyük avantaj elde edeceğini öngörüyor. IDC’nin yaptığı en son
araştırmaya göre, Türkiye’de de her geçen gün daha fazla şirketin, hayatın her alanında ve hemen her sektörde
fark yaratacak bir güç olan Büyük Veri’nin önemini kavramaya başladıklarını ortaya koyuyor.

Pazar araştırma şirketi International Data Corporation'ın (IDC) açıkladığı son tahminlere göre, Türkiye'de
Büyük Veri ve Analitik yatırımları 2018 yılında 247 milyon dolar olarak gerçekleşti. 2023 yılına kadar pazarın
yıllık yüzde 16 oranında büyüyerek, 520 milyon dolara ulaşacağı öngörülüyor.

Dünyanın dört bir yanındaki şirketlerin veriyi analiz ederek anlamlı sonuçlar çıkarmalarına yardımcı olan
Hitachi Vantara’nın sponsorluğunda IDC tarafından gerçekleştirilen araştırmaya göre, Türkiye'deki
kurumların yüzde 55'i şirket içindeki büyük veri işleme konusundaki çalışmalarını sürdürmektedir.

Türkiye'deki her 10 kurumdan 8'i ‘makine öğrenmesi'ni, kurumu için anlamlı ve değerli görürken, her iki
şirketten biri, yani katılımcıların yarısı, geçmiş verileri analiz etmek için çok sayıda veri kaynağını bir araya
getirmekte zorlandığını belirtmektedir.

Geniş bilgi kaynaklarının etkin bir şekilde kullanımı, kaynak kullanımında ve karar vermede öngörülemeyen
yeni fırsatlar sağlamaktadır. Büyük verilerin kullanımı birçok kritik alanda bilişimin karar desteğini bir üst
boyuta taşıyarak ciddi tasarruflar ve yeni olanaklar sağlamaktadır. Bu çalışmada, büyük veri uygulamalarının
Türkiye’de ve Dünyadaki örnekleri anlatılacaktır.

10.1. Büyük Veri Uygulamalarının Temelleri


Uzun yıllar bilişim dünyasında adından sıklıkla bahsedilen ve her geçen gün yeni geliştirilen araçlarla
kullanımı yaygınlaşan büyük veri uygulamaları, dünya ölçeğinde Şekil 10.1’de görülen Google, Facebook,
LinkedIn, Yahoo ve daha birçok büyük teknoloji şirketleri tarafından yaygın olarak kullanılmaktadır. Kamu ve
özel kurumların veri analizinde kullandıkları teknolojilerin büyük veriye adapte edilmesi konusunda
kendilerini baskı altında hissettikleri belirtilmektedir [1].

Şekil 10.1. Dünyada büyük veri uygulamaları.

Obama Yönetimi, büyük veri teknolojilerini geliştirmek, büyük veri uygulamalarını göstermek ve yeni nesil
veri bilimcilerini eğitmek için 2012 yılında Büyük Veri Araştırma ve Geliştirme Girişimi’ni başlatmış, aynı
zamanda Beyaz Saray’a ilk kez Veri Bilimi Yöneticisi işe almıştır [2]. ABD’de yayınlanan raporlar ve
about:blank 128/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

hükümetin bu alana verdiği önem


sonucunda, eğitim alanı da dahil olmak
üzere farklı sektörlerde birçok devlet ve
özel sektör büyük veri ile ilgili
araştırmalara başlamış, önemli
yatırımlarda bulunmuşlardır. Buna bağlı
olarak farklı kaynaklardan farklı ürünler
ve hizmetler insanoğlunun kullanımına
sunulmuştur. Başarılı iş uygulamaları,
teknik altyapı yatırımlarına, alan
uzmanlarının yetkinlik düzeyine ve
özellikle değer yaratma potansiyelinin
keşfedilmesiyle mümkün hale gelmiştir.
Bu gelişim doğrultusunda veriler
arasındaki ilişkiler, bağlantılar ve
örüntüler ortaya çıkartılabilmiş, alınacak kararların sonuçlarını kestirmek mümkün olmuştur.

İşletmelerin büyük veri kaynakları; müşteri (kişisel, demografik, ses, fotoğraf, video, beğeni, yorum, paylaşım,
tercih), ürün (tür, miktar, fiyat, satın alma sıklığı, renk, beden), network cihazları, sensörler, web ve mobil
uygulama (konum, giriş zamanı ve sayısı, tıklama, görüntüleme, ziyaret), doküman (plan, program, liste,
çizim) gibi verilerinden oluşmaktadır. Ayrıca, kendi verileri dışındaki hava durumu, sosyal medya siteleri,
arama motoru sorguları, ticaret odaları ve merkezi nüfus idaresi gibi dış kuruluşların verileri de işletmelerin
büyük verilerinin bir kısmını oluşturmaktadır. Bu veriler sayesinde insanlığa faydalı ürünler oluşturabilmenin
yanında işletmelere önemli ekonomik girdilere dönüştürülmüştür. Büyük verinin ekonomik değer kaynağı
olduğunu, içgörüler ya da değer yaratan mal ve hizmetler üretmek için bilgiden faydalanılması gerektiğini,
değer elde etmeksizin yapılan analizlerin işletmelere katkı sağlamayacağını, herhangi bir büyük veri
planı/stratejisi olmayan/gerçekleştirmekte başarısız olan/geç kalan işletmelerin rekabet etmesinin güçleşeceğini
göstermektedir.

Dijital çağ tanımlarının yapıldığı günümüzde verilerin etkin kullanımı hem kamu politikalarının başarı oranını
hem de kamusal hizmetlerin kalitesini artıracak bir fırsattır [3]. Doğru kurgulandığı ve kullanıldığı takdirde,
işletmelere önemli faydalar sağlamakta ve iş yapma şekillerini değiştirmektedir.

Geleceğin işletmelerinde rekabet üstünlüğünün ancak işletme içinde ve dışında bulunan karmaşık bilginin
üretilmesi, tüketilmesi ve yönetilmesi sayesinde mümkün olacağı değerlendirilmektedir. Örneğin, iş
dünyasında kişiselleştirilmiş ürün ve hizmet sunumuna dönük iş modelleri geliştirilebilmekteyken sağlıkta,
akıllı cihazlarla toplanan verilerle hastalıkları öğrenebilen modeller oluşturulabilmekte; tarımda, sensörlerle
toprağın, havanın, bitkilerin durumları tespit edilerek ürünler özel bir bakımla yetiştirilebilmektedir. Bu
kapsamda büyük veri çalışmaları kurumlar, kuruluşlar, işletmeler ve araştırmacılara önemli getirilerde
bulunması beklenmektedir [4].

Türkiye’de büyük veri, birçok araştırmacı ve işletme için yenidir. Özel sektördeki büyük veri uygulamaları
artış göstermekle birlikte büyük bir kısmı bu konuya yapılan yatırımlar düzeyindedir. Buna karşılık kamu
kurumlarında gerçekleştirilmiş başarılı büyük veri uygulamaları ya da uygulamalara girdi sağlayabilecek
projeler daha fazladır. Bunlara, Kamu Bilgi Yönetim Sistemi (KAYSİS), enerji tahmin sistemi, e-bildirge
sistemi, Milli Eğitim Bakanlığı Bilişim Sistemleri (MEBBİS), e-okul, e-Nabız gibi çalışmalar örnek olarak
verilebilir [5, 6]. Ayrıca son iki yılda, Araç ve Sürücü Davranış Modellemesi, Erken Uyarı Sistemleri,
Dolandırıcılık Tespiti, Canlı Trafik Tahmini uygulamaları ile büyük veri kullanılmaya başlanmıştır [7].

10.2. Türkiye’de Büyük Veri Uygulamaları


Ülkemizde birçok büyük veri uygulaması devlet eliyle açık veri haline getirilmiş örnekleri ile vatandaşların
kullanımına açılmıştır. Bu uygulamaların en popüler örneklerinden bazıları aşağıda verilmiştir:

e-Devlet Portalı:

Ülkemizde büyük veri çalışmalarının en önemli örneklerden biri de “e-Devlet” portalıdır. e-Devlet, hem
kamunun sayısal dönüşümüne iyi bir örnek olması açısından hem de neredeyse ülke nüfusunun tamamının
hayatını büyük ölçüde kolaylaştıran bir büyük veri çalışması olması açısından önemli bir örnektir.
about:blank 129/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

www.turkiye.gov.tr internet adresi üzerinden hizmet veren portalda adaletten, telekomünikasyona, vergi
yükümlülüklerinden şikâyet ve bilgi edinmeye kadar birçok işlem devlet kurumlarına gitmeye gerek
kalmaksızın çevrimiçi olarak vatandaşların faydasına sunulmaktadır.

Portalda yalnızca devlet kurumlarına ait işlemler değil elektrik, doğalgaz, telekomünikasyon gibi özel sektör
eliyle yürütülen hizmetler için de abonelik sorgulama, abone olma ve abonelikten ayrılma başvurusu gibi
işlemleri yapmak mümkündür. e-Devlet üzerinden Ağustos 2020 itibarı ile 670 farklı Kuruma ait 5.125 hizmet
alınabilirken, bu portala kayıtlı kullanıcı sayısı 50 milyona yaklaşmıştır.

Şekil 10.2. e-Devlet uygulaması.

Resmi İstatistik Programı (RİP)

Resmi istatistiklerin üretimine ve yayımına ilişkin temel ilkeler ile standartları belirlemek, ulusal ve
uluslararası düzeyde ihtiyaç duyulan alanlarda güncel, güvenilir, zamanlı, şeffaf ve tarafsız veri üretilmesini
sağlamak amacıyla 5429 sayılı Türkiye İstatistik Kanunu’na dayanılarak beşer yıllık dönemler için
hazırlanmaktadır.

Şekil 10.3. Resmi istatistik portalı.

RİP kapsamında TÜİK ve Programa dahil tüm kurum ve kuruluşlarca üretilen istatistiklerin, Türkiye istatistik
sistemine ilişkin bilgilerin ve gelişmelerin kamuoyuna internet üzerinden tek kapıdan sunumunu
gerçekleştirmek amacıyla RİP Portalı hazırlanmış ve 2014 Mart ayında kullanıcıların hizmetine sunulmuştur.
Bu portal üzerinden resmi olarak sağlanan tüm istatistiklere açık erişim sağlanabilmektedir.

TÜBİTAK Açık Arşivi

Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (“TÜBİTAK”), “TÜBİTAK Açık Bilim Politikası”
uyarınca, kendisi tarafından yürütülen veya desteklenen projelerden üretilen yayınlar (hakemli makaleler vd.)
about:blank 130/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

ile araştırma verilerinin TÜBİTAK Açık Arşivinde depolanmasını ve bu sayede bu verilere açık erişim
sağlanmasını hedeflemektedir. TÜBİTAK Açık Arşivi Aperta adıyla geliştirilmektedir. Aperta kapsamına giren
bilimsel çalışmalar, bu portala yüklenebilmekte ya da yüklenmiş çalışmalara kolayca erişilebilmektedir.

Şekil 10.4. TÜBİTAK Açık Veri Portalı.

T.C. Sağlık Bakanlığı Açık Veri Portali

T.C. Sağlık Bakanlığı’nın 2018 yılı faaliyet raporunda Açık Veri Portali’yle ilgili olarak; “açık veri paylaşım
ilkeleri, kişisel bilginin güvenliği / mahremiyeti gözetilerek kamu kurumlarında, yerel yönetimlerde, özel
sektörde ve sivil toplum kuruluşlarında üretilen veriler açık veri olarak ortak bir veri kaynağından tüm fayda
sağlayıcıların kullanımına açılacaktır” ifadelerine yer verilmiştir.

Şekil 10.5. T.C. Sağlık Bakanlığı Açık Veri Portalı.

Bakanlığın internet sitesinde de “Açık Veri Portalı-pilot çalışma” başlığı altında birçok sağlık verisi
yayımlanmaktadır. Ayrıca, Kan, Organ ve Doku Nakli Hizmetleri Dairesi Başkanlığı Resmi Sayfası’nın
istatistikler bölümünde de organ doku istatistikleri paylaşılmaktadır.

Dijital Dönüşüm Portalı

Türkiye’de kamu kurumları, özel sektör, akademi ve STK gibi Dijital Devlet (d-Devlet) ekosistemi paydaşları
arasında bilgi paylaşımı sağlamak amacıyla TÜBİTAK-BİLGEM Yazılım Teknolojileri Araştırma Enstitüsü
(YTE) tarafından Dijital Dönüşüm portali oluşturulmuştur. Dijital dönüşüm kapsamında büyük/açık veri
hakkında da çalışmalar yapıldığı görülmektedir. Başbakanlık ve TÜBİTAK-BİLGEM-YTE iş birliği ile 20
Mart 2013 tarihinde “Kamu Yönetiminde Gelişen Trendler: Açık Devlet ve Açık Veri” konulu panel
düzenlenmiştir.

about:blank 131/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 10.6. Dijital Dönüşüm Portalı.

Ticaret Bakanlığı

T.C. Ticaret Bakanlığı’nın yayımladığı politikalar, stratejiler ve tarafından ülkemizde gerçekleştirilecek açık
veri konusundaki faaliyetlere oldukça önem verilmekte ve de Bakanlık tarafından yürütülen büyük veri analizi
ve yapay zeka projeleri kapsamında da, firmalar, üniversiteler ve araştırma kuruluşları ile işbirliği yapılması
hedeflenmekte, bu kapsamda Bakanlıkça tutulan verilerin, daha etkin politikalar sunulması amacıyla diğer
paydaşlarla paylaşımı konusunda çalışmalar devam etmektedir. Halihazırda, Bakanlıkça tutulan çeşitli verilerin
paylaşımın faydalı olabileceğinin düşünüldüğü bazı proje başlıkları aşağıda sıralanmaktadır [8].

Boyner Grup

Çok katlı mağazacılık, özel marka, e-ticaret ve mobil uygulama ile hizmet veren Türkiye’nin lider mağaza ve
moda perakendesi grubu olup bu özel işletmenin büyük veri çalışmaları, akıllı telefonlara yüklenen mobil
alışveriş uygulaması ile yön bulmuştur. Bu yazılımla müşterilerin gün içindeki hareketleri, hangi ürünlerle
ilgilendikleri, hangi sayfalarda uzun zaman geçirdikleri, konum bilgileri tespit edilebilmektedir. Bu yolla elde
edilen değerler şöyledir [9]:

Büyük veride amaç, müşterinin davranışlarını tanımak ve anlamlandırmaktır. Bu doğrultuda, yeni açılan
mağazalarının ve mobil uygulamanın müşteri profilleri arasındaki benzerlikler belirlenmiş, mağaza civarında
oturanlar seçilmiş, daha sonra mağazanın yakınından geçmekte olan müşterilere tanıtım mesajları gönderilerek
paracık olarak adlandırdıkları ödül-puan sistemi hediye olarak sunulmuştur. Bu davet ile cironun %27’si elde
edilmiştir. Bir diğer analizde, 24 saatlik alışveriş hareketleri incelenmiş, internet üzerinden alışverişlerin en
yoğun 06.00-10.00 aralığında yapıldığı bilgisi elde edilmiştir. Isı haritası olarak nitelendirdikleri bu işlemlerin
mahalle, sokak, köy, kasaba dahilinde hangi şehirlerde gerçekleştirildiği saptanmış; böylece sadece harcamalar
değil alınan ürünün türü, rengi, bedeni gibi bilgilere de erişmek mümkün olmuştur.

Yemeksepeti (yemeksepeti.com)

Çevrimiçi yemek siparişi hizmeti sunan web sitesi olup paket servisi bulunan restoranlar ve yemek sipariş
etmek isteyen internet web kullanıcılarını buluşturmaktadır. Mobil uygulaması da bulunan şirket, 2020
itibariyle 78 bini geçen restoran ve 19 milyonu geçen kullanıcısı ile Türkiye’de en çok kullanılan yemek sipariş
ortamı olmuştur [x10]. Büyük veri ile geliştirdiği özgün iş modeli, şirketin başarısının ve büyümesinin özünü
oluşturmaktadır.

Yemek siparişinde zaman çok önemli bir faktördür ve hizmetin 30-40 dk. içerisinde tamamlanması
beklenmektedir. Ayrıca yemek yeme; görünce sipariş verme, yemeyi isteme şeklinde gelişebilen duygusal ve
dürtüsel bir davranıştır. Bu da sektörel bazda her türlü değişikliğin takip edilmesini, iş ve teknik birimlerin hızlı

about:blank 132/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

cevap vermesini gerektirmektedir. Bilinmeyen ilişkiler analizle ortaya çıkarılmaktadır [11]. Şirketin büyük
verisine konu olan önemli bazı kategoriler Tablo 10.1’de verilmektedir.

Tablo 10.1. Yemek Sipariş Sitesi 2015-2019 Verileri [12].

                Yemeksepeti’nin en popüler büyük veri başarısı, şirkete ödüller kazandıran “Fakat İyi Yedik”
projesidir. Proje, kullanıcıların kişiselleştirilmiş verilerinin sunulduğu bir mikrositeden oluşmaktadır. Büyük
verideki 10 milyar veri, anahtar kategorilerle 1,5 milyara indirgenmiş; kişinin siparişleri, yeme alışkanlıkları,
ilginç yemeksepeti verileri ve eğlenceye dönük sorular kullanıcıya video olarak sunulmuştur. Büyük veri, istek
anında oluşan, her siparişle yenilenen dinamik bir formata dönüşmüştür. Bu, büyük verinin görselleştirilmesi
açısından önemli bir başarıdır. Proje sonucunda mikrositeye 1,5-2 aylık sürede 630 bin ziyaret, 212 bin video,
2 milyon sayfa görüntüleme, 5 binden fazla Twitter mesajı geri bildirim olarak dönmüştür. Böylece şirket
markasını sunabilmiş, viral pazarlama ya da ağızdan ağıza reklam olarak bilinen müşteri odaklı pazarlama
faydası sağlamıştır [4, 11].

Akbank

Türkiye'nin en büyük bankalarından biri olup sigorta acenteliği faaliyetleri de yürütmektedir. Dünyadaki
teknolojik eğilimler doğrultusunda altyapısına önemli yatırımlar yapmaktadır [13].

Büyük veri, iç ve dış veri kaynaklarının sürekli birleştirilmesini, müşteri ve organizasyonu anlamak üzere
yapılandırılmış ve yapılandırılmamış verilerin bir araya gelmesini içermektedir. Bu amaçla, büyük veri alt
yapısı yeniden düzenlenmiştir. Çözüm ortakları ile yapılan çalışmalarda, farklı veri kaynaklarında depolanmış
pazarlama kampanyası verileri ve sonuçları birleştirilerek analizlerin çalıştırılma süresi düşürülmüş ve yeni
davranışsal içgörüler arayan kampanya verileri oluşturulmuştur. Böylece, kampanyalar bittikten sonra değil
devam ederken sonuçları görmeye olanak veren müşteri merkezli bir sistem oluşturulmuştur [14].

Akbank, büyük verinin hem görsel olarak sunabildiği hem de işlemlerin müşteriye özel gerçekleştirebildiği bir
mobil uygulamaya sahiptir. Yapay zeka altyapısı ile hazırlanan uygulamada, finansal kararlara yardımcı olacak
kişiselleştirilmiş içgörüler ve akıllı ipuçları yer almaktadır. Uygulamada, 300 fonksiyon, 40 farklı içgörü
senaryosu, 23 milyon içerik yer almaktadır. Bu içeriklerle, haftalık nakit akışına ilişkin öngörü ve önerilerin
yanı sıra kullanıcıların karşılarına çıkan içerikleri kişiselleştirme olanağı sunulmaktadır [15]. Mobil girişin
kullanıcının özçekim fotoğrafıyla da yapılabilmesi, yapılandırılmamış verinin kullanımına ilişkin net bir
özelliktir [4].

Enerjisa

Elektrik dağıtımı ve satışından oluşan iki ana iş kolu bulunan enerji şirketidir. 14 ilde 10.1 milyon müşteriye
ulaşarak yaklaşık 21 milyonu aşkın kullanıcıya dağıtım hizmeti sağlamaktadır.

Büyük veri ile müşteriyi tanımanın yolu müşterinin veri tabanındaki hareketlerini izlemekle mümkündür.
Enerjisa bu konuda müşteri verilerine yönelik tek bir havuz oluşturmak üzere çözüm ortağıyla birlikte kayıtları
birleştirip temizlemiş ve bu şekilde çift kopyalar azaltılarak %25 daha az kayıt elde edilmiştir. Ayrıca elde
edilen veriler, ticaret odaları ve merkezi nüfus idaresi gibi dış kuruluşların verileriyle eşleştirilerek
zenginleştirilmiş, müşteri bilgilerinin tamlık oranı %30 artırılmıştır. Böylece, daha güvenli müşteri bilgileriyle
daha detaylı bir hizmet ve pazarlama yaklaşımı geliştirebilmek için kritik bir adım atılmıştır [16].

Çeşitli uygulamalar ile dijital dönüşümünü gerçekleştiren şirket, sanal gerçeklik uygulamalarıyla da teknolojik
etkinliğini artırmıştır. Artırılmış gerçeklik gözlüğü kullanılarak işlerin uzaktan kumanda edilebiliyor oluşu,
zorlu yerlerde çalışılabilmesini mümkün hale getirmiştir. Bunun bir uygulaması, doğal gaz tesisinde
gerçekleştirilen son bakım çalışmaları ve test aşamalarında gerçekleştirilmiştir. Bir diğer uygulama ise linyit
fabrikasında her depoyu kişisel olarak ziyaret eden bir merkez çalışanının yürüttüğü fiziksel stok sayımı

about:blank 133/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

sisteminin uzaktan stok sayımı ile değiştirilmesi ve saha çalışması için sanal iş birliği yapılmasıyla olmuştur.
Böylece iş süreçlerini iyileştirme ve hızlandırma mümkün olmuştur. Şirket bu çalışmalarla hem değer elde
etmiş hem de veri şirketi olma yönündeki hedefini gerçekleştirmiştir. Gelecek planlarında, Büyük verinin
yapay zeka ile daha etkin değerlendirilmesini sağlayacak projelere yer verilmektedir [4].

10.3. Dünyada Büyük Veri Uygulamaları


Dünya ölçeğinde birçok büyük veri uygulaması ve bu uygulamaları geliştiren/destekleyen kurum ve kuruluşlar
olmakla birlikte en popüler uygulamaların başında sosyal medya hesapları gelmektedir. Facebook, Twitter,
Youtube, Google vb. uygulamalar popüler ve bilindik oldukları için bu bölümde yer verilmeyecektir. Ayrıca
uzay teknolojileri ve savunma sanayi örnekleri gizlilik politikaları nedeniyle bu bölümde anlatılmayacaktır.
Ölçek olarak birçok kurum ve kuruluşun geliştirdiği uygulamalar olmakla birlikte hepsine değinilmesi imkan
dahilinde olmamasından ötürü örneklem yapılmıştır. Aşağıdaki Şekil 10.7’deki görselde büyük verinin dünya
örneklerini bir arada görebilirsiniz.

Şekil 10.7. Dünya ölçeğinde büyük veri örnekleri [6]

Hollanda İstatistik Bürosu, ülke halkının %70’nin kullandığı Twitter ve benzeri sosyal medya sitelerinden
topladığı verilerle halkın genel olarak ne üzerine konuştuğunu analiz etmiştir. Bunun yanı sıra duygu analizi
yaparak genel olarak halkın mutluluk düzeyini ortaya koymuştur. Bunun yanında ayı analizlerde ekonomik
durum ve benzeri konular üzerinde halkın düşüncesi meydana çıkmıştır [17].

Büyük veri analitiği dünya ölçeğinde birçok spor endüstrisinde de kullanılmaktadır. Örneğin, tenis
turnuvalarında IBM'in Slamtracker uygulaması kullanılıyor ve oyuncu hareketleri video bazında analiz
edilerek oyunu geliştirmek için antrenörlere kullanabilecekleri detaylı raporlar sunuyor. Ayrıca sporcuların
giyilebilir teknolojiler sayesinde spor müsabakalarının dışında da takip edilebilmesine olanak sağlanıyor; uyku
ve yeme alışkanlıkları izlenebiliyor. Bunun yanında sporcuların sosyal medya paylaşımları incelenerek
psikolojik durumları analiz edilebiliyor.

about:blank 134/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 10.8. IMB Slamtracker uygulama arayüzü.

Ontario Üniversitesi her gün, erken doğan bebeklerden (prematüre) yaklaşık 100 milyon adet veri toplayarak,
analizini en hızlı şekilde gerçekleştiriyor. Bunun sonucunda, hasta muayenesi sırasında erken teşhis edilen
değişimler, bir hastalık durumuyla ilişkilendirilebiliyor [17].

Tesla şirketi araçlarını sensörlerle donatarak ve Apache Hadoop yapısını kullanarak veri toplamakta ve
toplanan veriyi analiz için ana merkeze göndermektedir. Toplanan veriler, şirket Ar-Ge gelişimini, araba
performansını, araç bakımını ve müşteri memnuniyetini artırmak için kullanılmaktadır. Örneğin araçla ilgili
problem olduğunda sürücüye servise gitmesi tavsiye edilir ve şirket genel merkezi bilgilendirilir. Bu özellikler
sayesinde Tesla’nın şarj istasyonlarının yaygın olarak kullanılmadığı zorlu çevre şartlarında bile şirket için
pazar payı yaratmasına yardımcı olmaktadır [6].

Şekil 10.9. Tesla büyük veri kullanmaktadır.

CERN'in Büyük Hadron Çarpıştırıcısı, evrenin gizemlerini çözmeyi ve aynı zamanda şaşırtıcı boyutta veriler
üretmektedir. CERN'in veri merkezinde, 65.000 işlemci 30 petabayt veriyi işlemekte, ancak bu miktarda veriyi
işlemek için 150 farklı veri merkezindeki bilgisayarları kullanmaktadır. Böyle büyük bir bilgi işlem gücü,
bilimsel araştırmalarda hayatta önemli düzeyde donanım kaynakları sağlamaktadır.

about:blank 135/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 10.10. CERN'in Büyük Hadron Çarpıştırıcısı

Tennessee Valley Authority, sayısı 1.5 trilyon olan akıllı şebeke verilerinin analizi için bir sistem geliştirmiştir.
Sonuç olarak kurum, güç şebekesi arızaları üzerine yapılan analizler ile verimliliği arttırmaktadır. Doğal
kaynakları koruyan üst düzey analizlerle tahminlemeler gerçekleştiriyor [17].

California Long Beach'te sulama şebekesi akıllı sayaçlarla izlenerek kaçak sulamanın önüne geçilmiş ve bu
sayede yılda küçümsenemeyecek oranlarda su tasarrufu sağlanmıştır.

Asya Sağlık Bürosu, hasta görüntüleme verilerini Hadoop üzerinde tutup analiz ederek radyoloji ve patoloji
uzmanlarının hem daha hızlı hem de daha az hata yaparak teşhis koymalarını sağlamıştır [17].

Apple'ın yeni sağlık uygulaması ResearchKit, cep telefonlarını biyomedikal birer araştırma cihazına
dönüştürmektedir. Bu uygulama sayesinde bilim insanları topladıkları büyük veriler sayesinde yeni çalışmalar
yapmış; bu ve benzeri uygulamaların popülaritesi ile süreç daha kolay ve daha hızlı bir şekilde veriler
anlamlandırılma imkânı bulmuştur. Ayrıca Jawbone's Up akıllı bileklik, her gece 60 yıllık uyku verilerini
toplamakta ve bu verilerden elde edilen analiz sonuçları, bilgileri kullanıcıya geri döndürmektedir. Bu alanda
akıllı bileklikler ve giyilebilir teknolojiler sayesinde dünya genelinde oldukça fazla ürün oluşturulmuş olup
büyük ölçekte veri toplanmaktadır. Sağlık sektörü başta olmak üzere birçok sektörde bu teknolojilerin popüler
olması ve geniş kitlelerden farklı sensörler ve mobil teknolojiler sayesinde veri toplanması birçok bilimsel
çalışmaya konu olmuştur.

Şekil 10.11. Apple ResearchKit

New York Polisi 911 kayıtlarını, yakalamaları, suçlu bilgilerini ve coğrafi verileri gerçek zamanlı olarak
işleyerek günler sürebilen analizleri dakikalar içinde tamamlayarak suç oranını azaltmaya başlamıştır [17].

Amerika’da bir perakende şirketi olan Kroger, yaklaşık 770 milyon tüketicinin verisine erişmekte, toplamakta
ve yönetmektedir. Büyük verilerden gelen analitik çıktılar, Kroger için, müşteri sadakati ve karlılığı konusunda
about:blank 136/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

daha büyük ve kullanılabilir bilgiler sunmaktadır. Yaklaşık %60 geri ödeme oranı ile büyük veri ve analitik
kullanarak artan gelirde 12 milyar doları aşan bir kazanç elde edilmiştir [6].

Şekil 10.12. Kroger firması büyük veri uygulaması.

Beacon Enstitüsü, Hudson Körfezi’ne yerleştirdiği sensörlerle topladığı biyolojik, fiziksel ve kimyasal verileri
meteorolojik verilerle birleştirerek araştırmacı, kamu ve eğitimcilere sunmaktadır. Toplanıp analiz edilen bu
verilerle olası çevre felaketleri ve anlık değişimlerin daha hızlı fark edilmesi sağlanıyor [17].

Amerika'da "Önleyici Polis Hizmetleri" olarak adlandırılan ve Seattle, Los Angeles gibi şehirlerde uygulanan
yapılandırmalar 4 aylık bir süreçte cinayet oranını yüzde 12 gibi bir miktarda düşürmüştür. Yüzde 26 gibi bir
düşüş ise hırsızlık üzerinde gerçekleşmiştir. Vancover polis bölümünün benzer uygulaması bir hizmet, suçun
nereye yönlendiğini göstermiş, hatta birçok durumda engellenmezse gerçekleşeceği durumlarda sonlanmasını
sağlamıştır. Mülki suçlar şehir genelinde 1000 yerleşimde %24 oranında düşmüş, şiddetli suç oranlarında 2007
yılından 2011’e kadar %9 azalmıştır [17].

American Express şirketi, geleneksel ticari istihbarat tabanlı raporlamasını ve müşteri sadakati öngören
göstergeleri değiştirmek için gelişmiş tahmin modelleri oluşturarak, 115 değişken ile geçmiş müşteri
işlemlerini analiz etmiş ve böylelikle Avustralya pazarında kapanacak hesapların %24’ünü tahmin
edilebilmiştir [6].

Dünya’da önemli büyük veri uygulama örneklerinden bir tanesi de tele-tıptır. Dünya Sağlık Örgütünün (WHO,
2009) tanımına göre Tele-tıp; mesafe ve coğrafi uzaklık sınırlaması olmadan hastalık ve yaralanmaların teşhisi,
tedavisi ve önlenmesi, araştırma, değerlendirme ve sağlık hizmet sunucularının sürekli eğitimi, birey ve
toplulukların sağlığını geliştirmek ve bilgi alışverişi yapmak için sağlık sistemleri tarafından kullanılan bilgi ve
iletişim teknolojilerini içeren sistemdir. Örneğin, bir aile hekiminin kendisine cilt rahatsızlığı konusunda
başvuran bir hastanın cildindeki hastalıklı bölgenin görüntüsünü dermatoskop cihazı ile kaydedip merkezi bir
bölgedeki uzman bir hekime göndermesi ve uzman hekimin bu hastayı uzaktan teşhis etmesi süreci tele-tıp
uygulamasıdır [18].

about:blank 137/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 10.13. Teletıp sistemi uygulama görüntüsü.

Amerika’da büyük bir eczane zinciri olan Walgreens’in klinik hekimleri; büyük veri teknolojilerini
kullanmakta, büyük veri analizi ile hasta durumlarının değerlendirmesini yapmakta ve genel sağlık durumlarını
iyileştirmek, gelecek tıbbi maliyetlerden kaçınmak için öneriler çıkartmaktadırlar. Örneğin; mevcut sistem,
insanların sağlık planlarına sadık kalmasına ve daha fazla gereksiz maliyetten kaçınmasına yardımcı olmak için
doldurulmamış bir reçeteyi yakalayabilmektedir. 100 milyondan fazla kişi için 7.5 milyar tıbbi olay
incelenmektedir [6].

Şekil 10.14. Walgreens firması büyük veri uygulaması.

UPS şirketi her gün yaklaşık 16.000 paket ve belge dağıtımı yapmaktadır ve yılda 4 milyar ürünü yaklaşık
100.000 araçla sevkiyat yapmaktadır. Bu işlem hacmi ile UPS’in büyük veri kullanması için birçok yol vardır
ve bu uygulamalardan birisi filo optimizasyonu içindir. Uygun gelişmiş algoritmalar, her bir filo için rota
hesabı, motor boşta kalma süresi ve tahmini bakım süreleri için yardımcı olmaktadır. Programa başladığından
beri şirket, 39 milyon galon yakıt ve 364 milyon mil yol tasarrufu sağlamıştır. Sonraki aşamada ise şirket
programı uçaklar için de devreye almayı planlamaktadır [6].

Commonbond, öğrencileri ve mezunları başarılı profesyonellerle ve mezunları yatırımcılarla buluşturan bir


öğrenci kredi platformudur. Böylece, öğrenciler daha düşük, sabit faizli finansmana erişebilir ve geri
ödemelerinde binlerce dolar tasarruf edebilmektedirler [6].

General Electic (GE), santrallerden lokomotiflere ve hastane donanımına kadar pek çok çalışma verilerini
topladıkları ve bunu ilgili yerlere aktardıkları, GE’nin analitik ekibi ise bu verileri kullanarak makinelerin daha
verimli olmasını sağlamak için çalıştıklarını, çok küçük gelişmelerin bile önemli olduğunu belirtmektedirler.
GE’nin tahminlerine göre, yapılan bu işlemlerin ABD’deki verimliliği %1,5 artırabileceğini, bunun ise 20
yıllık bir süre zarfında, ortalama ulusal geliri %30 oranında artırabileceğini belirtmişlerdir.

Palantir Technologies, dolandırıcılıktan teröre kadar değişen güvenlik sorunlarını çözmek için büyük veri
analitiği yöntemlerini kullanarak çözümler üretmektedir. Sistemlerini CIA destekleriyle geliştirmiş ve ABD
Hükümeti ve güvenlik kurumları tarafından yaygın bir şekilde kullanılmaktadır. 400.000 Milyon dolar yatırım
ile üç yılda 20 Milyar dolarlık bir şirket olan önemli örneklerdendir [6].

about:blank 138/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 10.15. Palatnir büyük veri teknolojileri kullanmaktadır.

Bölüm Özeti
Büyük verinin bizzat kendisi iş dünyasında çok önemli bir yere sahiptir. Modern ve post modern işletme
anlayışı firmaların iç ve dış çevrelerinden topladıkları veriyle hareket etmeleri gerektiğini tavsiye etmektedir.
Bununla birlikte teknolojik gelişmeler büyük veriyi beraberinde getirerek firmalara resmi daha net görmeleri
konusunda yardımcı olmakta ekonomik girdilerini artırmaya yönelik yatırımlar yapma olanağı sağlamaktadır.

Büyük veri ile devletler, kurum ve kuruluşlar müşteri davranışını analiz edebilmekte ve bu doğrultuda inovatif
atılımlar ve yeni hizmetler geliştirebilmektedir. Ürün/hizmetlerini müşterilerinin istediği şekilde dizayn
edebilmekte ve farklılaşma konusunda yeni uygulamalar geliştirebilmektedirler. Ayrıca işletmeler bu sayede iş
süreçlerini optimize edebilmekte, karar destek sistemlerini geliştirerek daha etkin işletme stratejisi
belirleyebilmektedirler. Büyük veri işletmelere yeni iş modeli geliştirerek başkalaşım ve dolayısıyla yeni iş
sahaları oluşturmak gibi fırsatlar da sunmaktadır.

Dünyada büyük verinin önemini benimsemiş birçok işletme olmasına karşın Türkiye’de gerek piyasada
gerekse akademik çevrede yapılan çalışmalar dünyada yapılanlara nazaran yetersiz sayıdadır. Önümüzdeki
yıllarda büyük veri kavramının öneminin hızla artacağı açıktır. Hızla büyüyen veriyi doğru analiz edebilen,
veri akışını yakalayabilen ve ona uyum sağlayabilen organizasyonların ve bu konuda yetkin personel istihdam
eden kuruluşların daha avantajlı konumda olacağı görülmektedir. Bu bağlamda Türkiye’de konuya olan ilginin
artması beklenmektedir.

Kaynakça
[1] Wormer, P. V. (2014, 11 11). A sense of urgency: Excecutives rush to adobt Big Data analytics. (Son Erişim
Tarihi: 15.11.2021)

URL: http://info.totaltraxinc.com/blog/a-sense-of-urgency-executives-rush-to-adopt-big-data-analytics

[2] Marzullo, K. (2016). Administration Issues Strategic Plan For Big Data Research and Developement. (Son
Erişim Tarihi: 08.11.2021)

URL: https://obamawhitehouse.archives.gov/blog/2016/05/23/administration-issues-strategic-plan-big-data-
research-and-development

[3] Julia Studinka ve Ali Asker Guenduez, “The Use of Big Data in the Public Policy Process - Paving the Way
for Evidence-Based Governance”, Research Platform Alexandria, 5 Eylül 2018.

[4] Koltan Yilmaz, Ş. “Businesses Creating Value With Big Data In Turkey: A Review On Private Sector
Applications”. International Journal of Management Information Systems and Computer Science, 2021,
5(1):44-62.
about:blank 139/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

[5] BTK, Bilgi Teknolojileri ve İletişim Kurumu (2020). “Dünyada ve Ülkemizde Sayısal Dönüşüm: Endüstri
4.0, Yapay Zekâ ve Büyük Veriye İlişkin Gelişmeler”, Sektörel Araştırma ve Strateji Geliştirme Dairesi,
Sayısal Dönüşüm Raporu, Ankara. (Son Erişim: 04.04.2021).

URL: https://www.btk.gov.tr/ uploads/pages/arastirma-raporlari/sayisal-donusum-rapor.pdf

[6] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O.,
Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.

[7] Sağıroğlu, Ş. (2019). Büyük ve Açık Veri Türkiye Uygulamaları. Büyük Veri Uygulamaları Konferansı,
BTK Konferans Salonu, 26 Haziran 2019, Ankara (Son erişim: 19.11.2021).

[8] Özkan, Ö. “Açık Veri”, Blockchain Türkiye Platformu, Set Pozitif Matbaa,  2019.

[9] Boyner, C. (2017). Boyner Büyük Veri. (Ed.), Güvenir, H. A, İş Hayatında Büyük Veri Konferans Raporu
içinde (53-62), TÜSİAD-T/2017, İstanbul.

[10] Yemeksepeti (2020). “2020 Lezzet Rehberi”, (Son Erişim Tarihi:20.11.2021) URL:
 https://www.instagram.com/p/CJYHOEep9nz/

[11] Akar, B. (2016, 5 Ocak). “Vaka II: Yemek Sepeti ve Büyük Veri”, Harvard Business Review Türkiye,
https://hbrturkiye.com/video/vaka-ii-yemek-sepeti-ve-buyuk-veri, (21.03.2021).

[12] Yemeksepetiblog (2021). https://blog.yemeksepeti.com/, (25.03.2021).

[13] Sabancı Üniversitesi (2021). “SAS Becomes The Analytical Partner of Turkey's First Big Data Lab”, (Son
Erişim Tarihi: 28.03.2021).

URL: https://sbs.sabanciuniv.edu/en/sas-becomes-analytical-partner-turkeys-first-big-data-lab,

[14] Datameer (2021). “Akbank Accelerates Marketing With Agile Analytics”, (Son Erişim Tarihi: 23.03.2021)

URL: https://www.datameer .com/akbank-case-study/

[15] İçözü, T (2021, 22 Şubat). “Akbank Mobil'in Kullanım Verileri ve Akbank'ın Uzaktan Müşteri Edinimine
Dair Detaylar”, (Son Erişim Tarihi: 28.03.2021)

URL: https://webrazzi.com/2021/02/22/akbank-mobil-in-kullanim-verileri-ve-akbank-in-uzaktan-musteri-
edinimi-detaylari/

[16] SAS, Statistical Analysis Software. “Enerji lideri veriyi müşteri bilgisine dönüştürüyor”, (Son Erişim
Tarihi: 23.03.2021)

URL: https://www.sas.com/tr_tr/customers/enerjisa-02.html

[17] Özbilgin İ.G. “Kamuda Büyük Veri ve Uygulamaları”, Akademik Bilişim Konferansları, Anadolu
Üniversitesi Eskişehir, 4-6 Şubat 2015.

[18] Dorsey, E. R., & Topol, E. J. (2020). Telemedicine 2020 and the next decade. The Lancet, 395(10227),
859.

Ünite Soruları
Soru-1 :

Aşağıdakilerden hangisi işletmelerin büyük veri kaynakları arasında yer almaz?

about:blank 140/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(Çoktan Seçmeli)

(A) Network cihazları

(B) Güvenlik politikaları

(C) Web ve mobil uygulamaları

(D) Müşteri bilgileri

(E) Ürün bilgileri

Cevap-1 :

Güvenlik politikaları

Soru-2 :

Aşağıdakilerden hangisi işletmelerin kendi verileri dışında kalan büyük veri kaynakları arasında yer
almaz?

(Çoktan Seçmeli)

(A) Hava durumu

(B) Sosyal medya siteleri

(C) Arama motor sorguları

(D) Merkezi nüfus idaresi

(E) Eğitim kurumları

Cevap-2 :

Eğitim kurumları

Soru-3 :

Aşağıdakilerden hangisi ülkemizdeki kamu kurumları tarafından geliştirilen büyük veri uygulamaları
arasında yer almaz?

(Çoktan Seçmeli)

(A) Kamu bilgi yönetim sistemi (KAYSİS)

(B) e-Nabız

(C) e-Nüfus

(D) e-Devlet

(E) Milli Eğitim Bakanlığı Bilişim Sistemleri (MEBBİS)

Cevap-3 :

e-Nüfus

about:blank 141/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Soru-4 :

Aşağıdakilerden hangisi ülkemizde son yıllarda kullanılmaya başlanılan büyük veri uygulamaları
arasında yer almaz?

(Çoktan Seçmeli)

(A) Eğitimde Oyunlaştırma

(B) Araç ve Sürücü Davranış Modellemesi

(C) Erken Uyarı Sistemleri

(D) Dolandırıcılık Tespiti

(E) Canlı Trafik Tahmini

Cevap-4 :

Eğitimde Oyunlaştırma

Soru-5 :

Aşağıdaki bilgilerden hangisi hatalı verilmiştir?

(Çoktan Seçmeli)

(A) Resmi istatistik program, resmi istatistiklerin üretimine ve yayımı amacıyla oluşturulmuştur.

(B) Açık veri portalı, ülkemizin sağlık verisini yayımlamak için oluşturulmuştur.

(C) Dijital dönüşüm portalı, kamu kurumları, özel sektör, akademi ve STK gibi paydaşlar arasında bilgi
paylaşımı sağlamak amacıyla oluşturulmuştur.

(D) Boyner grup, çok katlı mağazacılık, özel marka, e-ticaret ve mobil uygulama ile hizmet veren Türkiye’nin
lider mağaza ve moda perakendesi grubunun geliştirdiği büyük veri uygulamasıdır.

(E) EnerjiSa, enerji üretim bilgilerinin tutulduğu devlet kurumu olup büyük veri ile müşteri hareketlerini
izleyen büyük veri uygulamasıdır.

Cevap-5 :

EnerjiSa, enerji üretim bilgilerinin tutulduğu devlet kurumu olup büyük veri ile müşteri hareketlerini izleyen
büyük veri uygulamasıdır.

Soru-6 :

“Ülke halkının %70’nin kullandığı Twitter ve benzeri sosyal medya sitelerinden topladığı verilerle halkın genel
olarak ne üzerine konuştuğunu analiz etmiştir. Bunun yanı sıra duygu analizi yaparak genel olarak halkın
mutluluk düzeyini ortaya koymuştur.”

Yukarıdaki bilgi dünyadaki hangi büyük veri uygulaması tarafından gerçekleştirilmektedir?

(Çoktan Seçmeli)

(A) Hollanda İstatistik Bürosu

about:blank 142/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(B) IBM Slamtracker

(C) California Long Beach

(D) Asya Sağlık Bürosu

(E) Apple ResearchKit

Cevap-6 :

Hollanda İstatistik Bürosu

Soru-7 :

 “Hudson Körfezi’ne yerleştirdiği sensörlerle topladığı biyolojik, fiziksel ve kimyasal verileri meteorolojik
verilerle birleştirerek araştırmacı, kamu ve eğitimcilere sunmaktadır. Toplanıp analiz edilen bu verilerle olası
çevre felaketleri ve anlık değişimlerin daha hızlı fark edilmesi sağlanmaktadır.”

Yukarıdaki bilgi dünyadaki hangi büyük veri uygulaması tarafından gerçekleştirilmektedir?

(Çoktan Seçmeli)

(A) Palantir Technologies

(B) Commonbond

(C) Dünya Sağlık Örgütü (WHO)

(D) Beacon Enstitüsü

(E) American Express

Cevap-7 :

Beacon Enstitüsü

Soru-8 :

Aşağıdaki bilgilerden hangisi General Electik (GE) şirketi için doğru bir bilgi değildir?

(Çoktan Seçmeli)

(A) Hastane donanım verilerini toplar.

(B) Elektrik santral verilerini analiz eder.

(C) ABD’deki verimliliği ortalama %1,5 oranında artırmayı hedefler.

(D) Her gün yaklaşık 16.000 paket ve belge dağıtımını sağlar.

(E) Lokomotif verilerini ile verimliliği artırma çalışmaları yapar.

Cevap-8 :

Her gün yaklaşık 16.000 paket ve belge dağıtımını sağlar.

Soru-9 :

about:blank 143/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Büyük verinin kolomotifi olan uygulamaların başında gelen cep ve mobil cihazlara aşağıdakilerden
hangisi örnek olarak verilebilir?

(Çoktan Seçmeli)

(A) Kroger

(B) IBM Slamtracker

(C) Commondbond

(D) Tennessee Valley Authority

(E) ResearchKit

Cevap-9 :

ResearchKit

Soru-10 :

Aşağıdaki bilgilerden hangisi ülkemizde faaliyet gösteren YemekSepeti şirketi için doğru bir bilgi
değildir?

(Çoktan Seçmeli)

(A) Fakat İyi Yedik” projesi ile ödül kazanmıştır.

(B) Büyük verileri istek anında oluşan her siparişle yenilenen statik bir formata dönüşmüştür.

(C) Büyük verisindeki 10 milyar veriyi anahtar kategoriler ile 1.5 milyara indirgemiştir.

(D) Kişinin siparişleri, yeme alışkanlıklarını eğlenceye dönük sorular kullanıcıya video olarak sunulmuştur.

(E) Gerçekleştirdikleri proje sayesinde viral pazarlama ile müşteri odaklı pazarlama faydası elde etmişlerdir.

Cevap-10 :

Büyük verileri istek anında oluşan her siparişle yenilenen statik bir formata dönüşmüştür.

about:blank 144/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

11. SAĞLIK ALANINDA BÜYÜK VERİ


Birlikte Düşünelim
1.    Büyük sağlık verisinin analiz edilmesi neden önemlidir?

2.    Ülkemizde büyük sağlık verisi örnekleri nelerdir?

3.    Büyük sağlık verilerini işlemenin zorlukları nelerdir?

4.    Büyük sağlık verisinin hukuki ve etik konuları nelerdir?

5.    Sağlıkta veri kaynakları nelerdir?

6.    Büyük verinin sağlıkta kullanım alanları nelerdir?

Başlamadan Önce
Sağlık sektöründe büyük veri için çeşitli kaynaklar arasında hastane kayıtları, hastaların tıbbi kayıtları, tıbbi
muayene sonuçları ve nesnelerin internetinin bir parçası olan cihazlar yer almaktadır.

Sağlık hizmetlerinde büyük veri, heterojenlik, tamamlanmamışlık, zamanlılık ve uzun ömür, mahremiyet ve
sahiplik gibi kendine has özelliklere sahiptir. Bu özellikler, sağlıkla ilgili araştırmaları teşvik etmek için veri
depolama, madencilik ve paylaşım için bir dizi zorluk getirmektedir. Bu zorluklarla başa çıkabilmek için
sağlık hizmetlerinde büyük veriye odaklanan analiz yaklaşımlarının geliştirilmesi ve büyük verinin sağlık
hizmetlerinde kullanılmasına yönelik yasa ve yönetmeliklerin çıkarılması gerekmektedir.

Hasta bakış açısıyla, büyük veri analizinin uygulanması tedaviyi iyileştirebilir ve maliyetleri azaltabilir.
Hastalara ek olarak, devlet, hastaneler ve araştırma kurumları da sağlık hizmetlerinde büyük veriden
yararlanabilir. Bilgi toplumunda beklendiği üzere veri depolanması hızlı bir şekilde artmakta ve bu devasa
veri birikimini en etkin bir şekilde kullanarak eldeki mevcut sınırlı finansal ve insan gücü kaynaklarını verimli
değerlendirmenin yolları aranmaktadır. Bunu yaparken gerekli olan analiz için etkinliği ispatlanmış bilimsel
metotların varlığı ve tabii ki değerlendirmeye tabii tutulacak büyük veri depolarının varlığıdır.

Ülkemiz veri depolanması konusunda son yıllarda çok önemli mesafe almıştır. Sağlık Bakanlığı ve Sosyal
Güvenlik Kurumu bünyesinde kurulan sağlık verileri, hem sağlık politikalarına yön verme konusunda hem de
ülkemizin bilimsel gelişimine katkı sunacak şekilde oldukça önemli bir hazinedir.

11.1. Giriş
Günümüzde bilgi ve iletişim teknolojilerindeki gelişmelere paralel olarak üretilen, depolanan ve işlenen veri
miktarı her geçen gün artmaktadır. İnternet bağlantılı akıllı cihazların (cep telefonu, bilgisayar, kamera vb.) ve
internet uygulamalarının (sosyal medya, e-posta vb.) kullanılması ile önemli boyutlarda veri üretilmektedir. Bu
teknolojilerin gelişmesi ile insan vücudundan sürekli veri toplayan akıllı asistanlar ile sağlık alanında veri
miktarı da hızla artmaktadır. Yüksek boyutlarda üretilen bu verilerin klasik yöntemlerle depolanamaması ve
anlamlı hale getirilememesi durumu “büyük sağlık verisi” kavramını ortaya çıkarmıştır. Verinin değerinin her
geçen gün daha fazla anlaşılması, her alanda üretilen verilerin depolanmasına ve analiz edilmesine yönelik
çabalarında artmasına neden olmaktadır.

Büyük sağlık veri analizinin temelleri, geleneksel istatistik ve yapay zeka yöntemlerine dayanır. Bu yöntemler
çok büyük ve çeşitli veri setlerini yüksek hızla analiz edebilen algoritmalar içermektedir. Veri setlerinin
çeşitlerine ve veriden elde edilmek istenen bilginin türüne göre seçilen algoritma, veri setine uygulanmakta,
böylece verinin içinde saklı olan desenler, değişkenler arasındaki ilişki ve korelasyonlar, geleceğe yönelik
tahminler elde edilmek için kullanılır.

about:blank 145/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Verinin depolanması, işlenmesi gibi süreçlere dair teknolojik gelişmelerle artan devasa sağlık verisi miktarı,
artık “dijital bir dünya” içinde yaşadığımızı göstermektedir. Üstelik bu dijital dünyanın boyutlarındaki büyüme,
büyük bir hızla gerçekleşmektedir. Bir araştırma şirketine göre 2020’de dijital dünyamızın boyutu, 2009 yılına
göre 44 kat daha büyük olacaktır. Sağlık sistemi politikalarının ve yönetsel kararlarının temeli veri ve veriden
elde edilmiş bilgidir. Sağlık politika ve kararlarının amaçlara uygun ve etkin olabilmesi güvenilir, güncel ve
doğru veriye bağlıdır. Sağlık bilgi sistemlerinin amacı büyük miktardaki sağlık verilerinden faydalı bilgi
üretmektir.

Sağlık hizmetlerinde büyük veri ve büyük veri analitiğinin faydaları:

§ Tıbbi hataların azaltılması,

§ Kitle hastalıklarının önlenmesi, önleyici bakım,

§ Hastalıkların yayılmasını modellemek,

§ Hastalıkları erken aşamada tespit etmek,

§ Daha doğru tedavi,

§ Gerçek zamanlı uyarı,

§ Hasta kişiselleştirme bakımı,

§ Tedavi maliyetini tahmin etmek,

§ Tedavinin risklerini tahmin etmek,

§ Yüksek riskli hastaları belirleme ve yardım etme,

§ İntihar ve kendine zarar vermeyi önleme,

§ Yeni terapi ve ilaç keşfi,

§ Gereksiz acil servis ziyaretlerinin önlenmesi,

§ İyileştirilmiş personel yönetimi,

§ Kolaylaştırılmış hastane operasyonları,

§ Daha iyi müşteri hizmeti,

§ Maliyet azaltma.

Sağlık verileri hastaneler, diğer sağlık kurumları, sigorta şirketleri ve ilgili kamu kurumları başta olmak üzere
birçok kuruluş tarafından toplanmaktadır.

11.2. Sağlık Hizmetlerinde Büyük Veri


Sağlık hizmetlerinde üretilen muazzam miktarlardaki verinin başarıyla entegrasyonu, sağlık sisteminde yer
alan hastalar başta olmak üzere tüm paydaşlar için büyük gelişmeler sağlayabilir (Herland, 2014). Ancak
sağlıkla ilgili verilerin devasa miktarlara ulaşması geleneksel veri işleme yöntemleri tarafından işlenmesini
zorlaştırmış (Olaronke ve Oluwaseun, 2016) ve Büyük veri kavramının sağlık hizmetlerine girmesine neden
olmuştur. Sağlıkta büyük veriler, sağlık ve sağlık sistemi performansını artırmak amacıyla elektronik olarak
yakalanan ve saklanan, rutin veya otomatik olarak toplanan büyük veri kümelerini ifade eder.

Büyük veri çok amaçlı veri anlamında yeniden kullanılabilir ve var olan veri tabanlarının birleştirilmesi ve
bağlantısını içerir (Habl, 2016). Büyük Sağlık Verileri, gözlemlenebilir bir olgu hakkında uygulanabilir bilginin
çıkarılması sürecini kolaylaştıran büyük boyutlarının ötesinde ve bazı benzersiz özelliklere sahip karmaşık veri
kümelerini ifade eder (Dinov, 2016). Tipik olarak, Büyük Sağlık Verileri arasında, farklı kaynaklardan türetilen
about:blank 146/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

heterojen, çoklu-spektral, eksik ve kesin olmayan gözlemlere (örn. demografik verilerin yanı sıra tanı,
tedaviler, hastalıklar, hastalıkların önlenmesi, yaralanma, fiziksel ve zihinsel bozukluklara) dayalı veriler
bulunmaktadır (Dinov, 2016). Büyük Verinin sunduğu imkanlar sayesinde sağlık sektöründe yer alan tıbbi
sigorta ve ilaç endüstrileri, reçete edilen ilaçların özellikleri hakkında bilgi sahibi olabilirler. Günümüzde artan
şekilde hayatımıza giren fitness izleme cihazları, kan basıncı monitörleri ve kilo tartım terazileri gibi IoT
(Internet of Things Nesnelerin İnterneti) cihazları ile hasta tarafından oluşturulan veriler, bir bireyin günlük
yaşam tarzı ve özellikleri hakkında kritik bilgiler vermektedir. Bu verilerin EMR(Elektronik Sağlık Verileri)
verileri, yaşamsal veriler, laboratuar verileri, ilaç bilgileri, semptomların yanı sıra doktor notları, hasta
taburculuk belgeleri, hasta günlükleri, tıbbi yayınlar gibi yapılandırılmış verilerle bir araya getirilerek bağlantı
kurulmasının insanların yaşam biçimlerini iyileştirmek ya da kronik hastalık, ilaç reaksiyonu ve hastaneye
yatma vakalarını azaltmak üzere koçluk programlarını tasarlamak için çok önemli olabilir (Big Data Value
Association, 2016).

Sağlık hizmetlerinde de birçok kaynaktan çok sayıda veri üretilmektedir. Sağlık hizmetlerindeki bu büyük veri
kaynakları şu şekilde gruplandırılmaktadır (Priyanka, 2014):

a. Klinik veriler: Doküman, görüntü, klinik veya reçete edilmemiş notların yanı sıra sağlık verilerinin
yaklaşık % 80’i bu şekilde yapılandırılmamış olan klinik verilerden oluşur.

b. Yayınlar: Klinik araştırma ve tıbbi referans materyallerinden oluşur.

c. Klinik referanslar: Metin tabanlı uygulama rehberleri ve sağlık ürünlerine (ör. İlaç bilgisi) ilişkin verileri
içerir.

d. Genomik veriler: Önemli miktarda yeni gen dizilimi verilerini temsil eder.

e. Akışlı veriler (Streamed data): Evden hasta takibi, tele sağlık, avuç içi ve algılayıcı tabanlı kablosuz veya
akıllı cihazlar gibi yeni veri kaynaklarından gelen veri ve türlerini ifade eder.

f. Web ve sosyal ağ verileri: Tüketici tarafından internetin kullanımı ya da arama motorları ve sosyal paylaşım
sitelerinden gelen yapılandırılmamış verileri kapsar.

g. İşletme, organizasyonel ve harici veriler: Fatura ve randevu sistemi gibi idari veriler ve diğer sağlık dışı
verilerden oluşur.

Sağlık hizmetlerinde büyük veri kaynakları şu şekilde de gruplandırılmaktadır: (Olaronke ve Oluwaseun, 2016;
Ehrenstein vd, 2017)

a. Makine Tarafından Oluşturulan Veriler: Sağlık sisteminde kullanılan makinelerden edinilen verilerdir.
Uzaktan algılayıcılar, giyilebilir cihazlar, akıllı sayaçlar ve sensörler, yaşamsal bulgu cihazlarından elde edilen
verileri içerir.

b. Biyometrik Veriler: Kişilerin parmak izi, genetik, imza, retina taramaları, kalp hızı, kan basıncı, nabız ve
nabız oksimetre okumaları gibi fiziksel özelliklerin yanı sıra röntgen ve diğer tıbbi görüntülerden elde edilen
verilerdir.

c. İnsan Tarafından Üretilen Veriler: Sağlık sisteminde insanlar tarafından oluşturulan verileri içerir. Bu tür
veriler, durum belgeleri, laboratuvar sonuçları, hastane kabul kayıtları, taburcu özetleri ve elektronik postalar
gibi yapılandırılmamış ve yarı yapılandırılmış klinik verileri içerir. İnsan tarafından üretilen veriler,
yapılandırılmış Elektronik Sağlık Kaydı (EHR) verileri de içerir.

d. İşlem Verileri: Sağlık talepleri ve fatura kayıtlarından elde edilen verileri içerir.

e. Davranış Verileri: Sosyal etkileşimlerden üretilen verilerin yanı sıra web siteleri, Twitter ve Facebook gibi
sosyal medya siteleri gibi iletişim araçları aracılığı ile üretilen verileri içerir. Facebook, Twitter ve diğer sosyal
medya platformları, kullanıcıların konumlarını, sağlık davranışlarını, duygularını ve sosyal etkileşimlerini
görüntüleyen zengin bir veri çeşitliliği üretir.

f. Epidemiyolojik Veriler: Bu veriler, istatistiksel verileri, sağlık araştırmaları ve hastalık kayıtlarını içerir.
Epidemiyolojik araştırma bağlamındaki büyük veriler, tek bir ülkedeki veri tabanları veya çokuluslu veri

about:blank 147/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

tabanlarının birbirine bağlanabilmesiyle elde edilen büyük veri setleri anlamına gelir.

g. Yayınlanmış Veriler: Klinik araştırmalar ve tıbbi başvuru materyallerini içerir.

h. Günlük yaşamdan sağlıkla ilişkilendirilebilecek güncel hayata ilişkin veriler: Bireylerin günlük
hayatlarındaki egzersiz düzeylerini gösteren adım sayıları, kilo değişimleri, beslenme şekilleri, tükettikleri
gıdalar, yararlı/zararlı alışkanlıkları vs. bu veriler kapsamındadır.

Sağlık Verimiz Ne Kadar Büyük?

Sağlık Bakanlığı 2003 yılında Türk sağlık sisteminde hizmet sunumundan finansmanına, insan gücünden bilgi
sistemine kadar ilgili birçok alanda köklü değişikliklere gidilmesi amacıyla ‘Sağlıkta Dönüşüm Programını’
uygulamaya koymuştur. Sağlıkta Dönüşüm Programı ile Sağlık Bakanlığı Ulusal Sağlık Bilgi Sistemlerinde
önemli gelişmeler göstermiştir. 2013-2017 Stratejik Planında belirtilen misyonu insan merkezli yaklaşımla
birey ve toplum sağlığını en üst düzeyde korumak, sağlık sorunlarına zamanında, uygun ve etkili çözümleri
sunmak olan Sağlık Bakanlığı bu amaç doğrultusunda teknolojik gelişmeleri yakından takip ederek sağlık
kurumlarında bilgi ve iletişim teknolojileri kullanımının yaygınlaşması ve bilgi toplumuna dönüşümün hız
kazanmasına katkı sağlamaktadır. Sağlık Bakanlığı sağlık hizmet sunumunda koruyucu, tedavi ve rehabilite
edici sağlık hizmetleri sunmaktadır. Bu hizmet sunum süreçleri sonucunda giderek artan ve büyüklüğü ciddi
boyutlara ulaşan sağlık verisi oluşmaktadır.

Örnek vermek gerekirse 2015-2016 yıllarında:

§ 1.103.582.876 muayene gerçekleşti.

§ 23.471.946 ameliyat yapıldı.

§ 2.526.861 doğum yapıldı.

§ 213.844.752 görüntüleme işlemi yapıldı.

§ 1.596.016.703 tanı konuldu.

§ 4.816.878.979 kutu ilaç reçete edildi.

§ 80.567.401 hasta yatarak tedavi oldu.

§ 22.500.344 anjiyo yapıldı.

§ 21.430.663 FTR işlemi yapıldı.

Yukarıda verilen tüm işlemler 82.935 hekim, 8.266 diş hekimi, 101.204 hemşire, 47.997 ebe ve 101.989 sağlık
personeli ile gerçekleştirilmiştir. Bu verilere bakılarak kesintisiz hizmet veren sağlık alanında oluşan verinin
büyüklüğü görülmektedir (Ülgü ve Gökçay, 2017).

Oluşan bu büyük sağlık verisini yönetmek için Sağlık Bakanlığı olarak birtakım altyapı çözümleri
geliştirilmiştir. Öncelikle Sağlık Bakanlığı’nın Şekil 11.1’de görüldüğü üzere İstanbul ve Ankara’da bulunan
veri merkezlerinde toplam 60 adet veri merkezi kabini bulunmakta ve veriler burada depolanmaktadır.
Bunlardan 42 kabin kullanılmakta ve 18 kabin ise boş durumdadır.

about:blank 148/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 11.1. Sağlık Bakanlığı Sistem Altyapısı

Sağlık Bakanlığı’nın büyük veriyi yönetmek için oluşturduğu altyapı çözümlerinden diğeri Sağlık Bilişim Ağı
(SBA), sağlık sektöründe yer alan kurum ve kuruluşların kaynaklarını ve sağlıkla ilgili anonim verileri ortak
kullanabilmeleri ve güvenli yollardan hızlı veri iletişimi yapabilmeleri amacıyla oluşturulan sağlık özel ağıdır.

Dünya çapında sağlık alanında büyük veri kullanılarak yapılan çalışmalar gün geçtikçe artarken Sağlık
Bakanlığı da sağlık verilerinin toplanması, yönetilmesi ve analiz edilmesi ile karar verici ve politika yapıcıların
karar alma süreçlerine fayda sağlayarak sağlık hizmet sunumu kalitesini arttırmayı hedeflemektedir. Ayrıca
büyük veri analizleri ile kişilerin kendi sağlıklarının yönetiminde söz sahibi olmasını sağlayan kişiye özel
sistemler geliştirilerek etkili sağlık hizmeti sunmak da hedefler arasındadır. Bu hedefler doğrultusunda
birtakım uygulamalar geliştirilmiştir (Ülgü ve Gökçay, 2017). Bu uygulamalar şöyledir:

E-Nabız Kişisel Sağlık Sistemi

Teknolojik gelişmelerin bir sonucu olarak büyük verinin sağlık alanına entegre olması ile vatandaşların kendi
sağlıklarını yönetmeleri ve tedavi hizmetlerine erişimlerini kolaylaştırmak için Sağlık Bakanlığı e-Nabız
Kişisel Sağlık Sistemini geliştirmiştir. Sağlık Bakanlığı 2013-2017 Stratejik Planında belirtilen ‘Bireyin kendi
sağlığı ile ilgili kararlara aktif katılımını sağlamak için rolünü güçlendirmek’ hedefi ile doğrudan ilişkili olan e-
Nabız sistemi 4 Nisan 2015 tarihinde lansmanı yapılarak vatandaşların hizmetine açılmıştır. Sağlık kayıtlarının
vatandaşların erişimine açılmasını sağlayan e-Nabız sistemi ile vatandaşların sağlık hizmet sunumuna dahil
olması, sağlık okuryazarlığının artması ve sağlık hizmetlerinde sürdürülebilirliğin sağlanması
amaçlanmaktadır. Bunlara ek olarak toplanan verilerin analiz edilmesi ile karar verici ve politika yapıcılara
hazırlanan Karar Destek Sistemi raporları Bakanlık politikalarının belirlenmesine yardımcı olmaktadır.

 e-Nabız sistemi vatandaşların 01.01.2015 tarihinden itibaren gittikleri sağlık kuruluşlarında toplanan muayene,
tanı ve tedavi verilerinin tamamı ve tüm tetkiklerin detaylı bir şekilde görülebildiği ulusal kişisel sağlık kaydı
uygulamasıdır. E-Nabız sistemi ile vatandaşlar ve sağlık profesyonelleri toplanan sağlık verilerine cep
telefonlarından, tablet ve bilgisayarlarından zamandan ve mekandan bağımsız olarak erişebilmektedir.

 Vatandaşların tahlil sonuçları, reçete ve ilaç bilgileri, verilmiş her türlü rapor bilgileri, acil durum bilgileri,
radyolojik görüntüleri gibi kendilerine ait birçok sağlık verisine ulaşabilmelerini sağlayan e-Nabız sistemi aynı
zamanda giyilebilir teknolojiler ve mobil uygulamaları kullanarak adım, nabız, kalori, tansiyon, şeker gibi
sağlık verilerini sisteme kaydedebilmektedir. Ayrıca vatandaşlar organ bağışı ve kan bağışı bildirimlerinde
bulunabilmekte, 112 acil butonu ile acil durumlarda konumunu ve acil sağlık verilerini paylaşabilmektedir.

Sağlık Bakanlığının, tüm sağlık kuruluşlarının bilgi sistemlerini birbirine entegre ettiği e-Nabız sistemi sağlık
verilerini çevrimiçi olarak almakta ve anonimleştirerek korumaktadır. Bu veriler kullanılarak hastane, hekim ve
hizmet bazlı değerlendirme yapmak, sağlık politikaları oluşturmak, birinci, ikinci ve üçüncü basamak sağlık
hizmetlerinde kalite ve verimi arttırmak amaçlanmaktadır.

Teletıp/Teleradyoloji Sistemi

about:blank 149/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Sağlık Bakanlığı tarafından geliştirilen radyolojik görüntülerin işlendiği Teletıp sisteminin bir ucu olan
Teleradyoloji sistemi 2015 yılının ilk aylarında birkaç ilde pilot olarak başlamıştır. Daha sonra sistemin tüm
Türkiye’de yaygınlaştırılması amacıyla entegrasyon çalışmaları yapılmıştır. Teleradyoloji sisteminde HBYS ve
PACS sistemlerinde üretilen veriler, radyolojik raporlar ve klinik dokümanlar Sağlık Bakanlığına ait
sunucularda saklanmaktadır. Bu verilerin farklı sağlık tesislerinden erişilebilir olması amaçlanmaktadır. Mayıs
2017 tarihi itibarıyla Teleradyoloji sistemine entegre hastane sayısı 671, sistemi aktif kullanan hekim sayısı
26.109, aktif kullanıcı vatandaş sayısı 1.195.004, tetkik erişim talep sayısı 4.270.329, çekim sayısı 61.597.968,
kayıtlı vatandaş sayısı 37.740.156, rapor sayısı 20.640.841 ve son olarak Teleradyoloji sistemi üzerinden
yazılan rapor sayısı 502’ye ulaşmış durumdadır.

Teleradyoloji sistemi ile (Şekil 11.2) :

§ Hastaların tüm hastanelerdeki görüntü ve belgelerine anında erişilebilmekte ve aynı ekranda


incelenebilmekte,

§ Merkezi radyoloji bilgi sistemi ile sesli ve yazılı radyolojik raporlama yapılabilmekte,

§ Büyük endoskopi videoları hızlı bir şekilde paylaşılabilmekte,

§ Anjiyo videolarına hızlı erişim sağlanmakta,

§ DICOM uyumlu olmayan tüm görüntüleme cihazlarından görüntü alınabilmekte,

§ EKG görüntüleri paylaşılabilmekte,

§ Video konsültasyon ve ekran paylaşımı yapılabilmekte,

§ Sistematik görüntü ve rapor kalite kontrolü yapılabilmekte,

§ Karar Destek Sistemi ile hastanelere ait istatistikler anlık takip edilebilmektedir.

Şekil 11.2. Hasta Dosyası Ekranı

Gerektiğinde yeni sunucuların eklenebileceği dağıtık mimariye sahip ve tüm mobil cihazlarla uyumlu olan
Teleradyoloji sistemi e-Nabız Kişisel Sağlık Sistemi ile de entegre olup hekimler hastaların klinik verilerini ve
tıbbi görüntülerini çevrimiçi olarak birlikte değerlendirebilmekte ve aynı radyolojik görüntüyü birlikte
yorumlayarak rapor hazırlayabilmektedir (Ülgü ve Gökçay, 2017).

11.3. Sağlık Hizmetlerinde Büyük Verinin Kullanım Alanları


a. Klinik Uygulama ve Araştırmada Büyük Veri Kullanımı

about:blank 150/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Teknolojik yenilikler, geleneksel hasta deneyiminin ötesinde yeni bakım yöntemlerini etkinleştirecek yeni veri
analiz yöntemlerini geliştirmektedir (Stanford Medicine, 2017). Bilgisayar sistemleri, bir programı çalıştıran
açıkça programlanmış kuralları kullanarak klinik karar verme desteği sunabilirler. Örneğin bireysel hasta
unsurları, hasta kabul edildiğinde kaydedilir. Ayrıca hemşirelik değerlendirmeleri ve gözlemlerine dayalı
veriler de hemşireler tarafından elektronik sağlık kayıtlarına kaydedilir. Her bir bireysel hasta unsuru,
bilgisayarlı veri tabanına uyarlanabilir. Bilgisayar yazılımıyla da bu verileri inceleyen, işleyen ve ilişkilendiren,
hastaların tedavi, müdahale ve bakımı için özel öneriler sağlayan bir algoritma çalıştırmak üzere bir
programlama yapılabilir (Harper, 2014).

Çünkü günümüz bilgisayar sistemleri, bir hastanın sepsis gelişiminin erken belirtilerini ve semptomlarını
belirlemek ve müdahale ekibini kısa sürede uyarmak için yapılmış kurallara benzer şekilde, “benzer hastaları”
tanımlamak için aynı anda yüzlerce kuralı çalıştırma potansiyeline sahiptir (Harper, 2014).

Büyük Veri, hastalıklar, terapiler ve sonuçların yanı sıra genetik verilerin sistematik olarak toplanması ve
analiziyle en iyi tanı ve tedavilerin seçilmesi, hastaların zarar görmesini önlenmesi ya da etkili terapilerin
geliştirilmesini etkileyici bir biçimde artırma potansiyeline sahiptir (BDV, 2016). Büyük veri kaynağı olarak
kullanılan elektronik sağlık kayıtları (EHR) klinik tıpta potansiyel bir değere sahip çok miktarda veri
sağlayabilir (Salas-Vega, 2015; Pentland, 2013).

Elektronik sağlık kayıtları aracılığı ile standart temelli klinik bilgilere etkin ve sorunsuz erişim, bakım
noktasında bilinçli klinik kararları desteklemek için önemlidir. Büyük veri setleri, bilgiyi sürekli iyileştirme ve
yenilik yapma konusunda bilgi sağlayabilir (Harper, 2014). Bu anlamda Hollanda, Danimarka ve İngiltere de
dahil olmak üzere birçok AB ülkesinin tıbbi konsültasyonları veya tedaviyi takiben hastanın bireysel sağlık
geçmişini güncelleyen bir elektronik sağlık kayıt sistemi (EHR) kurduğu belirtiliyor (Salas-Vega vd., 2015).
EHR kullanımı, klinik karar destek yeteneklerinin kullanımını kolaylaştırır; bunlar genellikle değerlendirme
verileri, tanı / sorun listesi, ilaç listesi ve laboratuar sonuçları gibi yapılandırılmış ve kodlanmış bilgilere
dayandırılır (Harper, 2014). Ayrıca Büyük Veri, sunulan veri çeşitliliği sayesinde birbiri ile ilgisiz duran verileri
bir araya getirerek işletme için bir içgörü yanı sıra bir değer yaratabilme gücüne sahiptir (Atan, 2016).

Büyük veri, kanser tıbbında kullanılabilir. Kanserli hastalar için daha iyi sonuçlar yaratmak için büyük veri
analizi kullanılabilir (Reeder-Hayes, 2017). Kurulan bazı büyük veri araştırma merkezlerinde kanser verileri
toplanıp analiz edilerek kanser tıbbında veri odaklı kişiselleştirilmiş tedavilerin uygulanması söz konusu
olabilmektedir (Salas-Vega, 2015). Örneğin tıbbi veri setlerini toplamak, analiz etmek ve kanser tıbbında veri
odaklı kişiselleştirmeyi teşvik etmek için Oxford Üniversitesi tarafından Büyük Veri Araştırma Enstitüsü ve
Chan Soon-Shiong Oxford Moleküler Tıp Merkezi kuruldu (Salas-Vega, 2015). Ayrıca İngiltere'de İngiltere
Toplum Sağlığı (Public Health England) ve Ulusal Kanser İstihbarat Ağının (National Cancer Intelligence
Network), bakım çalışmalarında devrim yaratmak amacıyla hastalıkların önlenmesi, tedavisi ve tedavi
sonuçlarını iyileştirmek için dünyanın en büyük kanser hastası veri tabanını oluşturmak üzere harekete geçtiği
belirtilmektedir (Gallagher, 2013; Salas-Vega, 2015).

b. Hastalık Sürveyansı ve Toplum Sağlığı Yönetiminde Büyük Veri Kullanımı

“Hastalık sürveyansı, bulaşıcı hastalıkların ilerleme modellerini belirleyebilmek için yayılımlarının takip
edildiği, epidemiyolojik uygulamaların tamamına verilen isimdir.”

Büyük veri araştırma merkezleri ulusal ve küresel halk sağlığı sürveyanslarında kullanılmaktadır (Hay, 2013;
Salas-Vega, 2015). Toplu bireysel verilerle, küresel hastalık eğilimleri gerçek zamanlı olarak izlenebilir (Ji,
2014; Salas-Vega, 2015; Ola ve Sedig, 2014). Örneğin Philips liderliğinde, yaşamsal bulguları periyodik olarak
izleyerek ve sağlık durumunu gerçek zamanlı olarak oluşturarak kardiyovasküler hastalıkların önlenmesi için
akıllı bir sistem geliştirilmiştir (Ji vd., 2014). Vücut alan sensor ağları (body area sensor network- BASN),
insan vücuduna yerleştirilen biyolojik sensörler ile gerçek zamanlı tıbbi veri toplama için kullanılan bir veri
toplayıcı (Sink) tarafından oluşturulan kablosuz bir ağdır. BASN verileri toplayabilir, sınıflandırılmış öğrenme
yapabilir ve verileri gerçek zamanlı olarak analiz edebilir, böylece erken bir tıbbi uyarıda bulunabilir (Ji, 2014).

X73 Mobil sağlık hizmeti sistemi (X73 uHealth system) saniyede bir milyon aralıktaki mesajları işleyebilir. Bu
sistem ile gerçek zamanlı tıbbi veriler alınır ve çeşitli önceden tanımlanmış sağlık parametre eşikleriyle
karşılaştırır. Böylece gerçek zamanlı olarak hastanın sağlık durumu izlenir. Bu sistem, tıbbi parametre
değerlerinden biri anormal bir şekilde sapma gösterir ve sapmaya devam ederse, hastalığın önlenmesi ve
tedavisi için zaman kazandırıcı bir uyarı verir (Ji, 2014). Cep telefonu ve web servis yeteneklerine sahip, mobil
sağlık izleme sistemi ile Büyük Veri analizleri yapılabilir. Mobil sağlık izleme sistemi ile (Zhang, 2015)
about:blank 151/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

§ Solunum ve kalp hızı gibi fizyolojik parametreler, giyilebilir sensörler tarafından ölçülmekte ve kullanıcının,
sağlık durumunu daha kolay gözlemleyebilmesi için grafik arayüzü sunan bir cep telefonuyla
kaydedilmektedir.

§ Doktorlara ve aile bireylerine bir web arayüzü aracılığıyla gerekli verileri sağlar ve yetkili personelin
hastanın durumunu izlemesi ve uzaktan teşhis etmesini sağlar.

§ Beklenmedik olayların zamanında ele alınabilmesi için, bir düşme veya kalp krizi gibi acil bir durum
sırasında gerçek zamanlı alarm ve konumlandırma servislerini destekler.

Büyük veriler, epidemiyolojide (özellikle adli epidemiyoloji) kullanılabilir. Epidemiyolojide


mikroorganizmaların inkübasyon süreleri, iletim oranlarındaki heterojenlik, bulaşıcılık süreleri ve yüksek riskli
grupların varlığı gibi temel özelliklerinin belirlenmesiyle hastalığı kimin kime bulaştırdığının tanımlaması
sağlanır (Kao, 2014).

Aynı zamanda nüfus sağlığı konularındaki araştırmalarda da büyük veriden faydalanıldığı belirtilmektedir
(Nash, 2014; Salas-Vega, 2015). Kurulan merkezlerden elde edilen verilerden sağlanan görsel analiz, gıda
kaynaklı hastalık eğilimleri temelinde uygun müdahale politikalarının seçimine yardımcı olmak için
kullanılmaktadır (Salas-Vega, 2015). İnternetin ortaya çıkardığı çok sayıdaki facebook, twitter, instagram,
tumblr, google ve amazon gibi çevrimiçi iletişim kanalları Büyük Veri için önemli bir kaynaktır. Dolayısıyla bu
kaynaklar; sosyodemografik özellikler, yaşam tarzı davranışları, sosyo-kültürel yapılar, süpermarketlerden
aldıkları ürünler ve tüketici alışkanlıkları gibi konularda toplum sağlığında kullanılabilecek pasif olarak
toplanmış önemli bir veri zenginliği sağlar (Gittelman, 2015). Bireyler ve halk sağlığı araştırmacıları tarafından
bu kanallardan biri olan Facebook’un, yeni sürveyans uygulamaları için kullanıldığı belirtilmektedir
(Gittelman, 2015). Ancak bu verilerin analizinde, bilgisayar tabanlı bilgi araçları gereklidir (Ola ve Sedig,
2014). Bu zengin verilerden toplum sağlığı araştırmalarında çıkarımlar yapmak için Büyük Verinin sunduğu
analiz imkanlarından yararlanılabilir. Çünkü Büyük Veri kullanımı, koruyucu bakım verilmesi gereken veya
yaşam tarzı değişikliklerinden fayda görecek kişileri proaktif olarak belirleyecek bir gelişmiş profil analizi (ör.
tahmini modelleme) yapma ve uygulama imkânı sunar9. Ayrıca yaşlı, obez, hipertansif hastalar gibi değişen
profildeki hasta grubuna sağlık riskleri hakkında bilgi vermek ve davranış değişikliği yaratmak için de bu
tahmini modellemeler kullanılabilir (Salas-Vega, 2015). Büyük Verinin toplum sağlığı alanında kullanım
biçimleri kısaca şöyle özetlenebilir (Raghupathi ve Raghupathi, 2014; Feldman, 2012; Kao, 2014; Mavandadi,
2012)

§ Halk sağlığı sürveyansı ve cevap hızını iyileştirmek için hastalık salgınları ve bulaşların izlenmesi ve hastalık
kalıplarının analiz edilmesi

§ Daha hassas hedeflenmiş, örneğin, yıllık influenza türünün seçilmesi gibi alt türlere odaklanmış aşıların hızla
geliştirilmesi

§ Yeni dijital görüntüleme ve algılama teknolojilerinin maliyet avantajı ve taşınabilirliği sayesinde chip tabanlı
platformlar vasıtasıyla, sınırlı kaynaklara sahip ve uzak bölgelerinde bile büyük miktarda biyomedikal ve
çevresel verilerin geniş kapsamlı üretimine ve kullanımına olanak tanıyacaktır. Bu verilerin zenginliği, çeşitli
hastalıkların ve sağlık koşullarının mekânsal ve zamansal özellikleri gibi farklı olgularını daha iyi anlamak ve
küresel ölçekte tür kalıplarını ilişkilendirmemize, ulusal ve uluslararası sağlık ve çevre politikalarımızı
belirlemek için yeni fırsatlar sağlayacaktır.

§ Özellikle toplum sağlığı için krizleri öngörmek, önlemek, sağlık ihtiyaçlarını belirlemek ve gerekli hizmetin
sunulması amacıyla büyük miktarda veriyi eyleme geçirilebilir bilgilere dönüştürmek mümkün olabilir.

c. Tıp Eğitimi ve Öğretiminde Büyük Veri Kullanımı

Tıp eğitimi ve öğretiminde Büyük Veri iki biçimde değerlendirilmektedir. Birincisi, yakın gelecekte eğitim
müfredatında bir ihtiyaç olacağı öngörüsü ile yer alması gerekliliği diğeri de Büyük Verinin bir araç olarak
eğitim ve öğretimde kullanılmasıdır (Salas-Vega, 2015; Ellaway, 2014; Krumholz, 2014; Thomas ve McSharry,
2015). Tıp, veri bilimini de kapsayan bir bilgi mesleğidir. Ancak klinik araştırmacıların çok azı veri bilimi
konusunda tam olarak eğitilmişlerdir. Dolayısıyla bu konuda klinik araştırmacıların yeteneklerinin
güçlendirilmesi konusuna yatırım yapmaya ihtiyaç vardır. Klinik araştırmacıların, verilerin gizli kalıplarını
bulmasını amaçlayan analizleri, ilişkiler ve kalıpların anlaşılması için grafik analizlerinin kullanımı gibi yeni
terimleri içeren veri bilimi hakkında bilgi sahibi olmaları oldukça önemlidir. Çünkü bir araştırmada verilerin en
about:blank 152/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

iyi nasıl üretileceğini bilmek bazı donanımlara (veri kullanım ve bilişim becerileri) sahip olmayı
gerektirecektir. Dolayısıyla bu konuların tıp müfredatının bir parçası olması gerekeceği düşünülmektedir
(Krumholz, 2014).

d. Kurumsal Öğrenmede Büyük Veri Kullanımı

Kurumların verilerden öğrenmesi, kurumların verileri aranabilir bir forma dönüştürme ve bilgi birikimini
keşfetmek için bilgi işlem gücü kullanma yeteneklerine bağlıdır. (Harper, 2014). Ancak bu gücü kullanmak için
gerçekten kurumun üst yönetiminin bu konuya inanması ve gereken desteği vermesi istenen öğrenmenin
sağlanmasında temel şarttır. Kurumsal öğrenmede önemli bir kaynak olma potansiyeline sahip olan elektronik
sağlık kayıtlarına (EHR) ABD’de dahil olmak üzere çoğu ülke, sahip değildir (Harper, 2014).

e. Araştırma ve Geliştirmede (Ar-Ge) Büyük Veri Kullanımı

Günümüzde verilerin yararlanıldıktan sonra eskiyen ve statik bir özelliğe sahip olduğu görüşü yerine, yenilik
ve değer yaratan bir hammadde/kaynak olarak değerlendirildiği görüşü kabul edilmektedir (Harper, 2014;
Groves, 2013). Hastalığın genetik özelliklerinin belirlenmesi gibi çeşitli sağlık alanlarda yapılan araştırmalar,
Büyük Veri kaynakları (sigorta talepleri, kanser kayıtları ve elektronik sağlık kayıtlarındaki veriler vs.)
kullanılarak yürütülmektedir (Reeder-Hayes, 2017). Büyük Verinin olası sağlık hizmetleri Ar-Ge kullanım
şekilleri şu şekilde özetlenebilir (Raghupathi ve Raghupathi, 2014; Feldman vd, 2012):

§ İlaçlar ve cihazlardaki yıpranmayı azaltmaya ilişkin yapılan araştırmalarda Büyük Veri algoritmaları, daha
hızlı ve daha hedefli bir Ar-Ge sunabilir.

§ Büyük veri ile yapılan istatistiksel araçlar ve algoritmalar ile hastalara daha uyumlu tedavileri sağlamak
üzere kişiselleştirilmiş tedavileri için klinik deneme tasarımı geliştirilebilir. Böylece deneme başarısızlıkları
azalır ve yeni tedavilerin pazarlanmasını hızlandırır.

§ Büyük Veri, ürünler daha piyasaya girmeden yan etkilerini keşfetmek ve takip eden endikasyonları
belirlemek için hasta kayıtları ve klinik araştırmaların analiz edilmesine imkan sağlar.

§ Büyük Veri, doğru zamanda doğru tedavinin doğru hastayla eşleştirilmesiyle ulaşılabilecek kişiselleştirilmiş
tıbba yardımcı olmak için geniş veri kümelerinin analizini yapabilir (Raghupathi ve Raghupathi, 2014;
Feldman, 2012).

f. Kişiselleştirilmiş Tıpta Büyük Veri Kullanımı

Ortaya çıkan mobil ve bilgisayar tabanlı sağlık uygulamaları, hastaların kişisel tedavi deneyimlerini
paylaşmalarına ve fiziksel ve zihinsel sağlıklarını geliştirmelerine yardımcı olmuştur (Salas-Vega vd., 2015).
Büyük Veri ile Geliştirilen program, hastaların bakım ve kişisel sağlıklarının teşviki ve geliştirilmesinde
günlük kalori tüketimi, glikoz seviyesi gibi kişisel sağlık verilerini depolamak, almak ve yönetmek için
benzersiz bir yol sağlar. Böylece kişisel sağlık hizmetinin geliştirilmesini hızlandırır (Kim, 2014). Örneğin,
Stanford Medicine tarafından yapılan araştırmalarda, giyilebilir cihazların, Lyme hastalığı gibi olası
hastalıkların belirtilerini algılamak için biyolojik sensörleri kullanabileceği belirtilmektedir (Stanford
Medicine, 2017). Aktif bir yaşam tarzı geliştirmek amacıyla kişilere özgü zihinsel, fiziksel ve sosyal
sağlıklarına dayalı bir sağlık hizmeti sunmak üzere kişiselleştirilmiş bir platform kullanılabilir. Bu platform,
kullanıcının akıllı telefonundan ve giyilebilir sensörlerinden elde edilen duyusal veriler temel alınarak
kullanıcının faaliyetlerini, duygularını ve sosyal etkileşimini tanır. Bu büyük hacim ve çeşitlilikteki duyusal
verileri depolamak ve işlemek için, büyük veri depolama teknolojisi ve bulut bilgi işlem yeteneği kullanılır.
Gerek insan davranışının anlaşılması gerekse de aktif bir yaşam biçimi ve refahının desteklenmesi için uygun
kişiselleştirilmiş yaşam tarzı kalıplarını önerilmesinde Büyük Verinin yararlı olabileceği belirtiliyor. Çünkü
insan davranışının anlaşılmasıyla aktif bir yaşam biçimi için uygun kişiselleştirilmiş yaşam tarzı kalıplarının
önerilmesi mümkün olabilir (Fahim, 2014).

g. Genomik ve Biyoinformatikte Büyük Veri Kullanımı

Genomik ve biyoinformatik, veri ve sağlık konularının birleşmesinden oluşan ve büyük verinin diğer önemli
kullanım alanlarındandır (Salas-Vega, 2015). Biyoinformatik, biyolojik bilgilerin yaratılması ve saklanması
için veri tabanlarının oluşturulmasıdır (Polat ve Karahan, 2009). Biyoinformatiğin önemli fonksiyonlarından
biri, biyolojik olayların moleküler düzeyde açıklanmasına yardımcı olmasıdır. Dolayısıyla hastalıkların teşhisi
about:blank 153/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

ve hedef ilaçların geliştirilmesinde biyoinformatikten yararlanılmaktadır (Polat ve Karahan, 2009).


Biyoinformatiğin diğer fonksiyonu ise, saklanan biyolojik bilgilerin analizidir (Çadırcı, 2009).
Biyoinformatikteki gelişmelerin ve deneysel genomiğin kombinasyonu, kişilerin gelecekteki sağlık durumları
hakkında tahminde bulunmaya olanak verebilecektir. Biyoinformatik sayesinde hastalıkların önlenmesinde
önemli gelişmeler sağlanabilir. Bugün gelişmiş ülkelerde sağlık için yapılan harcamanın %80’i tedaviye
yöneliktir. Biyoinformatik sayesinde hastalıkların önlenmesinde önemli gelişmeler sağlanacağı
öngörülmektedir (Polat ve Karahan, 2009). Böylece koruyucu hekimlik önem kazanacak, gereksiz masraflar ve
tedavilerden kaçınılabilecektir. İlaca dayalı tedaviler, hasta ve hastalığa karşı özelleştirilebilecek ve en az yan
etkiyle, etkin tıbbi tedavi sağlanacaktır (Polat ve Karahan, 2009).

Genomik; bir organizmadaki tüm DNA genlerinin haritalanması, sıralanması ve analizini içeren yeni bir
disiplindir (Polat ve Karahan, 2009). Bu alanda oluşturulan veri tabanlarının büyük bir kısmını nükleik asitler
oluşturmaktadır11. Milyonlarca nükleotidin depolanması ve organizasyonu için veri tabanlarının oluşturulması,
araştırıcıların bu bilgilere ulaşabilmeleri ve yeni verileri girebilmeleri için zorunlu bir aşamadır (Çadırcı,
2009). Genomiklerin iki temel kullanım şekli vardır. Bunlar; malign tümörlerin ve genomların sıralanmasıdır.
Gerek sıralama gerekse de translasyonel biyoinformatik, veri işleme için büyük miktarda depolama ve analitik
güç gerektiren Büyük Veri uygulamalarını gerektirir (Salas-Vega, 2015).

Yeni nesil gen sıralama teknolojisinin son zamanlarda ortaya çıkması, patojen genomdaki izlenebilir
farklılıkların tanımlanmasına olanak tanır (Kao, 2014). Normal ve/veya hasta kişilerin gen fonksiyonlarının
tam olarak nasıl işlev gördüğünün anlaşılması, hastalıkların algılanmasında, teşhis ve tedavisinde ilerlemelere
yol açabilir (Polat ve Karahan, 2009). Örneğin insan genom projesindeki büyük başarı, bireysel genetik
taramaların çok düşük bir maliyet ile gerçekleştirilmesine olanak sağlamıştır (Polat ve Karahan, 2009).
Özellikle bulut bilgi işlem ve depolama teknikleri de dahil olmak üzere, altyapı ve büyük veri araçları genetik
ve ilişkili bilim dallarında kullanılıyor. AB'de bunun bir örneği “Helix Nebula Projesi”dir (Salas-Vega, 2015).

11.4. Sağlıkta Büyük Verinin Zorlukları


Büyük verilerin evrimi, sağlık verilerinin katlanarak büyümesi nedeniyle çeşitli zorluklar, kısıtlamalar ve
sorunlar ortaya çıkarmaktadır. Büyük veri sürekli değişiyor ve bu veri değişikliği, büyük miktarda veriyi
depolamak, analiz etmek ve almak için birçok zorluğu beraberinde getiriyor. Sağlık hizmetlerinde karşılaşılan
ana zorluklar ise Verilerin kalitesi ve depolanması kaliteli veri analizi veri analitiğinde uzmanlık, veri güvenliği
ve gizliliği çoklu veri kaynakları karşılaşılan sağlık hizmetleri büyük veri zorluklarından bazılarıdır. Gerçek
zamanlı büyük veri analitiği, sağlık hizmetlerinde önemli bir gereksinimdir. Veri toplama ve işleme arasındaki
gecikme ele alınmalıdır. Çok sayıda analitik algoritmasının, modelinin ve yönteminin aşağı açılır bir menü
türünde dinamik olarak kullanılabilirliği, büyük ölçekli benimseme için de gereklidir. Mülkiyet, yönetişim ve
standartlar gibi önemli yönetsel konular dikkate alınmalıdır.

Genellikle sağlık kuruluşlarında meydana gelen büyük veri sorunları dört ana kategoride ele alınmaktadır (BK
Sarkar, 2017).

 1. Veri Yönetimi: Veri yönetimi ve düzenlemesi, verilerin yönetişimidir. Sağlık sektörü veri analitiğine doğru
ilerlerken, veri yönetişimi büyük bir zorluk haline geliyor. Üretilen sağlık hizmeti verileri, doğası gereği
çeşitlendirilmiştir ve standardizasyon ve yönetişim gerektirir.

2. Ekonomik Zorluklar: Klinik ziyaretler boyunca hastalar ve sağlık profesyonelleri arasındaki tıp alanındaki
tesisler, ücretli hizmete bağlıdır. Daha sonra, bu süreçle ilişkili teknolojilerdeki ilerleme, tıp camiasına bir yük
getirmekte ve personel için bu tür ücretsiz hizmetlere karşı gereksiz bir etki yaratmaktadır. 

3. Büyük Veri Teknolojisinin Zorlukları: Sağlık hizmetlerinde büyük veri çok büyük ve çok parçalıdır, bu da
bilgi kalitesinde sorunlara neden olur ve ayrıca teknoloji açısından büyük veri, sağlık hizmeti vizyonunu
gerçekleştirmek için bir engel oluşturur. 

4. Güvenlik ve Gizlilik Sorunları: Büyük veri çağında, bireysel sağlık paydaşları hakkında potansiyel olarak
hassas bilgiler nedeniyle sağlık verilerinin gizliliği ciddi şekilde düşünülmelidir. Sağlık hizmetleri verileri,
kamuya açık hale getirilmemesi için yetkisiz erişime karşı güvence altına alınması gereken son derece hassas
verilerdir ve ayrıca sağlık hizmeti sahtekarlığı da saldırganlardan önlenebilir. Bu nedenle, veri güvenliği sağlık
alanındaki en önemli zorlu görevlerden biridir.

about:blank 154/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

11.5. Sağlıkta Büyük Verinin Etik Boyutu


Büyük veri analizleri, sağlık alanında bir başka büyük soruna çözüm sunma potansiyeline de sahiptir. Sağlık
hizmetlerinde tıbbi müdahalelerde hata yapma (malpraktis), çıktıları açısından önemli bir yer teşkil etmektedir.
Sağlık kayıtlarının bütüncül bir yaklaşımla toplanması, analiz edilmesi ve olası ilaç yan etkileri ile alerjik
reaksiyonların tüm hastalar için henüz ortaya çıkmadan öngörülmesi ve bunlara müdahale edilmesi, yanı sıra
hekimler ve branşlar arasındaki iletişim kopmalarına dijital ortamda çözümler sunulması gibi işlemlerse büyük
veri analizlerinin tıbbi hatalara karşı sunduğu birtakım yeniliklerdir.

Büyük verinin sağlık alanında kullanılmasıyla ortaya çıkan etik açıdan anlamlı olan sorun alanlarından belki de
en önemlisi kişinin sağlığıyla ilgili verilerinin dijital ortama aktarılmasından sonra bunların korunması ve
kişinin tasarrufu ve rızası dahilinde kullanılmasıdır. Bu durum sağlık hizmetlerinden istifade eden herkes için
geçerli olduğuna göre büyük veri kullanımı ile ilgili yeterli bilgi düzeyi ve hassasiyette olmayan insanlar için
ciddi bir sorun teşkil etmektedir. Dolayısıyla bu alanda ilk karşımıza çıkan problem her yetişkin insanın bu
konuda gerektiği kadar ve doğru bir şekilde bilgilendirilmesidir. Büyük verinin sağlık alanında yaygın olarak
kullanılmasında diğer bir sorun bu verilerin ve bilgilerin hasta veya kişi mahremiyeti bağlamında
korunmasıdır.

Bilindiği gibi sağlık hizmetleri sırasında hekimin hastası ile olan ilişkisi özel olma durumundadır ve
dolayısıyla hem hukuki olarak hem de etik açıdan hekim sır saklama mükellefiyetindedir. Ancak büyük veri
geniş alanlarda kullanıldığında bu mükellefiyetin gerçekleştirilmesi zorlaşmaktadır. Bu konudaki klasik
problemlerden birisi kişinin sağlıkla ilgili bilgilerine başkaları tarafından ulaşılarak kişinin aleyhinde birtakım
sonuçları doğurmasıdır (Uçar ve İlkılıç, 2019).

Bölüm Özeti
Sonuç olarak sağlık alanında oluşan verinin büyüklüğüne bakıldığında sağlık hizmet sunumunda kalite, hız ve
verimliliği arttırmak için bu veriyi yönetmenin ve analiz etmenin gerekliliği açıkça görülmektedir. Sağlık
Bakanlığı da bu amaçla veriyi sistem altyapısında bulunan veri merkezlerinde depolamakta ve Sağlık Bilişim
Ağı ile tüm sağlık kurum ve kuruluşlarını aynı ağ üzerinden birbirine bağlayarak verilerin ortak
kullanılabilmesini sağlamaktadır. Ayrıca Bakanlık olarak sağlık alanında oluşan büyük verinin yönetilmesi ve
analizi ile etkili sağlık hizmet sunmak ve gerçek zamanlı karar desteği sağlamak amacıyla Sağlık Yönetim
Sistemi, e-Nabız Kişisel Sağlık Sistemi ve Teletıp/Teleradyoloji Sistemi gibi entegratif sistemler
geliştirilmiştir. Bu doğrultuda hızla gelişen teknolojik çağa ayak uydurularak yeni sistemler ve projeler
geliştirilmeye devam edilecektir. Böylece vatandaşa etkin ve kaliteli sağlık hizmeti sunmak için karar verici ve
politika yapıcılara strateji ve politika geliştirme noktasında destek sağlanacaktır.

Bu bölümde esas olarak tıbbi Büyük Veri ile ilgili kavramları, arka planı ve ana uygulamaları tanıtmaktadır ve
tıbbi Büyük Veri ile ilgili Sağlık Bakanlığı’nın yaptığı çalışmalar, zorlukları, uygulama alanları ve etik
boyutunu tanıtmaktadır. Ek olarak, büyük tıbbi verilerin çalışmasındaki fırsatları aşağıda özetliyoruz.

Sağlıkta büyük verilerin kullanımının sunduğu fırsatlar ülkeleri, bunun önemini farkına varmaya ve sağlık
bilgilerinin depolanabileceği çok geniş kapsamlı veri merkezleri kurmaya yöneltmektedir. Bu anlamda
ülkemizde de sağlık sisteminin performansını artırmak amacıyla büyük hacimlerdeki sağlık veri setlerini
toplamak ve analiz etmek üzere Büyük Veri Araştırma Enstitülerinin kurulması önerilebilir. Kurulan bu
Enstitülerde analitik maliyetini azaltmak, etkili Klinik Karar Destek (CDS) sistemleri geliştirmek, daha iyi
tedavi stratejileri için platformlar sağlamak ve büyük verilerle ilişkili dolandırıcılığı tespit etmek ve önlemek
konusunda çalışmalar yapılabilir. Ayrıca sağlık hizmetlerinde büyük verinin bir araç veya bir proje yerine
ulusal bir strateji olarak ele alınması önerilmektedir.

Kaynakça
[1] Atan S. (2016). “Veri, Büyük Veri ve İşletmecilik”. Balıkesir Üniversitesi Sosyal Bilimler Enstitüsü
Dergisi, (35), 137-153.

[2] Ward JS and Barker A. (2013). Undefined By Data: A Survey of Big Data Definitions. arXiv:1309.5821v1
[cs.DB] 20 Sep 2013. https://arxiv.org/pdf/1309.5821.pdf
about:blank 155/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

[3] De Mauro A, Marco Greco, M, Grimaldi M. (2015). What is Big Data? A Consensual Definition and a
Review of Key Research Topics. International Conference on Integrated Information (ICININFO 2014) AIP
Conf. Proc. 1644, 97-104 (2015); doi: 10.1063/1.4907823

[4] Salas-Vega S, Haimann A, and Mossialos E. (2015). Big Data and Health Care: Challenges and
Opportunities for Coordinated Policy Development in the EU. Health Systems & Reform, 1(4):285–300.

[5] Yengi Y. (2016). “Büyük Veride Duygu Analizine Dayalı Öneri Sistemleri”. Kocaeli Üniversitesi, Fen
Bilimleri Enstitüsü, Bilgisayar Mühendisliği Anabilim Dalı Yüksek Lisans Tezi. Kocaeli.

[6] Reeder-Hayes KE, Troester MA, Meyer AM.(2017). Reducing Racial Disparities in Breast Cancer Care:
The Role of 'Big Data' . Oncology Journal, 31(10).

[7] Bayrakçı S. (2015). “Sosyal Bilimlerdeki Akademik Çalışmalarda Büyük Veri Kullanımı”. Marmara
Üniversitesi Sosyal Bilimler Enstitüsü, Gazetecilik Anabilim Dalı, Bilişim Bilim Dalı Yüksek Lisans Tezi.
İstanbul.

[8] Herland M, Khoshgoftaar TM and Wald R(2014). “A review of data mining using big data in health
informatics”. Journal Of Big Data.1(2).

[9] Olaranke I and Oluwaseun O. (2016). Big Data in Healthcare: Prospects, Challenges and Resolutions. FTC
2016 - Future Technologies Conference 2016 . 6-7 December 2016 . San Francisco, United States.

[10] Habl C, Renner AT, Bobek J, Laschkolnig Anja (2016). Study on Big Data in Public Health, Telemedine
and Healthcare Final Report (December 2016).

[11] Dinov Ivo D. (2016). “Volume and Value of Big Healthcare Data”. J Med Stat Inform. 2016; 4: .
doi:10.7243/2053-7662-4-3.

[12] Big Data Value Association BDV (2016). Big Data Technologies in Healthcare Needs, opportunities and
challenges. Available at (Son Erişim: 22 Kasım 2016)

http://www.bdva.eu/sites/default/files/Big%20Data%20Technologies%20in%20Healthcare.pdf

[13] Ülgü MM, Gökçay O(2017). “Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar”içinde (267-
282.ss.), Grafiker Yayınevi.

[14] Stanford Medicine (2017). Health Trends Report: Harnessing the Power of Data in Health, July 2017.
Available at (Erişim Tarihi 22 Kasım 2021):

https://med.stanford.edu/content/dam/sm/smnews/documents/kimordMedicineHealthTrendsWhitePaper2017.pdf

[15] Harper E. (2014). Can big data transform electronic health records into learning health systems? In:
Nursing Informatics 2014, Saranto K, Weaver CA, Chang P, eds. Amsterdam, The Netherlands: IOS Press;
2014.

[16] Gallagher J. Public Health England to launch largest cancer database [internet]. BBC News. 2013.
Available at (Erişim Tarihi: 22 Ekim 2021):

http://www.bbc. co.uk/news/health-22870352

[17] Hay SI, George DB, Moyes CL, Brownstein JS (2013). Big Data Opportunities for Global Infectious
Disease Surveillance. PLoS Med 10(4): e1001413.

[18] Ji Z, Ganchev I, O’Droma M, Zhang X, Zhang X. (2014). A cloud based X73 ubiquitous mobile
healthcare system: design and implementation. Sci World J 2014; 2014(2014): 1-14.

[19] Ola O, Sedig K. (2014). The challenge of big data in public health: an opportunity for visual analytics.
Online J Public Health Inform. 5(3): 1–21.

about:blank 156/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

[20] Zhang Y, Liu H, Su X, Jiang P, Dongfei Wei D. (2015). “Remote Mobile Health Monitoring System Based
on Smart Phone and Browser/Server Structure”. Journal of Healthcare Engineering· Vol. 6 · No. 4 · 2015 Page
717–738.

[21] Kao RR, Haydon DT, Lycett SJ, Murcia PR. (2014). Supersize me: how whole-genome sequencing and
big data are transforming epidemiology. Trends Microbiol. 22(5): 282-291.

[22] Nash DB. (2014). Harnessing the power of big data in healthcare. Am Health Drug Benefits. 7(2): 69-70.

[23] Gittelman S, Lange V, Gotway Crawford CA, Okoro CA, Lieb E, Dhingra SS & Trimarchi E. (2015). A
New Source of Data for Public Health Surveillance: Facebook Likes. Journal of Medical Internet Research,
17(4), e98. http://doi.org/10.2196/jmir.39703.

[24] Raghupathi W and Raghupathi V. (2014). Big data analytics in healthcare: promise and potential. Health
Information Science and Systems, 2, 3. http://doi.org/10.1186/2047-2501-2-3

[25] Feldman B, Martin EM, Skotnes T. (2012). Data in Healthcare Hype and Hope. Available at (Erişim
Tarihi: 22 Ekim 2021):

 http://www.kmhealthcare.net/images/hypeandhope.pdf

[26] Mavandadi S, Dimitrov S, Feng S, Yu F, Yu R, Sikora U, Ozcan A. (2012). Crowd sourced BioGames:
managing the big data problem for next generation lab o a chip platforms. Lab Chip. 12(20): 4102–4106

[27] Ellaway RH, Pusic MV, Galbraith RM, Cameron T. (2014). Developing the role of big data and analytics
in health professional education. Med Teach. 36(3): 216-222.

[28] Krumholz HM. (2014). Big data and new knowledge in medicine: the thinking, training, and tools needed
for a learning health system. Health Aff. 33(7): 1163-1170.

[29] Thomas R and McSharry P. (2015). Big Data Revolution: What farmers, doctors and insurance agents
teach us about discovering big data patterns. 1st Edition, Published by John Wiley Sons Inc, United States.

[30] Groves P, Kayyali B, Knott D, Van Kuilen S. (2013). The “big data” revolution in healthcare: Accelerating
Value and İnnovation. Available at (Erişim Tarihi: 22 Ekim 2021):

https://www.ghdonline.org/uploads/Big_Data_Revolution_in_health_care_2013_McKinsey_Report.pdf

[31] Kim JH. (2014). Health avatar: an informatics platform for personal and private big data. Healthc Inform
Res. 20 (1): 1-2.

[32] Fahim M, Idris M, Ali R, Nugent C, Kang B, Huh EN, Lee S. (2014). ATHENA: a personalized platform
to promote an active lifestyle and wellbeing based on physical, mental and social health primitives. Sensors
(Basel). 14(5): 9313-9329.

[33] Polat M, Karahan AG (2009). Multidisipliner yeni bir bilim dalı: biyoinformatik ve tıpta uygulamaları.
S.D.Ü. Tıp Fak. Derg. 16(3)/ 41-50.

[34] Uçar A, İlkiliç İ. “Büyük Verinin Sağlık Hizmetlerinde Kullanımında Epistemolojik ve Etik Sorunlar”.
Sağlık Bilimlerinde İleri Araştırmalar Dergisi 2/2 (06 Eylül 2019), 80- 92.
https://doi.org/10.26650/JARHS2019-616389

[35] Sarkar BK. “Güvenli sağlık sistemi için büyük veri: kavramsal bir tasarım,” Karmaşık ve Akıllı Sistemler,
cilt. 3, hayır. 2, s. 133–151, 2017.

Ünite Soruları

about:blank 157/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Soru-1 :

Aşağıdakilerden hangisi sağlık hizmetlerinde büyük veri analitiğinin faydalarından biri değildir?

(Çoktan Seçmeli)

(A) Kitle hastalıklarının önlenmesi, önleyici bakım.

(B) Hastalıkların yayılmasını önlemek

(C) Hastalıkları erken aşamada tespit etmek

(D) Tıbbi hataların azaltılması

(E) Hasta kişiselleştirme bakımı

Cevap-1 :

Hastalıkların yayılmasını önlemek

Soru-2 :

Aşağıdakilerden hangisi sağlık hizmetlerinde büyük veri analitiğinin faydalarından biridir?

(Çoktan Seçmeli)

(A) Gerekli acil servis ziyaretlerinin önlenmesi.

(B) Personel yönetiminin ortadan kaldırılması

(C) Maliyeti artırma

(D) Tedavinin risklerini ortadan kaldırma

(E) Kolaylaştırılmış hastane operasyonları

Cevap-2 :

Kolaylaştırılmış hastane operasyonları

Soru-3 :

Aşağıdakilerden hangisi sağlıkta büyük veriyi en doğru şekilde ifade eder?

(Çoktan Seçmeli)

(A) Sağlık sistemini modellemeyi ifade eder.

(B) Sağlıkta personel performansını iyileştirmek amacıyla hastalardan toplanan verileri ve veri kümelerini
ifade eder.

(C) Sağlık ve sağlık sistemi performansını artırmak amacıyla elektronik olarak yakalanan ve saklanan, rutin
veya otomatik olarak toplanan büyük veri kümelerini ifade eder

(D) Sağlıkta hasta hizmetlerini modellemeyi ve iyileştirmeyi ifade eder.

(E) Sağlık sektöründe yer alan tıbbi sigorta ve ilaç endüstrisi ile reçete sistemini modellemeyi ifade eder.
about:blank 158/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Cevap-3 :

Sağlık ve sağlık sistemi performansını artırmak amacıyla elektronik olarak yakalanan ve saklanan, rutin veya
otomatik olarak toplanan büyük veri kümelerini ifade eder

Soru-4 :

Aşağıdakilerden hangisi sağlıkta büyük veri kaynağı değildir?

(Çoktan Seçmeli)

(A) Klinik veriler

(B) Genomik veriler

(C) Akışlı (tele-sağlık) veriler

(D) Hastaların sosyal ve ekonomik verileri

(E) İşletme, organizasyon ve harici veriler

Cevap-4 :

Hastaların sosyal ve ekonomik verileri

Soru-5 :

Aşağıdakilerden hangisi sağlıkta büyük veri kaynakları için oluşturulan gruplardan biri değildir?

(Çoktan Seçmeli)

(A) Günlük yaşamdan sosyal veriler

(B) Biyometrik veriler

(C) Epidemiyolojik veriler

(D) Davranış verileri

(E) İnsan tarafından oluşturulan veriler

Cevap-5 :

Günlük yaşamdan sosyal veriler

Soru-6 :

“……………..istatistiksel verileri, sağlık araştırmaları ve hastalık kayıtlarını içerir. Bu bağlamındaki büyük


veriler, tek bir ülkedeki veri tabanları veya çok uluslu veri tabanlarının birbirine bağlanabilmesiyle elde edilen
büyük veri setleri anlamına gelir.”

Yukarıda boş bırakılan yere aşağıdakilerden hangisi gelmelidir?

(Çoktan Seçmeli)

(A) İşlem verileri

about:blank 159/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(B) Biyometrik veriler

(C) Epidemiyolojik veriler

(D) Yayınlanmış verileri

(E) Makine tarafından oluşturulan veriler

Cevap-6 :

Epidemiyolojik veriler

Soru-7 :

Aşağıdakilerden hangisi Sağlık Bakanlığı’nın büyük veriyi yönetmek için oluşturduğu altyapı
çözümlerine verilen isimdir?

(Çoktan Seçmeli)

(A) Sağlıkta Sosyal Ağlar (SSA)

(B) Sağlıkta Dönüşüm Ağı (SDA)

(C) Sağlık Teknolojileri Ağı (STA)

(D) Sağlık Hizmetleri Ağı (SHA)

(E) Sağlık Bilişim Ağı (SBA)

Cevap-7 :

Sağlık Bilişim Ağı (SBA)

Soru-8 :

Aşağıdakilerden hangisi e-Nabız Kişisel Sağlık Sistemi için doğru bir ifade değildir?

(Çoktan Seçmeli)

(A) Vatandaşların kendi sağlıklarını yönetmeleri ve tedavi hizmetlerine erişimlerini kolaylaştırmak amacıyla
oluşturulmuştur.

(B) Bireyin kendi sağlığı ile ilgili kararlara aktif katılımını sağlamak için rolünü güçlendirmek hedefine
ulaşması amaçlanmıştır.

(C) Toplanan veriler analiz edilerek karar verici ve politika yapıcılara karar destek sistemi raporları belirlemede
yardımcı olması amaçlanmıştır.

(D) Vatandaşların tahlil sonuçlarını, reçete ve ilaç bilgilerinin yanında giyilebilir teknolojiler ile toplanan
bilgilerden de hastaya tanı koyabilecek karar destek sistemi il hastalara hizmet vermektedir.

(E) 2015 yılından itibaren gittikleri sağlık kuruluşlarında toplanan muayene, tanı ve tedavi verilerini
toplamaktadır.

Cevap-8 :

Vatandaşların tahlil sonuçlarını, reçete ve ilaç bilgilerinin yanında giyilebilir teknolojiler ile toplanan
bilgilerden de hastaya tanı koyabilecek karar destek sistemi il hastalara hizmet vermektedir.

about:blank 160/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Soru-9 :

Aşağıdakilerden hangisi Teleradyoloji sistemi için doğru bir ifade değildir?

(Çoktan Seçmeli)

(A) EMG, EEG, ECG gibi biyolojik bütün sinyalleri yapay zeka ile analiz edebilmekte ve paylaşabilmektedir.

(B) Merkezi radyoloji bilgi sistemi ile sesli ve yazılı radyolojik raporlama yapılabilmektedir.

(C) Video konsültasyon ve ekran paylaşımı yapılabilmektedir.

(D) Anjiyo videolarına hızlı erişim sağlanmaktadır.

(E) Sistematik görüntü ve rapor kalite kontrolü yapılabilmektedir.

Cevap-9 :

EMG, EEG, ECG gibi biyolojik bütün sinyalleri yapay zeka ile analiz edebilmekte ve paylaşabilmektedir.

Soru-10 :

Aşağıdakilerden hangisi sağlık alanında kullanılan büyük veri alanlarından biri değildir?

(Çoktan Seçmeli)

(A) Klinik uygulama ve araştırmalarda büyük veri

(B) Hastalık sürveyansı ve toplum sağlığı yönetiminde büyük veri

(C) Kişisel eğitim ve öğrenmede büyük veri

(D) Genomik ve Biyoenformatikte büyük veri

(E) Tıp eğitim ve öğretiminde büyük veri

Cevap-10 :

Kişisel eğitim ve öğrenmede büyük veri

Soru-11 :

Aşağıdakilerden hangisi mobil sağlık hizmeti ile büyük veri çalışmalarının getirilerinden biri değildir?

(Çoktan Seçmeli)

(A) Solunum ve kalp hızı gibi fizyolojik parametreler, giyilebilir sensörler tarafından ölçülmekte ve
kullanıcının, sağlık durumunu daha kolay gözlemleyebilmesi için grafik arayüzü sunan bir cep telefonuyla
kaydedilmektedir.

(B) Doktorlara ve aile bireylerine bir web arayüzü aracılığıyla gerekli verileri sağlar ve yetkili personelin
hastanın durumunu izlemesi ve uzaktan teşhis etmesini sağlar.

(C) Beklenmedik olayların zamanında ele alınabilmesi için, bir düşme veya kalp krizi gibi acil bir durum
sırasında gerçek zamanlı alarm ve konumlandırma servislerini destekler.

about:blank 161/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(D) Miktoorganizmaların 5inkübasyon süreleri, iletim oranlarının heterojenlik, bulaşıcılık süreleri ve yüksek
riskli grupların varlığını belirlemesini ve tanımlanmasını sağlar.

(E) Gerçek zamanlı hastaların izlenmesi, tıbbi parametre değerlerinde anormal saptamaları uyarıcı sistemler ile
gerekli servisleri destekler.

Cevap-11 :

Miktoorganizmaların 5inkübasyon süreleri, iletim oranlarının heterojenlik, bulaşıcılık süreleri ve yüksek riskli
grupların varlığını belirlemesini ve tanımlanmasını sağlar.

Soru-12 :

Aşağıdakilerden hangisi sağlıkta büyük veri ile çalışmanın zorluklarından biri değildir?

(Çoktan Seçmeli)

(A) Veri yönetimi

(B) Hasta yönetimi

(C) Büyük verideki teknolojik zorluklar

(D) Güvenlik ve gizlilik sorunları

(E) Ekonomik zorluklar

Cevap-12 :

Hasta yönetimi

about:blank 162/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

12. BÜYÜK VERİDE HUKUKİ KONULAR


Birlikte Düşünelim
1.    Büyük verinin izinsiz işletilmesinin ne gibi bir olumsuz yönü olabilir?

2.    En büyük veri sızıntılarının başında hangi örnekler gelmektedir?

3.    Büyük verinin kötü kullanımı sonucunda hukuki yaptırımları nelerdir?

4.    Büyük veriyi koruyamamanın getirdiği hukuksal sorumluluklar nelerdir?

5.    Ülkemizde büyük veri hangi yasalarla korunmaktadır?

6.    Büyük verinin ihlallere karşı korunmasında dünyanın ne kadar gerisindeyiz?

Başlamadan Önce
Büyük verinin beraberinde getirdiği sosyal ve ekonomik fayda bütün dünyada gerek özel sektör gerekse kamu
verisinin büyük veri uygulamaları çerçevesinde değerlendirilmesi yaklaşımını ortaya çıkarmaktadır. Bununla
birlikte, büyük veri, ortaya çıkardığı faydanın yanında işlenen verilerin büyük bir kısmının kişisel veriler
olması dolayısıyla veri mahremiyeti kurallarının uygulanması bakımından birtakım zorlukları beraberinde
getirmiştir. Bu durum başta İktisadi İşbirliği ve Kalkınma Teşkilatı (OECD), AB ve ABD gibi politika yapıcı
kurum, kuruluş ve ülkeleri yeni bir düzenleyici tepki ortaya koymaya teşvik etmiş, bu çerçevede kapsamlı
güncelleme çalışmaları hızlıca ortaya konulmuştur. Zira büyük veri çağı henüz başlamasına rağmen bu
teknolojinin veri mahremiyeti bakımından ortaya çıkardığı sorunlara ilişkin çözüm önerilerinin bir an önce
geliştirilmesi önem arz etmektedir.

Veri mahremiyetinin ihlali devletlerin vatandaşlarını koruması açısından güvence altına alınmak zorundadır.
Bu bölümde, büyük verinin, veri mahremiyeti alanında ortaya çıkardığı riskler boyutuyla değerlendirilmesiyle
bu alana ilişkin temel politika ve düzenlemelerde belirlenen yeni ihtiyaçlar irdelenmekte ve bu alanda atılması
gereken adımlar ele alınmaktadır.

12.1. Büyük Verinin Hukuki Boyutuna Giriş


Yargıtay Hukuk Genel Kurulu’nun 17.06.2015 tarih ve E. 2014/ 56, K. 2015/ 1679 sayılı kararında kişisel
verinin sayısal olarak sınırlandırılmasının mümkün olmadığına, bireyin kimliğini ortaya çıkartan, bir kişiyi
belirli kılan ve karakterize eden kişinin kimlik, ekonomik ve dijital bilgileri, tabiiyeti, kanaatleri, ırk, siyasî
düşünce, felsefî inanç, din, mezhep veya diğer inançları, dernek, vakıf ve sendika üyeliği, sağlık bilgileri,
fotoğrafları, parmak izi, sağlık verileri, telefon mesajları, telefon rehberi, sosyal paylaşım sitelerinde yazdığı
veya paylaştığı yazı, fotoğraf, ses veya görüntü kayıtlarının kişisel veriler olarak kabul edilebileceğine
hükmetmektedir [1]. Yargıtay, kişisel veriyi böyle belirledikten sonra kişisel verilerin korunmasını, Avrupa
İnsan Hakları Mahkemesi (AİHM) ile uyumlu biçimde Avrupa İnsan Hakları Sözleşmesi’nin (AİHS) 8.
maddesinde yer alan “Özel ve Aile Hayatına Saygı Hakkı” altında korunan “mahremiyet hakkı”nın bir parçası
olarak bireyin kendisi hakkındaki bilgileri kontrol edebilmesi, bilgilerin kaydedilememesi, rızası olmadan
açıklanamaması ve yayılamaması şeklindeki hukuki çıkarlarını da içerdiğini ifade etmektedir [2]. Dolayısıyla
kişisel veri ihlali doğrudan hak ihlali yaratan bir hukuka aykırılık olarak kendini göstermektedir.

Kişisel veri işlenmesine ilişkin ilkeler, ekonomik sistem içerisinde faaliyet göstermek isteyen herkes için
uygulanacak tüm düzenlemelerin temelini oluşturmakta; kurallar, izinler ve yasaklar bu ilkeler üzerinde
şekillenmektedir. Bu ilkeleri genel olarak [3]:

1. Kişisel verileri dürüst ve hukuka uygun bir şekilde toplama ve işleme;

about:blank 163/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

2. Kişisel verilerin toplanmasının, verinin toplanma amaç(lar)ının gerçekleştirilmesi için gerekli ve yeterli
olduğu miktarla sınırlı tutulması anlamına gelen asgarilik veyahut veri minimizasyonu;

3. Kişisel verilerin önceden belirlenmiş olan ve hukuka uygun amaçlarla toplanması, işlenmesi ve bu amaçlara
aykırı surette işlenmemesi,

4. Belirlenen amaçlar dışında başka bir amaç için kişisel verilerin kullanımının, ancak veri sahibinin rızası veya
yasal bir yetki ile mümkün olması, verilerin kullanımının sınırlandırılması ilkesi;

5. Kişisel verilerin doğru, tam ve işlenme amaçları ile ilgili olması;

6. Kişisel verilerin istenmeyen ya da yetkili olmayan ifşalardan, yok edilmeden veya değiştirilmeden korumak
için gerekli güvenlik önlemleri alınması,

7. Veri sahiplerinin, işlenen verileri hakkında bilgilendirilmesi, bunlara erişimlerinin temini ve düzeltme
hakkına sahip olması şeklinde kendini gösteren bireysel katılım ilkesi ve

8. Veri işleme sorumluluğu olan kişilerin, bu ilkelere riayet etme yönünde sorumluluğu ilkesi olarak sekiz
başlık altında toplamak mümkündür [4,5,6].

Bununla birlikte, bireylerden açıkça rızaları alınmış olsa dahi, meşru yollarla elde edilen verilerin
kaydedilmesi, dönüştürülmesi veya kullanımı esnasında ortaya çıkabilecek sızıntılar, hizmet sağlayıcıların
sebebiyet verdiği güvenlik açıkları ve operatör hatası gibi sebepler veri güvenliği alanında önemli sorunları
beraberinde getirmektedir [7].

Büyük veri, geniş bir yelpazede topluma yeni fırsatlar sunarken, bu fırsatların bazısı veri toplanması
aşamasında öngörülememektedir. Örneğin kırk yıl önce insanlardan kan örnekleri toplandığında kan
örneklerinin potansiyel kullanım alanı olarak DNA testinden bahsedilmemekteydi. Bununla birlikte verinin
istismar edilebildiği de dikkate alınması gereken bir gerçektir. Gecekondu mahallelerinde yaşayan kişilere
kredi verilmemesi/sigorta yapılmaması gibi uygulamalar istismar olayına örnek teşkil etmektedir [8,10].

Bilgi devrimini yaşadığımız son günlerde kişisel verinin toplanması, kullanılması ve analizi kaçınılmazdır.
Fakat bu noktada bireyler, kendileriyle ilgili hangi verinin toplandığını ve üçüncü taraflarla paylaşıldığını tam
olarak bilememektedirler. Gizlilik, şeffaflık ve kimlik bilgileri gibi önem verilen değerlerin korunması
sağlanamazsa büyük veri ile yenilik ve avantaj elde etme uğruna bu değerlerin kaybedilmesi riski doğmaktadır.
Büyük veri çağında gizlilik kavramının, kişisel verinin akışını yönetmek adına daha iyi anlaşılıyor olması
gerekmektedir. Bununla birlikte gizlilik değeri taşıyan verinin, paylaşım esnasında gizli kalıyor olması da ayrı
bir önem taşımaktadır. Ayrıca büyük veri, bireylerin kendilerini güvende hissetmeleri adına şeffaf olmalı ve
kimlik bilgilerini ifşa etmemelidir [9,10].

Bu noktada, özel hayatın ve kişisel verinin gizliliğini garanti altına almak adına gerek uluslararası alanda
gerekse ulusal düzeyde düzenlemeler getirilmiştir. Kişisel verinin korunmasına ilişkin düzenlenen ilk geniş
kapsamlı uluslararası sözleşme, Avrupa Konseyi tarafından 28 Ocak 1981 tarihinde kabul edilen 108 sayılı
“Kişisel Verilerin Otomatik İşleme Tabi Tutulması Karşısında Şahısların Korunmasına Dair Sözleşme”
olmuştur [11].

Ayrıca ülkemizde de Türkiye Cumhuriyeti Anayasasında, özel hayatın gizliliğiyle ilgili “herkes, özel hayatına
ve aile hayatına saygı gösterilmesini isteme hakkına sahiptir. Özel hayatın ve aile hayatının gizliliğine
dokunulamaz” hükmü bulunmaktadır (Türkiye Cumhuriyeti Anayasası, 1982, Madde 20). Söz konusu maddeyi
dayanak alarak hazırlanan 6698 sayılı “Kişisel Verilerin Korunması Kanunu” da kişisel veri, özel nitelikli
kişisel veri ve kişisel verinin işlenmesi kavramlarını tanımlamakta ve kişisel verinin işlenme şartlarını
açıklamaktadır [10].

12.2. Büyük Verinin Kullanımında Olumsuz Örnekler


Dünyanın en büyük sosyal medya şirketi Facebook’un kullanıcı bilgilerinin gizliliğini ihlal etmesiyle platforma
karşı açılan dava bu duruma örnek olarak verilebilir. Facebook, kullanıcılarının kişisel bilgilerini toplayan
üçüncü taraf bir şirketin bu bilgileri siyasi danışmanlık şirketi Cambridge Analytica’ya satmasından en az iki
yıl boyunca haberdar olmak ve gerekli önlemleri almamakla suçlandı. İngiltere merkezli siyasi danışmanlık
about:blank 164/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

şirketine satılan bilgilerin kapsamı, 2013 yılında bir ‘kişilik testi’ görüntüsü altında Facebook’ta yer alan bir
uygulamayı indiren kullanıcıların kişisel bilgilerinin yanı sıra, arkadaş listelerindeki kişilere ait bilgileri de
içeriyordu. Söz konusu uygulamanın Washington’ın bağlı bulunduğu District Columbia bölgesindeki 340.000
kullanıcının kişisel bilgilerine ulaştığı ancak yalnızca 852 kişinin uygulama ile doğrudan etkileşim kurduğu
saptanmıştı [12].

Şekil 12. 1. Facebook ekosistemi.

Cambridge Analytica’nın bu şekilde elde ettiği verilerle kısmen oluşturulan psikografik modelleme
tekniklerinin Trump seçim kampanyası için yürütülen çalışmaların temelini oluşturduğu iddia edilmektedir.
Aynı şekilde Brexit döneminde Birleşik Krallık’ta da benzer bir kampanyanın yürütüldüğü düşünülmektedir.
Bu doğrultuda Birleşik Krallık ve Amerika’da şirketin Facebook kanalıyla seçmenlerin verilerini topladığı
konusunda incelemeler başlatılmıştır. Bu konuda başlatılan soruşturmalar bütün dünyada büyük bir ilgi ile
takip edilmiştir [13].

Aadhar, Hindistanın Benzersiz Kimlik Kurumu (UIDAI) tarafından yönetilen Hisdistan hükümeti kimlik veri
tabanıdır. Aaadhar numarasına sahip olan kullanıcılara tanınan bazı ayrıcalıklar nedeniyle Hindistan nüfusunun
1,1 milyar kadar yüksek bir bölümü kişisel verilerini UIDAI’ye verdi. 2018 yılında Aadhar veritabanında
yaşanan ihlal sonucu kişilere ait doğum tarihinden iris tarama bilgilerine kadar önemli kişisel veriler sızdırıldı.
Bu ihlal 2017 yılın en büyük siber güvenlik sorunu olarak değerlendirildi [14].

Ünlü otel Marriott 30 Eylül’de büyük çapta bir veri ihlali yaşadığını açıkladı. Fakat müşterilerini
etkilenebilecekleri konusunda bilgilendirmeleri 3 ay gibi bir süreyi aldı. Sızdırılan bilgiler müşterilerin
isimlerini, telefon numaralarını, ödeme bilgilerini, posta adreslerini, e-posta adreslerini ve pasaport
numaralarını içeriyordu. Soruşturma sonrası bulunan kanıtlar saldırganların sistemlerine 2014 yılı başlarında
eriştiğini gösteriyordu. Araştırmacılar bulunan dosyaların şifresini çözdükten sonra, müşterilerin kişisel
bilgileri olduklarını kanıtladılar ve tam açıklama yaklaşık üç ay sonra gerçekleşti. Bu, Marriott'un itibarında
önemli bir hasara yol açtı [14].

about:blank 165/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 12. 2. Marriott Hotel.

Büyük veride her yıl çok sayıda veri sızdırılmakla birlikte örneğin LinkedIn firması 2016 yılında 117 milyon
hesabın e-posta ve şifre bilgilerinin sızdırıldı, birçok farklı kuruluş tarafından 2019 yılındaki veri ihlalleri
sonucunda toplam 39,7 milyon kayıt sızdırıldı. Bu sızıntılar içerisinde gizli tutulan ve basına aksettirilmeyen
ihlaller olduğu da unutulmamalıdır. Veri ihlalleri ve sızan veri sayısına ait liste aşağıda verildiği gibidir [14].
Bu listelerde veri miktarından ziyade sızılan verinin etkisi ön planda tutulmaktadır. Bu liste her yıl benzer
şekilde oluşturulmakta ve liste uzayıp gitmektedir.

§ Broome Co., NY, hükümet sistemleri yetkisiz kişilerce erişildi (veri miktarı bilinmiyor).

§ Chicago Üniversitesi'ndeki veritabanı yanlış yapılandırma sonucu kişisel verilerin ihlaline sebep oldu
(1.679.993).

§ Yahudi escort uygulaması JCrush, kullanıcının kişisel verilerini ve özel mesaj kayıtlarını güvensiz
veritabanında tutularak kişisel verilerin ihlaline sebep oldu (200.000).

§ Baltimore Co. Okulları, öğrenciler ve çalışanlar hakkında hassas verileri ortaya koymaktadır (+116.000).

§ Shanghai Jiao Tong Üniversitesi, öğrencilerin e-posta meta verilerini sızdırıyor (veri miktarı bilinmiyor).

§ Evernote eklentisindeki kritik açıklık kullanıcının hassas verilerini tehlikeye atmaktadır (4.6 milyon).

§ Kanadalı şehir gizlilik, ihlali sakinlerine bildirir (2.345).

§ Graceland Üniversitesi veri ihlalini açıkladı (veri miktarı bilinmiyor).

§ Oregon Eyalet Üniversitesi de veri ihlalini açıkladı (636).

§ Dublin Limanı Şirketi bir veri sızıntısı kaynağını araştırıyor (veri miktarı bilinmiyor).

§ Temple Üniversitesinde’ki bir çalışan, öğrenci bilgilerini yanlışlıkla İnternet’e yükledi (160).

§ Şikago merkezli sağlık merkezi şu anda kapalı olan tesiste hasta verilerini bıraktı (veri miktarı bilinmiyor).

§ Hindistan iş portalına ait yanlış yapılandırılmış veritabanı, büyük veri ihlallerine (1.6 milyon) neden
olmuştur.

§ Reklam ajansı, hastaların tıbbi yaralanma iddia kayıtlarına maruz kaldı (150.000).

§ Maryland merkezli iki tıbbi uygulama, kazayla veri ifşa edildikten sonra hastaları haberdar etmiştir (3,380).

§ HIV hastalarının verileri NHS Highland e-posta gaffe'de ihlal edildi (37).
about:blank 166/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

§ Specsavers, Queensland müşterilerinin özel tıbbi bilgilerinin kaybolduğunu söylenmiştir (veri miktarı
bilinmiyor).

§ Theta360, kullanıcı tarafından yüklenen fotoğrafları koruyamamıştır (11 milyon).

§ Creighton Üniversitesi'ndeki BT hatası hasta tıbbi kayıtlarını ulaşılmasına imkân veriyor (veri miktarı
bilinmiyor).

§ Indiana merkezli sağlık kuruluşu, bir çalışanın hasta verilerine yetkisiz erişim sağladığını söyledi (2.200).

§ Tayvan kamu hizmeti sistemi veri ihlalini yaşadığını bildirdi (240.000).

§ Woodbury’deki Merrill Sanat Merkezi veri ihlali yaşadı (veri miktarı bilinmiyor).

Sonuç olarak her yıl aşırı miktarda büyük veri ihlali/sızıntısı olmakla birlikte en büyük birkaç örneği açıklamak
gerekirse [15]:

Yahoo (Ağustos 2013)

İlk ihlalden neredeyse yedi yıl sonra ve ifşa edilen gerçek kayıt sayısının ortaya çıkmasından dört yıl sonra bir
numaralı noktayı güvence altına almak, Yahoo’ya yapılan saldırıdır. Şirket, 2013 yılında gerçekleştiğini
söylediği olayı ilk olarak Aralık 2016’da kamuoyuna duyurdu. O sırada Verizon tarafından satın alınma
sürecindeydi ve bir milyardan fazla müşterisinin bir hack grubu tarafından hesap bilgilerine erişildiğini tahmin
ediyordu. Bir yıldan kısa bir süre sonra Yahoo, ifşa edilen gerçek kullanıcı hesaplarının 3 milyar olduğunu
açıkladı. Yahoo, gözden geçirilmiş tahminin yeni bir güvenlik sorununu temsil etmediğini ve “etkilenen ek
kullanıcı hesaplarının” tümüne e-posta gönderdiğini belirtti [15].

Alibaba (Kasım 2019)

Sekiz aylık bir süre boyunca bir pazarlamacı için çalışan bir geliştirici, oluşturduğu tarayıcı yazılımını
kullanarak Alibaba Çin alışveriş web sitesi Taobao’dan 1.1 milyar adet kullanıcı adları ve cep telefonu
numaraları dahil olmak üzere müşteri verilerini elde etmeyi başardı. Görünüşe göre geliştirici ve işvereni,
bilgileri kendi kullanımları için topluyorlardı ve her ikisi de üç yıl hapis cezasına çarptırılmış olmasına rağmen,
karaborsada satmadı [15].

LinkedIn (Haziran 2021)

Profesyonel iş sosyal ağı devi LinkedIn, Haziran 2021’de bir karanlık web forumunda yayınlanan 700 milyon
kullanıcısı ile ilgili verileri gördü ve kullanıcı tabanının %90’ından fazlasını etkiledi. “Tanrı Kullanıcısı”
lakabını kullanan bir bilgisayar korsanı, yaklaşık 500 milyon müşteriden oluşan ilk bilgi veri setini
boşaltmadan önce sitenin (ve diğerlerinin) API’sini kullanarak veri kazıma tekniklerini kullandı. Ardından, 700
milyon müşteri veri tabanının tamamını sattıklarıyla övünerek devam ettiler. LinkedIn, hiçbir hassas ve özel
kişisel verinin ifşa edilmediğini, olayın bir veri ihlalinden ziyade hizmet şartlarının ihlali olduğunu iddia
etmiştir. God User tarafından yayınlanan bir veri örneğinde e-posta adresleri, telefon numaraları, coğrafi
konum kayıtları gibi bol miktarda veri sağlayacak olan cinsiyetler ve diğer sosyal medya ayrıntıları
bulunmaktadır [15].

Sina Weibo (Mart 2020)

600 milyondan fazla kullanıcısı olan Sina Weibo, Çin’in en büyük sosyal medya platformlarından biridir. Mart
2020’de şirket, bir saldırganın veri tabanının bir kısmını ele geçirerek 538 milyon Weibo kullanıcısını ve
gerçek adlar, site kullanıcı adları, cinsiyet, konum ve telefon numaraları dahil olmak üzere kişisel bilgilerini ele
geçirdiğini duyurdu. Saldırganın daha sonra veritabanını dark web’de 250 dolara sattığı bildiriliyor.

Çin Sanayi ve Bilgi Teknolojileri Bakanlığı (MIIT), Weibo’ya kişisel bilgileri daha iyi korumak ve veri
güvenliği olayları meydana geldiğinde kullanıcıları ve yetkilileri bilgilendirmek için veri güvenliği önlemlerini
geliştirmesini emretti. Sina Weibo yaptığı açıklamada, bir saldırganın, kullanıcıların telefon numaralarını
girerek arkadaşlarının Weibo hesaplarını bulmasına yardımcı olmayı amaçlayan bir hizmet kullanarak herkese
açık olarak yayınlanan bilgileri topladığını ve hiçbir parolanın etkilenmediğini savundu. Ancak, şifreler başka

about:blank 167/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

hesaplarda yeniden kullanılırsa, açığa çıkan verilerin hesapları şifrelerle ilişkilendirmek için kullanılabileceğini
kabul etti. Şirket, güvenlik stratejisini güçlendirdiğini ve ayrıntıları uygun makama bildirdiğini söyledi [15].

12.3. Bilgi Güvenliği


Bilgi toplumundan bu yana veri ekonomik bir değer haline gelmiş ve alınıp satılabilir olmuştur. Bu durum
kişisel verilerin korunması konusunun önemini artırmış, insanların bu hususta daha dikkatli olmalarını zorunlu
kılmış ve bilgi güvenliğinin önemini ortaya koymuştur.

Bilgi güvenliği, yalnızca bilgileri yetkisiz erişimden korumakla ilgili değildir. Bilgi güvenliği temel olarak
bilgiye yetkisiz erişimi, bilginin kullanılmasını, ifşa edilmesini, bozulmasını, değiştirilmesini, denetlenmesini,
kaydedilmesini veya yok edilmesini önleme uygulamasıdır. Bilgi fiziksel veya elektronik olabilir. Bilgi,
kullanıcı bilgileri gibi herhangi bir şey veya sosyal medya profili, cep telefonu verileri, biyometri gibi hassas
bilgiler olabilir. Bu nedenle ‘Bilgi Güvenliği’, kriptografi, mobil bilişim, siber adli tıp, çevrimiçi sosyal medya
vb. gibi pek çok araştırma alanını kapsamaktadır ve yasalarla koruma altına alınmıştır [16].

Bilgi güvenliğinin ana 7 unsuru bulunmaktadır. Bunlar:

Güvenirlilik: Bir sistemden beklentimiz ile sistemin davranışı arasındaki uyumu, yani sistemi
çalıştırdığımızda hatasız ve sıkıntısız olarak çalışıp tutarlılığını koruması şeklinde açıklanabilmektedir.

Bütünlük: Bilginin yetkisi olmayan kişilerce değiştirilmemesidir yani bilgiyi gerektiği şekilde tutmak ve
saklamaktır.

Kimlik Tespiti: Bilgiye erişmek isteyen kullanıcının kimliğinin doğrulanıp tespiti yapılarak sistemde kayıtlı
olup olmadığının doğrulamasıdır.

İnkar Edememe: Bilginin paylaşılması durumunda bilgiyi gönderen kişi ile bilgiyi alan kişinin, bilginin
paylaşılmadığını inkar edememesidir. Veri bütünlüğü ve özgünlüğü inkar edememe unsurunun ön koşullarıdır.
Bu unsurun amacı, oluşabilecek herhangi bir anlaşmazlık durumunda bu durumun ortadan kaldırılmasıdır.

Gizlilik: Bilginin yetkisi olmayan kişilerin eline geçmesinin engellenmesidir yani bilgiye erişim yetkisi
bulunmayan kişilerin erişip, değiştirmesini veya herhangi bir şekilde kullanmasını kısıtlamaktır.

Log (kayıt) Tutma: Sistemde olan tüm kullanıcıların erişimlerinin ve bunları ne zaman yaptıklarının
zamanının kaydedilmesidir. Bu kayıtların herhangi bir arıza durumu, yasal veya hukuki nedenlerden dolayı bir
önlem amacıyla yapıldığı söylenebilmektedir.

Erişilebilirlik: Bilginin yalnızca yetkisi olan kişiler tarafından erişilebilir olması durumudur yani bilgiyi
erişim hakkı olan kişilerin kullanabilmesi olarak yorumlanabilir.

Bilgi güvenliği temel unsurları Confidentiality (gizlilik), Integrity (bütünlük), Availability (kullanılabilirlik).
Bu üç unsur da birbirlerinden ayrılmaz bir bütündür.

Confidentiality (Gizlilik): Bilginin yetkisiz kişilerin eline geçmemesi, geçmesinin engellenmesidir.

Integrity (Bütünlük): Bilginin yetkisiz kişiler tarafından değiştirilmemesidir. Bilgi değiştirilebilir ancak
yetkili olan kişiler tarafından ve ihtiyaca göre değiştirilmesi doğru olur.

Availability (Kullanılabilirlik): Bilginin ilgili ya da yetkili kişilerce ulaşılabilir ve kullanılabilir durumda


olmasıdır. Bütünlük ve erişilebilirlik birbirlerine çok yakın ancak ters kavramlardır.

Bu kapsamda bilgi güvenliği ele alınarak yasalarla ihlaller tespit edilmiş ve büyük veri ile ilgilenen kurum ve
kuruluşlara kanunlar çerçevesinde yasal yükümlülükler getirilmiştir. Bu yükümlülüklerin temel amaçları [17]:

§ Bireysel anlamda kimliğe dair unsurların korunması ve bu vesile ile mahremiyet olgusunun ve kişisel
haklarının güçlendirilmesi,

§ Finansal anlamda sahip olunan verilerin korunması neticesinde, maddi anlamda yaşanabilecek yüksek ölçekli
tehdit, kayıp ve risklerden bireylerin korunması,
about:blank 168/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

§ Tıbbi anlamda sahip olunan verilerin kötüye kullanılmaması ve bireylerin hayatlarının ve sağlık durumlarının
akışını olumsuz yönde etkileyecek şekilde sorunların ortaya çıkmaması,

§ Dijital ortamlarda sahip olunan bilgilerin, elde edilen hakların, gönderilen mesajların, yapılan işlemlerin vb.
faaliyet ve unsurların mahremiyetinin korunması,

§ Kişilik haklarının ve hürriyetlerinin zarar görmesinin engellenmesi,

§ Bireylerin, kötü amaçlı faaliyetleri yürüten taraflara karşı hukuki anlamda ellerinin güçlendirilmesi.

12.4. Kişisel Verileri Koruma Kurumu (KVKK)


Pandemi süreçlerinde gerekliliği fazlasıyla ortaya çıkan büyük verilerde, kişisel verilerin paylaşılmasının hangi
riskleri ortaya çıkarabileceği, kurumlar tarafından kişisel verilerin toplanmasındaki kuralların varlığından
habersizlik veya verilerin hangi amaçlarla kullandığının tam olarak tespit edilememesi önemli bir problemdir.
Bu sorun şüphesiz günümüzün olduğu kadar geleceğimizin de en büyük tartışma konularından biri olacaktır.
Özellikle büyük veriye öncülük eden gelişmiş ve gelişmekte olan ülkelerde gerek yasal gerekse idari
düzenlemeler yapılmasına rağmen konunun ciddiyeti ve önemi anlaşılabilmiş değildir.

Günümüzde gerek devlet kurumları gerekse özel kuruluşlar, her gün binlerce kişiye ilişkin çeşitli bilgilere
ulaşabilmektedir. Elde edilen bilgiler, bilişim teknolojilerinde yaşanan gelişmelerin de etkisiyle, kolaylıkla
işlenebilmekte ve aktarılabilmektedir. Bunun sonucunda da kişisel verilerin korunması ihtiyacı doğmuştur.

Kurumlardaki veri sorumlusu, 6698 sayılı Kişisel Verilerin Korunması Kanununun 12'nci maddesinin (1)
numaralı fıkrasında bulunan;

a.    Kişisel verilerin hukuka aykırı olarak işlenmesini önlemek,

b.    Kişisel verilere hukuka aykırı olarak erişilmesini önlemek,

c.     Kişisel verilerin muhafazasını sağlamak.

amacıyla uygun güvenlik düzeyini temin etmeye yönelik gerekli her türlü teknik ve idari tedbirleri almak
zorundadır.

Şekil 12.3. Kişisel verileri koruma kurumu.

Kişisel Verileri Koruma Kurulu ise KVKK ve diğer mevzuatla verilen görev ve yetkilerini kendi sorumluluğu
altında, bağımsız olarak yerine getirir ve kullanır. Kurulun kişisel verilerin korunmasına ilişkin görev ve
yetkileri aşağıdaki gibidir [18]:

§ Kişisel verilerin, temel hak ve özgürlüklere uygun şekilde işlenmesini sağlamak.

§ Kişisel verilerle ilgili haklarının ihlal edildiğini ileri sürenlerin şikâyetlerini karara bağlamak.

§ Şikâyet üzerine veya ihlal iddiasını öğrenmesi durumunda resen görev alanına giren konularda kişisel
verilerin kanunlara uygun olarak işlenip işlenmediğini incelemek ve gerektiğinde bu konuda geçici önlemler
almak.

about:blank 169/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

§ Özel nitelikli kişisel verilerin işlenmesi için aranan yeterli önlemleri belirlemek.

§ Veri Sorumluları Sicilinin tutulmasını sağlamak.

§ Kurulun görev alanı ile Kurumun işleyişine ilişkin konularda gerekli düzenleyici işlemleri yapmak.

§ Veri güvenliğine ilişkin yükümlülükleri belirlemek amacıyla düzenleyici işlem yapmak.

§ Veri sorumlusunun (kişisel verilerin işleme amaçlarını ve vasıtalarını belirleyen, veri kayıt sisteminin
kurulmasından ve yönetilmesinden sorumlu olan gerçek veya tüzel kişiyi tanımlar) ve temsilcisinin görev,
yetki ve sorumluluklarına ilişkin düzenleyici işlem yapmak.

Kişisel Verileri Koruma Kurulu ise KVKK ayrıca teknik önlemler olarak aşağıdaki maddeleri belirlemiş ve
büyük veride yapılan ihlallerin azaltılması amaçlanmıştır [19]:

§ Yetkilendirme matrisi oluşturulmalıdır.

§ Yetki kontrolü yapılmalıdır.

§ Erişim loğları tutulmalıdır.

§ Kullanıcı hesapları yönetilmelidir.

§ Ağ ortamının güvenliği sağlanmalıdır.

§ Uygulamaların güvenliği sağlanmalıdır

§ Veriler şifreleme yöntemleri ile şifrelenmelidir.

§ Sızma testleri yapılarak kurum güvenliği test edilmelidir.

§ Saldırı tespit ve önleme sistemleri oluşturulmalıdır.

§ Log kayıtları incelenmeli ve yedeklenmelidir.

§ Veri maskelemeleri yapılmalıdır.

§ Veri kaybı önleme yazılımları kullanılmalıdır.

§ Yedekleme sistemleri kullanılmalıdır.

§ Güncel anti-virüs sistemleri kullanılmalıdır.

§ Verileri durumlarına göre silme, yok etme veya anonim hale getirme işlemleri yapılmalıdır.

Ülkemizde “kişisel verilerin işlenmesinde başta özel hayatı gizliliği olmak üzere kişilerin temel hak ve
özgürlüklerini korumak ve kişisel verileri işleyen gerçek ve tüzel kişilerin yükümlülükleri ile uyacakları usul
ve esasları” belirleyen ve yöneten yegâne kurum olan Kişisel Verileri Koruma Kurumu idari yapılanmasını
tamamlamış ve etkin bir şekilde çalışmaya başlamıştır.

12.5. Dünyada Kişisel Verileri Koruma Yasaları


ABD: Tüketici Gizlilik Yasası

ABD, General Data Protection Regulation (GPDR)’den aldığı ilham ile yeni kanunlar oluşturmuştur. Yeni
uygulamalardan biri olan 2018 Kaliforniya Tüketici Gizlilik Yasası, Kaliforniya eyaleti vatandaşlarına
GDPR’ye benzerlik gösteren haklar tanıyor. Bu haklara göre kişiler, hangi verilerinin ne amaçla işlendiğine ve
üçüncü bir şirket veya kişiye verilip verilmediğine dair şirketlerden bilgi talep edebiliyor. Elektronik veya
fiziksel olarak oluşturulabilen bu taleplere şirketler bir ay içinde ücretsiz olarak cevap vermek zorunda kalıyor.

about:blank 170/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 12.4. The General Data Protection Regulation (GDPR) [20].

İngiltere: Veri Koruma Yasa Tasarısı

İngiltere Bilgi Komisyonluğu Ofisi başkanlığında veri koruma ve gizliliği ile ilgili kendi düzenlemelerini
oluşturuyor. İngiltere Bilgi Komisyonluğu Ofisi, GDPR ile uyumlu kuralların yürütülmeye devam edilmesi
adına yeni bir Veri Koruma Yasa Tasarı taslağı hazırlamakta olan İngiltere için bu konunun oldukça önemli
olduğunu ve veri korumaya dair sorunların kamuoyunda sıkça ses getirdiğini belirtiyor.

Avustralya: Gizlilik Yasası

Avustralya’daki Gizlilik Yasası, ülkedeki tüm gizlilik düzenlemelerinin birbiriyle tutarlılık göstermesini
sağlayarak eksiksiz bir uyum mekanizması oluşturulmasını hedefliyor. Bu yasalar, ülke içindeki veri akışının
Avustralya sınırları dışına çıkışının azaltılmasını ve kişisel gizlilik hakkını garanti altına alacak kurallar
içeriyor.

Veri denetleyicilerine pek çok sorumluluk yükleyen Avustralya, bu kişilerden kişisel bilgileri tamamen açık ve
şeffaf bir şekilde yönetmesini ve yasaların tüm prensiplerine uyum göstermesini bekliyor. Veri sızıntısı ile ilgili
bildirimler, raporlama kuralları ya da “ciddi hasar” teriminin tanımı kısımlarındaki farkların haricinde
Avustralya, veri korumada GDPR’ye yakın bir yörüngede ilerliyor.

Meksika: Federal Veri Koruma Kanunları

Meksika’nın Özel Taraflarca Yapılan Federal Veri Koruma Yasası, Avrupa’da uygulanan yasalardan neredeyse
hiç ayrılmıyor. Uluslararası Gizlilik Profesyonelleri Birliği’nden Veri Koruma Yasası Başkanı Miguel Recio,
“Avrupa Birliği’nde olduğu gibi Meksika’da da veri koruma alanında dinamik gelişmeler yaşıyor. Bu
gelişmelerde mesuliyet hissi, sağlam ve etkili bir veri yönetimi için anahtar rol oynuyor. Meksika’daki veri
denetleyicileri, teknik ve operasyonel önlemler hakkında AB’dekilerle benzer sorumluluklar alarak veri
gizliliği yasalarına uyumu proaktif bir şekilde gösteriyor.” sözleriyle Meksika’nın veri korumaya yeni bakış
açısını özetliyor.

Kanada: Kişisel Verileri Koruma ve Elektronik Belgeler Yasası

GDPR ile çok alakalı olmayan uygulamaları gündeme getiren ülkeler de bulunuyor. Kanada, oluşturduğu
Kanada Kişisel Veri Koruma ve Elektronik Belge Yasası kapsamında kendi standartlarını yaratıyor. Ayrıca,
temel işleri direkt veri işlemeye dayanan tüm Kanadalı şirketlerin, Kanada kanunları dışında bütün GDPR
kurallarına da uyması bekleniyor.

Bölüm Özeti
Büyük veri olgusunun 21. yüzyılın iletişim teknolojileri açısından en popüler alanlarından biri olduğunu
söylemek mümkündür. Büyük verinin temelini internet ve uzantılı teknolojilerin oluşturduğu görülmektedir.
Teknik ve soyut bir yapısı bulunmasına karşın büyük veriler, nitelikli analizler sayesinde, ekonomiden siyasete,
eğitimden ticarete kadar pek çok alanda işlevsel olarak kullanılabilmektedir.
about:blank 171/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Büyük veri kaynakları, bu geniş yelpazede faaliyet göstermek isteyen kötü amaçlı birey/kurum ve kuruluşlar
için vazgeçilmez bir kaynak haline dönüşmektedir. Dolayısıyla kullanıcılarının bilgilerini paylaşması, özel
yaşamın gizliliği, mahremiyetin korunması, kişisel verilerin güvenliğinin sağlanması, bireylerin onların bilgisi
ve izni olmaksızın veri kaynağı olarak kullanılmaması gibi etik değerleri aşındırmıştır.

Ayrıca devletler vatandaşlarını korumak adına da yasal düzenlemeler gerçekleştirmek zorunda kalmıştır.
Dünyada farklı ülkelerin kişisel verilerin korunması hususunda farklı yasaları ve uygulamaları mevcuttur.
Ülkemizde de bu sorumluluğu KVKK kurumu gerçekleştirmekte ve birçok kurum ve kuruluşa rehberlik ederek
büyük veri mahremiyeti konusunda önerilerde bulunmaktadır.

Kaynakça
[1] Akkurt, S. S. (2016). 17.06.2015 tarih, e. 2014/4-56, k. 2015/1679 sayılı Yargıtay hukuk genel kurulu kararı
ve mukayeseli hukuk çerçevesinde “Unutulma Hakkı”. Ankara Üniversitesi Hukuk Fakültesi Dergisi, 65(4),
2605-2635.

[2] Öncü, G. A. (2011). Avrupa İnsan Hakları Sözleşmesinde Özel Yaşamın Korunması. İstanbul: Beta
Yayınları.

[3] Ketizmen, M., Kart, A. (2019). Kişisel Veri ve Rekabet Hukuku Kapsamında “Big Data”, Kişisel Verileri
Koruma Dergisi. 1(1), 64-76.

[4] Bygrave, L. A. (1998). Data Protection Pursuant to the Right to Privacy in Human Right Treaties.
International Journal of Law and Infırmation Technology, 6, 247-284.

[5] Ketizmen, M. (2008). Türk Ceza Hukukunda Bilişim Suçları. Ankara: Adalet Yayınevi.

[6] Wacks, R. (1989). Personal Information: Privacy and the Law. Oxford: Clarendon Press.

[7] Chen, M., S. Mao, Y. Zhang, V. C. M. Leung, “Big Data: A Survey”, Mobile Networks and Applications,
April 2014, Vol.: 19, Issue 2, pp. 171-209.

                [8] Charney, S. (2012). Trustworthy Computing Next (Version 1.01). Microsoft Corporation
Trustworthy Computing.

[9] Richards, N. M. ve King, J. H. (2014). Big Data Ethics. Wake Forest Law Review, 49(2), 393-432.

[10] Aktan E. “Big Data: Application Areas, Analytics and Security Dimension”, Bilgi Yönetimi 1: 1 (2018), 1-
22.

[11] Kişisel Verileri Koruma Kurumu. (2018). Kişisel Verilerin Korunması Kanununa İlişkin Uygulama
Rehberi. Ankara: KVKK Yayınları.

[12] Forseti Hukuk Bürosu (Son Erişim Tarihi: 16 Eylül 2021)

URL: https://www.forseti.com.tr/makale/big-data-konfor-mu-tehlike-mi/

[13] Foo Yun Chee, “EU lawmakers to investigate alleged misuse of Facebook users' data”, ed. Alissa de
Carbonel, Reuters, 19 Mart 2018, (Son Erişim Tarihi: 20 Ocak 2022)

URL: https://www.reuters.com/article/us-facebook-cambridge-analytica-eu/eu-lawmakers-to-
investigatealleged-misuse-of-facebook-users-data-idUSKBN1GV1A3

[14] BeyazNet, 2019 Yılında Yaşanan Büyük Veri İhlalleri. (Son Erişim :20.01.2022)

URL:https://www.beyaz.net/tr/guvenlik/makaleler/2019_yilinda_yasanan_buyuk_veri_ihlalleri.html

[15] SocialBuciness Web sitesi. “21. Yüzyılın En Büyük 5 Veri İhlali” (Son Erişim: 20.01.2022)

URL: https://www.socialbusinesstr.com/2021/08/06/21-yuzyilin-en-buyuk-5-veri-ihlali/
about:blank 172/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

[16] BeyazNet, Bilgi Güvenliği. (Son Erişim: 20.01.2022)

URL: https://www.beyaz.net/tr/guvenlik/makaleler/bilgi_guvenligi.html

[17] Uzun S.A. “Türkiye'de Kişisel Verilerin Korunması ve Vatandaş Algısının Ölçülmesi”, Bilişim
Teknolojileri Dergisi, Cilt: 14, Sayı: 3, Temmuz 2021.

[18] İnternet: Kişisel Verilerin Korunması Kanunu. 29677 sayılı ve 07 Nisan 2016 tarihli Resmi Gazete (Son
Erişim :15.02.2020).

URL: https://www.mevzuat.gov.tr/MevzuatMetin/1.5.6698.pdf

[19] BeyazNet, KVKK Kurumunun Tavsiye Ettiği Teknik Önlemler. (Son Erişim: 20.01.2022)

URL:https://www.beyaz.net/tr/guvenlik/makaleler/kvkk_kurumunun_tavsiye_ettigi_teknik_onlemler.html

[20] WebTekno, “Türkiye'de Verilerimizi Koruyan KVKK Nedir, GDPR ile Arasında Ne Fark Var?”, (Son
Erişim: 22.01.2022)

URL: https://www.webtekno.com/kvkk-nedir-gdpr-farklari-h105089.html

Ünite Soruları
Soru-1 :

Aşağıdakilerden hangisi kişinin kimliğini hassas bir şekilde belirleyen bilgilerden biri değildir?

(Çoktan Seçmeli)

(A) Sağlık bilgileri

(B) Parmak izi

(C) Fotoğrafları

(D) Hobi bilgileri

(E) Siyasi düşüncesi

Cevap-1 :

Hobi bilgileri

Soru-2 :

Aşağıdakilerden hangisi kişisel veri işlenmesine ilişkin ilkelerden biri değildir?

(Çoktan Seçmeli)

(A) Veri işleme sorumluluğu olan kişilerin, bu ilkelere riayet etme yönünde sorumluluğunun ortadan
kaldırılması ilkesi

(B) Kişisel verileri dürüst ve hukuka uygun bir şekilde toplama ve işleme ilkesi

about:blank 173/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(C) Kişisel verilerin önceden belirlenmiş olan ve hukuka uygun amaçlarla toplanması, işlenmesi ve bu
amaçlara aykırı surette işlenmemesi ilkesi

(D) Kişisel verilerin istenmeyen ya da yetkili olmayan ifşalardan, yok edilmeden veya değiştirilmeden
korumak için gerekli güvenlik önlemleri alınması ilkesi

(E) Veri sahiplerinin, işlenen verileri hakkında bilgilendirilmesi, bunlara erişimlerinin temini ve düzeltme
hakkına sahip olması şeklinde kendini gösteren bireysel katılım ilkesi

Cevap-2 :

Veri işleme sorumluluğu olan kişilerin, bu ilkelere riayet etme yönünde sorumluluğunun ortadan kaldırılması
ilkesi

Soru-3 :

“Bireylerden açıkça rızaları alınmış olsa dahi, meşru yollarla elde edilen verilerin kaydedilmesi,
dönüştürülmesi veya kullanımı esnasında ortaya çıkabilecek sızıntılar, hizmet sağlayıcıların sebebiyet verdiği
açıklar ve operatör hatası gibi sebepler”

Yukarıda büyük verinin hangi yönü tanımlanmıştır?

(Çoktan Seçmeli)

(A) Veri analizi

(B) Veri toplama ilkeleri

(C) Veri güvenliği

(D) Veri görselleştirme

(E) Veri teknolojileri

Cevap-3 :

Veri güvenliği

Soru-4 :

Aşağıdakilerden hangisi dünyada olumsuz büyük veri örneklerinden biri olan Facebook ile ilgili doğru
bir bilgi değildir?

(Çoktan Seçmeli)

(A) Şirketin bu bilgileri siyasi danışmanlık şirketi Cambridge Analytica’ya satmasından en az iki yıl boyunca
haberdar olmak ve gerekli önlemleri almamakla suçlanmıştır.

(B) 2013 yılında bir ‘kişilik testi’ görüntüsü altında Facebook’ta yer alan bir uygulamayı indiren kullanıcıların
kişisel bilgilerinin çalınmıştır.

(C) Washington’ın bağlı bulunduğu District Columbia bölgesindeki 340.000 kullanıcının kişisel bilgilerine
ulaştığı ancak yalnızca 852 kişinin uygulama ile doğrudan etkileşim kurduğu saptanmıştır.

(D) Fizyolojik modelleme tekniklerinin Obama’nın seçim kampanyası için yürütülen çalışmaların temelini
oluşturduğu iddia edilmektedir.

about:blank 174/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(E) Birleşik Krallık ve Amerika’da şirketin Facebook kanalıyla seçmenlerin verilerini topladığı konusunda
incelemeler başlatılmıştır.

Cevap-4 :

Fizyolojik modelleme tekniklerinin Obama’nın seçim kampanyası için yürütülen çalışmaların temelini
oluşturduğu iddia edilmektedir.

Soru-5 :

Aşağıdakilerden hangisi dünyada olumsuz büyük veri örneklerinden biri değildir?

(Çoktan Seçmeli)

(A) Facebook

(B) Hindistan Kimlik Kurumu - Aadhar

(C) Ünlü Otel Marriott

(D) LinkedIn

(E) Ali Express

Cevap-5 :

Ali Express

Soru-6 :

Aşağıdakilerden hangisi bilgi güvenliğinin kapsadığı alanlardan biri değildir?

(Çoktan Seçmeli)

(A) Kriptoloji

(B) Kamu Hizmeti

(C) Mobil Bilişim

(D) Sibel Adli Tıp

(E) Çevrimiçi Sosyal Medya

Cevap-6 :

Kamu Hizmeti

Soru-7 :

Aşağıdakilerden hangisi bilgi güvenliğinin ana unsurlarından biri değildir?

(Çoktan Seçmeli)

(A) Erişebilirlik

(B) İnkar Etme


about:blank 175/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(C) Kimlik Tespiti

(D) Güvenirlilik

(E) Log Tutma

Cevap-7 :

İnkar Etme

Soru-8 :

Aşağıdaki seçeneklerin hangisinde bilgi güvenliğinin temel unsurları doğru olarak verilmiştir?

(Çoktan Seçmeli)

(A) Gizlilik-Bütünlük-Kullanılabilirlik

(B) Bütünlük-Erişilebilirlik-Güvenirlilik

(C) Sürdürülebilirlik-Erişilebilirlik-Kullanılabilirlik

(D) Güvenirlilik-Gizlilik-Erişilebilirlik

(E) Dinamiklik-Akışkanlık-Sürdürülebilirlik

Cevap-8 :

Gizlilik-Bütünlük-Kullanılabilirlik

Soru-9 :

Aşağıdakilerden hangisi bilgi güvenliği ihlalinden kaynaklı getirilen yasal yükümlülüklerinin temel
amaçlarından biri değildir?

(Çoktan Seçmeli)

(A) Bireysel anlamda kimliğe dair unsurların korunması ve bu vesile ile mahremiyet olgusunun ve kişisel
haklarının güçlendirilmesi

(B) Dijital ortamlarda sahip olunan bilgilerin, elde edilen hakların, gönderilen mesajların, yapılan işlemlerin
vb. faaliyet ve unsurların mahremiyetinin korunması

(C) Sosyal anlamda eldeki verilerin korunması neticesinde, maddi anlamda yaşanabilecek yüksek ölçekli
tehdit, kayıp ve risklerden sigorta şirketlerinin korunması

(D) Kişilik haklarının ve hürriyetlerinin zarar görmesinin engellenmesi

(E) Bireylerin, kötü amaçlı faaliyetleri yürüten taraflara karşı hukuki anlamda ellerinin güçlendirilmesi

Cevap-9 :

Sosyal anlamda eldeki verilerin korunması neticesinde, maddi anlamda yaşanabilecek yüksek ölçekli tehdit,
kayıp ve risklerden sigorta şirketlerinin korunması

Soru-10 :

about:blank 176/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Aşağıdakilerden hangisi Kişisel Verileri Koruma Kurumu’nun (KVKK) kişisel verilerin korunmasına
ilişkin görev ve yetkilerinden biri değildir?

(Çoktan Seçmeli)

(A) Kişisel verilerin, temel hak ve özgürlüklere uygun şekilde işlenmesini önlemek

(B) Kişisel verilerle ilgili haklarının ihlal edildiğini ileri sürenlerin şikâyetlerini karara bağlamak

(C) Özel nitelikli kişisel verilerin işlenmesi için aranan yeterli önlemleri belirlemek

(D) Veri Sorumluları Sicilinin tutulmasını sağlamak

(E) Veri güvenliğine ilişkin yükümlülükleri belirlemek amacıyla düzenleyici işlem yapmak

Cevap-10 :

Kişisel verilerin, temel hak ve özgürlüklere uygun şekilde işlenmesini önlemek

Soru-11 :

Aşağıdakilerden hangisi Kişisel Verileri Koruma Kurumu’nun (KVKK) büyük verideki ihlallerin
azaltılmasına yönelik önerdiği teknik önlemlerden biri değildir?

(Çoktan Seçmeli)

(A) Yetkilendirme matrisi oluşturulmalıdır.

(B) Ağ ortamının güvenliği sağlanmalıdır.

(C) Sızma testleri yapılarak kurum güvenliği test edilmelidir.

(D) Saldırı tespit ve önleme sistemleri oluşturulmalıdır.

(E) Veriler üzerinde analiz işlemleri engellenmelidir.

Cevap-11 :

Veriler üzerinde analiz işlemleri engellenmelidir.

Soru-12 :

“Ülkedeki tüm gizlilik düzenlemelerinin birbiriyle tutarlılık göstermesini sağlayarak eksiksiz bir uyum
mekanizması oluşturulmasını hedefliyor. Bu yasalar, ülke içindeki veri akışının ülke sınırları dışına çıkışının
azaltılmasını ve kişisel gizlilik hakkını garanti altına alacak kurallar içeriyor.”

Yukarıda bahsi geçen büyük veri koruma yasası hangi ülkenin yasasını işaret etmektedir?

(Çoktan Seçmeli)

(A) Kanada Kişisel Verileri Koruma ve Elektronik Belgeler Yasası

(B) ABD Tüketici Gizlilik Yasası

(C) İngiltere Veri Koruma Yasası

(D) Avustralya Gizlilik Yasası

about:blank 177/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(E) Meksika Federal Veri Koruma Yasası

Cevap-12 :

Avustralya Gizlilik Yasası

about:blank 178/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

13. APACHE SPARK ve PYSPARK


TEKNOLOJİLERİ
Birlikte Düşünelim
1.    Dünya ölçeğinde büyük veriyi analiz etmenin en etkin yöntemi nelerdir?

2.    Hangi veri işleme teknolojileri vardır?

3.    Apache Spark teknolojisi hakkında neler biliyorsunuz?

4.    Apache Spark bileşenleri nelerdir?

5.    Apache Spark hangi diller bünyesinde kullanılabilir?

Başlamadan Önce
Birçok sektörde kullanılmasının yanında popüler olarak dijital reklam şirketleri Apache Spark’ı, web
sitelerinin veri tabanlarını korumak ve belirli tüketicilere özel kampanyalar tasarlamak için kullanır. Bununla
birlikte finans şirketleri, finansal verileri almak ve yatırım faaliyetlerine rehberlik etmek için kullanır. Tüketici
ürünleri şirketleri, envanter kararlarına rehberlik etmek ve yeni pazar fırsatlarını tespit etmek, müşteri
verilerini toplamak ve trendleri tahmin etmek için kullanır.

Büyük veri uygulamalarıyla çalışan büyük kuruluşlar, hızı ve birden çok veri tabanını birbirine bağlama ve
farklı türlerde analitik uygulamaları çalıştırma yeteneği nedeniyle Apache Spark kullanmayı tercih etmektedir.

Apache Spark, büyük veri kümelerindeki görevleri hızlı bir şekilde gerçekleştirebilen, aynı zamanda veri
işleme görevlerini birden çok bilgisayara tek başına dağıtabilen popüler bir büyük veri analiz aracıdır.

Apache Spark, Java, Scala, Python ve R programlama dilleri için yerel bağlantılar sağlayabilir ve SQL, veri
akışı, makine öğrenimi ve grafik işleme gibi işlemleri destekler. Bankalar, telekomünikasyon şirketleri, oyun
şirketlerinin yanı sıra, Apple, Facebook, IBM ve Microsoft gibi büyük teknoloji devleri tarafından da
kullanılmaktadır.

13.1. Apache Spark ve PySpark Teknolojilerine Giriş


Apache Spark, büyük verileri analiz etme uygulamalarının performansını artırmak için bellek içinde işlemeyi
destekleyen bir açık kaynak paralel işleme çerçevesidir. Berkeley'in AMP Laboratuvarı olan California
Üniversitesi'nde 2009 yılında geliştirilmiştir. Apache Spark, veri boru hatları ve makine öğrenimi modelleri
geliştirme için de popülerdir [1].

Apache Spark'ı popüler yapan özelliklerden bazıları şunlardır:

§ Bir uygulamayı çok daha hızlı Hadoop kümesinde çalıştırmaya yardımcı olma olanağı,

§ Gelişmiş analitik desteği,

§ Hadoop ve mevcut Hadoop verileri ile entegrasyon yeteneği,

§ Paketleri geliştirmeye yardımcı olmak için her yerde katkıda bulunanlarla topluluk iletişimi.

Büyük veri çözümleri, geleneksel veritabanları için çok büyük veya karmaşık olan verileri işlemek üzere
tasarlanmıştır. Büyük veri kümeleri üzerinde paralel olarak işlem yapılmasını sağlayan, Scala dili ile
geliştirilmiş açık kaynak kodlu bir kütüphane olan Spark Disk tabanlı alternatiflerden çok daha hızlı olarak

about:blank 179/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

büyük miktarlardaki verileri (RAM) bellekte işler. Ancak, veri kümeleri mevcut sistem belleğine sığmayacak
kadar büyük olduğu takdirde disk tabanlı işlemeyi de gerçekleştirebilir.

Şekil 13.1. Apache Spark Logosu [1].

Java, Scala, Python ve R için üst düzey API'ler sunan Spark, kullanım kolaylığı ve popülerliği açısından ön
plana çıkmaktadır. Ayrıca bellek içi hesaplaması sayesinde çok düşük gecikme süresi ile gerçek zamanlı veri
işleme imkanı sunmaktadır. Öte yandan basit programlama katmanına sahip olan Spark, güçlü önbellekleme ve
disk kalıcılığı yeteneklerine sahiptir. Hızını kontrollü bölümlemeye ve bellek içi işlemeye borçlu olan Spark,
temel yapı olarak Şekil 13.2’de görülen Esnek Dağıtılmış Veri Kümeleri (RDD)’ni kullanır [1].

Şekil 13.2. RDD Çalışma Mantığı

Esnek Dağıtılmış Veri Kümeleri (RDD), hesaplama karmaşıklığını kullanıcılardan gizleyecek şekilde
tasarlanmış bir yapıya sahip olmakla birlikte elemanlar üzerinde paralel olarak işlemlerin yapılmasını sağlayan,
makinalar arasında bölünmüş veri koleksiyonlarıdır. Esnek Dağıtılmış Veri Kümeleri oluşturularak diskteki
veriler, geçici belleğe taşınmakta ve üzerinde çalışılacak senaryolara uygun sorgular yazılarak verilerin
işlenmesi mümkün olmaktadır.

13.2. Apache Spark’ın Özellikleri


Apache Spark, büyük veri iş yükleri için kullanılan açık kaynaklı dağıtılmış bir işleme sistemi olup aşağıdaki
temel özelliklere sahiptir [1].

Hızlı İşleme: Büyük veri dünyasının bu teknolojiyi diğerlerine tercih etmesini sağlayan Apache Spark'ın en
önemli yanı hızıdır. Büyük veri, daha yüksek hızda işlenmesi gereken hacim, çeşitlilik, hız ve doğrulukla
karakterize edilir.

Esneklik: Apache Spark, birden çok dili destekler ve geliştiricilerin Java, Scara, R veya Python'da
uygulamalar yazmasına izin verir.

about:blank 180/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Bellek İçi Bilgi İşlem: Apache Spark, verileri sunucuların RAM'inde depolar. Bu da hızlı erişime izin verir.
Dolayısıyla analitiğin hızı önemli ölçüde artmış olur.

Gerçek Zamanlı İşleme: Apache Spark, gerçek zamanlı akış verilerini işleyebilir. Yalnızca depolanan verileri
işleyen MapReduce'un aksine, Spark gerçek zamanlı verileri işleyebilir. Bu nedenla anlık sonuçlar üretebilir.

Daha İyi Analitik: Map ve Reduce işlevlerini içeren MapReduce'un aksine, Spark bundan çok daha fazlasını
içerir. Apache Spark, zengin bir SQL sorguları, makine öğrenimi algoritmaları, karmaşık analitik vb. içerir.

Apache Spark, son birkaç yılda muazzam bir büyüme elde etti. Hızı, kullanım kolaylığı ve sofistike analitiği
nedeniyle bugün işletmelerde en etkili veri işleme ve AI motoru haline geldi. Bununla birlikte, bellek içi
çalıştırmak için çok fazla RAM gerektirdiğinden Spark'ın maliyeti yüksektir.

Spark, çeşitli kaynaklarda büyük ölçekte veri hazırlamayı basitleştirerek verileri ve yapay zekayı birleştirir.
Ayrıca, TensorFlow, PyTorch, R ve SciKit-Learn gibi popüler kitaplıkların sorunsuz entegrasyonunun yanı sıra
hem veri mühendisliği hem veri bilimi iş yükleri için tutarlı bir API seti sağlar [1].

13.3. Apache Spark Mimarisi


Apache Spark, tüm bileşenlerinin ve katmanlarının gevşek bir şekilde bağlandığı iyi tanımlanmış hiyerarşik bir
katman mimarisine sahiptir. Bu mimari, çeşitli uzantı ve kütüphanelerle daha da bütünleşmiştir [1].

Şekil 13.3. Apache Spark Mimarisi [1].

Logosu Şekil 13.3’de görülen Apache Spark uygulaması iki ana bileşenden ihtiva etmektedir. İlk bileşen,
kullanıcının kodunu düğümler arasında dağıtıp birden çok göreve dönüştüren bir sürücüdür. İkinci bileşen ise
bu düğümlere atanan görevleri çalıştıran yürütücülerdir. İki bileşen arasında arabuluculuk yapmak üzere bir
küme yöneticisi bulunmaktadır.

13.4. Apache Spark Bileşenleri


Apache Spark, Python veya Java gibi bir programlama dili değildir. Çok çeşitli koşullarda kullanıma uygun,
genel amaçlı dağıtılmış bir veri işleme motorudur. Hem ölçekte hem de yüksek hızda büyük veri işleme için
özellikle kullanışlıdır ve bu doğrultuda bazı bileşenlere sahiptir.

Uygulama geliştiricileri ve veri bilimcileri, verileri uygun ölçekte hızla sorgulamak, analiz etmek ve
dönüştürmek için genellikle Apache Spark'ı uygulamalarına dahil eder. Spark ile en sık ilişkilendirilen
görevlerden bazıları şunlardır:
about:blank 181/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

§ Büyük veri kümelerinde (genellikle terabayt boyutunda) ETL ve SQL toplu işleri,

§ IoT cihazlarından ve düğümlerinden akış verilerinin işlenmesi, çeşitli sensörlerden gelen veriler, finansal ve
her türden işlem sistemi ve

§ E-ticaret veya BT uygulamaları için makine öğrenimi görevleri.

Spark, görselleştirme (grafik işleme), makine öğrenimi, akış işlemleri için aşağıdaki gibi bileşenlere sahiptir.

Şekil 13.4. Apache Spark Bileşenleri

Spark Core

Büyük ölçekli paralel ve dağıtılmış veri işleme için temel motor bileşenidir. Sahip olduğu kütüphaneler ile
akış, SQL ve makine öğrenmesi gibi çeşitli iş yüklerine izin verir. Bellek yönetimi ve hata kurtarma, bir
kümedeki işleri planlamak, dağıtmak, izlemek ve depolama sistemleriyle etkileşimden sorumludur [1].

Spark Streaming

Spark Streaming, gerçek zamanlı akış verilerini işlemek için kullanılan bir Spark bileşenidir. Gerçek zamanlı
veriler ile yüksek verimli işlemler ve analizler yapılmasına olanak sağlar. Şekil 13.5’te görüldüğü üzere Kafka,
Kinesis veya TCP soketleri gibi farklı kaynaklardan verileri alarak karmaşık algoritmalar ile işleyebilmektedir. 
Bu verileri dosya sistemlerine, veri tabanlarına ve dashboard’lara gerçek zamanlı olarak aktarabilmektedir [2].

Şekil 13.5. Spark streaming.

Spark Streaming, aldığı gerçek zamanlı veriyi mikro batch’lere ayırarak Spark Engine kısmına yönlendirir.
Şekil 13.6’da görüldüğü üzere akışı oluşturmak için Spark Engine tarafından veriler işlenir ve nihai sonuç
akışın çıktısına gönderilir.

about:blank 182/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 13.6. Spark streaming ile gerçek zamanlı veri işleme.

Spark Streaming, sürekli bir veri akışını temsil eden ayrıklaştırılmış akış veya DStream adı verilen üst düzey
bir soyutlama sağlar. Kaynaktan verileri okuyan ve RDD’lerin üzerine inşa edilen DStream, bir RDD dizisi
olarak temsil edilmektedir. RDD’ler DStream üzerinde belli bir zaman aralığındaki datayı tutmaktadır [2].

Spark SQL

En yaygın kullanılan Spark bileşenlerinden biri olan Spark SQL, kullanıcıların ortak SQL dilini kullanarak
farklı uygulamalarda depolanan verileri sorgulamasını sağlar. Yapılandırılmış veriler için kullanılan ilişkisel
sorgular için uygundur. “Join” işlemlerinde çok hızlı olan bu kütüphane, Spark SQL dilini kullanarak verilerin
işlenmesini kolaylaştırmaktadır. 

GraphX

GraphX, grafik sorunlarını çözmek için tasarlanmış ve paralel hesaplamaları sağlayan Spark API'dir. Paralel
olarak işlenebilme özelliğine sahip bu kütüphane grafı oluşturan nokta ve bağlantılara farklı özellikler
tanımlayabilir.

MLlib (Machine Learning) 

MLlib, makine öğrenme algoritmalarını barındıran açık kaynaklı ve geniş kapsamlı bir kütüphanedir. Spark,
bellek içi dağıtık veri işleme motorudur ve büyük veri kullanımları için hızlı bir popülerlik kazanmıştır. Spark
toplu işlem ve akan veriyi işlemeye olanak tanır. Her iki paradigmayı kullanarak makine öğrenimi
gerçekleştirilebilir. MLlib ayrıca birçok matematiksel ve istatistiksel yöntemler ile veri ön işleme ve model
değerlendirmeyi destekler. Birçok kullanıma hazır sınıflandırma, regresyon, öneri, kümeleme ve boyut azalma
modelini sunar. Spark ve MLlib, Mahout’la kıyaslandığında oldukça hızlı olup bu algoritmaları uygulayan ve
değerlendiren akademik çalışmaların sayısında artış görülmektedir [3].

MLlib kütüphanesi aşağıdaki algoritma ve yardımcı uygulamaları içermektedir:  

1.   Lojistik regresyon ve doğrusal destek vektör makinesi (SVM)

2.   Sınıflandırma ve regresyon ağacı

3.   Rasgele orman ve gradyanı güçlendirilmiş ağaçlar

4.   Alternatif en küçük karelerle (ALS) öneri

5.   K-means kümeleme, Bisecting k-means, Gauss karışımları (GMM) ve kuvvetli iterasyon kümelendirmesi

6.   Latent Dirichlet ayırma (LDA) yoluyla konu modellemesi

7.   Hızlandırılmış arıza süresi modeliyle hayatta kalma analizi

8.   Tekil değer ayrışma (SVD) ve QR ayrışması

9.   Temel bileşen analizi (PCA)

10. L1, L2 ile lineer regresyon ile elastik ağ düzenleştirme

11. İzotonik regresyon

12. Multinomiyal / binomiyal Naive Bayes

about:blank 183/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

13. FP-büyüme ve birliktelik kuralları ile araştırma madenciliği

14. PrefixSpan ile ardışık desen incelemesi

15. Özet istatistikler ve hipotez testleri

16. Özellik dönüşümleri

17. Model değerlendirmesi ve hiper parametre ayarı [4].

SparkR 

Dağıtılmış bir veri çerçevesi uygulaması sağlayan bir R paketidir. Ayrıca, seçim, filtreleme, toplama gibi
işlemleri büyük veri kümelerinde de destekler [5].

13.5. Apache Spark ve Hadoop MapReduce


Spark ile Hadoop ekosisteminin sıklıkla mukayese edildiği gözlemlenmektedir. Ancak daha doğru bir
karşılaştırma Hadoop ekosisteminde bulunan MapReduce ile Apache Spark’ın arasında gerçekleştirilebilir.

Map-Reduce yapılacak işleri parçalara ayırıp ayrılan iş parçacıklarını diğer sunuculara dağıtmaktadır. Diğer
sunucularda işlenen verilerin sonuçlarını birleştirip tek bir sonuca indirgeyen bir yapı sunmaktadır.

“Map” adımı: Ana düğüm girişi alır, daha küçük alt parçalara ayırır ve onları işçi düğümlerine dağıtır. Bir işçi
düğümü bunu tekrar yaparak çok düzeyli bir ağaç yapısına götürür. İşçi düğümü daha küçük olan sorunu işler
ve cevabı ana düğüme geri gönderir. Harita, bir veri alanındaki bir türe sahip bir çift veri alır ve farklı bir
alandaki çiftlerin bir listesini döndürür.

“Reduce” adımı: Ana düğüm, daha sonra tüm alt problemlere cevapları toplar ve onları, başlangıçta çözmeye
çalışılan sorunun cevabı olan çıktıyı oluşturmak için bir şekilde birleştirir. Redüksiyon işlevi daha sonra her bir
gruba paralel olarak uygulanır; bu da aynı alanda bir değer topluluğu oluşturur [6].

Map-Reduce Bileşenleri

Ad-Düğümü (Name-Node): HDFS meta verilerini yönetir, doğrudan dosyalarla ilgilenmez.

Veri Düğümü (Data-Node): Her blok için HDFS-default replication düzeyinin bloklarını depolar.

İş İzleyicisi (Job Tracker): Yeni hesaplardaki işyeri tahkiklerini planlar, ayırır ve izler.

Görev İzleyicisi (Task Tracker): Map Reduce işlemleri çalıştırır, genel olarak kullanışlı haritalar, redüktörler
ve bölücülerden oluşan bir kütüphane ile birlikte gelir.

MapReduce ve Spark’ın kendine göre avantajları ve dezavantajları olmakla birlikte Spark genellikle avantajları
ile çok daha ön plana çıkabilmektedir.

§ Hadoop MapReduce verileri okumak ve yazmak için diski kullanır. Bu işlem hızının yavaşlamasına sebep
olurken, Spark verileri bellekte depolar, dolayısıyla işlem hızının yaklaşık 100 kat daha yüksek olduğu veri
analitiği araştırmalarında ortaya konulmaktadır.

§ Hadoop MapReduce farklı gereksinimler için birbirinden farklı bileşenlere gereksinim duyar. Spark, toplu ve
etkileşimli bir şekilde makine öğrenmesi, grafik işleme, akan veri analizi gibi görevleri gerçekleştirir.

§ Hadoop, yapısı itibariyle verileri toplu ve verimli bir şekilde işlemek için tasarlanmıştır. Spark, gerçek
zamanlı verileri verimli bir şekilde yönetmek için tasarlanmıştır.

§ Hadoop MapReduce ile, yalnızca toplu modda verileri işlerken, Spark gerçek zamanlı verileri Spark
Streaming aracılığıyla işleyebilir.

about:blank 184/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

§ MapReduce ve Spark maliyet açısından karşılaştırıldığında disk ve bellek kullanımları göz önünde
bulundurulursa Spark bellek kullanımından dolayı daha maliyetli bir seçenek olabilir.

Python ile Spark’ın iş birliği sonucu PySPark ortaya çıkmıştır. Python dili ile Spark üzerinde geliştirme
yapabilme imkanı tanımaktadır. Aynı zamanda Python kütüphanesinin ismidir [1]. Bu kütüphane aracılığıyla
iki adet örnek uygulama gerçekleştirilmektedir.

Bölüm Özeti
Apache Spark gibi yeni teknolojiler sayesinde projelerinizde, çalışmalarınızda performans artışı
sağlayabilmeniz mümkün hale gelmektedir. Bu performans artışının sırrı ise, Apache Spark’ın bellek (RAM)
üzerinde çalışması ve bu da işlemeyi disk sürücülerinden çok daha hızlı hale getirmesidir.

Apache Spark, büyük veri kümeleri üzerinde paralel olarak işlem yapılmasını sağlayan, Scala dili ile
geliştirilmiş açık kaynak kodlu kütüphanedir.

Disk bazlı çalışma yapısına sahip olan MapReduce’un oluşturduğu performans maliyetlerin çözümüyle ortaya
çıkan Spark, bellek içi veri işleme özelliğiyle büyük veri uygulamalarında Apache Hadoop’tan daha hızlı
çalışabilmektedir. Dolayısıyla verileri işlerken diskten veri okumadan veya diske veri yazmadan bellekte
tutmasıyla Spark’ın analitik motorunun daha hızlı işlemler yapabildiğini söylemek mümkündür.

Bellek içi veri işleme, Spark’ın temel programlama özeti olan RDD (Resilient Distributed Datasets)’ler ile
yapılmaktadır. RDD’ler elemanlar üzerinde paralel olarak işlemlerin yapılmasını sağlayan, makinalar arasında
bölünmüş veri koleksiyonlarıdır. RDD’ler oluşturularak diskteki veriler, geçici belleğe taşınmaktadır. Bu
RDD’ler üzerinde yapılacak senaryolara göre sorgular yazılarak veriler işlenmektedir.

Makine öğrenimi, akış verileri, grafik verileri gibi farklı konularda büyük veri uygulamalarında kullanılabilen
Spark, veriyle ilgili çalışan kullanıcılar tarafından tercih edilmektedir. Ayrıca Java, Scala, Pyhton gibi farklı
yazılım dilleri ile uygulamalar geliştirilmesine olanak sağlamasıyla popülerliğini artırmaktadır.

Kaynakça
[1] Apache Spark Web Site, “Pyhton” (Son Erişim:20.01.2022)

URL: https://spark.apache.org/docs/latest/api/python/index.html"
target="_blank">https://spark.apache.org/docs/latest/api/python/index.html

[2] Gtehc Web Sitesi, “Apache Spark”. (Son Erişim: 20.01.2022)

URL: https://www.gtech.com.tr/apache-spark/

[3] Erdem Y. “Büyük Verinin Makine Öğrenmesi Yöntemleri İle Apache Spark Teknolojisi Kullanılarak
Sınıflandırılması”, Yüksek Lisans Tezi, Karabük Üniversitesi Fen Bilimleri Enstitüsü, 2017.

[4] Apache Spark Web Site, “Machine Learning Library (MLlib) Guide” (Son Erişim:20.01.2022)

URL: https://spark.apache.org/

[5] Teknoloji.Org Web Sitesi, “Apache Spark Nedir? Nasıl Çalışır” (Son Erişim:20.01.2022)

URL: https://teknoloji.org/apache-spark-nedir-nasil-calisir/

[6] Gazal, P., D., and Kaur, “A Survey on Big Data Storage Strategies”, IEEE, India (2015)

Ünite Soruları
about:blank 185/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Soru-1 :

Aşağıdakilerden hangisi Apache Spark bileşenlerinden biri değildir?

(Çoktan Seçmeli)

(A) MLlib

(B) Streaming

(C) GraphX

(D) SparkSQL

(E) TimeSeries

Cevap-1 :

TimeSeries

Soru-2 :

Spark’ın gerçek zamanlı veri işleme üzerine geliştirilen bileşeni aşağıdakilerden hangisidir?

(Çoktan Seçmeli)

(A) Streaming

(B) Spark R

(C) Spark SQL

(D) Spark Core

(E) MBLib

Cevap-2 :

Streaming

Soru-3 :

Sektörde Spark’ın rakibi olabilecek uygulama aşağıdakilerden hangisi olabilir?

(Çoktan Seçmeli)

(A) Hadoop

(B) MapReduce

(C) ZooKeeper

(D) PySpark

(E) NoSQL

Cevap-3 :
about:blank 186/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

MapReduce

Soru-4 :

Apache Spark mimarisinde aşağıdakilerden hangisine yer yoktur?

(Çoktan Seçmeli)

(A) Sürücü

(B) Yürütücü

(C) Küme yöneticisi

(D) Veri tabanı

(E) Kullanıcı programı

Cevap-4 :

Veri tabanı

Soru-5 :

Aşağıdakilerden hangisi Spark ile çalışabileceğiniz diller arasında değildir?

(Çoktan Seçmeli)

(A) Python

(B) Scala

(C) Ruby

(D) R

(E) Java

Cevap-5 :

Ruby

Soru-6 :

Apache Spark hangi dil ile geliştirilmiş bir büyük veri işleme motorudur?

(Çoktan Seçmeli)

(A) Python

(B) Java

(C) ASP

(D) C#

(E) Scala
about:blank 187/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Cevap-6 :

Scala

Soru-7 :

Apache Spark mimarisi ile ilgili olarak aşağıdakilerden hangisi yanlıştır?

(Çoktan Seçmeli)

(A) Tüm bileşenleri ve katmanları gevşek bir şekilde bağlanmıştır.

(B) İyi tanımlanmış hiyerarşik bir katman mimarisine sahiptir.

(C) Sürücüler ve küme yöneticileri olmak üzere iki ana bileşene sahiptir.

(D) Çeşitli uzantı ve kütüphanelerle bütünleşiktir.

(E) Kullanıcı kodlarını birden çok göreve dönüştüren bir sürücüdür.

Cevap-7 :

Sürücüler ve küme yöneticileri olmak üzere iki ana bileşene sahiptir.

Soru-8 :

Esnek dağıtılmış veri kümeleri ile ilgili aşağıdakilerden hangisi yanlıştır?

(Çoktan Seçmeli)

(A) Birden çok düğüm ile çalışabilmektedir.

(B) Spark Core büyük ölçekli veri kümelerini işlemektedir.

(C) Paralel şekilde çalışabilmektedir.

(D) Hataya dayanıklı öğe koleksiyonlarıdır.

(E) Üst seviye bir API’dir.

Cevap-8 :

Üst seviye bir API’dir.

Soru-9 :

Aşağıdakilerden hangisi Apache Spark ile ilgili yanlış olarak verilmiştir?

(Çoktan Seçmeli)

(A) Bellek içi işlemeyi destekler.

(B) Açık kaynak paralel veri işleme motorudur.

(C) Mevcut sistem belleği yetersiz olduğunda disk tabanlı işleme yapar.

(D) Toplu veri işleme için oldukça idealdir.


about:blank 188/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(E) İyi tanımlanmış hiyerarşik bir katman mimarisine sahiptir.

Cevap-9 :

Toplu veri işleme için oldukça idealdir.

Soru-10 :

Aşağıdakilerden hangisi Apache Spark mimarisindeki sürücüler ve yürütücüler arasında arabuluculuk


görevini üstlenen bileşendir?

(Çoktan Seçmeli)

(A) Küme yöneticisi

(B) Esnek dağıtılmış veri kümeleri

(C) Yüksek seviyeli API’lar

(D) Düşük seviyeli API’lar

(E) İlişkisel veri tabanı

Cevap-10 :

Küme yöneticisi

Soru-11 :

Aşağıdakilerden hangisi Spark için hem avantaj hem de dezavantaj olabilmektedir?

(Çoktan Seçmeli)

(A) Gerçek zamanlı veri işleme

(B) Farklı ihtiyaçlara uygun çeşitli bileşenler barındırma

(C) Bellek içi hesaplama yapabilme

(D) Hiyerarşik bir mimariye sahip olma

(E) Tüm bileşenleri ve katmanları gevşek bir şekilde bağlanmış olma

Cevap-11 :

Bellek içi hesaplama yapabilme

Soru-12 :

Aşağıdakilerden hangisi büyük veri işleme üzerine geliştirilmiş bir uygulama değildir?

(Çoktan Seçmeli)

(A) Apache Spark

(B) HADOOP

about:blank 189/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(C) MapReduce

(D) Pandas

(E) PySpark

Cevap-12 :

Pandas

about:blank 190/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

14. BÜYÜK VERİ UYGULAMASI


Birlikte Düşünelim
1.    Büyük veri analizinde en çok kullanılan işlemler hangileridir?

2.    Büyük veri ortamlarını oluşturmak için hangi uygulamalar kurulmalıdır?

3.    Apache Spark ile metin temelli büyük veri uygulaması geliştirmek için hangi komutlar kullanılır?

4.    Büyük veride Apache Spark ile tahminleme işlemleri hangi kütüphane ve komutlar ile gerçekleştirilebilir.

Başlamadan Önce
Verinin her geçen gün katlanarak büyüdüğü günümüz dünyasında o veriyi işleyebilmenin ve veriden anlamlı
çıkarımlarda bulunabilmenin önemi de katlanarak artmaktadır. Ancak terabaytlarca ve hatta petabaytlarca
verinin olduğu ve içinde ilişkisel veritabanlarının, NoSQL’lerin ve text, CSV ve JSON, parquet gibi yarı
yapısal ve yapısal olmayan verilerin bulunduğu bir ekosistemde klasik yöntemlerle analiz yapmak çok zordur.
Bu noktada farklı bir mimariye sahip Apache Spark bu gibi sorunları ortadan kaldırarak büyük veri
uygulamalarında sıklıkla kullanılmaktadır.

Birçok uygulama örneklerini üzerinde gerçekleştirebileceğiniz Apache Spark üzerinde en yaygın kullanılan
metin işlemlerine aşinalık olması adına Pyhton üzerinde gerekli kütüphaneler kurularak basit kodlar yardımı
ile başlangıç yapılması amaçlanmıştır.

Akabinde makine öğrenmesinin büyük veride en yaygın kullanılan örneklerinden biri lineer regresyon
yöntemi ile tahminleme yapma işlemleridir. Bu konuda da temel oluşturabilecek işlem adımları ile örnek
kodlar geliştirilerek sunulacaktır.

14.1. Apache Spark Kurulum İşlemleri


Bu bölümde temel bir dosya üzerinde çalışabilecek bazı temel işlemler ve en çok kullanılan komutlar aşağıda
verilmiştir [1]. Bu işlemlerden önce kurulum işlemleri gerçekleştirilmelidir.

İşlem 1: Gerekli Kurulumlar

Örnek uygulama gerçekleştirmek için sisteminizde Spark ve Java uygulamaları yüklemek gerekir. Python
uygulaması yüklü olan sistemler aşağıdaki şekilde spark kütüphanelerini yükleyerek uygulamayı
gerçekleştirebilirler.

Komut penceresi sayesinde yüklemenin başarılı bir şekilde sonuçlandığı aşağıdaki görselde verilmiştir.

about:blank 191/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Şekil 14.1. Kurulum ekranı.

İşlem 2: Gerekli Kütüphanelerin İçe Aktarımı

"findspark" kütüphanesi pyspark'ı normal bir kütüphane olarak içe aktarılabilir kılmak için kullanılır.

İşlem 3: Bilgisayarda 4 Çekirdek Oturum Oluşturma

"pyspark" kütüphanesi aracılığıyla SparkSession.builder komutu sayesinde yerel bilgisayarda 4 çekirdekli ve


ismi "Shakespeare" olan bir uygulama oluşturma işlemleri için aşağıdaki şekilde bir kod oluşturulabilir.

İşlem 4: Spark Oturumunun Görüntülenmesi.

Oluşturulan spark oturumunu "sc" isimli değişkene aktarılarak aşağıdaki şekilde görüntülenebilir.

about:blank 192/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

14.2. Apache Spark ile Metin İşlemleri


Bu bölümde yapılandırılmamış veya yarı yapılandırılmış birçok büyük veri uygulamasında kullanılan temel
metin işlemleri anlatılmıştır. Bu işlemler aşağıdaki adımlarda kullanılan ve dilin grameri ile oluşturulan
komutlar sayesinde gerçekleştirilmektedir.

Adım 1: Dosya Yükleme

Bilgisayardaki bir metin dökümanını Spark ortamına dahil etmek için aşağıdaki şekilde bir kod yazılabilir.

Adım 2: Satır Sayısı

Dosyada yer alan satır sayısı count() komutu ile belirlenir.

Adım 3: Sayfalama

Dosya içerisinde tüm dokumanı görüntüleme yerine örneğin 20 satır incelenmek istendiğinde aşağıdaki şekilde
işlem gerçekleştirilebilir.

about:blank 193/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Adım 4: Kelimeleri Saydırmak

Büyük veride en çok yapılandırılmamış veri kümeleri metinlerdir. Bu metinlerde yoğun bir şekilde kelime
saydırma işlemleri kullanılmaktadır.

Satırlar boşluk karakterine göre ayrıldığında 1.416.508 adet kelime olduğu görülüyor.

İlk 10 kelime görüntülendiğinde:

Buradan anlaşıldığı üzere bazı kelimelerin aslında boşluk olduğu görülmektedir. Bu durumda boşluklardan
kurtulmak için filtreleme işlemleri yapılmalıdır:

Kelime sayısı 1.416.508 adete düşmüştür. Filtrelendikten sonraki ilk 10 kelimeyi görüntülenirse.

about:blank 194/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Adım 5: Tüm Kelimelerin Büyük Harfe Dönüştürülmesi

Tamamı büyük harflerden oluşan kelime listesinden ilk 10 kelime tekrar görüntülenirse:

Adım 6: Kelimelerin Frekansı

Öncelikle “map” aracılığıyla tüm kelimelerin yanına 1 sayısını yazdıralım.

Kelimelerin benzersizliğine göre frekanslarını "reduceByKey" komutu aracılığıyla toplanarak elde


edilmektedir:

about:blank 195/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Frekans değerlerine göre sıralanması için öncelikle key ve value değerleri yer değiştirilirse:

Frekansı en yüksek 20 kelimeyi görüntülenirse:

Adım 7: Kelimelerin Harf Sayıları ve Yerleri

6 harften oluşan kelimeler görüntülenirse:

about:blank 196/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

A ile başlayan ve Z ile biten tüm kelimeler görüntülenirse:

İlk iki karakteri "EN" olan kelimeleri frekansları ile birlikte bulunmak istenirse:

Son iki karakteri "IS" olan ve frekansları 5.000'den yüksek olan kelimeler görüntülenirse:

14.3. Apache Spark ile Sayısal Tahmin Projesi


Bu bölümde veri analizi konusunda kolaylıkla temin edilebilecek “Advertising” isimli veri seti üzerinde sayısal
tahmin problemine yer verilmiştir. Bir Apache Spark oturumu başlatmak, bu oturum ile veri setini diskimizden
içe aktarmak, regresyon modeli kurmak ve kurulan modelin başarısını değerlendirmek adım adım işlenmiştir.

Adım 1: Veri Seti Hakkında

TV, Radio, Newspaper, Sales olmak üzere 4 adet öznitelikten oluşan veri seti sırasıyla televizyon reklamları
için yapılan harcama miktarı, radyo reklamları için yapılan harcama miktarı, gazete reklamları için yapılan
harcama miktarı ve bu harcamaların sonucunda satışlardan elde edilen ciro miktarlarını barındırmaktadır.

Adım 2: Apache Spark Oturumu Başlatmak

about:blank 197/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Aşağıdaki kod aracılığıyla ilgili Apache Spark kütüphaneleri içe aktarılabilir ve böylelikle bir Spark oturumu
başlatılabilir. Bu amaç için Pandas kütüphanesi kullanılabilir.

Aşağıdaki kod aracılığıyla sabit diskimizde ve çalıştığımız dizinde bulunan “Advertising_Dataset.csv” isimli
veri seti içeri aktarılabilir. Pandas kütüphanesi aracılığıyla ilk 5 gözlemi görüntülemek için “head” komutunu
kullanabiliriz.

Adım 3: Sabit Diskten Veri Setini İçeri Aktarmak

Adım 4: Veri Setindeki Özniteliklerin Adını Güncellemek

Veri setindeki özniteliklerin isimlerini değiştirmek için “as” bağlacı kullanılabilir.  Aşağıdaki kod ile ilk ve son
öznitelik isimleri sırasıyla “id” ve “label” olarak güncellenmiştir.

about:blank 198/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Adım 5: Sayısal Özniteliklerin Merkezi Eğilim Ölçülerini Görüntülemek

Veri setindeki sayısal özniteliklerin merkezi eğilim ölçülerini görüntülemek için “describe” komutu
kullanılabilir.

Adım 6: Bağımlı Değişkenleri Tek Bir Vektörde Birleştirmek

TV ve Radio özniteliklerinin değerlerini her bir gözlem için vektöre dönüştürmek üzere “VectorAssembler”
komutu kullanılabilir.

Adım 7: Doğrusal Regresyon Modeli Kurmak

Doğrusal regresyon modeli “LinearRegression” komutu yardımıyla kurulabilir [2].

Adım 8: Proje Güzergahı Oluşturmak

Veri bilimi projelerinde analizin her bir aşamasını belirli bir sıraya koyarak süreçleri kolaylaştırmak amacıyla
“Pipeline” komutu kullanılabilir.

Adım 9: Eğitim ve Test Kümelerini Ayırmak

Eğitim ve test için veri seti sırasıyla ¾ ve ¼ olacak şekilde rassal olarak bölümlenebilir.

Adım 10: Sayısal Tahmin Modelini Eğitmek

Vektör birleştirici ile birlikte regresyon modelini eğitebilmek için oluşturduğumuz “Pipeline” yapısı “fit”
komutu ile çalıştırılabilir.

Adım 11: Model ile Tahminler Yapmak ve Sonuçları İncelemek


about:blank 199/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Eğittiğimiz modeli, eğittiğimiz veri üzerinde tahminleyerek karşılaştırma yapmak için “transform” komutu
kullanılabilir.

Yukarıdaki tabloda “prediction” ve “label” öznitelikleri arasındaki fark tahminlerdeki sapmanın boyutunu
temsil etmektedir. Örneğin, 17.2 birim para televizyon reklamları için, 45.9 birim para radyo reklamları için ve
69.3 birim para gazete reklamları için harcandığı takdirde 9.3 birim ciro elde edilmektedir. Aynı girdi değerleri
için doğrusal regresyon modelimizin tahmini 12.7 birim ciro elde edileceği yönündedir. Bu durumda model
yaklaşık 3.5 birim ciro olması gerekenden fazla şekilde tahminde bulunmuştur.

Adım 12: Sayısal Tahmin Modeli Başarı Değerlendirmesi

Doğrusal regresyon modelinin denklemi, katsayıları ve eğim değeri ve özniteliklerin ne kadar anlamlı ve
önemli olduğu ve modelin başarısına dair detaylı bilgileri görebilmek için aşağıdaki kodlar çalıştırılabilir

Yukarıdaki bilgiler ışığında “intercept” ve “coefficient” değerlerine bakarak modelin denklemini aşağıdaki gibi
oluşturmak mümkündür.

Adım 13: Model Aracılığıyla Tahminde Bulunmak


about:blank 200/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Tahmin aşaması için televizyon reklam harcamalarına 100 birim ve radyo reklam harcamalarına 10 birim
ödenek ayrıldığında satıştan elde edilecek cironun kaç birim olacağını tahmin ettirmek için aşağıdaki kodlar
çalıştırılabilir.

Uygun formata getirildikten sonra “transform” komutu yardımı ile tahminleme gerçekleştirilebilir.

Yukarıda görüldüğü üzere satıştan elde edilecek cironun yaklaşık 9.33 birim olacağı tahminlenmiştir.

Bölüm Özeti
Bu bölümde aşinalık oluşturabilecek bazı temel işlemler ve en çok kullanılan komutlar anlatılmıştır. Bu
işlemlerden önce gerekli kurulum işlemleri anlatılmıştır.

Örnek uygulama gerçekleştirmek için işletim sistemlerine Spark ve Java uygulamaları yüklendikten sonra
spark kütüphanelerini yüklenerek uygulamalar gerçekleştirilmektedir.

Ayrıca bu bölümde yapılandırılmamış veya yarı yapılandırılmış birçok büyük veri uygulamasında kullanılan
temel metin işlemleri anlatılmıştır. Bu işlemler adım adım ve dilin grameri ile oluşturulan komut dizisi şeklinde
verilmiştir.

Son olarak veri analizi konusunda kolaylıkla temin edilebilecek “Advertising” isimli veri seti üzerinde sayısal
tahmin problemine yer verilmiştir. Bir Apache Spark oturumu başlatmak, bu oturum ile veri setini diskimizden
içe aktarmak, regresyon modeli kurmak ve kurulan modelin başarısını değerlendirmek adım adım işlenmiştir.

Kaynakça
[1] Apache Spark Web Site, “Pyhton” (Son Erişim:20.01.2022)

URL: https://spark.apache.org/docs/latest/api/python/index.html"
target="_blank">https://spark.apache.org/docs/latest/api/python/index.html

[2] Apache Spark Web Site, “Machine Learning Library (MLlib) Guide” (Son Erişim:20.01.2022)

URL: https://spark.apache.org/

about:blank 201/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

Ünite Soruları
Soru-1 :

Aşağıdakilerden hangisi PySpark ile veri madenciliği esnasında kullanılabilecek bir komut değildir?

(Çoktan Seçmeli)

(A) ReduceByKey

(B) Map

(C) FlatMap

(D) ReduceMap

(E) SortByKey

Cevap-1 :

ReduceMap

Soru-2 :

İsimsiz fonksiyonlar olarak bilinen ve filter, map, flatmap gibi işlemlerle sıklıkla kullanılabilen
fonksiyon yapısı aşağıdakilerden hangisidir?

(Çoktan Seçmeli)

(A) apply

(B) lambda

(C) def

(D) void

(E) transform

Cevap-2 :

lambda

Soru-3 :

Aşağıdakilerden hangisi PySpark üzerinde kullanılan bir komut değildir?

(Çoktan Seçmeli)

(A) scan

(B) map

(C) sortByKey

about:blank 202/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(D) take

(E) creatDataFrame

Cevap-3 :

scan

Soru-4 :

Veri bilimi projelerinde analizin her bir aşamasını belirli bir sıraya koyarak süreçleri kolaylaştırmak
amacıyla aşağıdaki komutlardan hangisi kullanılır?

(Çoktan Seçmeli)

(A) filter

(B) lambda

(C) pipeline

(D) take

(E) summary

Cevap-4 :

pipeline

Soru-5 :

Veri tahminleme amacıyla geliştirilen uygulamada aşağıdaki kütüphanelerden hangisi kullanılır?

(Çoktan Seçmeli)

(A) spark

(B) pyspark

(C) tensorflow

(D) pipeline

(E) pandas

Cevap-5 :

pandas

Soru-6 :

Metin işlemlerinde kelimelerin benzerlik frekanslarını bulmak amacıyla aşağıdaki komutlardan hangisi
kullanılır?

(Çoktan Seçmeli)

(A) sortByKey
about:blank 203/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(B) lambda

(C) take

(D) reduceByKey

(E) describe

Cevap-6 :

reduceByKey

Soru-7 :

Metin işlemlerinde veri setindeki sayısal özniteliklerin merkezi eğilim ölçülerini görüntülemek için
amacıyla aşağıdaki komutlardan hangisi kullanılır?

(Çoktan Seçmeli)

(A) summary

(B) lambda

(C) take

(D) transform

(E) describe

Cevap-7 :

describe

Soru-8 :

Özniteliklerin değerlerini her bir gözlem için vektöre dönüştürmek üzere aşağıdaki komutlardan hangisi
kullanılır?

(Çoktan Seçmeli)

(A) VectorFit

(B) VectorTransform

(C) VectorAssembler

(D) VectorTake

(E) Assembler

Cevap-8 :

VectorAssembler

Soru-9 :

Yerel bilgisayarda 4 çekirdekli bir uygulama geliştirmek için aşağıdaki komutlardan hangisi kullanılır?

about:blank 204/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap

(Çoktan Seçmeli)

(A) SparkSession.builder

(B) SparkSession.transform

(C) SparkSession.fit

(D) SparkSession.lambda

(E) SparkSession.assembler

Cevap-9 :

SparkSession.builder

Soru-10 :

Eğitim ve test işlemleri için rassal bölünmeyi sağlayan komut aşağıdakilerden hangisidir?

(Çoktan Seçmeli)

(A) sessionSplit

(B) randomSplit

(C) firSplit

(D) sparkSplit

(E) splitTake

Cevap-10 :

randomSplit

about:blank 205/205

You might also like