Professional Documents
Culture Documents
İstanbul Üniversitesi
Açık ve Uzaktan Eğitim Fakültesi
Büyük Veri
DOÇ. DR. ORHAN ER
Doç. Dr. Orhan ER
about:blank 1/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
İÇİNDEKİLER
about:blank 2/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Başlamadan Önce
Büyük veri ve bu verinin analizi, dijital çağın en önemli basamaklarının başında gelmektedir. Gelişmiş ülkeler
bünyesinde yer alan büyük kuruluşlar çeşitli kaynaklardan gelen verileri toplamakta: Sağlık verileri, finansal
veriler, mobil veriler, üretime dayalı veriler, müşteri araştırmaları/davranışları verileri, sosyal medya verileri,
vb.
Artan veri miktarının işlenebilmesi için yeni analiz teknikleri ve güçlü bilgisayar kaynaklarına ihtiyaç
duyulmaktadır. Bilişim sektöründe güçlü firmaların sunmuş olduğu online kaynaklara anında erişim olanağı
sayesinde, akademinin yeni yöntem araştırmaları ile yeni ve güçlü araçlar ortaya çıkarmıştır. Bu büyük güç,
analitik araçların destek vermesiyle, geçmişte hayal olarak görülen birçok yeni fırsatı gerçekleştirme olanağı
sağlamıştır.
Ancak gelişen yeni teknoloji ve araçlara rağmen büyük veriyi analiz etmenin önündeki en önemli engel
verinin içerdiği ve görülemeyen karmaşık örüntüleri analiz edebilmektir. Doğrusunu isterseniz, büyük veriyi
işlemek hâlâ karmaşık ve yoğun emek gerektiren bir süreçtir.
Verileri anlamak, değerlendirmek, farklı bakış açıları ile analiz edebilmek ve sonuçta beklenen hedefe veya
istenilen kararlara erişilebilmesi için, veriler dört grupta sınıflandırılmıştır. [1-2]
§ Veri parçası (data spot), analizlerde dikkate alınan erişilebilir verinin bir alt kümesi olarak gruplandırılır.
§ Erişilebilir veri (light data), her an kullanıma hazır ve erişilebilir olan veri grubudur.
§ Gri veri (gray data), erişemediğimiz ancak nitelikli varsayımlar yapabildiğimiz ve analiz ettiğimiz sistemin
bir parçası olan veri gruplarıdır.
§ Karanlık veri (dark data) ise, nitel veya nicel olup olmadığı anlaşılamayan, bilinmeyen veya
gruplandırılamayan veri grubudur. Bu veriler kısaca bilmediğimizin veya bilemediğimizin farkında bile
olamadığımız veri gruplarıdır.
about:blank 3/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Büyük veri ise; dijital ortamlardaki çalışmalardan, araştırmalardan, gözlemlerden, arama motorlarından,
forumlardan, sosyal medya hesaplarından ve diğer birçok kurumsal kaynaktan elde edilen verilerin anlamlı ve
işlenebilir hale getirilmiş veri biçimine denir. Tanım olarak büyük veri; “farklı ortamlardan hızlı bir şekilde
farklı formatlara sahip büyük hacimdeki veriyi üretmek” olarak adlandırılabilir. Yani büyük veri; “verinin
analiz edilip sınıflandırılmış, anlamlı ve işlenebilir hale dönüştürülmüş büyük hacimli halidir.”
Yakın zamana kadar veriler, elektronik tablolar veya veri tabanları ile sınırlıydı ve hepsi çok düzenliydi. Ancak
pandeminin de hız kattığı dijital çağın muazzam bir şekilde ilerleyişiyle birlikte artık veri kavramı çok
karmaşık bir yapıyı dönüşmesinin yanı sıra farklı formatlarda (fotoğraf, video, ses kaydı, yazılı metin ve sensör
verileri) ve büyük hacimlerde (terabyte, petabyte, ekzabyte, zetabyte) oluşmasından kaynaklı olarak da analiz
ve işlenmesinde ihtiyaç duyulan ekonomik yatırımlardan ötürü uzun süre sadece depolanmıştır. Fakat
teknolojiyi yakından takip eden işletmeler tüm bu karmaşıklığın çözülmesi için kendi yapıları altında büyük
veriye yatırım yapmak durumunda kalmışlardır.
Büyük veriye sahip kuruluşlar için bu kaynak eşsiz fırsatlar sunarken beraberinde de bu büyük hacmi
yönetebilmek için çeşitli sorunları da çözmeye itmektedir. Bu sorunların başında büyük verinin saklanması,
işlenmesi ve anlamlı bilgilere erişim için gerekli araçlara sahip olunması gelmektedir. Klasik işleme araçlarının
yetersiz kalmasının yanında, donanım kaynaklarının da geliştirilmesi ihtiyacı oluşmaktadır. Dolayısıyla bu
alanda istihdam edilecek uzman personel ihtiyacı ve yeni bir yatırım maliyeti de gerektirmektedir. Bu
gerekçelerden ötürü kuruluşlar verinin bir kısmından çeşitli örneklemler alarak ve klasik makine öğrenmesi
yöntemleri ile analiz etme yoluna gitmektedir. Fakat burada tüm örneklem uzayını temsil edecek gerçek
değerleri bulunmamaktadır. Bu problemin çözümü için gelişmiş analiz uygulamalarına ve büyük kuruluşlara
yatırım yaparak; gerçek veri analizini tümüyle daha hızlı, daha doğru ve daha kapsayıcı olarak
yapılabilmektedir.
Şekil 1.’de görüldüğü üzere farklı ortamlardan gelen çok çeşitli bilgilerin toplandığı büyük veri ambarının
analizi, kuruluşların doğru kararlar almalarına ve stratejiler geliştirmelerine önemli katkılar sağlar. Her alanda
kendine yer bulan büyük verinin kullanım alanlarını sınırlamak da çok mümkün gözükmüyor.
Şekil 1.1. Büyük verinin yoğun bir şekilde elde edildiği alanlar
Kamu ve özel sektörde yer alan kurum ve kuruluşların elektronik ortamlarda kayıt altına aldığı verileri:
about:blank 4/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
§ Sistem günlükleri,
§ Sağlık kayıtları,
§ Devlet ve özel sektöre ait kayıtları (abone ve vatandaşlık bilgileri, üretim ve pazarlama bilgileri vb.)
her boyutuyla analiz etmek, bu verilerden anlamlı ve katma değerli örüntüleri çıkarmak büyük önem arz
etmektedir.
Yukarıda bahsi geçen veri ortamlarından 3 farklı yapıda veri elde edilmektedir:
1. Yapısal veri: Yapısal veri, analiz işlemlerinde modellenmesi, girdi olarak alınması, saklanması,
sorgulanması, işlenmesi ve görselleştirilmesi kolay olan tüm veri türlerini ifade etmektedir. Genel olarak,
belirli tür ve boyutlarda önceden tanımlı alanlarda sunulmakta, ilişkisel veri tabanlarında veya tablolarda
yönetilebilmektedir. Katı bir yapıya sahip olan bu veri türünde, süreçlerin yüksek performanslı yetenekler veya
paralel teknikler gerektirmemesinden dolayı faydalı bilgilerin elde edilmesi diğer veri türlerine kıyasla daha
kolaydır.
2. Yarı yapısal veri: Yarı yapısal veya kendi kendini açıklayan (self-describing) veri, yapısal bir veri türünü
yansıtmakla birlikte özünde sadece katı bir modeli barındırmamaktadır. Diğer bir ifadeyle yarı yapısal veri,
yapısallığın tanımlandığı modellerin yanı sıra belirli ögeleri ve verideki farklı alanların hiyerarşik bir
gösterimini tanımlamak adına kullanılan etiketler ve işaretler gibi çeşitli meta modelleri de bulundurmaktadır.
Yarı yapısal verinin en çok bilinen örnekleri arasında XML (Extensible Markup Language) ve JSON
(JavaScript Object Notation) programlama dilleri yer almaktadır.
3. Yapısal olmayan veri: Yapısal olmayan veri, tanımlı bir format haricinde sunulan ve depolanan kayıt
türleridir. Genellikle kitaplar, makaleler, belgeler, e-postalar gibi serbest formatlardaki metinlerden ve resim,
ses, video gibi medya dosyalarından oluşmaktadır. Bu türdeki verinin katı bir şekilde sunulmasının zor olması,
veri işleme süreçlerinde NoSQL (Not only SQL) gibi yeni mekanizmaların ortaya çıkmasına neden olmuştur
[1].
Bununla birlikte mobil teknolojilerinin yaygınlaşması ve Android cihazların her alanda kullanılmasının da
katkısıyla bu veriler çok yoğun bir trafik sağlamakta ve GSM ürün geliştiricileri için yapısal olmayan bir
büyük veri ortamı oluşturmaktadır (Şekil 1.2).
about:blank 5/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Müşteri Davranışları: Büyük verinin bugün en çok bilinen kullanım alanlarının başında müşteri davranışları
gelmektedir. Firmalar web sitelerini ve sosyal medya hesaplarını topladıkları veriler sayesinde analiz ederek
müşteri eğilimlerini belirleyerek ve bu eğilimlere göre yeni stratejiler geliştirmektedir. Yani firmalar uygun
müşteri kitlelerine ulaşmak için müşteri davranışlarını incelerler. Diğer bir deyişle, büyük veri müşteri
davranışlarını daha doğru tahmin etmeye yardım eder.
Örneğin, ABD merkezli perakende zinciri Target, müşterilerinin alışveriş ve arama sonuçlarını dikkate alarak
müşterilerin hamile olup olmadığını öğrenebiliyor ve buna uygun ürünleri reklam alanlarında göstererek hedef
kitleye ulaşmayı amaçlıyor. Benzer şekilde, araç sigorta şirketleri müşterilerinin ne derecede iyi bir sürücü
olduğunu, telekomünikasyon şirketleri müşterilerinin telefon kullanım alışkanlıklarını büyük veri analizi
sayesinde daha iyi biliyor ve müşterilerine farklı yaklaşımlarla ulaşmayı hedefliyorlar.
Lojistik ve İnsan Kaynakları: Büyük veri iş dünyasında da sıkça kullanılmaya başlamıştır. Perakende
şirketleri; sosyal medya verileri, arama motoru verileri ve hava tahmini raporlarına göre stoklarındaki malların
niteliğini ve niceliğini optimize etmektedirler. Yani bir ürüne ilgi bir anda patladıysa, insanlar Google’da “deli
gibi” o ürünü arıyorlarsa perakende şirketi envanterinde bulunan o ürünün miktarını artırma yoluna büyük veri
analizi sayesinde gitmektedir.
Tedarik zinciri ve ürün teslim rotasının optimize edilmesi de yine büyük veri analizi sonucunda
gerçekleşmektedir. Mevcut trafik durumuna göre coğrafik konum ve GPS sensörleriyle teslimat araçlarının en
kısa mesafeden hedefe ulaşmaları büyük veri analizi sayesinde olmaktadır.
İnsan kaynakları alanında büyük veriyi kullanan firmaların başında gelen Sociometric Solutions şirketinin
yaptığı büyük veri uygulamasında süreç şöyle işliyor: Şirkette çalışan personelin yakasına bir sensör
yerleştirilerek bu sensör sayesinde çalışanın gün içinde kaç kişiyle konuştuğunu, ne kadar yürüdüğünü, molada
ne kadar zaman geçirdiğini, günde kaç telefon görüşmesi yaptığını ve hatta konuşmalardaki ses tonunu dahi
kaydetmektedir. Bu sayede o çalışanın performansı ve psikolojisi hakkında bilgi toplanarak analiz
edilmektedir.
Ölçüm ve Performans Analizi: Büyük veri sadece şirketler ve devlet kurumları için değil; bireysel analizler
için de kullanılabilir. Giyilebilir akıllı cihazlardan toplanan veriler, insan sağlığı ile ilgili bilimsel
araştırmalarda kullanılmaktadır. Bireylerin harcadığı kalori miktarı, günlük yürüme mesafesi, uyku düzeni gibi
bilgiler milyonlarca kişiden toplandığı zaman bu konularda olumlu araştırmalar ve buna bağlı çözüm önerileri
ortaya çıkmaktadır.
Jawbone adlı şirketin Up adlı akıllı bilekliği her gece 60 yıllık uyku verisi toplamakta ve bu kadar veriden elde
edilen analizler kullanıcılara feedback olarak geri dönmektedir.
Sağlık: Modern bilgisayarların gelişmiş donanım kaynakları üzerinde analiz edilen büyük veri sayesinde tüm
DNA sarmallarını dakikalar için deşifre etmek mümkün hale gelmiştir. Elde edilen bilgiler neticesinde
hastalıklara yeni tedavi yöntemleri bulmayı ve hastalıkların nasıl bir seyir izleyeceğini anlamada kolaylık
sağlamaktadır. Akıllı saatler ve giyilebilir cihazlardan toplanan milyonlarca veriden elde edilecek büyük veri
düşünüldüğünde de elde edilen tıbbi numuneler sayılı insanlardan değil, milyonlarca insandan tedarik
edilmekte ve topluma genellenebilir çıktılar elde edilmektedir.
Apple’ın yeni sağlık uygulaması ResearchKit, cep telefonunu biyomedikal bir araştırma cihazına
dönüştürmüştür. Bilim insanları bu uygulama sayesinde topladıkları veriler aracılığı ile yeni çalışmalar
yürütebilmektedir. Buna benzer uygulamaların yaygınlaşmasıyla sürecin daha kolay ve daha hızlı işlemesi;
daha doğru sonuçların ortaya çıkmasına imkan sağlamaktadır.
Sporcu Performansı: Pek çok spor dalında büyük veri analizinden yararlanılmaktadır. Örneğin, IBM’in
SlamTracker uygulaması, tenis turnuvalarında kullanılmakta ve oyuncuların hareketleri video bazlı analiz
edilerek oyunu geliştirmek için antrenörlere bir rapor olarak sunulmaktadır. Benzer şekilde; golf topu ve
sopası, basketbol topu gibi farklı spor ekipmanlarına takılan sensörler de oyunculara ve antrenörlere
about:blank 6/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
kullanabilecekleri veriler sunmaktadır. Ayrıca atletlere ve sporculara takılan çipler sayesinde spor etkinliği
dışında da sporcular takip edilebilmekte; uyku ve beslenme alışkanlıkları izlenebilmektedir. Sporcuların sosyal
medya paylaşımları analiz edilerek psikolojik durumları tahlil edilebilmektedir.
Amerikan Futbolu Ligi NFL’de de takımlara karar verme aşamalarında destek sağlayan uygulamalar
kullanılmaktadır. Çim durumu, hava durumu, oyuncuların dönemlik performansları gibi veriler elde edilmekte,
böylece her takımın en iyi performansı sergilemesi olanağının yanında sakatlıkların önüne de geçilmektedir.
CERN veri merkezinde 65.000 işlemci, 30 petabayt veriyi işlemek için 150 farklı veri merkezindeki
bilgisayarlardan yararlanmaktadır. Bu kadar devasa bir bilgisayar gücü bilimsel araştırmalarda çağ
atlatabilecek düzeyde donanım kaynağı sağlamaktadır.
Makine ve Cihaz Performans Optimizasyonu: Büyük veri analizi makine ve cihazların daha akıllı ve daha
otonom olmasına önemli katkılar sağlamaktadır. Örneğin, Toyota Prius içine entegre edilen kameralar, GPS
araçları ve sensörler sayesinde insan müdahalesi olmadan yol alabilmektedir. Ayrıca büyük veri araçları
sayesinde Google şirketi de kendi kendini sürebilen otomobil üretmeyi hedeflemektedir.
Xcel Energy, ABD’nin Colorado eyaletinde “akıllı şebeke” denemelerine başlamış durumdadır. Buna göre
evlere yerleştirilen sensörler sayesinde insanlar internet üzerinden günlük enerji, su, gaz kullanımlarını gerçek
zamanlı görebilmektedir. Buradan toplanan veriler de şirketlerin ve belediyelerin altyapı gereksinimleriyle
ilgili sağlam öngörülerde bulunmasına yardımcı olmaktadır.
Akıllı Şehircilik ve Belediyecilik: Büyük veri, şehir ve ülke altyapısı için kullanılmaktadır. Örneğin, sosyal
medya ve hava durumu bilgileriyle, trafik ışıklarının sürelerini ayarlamak ve trafiğin akışını optimize etmek
mümkün hale gelmiştir. Altyapı ve hizmetler arasında da büyük veri analizi aracılığıyla ilişki kurmak mümkün
olmuştur. Geciken trenden bilgi alan otobüsün yolcuları beklemesi buna örnek olarak verilebilir.
Kaliforniya’nın Long Beach kenti de sulama şebekesini akıllı sayaçlarla izleyerek illegal sulamaların önüne
geçilmiş olup bu yolla yılda %80’e varan su tasarrufu sağlanmıştır.
Finans: Finans sektöründe büyük veri, özellikle yüksek frekanslı alım satım alanında sıkça kullanılmaktadır.
Büyük veri algoritmaları alım-satım kararını vermede etkili bir şekilde kullanılmaktadır. Hisse senedi alım
satımları da sosyal medyadan ve haber sitelerinden toplanan verilerden istifade edilerek saniyeler içinde
gerçekleştirilebilmektedir.
Karmaşık algoritmalarıyla piyasaları tarayarak yatırım, alım-satım fırsatları aramak için kullanılan bilgisayarlar
insan müdahalesi olmadan müşterinin ihtiyaç ve isteklerine göre programlanabilmektedir.
about:blank 7/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Variety (Çeşitlilik): Üretilen verinin yüzde 80’i yapısal değildir ve her yeni üretilen teknoloji, farklı
formatlarda veri üretebilmektedir. Telefonlardan, tabletlerden, bütünleşik devrelerden gelen türlü çeşitlilikte
veri tipleri ile uğraşılması gerekmektedir. Bir de bu verilerin farklı dillerde, non-Unicode olabileceğini
düşünürseniz, bütünleşik olmaları, birbirlerine dönüşmeleri de gereklidir.
Velocity (Hız): Büyük verinin üretilme hızı çok yüksektir ve gittikçe artmaktadır. Daha hızlı üreyen veri, o
veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğurmaktadır.
Volume (Veri Büyüklüğü): International Data Corporation (IDC) istatistiklerine göre 2020’de ulaşılacak veri
miktarı, 2009’un 44 katı olacak. Kurumların veri arşivleme, işleme, bütünleştirme, saklama vb. teknolojilerinin
bu büyüklükte veri hacmi ile nasıl başa çıkacağının kurgulanması gerekmektedir. 2010'lu yıllarda dünyadaki
toplam bilişim harcamaları yılda %5 artarken üretilen veri miktarı sadece %40 artmaktaydı.
Verification (Doğrulama): Bilgi yoğunluğu içinde verinin akışı sırasında “güvenli” olması da bir diğer
bileşendir. Akış sırasında, verinin doğru akması ve istenilen güvenlik seviyesinde izlenmesi, doğru kişiler
tarafından görünmesi veya gizli kalması gerekebilir.
Value (Değer): En önemli bileşen ise değer yaratmasıdır. Belirtilen eforlarla tarif edilen büyük verinin, veri
üretim ve işleme katmanlarından sonra kurum için bir artı değer yaratması gerekmektedir. Karar veriş
süreçlerinize anlık olarak etki edebilmesi, doğru kararın verilebilmesi için kolay erişilebilir olması
gerekmektedir. Örneğin; sağlık konusunda stratejik kararlar alan bir devlet kurumu anlık olarak bölge, il, ilçe
vb. detaylarda hastalık, ilaç, doktor dağılımlarını görebilmelidir. Hava Kuvvetleri, bütün uçucu envanterindeki
taşıtlarının anlık yerlerini ve durumlarını görebilmeli, geriye dönük bakım tarihlerini izleyebilmelidir [4].
Veri Güvenliği: Verilerin dijital ortamda tutulmasından kaynaklı ve içerisinde barındırdığı değerli bilgilerin
dışarıdaki art niyetli kişilerce ele geçirilmesi hususunda gerekli önemlerin alınması gerekmektedir.
Veri Gizliliği: Oluşturulan büyük veri, bireylerin özel birçok önemli bilgisini içermektedir. Giderek açığa
çıkarılan kişisel veri miktarı ile büyük veri tarafından desteklenen uygulamaların ve hizmetlerin sunduğu
imkanlar arasında bir denge kurulması gerekmektedir. Ayrıca veriyi toplayan kurum tarafından da verilerin
gizliliğinin sağlanması kötü amaçlı kullanılmaması önem arz etmektedir.
about:blank 8/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Veri Ayrımcılığı: Bireylerin yaşantılarında sahip oldukları mahrem verilere dayanarak insanlara karşı
ayrımcılık yapma olasılıklarının ortadan kaldırılması gerekmektedir. Örneğin, kişilerin banka kredisi
alabilmelerine karar vermek için kullanılan kredi puanlama ve sigorta işlemleri yoğun bir şekilde mahrem
veriye dayanmaktadır. Daha ayrıntılı analiz ve değerlendirme daha az kaynak veri ve bilgiye erişim ile
sağlanabilmelidir. Bu işlemlerin neticesinde bireylerin hayatlarını zor hale getirecek çıktılardan kaçınılması
ayrımcılık altında dikkat edilmesi gereken bir husustur [5].
Bu zorlukların üstesinden gelmek, büyük verinin önemli bir sorunudur. Veriden yararlanmak isteyen kuruluşlar
tarafından ele alındığı gibi yasalarla da denetlenmelidir. Bunu yapmamak, işletmeleri sadece itibarı açısından
değil, yasal ve mali açıdan da savunmasız bırakabilir.
Bölüm Özeti
Büyük veri kavramından önce veri kavramını anlamanın önemini ve verinin türlerini bilmek gerekmektedir.
Büyük veri; verinin analiz edilip sınıflandırılmış, anlamlı ve işlenebilir hale dönüştürülmüş büyük hacimli
halidir. Dijitalleşen dünyanın elektronik kayıtlarının artması ve çok çeşitli formatlarda veri elde edilmesinden
kaynaklı olarak verinin hem toplanması hem de saklanması için yatırıma ihtiyaç duyulmaktadır. Bu nedenle,
küçük işletmelerden ziyade büyük firmaların odak noktası haline gelmiştir. Bu büyük firmalar çok çeşitli
sektörlerde bulunmakla birlikte temel odak noktaları toplanan büyük veriler ile müşterilerine daha akılcı
çözümler ve ürünlerle ulaşmaktır. Bu sayede hizmet kalitelerini yükselterek ekonomik girdilerini
arttırmaktadırlar.
Büyük veri platformunun oluşumunda beş ana bileşen bulunmakla birlikte bunlar 5V (variety, velocity,
volume, verification ve value) olarak isimlendirilmektedir. Büyük verinin bu 5 bileşenine sahip kuruluşlar
avantajlarının yanı sıra bazı sorunları ve kaygıları da minimize etmek durumunda kalmaktadırlar. Bunlar; veri
güvenliği, veri gizliliği ve veri ayrımcılığıdır. Bu zorlukların üstesinden gelmek, büyük verinin önemli bir
zorunluluğudur. Bu zorunlulukları yerine getirmeyen işletmeler sadece itibar açısından değil, yasal ve mali
açıdan da olası zararlara karşı savunmasız kalabilir.
Kaynakça
[1] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O.,
Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.
[2] Lugmayr, A., Lugmayr, A., Stockleben, B., Stockleben, B., Scheib, C., Scheib, C., ... & Mailaparampil, M.
A. (2017). Cognitive big data: survey and review on big data research and its implications. What is really
“new” in big data?. Journal of Knowledge Management, 21(1), 197-212.
[3] Özgür, Ç. A. R. K., YILDIZ, İ., & KARADENİZ, A. T. (2019). Sanayi 4.0 Kapsamında İşletmeler
Açısından Büyük Veri. International Journal of Multidisciplinary Studies and Innovative Technologies, 3(2),
114-120.
URL: https://tr.wikipedia.org/wiki/Büyük_veri
URL:https://www.yeniisfikirleri.net/buyuk-veri-big-data-nerelerde-ve-nasil-kullaniliyor/
Ünite Soruları
Soru-1 :
(Çoktan Seçmeli)
(E) Karanlık veri bir veri sınıfı olup anlaşılamayan veri gruplarını kapsamaktadır.
Cevap-1 :
Soru-2 :
(Çoktan Seçmeli)
(A) Dijital ortamlardaki birçok farklı kaynaktan elde edilen büyük hacimdeki verilerin anlamlı ve işlenebilir
hale getirilmiş biçimine denir.
(B) Büyük veri aynı formattaki farklı veri gruplarının bir araya gelmesinden oluşmaktadır.
(C) Büyük ölçekli bilgilerin analiz edilerek anlamlı örüntülerin ortaya çıkması olarak ifade edilebilmektedir.
(D) Büyük veri TeraByte, PetaByte, EkzaByte veya ZetaByte şeklinde farklı hacimlerde bulunabilmektedir.
(E) Mobil teknolojilerin gelişmesi ve Android sistemlerin yayınlaşması ile önemli bir büyük veri toplama
ortamı ortaya çıkmıştır.
Cevap-2 :
Büyük veri aynı formattaki farklı veri gruplarının bir araya gelmesinden oluşmaktadır.
Soru-3 :
(Çoktan Seçmeli)
(A) Çeşitlilik
(B) Değer
(C) Veri
(D) Hız
(E) Doğrulama
Cevap-3 :
Veri
about:blank 10/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Soru-4 :
Büyük verinin kullanımının pek çok alanda sağladığı avantajların yanı sıra bazı kaygılara da sebep
olduğu bilinmektedir. Verilen bilgilerden hangileri bu kaygılardandır?qq
I. Veri ayırımcılığı
(Çoktan Seçmeli)
(A) I-II
(B) II-IV
(C) I-II-III
(D) I-II-IV
(E) Hepsi
Cevap-4 :
I-II-IV
Soru-5 :
Genellikle kitaplar, makaleler, belgeler, e-postalar gibi serbest formatlardaki metinlerden ve resim, ses,
video gibi medya dosyalarından oluşan tanımlı bir format haricinde sunulan ve depolanan kayıt türü
aşağıdaki veri türlerinden hangisidir?
(Çoktan Seçmeli)
Cevap-5 :
Soru-6 :
Erişemediğimiz ancak nitelikli varsayımlar yapabildiğimiz ve analiz ettiğimiz sistemin bir parçası olan
veri grupları aşağıdakilerden hangisidir?
(Çoktan Seçmeli)
about:blank 11/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-6 :
Gri veri
Soru-7 :
Aşağıdakilerden hangileri büyük verinin yoğun bir şekilde elde edildiği alanlardandır?qq
I. Sağlık teknolojileri
III. Üretim-pazarlama
IV. Altyapı
V. Ulaşım
(Çoktan Seçmeli)
(A) I-II-V
(B) II-III-IV
(C) I-II-III
(D) I-II-IV
(E) Hepsi
Cevap-7 :
Hepsi
Soru-8 :
Bir araç sigorta şirketinin müşterilerinin iyi bir sürücü olup olmadığını büyük veri analizi sayesinde daha iyi
biliyor ve müşterilerine farklı yaklaşımlarla ulaşmayı hedefliyorlar. Bu durum büyük verinin aşağıdaki
kullanımlarından hangisi için bir örnektir?
(Çoktan Seçmeli)
(E) Araştırma-Geliştirme
Cevap-8 :
Müşteri Davranışları
Soru-9 :
'Bilgi yoğunluğu içinde verinin akışı sırasında güvenli olması’ büyük veri platfomundaki hangi bileşenle
ilgilidir?
(Çoktan Seçmeli)
(A) Variety
(B) Velocity
(C) Volume
(D) Verification
(E) Value
Cevap-9 :
Verification
Soru-10 :
Büyük veri için farklı formatlarda veriler toplanmaktadır. Aşağıdakilerden hangileri bu formatlardandır?
I. Ses kaydı
II. Video,
V. Fotoğraf
(Çoktan Seçmeli)
(A) I-III
(B) II-IV-V
(C) I-II-V
(D) I-II-IV
(E) Hepsi
Cevap-10 :
Hepsi
about:blank 13/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Başlamadan Önce
Büyük veri ilk olarak veri kavramından doğmuştur. Gelişiminde; kapsamlı veri, büyük veri ve son olarak
SMART veri olarak isimlendirilmiş olup veriden istatistiksel olarak anlamlı sonuçlar çıkarmayla gelişimine
başlamıştır.
Büyük veri kümeleri, ilk olarak 1600'lü yıllarda veriden istatistik yöntemler ile anlamlı sonuçlar çıkarmaya
dayanmaktadır. 1960-1970'li yıllarda ortaya çıkan bilgisayarlar ile ilk veri merkezleri ve veri tabanlarının
geliştirilmesiyle birlikte veri dünyası günümüzde bilinen halini almaya başlamıştır.
IBM’in 1956 yılında üretmiş olduğu bilgisayarın sadece 5 MB hard diski bulunuyordu ve bu hard disk Şekil
2.1.’de görüldüğü üzere forklift yardımıyla taşınabiliyordu. Bugün ise 5 TB hard diski cebe sığacak küçüklükte
bulunmakla birlikte cep telefonlarının ve kişisel bilgisayarların internete bağlanması ile sınırsız denebilecek
büyük veriye erişim imkanı doğmuştur.
about:blank 14/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
1960’lı yıllarda insanlık ilk kez kendi dünyasının dışına çıkmış aya ayak basmıştır. O gün aya yollanmış olan
Apollo uzay mekiğinin bilgisayarı tam 32 kiloydu ve bu bilgisayar sadece 1 mhz işlemciye 2 kb hafızaya
sahipti. Bugün boş bir word dosyasına isminizi soy ismini yazıp kaydettiğinizde 10 kb’tan fazla yer
kaplamaktadır. Bunun en önemli nedenlerinin başında depolama alanlarımızın büyümesi ve bilgisayar
kaynaklarının gelişmesi gelmektedir. Buna paralel olarak toplanan veri miktarı artmış ve farklı kavramlar
olarak karşımıza çıkmıştır. Şekil 2.2’de görüldüğü gibi büyük veri gelişim yolculuğunda farklı kavramlarla
isimlendirilmiştir.
SMART veri (self-monitoring, analysis and reporting technology / kendini izleme, analiz ve raporlama
teknolojisi) ile büyük veriyi analiz etmek ve raporlayabilmek büyük verinin tarihsel gelişiminde önemli bir
dönüm noktası olmuştur.
Verinin ilk olarak duran veri formunda elde edilmesi ile başlayıp sırasıyla bağlı veriler, zaman serileri ve
akışkan verileri olarak Şekil 2.3’de görülen farklı veri türleri olarak tarihsel gelişiminde karşımıza çıkmaktadır.
about:blank 15/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Başta Facebook, YouTube gibi sosyal medya platformları ve diğer çevrimiçi hizmetler yoluyla kullanıcıların
ürettiği veriler gözlemlenmeye ve anlaşılmaya başlandı. Aynı zamanda büyük veri kümelerini depolamak ve
analiz etmek için oluşturulan açık kaynaklı bir sistem olan Hadoop uygulaması geliştirildi. Buna paralel olarak
da bir veri tabanı uygulaması olan NoSQL de popülerlik kazanmaya başladı. Hadoop vb. açık kaynaklı
sistemlerin geliştirilmesi sayesinde büyük verilerin gelişimi ve bu veri üzerinde daha ucuz ve daha hızlı
geliştirilen sistemler, büyük verilerin koordineli şekilde çalışmasını ve depolanmasını mümkün hale getirmiştir.
Tarihsel gelişiminde üstel olarak artan veri miktarını işleyecek bilgisayar kaynakları da bunu gelişimi
tetiklemiştir. Kullanıcılar hala çok büyük miktarlarda veri oluşturmaya devam ediyor ancak veri oluşturma
işlemini yalnızca insanların yaptığını düşünmek bizleri büyük bir yanılgıya düşürebilir.
İnternet altyapısının gelişmesi ve 5G teknolojilerinin ortaya çıkması ile Nesnelerin İnterneti (IoT) kavramı
doğmuştur. Nesnelerin İnterneti (IoT) ile müşteri kullanım şekilleri ve ürün performansı hakkında veri
toplanması yoluyla internete daha fazla nesne ve cihaz bağlanır duruma gelmiştir. Bunun yanında yapay zeka
kavramının temelinde yer alan örneklerden öğrenme işlemi için gerekli verilerin ortamlardan sürekli
toplanması ile kaliteli veri hacmi artmıştır.
Bulut bilişim teknolojilerinin artması, uygun depolama ortamlarının büyük firmalar tarafından tesisi ile birçok
kurum ve kuruluşun büyük verilerini bu ortamlara taşımalarına olanak sağlayarak hacimde artışa neden
olmuşlardır. Bulut bilişim ortamı, geliştiricilerin bir veri kümesini test etmek için geçici kümeleri kolayca
işleme sokabilecekleri oldukça esnek ölçeklenebilirlik sunan bir platform olarak karşımıza çıkmaktadır.
Büyük veri, son yıllarda iş dünyasında devrim yaratan teknolojilerin başında gelmektedir. Büyük veriyi;
şirketlerin makine öğrenimi, tahmine dayalı modelleme ve diğer gelişmiş veri analitiği uygulamaları
aracılığıyla iş maksatlı kullanabilecekleri bilgi koleksiyonu olarak görmeleri bu konuya ilgiyi arttırmıştır. Şekil
2.4’te görüldüğü üzere toplanan veriden anlamlı sonuçlar çıkarıldıkça şirketler bu sonuçlar üzerine önemli
stratejiler geliştirmiş, kurumları için ekonomik girdilere ve karar alma süreçlerine yansıtmaya başlamıştır. Bu
süreçleri gören diğer kurum/kuruluşlar da bunun üzerine yönelmişlerdir. Dolayısıyla enformasyon oranları
artarak içerik zenginleşmiş, veriyi anlama ve veriden anlamlı bilgi çıkarımı artmıştır.
1663: İngiltere'de meydana gelen kara ölüm olarak da bilinen hıyarcıklı veba salgını ile ilgili Londralı bilim
insanı John Graunt’in sunduğu istatistiksel veri analizi, büyük veri için milat olarak kabul edilir. Yaptığı
çalışma ile ölüm nedenlerini sistematik olarak ölçmeye çalışan Graunt, ölüm oranlarını ve bunların
varyasyonlarını kaydettiği ilk halk sağlığı kayıtları koleksiyonunu 1663’te yayınladı.
1865: Yazar Richard Millar Devens "Cyclopædia of Commercial and Business Anecdotes" adlı kitabında
“Business Intelligence” yani “İş Zekası” terimini ilk kez kullanır. Devens kitabında bir bankacının kar elde
etmek için çevresinden gelen bilgileri nasıl kullandığını anlatmıştır. Bugün bildiğimiz anlamıyla, verileri analiz
etme ve ardından eyleme dönüştürülebilir bilgiler sunmak için kullanma süreci olan iş zekasının 1960-85
yılları arasında gelişen karar destek sistemlerinden (DSS: Decision Support Systems) geliştirildiği söylenebilir.
1884: Dr. Herman Hollerith, veri işlemenin başlangıcı olarak kabul gören delikli kartı kullanarak istatistik
verilerinin daha hızlı bir biçimde değerlendirilmesini mümkün kılan makine ve sistemi icat eder. Hollerith’in
geliştirdiği sistem 1890'da ABD'nin nüfus sayımı verilerini işlemek için kullanıldı. 1911'de Dr. Herman
Hollerith, sonrasında ismi IBM olacak olan Computing-Tabulating-Recording şirketini kurdu.
1990: Hubble Teleskobu, 1990 yılında uzaya fırlatılmış olup yaklaşık 4 metre büyüklüğünde bir uzay
teleskobudur. Yaklaşık olarak bir evin odası büyüklüğünde olan bu teleskop, fırlatıldığı tarihten itibaren sadece
bir yıl içerisinde insanlık tarihi boyunca üretilen veriden daha fazla veri üretilmiştir. Yaklaşık 30 yıldır insanlık
için veri üreten Hubble teleskobunun veri birikiminin büyük veri örneklerinden en değerli bilgileri içeren bir
örneği olarak görülmektedir.
1926: Tesla, 1926 yılında teknolojinin geleceğini yorumladığı röportajında, insanların bir gün "yelek cebinde"
taşınabilen bir cihaz aracılığıyla büyük miktarda veriye erişebileceklerini öngörür. Tesla, bu değerlendirmeyi
kablosuz teknolojinin parçacıkları değiştireceği konusundaki anlayışına dayanarak tahmin etmiş ve bu konuda
şu yorumu yapmıştır: "Kablosuz teknolojiyle tüm dünya devasa bir beyne dönüşecek ve mesafeden bağımsız
olarak birbirimizle anında iletişim kurabileceğiz.”
1928: Alman mühendis Fritz Pfleumer, 1928 yılında çelik tel yerine üzeri demir oksit tanecikleri kaplı kağıt
şeride çok daha kaliteli ses kaydı yapmayı başardı. Daha sonra da ünlü Alman firması AEG’nin desteğiyle
kağıt yerine ince plastik şerit kullanarak daha pratik ve kaliteli manyetik kayıtlar geliştirdi.
1943: İngiltere’de İkinci Dünya Savaşı sırasında düşmanın gizli haberleşme kodlarını çözmek için teorik bir
bilgisayar ve ilk veri işleme makinelerinden biri icat edildi. Bletchley Park’taki kod çözme merkezinde
faaliyete geçen ilk büyük ölçekli elektronik bilgisayar olan Colossus, büyük hacimli verileri analiz etmek için
kullanıldı.
1959: IBM programcısı ve yapay zeka biliminin öncüsü Arthur Samuel, 1952'de "Makine Öğrenimi" terimini
ortaya attı.
1965: ABD, milyonlarca vergi beyannamesi ve parmak izini manyetik bantta saklamak için ilk veri
merkezlerini inşa etmeye başladı.
1969: Dağıtık kontrol ve TCI/IP protokollerini içeren ilk geniş alan ağı olan Advanced Research Projects
Agency Network (ARPANET) kuruldu. Bu, günümüz internetinin temelinin atılması anlamına geliyordu.
Bilgisayarlar, internet sayesinde katlanarak daha yüksek oranlarda bilgi paylaşmaya başladıkça, büyük verinin
gelişimindeki bir sonraki aşama da şekillenmeye başladı.
1989 ve 1990: Tim Berners - Lee ve Robert Cailliau, World Wide Web, HTML, URL ve HTTP protokolünü
geliştirdiler. Böylece verilere yaygın ve kolay erişim ile internet çağı başlamış oldu.
about:blank 17/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
1996: Dijital veri depolama, ilk kez kağıda bilgi depolamaktan daha uygun maliyetli hale geldi. Bu bilgi R. J.
T. Morris ve B.J. Truskowski’in 2003 yılında IBM Systems Journal’da yer alan "Depolama Sistemlerinin
Evrimi" makalesinde yer aldı.
1997: Google, bugün kullandığı alan adını 15 Eylül 1997'de etkinleştirdi ve 4 Eylül 1998'de Google şirketi
resmen kuruldu. Arama motoru devrimi ile makine öğrenimi, büyük veri ve analitik teknolojiler de dahil olmak
üzere çok sayıda diğer teknolojik yeniliğin geliştirilmesine başlanmadan bir yıl önce “Google.com”
tescillenmiş oldu.
1998: “NoSQL” sözcüğü ilk defa Carlo Strozzi tarafından 1998 yılında kullanıldı. Geliştirdiği ilişkisel veri
tabanının sorgulama dili olarak SQL’i kullanmadığını belirtmek isteyen Strozzi, açık kaynak kodlu veri tabanı
için “NoSQL DB” ‘ismini kullandı.
1999: İlk baskısı 2000 yılında yayımlanan Hal R. Varian ve Peter Lyman'ın “How Much Information” isimli
kitabı 1999'daki verilere dayanarak, bugüne kadar dünyada mevcut olan dijital bilgi miktarını belirlemeye
çalıştı.
Bugün bildiğimiz anlamıyla büyük veri teknolojisi 2000 yılının başı itibarıyla hayatımıza girmeye başladı ve
dokunduğu tüm endüstrileri etkileyerek dijital dünyada yeni bir dönemin kapısını açtı.
2001: Bilgi teknolojileri firması Gartner'dan Doug Laney, 3V'yi (hacim, çeşitlilik ve hız) kullanarak büyük
verinin boyutlarını ve özelliklerini tanımladı. Büyük verinin ne anlama geldiğini çok iyi özetleyen bu tanım, bu
teknolojinin 21. yy için ne kadar önemli olduğunu da ortaya koymuştur. Bu açıklamanın ardından doğruluk,
değer ve değişkenlik gibi alt özellikler de büyük veri tanımına eklenmiştir.
2005: Bilgisayar bilimcileri Doug Cutting ve Mike Cafarella, Yahoo'dan ayrılan mühendislerden oluşan bir
ekip ile büyük veri kümelerini depolamak ve işlemek için kullanılan açık kaynaklı yazılım araçları koleksiyonu
Apache Hadoop'u (Şekil 2.5) geliştirdi.
2006: Amazon Web Services (AWS), bulut bilişim olarak bilinen web tabanlı bilgi işlem altyapısı hizmetleri
sunmaya başladı. Şu anda AWS, küresel pazar payının yaklaşık üçte biri ile bulut hizmetleri sektörünün
hakimidir.
2008: Dünyadaki tüm CPU'ların, kişi başına yaklaşık 12 gigabayta eşit olan 9,57 zettabayttan (veya 9,57
trilyon gigabayt) fazla veri işlediği açıklandı. Küresel olarak yeni bilgi üretimi tahmini olarak 14,7 eksabayt
büyüklüğündedir.
2009: Gartner, iş zekasının CIO'lar için en önemli öncelik olduğunu açıkladı. Büyük Durgunluk nedeniyle bir
ekonomik dalgalanma ve belirsizlik dönemiyle karşı karşıya kalan şirketler için artık veriden değer yaratmak
vazgeçilmez hale gelmeye başladı.
2011: McKinsey, 2018 yılına kadar ABD'nin analitik yetenek sıkıntısı ile karşı karşıya kalacağını açıkladı.
Buna göre söz konusu tarihe kadar ABD’nin derin analitik becerilere sahip 140 bin - 190 bin kişiye ve doğru
veriye dayalı kararlar alma becerisine sahip 1,5 milyon analist ve yöneticiye ihtiyacı olacaktı.
about:blank 18/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Ayrıca Facebook, enerji açısından verimli veri merkezleri için teknik özellikleri paylaşmak üzere Open
Compute Project’i başlattı. Girişimin hedefi, maliyetleri %24 düşürüp, enerji verimliliğinde %38 artış
sağlamaktı.
2012: ABD, ulusal güvenlik ve öğrenme dönüşümü vizyonu kapsamında veriden değerli iç görüler elde etme
ve STEM uygulamalarının büyümesini hızlandırmak için 200 milyon dolarlık bir taahhütle Büyük Veri
Araştırma ve Geliştirme Girişimi'ni duyurdu. STEM’e o dönemde sanatı temsilen “A” harfi eklendi ve
STEAM oldu.
Harvard Business Review, veri bilimci mesleğini 21. yüzyılın en arz edilen mesleği ilan etti. Daha fazla şirket,
yapılandırılmamış verileri sıralama ve bunlardan iç görü elde etme ihtiyacını anladıkça, veri bilimcilere olan
talep de arttı.
2014: ABD'de masaüstü bilgisayarlardan daha fazla mobilden internete erişim sağlandığı verisi ilk kez rapor
edildi. Dünyanın geri kalanı takip eden 2 yıl içinde ABD’yi bu konuda yakaladı.
2016: Dünyadaki verilerin yüzde doksanının yalnızca son iki yılda oluşturulduğu açıklandı. IBM, her gün 2,5
kentilyon bayt veri oluşturulduğunu bildirdi.
2017: IDC, büyük veri analizi pazarının 2020'de 203 milyar dolara ulaşacağını tahmin etti.
2020: Allied Market Research, büyük veri ve iş analitiği pazarının 2019'da 193,14 milyar dolara ulaştığını ve
yıllık %10,9'luk bileşik büyüme oranında 2027'ye kadar 420,98 milyar dolara çıkacağını tahmin etti.
Teknoloji çok hızlı gelişiyor. 2020 yılına geldiğimizde dünya üzerinde yaşamını sürdüren her bir insan
saniyede ortalama 1.7 megabayt veri üretmektedir. Dünya nüfusu ile düşünüldüğünde ve bireyin yaşam süresi
dikkate alındığında toplanan verinin boyutu oldukça büyük hacimdedir.
Hızlı, neredeyse gerçek zamanlı analiz ve yanıt sağlamak için verilerin oluşturuldukları yere yakın bir şekilde
işlenmesi, analiz edilmesi ve depolanması anlamına gelen sınır bilişim, büyük verinin bir adım sonrasını ifade
ediyor. Bu kavram önümüzdeki yıllarda çok daha fazla karşımıza çıkması beklenmektedir. Bağlı cihazların her
geçen gün artması, buluta artan bağımlılığımız ve yaklaşan uç bilgi işlem devrimi nedeniyle, büyük veri odaklı
atılması gereken çok fazla adım bulunmaktadır.
Örneğin, makine öğrenimi, yapay zeka ve IoT analitiği gibi teknolojiler; verileri işleme, analiz etme ve bunlara
göre hareket etme becerimizi büyük ölçüde geliştirerek sınırları zorlamaya devam ediyor. Büyük veri ve
analitikte önemli gelişmelerin çok kısa süre içinde hayatımıza gireceği bir gerçektir.
Her ne kadar geleneksel sistemlerle büyük veri kullanmaya başlamış olsak da asıl büyümeyi yakalayabilmiş
değiliz. Gelecek 10 yıl içerisinde asıl devrimin yaşanması öngörülmektedir. İnternet’e bağlanabilen nesnelerin
kullanımının artmasıyla birlikte, anında nerede sorun olduğu bildirilecek ve böylece büyük miktarda veriler de
ortaya çıkacaktır. Bundan dolayı elimizdeki veri miktarında gelecek yıllarda büyük bir sıçrama beklenmektedir.
IDC verilerine göre 2025 yılında 163 zetabayt olacağı tahmin edilmektedir.
about:blank 19/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Şekil 2.6. Dünyada dijital verinin yıllar itibarıyla artışı (Kaynak: International Data Corporation (IDC), 2017).
Nicola Tesla’nın “Gelecekte insanlar cebine sığabilecek kadar küçük bir cihazla, uçsuz bucaksız miktardaki
veriye ulaşabilecek ve analiz edebilecekler.” sözleri bulut bilişim sistemleri ve arama motorları sayesinde
günümüzde mümkün hale gelmiş olup gelecekle ilgili bizlerin neleri beklediği ise tam bir muammadır.
Bölüm Özeti
Büyük veri kavramının miladı, İngiltere'de meydana gelen kara ölüm olarak da bilinen hıyarcıklı veba salgını
ile ilgili Londralı bilim insanı John Graunt’in sunduğu istatistiksel veri analizidir. Ardından 1865’te Yazar
Richard Millar Devens’in "Cyclopædia of Commercial and Business Anecdotes" adlı kitabında “Business
Intelligence” yani “İş Zekası” terimi ilk kez kullanılır.
1960-1970'li yıllarda ortaya çıkan bilgisayarlar ile ilk veri merkezleri ve veri tabanlarının geliştirilmesiyle
birlikte veri dünyası günümüzde bilinen halini almaya başlamıştır. 1956 yılında IBM tarafından üretilen
bilgisayar 5 MB hard diske sahipti ve forklift yardımıyla taşınabiliyordu. Günümüzde 5 TB büyüklüğe sahip
hard diski cepte taşımak mümkün hale gelmiştir.
‘Google’ bugün kullandığı alan adını 15 Eylül 1997'de etkinleştirdi ve 4 Eylül 1998'de Google şirketi resmen
kuruldu. “NoSQL” sözcüğü ilk defa Carlo Strozzi tarafından 1998 yılında kullanıldı.
Büyük verinin zaman içerisindeki gelişimi; veri, kapsamlı veri, büyük veri ve smart veri şeklinde olmuştur. Bu
gelişimi farklı veri türleri ile şu şekilde yapmak mümkündür; duran veri, bağlı veriler, zaman serileri, akışkan
veriler.
Çeşitli sosyal medya platformları (Facebook, YouTube gibi) ve diğer çevrimiçi hizmetler yoluyla kullanıcıların
ürettiği veriler gözlemlenmeye ve anlaşılmaya başlandı. Bu büyük veri kümelerini depolamak ve analiz etmek
için oluşturulan açık kaynaklı bir sistem olan Hadoop uygulaması geliştirildi. Aynı zamanda bir veri tabanı
uygulaması olan NoSQL kullanımı da yaygınlaştı.
İnternet altyapısının gelişmesi ve 5G teknolojilerinin ortaya çıkması ile Nesnelerin İnterneti (IoT) kavramı
doğmuştur. Nesnelerin İnterneti (IoT) ile müşteri kullanım şekilleri ve ürün performansı hakkında veri
toplanması yoluyla internete daha fazla nesne ve cihaz bağlanır duruma gelmiştir.
2020 yılında Allied Market Research, büyük veri ve iş analitiği pazarının 2019'da 193,14 milyar dolara
ulaştığını ve yıllık %10,9'luk bileşik büyüme oranında 2027'ye kadar 420,98 milyar dolara çıkacağını tahmin
etmiştir.
Büyük verinin bir adım sonrası olan sınıf bilişim ifadesi; hızlı, neredeyse gerçek zamanlı analiz ve yanıt
sağlamak için verilerin oluşturuldukları yere yakın bir şekilde işlenmesi, analiz edilmesi ve depolanması
anlamına gelmektedir.
about:blank 20/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Kaynakça
[1] Yüzer V. and Okur MR. “Temel Bilgi Teknolojileri-I”, T.C. Anadolu Üniversitesi, Açıköğretim Fakültesi
Yayını No:2071, 2015.
[2] Ahsan, S., & Shah, A. (2006). Data, information, knowledge, wisdom: A doubly linked chain. In the
proceedings of the 2006 international conference on information knowledge engineering (s. 270–278).
[3] Innova- Web Sitesi, “Büyük verinin kısa tarihçesi”, (Son Erişim:20.01.2022)
URL: https://www.innova.com.tr/tr/blog/buyuk-veri-blog/buyuk-verinin-kisa-tarihcesi
Ünite Soruları
Soru-1 :
III. Veri
Büyük veri gelişim yolculuğunda farklı kavramlarla isimlendirilmiştir. Bu kavramların tarihsel olarak
geçmişten günümüze doğru olarak sıralaması nasıl olmalıdır?
(Çoktan Seçmeli)
(A) I-II-III-IV
(B) I-IV-III-II
(C) III-I-II-IV
(D) II-I-III-IV
(E) III-I-IV-II
Cevap-1 :
III-I-II-IV
Soru-2 :
Tarihsel gelişime göre farklı veri türleri vardır. Aşağıdakilerden hangisi bu tarihsel gelişim sürecindeki
sıralamada yer almaz?
(Çoktan Seçmeli)
Cevap-2 :
Sayı matrisleri
Soru-3 :
1663 yılında İngiltere'de meydana gelen kara ölüm olarak da bilinen hıyarcıklı veba salgını ile ilgili
büyük veri için milat olarak kabul edilen istatistiksel veri analizi yöntemini sunan Londralı bilim insanı
kimdir?
(Çoktan Seçmeli)
Cevap-3 :
John Graunt
Soru-4 :
Arama motoru devrimi ile makine öğrenimi, büyük veri ve analitik teknolojiler de dahil olmak üzere
çok sayıda diğer teknolojik yeniliğin geliştirilmesine başlanmadan bir yıl önce “Google.com” tescillenmiş
oldu. Google, bugün kullandığı alan adını kaç yılında almıştır?
(Çoktan Seçmeli)
(A) 2001
(B) 1989
(C) 1990
(D) 1997
(E) 1969
Cevap-4 :
1997
Soru-5 :
2001 yılında bilgi teknolojileri firması Gartner'dan Doug Laney, 3V'yi kullanarak büyük verinin
boyutlarını ve özelliklerini tanımladı. 3V aşağıdakiler terimlerden hangilerini ifade etmektedir?
about:blank 22/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(Çoktan Seçmeli)
Cevap-5 :
Soru-6 :
Makine Öğrenimi kavramı IBM programcısı ve yapay zeka biliminin öncüsü Arthur Samuel tarafından
ilk kez kaç yılında ortaya atılmıştır?
(Çoktan Seçmeli)
(A) 1950
(B) 1960
(C) 2000
(D) 1851
(E) 1959
Cevap-6 :
1959
Soru-7 :
Hızlı, neredeyse gerçek zamanlı analiz ve yanıt sağlamak için verilerin oluşturuldukları yere yakın bir
şekilde işlenmesi, analiz edilmesi ve depolanması anlamına gelen ifade aşağıdakilerden hangisidir?
(Çoktan Seçmeli)
(E) Enformasyon
Cevap-7 :
Sınır Bilişim
about:blank 23/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Soru-8 :
Bilgisayar bilimcileri Doug Cutting ve Mike Cafarella tarafından geliştirilen büyük veri kümelerini
depolamak ve işlemek için kullanılan açık kaynaklı yazılım araçları koleksiyonu nedir?
(Çoktan Seçmeli)
(B) NoSQL DB
(D) STEAM
Cevap-8 :
Apache Hadoop
Soru-9 :
1865 yılında "Cyclopædia of Commercial and Business Anecdotes" adlı kitabında “Business
Intelligence” yani “İş Zekası” terimini ilk kullanan yazar kimdir?
(Çoktan Seçmeli)
(A) Tesla
(B) R. J. T. Morris
Cevap-9 :
Soru-10 :
Kendini izleme, analiz ve raporlama teknolojisi olarak bilinen, büyük veriyi analiz etmek ve
raporlayabilmek için büyük verinin tarihsel gelişiminde önemli bir dönüm noktası olan veri türünün adı
nedir?
(Çoktan Seçmeli)
(C) STEAM
about:blank 24/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-10 :
SMART veri
about:blank 25/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Başlamadan Önce
Veri mahremiyeti tanımının doğru yapılması kişi, kurum ve kuruluşlarca bu kavramın önemini anlamaya
yardımcı olacaktır. Başka kavramlarla karışmaması için birçok farklı veri mahremiyeti tanımı yapılmıştır.
Büyük verinin geniş kitlelere mahremiyetin korunarak ulaştırılabilmesi için farklı politikalar vardır.
Mahremiyetin korunmasını gerektiren 3 tip veri grubu mevcuttur.
Mahremiyetteki ihlallerin en aza indirmek oldukça önemlidir. Bunun sağlanması için k-Anonimlik, ℓ-
Çeşitlilik, t-Yakınlık, δ-Mevcudiyet, Mondrian, Yukarıdan-Aşağıya Özelleştirme, Yukarıdan-Aşağıya
Özelleştirme gibi koruma modelleri kullanılmaktadır.
§ Veri üzerinde uygulanacak herhangi bir metot, teknik veya arka plan bilgileri ile veri sahiplerinin ifşa riskinin
mümkün olduğu kadar minimize edilmesi,
§ Veriden bir ya da daha fazla kişiye doğrudan veya dolaylı olarak erişilmesinin mümkün olduğu kadar
önlenmesi,
§ Verinin kiminle, hangi seviyede ve ne amaçla paylaşılacağına dair sınırların belirlenmesinde veri sahibinin
seçici kontrolü,
§ Veriden kişiye ulaşmayı sağlayacak herhangi bir ilişkinin mümkün olduğu ölçüde ortadan kaldırılmasıdır.
Veri mahremiyeti tanımının doğru yapılması kişi, kurum ve kuruluşlarca bu kavramın özümsenmesini daha da
kolaylaştıracaktır. Genellikle güvenlik ve gizlilik gibi kavramlarla karıştırılan mahremiyet kavramının,
yukarıda belirtilen tanımlar doğrultusunda bu kavramlardan ayrıştığı açıkça görülmektedir [3]. Şekil 3.1’de
görüldüğü üzere mobil cihazlara verilen güvenlik anahtarlarının mahremiyetle karıştırılması örnek olarak
verilebilir.
about:blank 26/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Büyük verinin içerisinde barındırdığı anlamlı değerler kaynağı olarak analiz edilmesi, saklanması, üçüncü
taraflara açılması ve satışı, yeniden kullanımı ve/veya yeni amaçlarla kullanılmak üzere değiştirilmesi gibi
etkinliklerin gün geçtikçe artması bireysel kaygıları da beraberinde getirmektedir. Zira büyük veri yığınlarıyla
ve söz konusu yığınlardan anlamlı sonuçlar çıkarılması yeteneğinin gelişimiyle doğru orantılı olarak gelişmesi
ile kişilerin yasal hakları konusunda da tehditler oluşturması kaçınılmazdır. Bu durum büyük veri konusundaki
temel politikalar olmak üzere mahremiyet ile ilgili birçok yeni düzenlemeyi beraberinde getirmiştir [3]. Bu
doğrultuda büyük verinin geniş kitlelere ulaştırılması için Şekil 3.2’de verilen mimari içerisinde farklı
politikalarla veri mahremiyeti korumalı hale getirildikten sonra alıcılara ulaştırılmaktadır. Bu işleme “verinin
anonimleştirilmesi” denilmektedir. Mahremiyet korumalı yaklaşımlarda, anonimleştirme teknikleri yaygın
olarak kullanılır. Anonimleştirme, verinin detaylarını azaltan, verinin tipi ve biçimini koruyarak kimlik
bilgilerinden arındıran mahremiyet koruyucu işlemlerdir.
Büyük veri, mahremiyet korumasına ihtiyaç duymayan genel verilerin yanında mahremiyet korumasına ihtiyaç
duyan hassas verileri de içerir. Genel verilere; iklim verileri, tarım verileri, enerji verileri, coğrafik veriler gibi
kişisel veya kurumsal hassas bilgi barındırmayan veriler örnek olarak verilebilir. Hassas verilere ise; hasta
verileri, tapu verileri, sigorta verileri, eğitim verileri, vergi mükellef verileri, banka verileri gibi bireyi
doğrudan nitelendirebilen yani tanımlayabilen veriler örnek olarak verilebilir. Bu aşamada genel veriler olarak
nitelendirdiğimiz verilerde mahremiyet konusu dikkate alınmazken, hassas verilerde mahremiyet en üst
seviyede ele alınması gereken bir konudur.
about:blank 27/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Büyük veride mahremiyet kavramı küresel ölçekte değerlendirilmekle birlikte kültürden kültüre hatta zaman
zaman bireyden bireye değişiklik gösterebilen bir kavramdır. Bu nedenle kavramın tanımlanması, sınırlarının
belirlenmesi güçleşmektedir. Mahremiyet yaklaşımları üç boyutta ele alınmaktadır. Bunlar [4]:
§ Kişi mahremiyeti: Bir bireyin fiziksel varlığına karşı gereksiz müdahaleyi temsil eder (örn: fiziksel arama).
§ Bilgi mahremiyeti (gizliliği): Kişisel verilerin toplanması, depolanması veya nasıl işlenebileceğinin ve
dağıtılabileceğinin kontrol edilmesi ile ilgilidir.
Mahremiyet koruması gerektiren hassas verileri içeren büyük veriler muhatapları hakkında verdikleri bilgilere
göre; tekil tanımlayıcı, yarı tanımlayıcı ve hassas veriler olmak üzere 3 grupta sınıflandırılır. Tekil
tanımlayıcılar, büyük veri içerisindeki veri sahiplerinin kimliğini açık olarak doğrudan tanımlayan verilerdir.
Pasaport numarası, T.C. kimlik numarası, telefon numarası tipik tekil tanımlayıcı örnekleridir. Büyük veriler
içerisinde yer alan yarı tanımlayıcılar tek başına veri sahiplerinin kimliklerini tanımlayamayan ancak bir araya
geldiklerinde kimliklerin tanımlanabilmesini sağlayan verilerdir. Posta kodu, doğum tarihi ve cinsiyet en iyi
bilinen yarı tanımlayıcı örnekleridir. Mahremiyet korumasına ihtiyaç duyan verilere hassas veriler denir.
Hassas verilere; hasta verileri, tapu verileri, sigorta verileri, eğitim verileri, vergi mükellef verileri, banka
verileri gibi bireyi doğrudan nitelendirebilen yani tanımlayabilen veriler örnek olarak verilebilir.
Büyük veri, modern mahremiyet düzenlemelerinin dayandığı adil veri işleme uygulamaları bakımından bir
tehdit oluşturmaktadır. Büyük veri analizleri sayesinde işletmeler daha başarılı reklam/promosyon
uygulamaları geliştirebilmekte, tüketici tercihlerini etkileyebilmektedir. Nitekim bazı analistler, bireylerin ciddi
bir hastalığa yakalanma ihtimalini belirleyebileceklerini ve bu bilgileri kullanarak sigorta poliçesi
pazarlamanın oldukça kolay olduğunu ifade etmektedir.
Bugün, bazı hayat sigortalarının uygulanması konusunda sigorta şirketleri, bireylerin tüketim alışkanlıklarına
ilişkin veriler üzerinden beklenen yaşam süresini hesaplamakta ve söz konusu veriler ışığında prim oranı ile
hizmetin kapsamı gibi unsurlara karar vermektedir [5]. Bu ve benzeri mahremiyet açıkları ile kişilerin
doğrudan yaşamlarını etkileyici kararlar alınabilmektedir.
Veri mahremiyetinde hukuki olarak elde edilen verilerin birbiri ile eşleştirmesi üzerine ABD’de meydana gelen
bir olayı özetlemek gerekirse:
ABD’de, Ulusal Sağlık Veri Örgütleri Birliği (NAHDO), sağlık verilerinin toplanmasını ve kullanılmasını
geliştirmeyi amaçlayan, kâr amacı gütmeyen ulusal bir dernektir. 2002’de, 17 eyaletin hastanelerinden ve
kliniklerinden hasta verilerini toplamaya başlamıştır. Şekil 3.3’te verilen görselin sol tarafında yer alan
hastanın doğum tarihi, cinsiyeti, posta kodu, etnik kökeni gibi bilgiler bu kapsamda elde edilen verilere aittir.
Massachusetts eyaletinde, Grup Sigorta Komisyonu (Group Insurance Commission - GIC) devlet çalışanları
için sağlık sigortası satın almakla sorumlu bir diğer şirkettir. GIC, 135.000 devlet çalışanı ve aileleri için özel
olarak sağlık bilgilerini toplamış ve verileri anonimleştirdiğini düşünerek araştırmacılarla paylaşmıştır.
about:blank 28/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Şekil 3.3’ün sağ tarafındaki veriler ise Sweeney’nin 20 dolar karşılığında Massachusetts Cambridge için
seçmen kayıt listesinden yasal yolla satın almış olduğu verileri göstermektedir. Sweeney bu iki bilgiyi
birbiriyle ilişkilendirerek o sırada Massachusetts valisi olan William Weld’in kişisel bilgilerine ulaşmayı
başarmıştır.
Seçmen listesine göre, altı kişinin doğum tarihi aynı, sadece üçü erkek ve 5 haneli posta kodundaki tek kişi
olan Massachusetts valisiydi. Bu örnekte, anonimleştirildiğine inanılan iki veri seti bir araya getirilerek, önemli
bir kişinin kimliği ortaya çıkartılabilmiş ve veri setinde yer alan kişilerin yaklaşık %87’inin kimlik
tanımlanması mümkün olmuştur [6].
Arka plan bilgileri ile veri bağlama (eşleştirme) yöntemleri büyük veri mahremiyetine yönelik tehditlerin
başında gelir [6]. Yayınlanan veriler ile halka açık veya önceden edinilmiş arka plan bilgilerinin bağlanmasıyla
yapılan veri eşleştirmeleri sonucunda istenmeyen ifşalar meydana gelir. Aşağıda en sık karşılaşılan veri ifşa
ihlalleri verilmiştir:
§ Kimlik ifşası
§ Üyelik ifşası
Arka plan bilgisine sahip saldırgan sahip olduğu bilgiler ile yayınlanan veriler arasında kayıt, hassas öznitelik
veya tablo düzeyinde bağlantı kurarak saldırı düzenleyebilir. Bu saldırılar sonucunda yukarıda belirtilen
kimlik, hassas veri ve üyelik ifşaları yaşanır.
1. Kimlik İfşası
Arka plan bilgisine sahip bir saldırganın, kamuya açık kimlik bilgileri içeren veri tabanlarıyla ve bu veri
tabanlarının alt kümesi olan yayınlanmış kimliksiz verilerin kayıt düzeyinde yarı tanımlayıcılar üzerinden
eşleştirilmesi sonucunda ulaştığı veriler kimlik ifşası olarak tanımlanır.
Kimliksizleştirilmiş verileri hedef alan bu saldırı yönteminde, saldırgan kimliksiz yayınlanan veri içerisindeki
kurbana ait hassas bilgileri öğrenerek kurbanın kimliğini hassas bilgileriyle birlikte ifşa eder (Şekil 3.4).
about:blank 29/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Saldırgan sahip olduğu arka plan bilgileri ile yayınlanan tablodaki özniteliklerin homojen dağılımına bağlı
olarak kurbanın hassas bilgilerini veri bağlama yapmadan öğrenebilir. Saldırganların hassas veri ifşasındaki
temel amacı büyük veri içerisindeki belirlemiş olduğu kişinin hassas verilerine ulaşmaktadır.
Saldırgan paylaşılan verilerden hangi kaydın kurbana ait olduğunu öğrenemez. Ancak hassas verilerin aynı
olmasından kimliğini tanımlayamadığı kurbanının hassas verisini ifşa eder.
3. Üyelik İfşası
Saldırgan kurbanın paylaşılan büyük veri kümesinde olup olmadığını öğrendiğinde herhangi bir bilgiyi ifşa
edemez ancak yayınlanan veriye göre üst seviye çıkarımlar yapabilir. Yayınlanan veride kurbanın yer aldığını
bilen bir saldırgan kurbanın bu veriyi yayınlayan ile ilişkisini ortaya koyarak üyelik ifşasını gerçekleştirir.
Bundan sonraki süreçte saldırgan kurbanın kimlik ve hassas özniteliklerinin ifşası için üyelik ifşasından elde
etmiş olduğu bilgiyi geliştirerek arka plan bilgilerini arttırmaya ve bunları kullanacağı kamuya açık diğer veri
tabanlarını bulmaya çalışır (Şekil 3.5).
Yukarıda belirtilen mahremiyet ihlallerini en aza indirgemek adına literatürde sıklıkla kullanılan yaygın ve
temel mahremiyet koruma modelleri aşağıda özetlenmiştir. Bu modeller kullanılarak elde edilen büyük veri
kümeleri kullanıma sunulmaktadır.
k-Anonimlik: Her bir kayıt tekil birer kişiye ait olmak üzere, bir tane kaydın en az k-1 tane kayıttan ayırt
edilemediği modeldir. İlk bakışta basit bir problem olarak görünmesine karşılık optimum k-Anonimliği
sağlamanın zor bir problem olduğu ispatlanmış ve yaklaşık çözümler üretilmeye çalışılmıştır.
Literatürde büyük veriyi anonimleştirmek için k-Anonimlik algoritması kullanan Hadoop ve MapReduce
sistemleri üzerinde pek çok algoritma mevcuttur.
ℓ-Çeşitlilik: k-Anonimlik kimlik ifşasına karşı koruma sağlarken, hassas verilerin ifşasına karşı koruma
sağlayamaz. Literatüre geçmiş bir çalışma, k-Anonimlik modelinin bu sorununu vurgulayarak hassas
öznitelikleri koruyan ℓ-çeşitlilik yöntemini önermiştir. k-Anonimlik modeli uygulanan veriler içerisinde yer
alan hassas verilerin aynı olduğu durumlarda kimlik bilgisi yeniden tanımlanamasa da hassas veriler ifşa olur.
Literatürde öznitelik ifşası olarak adlandırılan bu saldırı, hassas özniteliklerin çeşitlilik eksikliğinden
kaynaklanır. ℓ-Çeşitlilik modeli hassas verilerin ifşa edilememesi amacıyla hassas verilerin en az ℓ sayıda
olmasını garanti eder. Bu modeli gerçekleyen algoritmaların MapReduce dağıtık programlama mimarisine
uygun olarak geliştirilmesiyle, ℓ-Çeşitlilik modelinin büyük veri uyumluluğu sağlanmıştır [7,8,9].
t-Yakınlık: ℓ-Çeşitlilik güçlü bir mahremiyet modeli olmasına rağmen, literatüre geçmiş çalışmalarda çarpık
veri dağılımına sahip veri kümelerinde mahremiyet koruması için ℓ-Çeşitlilik modelinin yetersiz olduğunu
göstermiş ve t-Yakınlık modelini önermişlerdir [10].
ℓ-Çeşitlilik, hassas değerler arasındaki anlamsal yakınlıklara ve hassas değerlerin dağılımının genel dağılımdan
önemli ölçüde farklı olmasına bağlı olarak yapılacak olan çarpıklık saldırılarına karşı mahremiyet korumasında
yetersiz kalır.
Örneğin, bir hassas verinin geneldeki oranı %5 iken, bir yarı tanımlayıcı grubu içerisindeki oranı %50 ise bu
durumda ciddi bir mahremiyet ihlali ortaya çıkabilir. t-Yakınlık yöntemi, yarı-tanımlayıcılar üzerindeki
herhangi bir gruptaki bir hassas özniteliğin dağılımını tüm tablodaki özniteliklerin dağılımına yakın olmasını
gerektirir. Bu metot, iki hassas öznitelik dağılımının arasındaki yakınlığı ölçmek üzere bu amaç için
oluşturulmuş (EMD vb.) farklı fonksiyonlar kullanır. Bu modeli de gerçekleyen algoritmaların MapReduce
mantığı çerçevesinde geliştirilmesi ile büyük veri uyumluluğu sağlanır.
δ-Mevcudiyet: Açık kaynaklar, sosyal ağlar, yazılı ve görsel basın, sohbet ve gerçek dünyadaki ilişkilerden
elde edilebilen arka plan bilgileri mahremiyet saldırılarının ve ihlallerinin yaşanmasında önemli rol oynar. Arka
plan bilgisine sahip saldırganın yayınlanan verilerde kurbanın olup olmadığını bilmesi önemli bir mahremiyet
zafiyeti oluşturur. Üyelik bilgisine ve arka plan bilgisine sahip olan saldırgan veri bağlama yöntemleriyle
yapacağı saldırılar sonucunda yeniden kimliklendirme yapabilir.
ℓ- Çeşitlilik ve k-Anonimlik modelleri kimlik ve öznitelik ifşalarına karşı koruma sağlarken üyelik ifşalarına
karşı koruma sağlayamaz. Üyelik bilgisinin keşfini zorlaştırarak mahremiyet riskini azaltmak amacıyla
literatüre geçmiş bir çalışmada δ-mevcudiyet modelini önermiştir [11].
Temel yaklaşım, yayınlanan veri kümesinin saldırganın arka plan bilgisini temsil eden genel veri kümesinin alt
kümesi olarak modellenebilmesidir. Bu modeli de gerçekleyen algoritmaların MapReduce mantığı
çerçevesinde geliştirilmesi ile büyük veri uyumluluğu sağlanır.
Mahremiyet modellerinin veri kümelerine uygulanmasıyla oluşturulan çözüm uzayında çözüme en uygun
adayın bulunmasını sağlayan arama algoritmalarından bazıları ise aşağıda maddeler halinde özetlenmiştir.
Mondrian: Çok boyutlu bölütleme işlemi yapan özyinelemeli bir algoritmadır. Tüm veri kümesi üzerinde
işlemlere başlayarak herhangi bir yarı tanımlayıcı grubunun mahremiyet ihlali yaptığı ana kadar devam eder.
Her bir özyineleme, en iyi bölütleyen boyutun ve ilgili bölütleme noktasının bulunması, veri kümesinin iki
veya daha fazla alt veri kümesine bölünmesi ve alt veri kümeleri üzerinde işlemlerin özyinelemeli olarak
çağırılması işlemlerinden oluşur.
about:blank 31/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Literatür incelendiğinde, büyük veri kapsamında mahremiyet korumalı veri yayınlama modellerinin
oluşturulmadığı veya önerilmediği görülmüştür. Ancak büyük veri konseptine uygun veri yayınlama
modellerinin oluşturulması günümüz şartlarında bir ihtiyaçtır. Büyük veride mahremiyet koruma süreci ve
örnek veri yayınlama modeli Şekil 3.6’da verilmiştir [12].
Nitekim AB Veri Koruma Tüzüğü ile getirilen, verinin aktarılacağı üçüncü ülkelerde AB’de sağlanan veri
koruma çerçevesine uygun bir yeterli koruma düzeyinin sağlanması şartı, bu alanda uluslararası mevzuat
uyumuna olan ihtiyacı ortaya koymaktadır. Ayrıca, OECD’nin 2017 Sayısal Görünüm Raporu’nda da OECD
ülkelerinde hükümetlerin çoğunda kişisel verilerin korunması alanında uluslararası iş birliğine girme eğilimi
olmakla birlikte, pek çoğunun hâlâ kendi mahremiyet politikalarını koordine etmekte geciktiği
vurgulanmaktadır. Bu kapsamda, mahremiyet düzenlemelerinin koordinasyonu ve uyumlaştırılması yoluyla
küresel anlamda birlikte çalışabilirlik, ele alınması gereken önemli bir sorun alanı olarak ortaya çıkmaktadır.
Mahremiyet, özel hayatın gizliliği ve kişisel verilere yönelik uluslararası düzenlemelerde aşağıdaki gibi ele
alınmıştır:
about:blank 32/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
§ Birleşmiş Milletler İnsan Hakları Evrensel Beyannamesi 12. Maddesi: “Kimsenin özel yaşamına, ailesine
konutuna ya da haberleşmesine keyfi olarak karışılamaz, şeref ve adına saldırılamaz. Herkesin bu gibi karışma
ve saldırılara karşı yasa tarafından korunmaya hakkı vardır” şeklinde düzenlenmiştir (İnsan Hakları Evrensel
Beyannamesi, 1949)
§ Birleşmiş Milletler’in Kişisel ve Siyasal Haklar Sözleşmesi’nin 17. maddesi “Mahremiyet Hakkı” (Right to
Privacy) olarak düzenlenmiştir (Kişisel ve Siyasal Haklar Sözleşmesi, 1966)
§ Avrupa Konseyi’nin Avrupa İnsan Hakları Sözleşmesi’nin 8. Maddesi özel hayata ve aile hayatına saygı
hakkı olarak tanımlanmıştır (Avrupa Konseyi, 1950).
§ Avrupa Birliği’nin 95/46 sayılı “Kişisel Verilerin İşlenmesinde Gerçek Kişilerin Korunması ve Bu Verilerin
Serbest Dolaşımı” isimli yönergesi, Birlikteki her üye ülkede kişisel verilerin eşit seviyede korunmasının
garanti altına alınması amaçlanmıştır. Avrupa Komisyonu tarafından üye ülkelerde uygulanmakta olan AB veri
koruma kurallarında, Veri Koruma Direktifi’nde benimsenen ilkelerin modernize edilmesi ve gelecekte
vatandaşların mahremiyet hakkının garanti altına alınması amacıyla, kapsamlı bir reforma gidilmesi ihtiyacı
ortaya çıkmıştır. Bu çerçevede Avrupa Parlamentosu tarafından 14 Nisan 2016 tarihinde “Genel Veri Koruma
Tüzüğü (General Data Protection Regulation–GDPR)” onaylanmıştır [14].
Bu bağlamda Birleşmiş Milletler, Ekonomik Kalkınma ve İşbirliği Örgütü, Avrupa Konseyi, Avrupa Birliği gibi
uluslararası oluşumların yetkin çalışmaları ortaya çıkmıştır. Türkiye’de de 2010 yılında yapılan bir Anayasa
değişikliği ile kişisel verilerin korunması anayasal hak statüsüne kavuşmuştur. Kişisel verilerin korunmasına
yönelik atılan bu önemli adım Avrupa birliği Temel Hakları Şartını da karşılamaktadır. Akabinde Avrupa
Konseyince hazırlanan 108 sayılı Sözleşme ile AB Direktiflerine paralel bir şekilde hazırlanan Kişisel Verilerin
Korunması Kanunu Tasarısı ve 2016 yılında çıkarılan Kişisel Verilerin Korunması Kanunu’yla, AB ülkeleri
nezdinde veri koruma bakımından güvenilir ülke statüsüne kavuşulması konusunda önemli bir kriter
karşılanmış bulunmaktadır [15].
Dünyadaki ve ülkemizdeki büyük veri ortamları incelendiğinde bazı önemli problemlerin giderilmesi üzerine
geliştirilen politikalar, mevzuat düzenlemeleri ve idari faaliyetler kapsamında önemli gelişmeler
gözlemlenmiştir. Özellikle büyük verinin mahremiyetine ilişkin atılan adımların başında verinin
anonimleştirilmesi ve bununla ilgili yasal çerçeve üzerine odaklanılmıştır.
2010 yılında yapılan değişiklikle Anayasa’nın 20’nci maddesine aşağıdaki hüküm ikinci fıkra olarak
eklenmiştir:
“Herkes, kendisiyle ilgili kişisel verilerin korunmasını isteme hakkına sahiptir. Bu hak; kişinin kendisiyle ilgili
kişisel veriler hakkında bilgilendirilme, bu verilere erişme, bunların düzeltilmesini veya silinmesini talep etme
ve amaçları doğrultusunda kullanılıp kullanılmadığını öğrenmeyi de kapsar. Kişisel veriler, ancak kanunda
öngörülen hallerde veya kişinin açık rızasıyla işlenebilir. Kişisel verilerin korunmasına ilişkin esas ve usuller
kanunla düzenlenir.”
about:blank 33/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Kişisel verilerin işlenmesi ile ilgili temel ilkeler 6698 sayılı Kanun’un 4’üncü maddesinde yer
almaktadır. Maddenin birinci fıkrasında kişisel verilerin ancak Kanun’da ve diğer kanunlarda öngörülen usul
ve esaslar çerçevesinde işlenebileceği belirtildikten sonra ikinci fıkrada kişisel verilerin işlenmesiyle ilgili
temel ilkeler sayılmıştır. Tablo 3.1’de görüldüğü üzere temel özellikleri itibarıyla örtüşen ülkemizdeki 6698
sayılı Kanun’daki temel ilkelerle AB Genel Veri Koruma Tüzüğü’nde yer alan ilkeler kişisel verilerin işlenmesi
alanındaki teknolojik gelişmelerle uyumlu esneklikte kaleme alınmıştır. AB Genel Veri Koruma Tüzüğü ile,
söz konusu ilkelerin uygulanmasından sorumlu olan süjenin açıkça belirlenmesi kaydıyla veri kontrolörünün
hesap verebilirliği artırılmıştır [16].
Tablo 3.1. Kişisel Verileri Koruma İlkeleri Bakımından 6698 sayılı Kanun ile AB Genel Veri Koruma
Tüzüğü’nün Karşılaştırılması
Kişisel verilerin büyük veri gibi yenilikçi teknolojiler karşısında korunması için değiştirilmesi güçlü ve katı
hukuki metinler yerine, bu teknolojilerden yararlanılmasını kolaylaştıran temel ilkelerin yorumlanmasını ve yol
göstericiliğini güçlendiren yeni düzenleme ve politikaların belirlenmesi önem arz etmektedir.
6698 sayılı Kanun’da yer alan rızaya ilişkin sorumluluğun bireyden veri işleyenlere kayması gerektiği, veri
toplama ve veri kullanımı süreçlerinin ayrı ayrı değerlendirilmesi gerektiği tespit edilmiştir. Ayrıca Kanun’da
yer almayan tasarımdan itibaren güvenlik ilkesinin mevzuata kazandırılması ve söz konusu ilkenin veri
sorumlularınca nasıl uygulanması gerektiğine ilişkin rehberlerin yayımlanması önem arz etmektedir.
Büyük veriyle giderek yaygınlaşan verinin ikincil kullanımları alanında ortaya çıkacak yeni durumların
ilgililere bildirilmesini öngören düzenlemelerin hayata geçirilmesi gerektiği görülmüştür. Bu kapsamda
şeffaflık artırıcı mekanizmalardan biri olan, bireylerin kişisel verilerine makinalar tarafından okunabilir
formatta erişim sağlama imkânının tanınması gerektiği değerlendirilmektedir.
Sonuç olarak, Türkiye’de de büyük veri alanında mahremiyet risklerinin önlenmesi amacıyla, eğitim ve
farkındalık çalışmalarının hayata geçirilmesi gerekmektedir. Büyük veri işleyen küresel ölçekte güçlü veri
aktörlerine karşı mevzuatın güçlü bir biçimde uygulanabilmesi için, Kişisel Verileri Koruma Kurumu’nun
nitelikli teknik ve hukuki personel ihtiyacının en kısa sürede tamamlanması gerekmektedir.
Bölüm Özeti
Veri mahremiyeti tanımının doğru yapılması kişi, kurum ve kuruluşlarca bu kavramın önemini anlamaya
yardımcı olacaktır. Bilgisel seçici kontrol ve muhatapların bilgilerinin doğru kullanımı, muhatabın hangi
bilgisinin, kiminle ve ne derecede paylaşılmasına karar verme mekanizması olarak tanımlanan veri
mahremiyetinin farklı tanımları da mevcuttur.
about:blank 34/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Mahremiyet kavramının, güvenlik ve gizlilik kavramları ile karışmasını engellemek için doğru tanımlama
oldukça önemlidir.
Farklı politikalarla büyük veri mahremiyetinin korunarak geniş kitlelere ulaştırılmasına verinin
anonimleştirilmesi denir.
Mahremiyet koruması gerektiren hassas verileri içeren büyük veriler muhatapları hakkında verdikleri bilgilere
göre 3 grupta sınıflandırılır. Bunlar: pasaport numarası, T.C. kimlik numarası, telefon numarası verileri gibi
tekil tanımlayıcılar; posta kodu, doğum tarihi ve cinsiyet gibi yarı tanımlayıcılar ve hasta verileri, tapu verileri,
sigorta verileri, eğitim verileri, vergi mükellef verileri, banka verileri gibi bireyi doğrudan nitelendirebilen
hassas verilerdir.
Yayınlanan veriler ile halka açık veya önceden edinilmiş arka plan bilgilerinin bağlanmasıyla yapılan veri
eşleştirmeleri sonucunda kimlik ifşası, hassas veri ifşası ve üyelik ifşası gibi istenmeyen ifşalar meydana gelir.
Büyük veride mahremiyet ihlallerini en aza indirmek için farklı mahremiyet koruma modelleri vardır. Bu
modellerin yaygın ve temel olanları; k-Anonimlik, ℓ-Çeşitlilik, t-Yakınlık, δ-Mevcudiyet, Mondrian,
Yukarıdan-Aşağıya Özelleştirme, Yukarıdan-Aşağıya Özelleştirmedir.
Büyük verinin ortaya çıkışında etkili olan bulut bilişim teknolojileri ile, kuruluşların coğrafi sınırlara bağlı
olmaksızın çalışabilmesi için kişisel verilerin işlenmesi alanında uygulanacak hukuk kuralları oldukça
önemlidir. Mahremiyet; özel hayatın gizliliği ve kişisel verilere yönelik uluslararası düzenlemelerde yer
almaktadır.
Türkiye’de mahremiyet hakkı ve kişisel verilerin korunması kavramları anayasa ile güvence altına alınmıştır.
Kaynakça
[1] Jain P., Gyanchandani M., and Khare N., "Big data privacy: a technological perspective and review",
Journal of Big Data, 3(1): 25, (2016).
[2] Yavuz CANBAY, Yılmaz VURAL, Şeref SAĞIROĞLU. Conceptual model suggestions for privacy
preserving big data publishing. Politeknik Dergisi, 23(3): 785-798, (2020).
[3] Chibba M. and Cavoukian A., "Privacy, consumer trust and big data: Privacy by design and the 3 C’S",
IEEE ITU Kaleidoscope: Trust in the Information Society,(2015).
[4] Kokolakis, S. (2017). Privacy attitudes and privacy behaviour: A review of current research on the privacy
paradox phenomenon. Computers & Security, 64, 122-134. https://doi.org/10.1016/j.cose.2015.07.002
[5] Drum, “Privacy is dead. Long live transparency!”, 2013, (erişim tarihi: 11.07.2017)
http://www.motherjones.com/politics/2013/10/future-of-privacy-nsa-snowden, 11.07.2017
[6] Sweeney, L. (2002). “k-anonymity: a model for protecting privacy”, International Journal on Uncertainty
Fuzziness and Knowledge-Based Systems, vol. 10, s. 557-570.
[7] B. C. Fung, K. Wang, A. W.-C. Fu, and S. Y. Philip, Introduction to privacy-preserving data publishing:
Concepts and techniques. CRC Press, 2010.
[8] H. Zakerzadeh, C. C. Aggarwal, and K. Barker, “Privacy-preserving big data publishing,” in Proceedings of
the 27th International Conference on Scientific and Statistical Database Management, 2015, p. 26: ACM.
[10] N. Li, T. Li, and S. Venkatasubramanian, “Closeness: A new privacy measure for data publishing,” IEEE
Transactions on Knowledge and Data Engineering, vol. 22, no. 7, pp. 943-956, 2010.
[11] M. E. Nergiz, M. Atzori, and C. Clifton, “Hiding the presence of individuals from shared databases,” in
Proceedings of the 2007 ACM SIGMOD international conference on Management of data, 2007, pp. 665-676:
about:blank 35/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
ACM.
[12] Canbay Y., Vural Y. ve Sağıroğlu S., “Mahremiyet korumalı büyük veri yayınlama için kavramsal model
önerileri”, Politeknik Dergisi, 23(3): 785-798, (2020).
[13] Fishleigh, J., “A Non-Technical Journey into the World of Big Data: an Introduction”, Legal Information
Management, 2014, pp. 149-151.
[14] Akıncı, A. N. (2017). Avrupa Birliği Genel Veri Koruma Tüzüğü’nün getirdiği yenilikler ve Türk Hukuku
bakımından değerlendirilmesi (Çalışma Raporu No. 2968).
[15] Eroğlu Ş. “The Concept of Privacy and Personal Data in Digital Life: Analysis of Perceptions of Students'
at Hacettepe University Department of Information Management.” Hacettepe University Journal of Faculty of
Letters Volume: 35 Number:2, 2018.
[16] Akıncı A.N. “Büyük Veri Uygulamalarında Kişisel Veri Mahremiyeti”, Uzmanlık Tezi, T.C.
Cumhurbaşkanlığı Strateji ve Bütçe Başkanlığı, 2019.
Ünite Soruları
Soru-1 :
I. Cinsiyet
V. Telefon numarası
Tekil tanımlayıcılar, büyük veri içerisindeki veri sahiplerinin kimliğini açık olarak doğrudan tanımlayan
verilerdir. Yukarıdakilerden hangileri tekil tanımlayıcılardandır?
(Çoktan Seçmeli)
(A) I-III
(B) I-IV-V
(C) II-IV-V
(D) III-IV-V
(E) II-V
Cevap-1 :
II-IV-V
Soru-2 :
Büyük veriler içerisinde yer alan yarı tanımlayıcılar tek başına veri sahiplerinin kimliklerini
tanımlayamayan ancak bir araya geldiklerinde kimliklerin tanımlanabilmesini sağlayan verilerdir.
Aşağıdakilerden hangisi yarı tanımlayıcı verilerdendir?
about:blank 36/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(Çoktan Seçmeli)
Cevap-2 :
Doğum tarihi
Soru-3 :
Coğrafi sınırlara bağlı olmaksızın büyük verilerle çalışabilmesi için kişisel verilerin işlenmesi alanında
uygulanacak hukuk kurallarının belirlenmesi gerekir. Bu hukuk kuralları aşağıdakilerden hangisinin
korunması için önem arz etmektedir?
(Çoktan Seçmeli)
Cevap-3 :
Küresel Mahremiyet
Soru-4 :
(Çoktan Seçmeli)
(A) Çeşitlilik
(B) k-Anonimlik
(C) Mevcudiyet
Cevap-4 :
Yatay Genelleştirme
about:blank 37/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Soru-5 :
(Çoktan Seçmeli)
(A) Veriden kişiye ulaşmayı sağlayacak herhangi bir ilişkinin mümkün olduğu ölçüde ortadan kaldırılması
(B) Veri üzerinde uygulanacak herhangi bir metot, teknik veya arka plan bilgileri ile veri sahiplerinin ifşa
riskinin mümkün olduğu kadar minimize edilmesi
(C) Verinin herkes için her yerden ulaşabilmesi, verinin ulaşılabilirliği ile ilgilidir ve her zaman mümkün
olmalıdır.
(D) Veriden bir ya da daha fazla kişiye doğrudan veya dolaylı olarak erişilmesinin mümkün olduğu kadar
önlenmesi
(E) Muhatapların bilgilerinin doğru kullanımı ve muhatabın hangi bilgisinin, kiminle ve ne derecede
paylaşılmasına karar verme mekanizması
Cevap-5 :
Verinin herkes için her yerden ulaşabilmesi, verinin ulaşılabilirliği ile ilgilidir ve her zaman mümkün olmalıdır.
Soru-6 :
Büyük veride mahremiyetin koruma sürecinin basamaklarında veriden verinin yayını arasındaki
süreçlerin doğru sıralanışı hangisidir?
(Çoktan Seçmeli)
(A) I-II-III-IV
(B) II-IV-III-I
(C) I-III-IV-II
(D) III-I-II-IV
(E) II-III-IV-I
Cevap-6 :
II-IV-III-I
Soru-7 :
Çok boyutlu bölütleme işlemi yapan özyinelemeli bir algoritmadır. Tüm veri kümesi üzerinde işlemlere
başlayarak herhangi bir yarı tanımlayıcı grubunun mahremiyet ihlali yaptığı ana kadar devam eder.
about:blank 38/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Tanımı verilen büyük veri mahremiyetindeki ihlallerin azaltılmasında kullanılan mahremiyet koruma
modeli aşağıdakilerden hangisidir?
(Çoktan Seçmeli)
(A) Çeşitlilik
(B) k-Anonimlik
(C) Mevcudiyet
(E) Mondrian
Cevap-7 :
Mondrian
Soru-8 :
Öznitelik sınıflandırma ağacının en altından başlayarak yukarıya doğru ilerleyen öz yinelemeli bir
işlemdir. Her bir döngüde dört aşama vardır. Bu aşamaların sırası hangisinde doğru verilmiştir?
(Çoktan Seçmeli)
(A) II-IV-I-III
(B) I-II-III-IV
(C) III-I-IV-II
(D) II-I-IV-III
(E) IV-III-II-I
Cevap-8 :
II-IV-I-III
Soru-9 :
Mahremiyet korumasına ihtiyaç duyan verilere hassas veriler denir. Aşağıdakilerden hangisi hassas
verilerden değildir?
(Çoktan Seçmeli)
Cevap-9 :
Soru-10 :
Farklı politikalarla veri mahremiyeti korumalı hale getirildikten sonra alıcılara ulaştırılmaktadır. Bu
işleme “verinin anonimleştirilmesi” denilmektedir. Anonimleştirme ile ilgili verilenlerden hangisi
yanlıştır?
(Çoktan Seçmeli)
Cevap-10 :
about:blank 40/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Başlamadan Önce
Anonimleştirme, kimlik bilgilerini kaldıran veya değiştiren bir veri işleme tekniğidir; sonuç olarak, hiçbir
bireyle ilişkilendirilemeyen anonim veriler ortaya çıkar.
Paylaşılmış büyük veri küme setlerinde yer alan veri sahiplerinin kimlik bilgisi ve hassas verilerinin ifşa
edilmesini önlemek, gizliliklerini korumak ve veri sahiplerine yapılabilecek her türlü saldırıları önlemek
amacıyla kullanıcı verilerinde veri anonimleştirilmesi yapılır.
Anonimleştirilmiş verileri analiz ederek güvenli, değerli ürünler ve özellikler oluşturabilir. Örneğin girilen bir
arama sorgusunun otomatik olarak tamamlanması Google tarafından bu yöntemle sağlanmakta ve kimlik avı,
kötü amaçlı site ve benzeri güvenlik tehditlerini bu analiz sonucunda tespit edebilir. Aynı zamanda birçok
kuruluş anonim verileri harici olarak güvenli bir şekilde paylaşabilir, kullanıcıların gizliliğini riske atmadan
başkalarının yararlanabilmesini sağlar.
Anonimleştirme işlemi, veri tipi ve biçiminde bir değişikliğe sebep olmadan onları korur. Bu işlemindeki
temel amaç veriyi paylaşılabilir yapmaktır. Fakat paylaşılan veriler bilişim teknikleri ve arka- plan bağlama
yöntemleri gibi çeşitli uygulamalar ile kişilerin kimlikleri tespit edilmesi önemli bir sorundur.
Anonimliğin bozulmasına dair bilinçli olarak yürütülen işlemlere “anonimliğin bozulmasına yönelik
saldırılar” denilmektedir. Bu kapsamda, anonim hale getirilmiş kişisel verilerin çeşitli müdahalelerle tersine
döndürülmesi ve anonim hale getirilmiş verinin yeniden kimliği tespit edici ve gerçek kişileri ayırt edici hale
dönüşmesi riski olup olmadığı araştırılarak ona göre işlem tesis edilmelidir.
Genellikle anonimleştirme işleminden arındırma teknikleri birden fazla kaynaktan geçtiğinden anonimleştirme
teknikleri kaynaklara çapraz referans verebilir ve kişisel bilgileri açığa çıkarabilir. 6698 Sayılı Kişisel Verilerin
Korunması Kanunu’nda da (KVKK) veri anonimleştirme ya da anonim hale getirme, kişisel ve özel nitelikli
kişisel verilerin korunması için alınması gereken teknik tedbirler kapsamındadır.
about:blank 41/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Yasal düzenlemeler şirketlerin tüm tanımlayıcıları verilerden kaldırdığı sürece istatistikî amaçla
anonimleştirilmiş veri toplanmasına, kullanmasına ve süresiz olarak saklamasına izin vermektedir. Veri sahibi
topladığı büyük veri kümesinden anonimleştirme yöntemlerini kullanarak veri alıcısına şekil 4.1’de görüldüğü
üzere anonim veri kümesi halinde getirerek sunar.
Verinin açık hale getirilmesi amacıyla yapılan işlemler ile ilgili temel kavramlar tablo 4.1’de verilmiştir.
Tablo 4.1. Büyük verinin anonimleştirilmesi ile ilgili temel kavramlar [1,2]
Anonimleştirmenin kabul edilebilir düzeyde veri kaybıyla yapılması büyük veriden sağlanan fayda açısından
önemlidir. Veri kayıplarındaki artış veri kalitesini düşürerek paylaşılan büyük veriden sağlanan faydanın
azalmasına hatta tamamen yok olmasına yol açabilir.
Anonimleştirme kavramı için, hassas verinin yapısı ve biçimi korunarak değiştirilmesi veya çıkarılması
işlemleri, mahremiyet-duyarlı verilerin gizlenmesi gibi farklı tanımlamalar yapılmıştır.
about:blank 42/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Anonimleştirme işleminin temel amacı, veriyi çeşitli katma değerler elde etmek adına paylaşılabilir kılmaktır.
Veri paylaşımları içeren büyük veri uygulamaları, mahremiyet ihlallerini de beraberinde getirebilir. Her ne
kadar büyük veri karmaşık olarak görünse de çeşitli mahremiyet odaklı saldırılar ile veri sahibinin kimliği veya
hassas verileri ifşa edilebilir.
Buna en basit örnek veri bağlama (veri eşleştirme) saldırısıdır. Bu saldırıda, saldırgan daha önceden farklı
yollardan temin ettiği çeşitli veriler ile yayınlanan veriler arasında bir ilişki tespit etmesi halinde kimlik ve
hassas veriler ifşa edebilir. Önceki bölümlerde de anlatıldığı üzere, 1990 yılında ABD’de sayım uygulamasıyla
toplanan cinsiyet, posta kutusu ve doğum tarihi gibi yarı tanımlayıcı bilgilerin kullanılarak ABD nüfusunun
%87’sinin kimliklerinin tespit edilebileceği Sweeney tarafından raporlanmıştır.
Dolayısıyla geleneksel anonimleştirme işleminde en temel tekniklerle bile yeterli koruma sağlanamadığı tespit
edildiği için, kişisel, kurumsal ve ulusal verilerin korunması açısından yeni tekniklerin büyük veriden sağlanan
fayda dikkate alınarak geliştirilmesi hem bir ihtiyaç hem de bir gerekliliktir.
Veri Maskeleme (Data Masking): Verilerin değiştirilmiş değerlerle gizlenmesi yöntemidir. Veri maskeleme
de en çok kullanılan yöntemlerin başında şifreleme, simge kullanma, bulanıklaştırma, karıştırma,
geçersizleştirmedir. Veri maskelemede veri formatı değiştirilmez sadece değerler değiştirilir ancak bu değişim
herhangi bir şekilde tespit edilmeyecek ve geri döndürülmeyecek şekilde yapılmalıdır. Örneğin, bir değer
karakteri “*” ya da “x” gibi bir sembolle değiştirebilir. Veri maskeleme, tersine mühendislik veya algılamayı
imkânsız hale getirir. Doğru uygulanmış herhangi bir yöntemle herhangi biri kurumlardaki kişisel verilerin
güvenliği için yeterlidir. Veri maskeleme 5 farklı şekilde yapılabilir:
Statik veri maskeleme orijinal veri tabanının bir kopyasının değiştirilerek kullanıma açılması ile oluşturulur.
Bu yöntem yetkili erişimlere karşı güvenlik sağlamakta ancak yetkisiz erişimlere karşı güvenlik
sağlamamaktadır.
Dinamik veri maskeleme verilerin veri tabanından çağrıldığı anda maskeleme işleminin yapılması demektir.
Dinamik maskelemede kimlik yetkilendirme yöntemi kullanılarak kimlerin hangi verilere ulaşabileceği
belirlenerek sadece yetkisi olan kişilerin görmesi gereken bilgileri görmesi ve diğer bilgilerin maskelenmesi
sağlanır. Dinamik çalışmasından dolayı tehditler karşısında daha güvenlidir.
Anında maskeleme dinamik veri maskeleme gibi sonuçlar üretmekle birlikte çok fazla veri maskeleme
gerektiren uygulamalar veya kurumlar için kullanılabilecek olan bir maskeleme türüdür. Kullandığı ETL
(Extract Transform Load) yöntemiyle daha hızlı ve daha az işlem ile maskeleme yapılmasını sağlar.
Deterministtik veri maskeleme bir sütundaki verinin, aynı satırda, aynı tabloda, aynı veri tabanında, veri tabanı
türleri arasında aynı değerle değiştirilmesi yöntemidir. Örneğin; bir veri tabanında adı “Ali” olanların her
zaman “Mehmet” değeri ile değiştirilmesi işlemidir.
İstatistiksel veri maskeleme orijinal verilerin birtakım istatistiksel özelliklerini koruyan verilerin rastlantısal
bozulmalarına dayanır. İstatistiksel veri gizleme yöntemlerine örnek olarak Diferansiyel Gizlilik ve DataSifter
yöntemleri verilebilir [4].
about:blank 43/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Takma Adlandırma (Pseudonymization): Özel tanımlayıcıları sahte tanımlayıcılarla veya takma adlarla
değiştiren, örneğin “Levent KARTAL” tanımlayıcısını “Mert DEMİR” ile değiştiren bir veri yönetim ve kimlik
belirleme yöntemidir. Takma adlandırma, istatistiksel doğruluğu ve veri bütünlüğünü korurken aynı zamanda
değiştirilen verilerin eğitim, geliştirme, test ve analitik için kullanılmasına izin verir ve veri gizliliğini korur.
Burada takma ad ile adlandırılan hassas veri sahte bir dizgi ile değiştirilir. Elde edilen dizgi her zaman aynı
giriş için aynı olacak şekilde kullanılır. Bu gizlenmiş bir anahtar ile yapılmaktadır. Sadece bu anahtarı bilenler
orijinal veriyi elde edebilmektedir. Veri güvenliğini artırmak için bu gizli anahtarın da periyodik değişimi
gerçekleştirilmelidir.
Genelleme (Generalization): Daha az tanımlanabilir hale getirmek maksadıyla bazı verilerin kasıtlı olarak
kaldırılması yöntemidir. Örneğin, bir adresteki bina numarasının kaldırılması durumunda sokak isminin
kaldırılmaması önem arz etmektedir. Buradaki amaç, veri doğruluğu ölçüsünü korurken bazı tanımlayıcıları
ortadan kaldırmaktır.
Ayrıca bu yöntem ile bazı alanlardaki değerler daha geniş bir kategori ile değiştirilir. Örneğin boy alanında yer
alan değer ‘≥ 170 cm’ veya ‘180 cm≥ boy ≥ 160 cm’ şeklinde değiştirilerek genelleme yapılabilir. Bu değişim
hassas verilerde kalıcıdır ve geri dönüşü olmayan bir işlemdir.
Veri Değiştirme (Data Swapping): Karıştırma ve permütasyon olarak da bilinir, veri kümesi öznitelik
değerlerini orijinal kayıtlara karşılık gelmeyecek şekilde yeniden düzenlemek maksadıyla kullanılan bir
tekniktir. Örneğin doğum tarihi gibi tanımlayıcı değerleri içeren verilerin (sütunlar) anonimleştirme üzerinde
üyelik türü değerlerinden daha fazla etkisi olabilir.
Veri Bozulması (Data Perturbation): Sayıları yuvarlayan ve rastgele gürültü ekleyen teknikler uygulayarak
orijinal veri kümesinin biraz değiştirilmesi yöntemidir. Değer aralığı, bozulma ile orantılı olmalıdır. Küçük bir
taban zayıf anonimleştirmeye yol açarken, büyük bir taban veri kümesinin faydasını azaltabilir. Örneğin,
orijinal değerle orantılı olduğundan, yaş veya ev numarası gibi değerleri yuvarlamak için 5 tabanını
kullanabilirsiniz. Bir bina numarasını 15 ile çarpabilirsiniz ve değer onun güvenilirliğini koruyabilir. Bununla
birlikte, 15 gibi daha yüksek bazların kullanılması, yaş değerlerinin sahte görünmesini sağlayabilir.
Sentetik Veriler (Synthetic Data): Gerçek olaylarla bağlantısı olmayan algoritmik olarak üretilmiş bilgilerin
kullanılması yöntemidir. Sentetik veriler, orijinal veri kümesini değiştirmek veya olduğu gibi kullanmak, aynı
zamanda gizlilik ve güvenliği riske atmak yerine yapay veri kümeleri oluşturmak için kullanılır. İşlem, orijinal
veri kümesinde bulunan kalıplara dayalı istatistiksel modeller oluşturmayı içerir. Sentetik verileri oluşturmak
için standart sapmalar, medyanlar, doğrusal regresyon veya diğer istatistiksel teknikler kullanabilir [5].
Anonimleştirilmiş veri kümelerinde yer alan kayıtlardaki bazı değerlerin tekil senaryolarla bir araya gelmesi
sonucunda, kayıtlardaki kişilerin kimliklerinin tespit edilmesi veya kişisel verilerine dair varsayımların
türetilebilmesi ihtimali ortaya çıkabilmektedir. Bu sebeple anonimleştirilmiş veri kümelerinde çeşitli
istatistiksel yöntemler kullanılarak veri kümesi içindeki kayıtların tekilliğini minimuma indirerek anonimlik
güçlendirilebilmektedir. Bu yöntemlerdeki temel amaç, anonimliğin bozulması riskini en aza indirirken, veri
kümesinden sağlanacak faydayı da belli bir seviyede tutabilmektir.
K-Anonimlik: Anonim hale getirilmiş veri kümelerinde, dolaylı tanımlayıcıların doğru kombinasyonlarla bir
araya gelmesi halinde kayıtlardaki kişilerin kimliklerinin saptanabilir olması veya belirli bir kişiye dair
bilgilerin rahatlıkla tahmin edilebilir duruma gelmesi anonim hale getirme süreçlerine dair olan güveni
sarsmıştır. Buna istinaden çeşitli istatistiksel yöntemlerle anonim hale getirilmiş veri kümelerinin daha
güvenilir duruma getirilmesi gerekmiştir.
K-anonimlik, bir veri kümesindeki belirli alanlarla, birden fazla kişinin tanımlanmasını sağlayarak, belli
kombinasyonlarda tekil özellikler gösteren kişilere özgü bilgilerin açığa çıkmasını engellemek için
geliştirilmiştir. Bir veri kümesindeki değişkenlerden bazılarının bir araya getirilerek oluşturulan
kombinasyonlara ait birden fazla kayıt bulunması halinde, bu kombinasyona denk gelen kişilerin kimliklerinin
saptanabilmesi olasılığı azalmaktadır. Örneğin; Tablo 4.1’de ad-soyad, doğum tarihi, cinsiyet, hastalık ve posta
kodu gibi değişkenler vardır.
Tabloda ad-soyad ve posta kodu değişkenlerine dair değerlerde maskeleme uygulanarak veri anonim hale
getirilmiş olmakla birlikte, böyle bir anonimleştirme yapılırken aynı değerleri içeren sadece bir kayıt varsa bu
kayıtla doğru kişiyi tespit mümkün olacaktır. Ancak kayıtların çoklanması halinde, tekillik yaratabilecek
değişkenlere dair belli bir çeşitlilik sağlanmış olacaktır. Örneğin; Tablo 4.1’de 1983 yılında doğmuş, cinsiyeti
erkek ve posta kodu 3440 ile başlayan 3 adet kayıt için “Hastalık Adı” alanında üç ayrı hastalık çeşitliliği
sağlanmış olduğundan 1983 yılında doğmuş cinsiyeti erkek olan ve posta kodu 3440 ile başlayan bir kişinin bu
3 hastalıktan hangisine sahip olduğuna dair tahmin yürütmek mümkün olmayacaktır.
L-Çeşitlilik: K-anonimliğin eksikleri üzerinden yürütülen çalışmalar ile oluşan L-çeşitlilik yöntemi aynı
değişken kombinasyonlarına denk gelen hassas değişkenlerin oluşturduğu çeşitliliği dikkate almaktadır. Tablo
4.2’de, bir hastanede yatmakta olan kişilere ait hastalık bilgisi verilirken bu kişilerin ad soyad veya kimlik
numarası verilmeyerek K-anonimlik uygulanmış olmakla birlikte posta kodu, yaş ve etnik köken bilgisi
paylaşılmış olduğundan tespit edilebilme ihtimali bulunmaktadır.
about:blank 45/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Tablo 4.3’ten görüleceği üzere, tablo 4.2’de yer alan bilgiler maskeleme mantığı (posta kodu ve yaş bilgisinden
maskelemeyle 4’erli gruplar yaratılmıştır) içerisinde gruplanarak öncelikle K=4 anonimlik yöntemiyle
anonimliği kuvvetlendirilmiştir. Ancak ilk işlem sonucunda tablodan görüleceği gibi son 4 kayıttaki grupta tüm
“Hastalık” değerleri “Kanser” olarak gruplanmıştır. Bu durum posta kodu 130 ile başlayan 30’lu yaşlardaki
herkesin uyruğundan bağımsız olarak “Kanser” hastası olduğu bilgisini paylaşmaktadır. Bu iki bilgiye sahip
olan bir kullanıcı, tanıdığı bu özellikte bir kişinin kanser hastası olduğu sonucuna kolaylıkla varabilecektir. Bu
nedenle her bir grubun içinde belli bir çeşitlilik yaratılmasına dikkat edilerek maskeleme yöntemi
kullanılmalıdır.
T-Yakınlık: L-çeşitlilik yöntemi kişisel verilerde çeşitlilik sağlıyor olmasına rağmen, söz konusu yöntem
kişisel verilerin içeriğiyle ve hassasiyet derecesiyle ilgilenmediği için yeterli korumayı sağlayamadığı durumlar
oluşmaktadır. Bu haliyle kişisel verilerin, değerlerin kendi içlerinde birbirlerine yakınlık derecelerinin
hesaplanması ve veri kümesinin bu yakınlık derecelerine göre alt sınıflara ayrılarak anonim hale getirilmesi
sürecine T-yakınlık yöntemi denmektedir. Tablo 4.4’te; doğum tarihi, cinsiyet ve posta kodu alanlarına göre
K=3 olacak şeklinde K-anonimlik ve L=3 olacak şekilde L-çeşitlilik sağlanmasına rağmen 1970 yılında
doğmuş, 3440* adresinde oturan ve cinsiyeti erkek olan bir kişinin hastalıkları kanser, beyin tümörü ve hepatit
b gibi ciddi hastalıklar olduğu için, bu grupta söz konusu kişinin hastalığının ciddi olduğu tespit edilebilir.
Bu tahmin gücünü azaltabilmek için de anonimleştirme içindeki gruplamalarda Tablo 4.5’te görülebileceği
üzere öyle bir düzenleme yapılmıştır ki üçerli kayıtlardan oluşan gruplarda (K=3) en az 3 farklı (L=3) hastalık
tipi olacak şekilde ayarlanmış ancak bir araya gelen bu 3 farklı hastalığın da hepsinin ciddi olmaması
sağlanarak (beyin tümörü ve Hepatit-B ciddi hastalıklar iken baş ağrısı ciddi sayılmayacak bir hastalıktır) o
gruptaki hastalara dair tahminler azaltılmıştır.
Yukarıda verilen yöntemlerin yanında bir kişisel verinin silinmesi ya da yok edilmesi yerine
anonimleştirilmesine karar verilebilmesi için veri sorumlusunun yerine getirmesi gereken bazı şartlar vardır:
§ Anonimleştirilmiş veri kümesinin bir başka veri kümesiyle birleştirilerek anonimliğin bozulamaması,
§ Bir ya da birden fazla değerin bir kaydı tekil hale getirebilecek şekilde anlamlı bir bütün oluşturulmaması,
§ Anonim hale getirilmiş veri kümesindeki değerlerin birleşip bir varsayım veya sonuç üretebilir hale
gelmemesi.
Bu riskler sebebiyle veri sorumlularının, anonim hale getirdikleri veri kümeleri üzerinde bu maddede sıralanan
özellikler değiştikçe kontroller yapmaları ve anonimliğin korunduğundan emin olmaları gerekmektedir [6].
about:blank 46/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
§ Verinin niteliği,
§ Verinin büyüklüğü,
§ Verinin çeşitliliği,
§ Verinin anonimleştirmenin bozulması halinde ortaya çıkabilecek zararın büyüklüğü, etki alanı,
§ Anonimleştirmeyi bozacak bir saldırı kurgulanması ve hayata geçirilmesi için harcayacağı çabanın anlamlı
olması ihtimali.
Bir veriyi anonimleştirmeyi düşünen veri sorumlusu, kişisel veriyi aktardığı diğer kurum ve kuruluşların
bünyesinde olduğu bilinen ya da kamuya açık bilgilerin kullanılması ile söz konusu verinin yeniden bir kişiyi
tanımlar nitelikte olup olmadığını, yapacağı sözleşmelerle ve risk analizleriyle kontrol etmek
sorumluluğundadır [6].
Yeterli düzeyde anonimleştirme seviyesi sağlanmadan paylaşılan veri kümelerinin saldırıya ve ihlale açık
olduğu bilinmektedir. Saldırıların motivasyonlarını aşağıdaki başlıklarda toplayabiliriz:
§ Kurumları, şirketleri, organizasyonları, belirli bir kişiyi veya topluluğu zor durumda bırakmaya ve itibar riski
yaratmaya yönelik saldırılar,
§ Anonimliğin bozulması sonucu ortaya çıkacak kişisel verilerden ve elde edilebilecek değerlerden maddi veya
manevi fayda sağlama amacıyla yapılan saldırılar.
Yukarıda sıralanan senaryoların farklılığına bağlı olarak saldırıları yürüten kullanıcıların profilleri ve erişim
yetkileri de değişkenlik göstermektedir. Bu kişiler aşağıda listelenen örneklerdeki profillere sahip olabilirler:
§ Yazılım, istatistik, veri madenciliği konularında uzmanlaşmış bir profesyonel, akademisyen veya araştırmacı,
about:blank 47/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
§ Kuruluş, şirket, organizasyon içinde çalışan veya sistemlere erişim hakkı olan bir kullanıcı,
§ Anonim hale getirilmiş veriyi kullanarak çalışan ancak diğer bazı verilere veya sistemlere erişimi olan
kullanıcı,
§ Açıklanmış /paylaşılmış veri kümesinde yer aldığını bildiği bir kişinin yakını, aile üyesi veya arkadaşı.
Saldırıların sonucunda başarılı olunmuş ve anonimlik bozulmuşsa ortaya çıkan kişisel veriye dair üç farklı
senaryo oluşmaktadır. Bu senaryolar;
olarak sayılabilir.
Kişinin kimliğinin tamamen ortaya çıkmış olması durumu, çoğunlukla saldırganın elindeki anonim hale
getirilmiş veriyi elde ettiği veya erişiminin olduğu bir başka veri kümesiyle birleştirmesinden veya doğrudan
tanımlayıcılar yerine kullanılan kod veya takma isimlerin kodlamalarının bozulmasından kaynaklanabilir.
Böyle bir durumda gerçek kişinin doğrudan tanımlayıcılarına ulaşılır ve kimlik tamamen saptanabilir hale gelir.
Bu duruma bilinen en iyi örneklerden biri, 2006 yılında AOL firması tarafından çeşitli araştırma faaliyetleri
için, kullanıcı kimliği ve IP numarası silinerek 650 bin kadar kullanıcıya ait 20 milyon arama sorgu verisi
paylaşılmış, ancak birkaç gün içerisinde bu sorguların kimlere ait olduğu araştırmacılar tarafından tespit
edilmiştir.
Veri mahremiyetinin korunamadığı durumlarda veri sahibinin mahremiyetini ihlal eden durumlara bir diğer
örnek çevrimiçi yayıncılık ve DVD satış sitesi Netflix’in kullanıcıların geçmiş oylamalarına dayanan film öneri
sistemini geliştirmek için 2006’da başlattığı ödüllü yarışmadır. Netflix 500 bin kadar abonesinin film
derecelendirmeleriyle ilgili yaklaşık 100 milyon kaydı içeren veri kümesini bu yarışma için yayınlamıştır.
Aboneleri tanımlayan kişisel bilgiler (ad, soyad, IP adresi vb.) yarışma için yayınlanan kayıtlardan
çıkarılmıştır. Aboneleri birbirinden ayırt etmek amacıyla sayısal numaralar kayıtlara verilere eklenerek
yayınlanmıştır. Ancak, 2007’de Austin Üniversitesi’nden iki araştırmacı, yayınlanan veri kümelerini İnternet
Film Veritabanı (IMDB) üzerindeki film derecelendirmeleriyle eşleştirerek abonelerin kimliklerinin yeniden
tanımlanabileceğini göstermiştir.
Massachusetts’de 1990’lı yıllarda Grup Sigorta Komisyonu isimli bir sigorta şirketi bölgedeki kamu
personelinin sağlık sigortası süreçlerini üstlenerek, talep eden araştırmacılara ücretsiz olarak işçilerin hastane
ziyaretlerine ait olan veriyi anonimleştirerek paylaşabileceğini duyurmuştur. Paylaşımlar öncesinde Grup, isim,
adres, sosyal güvenlik numarası gibi direkt betimleyicileri veriden çıkartarak güvenli ve anonimleştirilmiş bir
veri kümesi yaratmayı hedeflenmiştir. Latanya Sweeney isimli araştırmacı sigorta grubundan bu veriyi talep
eder, sonrasında ise Massachusetts eyaletinde yer alan Cambridge şehrinin belediyesinden 20 dolar karşılığında
tüm seçmen kayıtlarını satın alır. Bu iki veri kümesinde posta kodu, doğum tarihi ve cinsiyet değişkenleri
ortaktır. Bu üç değişken üzerinden iki veri kümesi birbiriyle eşleştirildiğinde kişilerin kimliklerinin kolaylıkla
tahmin edilebileceği kayıtlar yaratılmış olur. Örneğin, Massachusetts eyalet valisi William Weld o günlerde
Cambridge’de oturmaktadır ve kamu personeli olduğundan kayıtlarının sigorta grubunun sağlık verileri içinde
yer aldığı bilinmektedir. Sweeney’in eşleştirmesinden sonra ortaya çıkan veri kümesinde sadece 6 kişi vali ile
aynı doğum tarihini paylaşmaktadır, bunlardan sadece 3’ü erkektir ve sadece biri vali gibi 5 rakamlı posta
koduna sahiptir. Sweeney araştırmanın önemini vurgulamak adına kayıtlar içinde kimliğini saptayabildiği
valinin teşhis ve tedavi detaylarını da içeren sağlık kayıtlarını ofisine postalamıştır.
AOL, 1998 yılında 12 milyon, 2006 yılında 27 milyon gibi abone sayılarına ulaşabilmiş Amerika’da hizmet
veren büyük bir servis sağlayıcıdır. Şirket, 2006 yılında “AOL Research” adıyla yeni bir girişimde bulunarak,
AOL arama motorlarındaki 650.000 kullanıcıya ait olan 20 milyon arama sorgu kaydını sitelerinde kamuya ifşa
ederek araştırmacıların dikkatine sunmuşlardır. Arama sorguları ifşa edilmeden önce anonimleştirilerek kimlik
saptaması yapılabilecek kişisel verilerden arındırılmış ve bunun yerine kullanıcılara numaralar atanmıştır.
Ancak kısa zaman içinde araştırmacılar, arama sorguları içindeki ifadeleri takip ederek ve aynı kullanıcı
about:blank 48/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
numarasına ait birden fazla sorguyu birleştirdiklerinde birebir kimlik saptaması yapılabildiğini görmüşlerdir.
Bu durum önceki bölümlerde çalıştığımız, birden fazla anonimleştirilmiş veri kümesinin birleşiminden ve veri
kümelerindeki dolaylı betimleyicilerin kombinasyonlarından orijinal kümenin açığa çıktığı modele güzel bir
örnektir.
İfşa edilen sorgu veri kümesinde ‘4417749’ kullanıcı numarası ile yer alan kişi “Lilburn, Ga’daki bahçe
düzenleyicileri”, “Gwinnet County Georgia’da satılık göl kenarı parsel”, ve pek çok “Arnold” soyadlı kişiye ait
aramalar yapmıştır. Bu üç veri takip edilip Internet üzerinde arama yapıldığında 62 yaşında Lilburn,
Georgia’da yaşayan Thelma Arnold isimli kişinin kimliği kolaylıkla saptanmıştır. Thelma Arnold bunun gibi
“hissiz parmaklar”, “60 bekar adam”, “her yere işeyen köpekler” gibi özel hayatıyla ilgili pek çok hassas detayı
açık eden ve toplumda utanç verici bir konuma düşmesine sebep olacak aramalar da yapmıştır. Kimliği ifşa
edilmiş kayıtlar içinde teşhis edildikten sonra kişiye dair bu ve benzeri pek çok hassas veri açığa çıkmış ve
kişinin özel alan gizliliği ve kişisel verileri ihlal edilmiştir.
Yasal mevzuatlar incelendiğinde görülmektedir ki, anonimleştirme, silme ve rıza kavramlarıyla ikame olarak
ele alınmış ve birbirinin yerine geçebilen süreçler olarak değerlendirilmiştir. Veri yönetimi süreçlerinde
verilerin silinmesi kayıtların tüm arşiv ve yedekleme ortamlarından geri dönüşsüz olarak yok edilmesi
anlamına gelmektedir. Ancak böyle bir yok etme işlemi, ilişkisel veri tabanlarındaki mimariyi bozacağından
sistem yöneticileri verilerin tamamen uçurulması yerine pasif olarak sistemde varlıklarını sürdürmesini tercih
etmektedir. Yani veriler zaman içinde ilişkiler kurdukları tablolara, raporlara, veri ambarlarına zarar gelmemesi
için tamamen yok edilmez, sistemde pasif olarak tanımlanır. Örneğin mobil operatörüyle aboneliğini
sonlandırılmış bir müşterinin veriler, operatörün veri tabanlarından hemen silinemez. Bu durum o müşterinin
verilerinin yer aldığı tüm strateji, pazarlama, trafik yönetimi vs. raporlarını bozacak bir eylemdir. Diğer
taraftan, kayıtların çok eskimesi halinde verinin tamamen yok edilmesi halinde de o veriye yeniden ulaşmak
mümkün olmayacaktır. Her iki durumda da silme işlemi anonimleştirilmiş veri ile denk değildir.
Anonimleştirilmiş veri her daim belli kimlik saptama risklerini barındırmaktadır. Ancak silme işleminin
uygulanış şekline göre riskleri değişkendir ve anonimleştirilmiş veri ile bir tutulması yerine silme işleminin de
süreçlerinin net şekilde çalışılması gerekmektedir. Benzer şekilde rıza kavramı da farklı dinamiklere sahiptir.
Rızası alınan müşteri veya kullanıcının verileri genel bilgi güvenliği kuralları çerçevesinde işlenebilir hale
gelmektedir. Ancak burada veri öznesiyle olan ilişkinin kopartılmasına dair bir şart koşulmamıştır. Hâlbuki,
veri anonimleştirme süreci pek çok şartı ve hesaplamayı içerir. Rıza alındıktan sonraki süreç açıkça
belirlenmediğinden, veri işlem sorumlusu olan işletmeciler veya kurumlar, rızası alınan veri öznesinin verileri
üzerinde daha fazla hak iddia edebilmektedirler. Bu anlamda anonimleştirilmiş veri, rızası alınmış veriden daha
güvenli hale gelmektedir.
Anonimleştirme tekil bir çözüm olarak ele alınmalıdır: Anonimleştirme ikame bir çözüm olarak değil,
uygulama alanı ve sınırları belli bir tekil çözüm olarak ele alınmalıdır. Silme ve rıza gibi farklı dinamikleri olan
süreçlerin bir ikamesi olarak ele alınması anonimleştirme süreçlerine karşı hukuki yaklaşımda yanlış algıların
oluşmasına sebep olmaktadır.
about:blank 49/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
sonra anonimleştirmenin uygulanıp uygulanmaması gerektiğine ve hangi metodun daha uygun olacağına karar
verilmelidir.
Anonimleştirme iş ve çalışma modellerini dikkate almalıdır: Veri sorumlularının ve veri odaklı çalışan tüm
ticari ve idari kuruluşların çalışma yöntemleri birbirinden farklıdır. Bu durum kuruluşların veri yönetim
süreçlerine, veri politikalarına ve yapılan yatırımlara yansımaktadır. Bu çeşitliğin içinde anonimleştirme
süreçleri kuruluşların iş ve çalışma şekillerini dikkate alarak uygulanmalıdır. Bir üniversitenin verilerine
istinaden uyguladığı anonimleştirme süreci ile dünya çapında tanınan bir arama motorunun uygulaması
beklenen anonimleştirme süreci aynı olamaz. Kuruluşun sahip olduğu veri hacmi, veri yönetimi yatırımları,
tabi olduğu güvenlik politikaları, bilinirliği, dış kaynak ilişkileri, yurt dışı bağlantıları gibi iş modelini
etkileyen kriterler dikkate alınarak anonimleştirme çözümleri değerlendirilmelidir.
Anonimleştirme muafiyet getirmemelidir: Anonimleştirilmiş verinin “tüm veri koruması ilkelerinden muaf
tutulması”, anonimleştirme sürecini yerine getiren işletme veya kurum için veri güvenliğini sağlanmıştır
algısını oluşturmaktadır. Halbuki anonimleştirilmiş veri de hassas veriler gibi ayrı bir veri sınıfı olarak
algılanmalı ve anonimleştirmenin olası risklerine istinaden de güvenlik önlemleri önemini korumalıdır.
Bölüm Özeti
Anonimleştirme, verinin tipinin ve biçiminin korunarak paylaşılmış büyük veri kümelerinde yer alan
veri sahiplerinin kimlik bilgileri ve hassas verilerinin ifşa edilmesini önlemek amacıyla yapılan bir işlemdir.
Anonimleştirmede, büyük veriden fayda sağlayabilmek için veri kaybı yapılmalıdır. Ama veri kayıplarındaki
artış veri kalitesini düşürür ve bu da veriden sağlanacak faydanın azalmasına sebep olur. O yüzden
anonimleştirme işlemi sırasında veri kaybı kabul edilir düzeyde yapılmalıdır.
Anonimleştirme işleminin temel amacı, veriyi paylaşılabilir kılmaktır. Veri anonimleştirme için yaygın
olarak kullanılan teknikler ise; veri maskeleme (data masking), takma adlandırma (psuedonymization),
genelleme (generalization), veri değiştirme (data swapping), veri bozulması (data perturbation), sentetik veriler
(synthetic data) işlemleridir. Veri anonimleştirilmesi sırasında dikkate alınması gereken bazı kriterler olmuştur.
Bunlar, verinin niteliği, büyüklüğü, çeşitliği, aktarılacağı tarafın güvenliği vb. durumlar dikkate alınması
gereken kriterlerdir.
Anonimliğin bozulması durumu, anonimleştirme işlemi kişisel verilere uygulanan ve kimlik belirleyici
özelliklerin yok edilmesi işlemi olduğu için çeşitli müdahalelerle tersine döndürülmesi ve anonimleşmiş
verinin yeniden kimlik tespit edici hale dönüşme durumuna verilen isimdir. Anonimliği bozulan veriden
kaynaklı kişisel verilerin açığa çıkmasından veri sahiplerine maddi manevi kayıplar yaşatabilir. İtibar riski
yaşanabilir.
Kaynakça
[1] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O.,
Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.
about:blank 50/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
[2] Lugmayr, A., Lugmayr, A., Stockleben, B., Stockleben, B., Scheib, C., Scheib, C., ... & Mailaparampil, M.
A. (2017). Cognitive big data: survey and review on big data research and its implications. What is really
“new” in big data?. Journal of Knowledge Management, 21(1), 197-212.
URL: https://proente.com/big-data-buyuk-veri-nedir/
URL:https://www.beyaz.net/tr/guvenlik/makaleler/veri_maskeleme_nedir_turleri_nelerdir.html
URL: https://terabilisim.com/kvkk-veri-anonimlestirme-nedir-nasil-yapilir/
[6] Kişisel Verileri Koruma Kurumu (KVKK), (2017), Kişisel Verilerin Silinmesi, Yok Edilmesi veya Anonim
Hale Getirilmesi Rehberi, ISBN: 978-975-19-6807-4
Ünite Soruları
Soru-1 :
Aşağıdakilerden hangisi büyük verinin anonimleştirmesiyle ilgili temel kavramlardan biri değildir?
(Çoktan Seçmeli)
(A) Anonimleştirme
(B) Maskeleme
(C) İmha
(D) Üretme
(E) Saklama
Cevap-1 :
Üretme
Soru-2 :
(Çoktan Seçmeli)
about:blank 51/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-2 :
Verinin silinmesi
Soru-3 :
(Çoktan Seçmeli)
Cevap-3 :
Soru-4 :
(Çoktan Seçmeli)
Cevap-4 :
Soru-5 :
(Çoktan Seçmeli)
Cevap-5 :
Soru-6 :
Anonimleştirme işlemi yapılacak veri kümesi için aşağıdakilerden hangisini veri sorumluları dikkate
almamalıdır?
(Çoktan Seçmeli)
(C) Verinin anonim hale getirilmesi için harcanacak çabanın anlamlı olmaması
Cevap-6 :
Soru-7 :
(Çoktan Seçmeli)
(B) Seviyelendirilmesi
Cevap-7 :
Soru-8 :
(Çoktan Seçmeli)
about:blank 53/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-8 :
Karıştırma ve permütasyon
Soru-9 :
“………, orijinal veri kümesinde bulunan kalıplara dayalı yapay veri kümeleri oluşturarak istatistiksel modelle
oluşturur.”
(Çoktan Seçmeli)
(B) Genelleme
Cevap-9 :
Sentetik veriler
Soru-10 :
Kişisel verilerin silinmesi, yok edilmesi veya anonim hale getirilmesi işlemi nedir?
(Çoktan Seçmeli)
(A) Anonimleştirme
(B) Maskeleme
(C) İmha
(D) Silme
(E) Saklama
Cevap-10 :
İmha
about:blank 54/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
5. AÇIK VERİ
Birlikte Düşünelim
1. Büyük veriyi açık hale neden getirmeliyiz?
3. Açık verinin dünyadaki örnekleri ile ülkemizdeki örnekleri arasında nasıl farklar ve benzerlikler vardır?
4. Hangi konularda açık verilere ulaşım kolaydır? Bunun nedeni ne olabilir?
Başlamadan Önce
Belli alanlarda toplanan ve vatandaşlar ile araştırmacıların kullanımına sunulması amacıyla elde edilen büyük
veri kümeleri açık hale getirilir. Bu sebepledir ki, belirli prensipler çerçevesinde veriye erişimi kolaylaştırmayı
amaçlayan ve bu sayede ulaşım, sağlık ve haberleşme gibi özellikle son kullanıcıyla etkileşimi yüksek olan
sektörler açısından getireceği faydalar da göz önünde bulundurulduğunda, açık veri kavramı büyük önem arz
etmektedir.
Açık verinin, ücretsiz ve sürekli erişilebilir olması, yeniden kullanılabilir olması, inovasyon odaklı olması gibi
prensipleri başta olmak üzere pek çok prensibi gereği üst düzey kalitede veriye erişimi kolaylaştırması
sebebiyle vatandaşlar, kamu sektörü ve özel sektör açısından getirileri olacaktır.
Özellikle enerji kazanımları ve bilimsel gelişim gibi etkilerinin de olacak olması sebebiyle ekolojik açıdan da
faydası olacağı, hayat kurtarıcı çözümler üzerindeki etkisi de göz önünde bulundurulduğunda açık veri
politikalarının farklı paydaşlara hizmet edeceği belirtilmelidir.
Bu kapsamda, dünyadaki ulaşım, gayrimenkul, sağlık ve hava durumu konularını ilgilendiren örnekler de baz
alınarak Türkiye’de, kamu ve özel sektörün katılımıyla açık veriye ilişkin oluşturulacak ekosistemlerin farklı
sektörlerin gelişimi için etkili olacağı aşikardır.
Büyük veriden ekonomik ve sosyal/kültürel değer yaratmanın en etkili yöntemi veriye erişimin olmasıdır. Bazı
veri kümeleri telif hakkı gibi nedenler dolayısıyla istenildiği şekilde kullanılamazken, bazı veri kümeleri ise
veriyi işleyecek teknolojik altyapıya uygun yapıda olmamasından kaynaklı olarak kullanılamamasıdır. Bazen
de ihtiyaç duyulan veri kümesinin temininin mümkün olmamasıdır. Bu ve benzeri nedenlerden ötürü boyutları
üstel olarak artan veri kümelerinin oluşturduğu veri yığınlarını kullanarak basit veya karmaşık problemlere
çözüm bulmak her zaman olası olmamaktadır.
Bu türden zorlukları aşma amacıyla ‘açık veri’ (open data) kavramı, tüm dünyada ve ülkemizde veri
ekosistemleri içerisinde yer bulmakta ve gittikçe yaygınlaşmaktadır. Bunun sonucunda da açık veri yaklaşımı
ile geliştirilen uygulamalar son yıllarda giderek artmaktadır.
“Açık veri, herkesin özgürce ve yeniden kullanabileceği ve yeniden dağıtılabileceği, yalnızca nitelik ve
paylaşım gereksinimine tabi olan veridir.”
Açık veri (open data), herhangi bir telif hakkına sahip olmayan, herkes tarafından kullanılabilen,
düzenlenebilen ve dağıtılabilen veridir. Veri araştırmacıların odak noktası veriyi bulma, işleme, analiz etme,
düzenleme, paylaşma ve görselleştirmektir. Bu amaçlar için kullanılan açık veride kurumların ve devletin
about:blank 55/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
şeffaflığı ve katılımı amaçlanır. Açık veri sayesinde kurumlar hem ekonomik hem de sosyal anlamda
verimliliklerini artırabilir. Veri herkese açık ve özgürce kullanılabilir olduğunda vatandaşların da farkındalığı
artar.
Açık veriler, özellikle de büyük kuruluşlar ile açık hükümet verileri, henüz kullanılmayan, muazzam birer
kaynaktır. Pek çok kişi ve kuruluş, görevlerini yerine getirmek için çok çeşitli veri türlerini toplamaktadır. Hem
topladığı verilerin miktarı ve merkezciliğinden ötürü, hem de bu verilerinin çoğunun kamuya açık veriler
olması ve bu nedenle açık ve diğerlerinin kullanımına sunulması oldukça önemlidir. Açık verilerin değerli
olduğu ve örneklerin nasıl kullanılabileceğini önceden tahmin edebileceğimiz birçok alan vardır. Ayrıca
kuruluşların kendisi de dâhil olmak üzere açık verilerin kullanılmasından istifade edebilecek birçok farklı grup
ve kişi vardır. Aynı zamanda, gelecekte nasıl ve nerede değer yaratılacağını tam olarak tahmin etmek
olanaksızdır. Yeniliğin doğası, gelişmelerin genellikle olası olmayan yerlerden geldiğidir.
§ Katılım
§ İnovasyon/Yenilik
§ Birleştirilmiş veri kaynakları ve büyük veri hacimlerindeki modellerden yeni ve anlamlı bilgiler
about:blank 56/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Verilerin açık hale getirilmesi sonucu aşağıda belirtilen bazı temel özellikleri bulunmaktadır. Bunlar:
i. Kullanılabilirlik ve Erişim
Veri bir bütün olarak, yeniden üretim maliyetini aşmayacak şekilde, tercihen internet üzerinden indirilebilir ve
uygun bir biçimde mevcut olmalıdır.
Veri, diğer veri kümeleri ile karıştırılarak kullanılması dahil olmak üzere, yeniden kullanıma ve yeniden
dağıtılmaya izin veren şartlar altında sağlanmalıdır.
Açık veri ekosistemi veri üreten, yayımlayan ve kullanan paydaşların birlikte çalışabileceği bir ortamdır. Bu
ekosistemde yer alan veri, kişilere veya gruplara karşı herhangi bir ayrımcılık yapılmadan herkes için
kullanılabilir ve dağıtılabilir olmalıdır.
§ Teknik olarak Açıklık: Makineler tarafından okunabilen (machine-readable) standart yapıya uygunluk
sağlamalıdır. Bilgisayar uygulamaları tarafından alınabilmeli ve anlamlı bir şekilde işleme tabi tutulabilmelidir.
§ Yasal olarak Açıklık: Açık bir şekilde lisanslanmalıdır. Herhangi bir sınırlama olmaksızın, ticari ya da ticari
olmayan kullanım ve tekrar kullanıma izin vermelidir.
a. Ücretsiz ve sürekli erişilebilirlik: Açık veri kapsamına giren bilgiler herhangi bir telif hakkı, patent, erişim
alanını daraltan lisanslar veya bunların dışında kalan ama kullanımı kısıtlayan farklı bir unsura tabi
olmamalıdır. Bu anlamda açık veri kavramı, erişime sınırsız bir şekilde açık olan veridir. Bu durum, açık
verinin kullanımı yaygın cihazlar ve dosya tipleri üzerinden erişime açık olması gerekliliğini de içerir. Aksi
takdirde açık verinin erişilebilirliği azalır ve söz konusu veri “açık” olma özelliğini kaybetmeye başlar. Açık
veri olarak tanımlanan bilgiler, dileyen herkesin erişimine ücretsiz ve dolayısıyla eşit şekilde açık olmalıdır.
b. Yeniden kullanılabilir ve paylaşılabilirlik: Açık veriler sınırsız kullanım özelliği taşıdıklarından bu verileri
edinen kişiler, herhangi bir izne tabi olmaksızın söz konusu bilgileri başkalarıyla paylaşabilir ve yeniden
kullanabilir.
c. İnovasyon odaklılık: Sosyal ve ekonomik yönden toplum faydasını amaçlayan açık veriler, toplumsal ve
kurumsal yapıların ihtiyaçlarına cevap veren inovatif çözümler sunmalıdır. İnovatif açık veri, tarımsal
verimliliğin artırılmasına ilişkin olduğu gibi küresel iklim değişikliğiyle mücadeleye dair bir veri de olabilir,
yani birbirinden çok farklı birçok alanlarla ilişki halindedir. Ölçeği de buna bağlı olarak ulusal ya da küresel
fayda üzerine olabilir. Açık veri özel sektör ve sivil toplum kuruluşlarıyla yapılan işbirlikleri yoluyla her iki
ölçekte de toplumsal ve ekonomik faydayı en üst düzeyde tutmayı amaçlar.
d. Kapsayıcılık: Açık veriler belli bir konuyla sınırlandırılmayacak şekilde geniş bir alana yayılır. Açık veriler,
haritalar, meteorolojik tahminler, yasalar, trafik bilgileri, mali tablolar, ekonomik görünümler, finans sektörüyle
ilgili veriler vb. birçok farklı alanı kapsayabilir. Bu kapsayıcılık beraberinde açık verinin çok yönlü olma
özelliğini de getirir. Gerçekten üst düzey kalitede ve başka verileri besleyen açık verilerden yararlanılmasının
yanı sıra, ortak ve genel geçer bir açık veri politikasıyla hareket edilmesi halinde bu etki katlanarak artabilir.
Kapsayıcılık ilkesi, açık verinin daima eksiksiz olması anlamına da gelir.
about:blank 57/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
e. Şeffaflık ve hesap verilebilirlik: Kâr amacı gütmeyen bir yapıya sahip olan açık veriler, kamu kurumlarının
şeffaf ve buna bağlı olarak hesap verebilir bir halde olmasında etkilidir. Böylece demokratik altyapıyı
güçlendirir, çoğulcu ve katılımcı işleyişe ise genellikle doğrudan katkıda bulunur. Ayrıca, elde edilecek yeni
geri bildirimler sayesinde hizmet kalitesi de yükselir. Bütün bu sürecin sağlıklı işleyebilmesi için karar
mekanizmalarının doğru şekilde kurulması oldukça önemlidir.
f. Güncellik: Açık verinin değeri, son kullanıcıya ulaşım hızıyla doğru orantılı olarak artar veya azalır. Bu
nedenle verinin değerini korumak adına, bu veriden yararlanacak kişilere ve kurumlara, yani toplumsal tabana
olabildiğince zamanında ulaşmalıdır.
g. Standartlaşma: Açık veri elde etme sürecinde, bilgiye dönüştürülecek veriler toplanırken açık standartlar
belirlenmelidir. Hatta ilk hedef, bu standartların uluslararası normlar kıstas alınarak ortaya konulması olmalıdır.
İlgili verinin yayınlanmasında da mevcut protokoller korunup gerekiyorsa geliştirilmeli ve verinin yeniden
kullanımı için yeni politikalar oluşturulmalıdır. Açık verilerin standardizasyonunda üretilecek verinin kısa ve
uzun vadelerde çeşitli pazarların yararına sunulabilecek potansiyel taşıması, kamu sistemlerine uyumlu olması
ve paydaşlarla etkileşime girebilmesi gibi çeşitli hususlar da göz önüne alınmalıdır.
h. İşlenebilirlik: Açık veri aynı zamanda toplumun doğrudan kendisinden edinilmiş ham veri olduğu için
işlenebilirliği de yüksek olan veri anlamına gelir. Diğer bir deyişle, her açık veri daha gelişmiş açık verilere bir
temel sağlar ki, bu da toplumsal açıdan birikimli ilerlemenin yolunu açar. Bu sebeple açık veriler, analizi teşvik
eden ve yeniden kullanılabilecek şekilde sunulan verilerden oluşmalıdır.
§ Halihazırda kullanılmış olan veya kullanılan verilerin açık veri haline getirilmesi sonucunda açık veri sadece
onu üreten ve toplayanlar ile sınırlı olarak kullanılmayacak olması; bu sayede bu veriyi kullanan farklı
paydaşlar tarafından yenilikçi çözümlerin üretilmesi.
§ İdareler ve organizasyonlar arasında açık veri kullanımının arttırılması, verinin tek kaynaktan açık şekilde
kullanılması ve verinin sektörler arası çapraz kullanımı sayesinde maliyetlerin düşmesi ve etkinliğin artması.
§ Özel sektör tarafından kamu idarelerine yardım amacıyla verinin nasıl haritalanacağına veya yayınlanacağına
ilişkin yapılan veri harmanlama çalışmaları ile veri kalitesinin arttırılması ve veri alanında yapılacak
kullanımlar için bir zemin oluşturulması.
§ Kaliteli ve ihtiyaca yönelik verinin açık veri olarak kullanımıyla beraber hem müşterilerin hem de iş
dünyasına içgörü sağlanması sonucunda yeni iş modellerinin yaratılması.
§ Açık verinin hesap verilebilirlik ve şeffaflık sağlaması nedeniyle açık veriyi paylaşan kamu veya özel sektör
aktörlerinin tüketici nezdinde güven kazanmaları.
Açık verinin son kullanıcı açısından faydalarını; zaman kazanımı, çevre, sağlık, enerji, güvenlik ve bilimsel
çalışmalar anlamındaki faydaları olarak daha somut bir şekilde örneklendirmemiz de mümkündür;
a. Zaman kazanımı
Zamanının artan değeri göz önüne alındığında, açık verinin insanların gündelik yaşamına sağladığı en büyük
verimliliğin zaman kazanımı olduğu söylenebilecektir. Özellikle büyük şehirlerde vaktinde gelmeyen toplu
taşıma araçları ve yaşanan trafik sıkışıklıkları insanların zamanlarını verimli kullanmalarını engellemektedir.
Oysaki toplu taşıma araçlarına ait zaman çizelgelerine, trafiğin sıkışık olduğu saatlere vb. verilere rahat
ulaşabilmesine bağlı olarak insanların yolda geçirdikleri zaman azaltılarak insanlara zaman kazanımı
sağlanabilir. Bu amaçla toplu taşımaya ilişkin verilerin açılarak, uygulama geliştirmede kullanılması söz
konusudur.
about:blank 58/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Örneğin, Polanya’da geliştirilen ‘Warszawski Ninja’ isimli bir uygulama ile, toplu taşıma aracı kullanan
vatandaşların yoldaki problemler ve gecikmeler hakkında bilgi sahibi olması sağlanmaktadır. Bu sayede
vatandaşlar alternatif yolları tercih edip yolda geçirdikleri süreleri kısaltabilmektedir. Ülkemizde de benzer
olarak, İstanbul Elektrik Tramvay ve Tünel İşletmeleri Genel Müdürlüğü’nün uygulaması olan Mobiett ile,
duraklardan hangi otobüslerin ne zaman geçeceği gerçek zamanlı olarak görüntülenebilmektedir.
Açık verinin çevresel sürdürülebilirlik üzerinde doğrudan etkileri olduğu belirtmektedir. Bu etkiler aşağıdaki
gibi sıralanabilir;
Sera etkisi ve iklim değişikliği günümüzde en çok endişe edilen konuların başında gelmektedir. Devletler
bunların toksik etkilerinin azaltılabilmesi için yeni yollar aramaktadır. Açık verinin, bu zararlı etkilerin sağlık
açısından riskler oluşturduğu alanlar hakkında detaylı bilgiler edinilmesini sağlayarak, bu zararlı etkilerin
azaltılması için kullanılabileceği belirtilmektedir.
Bu amaçlarla paralel olarak geliştirilen, “Plume Labs” isimli bir uygulama ile, dünyadaki 60 şehrin hava
kirliliği seviyeleri saatlik olarak takip edilebilmektedir. Uygulama Airparif gibi farklı ajanslar tarafından
kamuya açılan açık verileri kullanarak, kirlilik seviyelerini “kritik” veya “zararlı” olarak gösterilmekte ve hava
kirliliği konusunda farkındalık yaratılmaktadır.
i. Trafik kazalarındaki ölüm oranının azalması: Dünya Sağlık Örgütü (“DSÖ”) Küresel Yol Güvenliği 2018
raporuna göre, dünyada her yıl yaklaşık 1 milyon 350 bin insan trafik kazalarında hayatını kaybetmektedir.
Açık verinin kullanımı ile ölüm ile sonuçlanan trafik kazalarının büyük oranda engellenebileceği dile
getirilmektedir.
Örneğin, kazaların nerede ve hangi zamanlarda olabileceğini tahmin edebilen yazılımlar geliştirilebilmektedir.
Yine bu amaçla geliştirilen “Lifesaver” isimli bir uygulama, kişinin araba kullandığını tespit ettiği anda
telefonu otomatik olarak kilitlemektedir.
ii. Sağlık hizmetlerinin kalitesinin arttırılması: Tüm Avrupa ülkelerinin açık veri portallarında ayrı bir sağlık
bölümü bulunduğu ve diğer veri setlerine kıyasla sağlıkla ilgili verilerin en çok indirilen veriler olduğu
belirtilmektedir. Sağlık verilerinin açılmasıyla, sağlık hizmetlerinin kalitesi hakkında bilgi sahibi olunabileceği
ifade edilmektedir. Bununla birlikte, Amerika’da yapılan bir hesaplamaya göre, özel sağlık veri tabanlarının
açılmasıyla, sadece Amerika’daki 90.000 kişinin kalp krizi geçirmesinin önüne geçilebileceği ve 25.000 kişinin
ölümünün engellenebileceği belirtilmektedir.
Açılan sağlık verileri kullanılarak, ilk yardım noktalarının nerede olması gerektiği tespit edilebilmekte, bu
sayede de özellikle kalp durması kaynaklı ölümlerin gerçekleşmesi önlenebilmektedir. Ayrıca, bir hastalığının
her bir hastanedeki görünme ve tedavi oranlarına ilişkin verilerin açılması, bu hastalığın tedavisinde daha
başarılı olan hastanelerden tedaviye dair bilgi paylaşımı yapılmasını ve bu şekilde hastalığın tedavi oranlarının
azaltılmasını sağlayabileceği belirtilmektedir.
Birçok farklı ülkede açık veri kullanan uygulamalar ile acil durumlara müdahale süresi azaltılabilmekte ve
hastaların hayatta kalma oranları arttırılabilmektedir. Hayat kurtarma oranı en yüksek olan uygulamaların kalp
durması kaynaklı ölümlere odaklandığı ifade edilmektedir. Bilindiği gibi, kalp durmalarının kişinin hayatı
üzerindeki etkileri ilk yardımın zamanlamasına bağlı olarak değişmektedir. Bu uygulamalardan olan
Amerika’daki PulsePoint, hastanın konumuna yakın kalp masajı konusunda eğitimli kişileri ve en yakın ilk
yardım alabileceği yerleri işaretlemektedir.
iii. İtfaiye hizmetlerinin gelişimi: İtfaiye çalışanları için olaya müdahalede tercih edecekleri yolun uygunluğu,
olay yerindeki binalarda tehlikeli maddelerin bulunup bulunmadığı gibi veriler, karar verme aşamaları için
about:blank 59/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
kritik önemdedir. Bu verilen açılmasıyla itfaiye ekiplerinin, riskler ve gerekli olan ekipmanlar hakkında daha
iyi muhakeme yapabileceği belirtilmektedir. Bu sayede de karşılaşılabilecek riskler, bu bilgilerin gerçek
zamanlı olarak erişebilir olmasıyla azalabilmekte ve yangında mahsur kalan kişilerin kurtulma olasılığı
artabilmektedir.
d. Enerji kazanımı
Çevre koruma perspektifinden bakıldığında her bir aile, enerji tüketimlerini ölçümleyip azaltarak açık veriden
yarar sağlayabilecektir. Tüm hane halklarının enerji tüketimleri gösterildiğinde ve benzer hane halklarıyla
karşılaştırma yapılabildiğinde farkındalığın artacağı belirtilmektedir. Ayrıca bireylerin, ortalama hane
halklarıyla karşılaştırma yaptığında kendi enerji tüketimlerini azaltmaya yöneldikleri ve bu sayede daha az
tutarlı fatura ödedikleri gözlemlenmiştir. Avrupa Veri portalının raporuna göre açık veri kullanılarak enerji
tüketiminin %16 azaltılabileceğini hesaplanmıştır. Bu durum sadece bireyler için değil aynı zamanda özel ve
kamu sektöründeki kuruluşlar için de geçerlidir.
e. Güvenliğe katkıları
Verinin açılması sadece sağlık sektörüne fayda sağlamamakta, insan hayatını tehlikeye atabilecek olaylar
engellenebilmektedir. Örneğin LuckyMe isimli uygulama, kullanıcılarının soyguna veya saldırıya uğrama
risklerini bulundukları ortama göre puanlamaktadır. Kullanıcılar bu uygulama ile örneğin karanlık bir sokağa
girmeden önce, sokağın risk oranını ölçebilmektedir. Ayrıca uygulama sayesinde kullanıcılar da, yaşadıkları
olayları (soygun, kavga vb.) raporlayabilmekte veya bir konum hakkında kendi sübjektif hislerine göre
puanlama yapabilmektedir.
f. Bilimsel gelişim
Özellikle üniversite bünyelerinde yapılan araştırmaların, tezlerin veya raporların kamuya açılması, ilgili konu
hakkında çalışan kişilerin bunlardan yararlanarak bilimsel gelişimi desteklemesini sağlamaktadır. Ülkemizde
de “ulusal tez merkezi” altında birçok konu hakkında yazılan tezlere ulaşılabilmektedir.
Açık veri denildiğinde tüm dünyada hükümetlere ait verilerin yine hükümet organizasyonlarına veya özel
sektöre açılması anlaşılsa da açık veri kavramı özel sektöre ait verinin açılması durumunu da içermektedir.
Bugün özel sektörün elinde en az hükümetler kadar önemli veri setleri bulunmaktadır. Hükümetlerin ve özel
sektörün ellerindeki veri setlerinin açık veri haline getirilerek değiş tokuş edilmesi durumunda veriden elde
edilecek faydalar artacaktır. Buna birkaç örnek verecek olursak;
i. 2020 yılına kadar dünyada neredeyse 3 milyar insanının akıllı telefonu olması beklenmektedir. Bir kriz
anında bu telefonlarda konum belirleme (lokasyon) verisi paylaşılması bireylerin şehir içerisinde nasıl hareket
ettiğini ortaya koyacak, dolayısıyla kriz yönetimi kolaylaşacaktır,
ii. Dünyanın etrafında 1000’in üzerinde uydu bulunmaktadır. Bu uydulardan dünyanın çeşitli bölgelerinin yol
durumlarına, elektrik kullanımına vb. unsurlara dair alınan veriler dünyanın ekonomik gidişatı ve aktivitesi
hakkında fikir verebilecektir,
iii. Her saniye 6000’in üzerinde tweet atılmaktadır; bu tweetlerin analiz edilmesiyle hükümetler vatandaşlarına
daha iyi hizmetler sunabilecektir.
Bunun yanında halihazırda özel sektör verisinin açık veri olarak paylaşılması hem özel sektörün hem
hükümetlerin kararlarını diğer kaynaklardan aldıkları veri setleri ile birleştirerek veri analitiği temelli
yapmasını sağlayacaktır. Bugün veri temelli karar alma mekanizmalarını benimseyen şirketlerin %5-6 daha
verimli ve etkili çıktı ile doğuran kararlar alındığı bilinmektedir. Özel sektör özelinde verilerin hükümetlere,
özel sektöre veya vatandaşlara açılmasının faydalarını aşağıdaki temel başlıklar altında toplamak mümkündür;
about:blank 60/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Açık devlet olabilmek için öncellikle kişisel verilerden, ticari sırlardan ve gizli devlet verilerinden arındırılmış,
güncelliği sağlanmış, kamu kurum ve kuruluşları tarafından üretilmiş veri kümelerinin; herhangi bir kısıtlama
olmadan açık lisanslar kapsamında, makine tarafından okunabilir formatlarda, toplumun her kesimi tarafından
özgürce kullanılabilen ve dağıtabilen açık devlet verisi (open government data) haline dönüştürülmesi
gerekmektedir. Dünyada başarılı açık veri amaçları ile kurulan kuruluşlar şöyle sıralanabilir [1,2]:
i. Uluslararası Açık Bilgi (Open Knowledge International, OKI). Nisan 2014 tarihine kadar Açık Bilgi Vakfı
(Open Knowledge Foundation, OKF) olarak bilinen Uluslararası Açık Bilgi organizasyonu Rufus Pollack
tarafından 24 Mayıs 2004 tarihinde Birleşik Krallık’ta kurulmuştur.
ii. Web Vakfı (World Wide Web (WWW) Foundation). Tim Berners-Lee tarafından 14 Eylül 2008 tarihinde
Washington’da duyurulan Web Vakfı 15 Kasım 2009 tarihinde çalışmalara başlamıştır.
iii. Açık Devlet Ortaklığı (Open Government Partnership, OGP). 20 Eylül 2011 tarihinde Birleşmiş Milletler
Genel Kurulundan 8 ülke tarafından kurulmuştur.
iv. Global Açık Veri İnisiyatifi (Global Open Data Initiative, GODI). 11 Haziran 2013 tarihinde 5 farklı
organizasyon tarafından açık veri dünyasındaki eş güdümü sağlama amacıyla kurulmuş bir ortaklıktır.
v. Açık Veri İzleme (Open Data Watch). 2013 yılında kalkınma verisi uzmanları tarafından kurulmuştur.
vi. Kalkınma İçin Açık Veri (Open Data for Development, OD4D). 2011 yılında çalışmalara başlayan
Kalkınma İçin Açık Veri oluşumu dünyada sürdürülebilir açık veri ekosistemlerinin oluşturulmasına destek
olması için kurulmuş bir ortaklıktır.
Açık veri platformlarına ve kullanım alanlarına ilişkin olarak dünyada birtakım uygulamalar öne çıkmaktadır.
Trafik verileri, nüfus verileri, sağlık verileri, emlak verileri gibi kamu elinde bulundurulan veriler üzerinden
hayata geçirilmiş açık veri projelerinin niceliğinin yüksek olması nedeniyle, işbu rapor tahtında yer verdiğimiz
örnekler de kamu sektörü altında yoğunlaşmıştır. Bu sebeple, bu başlık altında yer verdiğimiz uygulama
örnekleri, sektörden ziyade konu bazında sınıflandırılmıştır:
i. Sağlık:
eHealth Ireland, İrlanda Sağlık sektöründen toplanan tüm verilerin bir araya getirildiği bir platformdur.
Platform, birçok veri sağlayıcının yanı sıra, temel olarak Sağlık Bakanlığı ve Ulusal Sağlık Projesi tarafından
sunulan açık veriyi kullanmaktadır. Söz konusu veri, en yakın ulaşılabilir sağlık servisleri, hastane vakalarına
ilişkin istatistikler, ulusal bekleme listesi, sağlık müdahalelerinde ödenen ortalama ücretler vb. istatistikleri bir
araya getirmektedir.
ii. Gayrimenkul:
NestReady, Kanada’nın uygulamalarına örnek teşkil eden NestReady, konut, inşaat ve emlak sektöründe
faaliyet gösteren bir internet sitesidir. İlgili site, Kanada Nüfus Sayımı verileri ve ABD Nüfus Sayımı
Bürosu’nun demografik verileri, Kanada Eğitim Bakanlıklarının eyalet düzeyinde eğitim verileri ve ABD
Jeoloji Araştırması verilerini toplayarak konut arama maliyetlerini kişi özelinde özelleştirmekte ve bu
maliyetleri azaltmaktadır. Ev satın alma işlemlerinde emlak şirketleri gibi aracıları aradan çıkartarak zamandan
ve maliyetten tasarruf sağlamaktadır.
about:blank 61/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Rentsquare internet sitesi, bir bölgenin ne kadar tercih edildiğini ve genellikle ilgili bölgedeki kira fiyatlarının
ne olduğunu analiz etmek için belediye verilerini toplamaktadır. Aynı veriler, ev arayan kişi sayısını ve hangi
bölgelerde evlerin boş olduğunun belirlenmesinde kullanılmaktadır. Uygulama ile kiracılar uygun fiyatlı evleri
bulabilmekte ve kiralarını çevre bölgelerin kira bedelleriyle karşılaştırabilmektedir.
iii. Ulaşım:
Waze, 2008 yılında 40 farklı dilde geliştirilmiş ve Hollanda Ulusal Trafik Bilgileri Veri Ambarı tarafından
sunulan verileri kullanarak oluşturulmuş bir uygulamadır. Uygulama kullanıcılara gerçek zamanlı trafik ve yol
bilgileri sunmakta olup, kullanıcılar gitmek istedikleri yer bilgilerini uygulamaya girerek, en uygun yol seçimi
konusunda uygulama tarafından yönlendirilmektedirler. Ayrıca, kullanıcıların da sisteme veri sağlaması
mümkün olmakta, kullanıcılar yolda karşılaştıkları kazalar ya da yapım çalışmaları gibi durumlar hakkında
uygulamaya veri sağlayabilmektedirler.
Trafikkflyt, Norveç’ten çıkan bir uygulama olan Trafikkflyt ile Ulusal Kamu Yolu İdareleri’nden alınan bilgiler
trafik yoğunluğuna ilişkin haritaların oluşturulmasında kullanılmaktadır. Gerçekleşmiş kazalar ve diğer trafik
olayları insanların yoğun trafik bölgelerinden kaçınabilmeleri için bir haritada listelenmekte ve
işaretlenmektedir. Uygulama ile daha iyi bir trafik akışı amaçlanmaktadır.
Tarktee yol, hava ve planlanan yol çalışmalarını dikkate alarak seyahat önerileri sunmakta ve daha verimli
seyahat rotaları oluşturmaktadır. Uygulama ile açık veriler yol koşullarıyla eşleştirilmekte ve bu bilgiler
seyahat tavsiyelerine uyarlanmak için kullanılmaktadır.
Predina, trafik kazalarına ilişkin risk faktörlerini analiz etmek adına açık kaza verilerini analiz etmektedir.
Predina ayrıca risk faktörlerini kullanıcıya özel olarak ayarlamak için kullanıcı verilerini toplamaktadır. Bu
sayede uygulama, kişisel verileri, sürüş stili verilerini geçmiş kaza verileriyle birleştirerek sürücü için en
güvenli yolu belirlemektedir. Ayrıca Predina, herhangi bir sürücü için trafik kazası riskini azaltmak için yapay
zeka teknolojisini kullanmaktadır.
Meteo Protect, hava durumu risk yönetimine ilişkin bir sigorta ve reasürans brokeridir. Kurum, hava durumu
verilerinin takibinde, hava durumu ve uydu bilgileriyle ilgili açık verileri kullanmaktadır. Bir sigorta hizmeti
olan Meteo Protect, şirketlere ilişkin risklerin belirlenmesi için şirket başına hava durumu endeksi
oluşturmaktadır. Hava şartları işletme kârlarını olumsuz yönde etkilediğinde veya ek maliyet oluşturduğunda
açık veriden elde edilen bilgilere göre oluşturulan sigorta zararları karşılamaktadır.
v. Araştırma Altyapısı
Data.Gov, ABD hükümeti tarafından, iki farklı açık kaynak uygulamaları vasıtasıyla oluşturulan bir açık veri
platformudur. Sağlık, iklim, ekosistem, eğitim, yerel yönetim, üretim, tarım, enerji, finans, kamu sağlığı,
denizcilik ve bilim alanlarında verilere erişim sağlamakta olan platforma; federal, eyalet, yerel ve federal
yönetime tabi olan kabile yönetimlerinin verileri kaynak oluşturmaktadır. Oluşturulan platform aracılığıyla
kullanıcılar veri araması yapmak suretiyle kamu verilerine erişim sağlayabilmekte olduğundan, data.gov
uygulamasının, açık veri platformları arasında en geniş kapsamlı örnek olduğu söylenebilmektedir.
OpenAIRE, Avrupa’da açık bursa geçişe önderlik eden ve bilimsel iletişimde açıklığı kolaylaştıracak bir AB
kuruluşudur. Gerçek bir e-Altyapı olan OpenAIRE, AB bölgesinde açık bursu teşvik etmektedir ve bilimsel
disiplinler ve tematik alanlarda, Avrupa’da ve sınır ötesindeki araştırma sonuçlarının bulunabilirliğini,
erişilebilirliğini, paylaşıla bilirliğini, yeniden kullanılabilirliğini, yeniden üretile bilirliğini ve izlenmesini
geliştirmektedir.
InstaVIN, araba satın alacakların, satın almak istedikleri araba ile ilgili bilgilerini artırmayı amaçlayan bir
internet sitesidir. İlgili site çalıntı araçlar hakkında bilgi almak için ABD Adalet Bakanlığı ve kolluk
kuvvetlerinden ilgili verileri toplamaktadır ve bu bağlamda bir arabanın durumu hakkında araç geçmişi
verilerini kullanarak rapor oluşturmaktadır.
Quandl, gerçek zamanlı piyasa verilerini toplayan bir açık veri platformudur. 400.000’in üzerinde kullanıcıya
finansal, ekonomik ve sosyal veri depoları havuzuna ücretsiz erişim sağlamaktadır. İlgili uygulama,
aşağıdakiler de dahil olmak üzere birçok ülkenin resmi kurumlarından ekonomik veri ve endeksleri, sanayi,
about:blank 62/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
para, emtia ve faiz verilerini toplamaktadır, bu kurumlara ABD Uluslararası Kalkınma Ajansı, İsrail Bankası,
Brezilya Coğrafya ve İstatistik Enstitüsü, Arjantin Merkez Bankası, Japonya Maliye ve Banka Bakanlığı örnek
gösterilebilir. İlgili uygulama, ekonomi alanında çalışan profesyonellerin ve analistlerin veri aramak, veri
temizlemek veya veri dönüştürmek gibi işlemlerde vakit kaybetmemelerini sağlamaktadır.
London Open Workspaces Map internet adresi, haritada mevcut çalışma alanlarının konumlarını tanımlamak
için coğrafi veriler gibi açık veriler ile çalışma alanlarının kullanılabilirliği ve sağladıkları hizmetler
hakkındaki verileri kullanır. London Open Workspaces Map, Londra’da yer alan kuluçka merkezleri, ortak
çalışma alanları, start-up çalışma alanları ve sanatçı stüdyolarının tespitinde kılavuzluk yapmaktadır. Harita,
kullanıma açık yaklaşık 330 çalışma alanının konumlarını ve içeriklerini işaretlemektedir.
Explore UK, coğrafi veriler ve suç oranları ve yoksulluk hakkındaki resmi veriler gibi açık verileri
kullanmaktadır. Bu verileri etkileşimli bir harita oluşturmak için kullanmakta ve böylece ticari satış, web
uygulamaları veya dahili kullanım için raporlar oluşturmaktadır. İlgili uygulama, Birleşik Krallık’ın herhangi
bir yerinde taşınmaz satın almak veya kiralamak isteyenler için yararlı bir web uygulamasıdır. Platform;
ulaşım, eğitim, çevre, suç ve nüfus istatistiklerini bir araya getirerek, interaktif bir harita üzerinde bölgeleri
birbirleriyle kıyaslamaya olanak sağlamaktadır. Kişi harita üzerinden istediği bölgeye tıklayarak o bölge
hakkındaki tüm bilgilere tek elden ulaşabilmektedir.
Grow London, Londra Belediyesi tarafından geliştirilmiş bir uygulama olup, nüfus, büyüme, işsizlik oranları,
kiralık ve satılık bedelleri, semt bazında ticari özellikler, ulaştırma şebekesi ve daha birçok bilgiyi
içermektedir. Bu uygulama ile Londra’da iş kurmak ya da Londra’ya herhangi bir şekilde yatırım yapmak
isteyen tüm firmalara ihtiyaç duyacakları tüm bilgileri sunarak, kritik kararlar almaları aşamasında yardımcı
olmak hedeflenmektedir.
Riigiteenused internet sitesi, Estonya hükümetinin Mart 2016’dan bu yana yayınlanmış açık veri hizmeti
istatistiklerini kullanmaktadır. Sunulan istatistikler arasında kamu hizmet işlemlerinin sayısı, hizmet
kanallarının türü ve ortalama memnuniyet durumu yer almaktadır. İlgili site, Estonya devlet hizmetlerinin
kullanımı ve performansı hakkında kurumlar ve vatandaşlar arasındaki bağlantıda şeffaflık sağlamaktadır.
Hangi devlet kurumlarının iyi hizmetler sunduğunu ve hangilerinin gelişmesi gerektiğini açık verilerin
analizini yapmak suretiyle göstermektedir.
Open Oil, hükümet kaynaklarından, STK’lardan ve petrol şirketlerinden elde edilen açık verileri
kullanmaktadır. Veriler biçimlendirilir, görselleştirilir ve kamuya duyurulur, böylece petrol şirketi ağları ve
petrol, gaz ve madencilik projelerinin finansal modelleri daha şeffaf hale gelir. İlgili program petrol
sözleşmeleri ve şirketleri ile ilgili bilgileri kolayca erişilebilir kılmaktadır. İnternet sitesi, kurumsal petrol
şirketi ağlarını ve şeffaflığı arttırıcı faaliyetleri görselleştirmektedir.
vi. Sanat
The Albert Kahn Departmental Museum, müzedeki farklı sanat eserleri hakkında etkileşimli bir harita
oluşturmak ve ziyaretçilere müzede yer alan eserlere ilişkin bilgi sağlamak için açık veri ve coğrafi verileri
toplamaktadır. Müzenin internet sitesinde, kullanıcıların bir sanat eserinin hangi ülke, bölge veya ilde olduğunu
görmek için tıklayabilecekleri etkileşimli bir harita bulunmaktadır.
Resmi İstatistik Programı (“RİP”), resmi istatistiklerin üretimine ve yayımına ilişkin temel ilkeler ile
standartları belirlemek, ulusal ve uluslararası düzeyde ihtiyaç duyulan alanlarda güncel, güvenilir, zamanlı,
şeffaf ve tarafsız veri üretilmesini sağlamak amacıyla 5429 sayılı Türkiye İstatistik Kanunu’na dayanılarak
beşer yıllık dönemler için hazırlanmaktadır. RİP kapsamında TÜİK ve Programa dahil tüm kurum ve
about:blank 63/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
kuruluşlarca üretilen istatistiklerin, Türkiye istatistik sistemine ilişkin bilgilerin ve gelişmelerin kamuoyuna
internet üzerinden tek kapıdan sunumunu gerçekleştirmek amacıyla RİP Portalı hazırlanmış ve 2014 Mart
ayında kullanıcıların hizmetine sunulmuştur. Bu portal üzerinden resmi olarak sağlanan tüm istatistiklere açık
erişim sağlanabilmektedir.
Bakanlık tarafından yönetilen ve üretilen verilere hızlı ve kolay erişimin sağlanması amacıyla hazırlanmış bir
portaldir. Veri setleri; “sınırlar”, “arazi örtüsü”, “korunan alanlar” ve “su” olarak ayrıştırılmıştır.
Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (“TÜBİTAK”), “TÜBİTAK Açık Bilim Politikası”
uyarınca, kendisi tarafından yürütülen veya desteklenen projelerden üretilen yayınlar (hakemli makaleler vd.)
ile araştırma verilerinin TÜBİTAK Açık Arşivinde depolanmasını ve bu sayede bu verilere açık erişim
sağlanmasını hedeflemektedir. TÜBİTAK Açık Arşivi Aperta adıyla geliştirilmektedir. Aperta kapsamına giren
bilimsel çalışmalar, bu portala yüklenebilmekte ya da yüklenmiş çalışmalara kolayca erişilebilmektedir.
28 Aralık 2015’te kurulan Açık Veri ve Veri Gazeteciliği Derneği (“AVVGD”) veri okuryazarlığı alanında
çalışmalar yürütmektedir. AVVGD’nin en önemli çalışmalarından birisi Gazeteciler Cemiyeti ekibiyle birlikte
oluşturduğu “Açık Veri Sözlüğü”dür. Çalışma kapsamında açık veri ve beraberinde gelişen yabancı terimler
Türkçe ’ye kazandırılmıştır. Açık Veri El Kitabı (Open Data Handbook) kaynağından yararlanılarak hazırlanan
“Açık Veri Sözlüğü”, açık veri ve veri gazeteciliği terimlerini öğrenmek isteyen, merak edenler için rehber
niteliği taşımaktadır.
T.C. Sağlık Bakanlığı’nın 2018 yılı faaliyet raporunda Açık Veri Portali’yle ilgili olarak; “açık veri paylaşım
ilkeleri, kişisel bilginin güvenliği / mahremiyeti gözetilerek kamu kurumlarında, yerel yönetimlerde, özel
sektörde ve sivil toplum kuruluşlarında üretilen veriler açık veri olarak ortak bir veri kaynağından tüm fayda
sağlayıcıların kullanımına açılacaktır” ifadelerine yer verilmiştir.
Bakanlığın internet sitesinde de “Açık Veri Portalı-pilot çalışma” başlığı altında birçok sağlık verisi
yayımlanmaktadır. Ayrıca, Kan, Organ ve Doku Nakli Hizmetleri Dairesi Başkanlığı Resmi Sayfasının
istatistikler bölümünde de organ doku istatistikleri paylaşılmaktadır.
Türkiye’de kamu kurumları, özel sektör, akademi ve STK gibi Dijital Devlet (d-Devlet) ekosistemi paydaşları
arasında bilgi paylaşımı sağlamak amacıyla TÜBİTAK-BİLGEM Yazılım Teknolojileri Araştırma Enstitüsü
(YTE) tarafından Dijital Dönüşüm portali oluşturulmuştur. Dijital dönüşüm kapsamında açık veri hakkında da
çalışmalar yapıldığı görülmektedir. Başbakanlık ve TÜBİTAK-BİLGEM-YTE iş birliği ile 20 Mart 2013
tarihinde “Kamu Yönetiminde Gelişen Trendler: Açık Devlet ve Açık Veri” konulu panel düzenlenmiştir.
i. Ticaret Bakanlığı
T.C. Ticaret Bakanlığı’nın yayımladığı politikalar, stratejiler ve tarafından ülkemizde gerçekleştirilecek açık
veri konusundaki faaliyetlere oldukça önem verilmekte ve de Bakanlık tarafından yürütülen büyük veri analizi
ve yapay zeka projeleri kapsamında da, firmalar, üniversiteler ve araştırma kuruluşları ile işbirliği yapılması
hedeflenmekte, bu kapsamda Bakanlıkça tutulan verilerin, daha etkin politikalar sunulması amacıyla diğer
paydaşlarla paylaşımı konusunda çalışmalar devam etmektedir [3].
Bölüm Özeti
Açık Veri (open data), “Herkesin ücretsiz ve özgürce erişebileceği, kullanabileceği, dağıtılabileceği ve değerler
üretebileceği” veridir. Verilerin makine tarafından okunabilir biçimde, toplu olarak ve açık lisanslı bir şekilde
about:blank 64/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
bulunması sayesinde açık hale getirilir. Dünyada son yıllarda internetin yaygınlaşmasıyla baş döndürücü
şekilde yükselen trendlerin başında “açık veri” gelmektedir.
Kamu ve özel sektör konunun önemini kavramış, açık veri platformlarını kurarak verilerini araştırmacıların
kullanımına açmaları ile şeffaflık, sürdürülebilirlik, teknolojik ve bilimsel alanlarda gelişimlerin inanılmaz
hızda artmasının önü açılmıştır. Bu verilerin açık ve işlenebilir olması ise bilgi ve buna bağlı katma değer
üretimindeki en önemli faktördür. Buna bağlı olarak da açık veri platformları yaygınlaşmaktadır. Uluslararası
teknoloji devleri bu konulara en fazla yatırım yapan ve ürün geliştiren şirketlerdir.
Dünyada olgunlaşma seviyesini aşan ve neredeyse durağan hale gelen büyük verinin açık hale getirilmesi
teknolojileri, analitiği, güvenliği ve mahremiyeti konularına baktığımızda ülkemizde bu konuyu önemseyen
çalışmalar yapılsa da bunun yaygınlaştırılmasında işin başında olduğumuz da açıktır.
Açık veri platformlarının oluşturulması, kaynak israfını da önlemek için mevcut kaynaklardan faydalanılması,
kurulu olan merkezlerden bilgiler alınması, çok gerekli ise de kurum bünyelerine kurulmalıdır.
Kaynakça
[1] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O.,
Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.
[2] Lugmayr, A., Lugmayr, A., Stockleben, B., Stockleben, B., Scheib, C., Scheib, C., ... & Mailaparampil, M.
A. (2017). Cognitive big data: survey and review on big data research and its implications. What is really
“new” in big data?. Journal of Knowledge Management, 21(1), 197-212.
[3] Özkan Özlem, (Ağustos 2019), “Açık Veri”, Hukuk, Düzenlemeler ve Kamu İlişkileri Çalışma Grubu
Raporu. Türkiye Bilişim Vakfı.
URL: Sitesihttps://www.bundesregierung.de/breg-en/news/open-data-strategy-1940558
Ünite Soruları
Soru-1 :
(Çoktan Seçmeli)
(C) Kullanılabilirlik
(D) Erişim
Cevap-1 :
Tek kullanımlık
Soru-2 :
about:blank 65/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(Çoktan Seçmeli)
(B) Güncellik
(D) İşlenebilirlik
(E) Kapsayıcılık
Cevap-2 :
Soru-3 :
(Çoktan Seçmeli)
(B) Gizlilik
(E) Olağanlık
Cevap-3 :
Zaman kazanımı
Soru-4 :
Kullanıcılarının saldırıya uğrama risklerini bulundukları ortama göre puanlayan XX isimli uygulama,
açık verinin hangi faydasını sağlar?
(Çoktan Seçmeli)
Cevap-4 :
Güvenliğe katkısı
about:blank 66/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Soru-5 :
“Yaşanılan bir kriz anında telefonlardan konum belirleme verisinin paylaşılması, bireylerin şehir içinde
nasıl hareket ettiklerini ortaya çıkaracaktır”
(Çoktan Seçmeli)
Cevap-5 :
Kriz yönetimi
Soru-6 :
Aşağıdakilerden hangisi ülkemizdeki açık veri üzerine yapılan çalışmalardan biri değildir?
(Çoktan Seçmeli)
Cevap-6 :
Web Vakfı
Soru-7 :
(Çoktan Seçmeli)
about:blank 67/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-7 :
Veriye erişimin
Soru-8 :
“………., herhangi bir telif hakkına sahip olmayan, herkes tarafından kullanılabilen, düzenlenebilen ve
dağıtılabilen veridir.”
(Çoktan Seçmeli)
Cevap-8 :
Açık veri
Soru-9 :
(Çoktan Seçmeli)
Cevap-9 :
Soru-10 :
(Çoktan Seçmeli)
about:blank 68/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-10 :
about:blank 69/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
6. SEMANTİK VERİ
Birlikte Düşünelim
1. Semantik teknolojileri ile nasıl bir büyük veri havuzunda yüzebiliriz?
3. Semantik teknolojilerinin tarihsel gelişiminde önemli dönüm noktalarının başında ne gelmektedir?
Başlamadan Önce
Semantik, en temel halinde kelimelerin içerdiği anlamları ifade eder. Web 3.0 ile birlikte yazıların içinde yer
alan kelimelerden ziyade onların anlam bütünlüğü ön plana geçer. Arama motorları bu yol ile çok daha akıllı
hale gelirler.
Semantik Web 3.0 sayesinde arama motoru, girişi yapılan semantik kelimeler üzerinden ne bulunmak
istendiğini kısa sürede anlar ve en doğru arama sonuçlarına yönlendirir. Anlam bilimi olan Semantik, Web 3.0
teknolojisinin temellerinden biri olarak, insanlar ve yazılımlar arasında anlamsal ilişkinin kurgulanmasını
sağlar. Bu sayede makineler ve insanlar arasında daha fazla etkileşim ön plana çıkar.
Semantik (Anlamsal) teknolojiler, çeşitli araştırma alanlarında veri ve kaynak keşfi, indeksleme, sorgulama ve
entegrasyonda önemli bir rol oynamıştır. Semantik teknolojilerin kullanılmasının amacı, büyük veri
içerisindeki veri ve kaynakların anlamlarını elde etmektir. Bu, kullanıcıların ve makinelerin içeriği anlamasına
yardımcı olur. Doğal olarak dijital veri ve kaynaklar anlaşılabilir bir şekilde alınabilir, paylaşabilir ve
birleştirebilirler. Bu anlamlandırma Şekil 6.1’de görüldüğü üzere farklı yöntemlerle geliştirilebilir.
about:blank 70/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Günümüzde, anlamsal meta verilerin kullanılmasına yönelik birçok servis vardır. Bilgiyi artık sadece metin
üzerinden değil anlamı üzerinden de bulabilir ve organize edilebilmektedir.
Semantik (Anlamsal) teknolojiler kelimelerin veya tümceciklerin eşit olduğu yerleri kolayca anlayabilir.
Örneğin ‘Jaguar’ kelimesini otomobil endüstrisi içeriği ile bulmak istendiğinde sistem ‘Jaguar’ kelimesini
içeren hayvanlar ile ilgili dokümanları dikkate almayacaktır. Sistem bir aramanın konusu üzerinden diğer
anlamsal ilgili konuları da içeren bilgilerin yerini belirleyerek kullanıcıya sunacaktır.
Anlamsal verilerin uygulanması webdeki çeşitli yerlerde, örneğin belirli arama deneyimlerinde görülmektedir.
Bu zengin, yeni bilgi katmanı sayesinde, arama motorları ve diğer botlar, en alakalı içeriği doğrudan
kullanıcıya sunabilir ve insanların zaman ve emekten tasarruf etmesini sağlayan en önemli parçalara göre
düzenlenebilir. Bu sayede pratik ve somut bilgiler sorgulandığında konu ile ilgili hızlı bir öneri sunarak
aranılan bilgi anında kullanıcıya sunulmaktadır. Örneğin Şekil 6.2’de arama motoruna ‘Almanya’nın Nüfusu’
şeklinde bir anahtar girildiğinde çıkan sorgu sayesinde istenilen bilgiye anında ulaşılmaktadır.
Farklı büyük veri ortamlarında yer alan veri tabanlarında, aynı kavramlar için farklı tanımlar kullanılmaktadır.
Bu tür problemler aynı veritabanını kullanan veya geliştirenler için sözlükler kullanılarak giderilmektedir.
Ancak farklı veri tabanlarındaki aynı kavramlar için henüz tam anlamıyla bir çözüm bulunabilmiş değildir.
Anlamsal teknolojilerde ontolojiler kullanılarak bu tür problemler çözülmeye çalışılmaktadır. Bir anlamsal web
dokümanı, terimlerin anlamlarını ve bu terimler arası ilişkileri ifade etmek için bir ontolojiye işaret etmektedir.
Ontoloji kavramı bir ajan ya da ajan topluluğunun sahip olabileceği kavramların ve ilişkilerin tanımıdır.
Ontoloji, varlıkları ilişkileriyle birlikte tanımlayan felsefecilerin kullandığı bir sözcüktür ve semantik web en
temel bileşenidir.
Kurum içi veya kurumlar arası farklı kaynaklarda bulunan bilginin entegrasyonu için anlamsal meta verinin
kullanılması çok önem arz etmektedir. Çünkü kurumlarda bilginin sınıflandırılması ve tanımı için farklı
şemalar kullanılmakla beraber bilginin kendi içinde de farklı terminolojiler kullanılmaktadır. Bu amaç
doğrultusunda XML şemaları önemli bir imkan sunmaktadır. XML ve benzeri farklı bilgi gösterim şemaları
arasında kurulacak eşleştirme işlemi ile kullanılacak bilgilerin birlikte çalışabilirliğini sağlamaya yönelik ortak
bir gösterim anlamsal teknolojileri ile mümkün olabilmektedir. Buradaki temel amaç veriler ilgili veriler
arasında tam bir uyum sağlayabilmek ve ilgili verilerle eşleştirme yapabilmektedir. Günümüzde veri
uyumluluğunu sağlamak şirketlerin en çok para harcadığı alanlardandır. Bu sorunun üstesinden gelmek için
yapay zekâ alanında da kullanılan ontolojilerden faydalanılması düşünülmüştür.
about:blank 71/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Anlamsal teknolojiler ortak yöntem ve işlemler içinde kullanılabilmektedir (Örn: web servisleri). Bir web
servisi fonksiyonu anlamsal olarak tanılanabildiğinde, bu web servisine ihtiyacı olan sistem tarafından
kolaylıkla bulunabilir. Mevcut web servislerine kendi fonksiyon ve bağlamının tanımlandığı meta veri
sağlandığında, yeni web servisleri mevcut web servislerinin yeni yapısına otomatik olarak bağlanabilmekte ve
iletişim kurabilmektedir. Bu amaç doğrultusunda farklı semantik veri modelleri geliştirilmektedir.
Semantik veri modeli (SDM) büyük veri kümeleri için üst düzey semantik tabanlı bir veritabanı açıklaması ve
yapılandırma formalizmidir (veritabanı modeli). Bu veritabanı modeli, bir uygulama ortamının anlamını çağdaş
veritabanı modelleriyle mümkün olandan daha fazla yakalamak için tasarlanmıştır. Bir SDM belirtimi, bir
veritabanını uygulama ortamında var olan varlık türleri, bu varlıkların sınıflandırmaları ve gruplamaları ve
bunlar arasındaki yapısal bağlantılar açısından tanımlar. SDM, bir uygulama ortamının semantiğini yakalamak
için bir üst düzey modelleme ilkelleri koleksiyonu sağlar. SDM, türetilmiş bilgileri bir veritabanı yapısal
özelliğinde barındırarak, aynı bilgilerin çeşitli şekillerde görüntülenmesine izin verir; bu, veritabanı
uygulamalarında tipik olarak mevcut olan çeşitli ihtiyaçları ve işleme gereksinimlerini doğrudan karşılamayı
mümkün kılar. Mevcut SDM'nin tasarımı, onun bir ön versiyonunu kullanma deneyimimize dayanmaktadır.
SDM, veritabanı sistemlerinin etkinliğini ve kullanılabilirliğini artırmak için tasarlanmıştır. Bir SDM veri
tabanı açıklaması, bir veri tabanı için resmi bir belirtim ve dokümantasyon aracı olarak hizmet edebilir; çeşitli
güçlü kullanıcı ara yüzü olanaklarını desteklemek için bir temel sağlayabilir, veritabanı tasarım sürecinde
kavramsal bir veritabanı modeli olarak hizmet edebilir ve yeni bir tür veritabanı yönetim sistemi için veritabanı
modeli olarak kullanılabilir.
Büyük veri kümeleri üzerinde işlenen anlamsal web’in ön plana çıkan bazı kazanımları şu şekilde
sıralamaktadırlar:
§ Tutarsızlıklar ve ortaya çıkarılan yeni bilgiyi kontrol etmek için otomatik araçlar sürekliliği destekleyecektir.
§ Anahtar kelime tabanlı arama, insancıl bir yolla sunulan, çıkarılan ve kurtarılacak olan veri tabanı sorgu
cevapları tarafından istenilen bilgi değiştirilecektir.
§ Bilginin önemli parçaları için (belgelerin bölümleri) kimlerin görüntüleyebileceğini tanımlamak mümkün
olabilecektir.
IDEF0: Çevre veya sistem içindeki faaliyetlerin veya süreçlerin yapılandırılmış bir temsili olan bir “fonksiyon
modeli” üretmek için kullanılır.
IDEF1: Çevre veya sistem içindeki bilginin yapısını ve anlamını temsil eden bir “bilgi modeli” üretmek için
kullanılır. IDEF1X ise anlamsal bir veri modelleme tekniğidir. Bir ortam veya sistem içindeki bilginin yapısını
ve anlamını temsil eden bir grafik bilgi modeli üretmek için kullanılır. Bu standardın kullanımı, bir kaynak
olarak verilerin yönetimini, bilgi sistemlerinin entegrasyonunu ve bilgisayar veri tabanlarının oluşturulmasını
desteklemeye hizmet edebilecek anlamsal veri modellerinin oluşturulmasına izin verir.
IDEF2: ortamın veya sistemin zamanla değişen davranış özelliklerini temsil eden bir "dinamik model" üretmek
için kullanılır.
1990'larda, anlamsal modelleme tekniklerinin uygulanması, ikinci tür anlamsal veri modelleriyle
sonuçlanmıştır. Bunun bir örneği, anlamsal modelleme dili Gellish (2005) olarak daha da geliştirilen ISO
15926 -2 (2002) olarak standartlaştırılmış anlamsal veri modelidir. Gellish dilinin tanımı, anlamsal bir veri
about:blank 72/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
modeli şeklinde belgelenmiştir. Gellish'in kendisi, başka anlamsal modeller oluşturmak için kullanılabilen bir
anlamsal modelleme dilidir. Bu anlamsal modeller, anlamsal veri tabanları olan Gellish veritabanlarında
saklanabilir.
Web’deki verilerin çok büyük olması, bu verilerin yazılımlar tarafından daha kolay kullanılabilir ve
anlaşılabilir olmasını gerektirmektedir. Bu amaçla semantik Web ve semantik veri kavramı ortaya konmuştur.
Son 15 yılda geliştirilen semantik web protokolleri ile Web verileri daha anlamlı bir şekilde tanımlanabilir ve
birbiriyle ilişkilendirilebilir. Böylece bu tür verilerin yazılımlar tarafından aranması, bulunması ve kullanımı
çok daha kolay olacaktır. Bu yöntemle açık semantik veriye geçiş yapılmış olacaktır. Bu şekilde verilerin
tanımlandığı Web’e ise Web 3.0 denmektedir. Mevcut web’de bu standartlara uygun oldukça fazla veri
bulunmaktadır ve bunlar da açık bir şekilde kullanıma sunulmaktadır.
Web 1.0 adı verilen ilk evrede bilgiye erişim ve ağda yer alma durumu söz konusu iken, Web 2.0 insanlar arası
sosyal iletişimi sağlamayı amaçlamaktadır. Web 3.0 ise içinden geçtiğimiz dönemi kapsamakta ve bilgilerin
anlamsal olarak ele alınarak makinelerin bunu okumasına olanak sağlamıştır. Web 3.0, anlamlandırıp bilgileri
bağlama işini yaparak interneti daha kullanışlı ve keyifli kılmayı amaçlamaktadır. Web 4.0 daha sonraları
karşımıza çıkacaktır. Web 4.0 her yerde erişebileceğimiz bir yapıda akılların birbiri ile bağlantısını sağlayacak
internet olarak karşımızda olacaktır. İnternetin evrimi Şekil 6.3’te ve gelişim evreleri ile ilgili yapı Şekil 6.4’te
verilmiştir.
about:blank 73/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Semantik Web, Web 3.0 ile hayatımıza girmiş olup dokümanlara semantik anlamlar ekleyerek makinelerin
bunu okuyabilir/anlayabilir hale getirilmesi ve makinelerin birbiri ile etkileşiminin artırılmasını sağlamaktır.
Bu yüzden Web’de dokümanların hâkimiyeti yerine veriye doğru bir dönüşüm başlamıştır. Fakat şimdiye kadar
gerçekleşen değişim çok sınırlıdır. Bunun ana sebebi çoğu web sayfasının farklı formatlarda
biçimlendirilmemiş metin veya veri halinde olmasıdır.
Semantik web teknikleri günümüz teknolojileri için göreceli olarak yenidir. Bu yenilikleri takip ederek,
kullanımını yaygınlaştırmak için ihtiyaçları analiz edip uygun alanlarda yeni tanımlamalar getirecek
organizasyonlara ihtiyaç bulunmaktadır. Bu organizasyonlardan bir kısmı çok geniş alanlarda hizmet
vermekteyken, bir kısmı web teknikleri, bir kısmı da semantik web üzerine standartlar geliştirmektedir.
Semantik web için standartları geliştiren bazı organizasyonlar aşağıdaki gibidir [3];
§ Ulusal Standartlar ve Teknoloji Enstitüsü- National Institute of Standards and Technology (NIST)
§ Birleşik Devletler Ulusal Tıp Kütüphanesi- United States National Library of Medicine (NLM)
Artan dijital sistemlerin uzaktan erişimi tetiklemesi, birçok işin web ortamına aktarılması ile günümüzde web
sayfaları muazzam büyüklükte veri alanlarına dönüşmüştür. Bu sayfaların içerdiği veriler çeşitli araçlar veya
uygulamalar için bir standart dahilinde olmadığından kullanılamaz durumdadırlar. Kullanıcıların uygulamaları
ve web siteleri arasında yapısal veri aktarımı sağlamak ve tarayıcı uygulamalarında kullanıcı deneyimlerini
geliştirmek için verilerin belirli kurallar dizisi çerçevesinde yayınlanması gerekliliği doğmuştur. Bu kurallar
dizisi Şekil 6.5’te verilmiştir.
about:blank 74/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Bu gerekçelerden hareketle semantik web büyük veri kümelerinde hızlı yol almak adına geliştirilmiş ve
günümüzde popüler olarak kullanılmaktadır. Bu tarihsel gelişim henüz nihai sonuca ulaşamamış olmakla
birlikte web 4.0 ile çok daha gelişmiş ve web 3.0 temelleri üzerine kurulmuş daha akıllı ve daha hızlı ajanlar
oluşturacağı aşikardır. Bu sayede makinelerin etkileşiminin yanında makine-insan etkileşiminin de üst seviyeye
ulaşması beklenmektedir.
Semantik web çatısı altında oluşturulan anlamsal bir veri modeli birçok amaca hizmet etmek için kullanılabilir.
Bazı temel hedefleri şunları içerir:
1. Veri Kaynaklarının Planlanması: Bir işletmeyi çalıştırmak için gereken verilerin genel bir görünümünü
sağlamak için bir ön veri modeli kullanılabilir. Model daha sonra, paylaşılan veri kaynakları oluşturmaya
yönelik projeleri belirlemek ve kapsamını belirlemek için analiz edilebilir.
3. Satıcı Yazılımının Değerlendirilmesi: Bir veri modeli aslında bir organizasyonun altyapısını temsil
ettiğinden, yazılımın ima ettiği altyapı ile şirketin fiilen iş yapma şekli arasındaki olası tutarsızlıkları
belirlemek için satıcı yazılımı bir şirketin veri modeline göre değerlendirilebilir.
4. Mevcut Veritabanlarının Entegrasyonu: Mevcut veritabanlarının içerikleri anlamsal veri modelleri ile
tanımlanarak bütünleşik bir veri tanımı türetilebilir. Uygun teknoloji ile, ortaya çıkan kavramsal şema,
dağıtılmış bir veritabanı ortamında işlem işlemeyi kontrol etmek için kullanılabilir. ABD Hava Kuvvetleri
about:blank 75/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Entegre Bilgi Destek Sistemi (I2S2), heterojen türde bir veritabanı yönetim sistemleri ortamlarına uygulanan
bu tür teknolojinin deneysel bir gelişimi ve gösterimidir.
Ontolojiler ile tanımlanmış web kaynakları, web arama makinelerinin daha akıllı sorgulamaları yapmasına
imkân verecektir. Ülkelerin bağımsızlığını tehdit edecek kişi veya grupların web üzerinden kullanmış oldukları
anahtar kelimelerin bir araya gelmesi ile takibe takılması sayesinde tehditlere erişimin sağlanması mümkündür.
Anlamsal web teknolojilerinin sağladığı etkili sınıflandırma ve endeksleme yöntemleri sayısal kütüphanelerde
bulunan çoklu ortam veri içeriğine ulaşımı ve sayısal kütüphaneler arası birlikte işleye bilirliği
kolaylaştıracaktır. Ülkemizde de en büyük sayısal kütüphane dergipark çatısı altında oluşturulmuş olup
kaynakların bilgisayar ortamına aktarılması ile sayısallaştırılması olarak ifade edilmektedir.
Küresel ekonomi ile birlikte, iş gücü, sermaye ve stok yönetimi gibi geleneksel kaynakların yanında, bilginin
bir kaynak olarak kurumlarda yönetimi çok önem kazanmakta ve önemli bir üretkenlik etmeni olarak ortaya
çıkmaktadır. Anlamsal web teknolojileri kurumsal bilgilerin etkin bir şekilde yönetilmesini ve kullanılmasını
sağlamaktadır.
Web servisleri son zamanlarda en çok konuşulan ve web ortamında yeni fırsatlara yok açacak bir teknolojidir.
Anlamsal web bu servislerin otomatik olarak bulunması, seçilmesi, çalıştırılması, karşılıklı izlenebilirliğini ve
izlenmesini sağlamaktadır.
Bölüm Özeti
Bilgi gün geçtikçe artmakta, farklı yapılarda büyük veri kümeleri oluşmakta ve bu bilgiler daha karmaşık bir
hal almaktadır. Günümüzdeki teknolojilerle bilgiler arasındaki ilişkileri, anlamaları ortaya koymak oldukça
güçtür. Semantik teknolojiler büyük veri üzerindeki bu olumsuzluk giderilerek sonuca ulaşma mümkün
kılınmaktadır.
§ Semantik teknolojiler ile kullanıcıların büyük veri kümesi içerisinde aradıkları bilgilere daha kolay ve hızlı
ulaşabilmesi hedeflenmektedir.
§ Semantik teknolojiler gün geçtikçe çok fazla araştırmacı, kurum ve kuruluşun ilgisini çekmiş, büyük
kurumlar bu teknolojilere ciddi yatırımlarda bulunmuşlardır.
§ Semantik teknolojiler ile web 3.0 dönemine geçilmiş olup internet dünyasında devrim niteliğinde yeniliklere
yol açmaya çalışılmaktadır.
about:blank 76/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
§ Semantik web ile her geçen gün artan internet kullanıcı sayısı ve büyük veri yığını daha anlamlı hale
gelecektir.
§ Web üzerinde yapılan dar aramalar yerine, birbiri ile ilişkilendirilebilen aramalar yapılabilecektir.
§ Her geçen gün artan ve yenilenen teknolojileri ile çok da uzak olmayan bir zamanda semantik web’in
günümüzdeki web’in tamamen yerini alması beklenmektedir.
§ İnternetteki tüm bilgi kaynaklarını bir araya getirerek aranan bilgiye ulaşmayı sağlayan anlamsal web,
geliştirilmeye devam etmektedir.
Kaynakça
[1] Stringfixer Web Sitesi, “Anlamsal veri modeli”. (Son Erişim:20.01.2022)
URL: https://stringfixer.com/tr/Semantic_data_model
[2] Spivack N. 2007 How the WebOS Evolves? (Son Erişim: 20.01.2022)
URL: http://www.novaspivack.com/technology/how-the-webos-evolves
[3] Beden Ş. “Bir Semantik Web-Tabanlı Öğrenme Yönetim Sistemi Modeli”, Yüksek lisans tezi, İstanbul
Üniversitesi, 2012.
[4] W3C/MIT, 2001, W3C Semantic Web Activity, Proceedings of Semantic Web Kick-off Seminar, Finland.
[5] Berners-Lee, T., Hendler, J., ve Lassila, O. (2001). “The semantic web. Scientific American”, 184(5),34-43.
Ünite Soruları
Soru-1 :
“Bir işletmeyi çalıştırmak için gereken verilerin genel bir görünümünü sağlamak için bir ön veri modeli
kullanılabilir. Model daha sonra, paylaşılan veri kaynakları oluşturmaya yönelik projeleri belirlemek ve
kapsamını belirlemek için analiz edilebilir.”
(Çoktan Seçmeli)
Cevap-1 :
Soru-2 :
about:blank 77/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(Çoktan Seçmeli)
(B) Modelleme
(C) Sorgulama
Cevap-2 :
Veriye Erişim
Soru-3 :
Felsefede varlıkları ilişkileriyle birlikte tanımlamada kullanılan ve semantik webin en temel bileşeni
olan kavram aşağıdakilerden hangisidir?
(Çoktan Seçmeli)
(A) Ontoloji
(D) Mantık
Cevap-3 :
Ontoloji
Soru-4 :
(Çoktan Seçmeli)
Cevap-4 :
about:blank 78/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Verilerin anonimleştirilmesi
Soru-5 :
(Çoktan Seçmeli)
Cevap-5 :
Soru-6 :
Semantik web tekniklerindeki yenilikleri takip ederek, bu tekniklerin kullanımını yaygınlaştırmak için
gerekli olan ihtiyaçların analiz ederek uygun alanlarda yeni tanımlamalar getiren bazı organizasyonlar
vardır.
(Çoktan Seçmeli)
Cevap-6 :
Soru-7 :
(Çoktan Seçmeli)
(C) Amacı, büyük veri içerisindeki veri ve kaynaklarının başkaları tarafından elde edilmesine engel olmaktır.
about:blank 79/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(E) Esnek ve zeki bilgi sistemlerinin inşa edilmesi için çaba sarf edilen bir yaklaşımdır.
Cevap-7 :
Amacı, büyük veri içerisindeki veri ve kaynaklarının başkaları tarafından elde edilmesine engel olmaktır.
Soru-8 :
Birleşik Bilgisayar Destekli Üretim (ICAM) programı ile ilgili aşağıdakilerden hangisi yanlıştır?
(Çoktan Seçmeli)
(A) Programın amacı, bilgisayar teknolojisinin sistematik uygulaması yoluyla üretim verimliliğini artırmaktır.
(B) Anlamsal veri modellerine ilk kez ICAM programının sonucu olarak ihtiyaç duyulmuştur
Cevap-8 :
Soru-9 :
Ortamın veya sistemin zamanla değişen davranış özelliklerini temsil eden bir "dinamik model" üretmek
için kullanılan, Birleşik Bilgisayar Destekli Üretim (ICAM) programı tarafından geliştirilmiş olan teknik
aşağıdakilerden hangisidir?
(Çoktan Seçmeli)
(A) IDEF1
(C) IDEF2
(E) IDEF0
Cevap-9 :
IDEF2
Soru-10 :
Kullanıcıların uygulamaları ve web siteleri arasında yapısal veri aktarımı sağlamak ve tarayıcı
uygulamalarında kullanıcı deneyimlerini geliştirmek için verilerin belirli kurallar dizisi çerçevesinde
yayınlanması gerekliliği doğmuştur. Aşağıdakilerden hangisi bu kurallar dizisinde yer almaz?
(Çoktan Seçmeli)
about:blank 80/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(B) Kanıt
(C) Mantık
(D) Güvenirlik
(E) Ulaşılabilirlik
Cevap-10 :
Ulaşılabilirlik
about:blank 81/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Başlamadan Önce
Kullanıcıların bıraktığı ekonomik, sosyal ve psikolojik dijital izlerin çok yönlü olarak analizine imkan tanıyan
büyük veri, maliyetli ve uzun süreçli saha araştırmalara alternatif ve adaptif teknolojiler olarak
kullanılabilmektedir. Bu teknolojiler sayesinde, çok farklı coğrafyalardan ve örneklemlerden değişik
boyutlarda veri, eş zamanlı olarak elde edilebilmekte ve düşük maliyetlerde analizi sağlanmaktadır. Ayrıca
büyük veri teknolojilerinin çıktıları sayesinde kullanıcıların kişisel profillerinin çıkartılabilmesi ve zaman
içerisinde değişen alışkanlıklarının tespit edilmesinde önemli bir planlama aracı olarak kullanılmaktadır.
Farklı sektörlerdeki müşteri ihtiyaçlarının belirlenmesi, kurumsal kaynak ve tesis planlama, yatırım yönetimi,
gelir-gider yönetimi ve ömür boyu müşteri değerinin ölçülmesi konusunda oteller, ulaşım firmaları, seyahat
acentaları, hizmet işletmeleri ve diğer sektörlerdeki işletmelerin müşteri özelliklerine göre ürün ve hizmet
sunumunu gerçekleştirebilmesi ve maliyet avantajı sağlaması, ilgili sektörlerin büyük veri teknolojilerinin
kullanımına bağlıdır. Hizmet sağlayıcılarının, büyük verinin elde edilmesi ve depolanması konusundaki fiziki
altyapı imkanlarını geliştirmeleri oldukça önem arz etmektedir. Bu noktada, büyük verinin elde edilmesi,
depolanması ve analiz edilerek yorumlanabilmesi/anlamlandırılması için teknik gereksinimlerin karşılanması
ve büyük verinin işletmelerin faaliyetleri için kullanılabilir hale getirilmesine yönelik yetkin personel
istihdamının sağlanması da önemli hususlar arasındadır.
about:blank 82/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Bugün geliştirilen bazı teknik ve teknolojiler sayesinde çok büyük yapılandırılmış ve yapılandırılmamış veri
setleri kolayca analiz edilebilmektedir.
Büyük veri teknolojileri, veri madenciliği, veri depolama, veri paylaşımı ve veri görselleştirmeyi içeren yeni
nesil yazılımlardır. Verileri araştırmak, dönüştürmek ve anlamlandırmak için kullanılan araçlar ve teknikleri
içeren veri teknolojisini kapsar. Yapay zeka, makine öğrenimi, derin öğrenme ve IoT gibi diğer teknolojilerle
geniş ölçüde ilişkilendirilir.
Çevrimiçi işlemler, sosyal medya veya büyük veri teknolojileri tabanlı yazılımlar aracılığıyla analiz için
kullanılan belirli bir firmadan her türlü veri gibi günlük olarak üretilen veri miktarını gösterir. Analitik büyük
veri teknolojilerini besleyen ham veri olarak düşünülebilir.
Operasyonel büyük veri teknolojileri; yöneticilerin birçok uluslu şirketteki ayrıntılarını, Amazon, Flipkart,
Walmart, vb. firmalardan alınan çevrimiçi alım satım ve satın almaları, filmleri, uçuş, demiryolları ve otobüs
vb. için çevrimiçi bilet rezervasyonu ve satın almasını içerir.
Operasyonel büyük veri ile kıyasla biraz karmaşık olan analitik büyük veri teknolojileri gelişmiş bir büyük veri
versiyondur. İş kararları için çok önemli olan büyük verilerin gerçek araştırması ve anlamlandırılması bu
bölümün altındadır. Bu alanda ele alınan bazı örnekler, stok pazarlama, hava tahmini, zaman serisi analizi ve
tıbbi sağlık kayıtlarıdır.
1. Kurumsal olarak büyük verinin bilinirliği: Kurumsal olarak büyük verinin bilinirliğinin ölçümünde
ankette cevabı aranan sorular şöyledir: Başarılı bir büyük veri analitiği programı hangi ölçüde kurumsal
strateji, kültür, liderlik ve bütçe olarak destekleniyor? Büyük veriler için bir analitik kültür mevcut mu? Büyük
veri teknolojileri şirket tarafından takip ediliyor mu? Büyük veri analitiği teknolojileri şirket tarafından
keşfedilmeye başlandı mı? Veri paylaşımı ve iş birliği şirket kültürünün önemli bir parçası mı?
2. Alt yapı seviyesi: Alt yapı seviyesi ölçümünde aşağıdaki soruların cevapları aranmaktadır: Büyük veri
girişimini destekleyen mimari ne kadar gelişmiş ve tutarlı durumdadır? Var olan alt yapı şirketin tüm
bölümlerini ve potansiyel kullanıcılarını ne ölçüde desteklemektedir? Büyük veri yönetimi yaklaşımı ne kadar
etkin kullanılıyor? Hangi teknolojik donanım ve yazılımlar kullanılmakta ve var olan ortamla nasıl bütünleşmiş
durumdadır?
3. Veri Yönetimi: Veri yönetimi kısmında: Şirketin meta veri için bölüm seviyesinde tanımlanmış ve kapsamlı
bir veri yönetimi stratejisi var mı? Varsa bilgisayar kümesinde birden çok iş yükünü aynı anda yapabiliyor mu?
Şirkette tanımlanmış bir veri yaşam döngüsü yönetimi ve baştan sona veri kullanımı sürecini tanımlayan
çerçeve doküman mevcut mu?
4. Analitik çözümlerin bilinirliği: Analitik çözümlerin bilinirliği bölümü: Büyük veriler için kullanılan
verilerin çeşitliliği, hacmi ve hızı ne kadardır? Şirket büyük verilerini analiz etmek için hangi yöntemleri
kullanıyor? Büyük veri teknolojilerini yaygınlaştırmak isteyen üst düzey yönetici mevcut mu? Büyük veri
konusunda deneyimli çalışanlar var mı?
5. Yönetim stratejilerinin bilinirliği: Yönetim stratejilerinin bilinirliği kısmı: Şirketin büyük veri yönetimi
için stratejilerini takım halinde uyguluyor mu? Şirkette veri yönetimi ve entegrasyonunu denetlemek için
kurulmuş bir yönlendirme kurulu var mı?
about:blank 83/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Bir organizasyonların büyük veri teknolojileri olgunluğu, ilgili tüm iç ve dış veri kaynaklarını bütünleştirme,
yönetme ve etki alanına alma gibi yeteneklerindeki dönüşüm kabiliyeti olarak tanımlanmaktadır. Esasen,
yenilikçi bir ekosistem oluşturma ve güçlü etkisi olan bir dönüşüme imkân tanıma olasılığı ile ilgilidir. Başka
bir deyişle, büyük veri alanındaki olgunluk sadece devasa veriyi işleyebilecek gerekli donanımı satın alıp
yerleştirmekten ibaret değildir. Ya da şirket markasının değerini ve müşteriler üzerindeki etkilerini sosyal
medya paylaşımlarından analiz etmek değildir. Olgunluk, teknolojiler, veri yönetimi ve analitiği ve şirket
bileşenlerini kapsayan dinamik bir ekosistem yaratmak ile ilgilidir [1-2].
Büyük veri teknolojileri her türlü yapıdaki veriyi işleme, ihtiyaca göre genişleme, verileri yedekleme,
erişilebilir olmasını sağlama ve açık kaynaklı projeler olma gibi özelliklere sahiptir. Tablo 1’de verildiği üzere
büyük veri teknolojileri, platform türüne göre lokal ve bulut olmak üzere iki sınıfa ayrılmaktadır.
Tablo 2’de verildiği üzere büyük veri teknolojileri veritabanı türüne göre SQL, NoSQL ve In-Memory olarak
üç sınıfa ayrılmaktadır.
about:blank 84/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Tablo 3’te verildiği üzere büyük veri teknolojileri fonksiyonellik açısından veri işleme, veri ambarı, veri
toplama & transfer, arama, sorgu dili, istatistik & makine öğrenmesi, iş zekası, görselleştirme ve sosyal medya
analizi olmak üzere farklı sınıflara ayrılabilmektedir.
Büyük verilerin analizinde kullanılabilecek açık kaynak kodlu programların başında Hadoop, Apache Spark,
MongoDB, MapReduce, Orange ve Weka gibi teknolojiler gelmekle birlikte bir sürü teknoloji bu bilim
alanının gelişmesine katkı sağlamaktadır. Bu teknolojilerden bazıları şöyledir:
1. Büyük Tablo:
Büyük Tablo, Google Dosya Sistemi (Google File System-(GFS)) üzerine kurulmuş tescilli dağıtık veritabanı
sistemidir. Büyük Tablo’nun temel amacı, web sayfalarının daha hızlı ve başarılı bir şekilde bulunması,
depolanması ve güncellenmesidir.
Google Dosya Sistemi (GFS), Google tarafından geliştirilen tescilli dağıtık dosya sistemi olup; Hadoop
geliştirilirken GFS den esinlenmiştir. GFS'nin amacı, büyük dosyaları depolamak ve bunlara erişimi
about:blank 85/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
2. Bulut Bilişim
Bulut bilişim, genellikle dağıtılmış bir sistem olarak yapılandırılmış yüksek ölçeklenebilir bilgi işlem
kaynakların bir ağ üzerinden bir hizmet olarak temin edildiği bir işlem paradigmasıdır. Bulut ortamı, büyük
verilerin hem temel altyapısında hem de analitik altyapısında kolaylaştırıcı olarak ortaya çıkmıştır. Bulut hem
genel hem de özel bulut ayarlarında büyük veri analizi için bir dizi seçenek sunmaktadır. Altyapı tarafında,
Bulut, çok büyük veri setlerini yönetmek ve bunlara erişmek için seçenekler sunarken aynı zamanda güçlü
altyapı unsurlarını nispeten daha düşük maliyetle desteklemektedir.
Bugün bulut bilişim sayesinde hard disklerde depolanan veriler internet ortamında sanal sunucularda
saklanılabilmektedir. Bulut Bilişim, daha hızlı veri transferi, kıt Bilgi Teknolojisi (BT) kaynaklarının daha
etkin kullanılması ve daha hızlı yenilik (inovasyon) kabiliyetine izin vermektedir. İnovasyon düşük maliyetli
sanal ortamların dinamik kullanımı ile etkin olup bu talep üzerine şirketleşme (birleşme) olabilmektedir.
Özellikle büyük şirketler için iş gücü tasarrufu büyük önem arz etmektedir. Bugün sosyal ağlarda yüklenen
video, müzik ve fotoğraf gibi birçok veri o sitelerin bulutlarında depolanmaktadır. Bulut depolama hizmetlerine
örnek olarak Dropbox, Google Drive, SkyDrive, iCloud, Yandex. Disk, Turkcell Akıllı Bulut, TTNET Bulut ve
Ubuntu One verilebilir [4].
Bulut bilişim temel kaynaktaki yazılım ve bilgilerin paylaşımı sağlar. Ayrıca mevcut bilişim hizmetinin
bilgisayarlar ve diğer aygıtlardan internet üzerinden kullanılmasını sağlar. Şekil 7.3’te görüldüğü üzere, işletme
maliyetini düşürmesine ek olarak bulut teknolojileri radikal iş buluşları, yeni iş modelleri ve bilişimi kullanan
herkes için kullanışlılığı, gözle görülür verimliliği sağlamak için temel haline gelmiştir.
"Bulut" sözcüğü dosyaların bulunduğu yeri belirtir. Bulut bilişimde bu sözcük bilginin işlenme ve saklanma
alanı anlamında kullanılmaktadır.
Bulut özellikle büyük verilerin analizinde çok büyük kolaylıklar sağlamaktadır. Bulut; sanal, uyarlanabilir,
esnek ve güçlü yapısı sayesinde büyük verilerin değişen çevreye uygun hâle gelmesini sağlamaktadır. Bulut
mimarileri, çok büyük veri kümelerinin işlenmesi için ideal olan sanal makine dizilerinden oluşmakta ve bu
işlemler sayısız paralel süreçlere bölünebileceği ölçüde gerçekleştirilir. “Küme işlem” adı verilen bu paralel
işlem mimarilerinde işlem düğümleri olan sunucular raflarda (racks) depolanmaktadır [5]. Bu da genellikle
doğrudan analiz için kullanılabilecek Hadoop kümelerinin geliştirilmesine yol açmıştır.
about:blank 86/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
4. Veri Ambarı
Veri ambarı, verileri raporlamak için optimize edilmiş özelleştirilmiş veritabanıdır. Bu veritabanı genellikle
yapılandırılmış büyük miktardaki veriyi depolamak için kullanır. Veriler Şekil 7.4’te yer alan dış kaynaklar ve
operasyonel veri depolarındaki ETL (extract, transform, and load- çek, dönüştür, yükle) araçları kullanılarak
yüklenir ve sonuçlar genellikle veri küpü içerisinde yer alan iş zekâsı araçları kullanılarak üretilmektedir.
5. Data Mart
Bir veri ambarı, bir kuruluşun tüm verileri için merkezi bir depodur. Bununla birlikte, bir data mart’ın amacı,
insan kaynakları yönetimi gibi organizasyon içindeki belirli bir kullanıcı grubunun belirli taleplerini
karşılamaktır. Genel olarak, bir kuruluşun data martları kuruluşun veri ambarının alt kümeleridir [6].
6. Dağıtık Sistem
Dağıtık sistem, birden fazla bilgisayar, bir ağ üzerinden iletişim kurarak, ortak bir hesaplama problemini
çözmek için kullanılır. Problem paralel çalışan bir ya da daha fazla bilgisayar tarafından çözülmekte ve bu
bilgisayarların her biri birden fazla görevi gerçekleştirmektedir. Dağıtık sistemlerin avantajları düşük bir
maliyetle yüksek performans, yüksek güvenilirlik ve daha fazla ölçeklenebilirliği içermesidir.
Dinamo, Amazon tarafından geliştirilen tescilli dağıtık veri depolama sistemidir. Amazon DynamoDB,
herhangi bir ölçekte tutarlı, tek basamaklı milisaniyelik gecikmelere ihtiyaç duyan uygulamalar için hızlı ve
esnek bir NoSQL veritabanı hizmetidir. Dinamo esnek veri modeli ve güvenilir performansı sayesinde mobil,
about:blank 87/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
web, oyun, reklam teknolojisi, Nesnelerin İnterneti ve gerçek zamanlı veri işleme türü de dâhil olmak üzere
diğer birçok uygulama için mükemmel bir uyum sağlar.
Hadoop, bir makineden başlayarak, yüzlerce makine üzerine dağılabilen büyük veri kümelerini işlemek için
kullanılan, Java ile geliştirilmiş (ücretsiz) yazılım çatısıdır. Bu uygulamalarda genellikle Web üzerinde
kullanılabilen ve çoğunlukla kullanılan açık uygulama programlama ara yüzleri aracılığıyla açık veri
kaynaklarından erişilen veriler kullanılır (Şekil 7.6).
Hadoop, Google’ın Eşleİndirge ve Google File System’inden esinlenerek geliştirilmiştir. Başlangıçta Yahoo
geliştirmiş ve şu an Apache Yazılım Vakfı (Apache Software Foundation) bu sistemi bir proje olarak
yönetmektedir. Apache Hadoop yazılım kütüphanesi, basit programlama modelleri kullanarak büyük veri
kümelerinin bilgisayar kümeleri arasında dağıtılmasını sağlayan bir çerçevedir. Tekli sunuculardan binlerce
makineye ölçeklenmek üzere tasarlanmış olup her biri yerel hesaplama ve depolama imkânı sunmaktadır.
Yüksek erişilebilirlik sağlamak için donanıma güvenmek yerine, kütüphane kendisi, başarısızlıkları uygulama
katmanında algılamak ve ele almak üzere tasarlanmıştır; bu nedenle, her biri başarısızlıklara eğilimli olabilen
bir bilgisayar kümesinin üstünde yüksek oranda mevcut bir hizmet sunmaktadır. Apache Hadoop, anlamlı
bilgiler elde etmek için analitikten yararlanmak için büyük miktarda veri kullanıldığında, büyük verileri
işlemek için bir çözümdür. Apache Hadoop mimarisi, çeşitli hadoop bileşenleri ve karmaşık iş problemlerini
çözmek için muazzam yetenekleri olan farklı teknolojilerin birleşmesinden oluşur.
Hadoop ekosistemindeki tüm bileşenler açık bir şekilde belirginleştirilmiştir. Hadoop mimarisinin bütünsel
yapısını Hadoop Ekosistemi’ndeki; Hadoop Ortak (Hadoop Common), Hadoop YARN (Yet Another Resource
Negotiator), Hadoop Dağıtılmış Dosya Sistemi (Hadoop Distributed File System-(HDFS)) ve Eşleİndirge
(MapReduce) elemanları oluşturmaktadır. Bu ana bileşenlerin altında ise başka araçlar bulunmaktadır. Hadoop
Ortak, tüm Java kitaplıkları, yardımcı programlar, OS (Operating System) seviyesinde soyutlama, gerekli Java
dosyalarını ve Hadoop’u çalıştırmak için komut dosyası sağlarken; Hadoop YARN, iş planlaması ve küme
kaynak yönetimini yapan bir çerçevedir. Hadoop mimarisindeki HDFS, uygulama verisine yüksek verimlilikte
erişim sağlar ve Hadoop Eşleİndirge, büyük veri kümelerinin YARN tabanlı paralel işlenmesini sağlar.
HDFS, Google Dosya Sistemi'ne dayanmakta ve güvenilir, hataya dayanıklı küçük bilgisayar makinelerinin
büyük kümeleri (binlerce bilgisayar) çalıştırılacak şekilde tasarlanmış bir dağıtılmış dosya sistemidir. Apache
Hadoop için varsayılan büyük veri depolama katmanı HDFS'dir. Kullanıcılar, büyük veri kümelerini HDFS'ye
dökebilecekleri için HDFS, Apache Hadoop bileşenlerinin "Gizli Sosu" olarak adlandırılır ve veriler analiz için
burada hazır hâle getirilir. HDFS bileşeni, güvenilir ve hızlı veri erişimi için farklı kümeler arasında dağıtılacak
veri bloğunun birkaç kopyasını oluşturur.
about:blank 88/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Eşleİndirge (Map-Reduce), Google tarafından oluşturulan ve HDFS içerisindeki gerçek verilerin verimli bir
şekilde işlenmesini sağlayan Java tabanlı bir sistemdir. Eşleİndirge, büyük bir veri işleme işini küçük görevlere
bölerek yapar. Eşleİndirge, sonuçları bulmak için veriyi küçültmeden önce büyük veri kümelerini paralel
olarak analiz eder. Hadoop ekosisteminde, Hadoop Eşleİndirge, YARN mimarisine dayanan bir çerçevedir.
YARN tabanlı Hadoop mimarisi, büyük veri kümelerinin paralel işlenmesini destekler ve Eşleİndirge, arıza ve
hata yönetimini göz önüne alarak, binlerce düğümde kolayca uygulamalar yazmada bir çerçeve sağlar.
YARN olarak bilinen Hadoop 2.0, günümüzde dağıtılan büyük verilerin işlenmesi ve yönetilmesi için yaygın
olarak kullanılmakta olan, Ekim 2013'te piyasaya sürülen en son teknolojidir. Hadoop YARN, Hadoop
veritabanı ve HBase ile birlikte Hadoop Ekosistemi ile bağlantılı tüm teknolojilere fayda sağlayacak
performans geliştirmeleri sağlamak üzere Hadoop 1.0'a bir yeniliktir. Hadoop YARN, Hadoop distribitörleri
tarafından gönderilen Hadoop 2.x dağıtımlarıyla birlikte gelir. YARN, Hadoop Eşleİndirge'yi Hadoop
Sistemlerinde kullanmak zorunda kalmayan iş planlaması ve kaynak yönetimi görevlerini yerine getirir.
Hadoop YARN, Hadoop 1.0'ın özgün özelliklerinden farklı olarak geliştirilmiş bir mimariye sahiptir. Bu
sayede sistemler yeni seviyelere kadar ölçeklenebilir ve Hadoop HDFS'deki çeşitli bileşenlere sorumluluklar
açıkça atanabilmektedir [7].
8. Spark
Spark; hız, kullanım kolaylığı ve sofistike analitik üzerine kurulmuş açık kaynaklı bir büyük veri işleme
çerçevesidir. Başlangıçta 2009 yılında UC Berkeley'nin AMPLab'da geliştirilmiş ve 2010 yılında açık kaynaklı
bir Apache projesi olarak hazırlanmıştır. Apache Spark, piyasaya sürülmesinden bu yana geniş çaplı
endüstrilerdeki işletmeler tarafından hızla benimsenmiştir. Netflix, Yahoo ve eBay gibi internet santralleri,
toplu olarak 8000'den fazla düğüm kümeleri üzerinde birden fazla petabayt veri işleyen Spark'ı büyük çapta
kullanıma açmıştır. Spark 250'den fazla şirketin 1000'in üzerinde katkıda bulunanların, büyük veri alanındaki
en büyük açık kaynak topluluğu hâline gelmiştir.
Spark, hızlı hesaplama için tasarlanmış yıldırım hızlı küme bilgi işlem teknolojisidir. Spark, Hadoop ve Storm
gibi diğer büyük verilere ve Eşleİndirge teknolojilerine kıyasla birçok avantaja sahiptir. Her şeyden önce
Spark, doğada çok çeşitli veri setleri (metin verileri, grafik verileri vb.) ve veri kaynağına ulaşıp kullanmayı
sağlar [8]. Spark'ın temel özelliği, bir uygulamanın işlem hızını arttıran bellek içi küme işlemidir. Spark, toplu
iş uygulamaları, yinelemeli algoritmalar, etkileşimli sorgular ve akış gibi çok çeşitli iş yüklerini kapsayacak
şekilde tasarlanmıştır. Spark tüm bu iş yükünü ilgili bir sistemde desteklemenin yanı sıra, ayrı araçları muhaza
ederek yönetim yükünü de azaltmaktadır. Spark aşağıdaki özelliklere sahiptir [9].
1) Hız: Spark Hadoop kümesinde bir uygulamayı çalıştırmaya yardımcı olmaktadır. Spark, Hadoop
kümelerindeki uygulamaları bellekte 100 kat daha hızlı ve disk üzerinde çalışırken bile 10 kat daha hızlı
çalıştırmayı sağlar. Bu sayede, diske okuma/yazma işlemlerinin sayısı azalmaktadır [10].
2) Birden çok dili destekler: Spark; Java, Scala veya Python'da hızlı bir şekilde uygulamalar yazmayı
sağlamaktadır. Spark 80'den fazla üst düzey operatörden oluşan dâhili bir küme ile birlikte gelir. Bu nedenle
Spark, kabuk (shell) içindeki verileri sorgulamak için etkileşimli olarak kullanılabilir.
3) Gelişmiş Analitik: Spark sadece 'Eşle' ve 'İndirge'yi desteklemekle kalmaz. Aynı zamanda SQL sorguları,
akış verileri, makine öğrenme ve grafik algoritmalarını da desteklemektedir. Spark geliştiricileri, bu özellikleri
tek başlarına kullanabilir veya tek bir veri hattı kullanım örneğinde çalıştırmak için birleştirebilirler.
9. Storm
Storm (Gerçek Zamanlı Akış İşlemci, Şekil 7.7), büyük verilerin gerçek zamanlı akışını işlemek için
tasarlanmış teknolojilerdir. Apache Storm Hadoop ile gerçek zamanlı olarak verileri işleme imkânı sağlayan
dağıtılmış, hataya dayanıklı ve açık kaynaklı bir sistemdir. Akış işlemcisi; finansal hizmetlerdeki algoritmik
işlem (alım satım), RFID (Radyo Frekanslı Tanımlama) durum işleme uygulamaları, dolandırıcılık tespiti,
süreç izleme ve telekomünikasyondaki konuma dayalı hizmetler gibi uygulamalar sağlar.
about:blank 89/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
10. Metaveri
Metaveri, veri dosyalarının içeriğini ve bağlamını (kaynağını) tanımlayan verilerdir. Örneğin dijital fotoğraf
makinesi ile çekilen fotoğraflarda, fotoğraf dosyası içerisine kaydedilen; fotoğrafın çekildiği tarih, fotoğrafın
yatay ve düşey piksel boyut, fotoğrafın yatay-düşey çözünürlüğü, fotoğrafın odak uzaklığı, fotoğraf
makinesinin markası ve modeli ile fotoğrafın çekildiği yerin GPS koordinatları gibi bilgiler birer metaveridir.
Veri kaynaklarındaki verilerin büyük veri teknolojileri ile ilişkilendirilmesi ve metadatanın yönetimi Şekil
7.8’de verilmiştir.
11. NoSQL
about:blank 90/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
NoSQL, ilişkisel veritabanı yönetim sistemlerine (RDBMS) bir alternatif olarak ortaya çıkmıştır. NoSQL,
internetteki artan veriyi depolayabilmek ve hızlı veri akışına sahip sistemlerin ihtiyaçlarını karşılamak için
yatay ölçeklemeye başvuran sistemlerdir. Bu özellik her gün terabaytlarca veriyi işleyen Facebook, Google ve
Amazon gibi büyük firmaların NoSQL veri tabanlarını tercih etmelerinde etkin rol oynamıştır. Bunlar aynı
anda birden fazla sunucu ile birlikte çalışabilmekte ve çok büyük ve karmaşık veriler üzerinde işlemler
yapabilmektedir. Bu yönüyle bu veri tabanları veri seli ile mücadele de kuruluşlar için önemli bir araç olarak
ortaya çıkmıştır. NoSQL veri tabanları SQL dilini kullanmadıkları için bunlara “Not Only SQL” adı verilmiştir.
NoSQL veritabanı yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış bütün verileri çok hızlı bir şekilde
özümseyebilmekte ve yüksek performanslı sorgulama kapasitesi sunabilmektedir (Şekil 7.9). NoSQL veri
tabanlarına örnek olarak; Cassandra, HBase, Oracle NoSQL, MongoDB, memsql, Neo4j ve nuodb gibi araçlar
verilebilir. Bu veri tabanlarının her birinin kendine özgü mimarileri bulunmaktadır93. Örneğin Cassandra yatay
ölçeklenebilme özelliği sayesinde kümeye (cluster) yeni sunucular eklenmesine olanak sağlayarak kapasitenin
artmasına izin verir. Ayrıca Cassandra doğrusala yakın ölçeklendirme sayesinde yüksek performansın artmasını
sağlar.
12. BigQuery
BigQuery Mayıs 2012 de Google tarafından geliştirilmiş, büyük veri kümelerinin etkileşimli analizini sağlayan
bir web hizmetidir. BigQuery servisi Google’ın altyapısını kullanarak büyük veri setlerinin hızlı bir şekilde
analiz edilmesini sağlar. BigQuery, iç içe geçmiş verileri depolamak için kolona yönelik bir düzen kullanan
dağıtılmış ve ölçeklenebilir bir sorgu sistemi olan Dremel üzerinde kurulmuştur [11]. BigQuery’nin tercih
edilmesindeki en büyük etken Dremel’i kullanmasıdır. Google tarafından gerçekleştirilen Dremel altyapısı
Eşleİndirge altyapısına göre üç avantaja sahiptir.
Birincisi, Dremel kolon bazlı veri modelini kullandığı için satır bazlı veri modelini kullanan Eşleİndirge’ye
göre daha hızlı çalışmaktadır. Bundan dolayı Dremel, büyük veri setleri üzerindeki analitik işlemlerde çok
hızlıdır.
İkinci olarak, kolon bazlı veri modelinde isim verileri kolon bazında tutulduğu için tekrar eden veri sayesinde
sıkıştırma durumunda satır bazlı veri modeline göre Dremel daha avantajlıdır. Kolon bazlı veri modellerinin
dezavantajı ise az veri ile sorgulama yapıldığında veriye birden fazla okuma ile ulaşılacağından sorgu
performansında bir düşüş olur. Sonuç olarak kolon bazlı veri modelinin büyük veri setlerini okurken tüm
kolonlar yerine belirli kolonlardaki veriye erişilmesinin tercih edilmesi performansın artmasını sağlamaktadır.
Üçüncü olarak, ölçeklenebilirlik açısından; Dremel Google’a göre büyük ölçekli sistemler ile test edilmiş tek
yöntemdir. Dremel, BigQuery servisleri ile büyük veri analizleri Google sunucuları üzerinden yapıldığı için
ayrıca bir veri merkezi kurulmasına gerek olmadığı için herhangi bir sermaye ayırmaya gerek duyulmaz [12].
about:blank 91/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Python, genel amaçlı bir web programlama dili olarak popülerken, özellikle istatistiksel hesaplama için
geliştirilen R, veri görselleştirme için mükemmel özellikleriyle popülerdir. Python ve R dili, veri bilimin de
istatistiksel hesaplamalar için kullanılan temel araçların başında gelmektedir. Veri bilimciler arasında R veya
Phyton’dan hangisinin daha iyi olduğu konusunda tartışmalar hala sürmektedir. Ancak her iki programlama dili
de birbirlerinin tamamlayıcı nitelikte anahtar özelliklerine sahiptirler.
Veri bilimi; istatistik hesaplama, tahmin modelleri oluşturma, verilere erişme ve manipüle etme, açıklayıcı
modeller oluşturma, veri görselleştirmeleri yapma, modelleri üretim sistemlerine entegre etme ve verilere
ilişkin çok daha fazlası gibi birkaç birbiriyle ilişkili ancak farklı faaliyetlerden oluşmaktadır. Python
programlama, veri bilimcilerine, tüm bu işlemleri veri üzerinde gerçekleştirmelerine yardımcı olan bir dizi
kütüphane sağlamaktadır.
Python, sözdizimi basitliği ve farklı ekosistemlerde çalışabilmesinden dolayı geniş bir popülerlik kazanmıştır.
Bu nedenle Python veri bilimi için genel amaçlı çok paradigmalı programlama dilidir. Python programlama,
programlayıcıların veriyle oynamalarına yardımcı olabilir; ihtiyaç duydukları her şeyi veri ile çözme, veri
sürtüşme, web sitesi silme, web uygulaması oluşturma, veri mühendisliği ve daha pek çok şey yapabilmektedir.
Python dili, programcıların bakımı kolay, büyük ölçekli sağlam kod yazmalarını kolaylaştırır.
R dilinden farklı olarak, Python dilinde dâhili paketler bulunmamakla birlikte, veri bilimcilerinin yararlı
istatistiksel ve makine öğrenme görevlerini yerine getirmek için kullanabilecekleri Scikit, Numpy, Pandas,
Scipy ve Seaborn gibi kütüphaneleri desteklemektedir. Python programlama, sözde koda benzer ve İngilizce
dili gibi mantıklıdır. Python da kodda kullanılan ifadeler ve karakterler matematiksel olabilir, ancak mantık
koddan kolaylıkla anlaşılabilmektedir.
R programlama dili, S. adlı bir programlama dilinin bir dalı olup, R, S'nin açık kaynaklı bir uygulamasıdır. R,
S-plus'dan büyük ölçüde yalnızca komut satırı biçiminde farklıdır. R, Yeni Zelanda Auckland Üniversitesi'nde
profesör olan Ross Ihaka ve Robert Gentleman tarafından geliştirilmiştir. Bu profesörlerin adlarının ilk
harflerinden dolayı programa R ismi verilmiştir. Programın geliştirilmesindeki temel amaç, öğrencilerin veri
analizi yapıp, grafik çizebilecekleri ücretsiz bir yazılım geliştirmektir. R, öncelikle istatistikçiler tarafından
benimsenmiş ve günümüzde istatistiksel hesaplama için kullanılan bir programdır.
R Dili, Linux, Windows ve Mac'te bulunan istatistiksel hesaplama ve grafik için açık kaynak programlama dili
ve ortamıdır. R dili, geliştiricilerin, veri ve kodların çapraz platform dağıtımını ve testini sağlayarak işlevselliği
yeni boyutlara taşımasını sağlayan yenilikçi bir paket sistemine sahiptir. R paketleri; R fonksiyonları, veriler ve
kodlardan oluşmaktadır. Paketlerin bilgisayarda saklandığı dizine library denir. R dili, 27 Aralık 2016 itibariyle
Veri Bilimi ve analizi için 10.000’e yakın ücretsiz paketi desteklemektedir.
Milyonlarca veri bilimcisi ve istatistikçi, istatistiksel hesaplama ve niceliksel pazarlamayla ilgili büyük
sorunları ortadan kaldırmak için R programlamayı kullanıyor. Günümüzde R dilini kullanan şirketler ve
kullandıkları alanlar şöyledir: LinkedIn, Twitter, Bank of America, Facebook, Yhoo, Amazon, Airbnb, Google,
Microsoft, Ford and Drug Administration, Ford Motor Company, Llyod ve Uber gibi finans ve işletme analiz
odaklı kuruluşlar için önemli bir araç hâline gelmiştir. Bu şirketlerden bazısının R’yi kullandıkları alanlar
şöyledir: Google reklam kampanyalarında yatırım gelirlerini hesaplamada, ekonomik etkinlik tahmininde, TV
reklamlarının etkinlik analizinde, Facebook statü güncellemelerinde, sosyal network grafiklerinde, Microsoft
istatistiksel analiz için, Bank of America raporlamada, Ford Company veri temelli karar vermede, Llyod’s
sigortalamada ve Uber istatistiksel analiz için kullanmaktadır [13].
Bölüm Özeti
Büyük verinin günümüzde bu kadar önemli ve üzerinde durulan bir konu haline gelmesinin temel nedeni;
süper devletlerin, gelişmiş toplulukların, kamu kurum ve kuruluşların ve özel sektörün yaptıkları işler ve
verdikleri hizmetler yanında, sosyal medya, internet ve benzeri teknolojilerin kullanımı ile yaygınlaşan
uygulamaların sunucularında oluşan ve günümüze kadar değerlendirilmeyen verilerin öneminin anlaşılmasıdır.
Belirtilen bu organizasyonlar büyük verinin işlenmesi ve anlamlandırılması ile kendileri için büyük fayda
sağlayabilecek çıkarımlarım üretebileceklerinin farkına varmışlardır. Bunun sonucunda günümüzde bu sektöre
çok büyük yatırımlar yapmaktadırlar. Bu sonuç büyük veri kavramının popülerliğinin artmasına,
araştırmacıların ilgi odağı haline gelmesine vesile olmuştur. Büyük veri ile birlikte yalnızca teknoloji alanında
about:blank 92/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
değil, insan davranış ve düşünme analizinde, algılama biçimlerimizde, yeni araştırma yöntemlerimizde, daha
pek çok farklı alanda büyük değişiklikler yaşanmaktadır.
Yeni teknolojilerin üretimi veya kullanımı konusunda başta özel sektör olmak üzere kurumlar ve kuruluşlar ile
bireylerin de bu değişimlerin dışında kalamayacağı sonucuna varılmıştır. Özellikle araştırma kurumları büyük
verinin etkin kullanımı konusunda öncü olmalı, üniversitelerin ve bilimle ilgili diğer kurum ve kuruluşların
büyük veri ile ilgili teknoloji ve uygulama geliştirilmesine destek vermeleri gerekmektedir. Büyük veriyi kendi
meslekleri doğrultunda değerlendirmek isteyenler için, gerekli eğitimi almaları konusunda gerekli ortam
sağlanmalı, bu konuya eğitim programlarında yer verilmelidir. Büyük veri konusunda yurt dışı çalışmalar
örnek alınıp incelenmeli, benzeri modeller yurtiçinde özellikle üniversiteler öncülüğünde gerçekleştirilmelidir.
Şüphesiz bu konu birtakım yatırımları gerektirmektedir. Bu durumda malî destek devlet kurum ve kuruluşları
tarafından sağlanabilir.
Kaynakça
[1] Halper, F., & Krishnan, K. TDWI big data maturity model guide interpreting your assessment score. TDWI
Benchmark Guide, 2013.
[2] Ayvaz, S. & Salman, Y.B. Türkiye’de Firmaların Büyük Veri Teknolojileri Bilinirliği ve Kullanımı Analizi.
Avrupa Bilim ve Teknoloji Dergisi, (18), 728-737, 2020.
[3] Ghemawat S, Gobıoff H, Leung S.T. “The Google File System”, 19th ACM Symposium on Operating
Systems Principles, Lake George, NY, October 2003.
[4] Demir T., “Bulut Bilişim (Cloud Computing) Nedir?”, 2016, http://www.timurdemir.com.tr/bulutbilisim-
cloud-computing-nedir, (07.01.2016).
[5] Gürsakal N, “Büyük Veri”, Genişletilmiş 2. Baskı, Dora, Bursa, ISBN:978 605-4798-803, syf. 157, 2014.
[6] Rouse M. “Data mart (datamart)”, May 2014. (Son Erişim: 12.12.2017)
URL: http://searchsqlserver.techtarget.com/definition/data-mart
[7] DeZyre, “Hadoop 2.0 (YARN) Framework - The Gateway to Easier Programming for Hadoop Users”, 25
November 2014, https://www.dezyre.com/article/hadoop-2-0-yarn-framework-the-gateway-to-
easierprogramming-for-hadoop-users/84, (10.02.2017).
[9] Penchikala Srini, “Big Data Processing with Apache Spark – Part 1: Introduction”, Jan 30, 2015,
https://www.infoq.com/articles/apache-spark-introduction, (22.10.2017).
[11] Melnik S, Gubarev A, Long J.J, Geoffrey R, Shivakumar S, Tolton M, Vassilakis T. “Dremel: Interactive
Analysis of Web-Scale Datasets”, Proceedings of the VLDB Endowment, Vol. 3, No. 1, Singapore, 2010.
[12] Derinöz C., “Google BigQuery Servisi İle Büyük Veri İşlemleri Ve Sorgu Sonuçlarının BIME İş Zekası
Ürünü İle Görselleştirilip Android Tabanlı Mobil Cihazlar Üzerinden İzlenmesi”, Data & Analytics, Nisan 22,
2014.
[13] Çelik S. “Büyük Veri ve İstatistikteki Uygulamaları”, Ph.D. thesis, Social Science Institution,
Econometrics, University of Uludağ, 2018.
Ünite Soruları
about:blank 93/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Soru-1 :
Aşağıdakilerden hangisi operasyonel büyük veri teknolojilerine bir örnek olarak verilebilir?
(Çoktan Seçmeli)
(B) Çok uluslu şirketlerin örneğin Amazon vb firmalardan çevrim içi alım yapmaları, verilerin ham olarak
toplanması.
(E) Büyük verinin saklanması analitik işlemlerden geçirilmesi ve bir fayda elde edilmesi.
Cevap-1 :
Çok uluslu şirketlerin örneğin Amazon vb firmalardan çevrim içi alım yapmaları, verilerin ham olarak
toplanması.
Soru-2 :
(Çoktan Seçmeli)
Cevap-2 :
Soru-3 :
(Çoktan Seçmeli)
Cevap-3 :
Soru-4 :
(Çoktan Seçmeli)
Cevap-4 :
Soru-5 :
(Çoktan Seçmeli)
Cevap-5 :
Lokal - Bulut
Soru-6 :
“………. dağıtılmış bir sistem olarak yapılandırılmış yüksek ölçeklenebilir bilgi işlem kaynakların bir ağ
üzerinden bir hizmet olarak temin edildiği bir işlem paradigmasıdır.”
(Çoktan Seçmeli)
about:blank 95/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-6 :
Bulut Bilişim
Soru-7 :
(Çoktan Seçmeli)
(B) Büyük verilerin gerçek zamanlı akışını işlemek için tasarlanmış teknolojilerdir.
Cevap-7 :
Soru-8 :
Aşağıdakilerden hangisi ETL (extract, transform, and load- çek, dönüştür, yükle) işlemlerinin
gerçekleştirildiği bir büyük veri teknolojisidir?
(Çoktan Seçmeli)
(A) NoSQL
(B) MetaVeri
Cevap-8 :
Veri Ambarları
Soru-9 :
Aşağıdakilerden hangisi fonksiyonellik bakımından kullanılan teknoloji araçları açısından doğru bir
eşleştirme değildir?
about:blank 96/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(Çoktan Seçmeli)
Cevap-9 :
Soru-10 :
(Çoktan Seçmeli)
(A) Bir makineden başlayarak, yüzlerce makine üzerine dağılabilen büyük veri kümelerini işlemek için
kullanılan, Java ile geliştirilmiş (ücretsiz) yazılım çatısıdır.
(C) Hadoop, açık uygulama programlama ara yüzleri aracılığıyla açık veri kaynaklarından erişilen verileri
kullanır.
(D) Apache Yazılım Vakfı (Apache Software Foundation) bu sistemi bir proje olarak yönetmektedir.
(E) Apache Hadoop mimarisi, çeşitli hadoop bileşenleri ve karmaşık iş problemlerini çözmek için muazzam
yetenekleri olan farklı teknolojilerin birleşmesinden oluşur.
Cevap-10 :
about:blank 97/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
4. Nitel ve nicel büyük veri analizleri arasındaki temel farklar nelerdir?
6. Klasik analiz yöntemleri ile büyük veri analiz edilebilir mi?
Başlamadan Önce
Büyük veri analizi (veri analitiği), yararlı bilgileri keşfetmek üzere verileri temizleme, dönüştürme ve
modelleme sürecidir. İşletmenizin zayıf noktalarını tanımlamanıza, güçlü yönlerden yararlanmanıza ve veriye
dayalı kararlar almanıza yardımcı olur.
Büyük veri analizi; şirketlerin müşterilerini daha iyi anlamaları, reklam kampanyalarını değerlendirmeleri,
içerikleri kişiselleştirmeleri, içerik stratejileri oluşturmaları ve ürün geliştirme açısından oldukça etkili olabilir.
Performans ve kârlılıklarını artırmak isteyen işletmeler veri analizini küçümsememelidir.
Veri analizlerini profesyonel yazılımlar kullanarak birkaç tıklama ile gerçekleştirmek de mümkündür. Böylece
hiçbir şeyi manuel olarak hesaplamanıza gerek kalmadan BI (Business Intelligence) raporlama araçları
kullanılabilir.
Son zamanlardaki bu trendle birçok veri analizi tekniği için, makine öğrenme algoritmalarını ve
otomasyonunu entegre eden özel sistemlere ve yazılımlara başvurulmakta. Ayrıca veri analizi programları,
verilerin depolanması ve paylaşılmasını da kolaylaştırmaktadır.
about:blank 98/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Büyük verinin analizi, doğru verilerle ve yöntemlerle yapıldığında, kurum ve kuruluşlara stratejik ve kritik
kararlarında yapılabilecek birçok hatanın önüne geçilmesini sağlayabilmektedir. Şekil 8.1’de görüldüğü üzere
büyük verinin anlamlandırılması amacıyla yapılan büyük veri analizini endüstri, finans, eğitim, sağlık ve
güvenlik sistemleri gibi birçok sektör müşteri memnuniyetini ölçmek ve artırmak amacıyla da kullanmaktadır.
Büyük veri analizi, farklı türlerde içerik barındıran çok geniş ve farklı kayıtları işlemek adına geliştirilmiş
analitik ve paralel tekniklerin kullanılmasıdır. Bu noktada büyük veri analitiği araçları, geleneksel veri tabanı
teknikleri kullanılarak işlenmesi zor olan, hızla değişen ve çok miktardaki yapısal, yarı yapısal ve yapısal
olmayan verinin bir bütün olarak analizi ile veriden değerli bilgiler elde edilmesini amaçlamaktadır.
İşletmeler için büyük veri analizi; yeni projelerde kararlar, yapılacak yatırımlar, büyüme ya da küçülme gibi
kritik karar alma süreçlerinde etkin bir araç olarak kullanılabilecek bilimsel bir yöntem olarak karşımıza
about:blank 99/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
çıkmaktadır. Şekil 8.2’de görüldüğü üzere firmaların büyük veri analizi sürecinde kullanılan 5 temel adım
vardır. Bazı özel durumlar için bu adımlar değişse de geleneksel analiz adımları şöyledir:
1. Amaç Belirleme: Veri analizi sürecinde elde edilmek istenen amaçlar önceden belirlenmeli ve analiz bu
amaçları ortaya çıkaracak şekilde planlanmalıdır. Hedefler belirlenirken, amaçları yerine getirebilecek düzeyde
farklı alt gruplar elde edilebilir.
2. Veri Toplama: Her ne kadar depolama hacmini ve ek yatırım bütçesine sebep olmasına karşın farklı
kaynaklardan ve çeşitlerden, olabildiğince çok veri toplamak veri analizinin daha doğru sonuçlar ortaya
koymasının önünü açacaktır. Günümüzde veri toplamak için farklı yöntemler kullanılsa da en sık kullanılanlar
arasında bilgisayarlar, sosyal medya ve bloglar, forum siteleri, mobil uygulamalar ve web siteleri yer
almaktadır.
3. Veri Temizleme: Elde edilen verilerin analize uygun olmayanları elemek ve yanıltıcı sonuçların ortaya
çıkmasını önlemek için planlı hareket edilmelidir. Bu işlem ön hazırlık olarak da adlandırılmaktadır ve veri
toplama süreçlerindeki yapısal olmayan verilerin düzenlenmesi olarak da ifade edilebilmektedir.
4. Veri Analiz Ekibi ile Çalışma: Büyük veriden anlamlı ve katma değerli çıktılar elde etme sürecini
yürütmek için veri analisti kullanılmaktadır. Veri analizi tek başına uzmanlık gerektiren bir iş olduğundan,
işletmede çalışan herhangi birinin ek görevi olarak ele alınmamalı; veri analizi konusunda uzmanlaşmış kişiler
tarafından süreç yönetimi gerçekleştirilmelidir.
5. Tekrar Etme ve Optimizasyon: Veri analizi sürecindeki işlemler mümkün olduğunca çok tekrarlanarak,
verilerin tutarlılığı izlenip, en doğru sonuçlara ulaşmak gerekir. Burada analistin tecrübesi ve veriyi
yorumlaması sayesinde en uygun sonuçların elde edilmesi ve raporlanması sürecidir.
Büyük veri analizi nicel veri analiz yöntemleri ve nitel veri analiz yöntemleri olarak 2 ana kategoride
sınıflandırılabilmektedir.
i. Nicel Veri Analizi Yöntemi: Bu yöntem, nicel veriyi baz alarak sonuca ulaşır. Nitel yönteme kıyasla daha
kesin sonuçlar veren bu yöntem grubuna dâhil olan teknikler betimsel ve kestirimsel istatistiktir. Teknikler
kapsamında sayısal veriler analiz edilip düzenlenerek sonuca ulaşılır. Betimsel istatistik, bilimsel araştırmaların
yorumlanması için en etkili teknik olup nicel verilerin tanımlayıcı indekslere evrilmesi adına kullanılır.
Kestirimsel istatistik, betimsel istatistik tekniği kullanılarak ulaşılan sonuçların genellemesinde tercih edilir ve
tahmine dayalıdır.
ii. Nitel Veri Analizi Yöntemi: Bu yöntem ise nitel veriyi (sayısal olmayan) baz alarak sonuca ulaşır. Sosyal
gerçekliğin ortaya konmasında kullanılan yönteme dâhil olan teknikler arasında içerik analizi ve betimsel
analiz bulunur. İçerik analizi tekniğinde veriler detaylı olarak incelenerek kavram ve ilişkilerle açıklanmaya
çalışılır. Betimsel analizde ise derinlemesine inceleme yapılmaz; veriler betimlenir, bulgular yorumlanarak
düzenlenir.
Ayrıca büyük verinin analiz yöntemleri bilimsel araştırma yöntemler açısından aşağıdaki şekilde
sınıflandırılmaktadır:
1. Betimsel Analiz (Descriptive Analysis): En basit ve herkes tarafından kolaylıkla anlaşılabilir veri analizi
türüdür. Ortalama, standart sapma, yüzde ve sıklık gibi veriler elde etmek için ya tam veriye ya da özetlenmiş
sayısal veri örneğine dayanır. Analiz için kullanılan verilerden “Yaş aralığı” ve “Nicelik” gibi sonuçların hızlı
ve kolay bir şekilde ortaya çıkmasını sağlar.
2. Keşif Analizi: Analiz sürecinde kullanılan veriler arasındaki doğrudan ya da dolaylı ilişkileri anlamak için
keşif analizinden yararlanılır.
3. Çıkarımsal Analiz (Inferential Analysis): Küçük miktarda veri kullanarak, daha büyük miktardaki
gruplar hakkında yorum yapabilmek ya da kararlar alabilmek için çıkarımsal analiz kullanılır.
4. Tahmin Analizi (Predictive Analysis): Bir grup ya da olaydaki verileri kullanarak başka bir grup ya da
olay hakkında yorum yapabilmek için tahmin analizi kullanılır. Yani bu analiz mevcut veya geçmiş verilere
dayanarak gelecekteki sonuçlar hakkında tahminlerde bulunmak için kullanılır. Doğruluğu, ne kadar ayrıntılı
bilgiye sahip olduğunuza bağlıdır. Bir trendin, modelin veya olayın neden gerçekleştiğini anlarsanız,
about:blank 100/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
karşılaşabileceklerinize dair bilinçli bir projeksiyon geliştirebilir, potansiyel sorunların kontrolden çıkmasını
önleyebilirsiniz. Bu sayede, kurum veya kuruluşunu için girişimlerinizi formüle edebilir, etkili kampanyalar
başlatabilirsiniz.
5. Teşhis Analizi (Diagnostic Analysis): Bu yöntemi, istatistiksel analizi bir adım daha ileri götürerek, bir
şeyin neden olduğunu cevaplamak için kullanabilirsiniz. Teşhis analizi, verilerin davranış kalıplarını
tanımlamak için yararlıdır.
6. Metin Çözümlemesi (Text Analysis): Metin analizine; “Veri Madenciliği” de denir. Veritabanlarını
kullanarak büyük veri kümelerindeki bir deseni keşfetmeye ve ham verileri iş öngörülerine dönüştürmeye
yarar.
7. İstatistiksel Analiz (Statistical Analysis): İstatistiksel analiz, bir veri kümesinin veya bir veri örneğinin
analizi için verilerin toplanmasını, analizini, yorumlanmasını, sunumunu ve modellenmesini içerir. Betimsel
Analiz ve Çıkarımsal Analiz olarak iki kategoriye ayrılabilir.
Analiz edilecek veri miktarı arttıkça, bu verinin işlenmesi ve yorumlanması için uzmanlık ve doğru uygulama
zorunluluğu doğar. Uzman kişiler tarafından ve veri analiz uygulamaları kullanılarak gerçekleştirilen veri
analiz işlemleri zamandan tasarruf sağladığı gibi, en doğru sonuçlara ulaşmak için de gerekli olup en doğru
yolu seçmelerine olanak sağlanır (Şekil 8.3) [1].
Şekil 8.3. İşletme için doğru kararlara büyük veri analitiği sayesinde ulaşılır.
Büyük veri analizinde cevap bulunması gereken önemli sorular vardır. Bunlar:
§ Büyük veri boyutu ve çeşitliliği arttıkça, veri analitiğinde karşılaşılacak sorunlarla nasıl başa çıkılacaktır?
§ Hangi büyük veri unsurlarının gerçekten önemli olduğuna nasıl karar verilmelidir?
Cevap bekleyen bu sorular, büyük verinin analiz aşamasında çok büyük zorlukları da beraberinde
getirmektedir. Büyük veri, yapısal, yarı yapısal ve yapısal olmayan veri türlerinden oluştuğu için büyük veri
analitiğinde ileri kabiliyetlere gereksinim duyulmaktadır ve çözülmesi gereken en önemli sorunların başında
gelmektedir. Yapısal olmayan verinin yapısal veriye nazaran büyüklüğünün ve büyüme hızının çok fazla
olması, bu manada yapısal olmayan verinin veri tabanlarında yüksek depolama alanı ve enerji tüketimine
ihtiyaç duyması başlıca zorluklar arasında yer almaktadır. Bununla birlikte yapısal olmayan verinin yapısal veri
gibi ilişkisel veri tabanlarında belirli bir düzende depolanamamasından dolayı birlikte çalışabilirliğin olmaması
about:blank 101/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
da aşılması gereken diğer bir zorluktur. Bu zorlukları aşmak için veri depolama sistemlerinde ve sistemler
üzerinde çalışan sorgu dilleri mantığında da değişikliklere gidilmiştir.
Bununla birlikte veri üzerinde yapılması gereken analiz türü, elde edilecek sonuçlara da bağlıdır. Analiz
aşamasında ya tüm büyük veri unsurları birleştirilir, ya da hangi büyük veri unsurunun elde edilecek sonuçla
alakalı olduğu belirlenir [2, 3].
Daha fazla veriyi daha hızlı bir şekilde analiz edebilme yeteneği, bir kurum/kuruluşa büyük faydalar
sağlayabilir. Bazı önemli kararları almak için veya bazı problemleri tespit etmek için verilerin daha verimli bir
şekilde kullanılmasına olanak sağlar. Büyük veri analitiği, kurum/kuruluşların fırsatları ve riskleri belirlemek
için birden çok kaynaktan büyük miktarda veriyi birden çok biçimde kullanmasına izin vererek kurum ve
kuruluşların hızlı hareket etmelerine ve kârlarını iyileştirmelerine yardımcı olur.
İşletmeler, işle ilgili bazı kararları hızlı ve doğru bir şekilde alabilmek için büyük veri analitiği sistemlerini ve
yazılımlarını kullanabilir. Büyük veri analitiği daha etkili pazarlama, yeni gelir fırsatları, müşteri
kişiselleştirme ve iyileştirilmiş operasyonel verimlilik gibi konularda yardımcı olabilir. Bu faydalar etkili bir
strateji ile rakiplere göre büyük avantajlar sağlayabilir.
Büyük veriyi, her boyuttaki kurum veya kuruluşlar kullanabilir ve yararlanabilir. Organizasyonunuzun,
verimliliğini artırmak, kâr hanenizi büyütmek ve yeni iş modellerini güçlendirmek için büyük veri analitiğinin
size sağladığı kazanımlardan yararlanabilirsiniz [4].
i. Maliyetleri azaltır: Büyük veri analitiği, kullanıcıların işletmelerindeki maliyetleri düşürmelerine yardımcı
olur. Hadoop ve bulut tabanlı analiz sistemleri, kullanıcıların verilerini depolamanın ucuz ve verimli yollarını
sağlar. Elde ettiğiniz veriler ve iç görüler sayesinde işletmenizin düşük ve yüksek performans gösteren
yönlerini kolayca tespit edebilirsiniz.
Örneğin, E-ticaret sitenizde, reklam ve pazarlama biriminiz çok başarılı kampanyalar yürüterek birçok
potansiyel müşteriyi sitenize yönlendirmesine rağmen gerekli satışları yapamadığınızı düşünelim. Büyük veri
analitiğini kullanarak, satışlarınızı kaybetmenize hangi faktörlerin sebep olduğunu araştırabilir ve bunlar için
gerekli önlemleri alabilirsiniz. Belki ödeme sayfanız iyi optimize edilmemiştir, belki sitenizin hızı yeterli
değildir. Bu durumda sorunu çözmek için gerekli aksiyonları hızlıca alabilirsiniz.
ii. Hızlı kararlar almanızı sağlar: Geniş verilerin detaylı ve hızlı bir şekilde kullanılabilir hale gelmesi
sayesinde, kullanıcılar daha hızlı bir şekilde kritik kararlar alabilirler.
iii. İş performansınızı optimize eder: İşletmenizi her yönüyle genel kapsamda görebilmenin önemli faydaları
vardır. Bu sayede çalışmalarınızın veya işlemlerinizin sorunlu olduğu noktaları veya eksiklikleri kolayca teşhis
edebilir ve gerekli önlemleri hızlıca alabilirsiniz. Çoğu büyük veri analitiği sistemleri, destekleyici faktörler
veya ilişkili veri noktaları gibi en azından bazı teşhis bilgilerinin sağlanmasına yardımcı olacaktır.
iv. Verilerinizi doğru yönetmenizi sağlar: Veri yönetimi, büyük verilerin kritik bir özelliğidir. Genel Veri
Koruma Yönetmeliği gibi bazı yasal düzenlemelerden dolayı verilerin akışını kontrol etmek kritik öneme sahip
bir konudur. Veri kalitesi yönetimi verilerin temizlenmesini, toplanmasını, dağıtılmasını ve ilişkilendirilmesini
içerir.
v. Eğilimleri analiz etmenizi sağlar: Eğilimleri tahmin etmek ve davranışları analiz etmek, büyük veri
analitiğinin en önemli özellikleri arasındadır. Geçmiş verilerden yola çıkarak, büyük veri analitiği, sonraki
dönemler için tahminler yapmaya çalışacak ve aynı zamanda sonuçları etkileyebilecek, mevsimsellik, fiyat
dalgalanmaları, farklı tüketici davranışları, marka etkileşimi gibi faktörleri de hesaba katacaktır.
about:blank 102/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
1. İhtiyaçları Belirleme: Verilerinizi analiz etmeye veya herhangi bir analiz tekniğini incelemeye başlamadan
önce, kuruluşunuzdaki tüm kilit paydaşlarla iş birliği yapmalı, analiz yapmanın amacına, neyi analiz
edeceğinize ve nasıl ölçeceğinize karar vermelisiniz.
2. Soruları Belirleme: Temel hedeflerinizi belirledikten sonra, görevinize ulaşmanıza yardımcı olmak için
hangi soruların cevaplanması gerektiğini düşünmelisiniz. Bu, başarınızın temellerini şekillendireceğinden en
önemli veri analizi tekniklerinden biridir. Verilerinizin çalıştığından emin olmak için doğru sorularını sormanız
gerekir.
3. Veri Toplama: En doğrulanmış kaynaklardan veri toplamaya, veri toplarken, verilerin toplanma tarihine ve
kaynağına dair notlar tutulmasına ve verilerin analiz için organize edilmesine önem gösterilmelidir.
Kullanılacak veriler geçmiş verileri veya belirli bir girişim için toplanan yeni bilgileri içerebilir. Bir kitlenin
demografik özellikleri, ilgi alanları, davranışları ve daha fazlası hakkında bilgiler içerebilir. Müşteriler ve site
ziyaretçilerinden toplanabilir veya diğer kuruluşlardan satın alınabilir. Bir şirketin kendi müşterileri hakkında
topladığı verilere birinci taraf verileri, bir şirketin başka bir kuruluştan elde ettiği verilere ikinci taraf verileri
denir ve bir şirketin bir pazardan satın aldığı toplu verilere üçüncü taraf verileri denir.
4. KPI’ları Belirleme: KPI’lar, göz ardı etmemeniz gereken birincil yöntemlerden biridir. Anahtar Performans
Göstergelerini (KPI) tanımlamak, verileri doğru bir şekilde ölçmenizi sağlar. KPI’lar başarıyı ve sonuçları nasıl
ölçtüğünüzü tanımlamanıza yardımcı olur. Bir dizi önemli performans göstergesi (KPI) ile belirli alanlardaki
ilerlemenizi izleyebilirsiniz. KPI Nedir? adlı detaylı yazımızı incelemenizi öneririz.
“Kilit performans göstergesi anlamına gelen KPI (Key Performance Indicator), şirketlerin, projelerin ya da
bireylerin kilit hedeflerine etkili bir şekilde ulaşıp ulaşmadığını gösteren ölçülebilir bir değerdir.”
5. Verileri Temizleme: Toplanan veriler arasında yinelenen kayıtlar, hatalı ve alakasız olanlar gibi gereksiz
bilgi yığının kırpılması gerekir. Analizden önce veri temizliğinin yapılması, analizin yalın bilgilerle
beklentilere uygun sonuçlanmasını sağlar. Faydasız olduğunu düşündüğünüz verileri ayıklamak için referans
olarak KPI’larınızı kullanmalısınız. İşletme hedeflerinize uymayan veya KPI yönetim stratejilerinize uymayan
tüm istatistikler, olgular, rakamlar veya metrikler denklemden çıkarılmalıdır.
6. İstatistiksel Analiz: Veriler toplandıktan ve temizlendikten sonra analiz için hazır hale gelir. Bu aşamada,
gereksinimlere göre sonuçlarınızı anlamanıza ve yorumlamanıza yardımcı olacak yukarıdaki gibi veri analiz
tekniklerini ve yazılımlarını kullanabilirsiniz. En önemli analiz türlerinden biri istatistiklerdir. Küme (cluster),
Cohort, Regresyon ve Faktör gibi istatiksel araçlarla veri analizinize daha mantıklı bir yön vermeniz kolaylaşır.
7. Veri Yönetimi Yol Haritası: Verilerinizi depolamanıza, yönetmenize ve işlemenize yardımcı olacak bir
“veri yönetimi yol haritası” oluşturmak analiz yöntemlerinizin daha başarılı olmasına yardımcı olacaktır.
8. Doğru Teknolojiyi Entegre Etmek: Verileri analiz etmenin elbette ki birçok yolu vardır, ancak doğru
yazılımın, güçlü analiz platformlarının seçilmesi zamandan ve emekten tasarruf edilmesini sağlayacak ve
başarınızda etkili olacaktır.
9. Soruların Cevaplanması: Tüm bu aşamalardan sonra ikinci adımda belirlediğiniz soruları hızla
cevaplamaya başlayabilirsiniz. Büyük veriler ve doğru analiz önemli soruların cevaplarını sunarken, iç ve dış
paydaşların, müşterilerle birlikte, verilerden yararlanmasını da sağlamış olur.
about:blank 103/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
11. Metin çözümlemesi: Metin madenciliği olarak da bilinen metin analizi, büyük miktarda metin verisini
yönetmeyi kolaylaştıracak şekilde düzenleme işlemidir. Modern analiz araçları ve teknikleri; ürün incelemeleri,
makaleler, sosyal medya iletişimleri ve anket yanıtları da dahil olmak üzere çeşitli kelime tabanlı veri
kaynaklarından bilgi elde etmenize yardımcı olarak metin analizi sürecini hızlandırabilir.
12. Tanı analizi: Belirli sorulara doğrudan ve eyleme geçirilebilir yanıtlar sağlamak üzere tasarlanan bu
aşama, perakende analitiği gibi önemli organizasyonel işlevlerin yanı sıra dünyanın en önemli araştırmada
yöntemlerinden biri olarak kabul edilir. Tanı verileri analizi, analistlerin ve şirket yöneticilerinin, bir şeyin
neden olduğuna dair sağlam bir bağlamsal anlayış kazanmalarına yardımcı olur. Bir şeyin neden olduğunu ve
nasıl olduğunu biliyorsanız, sorunu tam olarak çözmenin yollarını belirlemeniz de kolaylaşır.
13. Otonom Teknoloji: Yapay zeka (AI) ve makine öğrenimi (ML) gibi otonom teknolojiler, verilerin daha
etkili bir şekilde nasıl analiz edileceğini anlamada önemli rol oynar. Örneğin, tedarik zinciri KPI’larını
izliyorsanız, geçersiz veya düşük kaliteli veriler göründüğünde tetiklenecek şekilde akıllı alarmlar
ayarlayabilirsiniz. Modern veri analizi tekniklerinden biri olan akıllı alarmlar, bir veri kümesindeki belirli
komutlara veya olaylara dayalı otomatik sinyaller sağlar.
14. Veri Öyküsü: İnsan beyni güçlü hikayelere inanılmaz derecede iyi yanıt verir. Verilerinizi temizledikten,
şekillendirdikten ve görselleştirdikten sonra hikayeleştirmeniz; analitik çabalarınızı daha erişilebilir,
sindirilebilir ve evrensel hale getirebilir.
Büyük veri uygulamalarının altyapısı genellikle Hadoop ve Spark tabanlı olduğu için ve bu platformlar dağıtık
mimariye izin verdiği için, artık tek bilgisayar üzerinde de çoklu sunucular üzerinde de fiziksel ve/veya sanal
makineler kullanılarak büyük veri uygulamaları ve analizleri geliştirmek mümkün olmaktadır.
Günümüzde firmaların büyük veri departmanları ve araştırmacılar çok değişik büyük veri problemleri ile
karşılaşmaktadırlar. Ellerindeki donanım/yazılım mimarisinin farklı problemlere en hızlı şekilde
uyarlanabilmesi başlı başına bir problemdir. Problemler farklı büyüklüklere ve kurgulara sahip olduklarından
ötürü uygulama geliştiricileri önemli bir ölçekleme problemi ile karşı karşıya kalmaktadırlar.
Burada sistem yöneticilerinin önünde Şekil 8.4’te verilen iki temel seçenek bulunmaktadır:
about:blank 104/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
1. Yatay Ölçekleme
Bu sistemler tek başına çok fazla işlem gücü olmayan bir veya daha fazla bilgisayar/sunucu içeren bir
mimarinin üzerindeki bilgisayar/sunucu sayısını arttırarak daha güçlü işlem gücüne sahip bir sisteme
dönüştürülmesine karşılık gelmektedir.
Dağıtık mimari ve sanallaştırma teknolojilerindeki ilerlemelere bağlı olarak artık donanım ve yazılım bazlı
paralelleştirmede oldukça iyi seviyelere varılmıştır. Bunun sonucu olarak çok sayıda “mütevazi” bilgisayar
veya sunucunun uygun kurgulamalarla tek bir sunucu gibi hareket etmesi sağlanabilmektedir.
Oluşan bu paralel bileşke sistemin işlem gücüne sahip tek bir fiziksel sunucunun maliyeti çok daha masraflı
olmaktadır. Bu sebeple yatay ölçekleme güçlü bir fiziksel/sanal/bulut sunucu öbeği kurmak isteyen sistem
yöneticileri için iyi bir seçenek sunmaktadır.
Yatay ölçeklemenin avantajları arasında esneklik ve fiyat avantajı ön plana çıkmaktadır. Bu sistemler üzerinde
çalışılan problemin büyüklüğüne bağlı olarak istenilen şekilde ölçeklenebilir. Var olan donanım, problem için
yeterli değilse, istenilen işlem gücü veya büyüklüğe varılana kadar yatay ölçekleme yapılabilir. Teorik olarak
bu ölçeklemenin sınırı olmadığından her tür problem üzerinde çalışmak mümkündür. Veri büyüdükçe maliyeti
karşılama (ölçekleme) masrafı lineer olarak artmaktadır.
Yatay ölçeklemenin dezavantajları ise genellikle yazılım tarafında karşımıza çıkmaktadır. Çok sayıda farklı
donanım biriminden oluşan dağıtık mimari üzerinde verimli bir paralelleştirmenin gerçekleştirilmesi, gerçek
zamanlı hızlı başarım sağlanması, birimler arası haberleşmenin yaratabileceği gecikme veya senkronizasyon
problemleri bu şekilde bir ölçekleme gerçekleştirilen sistemlerde her zaman istenen verimin alınamamasına yol
açabilir. Ayrıca yatay ölçeklemeyi en üst seviyede kullanabilen nispeten sınırlı sayıda yazılım mevcuttur. Fakat
bu dezavantajların giderilmesine yönelik çalışmalar devam etmektedir ve her geçen gün iyi performans
gösteren paralel mimari temelli açık kaynak yazılımların sayısı artmaktadır.
2. Dikey Ölçekleme
Bu sistemler genellikle tek bir sunucu mimarisi üzerinde çalışan yapıların yine tek sunucu olan fakat daha
güçlü işlem gücüne sahip bir sisteme dönüştürülmesine karşılık gelmektedir.
about:blank 105/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Sunucu tek olmasına karşılık artık günümüzde aynı kart üzerinde çok sayıda işlemci (veya aynı işlemci
üzerinde çok sayıda çekirdek) bulunmaktadır. Dolayısıyla tek sunucu sistemlerde bile aynı sunucu içinde de
olsa paralel mimari söz konusudur. Bu paralellikten işletim sistemi ve/veya gerektiğinde yazılım seviyesinde
faydalanılmaktadır. Ayrıca sanal makineler oluşturularak paralellik de sağlanabilmektedir.
Dikey ölçeklemenin en önemli avantajı tek sunucunun sağladığı kurgulama ve yönetim kolaylığıdır. Ne kadar
kolay kurgulanırsa kurgulansın, parallelleştirme donanım ve yazılım seviyesinde ekstra bir çaba gerektirecektir.
Bunun yanı sıra birçok yazılım tek sunucu üzerinde en iyi başarımı sağlayacak şekilde çalışmaktadır, bu
dağıtık mimari içeren sistemlerde bir yavaşlama yaratabilir. Ayrıca bazı problemlerin bu tip sistemlerde
modellenmesi de kolay olmayabilir.
Buna karşılık dikey ölçeklemenin ciddi dezavantajları da bulunmaktadır. İşlem gücünü arttıracak şekilde tek
sunuculu bir sistemin maliyeti toplamda aynı işlem gücüne sahip çok sayıda bilgisayar/sunucudan oluşan bir
sisteme kıyasla çok daha pahalı olacaktır. Ayrıca bu tarz bir sistemde problem büyüklüğü ölçeklemesi de
gerçek anlamda sağlanamamaktadır.
Problem küçük de olsa büyük de olsa, mimari aynı kalacaktır. Bunun sonucu olarak sistem yöneticisi işlem
gücünü karşılaşılabilecek en büyük probleme göre kurgulamak zorunda kalacaktır. Daha küçük bir problemle
karşılaşıldığında bu gereksiz işgücü fazlası verimsizlik yaratacaktır. Buna karşılık daha büyük bir problemle
karşılaşıldığında eğer mevcut işlem gücü yetersiz kalırsa sistem kullanılamayacaktır. Ayrıca ölçeklemenin bir
fiziksel üst sınırı bulunmaktadır. Artan işlem gücü ve veri işleme gereksinimine bağlı maliyetler yatay
ölçeklemenin aksine üstel olarak artacaktır. Tüm bu dezavantajlar günümüzde dikey ölçeklemeye bağlı
çözümlerin eskisi kadar tercih edilmemesine yol açmaktadır.
Bugün istatistik ve bilgisayar bilimlerinde kullanılan araçlara bağlı olarak veri analizinde farklı birçok teknik
kullanılmaktadır. Araştırmacılar özellikle verilerin yeni kombinasyonlarını analiz etmek için yeni teknikleri
geliştirerek mevcut olanları da geliştirmeye devam ediyor. Bugün için büyük miktardaki veriyi analiz eden en
gelişmiş teknikler şunlardır: Yapay Sinir Ağları, Tahmini Analiz Yöntemleri, İstatistikler ve Doğal Dil
İşleme’dir. Büyük veri işleme yöntemleri, uygulamalı matematik, istatistik, bilgisayar bilimleri ve ekonomi
gibi farklı disiplinlerden yararlanmaktadır. Bu disiplinler Veri Madenciliği, Sinir Ağları, Makine Öğrenmesi,
Sinyal İşleme ve Görselleştirme Yöntemleri gibi veri analiz tekniklerinin temelini oluşturmaktadır. Bu
yöntemlerin çoğu birbiri ile ilişkili olup veri işleme sırasında eşzamanlı olarak kullanılır. Dikkat edilirse bu
teknikler büyük veri kullanılmasını gerektiren tekniklerin tamamı değildir. Bazıları küçük veri setlerine de
etkili bir şekilde uygulanabilmektedir. Örneğin, A/B testi ve regresyon analizi küçük veri setlerine de
uygulanabilmektedir. Ancak aşağıda listelenen tekniklerin tamamı büyük verilere uygulanabilir [5, 6].
Veri Madenciliği
Veri Madenciliği, veritabanı yönetimi ile istatistik ve makine öğrenme (machine learning) yöntemlerini
birleştirilerek büyük veri setlerinden desenleri ayıklamak için kullanılan bir dizi tekniktir. Bu teknikler, ilişkili
öğrenme, kümeleme analizi, sınıflandırma ve regresyondur. Veri Madenciliği’ne örnek olarak; müşterilerin
satın alma davranışlarını modellemek için pazar sepeti analizinin kullanılması, insan kaynaklarının veri
madenciliğini kullanarak en iyi çalışanlarının karakterlerini belirlemesi ya da müşteri verisi kullanarak bir
teklife olası verilebilecek cevapların belirlenmesi verilebilir.
Sınıflandırma
Sınıflandırma tekniği bir dizi kategorilere ayırmak için kullanılır. Bu teknik yeni veri noktalarına sahip, daha
önceden kategorize edilmiş veri noktalarını içeren bir eğitim setine dayanmaktadır. Örnek olarak özel müşteri
segment (iş kolu) davranışının tahmini verilebilir ki, burada kesin bir hipotez ya da objektif bir sonuç yoktur.
Yine müşterilerin satın alma kararları, abone kayıp ve tüketim oranı sınıflandırmaya örnek olarak verilebilir.
Bu tekniklerde genellikle bir eğitim seti mevcut olduğundan denetimli öğrenme (supervised learning) olarak
tanımlanmaktadır. Ayrıca, bu teknikler denetimsiz öğrenmenin (unsupervised learning) bir türü olan kümeleme
analizine zıt olup veri madenciliği (data mining) için kullanılır [5].
Kümeleme Analizi
Kümeleme Analizi, nesneleri sınıflandıran istatistiksel bir yöntemdir. Bu yöntem benzer nesneleri daha küçük
gruplar halinde çeşitli alt gruplara ayırır ki, bu nesnelerin benzer karakteristik özellikleri daha önceden
bilinmemektedir. Kümelemede amaç sınıflar arasındaki benzerliğin minimum, sınıfın kendi içerisinde
about:blank 106/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
benzerliğinin maksimum olmasıdır. Kümeleme analizine bir örnek olarak hedefe yönelik pazarlama için
tüketicilerin kendi benzerliklerine göre gruplara ayrılması verilebilir. Bu yöntem denetimsiz öğrenmenin bir
türü olduğundan burada eğitim verisi kullanılmaz. Kümeleme analizi sınıflandırmaya zıt olup genellikle veri
madenciliğinde kullanılmaktadır [5].
Genetik Algoritmalar
Genetik Algoritmalar, optimizasyon için kullanılan bir teknik olup, bu doğal evrim sürecinden veya “en
güçlünün hayatta kalmasından” esinlenmiştir. Bu teknikte, olası çözümler birleştirilebilir ve mutasyon
geçirebilir “kromozomlar” olarak kodlanmıştır. Bu bireysel kromozomlar nüfusun her bir bireyinin
dayanıklılığını ya da performansını belirleyen bir modellenen “çevre” içinde hayatta kalmak için seçilir.
Genellikle “evrimsel algoritma” türü olarak tanımlanan genetik algoritmalar doğrusal olmayan (nonlinear)
problemlerin çözümü için çok uygundur. Genetik algoritmalara örnek olarak, üretimde iş planlaması
iyileştirilmesi ve yatırım portföyünün performansının optimize edilmesi verilebilir [5].
Makine Öğrenme
Yapay zekâ olarak da adlandırılan makine öğrenme; algoritmaların tasarımı ve geliştirilmesi ile ilgili bilgisayar
biliminin bir alt bilim dalıdır. Bu algoritmalar bilgisayarların ampirik verilere dayalı davranışları
evrimleştirmeye izin vermektedir. Makine öğrenme araştırmalarının en önemli odak noktası otomatik olarak
karmaşık desenleri tanımak ve verilere dayalı akıllı kararlar almaktır. Makine öğrenmeye örnek olarak, doğal
dil işleme verilebilir.
Doğal Dil İşleme (NLP), bilgisayar bilimi ve dil biliminin bir alt bilim dalından gelen tekniklerin bir kümesi
olup, beşeri (doğal) dil analizinde bilgisayar algoritmalarını kullanmaktadır. Birçok NLP tekniği makine
öğrenme türleri arasında yer almaktadır. NLP’ye örnek olarak, müşterilerin marka kampanyasına tepkilerini
belirlemek için sosyal medya duygu analizinin kullanılması verilebilir.
Bilişimsel modeller, verilerdeki desenleri bulmak için biyolojik sinir ağlarının yapısından ve çalışmasından
esinlenerek geliştirilmiştir. Sinir ağlarına örnek olarak, bir beynin içindeki hücreler ve bağlantıları verilebilir.
Sinir ağları tekniği nonlineer (doğrusal olmayan) desenleri bulmakta oldukça başarılıdır. Ayrıca sinir ağları,
örüntü tanıma ve optimizasyon için de kullanılabilmektedir. Bazı sinir ağı uygulamaları denetimli öğrenmeyi
içerirken bazısı da denetimsiz öğrenmeyi içermektedir. Bununla birlikte, sinir ağlarına örnek olarak, belirli bir
şirketten ayrılma riskiyle karşı karşıya olan yüksek değerli müşterilerin ve sahte sigorta taleplerinin
belirlenmesi verilebilir.
Optimizasyon
Optimizasyon, eldeki sınırlı kaynakların en etkin şekilde kullanılması anlamına gelmektedir. Optimizasyonu
matematiksel olarak bir fonksiyonun maksimize veya minimize edilmesi olarak tanımlamakta mümkündür.
Optimizasyona örnek olarak; maliyet, hız ya da güvenilirliği vermek mümkündür. Optimizasyon uygulama
örnekleri; geliştirici işlemsel süreçler olarak, zaman planlama, dağıtım ve zemin düzenleme ve stratejik
kararlar olarak; ürün yelpazesi stratejisi, bağlantılı yatırım analizleri ve Ar-Ge portföy stratejisini içermektedir.
Bununla birlikte genetik algoritmalar da optimizasyon tekniğine örnek olarak verilebilir.
Sinyal İşleme
Mekânsal Analiz
Mekânsal analiz, insan davranış kalıplarını ve mekânsal ifadesini, matematik ve geometri bakımından, yani
konumsal analiz açısından açıklamaya çalışan bir coğrafi analiz türüdür. Mekânsal analizin sonuçları, analiz
about:blank 107/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
edilen nesnelerin konumuna bağılı olup, bu tekniği uygulamak için nesnelerin konumlarına ve özelliklerine
erişmek gerekmektedir. Konum verilerine örnek olarak, adresler veya enlem/boylam koordinatları da dâhil
olmak üzere verileri yakalayan coğrafi bilgi sistemleri (GIS) verilebilir. Mekânsal analiz uygulamalarına örnek
olarak mekânsal regresyonlar (Örneğin, bir ürünün yer ile ilişkili tüketici istekliliği nasıl olur?) veya
simülasyonlar (Örneğin, bir imalat tedarik zinciri ağı, farklı yerlerdeki sitelerle nasıl bir performans
gösterebilir?) verilebilir.
Zaman Serileri, ardışık eşit zaman aralığındaki veri noktalarının dizilerini analiz etmek ve veriden anlamlı
sonuçlar elde etmek için istatistik ve sinyal işleme teknikleri kullanılır. Zaman serisine örnek olarak bir borsa
endeksinin saatlik borsa değeri ya da her gün belli koşullar altında tanısı konulan hasta sayısı verilebilir.
Zaman serisi tahmini; aynı veya başka bir dizi bilinen geçmiş değerlere dayalı bir zaman serisinin gelecekteki
değerlerini tahmin etmek için modelin kullanılmasıdır. Bu tekniklerden bazıları örneğin yapısal modelleme
yaparak serileri; trend, mevsimsellik ve kalıntı bileşenlerinden ayrıştırır. Zaman serileri uygulamalarına örnek
olarak tahmini satış rakamları ya da bulaşıcı bir hastalık için tanısı konulacak insan sayısının tahmin edilmesi
verilebilir.
Görselleştirme, büyük veri analizlerini iletmek, anlamak ve geliştirmek için resimler, diyagramlar ya da
animasyonlar oluşturmak için kullanan bir tekniktir. Görselleştirme, insan ve elektronik veri işlemenin güçlü
yönlerini birleştiren bir teknoloji sunmaktadır. Görselleştirme, insanların ve makinelerin, en etkili sonuçlar için
farklı yetenekleri kullanılarak işbirliği yaptığı, yarı otomatikleştirilmiş bir analitik sürecin aracı hâline
gelmiştir. Görselleştirme de kullanıcı, analizin yönlendirilmesinde nihai otoriteye sahiptir. Bununla birlikte,
sistemin belirli görevleri yerine getirmesi için etkin etkileşim araçlarına da ihtiyaç vardır. Görselleştirme
özellikle çok boyutlu veri setlerinin analizinde büyük öneme sahiptir. Çünkü görselleştirme verideki karmaşık
ilişkileri keşfetmemize ve anlamamıza yardımcı olmaktadır. Büyük veri setlerini tek başına analiz etmek hem
önemli hem de zorken, bu teknikle aynı anda birden fazla veri seti dikkate alındığı için pek çok sorunun
üstesinden kolayca gelinir. Bugün, VisualCue ve veri görselleştirme metotları kullanılarak büyük miktardaki
veriyi resim, diyagram ve renklere dönüştürmek mümkündür [7].
Bölüm Özeti
Büyük veri analizi, bir konu üzerinde kritik karar verme sürecinde kullanılacak bilgileri keşfetmek için verileri
temizleme, dönüştürme ve modelleme süreci olarak tanımlanabilir. Veri analizinin amacı, verilerden faydalı
bilgiler çıkarmak ve bu bilgiler doğrultusunda doğru kararlar verebilmektir. Kısaca veri analizi, geçmişten
günümüze toplanan tüm verilerin incelenerek geleceğe dair tahminlerin oluşturulmasına imkan veren bir
süreçtir.
Büyük veri analizi, verileri keşfetmenizi, içinde bir kalıp bulmanızı ve buna dayanarak kararlar almanızı
sağlayan bir süreçtir. Tüm organizasyonunuzu daha bilgili kılmayı amaçlar. Kapsamlı bir veri analizi birçok
adımdan oluşmaktadır.
İşlerini büyütmek, ilgili sektör ile oluşacak eğilimleri, gelecek tahminlerini yapabilmek için kurum ve
kuruluşlar ellerindeki verileri doğru bir şekilde analiz etmektedirler. Firmalar, sürekli artan veri miktarını
kullanabilme yeteneği, dünyayı ve içindeki her şeyi anlama yeteneği sayesinde hizmet kalitelerin artırmaya ve
yeni hizmetler geliştirme imkanına kavuşacaktır. Bu amaç doğrultusunda en popüler tercih edilen analiz
yöntemleri; yapay sinir ağları, tahmini analiz yöntemleri, istatistikler ve doğal dil işlemedir. Büyük veri işleme
yöntemleri, uygulamalı matematik, istatistik, bilgisayar bilimleri ve ekonomi gibi farklı disiplinlerden
yararlanmaktadır.
Büyük veri işlemede teknoloji firmalarının karşılaştığı en önemli problemlerin başında verinin hangi
altyapıda analiz edilmesidir. Bu mevcut donanım/yazılım kaynakları ile ilgili olup bu konuda 2 ölçekleme
yöntemi kullanılmaktadır: yatay ve dikey ölçekleme.
Kaynakça
about:blank 108/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
[1] Gtech Web Sitesi, “Veri Analizi ve Etkili Veri Analiz Yöntemleri”. (Son Erişim:20.01.2022)
URL:https://www.gtech.com.tr/veri-analizi-ve-etkili-veri-analiz-yontemleri/
[2] Katal, A., Wazid, M. ve Goudar, R. H. (2013, 08-10 Ağustos). Big Data: Issues, Challenges, Tools and
Good Practices. 2013 Sixth International Conference on Contemporary Computing (IC3), Noida, India, 404-
409.
[3] Aktan E. “Big Data: Application Areas, Analytics and Security Dimension”, Bilgi Yönetimi 1: 1, pp:1-22,
2018.
URL: https://www.smartmind.com.tr/buyuk-veri-analitigi-nedir-i-963
[5] Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C, Byers A.H, “Big Data: The next frontier
for innovation, compettition, and productivity”, Report McKinsey Global Institute, June 2011.
[6] Çelik S. “Büyük Veri ve İstatistikteki Uygulamaları”, Ph.D. thesis, Social Science Institution,
Econometrics, University of Uludağ, 2018.
[7] Lidong W, Wang G, Cheryl Ann A., “Big Data and Visualization: Methods, Challenges and Technology
Progress”, Digital Technologies, Vol. 1, No. 1, 27 June 2015, pp. 33-38.
Ünite Soruları
Soru-1 :
Aşağıdakilerden hangisi büyük verinin analiz edilmesi sonucu elde edilecek faydalar açısından hatalı bir
bilgidir?
(Çoktan Seçmeli)
(A) Elde edilen bilginin bilinçli kararlar vermek için kullanılabilmesi için verilerde anlam bulmaktır.
(B) Veri bilimcilere modelleri tahmin etme, istatistikçilere ve diğer analiz alanında çalışan profesyonellere
büyüyen verileri kolay analiz etme yeteneği kazandırır.
(C) Analiz edilen bilgi sayesinde firmalara, kurum-kuruluşlara veya ticari girişimlere yönelik önemli bilgiler
sağlamaktadır.
(D) Büyük ve çeşitli veri setleri üzerinde işlem yapılarak gizli örüntüleri çıkarır.
(E) Büyük verinin saklanması ve güvenliğinin sağlanması amacıyla bir fayda elde edilmesini sağlamaktadır.
Cevap-1 :
Büyük verinin saklanması ve güvenliğinin sağlanması amacıyla bir fayda elde edilmesini sağlamaktadır.
Soru-2 :
(Çoktan Seçmeli)
about:blank 109/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-2 :
Veri arama
Soru-3 :
Aşağıdakilerden hangisi bilimsel araştırma yöntemleri açısından büyük verinin analiz yöntemlerinden
biri değildir?
(Çoktan Seçmeli)
Cevap-3 :
Tedavi analizi
Soru-4 :
“Küçük miktarda veri kullanarak, daha büyük miktardaki gruplar hakkında yorum yapabilmek ya da kararlar
alabilmek için ……………… kullanılır.”
(Çoktan Seçmeli)
Cevap-4 :
Çıkarımsal analiz
about:blank 110/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Soru-5 :
Aşağıdakilerden hangisi büyük veri analizinde cevap bulması gereken sorulardan biri değildir?
(Çoktan Seçmeli)
(A) Büyük veri boyutu ve çeşitliliği arttıkça, veri analitiğinde karşılaşılacak sorunlarla nasıl başa çıkılacaktır?
(B) Hangi büyük veri unsurlarının gerçekten önemli olduğuna nasıl karar verilmelidir?
(E) En iyi sonucu elde etmek için hangi yapısallık türü kullanılmalıdır?
Cevap-5 :
Soru-6 :
(Çoktan Seçmeli)
Cevap-6 :
Soru-7 :
(Çoktan Seçmeli)
Cevap-7 :
about:blank 111/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Soru-8 :
(Çoktan Seçmeli)
Cevap-8 :
Yatay ölçekleme
Soru-9 :
“Tek bir sunucu mimarisi üzerinde çalışan yapıların yine tek sunucu olan fakat daha güçlü işlem gücüne sahip
bir sisteme dönüştürülmesine …………………… adı verilmektedir."
(Çoktan Seçmeli)
Cevap-9 :
Dikey ölçekleme
Soru-10 :
Aşağıdakilerden hangisi büyük miktardaki veriyi analiz eden en gelişmiş teknikler biri değildir?
(Çoktan Seçmeli)
about:blank 112/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-10 :
Kavramsal analiz
Soru-11 :
“…………… büyük veri analizlerini iletmek, anlamak ve geliştirmek için resimler, diyagramlar ya da
animasyonlar oluşturmak için kullanan bir tekniktir.”
(Çoktan Seçmeli)
(E) Optimizasyon
Cevap-11 :
Soru-12 :
Nicel ve Nitel analiz yöntemleri arasında temel fark aşağıdakilerden hangisinde doğru olarak verilmiştir
?
(Çoktan Seçmeli)
(A) Betimsel istatistik nitel analizde, kavramsal istatistik nicel analizde kullanılır.
(C) Nitel veri küçük veri kümelerini nicel veri büyük veri kümelerini analiz eder.
(E) Nicel analiz sayısal verilerle, nitel veri soyut verilerle yapılan analizdir.
Cevap-12 :
Nicel analiz sayısal verilerle, nitel veri soyut verilerle yapılan analizdir.
about:blank 113/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
3. Büyük veri analizinde klasik analiz yöntemleri ile yapay zeka yöntemleri arasındaki fark nedir?
4. Derin öğrenme ile klasik yapay sinir ağları arasındaki farklar nelerdir?
5. Veri miktarının artması yapay zeka yöntemlerinde nasıl bir avantaj/dezavantaj sağlar?
Başlamadan Önce
Çok sayıda veriyi bir arada kullanabilmek için bir koordinasyon gereklidir. Geliştirilen veya geliştirilmeyen
verilerin büyük bir çoğunluğu, analiz edilmediği ve kullanıma geçirilmediği sürece anlamsız kalmaktadır.
Kullanıcıların bu verilerdeki teknolojiyi kullanıma alabilmesi için yapay zeka ve büyük teknolojileri birbiri ile
koordine bir şekilde çalışması gerekir.
Büyük veri analizleri ve yapay zeka algoritmaları günümüz çağında bilgisayar biliminde kullanılan iki büyük
kategoridir. Dijitalleşmenin hız kazandığı günümüzde, büyük veri ve yapay zeka üzerine yapılan çalışmalar
son sürat devam etmektedir. Büyük veri, yapay zeka teknolojisi ile bütünleşmiş bir yapıdır. Öncelikle, büyük
veri teknolojisi üzerine yapılan çalışmaların gelişimi yapay zekaya bağlı şekilde ilerler. Çünkü büyük verinin
gelişiminde birden fazla yapay zeka teorisi ve yöntemi kullanılmaktadır. Diğer yandan bakıldığında ise, yapay
zeka algoritmaları ve teknolojisinin gelişimi için de büyük veri teknolojisine ihtiyaç duyulmaktadır. Çünkü
yapay zeka teknolojisini desteklemek için büyük verilerinin bulunması gerekmektedir.
Gelişmiş donanım kaynakları ve paralel veri işleme teknikleri kullanan makine teknolojileri ve algoritmalar
verilere dayalı kararlar verebilir, aynı zamanda duygusal zekaya sahip büyük veri sayesinde ulaşabilir. Yani
büyük veriler ile duygusal zekaya dayalı kararlara doğru hızlı bir şekilde ulaşılabilecektir.
Genel anlamda yapay zekadan kastedilen; insan zekasının, sinir sistemi, gen yapısı gibi fizyolojik ve nörolojik
yapısının ve doğal olayların modellenerek makinelere (bilgisayar ve yazılımlara) aktarılmasıdır.
Özetle yapay zeka; “insan gibi düşünen, insan gibi davranan, akılcı düşünen ve akılcı davranan”, canlıların
zekice olarak kabul edilen davranışlarına sahip bilgisayar sistemleridir ve makine öğrenmesi bu anlamda yapay
zekanın son evresi olarak kabul edilmektedir. Şekil 9.1’de yapay zekanın bilgisayar bilimi altındaki yeri ve
kapsama alanları verilmiştir.
about:blank 114/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Pandemi ile her şeyin uzaktan yapıldığı dijital çağın en büyük getirisi büyük miktarda toplanan verilerdir.
Sürekli farklı ortamlardan akan, değişen ve yüklü miktardaki veri adeta bir sermaye haline gelmiştir. Büyük
veri, sağlıktan eğitime, endüstriden üretime insanoğlunun yaşamının her alanına doğrudan nüfuz etmektedir.
Bugün pek çok devlet, kurum, kuruluş ve şirket büyük verinin sunduğu fırsatlardan yararlanarak analizler
yapmakta ve insanlığa faydalı işler için büyük veriyi anlamlandırmaktadır.
Farklı sektörlerde ve farklı ortamlarda sınırsız veri bulunmakta, dağınık ve erişilebilir durumdadır. Veri bilimi,
sezgisel gözlemlerle elde ettiğimiz bilgileri daha derin ve kullanılabilir bir seviyeye taşımamızı sağlayan
süreçleri barındırmaktadır. Büyük verinin işlenmesi ve analizinin sorunsuz bir şekilde ilerleyebilmesi için
toplanılan verilerin özenli bir şekilde kayıt altında tutulması gerekir. Önemli olan bu veri yığınını anlamlı bir
hale dönüştürüp ihtiyaç dahilinde kullanmaktır. Büyük veri, veri setleri ile etkili ve kullanılabilir hale
getirilmektedir. Hassasiyetle toplanan veriler aracılığıyla büyük veri setleri oluşturulur. Bu setler, var olan
verilerin düzenlenmiş ve yapılandırılmış halini içermektedir. Büyük veri içerisinde doğru soruların sorulması
ve belirli kalıpların kullanılmasıyla, firmaların ihtiyaçlarına cevap veren veri setleri oluşturulur.
Veri setleri oluşturmak için büyük hacimli ve yapılandırılmış/yapılandırılmamış halde bulunan verileri
dikkatlice işlemek gerekmektedir. Bunu yaparken hız ve sürat, veri setinin güncelliğini ve kullanılabilirliğini
about:blank 115/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
artırmaktadır. Hız ve süratin önemli olduğu veri setlerinin bir örneği, sosyal medyadan elde edilen verilerle
oluşturulan veri setleridir Sosyal medya kanallarını içerecek bir veri setinin her saniye gerçekleşen paylaşımları
içerecek şekilde hazırlanması gerekmektedir. Veri setlerinin güncelliği çalışmaların sağlıklı ilerlemesi için
önem arz etmektedir.
Bilgi teknolojilerinin gelişmesi ile birlikte büyük miktarda veri yığınları meydana gelmiştir. Bu da mevcut veri
yığınları arasındaki anlamlı ilişkilerin, yapıların ve eğilimlerin ortaya çıkarılması ihtiyacını doğurmuştur. Bu
noktada gelişen yapay zeka teknolojilerinin alternatif veri setlerinin oluşturulmasında ve büyük verinin
işlenmesinde veri bilimine katkı sunacağı öngörülmektedir.
Şekil 9.3’te görüldüğü üzere büyük verinin toplanmasından işlenmesine kadar veri bilimin her alanında
kullanılabilecek olan yapay zeka teknolojileri, geleneksel veri analiz yöntemlerinden daha verimli sonuç elde
edilmesini sağlamaktadır.
Büyük verinin ve analizinin önemini kavrayan ve yönetim süreçlerine dahil eden şirketler bu alanda daha hızlı,
daha etkili sonuç almak için yapay zeka teknolojileri ile güçlendirilmiş veri analiz süreçlerine entegrasyonu
teşvik etmektedirler. Öyle gözüküyor ki yapay zeka teknolojileri veri biliminde olduğu gibi daha pek çok
alanda kullanıcılarına yeni fırsatların kapısını aralayacaktır.
Ancak yapay zeka, donanım odaklı robotik otomasyondan farklıdır. Yapay zeka, manuel görevleri
otomatikleştirmek yerine sık, yüksek hacimli, bilgisayarlı görevleri güvenilir bir şekilde ve yorulmadan
gerçekleştirir. Bu tür bir otomasyon için, sistemi kurmak ve doğru soruları sormak adına insan gücü hala
gereklidir.
about:blank 116/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Çoğu durumda, yapay zeka bireysel bir uygulama olarak satılmayacaktır. Bunun yerine, halihazırda
kullandığınız ürünler, Siri'nin yeni nesil Apple ürünlerine bir özellik olarak eklenmesi gibi, AI yetenekleriyle
geliştirilecektir. Otomasyon, konuşma platformları, botlar ve akıllı makineler, güvenlik istihbaratından yatırım
analizine kadar evde ve işyerinde birçok teknolojiyi iyileştirmek için büyük miktarda veriyle birleştirilebilir.
3. Yapay Zeka, verilerin programlamayı yapmasına izin vermek için aşamalı öğrenme algoritmaları
aracılığıyla uyum sağlar.
Yapay Zeka, verilerde yapı ve düzenlilik bulur, böylece algoritma bir beceri kazanır: sınıflandırıcılık veya
tahmincilik. Yani, algoritma nasıl satranç oynanacağını kendi kendine öğretebildiği gibi, bir sonraki ziyaretinde
kişiye hangi ürünü önereceğini kendi kendine öğretebilir. Ve modeller yeni veriler geldiğinde de buna uyum
sağlar. Geri yayılma, modelin, ilk yanıt tam olarak doğru olmadığında, eğitim ve eklenmiş veriler yoluyla
ayarlamasını sağlayan bir yapay zeka tekniğidir.
4. Yapay zeka, birçok gizli katmana sahip sinir ağlarını kullanarak daha fazla ve daha derin verileri
analiz eder.
Beş gizli katmana sahip bir sahtekarlık tespit sistemi kurmak birkaç yıl önce neredeyse imkansızdı. Tüm bunlar
inanılmaz bir bilgisayar gücü ve doğrudan akışkan büyük veriden öğrendiklerinden, derin öğrenme modellerini
eğitmek için çok sayıda veriye ihtiyacınız var. Onları ne kadar çok veriyle beslerseniz, o kadar doğru olurlar.
5. Yapay Zeka, derin sinir ağları sayesinde önceden imkansız olan bir doğrulukla çalışır.
Örneğin, Alexa, Google Aramaları ve Google Fotoğraflar ile etkileşimlerinizin tümü derin öğrenmeye dayalıdır
ve biz onları kullandıkça daha doğru olmaya devam ederler. Tıp alanında, derin öğrenme, görüntü
sınıflandırma ve nesne tanıma gibi yapay zeka teknikleri, artık yüksek eğitimli radyologlarla aynı doğrulukla
MRI'larda kanseri bulmak için kullanılabilir.
Algoritmalar kendi kendine öğrenirken, verinin kendisi fikri mülkiyet haline gelebilir. Cevap veride saklıdır;
size sadece yapay zekayı kullanarak onu ortaya çıkarmak düşer. Verinin rolü artık her zamankinden daha
önemli olduğundan, rekabet avantajı yaratabilir Rekabetçi bir sektörde en iyi veri sizdeyse, herkes benzer
teknikleri uygulasa bile, her zaman en iyi veri kazanır.
Yapay zekâ ve veri analitiği alanındaki son gelişmeler, bazı tüketici işlerinin (örn. Akıllı evlerde ve kendi
kendine giden arabalarda) otomasyonunu kolaylaştırıyor ve büyük veriye dayalı, mikro hedefli pazarlama
uygulamalarının kullanılmasına fırsat sağlıyor. Bunun yanında bu gelişmelerin pazarlamacılar, tüketiciler ve
politika yapıcılar için bir gerilim yaratabileceği iddia edilmektedir.
Bir yandan, tüketici seçimlerini daha kolay, daha pratik ve daha verimli hale getirerek tüketicinin refahına
katkıda bulunabilirler. Diğer yandan, tüketicilerin özerklik duygusunu da baltalayabilirler ve bu duygunun
olmaması tüketicinin refahı için zararlı olabilir. Pazarlama, ekonomi, felsefe, sinirbilim ve psikolojiden farklı
perspektiflerden yararlanarak, tüketicilerin seçim yapmadaki özerklik duygusunun refahlarını nasıl etkilediğini
keşfedilmektedir.
Yeni teknolojilerin tüketicilerin seçimlerini kontrol altında tutma algılarını nasıl geliştirebileceğini veya
azaltabileceğini ve bunlardan herhangi birinin tüketicinin refahını nasıl azaltabileceği araştırılmaktadır. Buna
about:blank 117/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
dayanarak, seçim, refah ve tüketici refahı alanındaki açık araştırma sorularını belirliyor ve gelecekteki
araştırmalar için yeni yollar sunmaktadır. Yapay Zekâ ve Büyük Veri Çağı Tüketici Seçimini Nasıl
Yönlendiriyor? Günümüz tüketicileri, bu seçenekler hakkında her zamankinden daha fazla seçenek ve daha
fazla bilgiyle karşı karşıyadır. Fayda teorisinin standart ekonomik perspektifine göre, bu gelişme, tüketicilerin
ihtiyaçlarına en uygun seçenekleri bulmalarına ve seçmelerine yardımcı olmalı, arama maliyetlerini
düşürmelerine ve seçimlerinden elde ettikleri faydayı artırmalarına izin vermelidir.
Pazarlamacılar, araştırmacılar ve politika yapıcılar genellikle arama, işlem ve karar verme maliyetlerini
düşürmenin tüketicileri güçlendirdiğini ve tüketici refahını artırdığını varsaymaktadır. Örneğin, büyük
miktarlarda tüketici verisini karıştıran gelişmiş algoritmalar, çevrimiçi pazarlamacıların yalnızca doğru ürün
veya hizmeti sunmalarına olanak tanıyarak, tüketicileri yalnızca arama maliyetlerinden değil, aynı zamanda
tüketici seçiminin gerektirdiği tatsız ve zor ödünleşmelerden de kurtarır.
Örneğin, davranışsal hedefleme için büyük veri ve yapay zeka kullanan Outbrain veya Taboola gibi içerik öneri
sistemlerini veya Netflix veya Amazon’unki gibi içerik yönetim sistemleri incelendiğinde bu tür sistemler, bir
kişinin mevcut tercihlerine göre tüketmekten keyif alacağı içerik önerir ve tüketicilerin ilgilendikleri içeriği
çaba harcamadan keşfetmelerine olanak tanır. Başka bir örnek olarak, otonom arabalar (örneğin, Mobileye ve
Google) sadece zorlu sürüş görevini üstlenmekle kalmaz, aynı zamanda farklı sürücülerin tercihlerini ne tür bir
rota veya ne tür bir rota için tahmin etmeyi öğrenebilmeleri de beklenir.
Hızlı teknolojik gelişmeler, nesnelerin internetinin nasıl olduğunu da değiştirmektedir. İster kullanıcıların
sıcaklık tercihlerini öğrenen termostatlar (ör. Google’ın Nest) olsun ister tüketicilerin belirttiği isteklerini
dinleyen cihazlar olsun hepsi müşteri tercihlerini tahmin etmeye yönelik çalışmalardır. Ya da müşterinin sesle
istediğini yerine getiren ses tanıma sistemleri de aynı şekilde onların ihtiyaçlarını ve tercihlerini tahmin etmeyi
öğrenebilen cihazlardır. Örnek olarak Amazon’un Alexa’sı, Google’ın Ev veya Apple’ın Siri’si verilebilir.
1.Collaborative Filtering: Benzer kullanıcıların tercihlerini göz önünde bulundurarak kullanıcıların tercihleri
hakkında otomatik tahminler yapmaya çalışır. Algoritma birçok kullanıcıdan gelen bilgileri analiz eder ve
benzer olanların örüntülerini belirler. Bu kullanıcıların ne dinlediğini dikkate alarak bir kullanıcının müzik
zevkini tahmin etmeye çalışır.
2.Natural Language Processing (NLP): Bu algoritmayı kullanarak her şarkı için bir profil bulmaya çalışır
(makaleleri, blog yayınlarını veya müzikle ilgili başka metinleri bulmak için sürekli olarak web’te gezinir).
3.Convolutional Neural Networks (CNN): Spotify’ın öneri sistemini geliştirmek ve doğruluğunu artırmak
amacıyla kullanılır. CNN algoritması diğer algoritmalar gibi az bilinen şarkıları ihmal etmez. CNN, çok
popüler olmayan şarkıların yanı sıra yeni şarkıların da dikkate alınmasını sağlar.
about:blank 118/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Şekil 9.4. Spotity firmasının büyük veriyi yapay zeka ile anlamlandırması.
(Kaynak: https://medium.com/nettsi/büyük-veri-yapay-zeka-ai-ve-kelebek-etkisi-ca203f749256)
Geçmişi daha öncelere dayanan derin öğrenmenin son yıllarda popülaritesinin hızla artmasının temelinde
bahsettiğimiz bu iki neden vardır. Bol miktarda veri ve bu veriyi işleyebilecek uygun donanıma erişimin
artmasıyla derin öğrenme yöntemlerinin kullanımı ve geliştirilmesi üssel olarak artış sağlamıştır. Derin
öğrenmeye olan yönelimin artmasında bir diğer neden; Şekil 9.5.’te [1] görüldüğü gibi geleneksel makine
öğrenme yöntemlerinin başarım oranlarının artan veri miktarına paralel olarak artmamasıdır. Dolayısıyla
araştırmacıların bu geniş ölçekli veriyi etkin bir biçimde kullanacak olan yöntem arayışlarına girmeleri bu
alandaki çalışmaların artmasında rol oynamıştır.
about:blank 119/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
1. Makine Öğrenmesi
Arthur Samuel Makine öğrenmesini 1959’da bilgisayarlara açıkça kod yazmadan öğrenme kabiliyetini
kazandıran çalışma alanı olarak tanımladı [2]. Daha yeni ve formal bir tanımlama olarak Tom Mitchell makine
öğrenmesini şu şekilde tanımlar; bir bilgisayar programının bir T görevini E tecrübesinden P performans
ölçümü ile öğrenmesidir. Eğer P ile ölçülen performans T görevi üzerinde E ile iyileşiyorsa bu işlem makine
öğrenmesi ile gerçekleştirilebilir [3]. Bu iki tanımı birleştirerek makine öğrenmesini şu şekilde
tanımlayabiliriz: Bir görevi açıkça kod yazarak gerçekleştirmek yerine performans ölçümüne bağlı tecrübe ile
bilgisayarın öğrenmesini sağlamaktır. Veri tabanlı yaklaşım da diyebileceğimiz bu yaklaşımda bilgisayar
gerekli tecrübeyi bir veri seti üzerinden öğrenir.
Makine öğrenme algoritmaları; veri setinden öğrenme tipine göre denetimli (supervised), denetimsiz
(unsupervised), yarı denetimli (semi-supervised) ve pekiştirmeli (reinforcement) olarak sınıflandırılır.
Denetimli öğrenme etiket adı da verilen cevap değişkeninin bulunduğu veri setlerine uygulanır. Burada cevap
değişkeni sürekli veya kategorik olabilir. Denetimli öğrenme bir dizi eğitim örneğinden oluşan bu etiketli
eğitim verilerinden bir fonksiyon çıkarımı yapar [4]. Örneğin bir dizi hastaya ait olan veri setinde cevap
değişkenimiz her bir hastanın kanser olup olmadığı olabilir veya verilen bir ülke veya şehirdeki ev fiyatlarını
veren veri kümesinde cevap değişkenimiz ev fiyatları olabilir [5]. Denetimli öğrenme örnek girdi cevap
çiftlerine göre bir girdiyi bir cevaba eşleyen fonksiyonu öğrenerek eğitimde kullanılmayan yeni örnekler için
kullanılabilecek fonksiyon çıkarımını üretir [6].
Cevap değişkenlerinin diğer adıyla etiketli verilerin olmadığı veri setlerinde öğrenme denetimsiz olarak
gerçekleştirilir. Denetimsiz öğrenme veri kümesi içerisinde bazı benzerlik veya mesafe ölçümlerine göre
gerçekleşir. Denetimsiz öğrenmede en çok kullanılan teknik kümelemedir. Denetimsiz öğrenmeye örnek olarak
sosyal ağ analizi, görüntü segmentasyonu, klimatoloji, pazarlamada müşteri segmentasyonu ve daha birçok
uygulama sayılabilir [5].
about:blank 120/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Yarı denetimli öğrenme geniş miktarda etiketsiz verinin yanı sıra az miktarda etiketli veriyi kullanan öğrenme
algoritmasıdır. Geniş miktardaki etiketsiz veri az miktarda etiketli veri ile birlikte kullanıldığında denetimsiz
öğrenmeye göre daha yüksek başarı elde edilirken denetimli öğrenmenin zaman ve maliyet gereksinimlerinden
de kaçınılmış olur [7]. Denetimli öğrenmede veri setinin hazırlanması ve veri setindeki her bir verinin
etiketlenmesi zaman ve maliyet gerektiren işlemlerdir.
En iyi sonucu üretebilmek için denetimli ve denetimsiz öğrenme algoritmalarının her ikisi de temiz ve doğru
veriye ihtiyaç duyar. Algoritmanın görmediği örnekler üzerinde de çalışabilmesi için eğitim setinde kullanılan
verinin kapsayıcı olması gerekir. Pekiştirmeli öğrenme, yalnızca verilerin başlangıç durumunun bir girdi olarak
mevcut olduğu ve tek bir olası cevabın olmadığı ancak çok fazla sonucun mümkün olduğu durumlarda ideal bir
seçimdir [5]. Robotik ve sürücüsüz araçlarda uygulanan makine öğrenme algoritmaları pekiştirmeli öğrenme
algoritmaları sınıfındandır. Pekiştirmeli öğrenme algoritmaları sürekli olarak çevresinden öğrenen
algoritmalardır.
Özel bir makine öğrenme tekniği olan Yapay sinir ağları (YSA) memeli cerebral korteksinden esinlenerek
tasarlanmış daha küçük ölçekli işleme aygıtlarıdır [8]. YSA’lar değişkenler arasındaki doğrusal olmayan
ilişkileri öğrenebilme ve yüksek dereceli ilişkileri tanıma konusunda oldukça yeteneklidir. YSA’lar denetimli
ve denetimsiz öğrenme algoritmalarının her ikisiyle de uygulanabilirler [5]. Olabilecek en basit sinir ağı tek bir
nöronun hesaplamalı modeli olan Perceptron’dur. Perceptron Warren McCulloch ve Walter Pitts’in daha önceki
çalışmalarından esinlenilerek 1950’lerde Frank Rosenblatt tarafından geliştirilmiştir [9]. Günümüzde YSA
çalışmalarında kullanılan temel nöron modeli sigmoid nöron olarak adlandırılır. Şekil 9.6’da basit bir nöronun
hesaplama işlemleri verilmiştir.
Derin öğrenme olarak adlandırılın derin sinir ağlarının başında gelen konvolüsyonel sinir ağı, nöronları
arasındaki bağlantı şekli hayvan görsel korteksinden ilham alınmış bir tür ileri beslemeli yapay sinir ağıdır.
CNN bir sınıflandırma işlemini gerçekleştirmeyi direk olan görüntülerden, videolardan, metin veya ses
dosyalarından öğrenen en popüler derin öğrenme algoritmalardan biridir. Sıradan YSA’lara oldukça benzeyen
CNN tıpkı sıradan YSA’lar gibi öğrenilebilen ağırlık ve bias değerlerine sahip nöronlardan oluşur [10, 11].
CNN’in sıradan YSA’lardan en büyük farkı doğası gereği girişlerini iki veya üç boyutlu görüntü olarak
varsaymasıdır. Bu durum ağ parametrelerinin sayısında ciddi miktarda azalma sağlarken görüntü işleme
problemlerinde aşırı öğrenmenin önüne geçerek verim artışı sağlar. Klasik bir CNN mimarisi Şekil 9.7’de
verilmiştir.
about:blank 121/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Şekil 9.7.’de [12] görüldüğü gibi CNN bir giriş katmanı ile başlayıp tam bağlantılı bir katmanla (fully
connected layer) son bulan sıralı bir modeldir. Giriş katmanı, giriş görüntülerinin ham piksel değerlerini tutar.
Giriş katmanının boyutları, bir CNN'de kullanılacak veri kümesine göre belirlenir. Tipik bir konvolüsyonel
sinir ağı giriş katmanı ile tam bağlantılı katman arasında farklı sayılarda ve kombinasyonlarda tekrarlanan üç
tip katmana sahiptir. Bu katmanlar sırasıyla konvolüsyon katmanı, ReLU katmanı ve Pooling katmanıdır
(Pooling layer). Bu üç tip katman CNN oluşturulurken defalarca tekrarlanarak ağın derinliği ayarlanır.
Bölüm Özeti
Teknoloji ve yaşamın son yıllarda geldiği noktada, üretilen veriler de çağın gelişmişlik düzeyi ile birlikte
katlanarak büyümektedir. Klasik yöntemlerle keşfedilemeyecek ilişkilerin keşfedilebilmesi, büyük veri
analizinin parlak yönü olarak tebarüz etmektedir. Büyük veri, işletmelere yapay sinir ağları, derin öğrenme,
doğal dil işleme, görüntü tanıma ve ileriye yönelik kişiselleştirme teknolojileri ile işlem görerek çok daha fazla
akıl ve öngörü verebilmektedir. Öte yandan getirdikleri yaklaşımlarla doğadaki canlıların akıllı davranışlarını
taklit eden, insan gibi düşünen ve karar veren modeller oluşturmayı amaçlayan yapay zeka teknikleri, büyük
verilerin üzerinde yapılan çalışmalarda da sağladığı avantajlar ile tercih edilmektedir.
Bugün artık Twitter’ da tweetlerin analizi, Google’ da arama yaparken olası sonuçların tahmini, Facebook’ ta
beğenilen sayfa, içerik veya etkileşime geçilen arkadaşların incelenerek benzer konuların önerilmesi, Apple'ın
Siri ve Google'ın Google Now gibi yazılımları gibi bilgisayar ve sosyal medya analizleri yapay zeka
tekniklerinin de kullanıldığı büyük veri analizleri ile yapılmaktadır.
Kaynakça
[1] Ng, A., Machine Learning Yearning: Technical Strategy for AI Engineers, In the Era of Deep Learning,
Andrew Ng., Draft Version, 2018.
[2] Samuel, A.L., Some studies in machine learning using the game of checkers, IBM Journal of Research and
Development, 3(3), 210-229, 1959.
[4] Mohri, M., Rostamizadeh, A., Talwalkar, A., Foundations of Machine Learning, The MIT Press, 2012.
[5] Ramasubramanian, K., Singh, A., Machine Learning Using R, 2nd edn., Apress, 2019.
[6] Russell, S.J., Norvig, P., Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall, 2010.
[7] van Engelen, J.E., Hoos, H.H. A survey on semi-supervised learning, Mach Learn, 109, 373–440, 2020.
[8] Caudill, M., Neural Network Primer: Part I, AI Expert, 2(12), 46-52, 1987.
about:blank 122/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
[9] Rosenblatt, F., The perceptron: A probabilistic model for information storage and organization in the brain,
Psychological Review, 65(3), 386-408, 1958.
[10] Lu, Le., Zheng, Yefeng., Carneiro, Gustavo., Yang, Lin., Deep learning and convolutional neural networks
for medical image computing: Advances in Computer Vision and Pattern Recognition, Springer, 2017.
[11] Aghdam, H.A., Heravi, E.J., Guide to Convolutional Neural Networks: A Practical Application to Traffic-
Sign Detection and Classification, Springer, 1st edn., 2017.
Ünite Soruları
Soru-1 :
(Çoktan Seçmeli)
(E) Sadece pekiştirmeli öğrenme ile denetimsiz öğrenme teknikleri insan gibi düşünen makineler oluşturmak
için geliştirilmiştir.
Cevap-1 :
Soru-2 :
“………….., insan gibi düşünen, insan gibi davranan, akılcı düşünen ve akılcı davranan”, canlıların zekice
olarak kabul edilen davranışlarına sahip bilgisayar sistemleridir.”
(Çoktan Seçmeli)
Cevap-2 :
about:blank 123/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Yapay zeka
Soru-3 :
Aşağıdaki ifadelerden hangisi büyük veri ve yapay zeka ilişkisi için doğru değildir?
(Çoktan Seçmeli)
(A) Yapay zekada veri altyapısı, toplama ve karakteristiği süreçlerinin hepsinde kullanılabilir.
(B) Yapay zeka veri modelleme, algoritma oluşturma ve istatistik süreçlerinde de büyük veri analizinde
kullanılabilir.
(C) Yapay zekaya, büyük veri modellemesinde sanal gerçeklik üzerinden de uygulama geliştirme imkanı
sunmaktadır.
(D) Genetik algoritmalar bulut bilişim sistemlerinde yapay zekaya ihtiyaç duymaz.
Cevap-3 :
Soru-4 :
Aşağıdakilerden hangisi büyük veri analizinde yapay zekanın kazanımlarından biri değildir?
(Çoktan Seçmeli)
(C) Yapay zeka, birçok gizli katmana sahip sinir ağlarını kullanarak daha fazla ve daha derin verileri analiz
eder.
(D) Yapay Zeka, verilerin programlamayı yapmasına izin vermek için aşamalı öğrenme algoritmaları
aracılığıyla uyum sağlar.
(E) Yapay Zeka, derin sinir ağları sayesinde önceden imkansız olan bir doğrulukla çalışır.
Cevap-4 :
Soru-5 :
Büyük veride yapay zeka kullanan Spotify firması için aşağıda verilen bilgilerden hangisi kesin doğru
bir bilgi değildir?
(Çoktan Seçmeli)
(B) Müşterilerin müzik tercihlerini tahmin etmek ve onlara yeni öneriler sunmak için yapay zekayı kullanır.
about:blank 124/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(C) Haftalık Keşif’ özelliği ile kullanıcılarına kişiselleştirilmiş çalma listesi hazırlar.
(D) Çalma listesi oluştururken dinleyici deneyimleri için derin öğrenme (CNN) teknolojisi kullanır.
(E) Dinleyici verilerini toplama süreçlerinde bulut bilişim ve SQL teknolojilerini bir arada kullanır.
Cevap-5 :
Dinleyici verilerini toplama süreçlerinde bulut bilişim ve SQL teknolojilerini bir arada kullanır.
Soru-6 :
(Çoktan Seçmeli)
Cevap-6 :
Soru-7 :
Aşağıdakilerden hangisi veri miktarı değiştikçe performans açısından yapay zeka algoritmaları için
doğru bir ifade değildir?
(Çoktan Seçmeli)
(C) Sığ sinir ağları, derin sinir ağlarından veri miktarı artıkça da daha düşük performans verir.
(D) Sığ sinir ağları geleneksel öğrenme algoritmalarından daha iyi performans sağlamaktadır.
Cevap-7 :
Soru-8 :
Aşağıdakilerden hangisi makine öğrenme algoritmalarında öğrenme tipine göre sınıflandırmada yanlış
olarak verilmiştir?
(Çoktan Seçmeli)
about:blank 125/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(D) Hiçbiri
Cevap-8 :
Hiçbiri
Soru-9 :
“…………….. geniş miktarda etiketsiz verinin yanı sıra az miktarda etiketli veriyi kullanan öğrenme
algoritmasıdır”
(Çoktan Seçmeli)
Cevap-9 :
Soru-10 :
(Çoktan Seçmeli)
(E) Ağırlıklar
Cevap-10 :
Geri besleme
Soru-11 :
about:blank 126/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Aşağıdakilerden hangisi Konvolüsyonel sinir ağları (CNN) için doğru bir ifade değildir?
(Çoktan Seçmeli)
Cevap-11 :
Soru-12 :
Aşağıdakilerden hangisi Konvolüsyonel sinir ağları (CNN) nın bir bileşeni değildir?
(Çoktan Seçmeli)
(A) Ağırlıklandırma
(C) Sınıflandırma
(D) Havuzlama
(E) Düzleştirme
Cevap-12 :
Ağırlıklandırma
about:blank 127/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
4. Dünya ülkelerinin büyük verilerinin gelişmişlik düzeylerine katkısı hangi seviyelerdedir?
5. Ülkemizin dünya ölçeğine ulaşması için hangi önemli adımları atmalıdır?
Başlamadan Önce
Şehirleşmenin hızlanması, üretim kapasiteleri ve tesislerin büyümesi, ağa bağlı cihaz sayısının hızla artması,
Büyük Veri’nin anlamlı aksiyonlara dönüştürülmesini zorunlu kılıyor. IDC, ‘Büyük Verinin Devrimi’ olarak
da adlandırılan ve şirketleri daha verimli ve yenilikçi hale getirme potansiyeli olan bu değişime kolay adapte
olabilen şirketlerin, rakiplerine göre büyük avantaj elde edeceğini öngörüyor. IDC’nin yaptığı en son
araştırmaya göre, Türkiye’de de her geçen gün daha fazla şirketin, hayatın her alanında ve hemen her sektörde
fark yaratacak bir güç olan Büyük Veri’nin önemini kavramaya başladıklarını ortaya koyuyor.
Pazar araştırma şirketi International Data Corporation'ın (IDC) açıkladığı son tahminlere göre, Türkiye'de
Büyük Veri ve Analitik yatırımları 2018 yılında 247 milyon dolar olarak gerçekleşti. 2023 yılına kadar pazarın
yıllık yüzde 16 oranında büyüyerek, 520 milyon dolara ulaşacağı öngörülüyor.
Dünyanın dört bir yanındaki şirketlerin veriyi analiz ederek anlamlı sonuçlar çıkarmalarına yardımcı olan
Hitachi Vantara’nın sponsorluğunda IDC tarafından gerçekleştirilen araştırmaya göre, Türkiye'deki
kurumların yüzde 55'i şirket içindeki büyük veri işleme konusundaki çalışmalarını sürdürmektedir.
Türkiye'deki her 10 kurumdan 8'i ‘makine öğrenmesi'ni, kurumu için anlamlı ve değerli görürken, her iki
şirketten biri, yani katılımcıların yarısı, geçmiş verileri analiz etmek için çok sayıda veri kaynağını bir araya
getirmekte zorlandığını belirtmektedir.
Geniş bilgi kaynaklarının etkin bir şekilde kullanımı, kaynak kullanımında ve karar vermede öngörülemeyen
yeni fırsatlar sağlamaktadır. Büyük verilerin kullanımı birçok kritik alanda bilişimin karar desteğini bir üst
boyuta taşıyarak ciddi tasarruflar ve yeni olanaklar sağlamaktadır. Bu çalışmada, büyük veri uygulamalarının
Türkiye’de ve Dünyadaki örnekleri anlatılacaktır.
Obama Yönetimi, büyük veri teknolojilerini geliştirmek, büyük veri uygulamalarını göstermek ve yeni nesil
veri bilimcilerini eğitmek için 2012 yılında Büyük Veri Araştırma ve Geliştirme Girişimi’ni başlatmış, aynı
zamanda Beyaz Saray’a ilk kez Veri Bilimi Yöneticisi işe almıştır [2]. ABD’de yayınlanan raporlar ve
about:blank 128/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
İşletmelerin büyük veri kaynakları; müşteri (kişisel, demografik, ses, fotoğraf, video, beğeni, yorum, paylaşım,
tercih), ürün (tür, miktar, fiyat, satın alma sıklığı, renk, beden), network cihazları, sensörler, web ve mobil
uygulama (konum, giriş zamanı ve sayısı, tıklama, görüntüleme, ziyaret), doküman (plan, program, liste,
çizim) gibi verilerinden oluşmaktadır. Ayrıca, kendi verileri dışındaki hava durumu, sosyal medya siteleri,
arama motoru sorguları, ticaret odaları ve merkezi nüfus idaresi gibi dış kuruluşların verileri de işletmelerin
büyük verilerinin bir kısmını oluşturmaktadır. Bu veriler sayesinde insanlığa faydalı ürünler oluşturabilmenin
yanında işletmelere önemli ekonomik girdilere dönüştürülmüştür. Büyük verinin ekonomik değer kaynağı
olduğunu, içgörüler ya da değer yaratan mal ve hizmetler üretmek için bilgiden faydalanılması gerektiğini,
değer elde etmeksizin yapılan analizlerin işletmelere katkı sağlamayacağını, herhangi bir büyük veri
planı/stratejisi olmayan/gerçekleştirmekte başarısız olan/geç kalan işletmelerin rekabet etmesinin güçleşeceğini
göstermektedir.
Dijital çağ tanımlarının yapıldığı günümüzde verilerin etkin kullanımı hem kamu politikalarının başarı oranını
hem de kamusal hizmetlerin kalitesini artıracak bir fırsattır [3]. Doğru kurgulandığı ve kullanıldığı takdirde,
işletmelere önemli faydalar sağlamakta ve iş yapma şekillerini değiştirmektedir.
Geleceğin işletmelerinde rekabet üstünlüğünün ancak işletme içinde ve dışında bulunan karmaşık bilginin
üretilmesi, tüketilmesi ve yönetilmesi sayesinde mümkün olacağı değerlendirilmektedir. Örneğin, iş
dünyasında kişiselleştirilmiş ürün ve hizmet sunumuna dönük iş modelleri geliştirilebilmekteyken sağlıkta,
akıllı cihazlarla toplanan verilerle hastalıkları öğrenebilen modeller oluşturulabilmekte; tarımda, sensörlerle
toprağın, havanın, bitkilerin durumları tespit edilerek ürünler özel bir bakımla yetiştirilebilmektedir. Bu
kapsamda büyük veri çalışmaları kurumlar, kuruluşlar, işletmeler ve araştırmacılara önemli getirilerde
bulunması beklenmektedir [4].
Türkiye’de büyük veri, birçok araştırmacı ve işletme için yenidir. Özel sektördeki büyük veri uygulamaları
artış göstermekle birlikte büyük bir kısmı bu konuya yapılan yatırımlar düzeyindedir. Buna karşılık kamu
kurumlarında gerçekleştirilmiş başarılı büyük veri uygulamaları ya da uygulamalara girdi sağlayabilecek
projeler daha fazladır. Bunlara, Kamu Bilgi Yönetim Sistemi (KAYSİS), enerji tahmin sistemi, e-bildirge
sistemi, Milli Eğitim Bakanlığı Bilişim Sistemleri (MEBBİS), e-okul, e-Nabız gibi çalışmalar örnek olarak
verilebilir [5, 6]. Ayrıca son iki yılda, Araç ve Sürücü Davranış Modellemesi, Erken Uyarı Sistemleri,
Dolandırıcılık Tespiti, Canlı Trafik Tahmini uygulamaları ile büyük veri kullanılmaya başlanmıştır [7].
e-Devlet Portalı:
Ülkemizde büyük veri çalışmalarının en önemli örneklerden biri de “e-Devlet” portalıdır. e-Devlet, hem
kamunun sayısal dönüşümüne iyi bir örnek olması açısından hem de neredeyse ülke nüfusunun tamamının
hayatını büyük ölçüde kolaylaştıran bir büyük veri çalışması olması açısından önemli bir örnektir.
about:blank 129/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
www.turkiye.gov.tr internet adresi üzerinden hizmet veren portalda adaletten, telekomünikasyona, vergi
yükümlülüklerinden şikâyet ve bilgi edinmeye kadar birçok işlem devlet kurumlarına gitmeye gerek
kalmaksızın çevrimiçi olarak vatandaşların faydasına sunulmaktadır.
Portalda yalnızca devlet kurumlarına ait işlemler değil elektrik, doğalgaz, telekomünikasyon gibi özel sektör
eliyle yürütülen hizmetler için de abonelik sorgulama, abone olma ve abonelikten ayrılma başvurusu gibi
işlemleri yapmak mümkündür. e-Devlet üzerinden Ağustos 2020 itibarı ile 670 farklı Kuruma ait 5.125 hizmet
alınabilirken, bu portala kayıtlı kullanıcı sayısı 50 milyona yaklaşmıştır.
Resmi istatistiklerin üretimine ve yayımına ilişkin temel ilkeler ile standartları belirlemek, ulusal ve
uluslararası düzeyde ihtiyaç duyulan alanlarda güncel, güvenilir, zamanlı, şeffaf ve tarafsız veri üretilmesini
sağlamak amacıyla 5429 sayılı Türkiye İstatistik Kanunu’na dayanılarak beşer yıllık dönemler için
hazırlanmaktadır.
RİP kapsamında TÜİK ve Programa dahil tüm kurum ve kuruluşlarca üretilen istatistiklerin, Türkiye istatistik
sistemine ilişkin bilgilerin ve gelişmelerin kamuoyuna internet üzerinden tek kapıdan sunumunu
gerçekleştirmek amacıyla RİP Portalı hazırlanmış ve 2014 Mart ayında kullanıcıların hizmetine sunulmuştur.
Bu portal üzerinden resmi olarak sağlanan tüm istatistiklere açık erişim sağlanabilmektedir.
Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (“TÜBİTAK”), “TÜBİTAK Açık Bilim Politikası”
uyarınca, kendisi tarafından yürütülen veya desteklenen projelerden üretilen yayınlar (hakemli makaleler vd.)
about:blank 130/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
ile araştırma verilerinin TÜBİTAK Açık Arşivinde depolanmasını ve bu sayede bu verilere açık erişim
sağlanmasını hedeflemektedir. TÜBİTAK Açık Arşivi Aperta adıyla geliştirilmektedir. Aperta kapsamına giren
bilimsel çalışmalar, bu portala yüklenebilmekte ya da yüklenmiş çalışmalara kolayca erişilebilmektedir.
T.C. Sağlık Bakanlığı’nın 2018 yılı faaliyet raporunda Açık Veri Portali’yle ilgili olarak; “açık veri paylaşım
ilkeleri, kişisel bilginin güvenliği / mahremiyeti gözetilerek kamu kurumlarında, yerel yönetimlerde, özel
sektörde ve sivil toplum kuruluşlarında üretilen veriler açık veri olarak ortak bir veri kaynağından tüm fayda
sağlayıcıların kullanımına açılacaktır” ifadelerine yer verilmiştir.
Bakanlığın internet sitesinde de “Açık Veri Portalı-pilot çalışma” başlığı altında birçok sağlık verisi
yayımlanmaktadır. Ayrıca, Kan, Organ ve Doku Nakli Hizmetleri Dairesi Başkanlığı Resmi Sayfası’nın
istatistikler bölümünde de organ doku istatistikleri paylaşılmaktadır.
Türkiye’de kamu kurumları, özel sektör, akademi ve STK gibi Dijital Devlet (d-Devlet) ekosistemi paydaşları
arasında bilgi paylaşımı sağlamak amacıyla TÜBİTAK-BİLGEM Yazılım Teknolojileri Araştırma Enstitüsü
(YTE) tarafından Dijital Dönüşüm portali oluşturulmuştur. Dijital dönüşüm kapsamında büyük/açık veri
hakkında da çalışmalar yapıldığı görülmektedir. Başbakanlık ve TÜBİTAK-BİLGEM-YTE iş birliği ile 20
Mart 2013 tarihinde “Kamu Yönetiminde Gelişen Trendler: Açık Devlet ve Açık Veri” konulu panel
düzenlenmiştir.
about:blank 131/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Ticaret Bakanlığı
T.C. Ticaret Bakanlığı’nın yayımladığı politikalar, stratejiler ve tarafından ülkemizde gerçekleştirilecek açık
veri konusundaki faaliyetlere oldukça önem verilmekte ve de Bakanlık tarafından yürütülen büyük veri analizi
ve yapay zeka projeleri kapsamında da, firmalar, üniversiteler ve araştırma kuruluşları ile işbirliği yapılması
hedeflenmekte, bu kapsamda Bakanlıkça tutulan verilerin, daha etkin politikalar sunulması amacıyla diğer
paydaşlarla paylaşımı konusunda çalışmalar devam etmektedir. Halihazırda, Bakanlıkça tutulan çeşitli verilerin
paylaşımın faydalı olabileceğinin düşünüldüğü bazı proje başlıkları aşağıda sıralanmaktadır [8].
Boyner Grup
Çok katlı mağazacılık, özel marka, e-ticaret ve mobil uygulama ile hizmet veren Türkiye’nin lider mağaza ve
moda perakendesi grubu olup bu özel işletmenin büyük veri çalışmaları, akıllı telefonlara yüklenen mobil
alışveriş uygulaması ile yön bulmuştur. Bu yazılımla müşterilerin gün içindeki hareketleri, hangi ürünlerle
ilgilendikleri, hangi sayfalarda uzun zaman geçirdikleri, konum bilgileri tespit edilebilmektedir. Bu yolla elde
edilen değerler şöyledir [9]:
Büyük veride amaç, müşterinin davranışlarını tanımak ve anlamlandırmaktır. Bu doğrultuda, yeni açılan
mağazalarının ve mobil uygulamanın müşteri profilleri arasındaki benzerlikler belirlenmiş, mağaza civarında
oturanlar seçilmiş, daha sonra mağazanın yakınından geçmekte olan müşterilere tanıtım mesajları gönderilerek
paracık olarak adlandırdıkları ödül-puan sistemi hediye olarak sunulmuştur. Bu davet ile cironun %27’si elde
edilmiştir. Bir diğer analizde, 24 saatlik alışveriş hareketleri incelenmiş, internet üzerinden alışverişlerin en
yoğun 06.00-10.00 aralığında yapıldığı bilgisi elde edilmiştir. Isı haritası olarak nitelendirdikleri bu işlemlerin
mahalle, sokak, köy, kasaba dahilinde hangi şehirlerde gerçekleştirildiği saptanmış; böylece sadece harcamalar
değil alınan ürünün türü, rengi, bedeni gibi bilgilere de erişmek mümkün olmuştur.
Yemeksepeti (yemeksepeti.com)
Çevrimiçi yemek siparişi hizmeti sunan web sitesi olup paket servisi bulunan restoranlar ve yemek sipariş
etmek isteyen internet web kullanıcılarını buluşturmaktadır. Mobil uygulaması da bulunan şirket, 2020
itibariyle 78 bini geçen restoran ve 19 milyonu geçen kullanıcısı ile Türkiye’de en çok kullanılan yemek sipariş
ortamı olmuştur [x10]. Büyük veri ile geliştirdiği özgün iş modeli, şirketin başarısının ve büyümesinin özünü
oluşturmaktadır.
Yemek siparişinde zaman çok önemli bir faktördür ve hizmetin 30-40 dk. içerisinde tamamlanması
beklenmektedir. Ayrıca yemek yeme; görünce sipariş verme, yemeyi isteme şeklinde gelişebilen duygusal ve
dürtüsel bir davranıştır. Bu da sektörel bazda her türlü değişikliğin takip edilmesini, iş ve teknik birimlerin hızlı
about:blank 132/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
cevap vermesini gerektirmektedir. Bilinmeyen ilişkiler analizle ortaya çıkarılmaktadır [11]. Şirketin büyük
verisine konu olan önemli bazı kategoriler Tablo 10.1’de verilmektedir.
Yemeksepeti’nin en popüler büyük veri başarısı, şirkete ödüller kazandıran “Fakat İyi Yedik”
projesidir. Proje, kullanıcıların kişiselleştirilmiş verilerinin sunulduğu bir mikrositeden oluşmaktadır. Büyük
verideki 10 milyar veri, anahtar kategorilerle 1,5 milyara indirgenmiş; kişinin siparişleri, yeme alışkanlıkları,
ilginç yemeksepeti verileri ve eğlenceye dönük sorular kullanıcıya video olarak sunulmuştur. Büyük veri, istek
anında oluşan, her siparişle yenilenen dinamik bir formata dönüşmüştür. Bu, büyük verinin görselleştirilmesi
açısından önemli bir başarıdır. Proje sonucunda mikrositeye 1,5-2 aylık sürede 630 bin ziyaret, 212 bin video,
2 milyon sayfa görüntüleme, 5 binden fazla Twitter mesajı geri bildirim olarak dönmüştür. Böylece şirket
markasını sunabilmiş, viral pazarlama ya da ağızdan ağıza reklam olarak bilinen müşteri odaklı pazarlama
faydası sağlamıştır [4, 11].
Akbank
Türkiye'nin en büyük bankalarından biri olup sigorta acenteliği faaliyetleri de yürütmektedir. Dünyadaki
teknolojik eğilimler doğrultusunda altyapısına önemli yatırımlar yapmaktadır [13].
Büyük veri, iç ve dış veri kaynaklarının sürekli birleştirilmesini, müşteri ve organizasyonu anlamak üzere
yapılandırılmış ve yapılandırılmamış verilerin bir araya gelmesini içermektedir. Bu amaçla, büyük veri alt
yapısı yeniden düzenlenmiştir. Çözüm ortakları ile yapılan çalışmalarda, farklı veri kaynaklarında depolanmış
pazarlama kampanyası verileri ve sonuçları birleştirilerek analizlerin çalıştırılma süresi düşürülmüş ve yeni
davranışsal içgörüler arayan kampanya verileri oluşturulmuştur. Böylece, kampanyalar bittikten sonra değil
devam ederken sonuçları görmeye olanak veren müşteri merkezli bir sistem oluşturulmuştur [14].
Akbank, büyük verinin hem görsel olarak sunabildiği hem de işlemlerin müşteriye özel gerçekleştirebildiği bir
mobil uygulamaya sahiptir. Yapay zeka altyapısı ile hazırlanan uygulamada, finansal kararlara yardımcı olacak
kişiselleştirilmiş içgörüler ve akıllı ipuçları yer almaktadır. Uygulamada, 300 fonksiyon, 40 farklı içgörü
senaryosu, 23 milyon içerik yer almaktadır. Bu içeriklerle, haftalık nakit akışına ilişkin öngörü ve önerilerin
yanı sıra kullanıcıların karşılarına çıkan içerikleri kişiselleştirme olanağı sunulmaktadır [15]. Mobil girişin
kullanıcının özçekim fotoğrafıyla da yapılabilmesi, yapılandırılmamış verinin kullanımına ilişkin net bir
özelliktir [4].
Enerjisa
Elektrik dağıtımı ve satışından oluşan iki ana iş kolu bulunan enerji şirketidir. 14 ilde 10.1 milyon müşteriye
ulaşarak yaklaşık 21 milyonu aşkın kullanıcıya dağıtım hizmeti sağlamaktadır.
Büyük veri ile müşteriyi tanımanın yolu müşterinin veri tabanındaki hareketlerini izlemekle mümkündür.
Enerjisa bu konuda müşteri verilerine yönelik tek bir havuz oluşturmak üzere çözüm ortağıyla birlikte kayıtları
birleştirip temizlemiş ve bu şekilde çift kopyalar azaltılarak %25 daha az kayıt elde edilmiştir. Ayrıca elde
edilen veriler, ticaret odaları ve merkezi nüfus idaresi gibi dış kuruluşların verileriyle eşleştirilerek
zenginleştirilmiş, müşteri bilgilerinin tamlık oranı %30 artırılmıştır. Böylece, daha güvenli müşteri bilgileriyle
daha detaylı bir hizmet ve pazarlama yaklaşımı geliştirebilmek için kritik bir adım atılmıştır [16].
Çeşitli uygulamalar ile dijital dönüşümünü gerçekleştiren şirket, sanal gerçeklik uygulamalarıyla da teknolojik
etkinliğini artırmıştır. Artırılmış gerçeklik gözlüğü kullanılarak işlerin uzaktan kumanda edilebiliyor oluşu,
zorlu yerlerde çalışılabilmesini mümkün hale getirmiştir. Bunun bir uygulaması, doğal gaz tesisinde
gerçekleştirilen son bakım çalışmaları ve test aşamalarında gerçekleştirilmiştir. Bir diğer uygulama ise linyit
fabrikasında her depoyu kişisel olarak ziyaret eden bir merkez çalışanının yürüttüğü fiziksel stok sayımı
about:blank 133/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
sisteminin uzaktan stok sayımı ile değiştirilmesi ve saha çalışması için sanal iş birliği yapılmasıyla olmuştur.
Böylece iş süreçlerini iyileştirme ve hızlandırma mümkün olmuştur. Şirket bu çalışmalarla hem değer elde
etmiş hem de veri şirketi olma yönündeki hedefini gerçekleştirmiştir. Gelecek planlarında, Büyük verinin
yapay zeka ile daha etkin değerlendirilmesini sağlayacak projelere yer verilmektedir [4].
Hollanda İstatistik Bürosu, ülke halkının %70’nin kullandığı Twitter ve benzeri sosyal medya sitelerinden
topladığı verilerle halkın genel olarak ne üzerine konuştuğunu analiz etmiştir. Bunun yanı sıra duygu analizi
yaparak genel olarak halkın mutluluk düzeyini ortaya koymuştur. Bunun yanında ayı analizlerde ekonomik
durum ve benzeri konular üzerinde halkın düşüncesi meydana çıkmıştır [17].
Büyük veri analitiği dünya ölçeğinde birçok spor endüstrisinde de kullanılmaktadır. Örneğin, tenis
turnuvalarında IBM'in Slamtracker uygulaması kullanılıyor ve oyuncu hareketleri video bazında analiz
edilerek oyunu geliştirmek için antrenörlere kullanabilecekleri detaylı raporlar sunuyor. Ayrıca sporcuların
giyilebilir teknolojiler sayesinde spor müsabakalarının dışında da takip edilebilmesine olanak sağlanıyor; uyku
ve yeme alışkanlıkları izlenebiliyor. Bunun yanında sporcuların sosyal medya paylaşımları incelenerek
psikolojik durumları analiz edilebiliyor.
about:blank 134/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Ontario Üniversitesi her gün, erken doğan bebeklerden (prematüre) yaklaşık 100 milyon adet veri toplayarak,
analizini en hızlı şekilde gerçekleştiriyor. Bunun sonucunda, hasta muayenesi sırasında erken teşhis edilen
değişimler, bir hastalık durumuyla ilişkilendirilebiliyor [17].
Tesla şirketi araçlarını sensörlerle donatarak ve Apache Hadoop yapısını kullanarak veri toplamakta ve
toplanan veriyi analiz için ana merkeze göndermektedir. Toplanan veriler, şirket Ar-Ge gelişimini, araba
performansını, araç bakımını ve müşteri memnuniyetini artırmak için kullanılmaktadır. Örneğin araçla ilgili
problem olduğunda sürücüye servise gitmesi tavsiye edilir ve şirket genel merkezi bilgilendirilir. Bu özellikler
sayesinde Tesla’nın şarj istasyonlarının yaygın olarak kullanılmadığı zorlu çevre şartlarında bile şirket için
pazar payı yaratmasına yardımcı olmaktadır [6].
CERN'in Büyük Hadron Çarpıştırıcısı, evrenin gizemlerini çözmeyi ve aynı zamanda şaşırtıcı boyutta veriler
üretmektedir. CERN'in veri merkezinde, 65.000 işlemci 30 petabayt veriyi işlemekte, ancak bu miktarda veriyi
işlemek için 150 farklı veri merkezindeki bilgisayarları kullanmaktadır. Böyle büyük bir bilgi işlem gücü,
bilimsel araştırmalarda hayatta önemli düzeyde donanım kaynakları sağlamaktadır.
about:blank 135/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Tennessee Valley Authority, sayısı 1.5 trilyon olan akıllı şebeke verilerinin analizi için bir sistem geliştirmiştir.
Sonuç olarak kurum, güç şebekesi arızaları üzerine yapılan analizler ile verimliliği arttırmaktadır. Doğal
kaynakları koruyan üst düzey analizlerle tahminlemeler gerçekleştiriyor [17].
California Long Beach'te sulama şebekesi akıllı sayaçlarla izlenerek kaçak sulamanın önüne geçilmiş ve bu
sayede yılda küçümsenemeyecek oranlarda su tasarrufu sağlanmıştır.
Asya Sağlık Bürosu, hasta görüntüleme verilerini Hadoop üzerinde tutup analiz ederek radyoloji ve patoloji
uzmanlarının hem daha hızlı hem de daha az hata yaparak teşhis koymalarını sağlamıştır [17].
Apple'ın yeni sağlık uygulaması ResearchKit, cep telefonlarını biyomedikal birer araştırma cihazına
dönüştürmektedir. Bu uygulama sayesinde bilim insanları topladıkları büyük veriler sayesinde yeni çalışmalar
yapmış; bu ve benzeri uygulamaların popülaritesi ile süreç daha kolay ve daha hızlı bir şekilde veriler
anlamlandırılma imkânı bulmuştur. Ayrıca Jawbone's Up akıllı bileklik, her gece 60 yıllık uyku verilerini
toplamakta ve bu verilerden elde edilen analiz sonuçları, bilgileri kullanıcıya geri döndürmektedir. Bu alanda
akıllı bileklikler ve giyilebilir teknolojiler sayesinde dünya genelinde oldukça fazla ürün oluşturulmuş olup
büyük ölçekte veri toplanmaktadır. Sağlık sektörü başta olmak üzere birçok sektörde bu teknolojilerin popüler
olması ve geniş kitlelerden farklı sensörler ve mobil teknolojiler sayesinde veri toplanması birçok bilimsel
çalışmaya konu olmuştur.
New York Polisi 911 kayıtlarını, yakalamaları, suçlu bilgilerini ve coğrafi verileri gerçek zamanlı olarak
işleyerek günler sürebilen analizleri dakikalar içinde tamamlayarak suç oranını azaltmaya başlamıştır [17].
Amerika’da bir perakende şirketi olan Kroger, yaklaşık 770 milyon tüketicinin verisine erişmekte, toplamakta
ve yönetmektedir. Büyük verilerden gelen analitik çıktılar, Kroger için, müşteri sadakati ve karlılığı konusunda
about:blank 136/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
daha büyük ve kullanılabilir bilgiler sunmaktadır. Yaklaşık %60 geri ödeme oranı ile büyük veri ve analitik
kullanarak artan gelirde 12 milyar doları aşan bir kazanç elde edilmiştir [6].
Beacon Enstitüsü, Hudson Körfezi’ne yerleştirdiği sensörlerle topladığı biyolojik, fiziksel ve kimyasal verileri
meteorolojik verilerle birleştirerek araştırmacı, kamu ve eğitimcilere sunmaktadır. Toplanıp analiz edilen bu
verilerle olası çevre felaketleri ve anlık değişimlerin daha hızlı fark edilmesi sağlanıyor [17].
Amerika'da "Önleyici Polis Hizmetleri" olarak adlandırılan ve Seattle, Los Angeles gibi şehirlerde uygulanan
yapılandırmalar 4 aylık bir süreçte cinayet oranını yüzde 12 gibi bir miktarda düşürmüştür. Yüzde 26 gibi bir
düşüş ise hırsızlık üzerinde gerçekleşmiştir. Vancover polis bölümünün benzer uygulaması bir hizmet, suçun
nereye yönlendiğini göstermiş, hatta birçok durumda engellenmezse gerçekleşeceği durumlarda sonlanmasını
sağlamıştır. Mülki suçlar şehir genelinde 1000 yerleşimde %24 oranında düşmüş, şiddetli suç oranlarında 2007
yılından 2011’e kadar %9 azalmıştır [17].
American Express şirketi, geleneksel ticari istihbarat tabanlı raporlamasını ve müşteri sadakati öngören
göstergeleri değiştirmek için gelişmiş tahmin modelleri oluşturarak, 115 değişken ile geçmiş müşteri
işlemlerini analiz etmiş ve böylelikle Avustralya pazarında kapanacak hesapların %24’ünü tahmin
edilebilmiştir [6].
Dünya’da önemli büyük veri uygulama örneklerinden bir tanesi de tele-tıptır. Dünya Sağlık Örgütünün (WHO,
2009) tanımına göre Tele-tıp; mesafe ve coğrafi uzaklık sınırlaması olmadan hastalık ve yaralanmaların teşhisi,
tedavisi ve önlenmesi, araştırma, değerlendirme ve sağlık hizmet sunucularının sürekli eğitimi, birey ve
toplulukların sağlığını geliştirmek ve bilgi alışverişi yapmak için sağlık sistemleri tarafından kullanılan bilgi ve
iletişim teknolojilerini içeren sistemdir. Örneğin, bir aile hekiminin kendisine cilt rahatsızlığı konusunda
başvuran bir hastanın cildindeki hastalıklı bölgenin görüntüsünü dermatoskop cihazı ile kaydedip merkezi bir
bölgedeki uzman bir hekime göndermesi ve uzman hekimin bu hastayı uzaktan teşhis etmesi süreci tele-tıp
uygulamasıdır [18].
about:blank 137/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Amerika’da büyük bir eczane zinciri olan Walgreens’in klinik hekimleri; büyük veri teknolojilerini
kullanmakta, büyük veri analizi ile hasta durumlarının değerlendirmesini yapmakta ve genel sağlık durumlarını
iyileştirmek, gelecek tıbbi maliyetlerden kaçınmak için öneriler çıkartmaktadırlar. Örneğin; mevcut sistem,
insanların sağlık planlarına sadık kalmasına ve daha fazla gereksiz maliyetten kaçınmasına yardımcı olmak için
doldurulmamış bir reçeteyi yakalayabilmektedir. 100 milyondan fazla kişi için 7.5 milyar tıbbi olay
incelenmektedir [6].
UPS şirketi her gün yaklaşık 16.000 paket ve belge dağıtımı yapmaktadır ve yılda 4 milyar ürünü yaklaşık
100.000 araçla sevkiyat yapmaktadır. Bu işlem hacmi ile UPS’in büyük veri kullanması için birçok yol vardır
ve bu uygulamalardan birisi filo optimizasyonu içindir. Uygun gelişmiş algoritmalar, her bir filo için rota
hesabı, motor boşta kalma süresi ve tahmini bakım süreleri için yardımcı olmaktadır. Programa başladığından
beri şirket, 39 milyon galon yakıt ve 364 milyon mil yol tasarrufu sağlamıştır. Sonraki aşamada ise şirket
programı uçaklar için de devreye almayı planlamaktadır [6].
General Electic (GE), santrallerden lokomotiflere ve hastane donanımına kadar pek çok çalışma verilerini
topladıkları ve bunu ilgili yerlere aktardıkları, GE’nin analitik ekibi ise bu verileri kullanarak makinelerin daha
verimli olmasını sağlamak için çalıştıklarını, çok küçük gelişmelerin bile önemli olduğunu belirtmektedirler.
GE’nin tahminlerine göre, yapılan bu işlemlerin ABD’deki verimliliği %1,5 artırabileceğini, bunun ise 20
yıllık bir süre zarfında, ortalama ulusal geliri %30 oranında artırabileceğini belirtmişlerdir.
Palantir Technologies, dolandırıcılıktan teröre kadar değişen güvenlik sorunlarını çözmek için büyük veri
analitiği yöntemlerini kullanarak çözümler üretmektedir. Sistemlerini CIA destekleriyle geliştirmiş ve ABD
Hükümeti ve güvenlik kurumları tarafından yaygın bir şekilde kullanılmaktadır. 400.000 Milyon dolar yatırım
ile üç yılda 20 Milyar dolarlık bir şirket olan önemli örneklerdendir [6].
about:blank 138/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Bölüm Özeti
Büyük verinin bizzat kendisi iş dünyasında çok önemli bir yere sahiptir. Modern ve post modern işletme
anlayışı firmaların iç ve dış çevrelerinden topladıkları veriyle hareket etmeleri gerektiğini tavsiye etmektedir.
Bununla birlikte teknolojik gelişmeler büyük veriyi beraberinde getirerek firmalara resmi daha net görmeleri
konusunda yardımcı olmakta ekonomik girdilerini artırmaya yönelik yatırımlar yapma olanağı sağlamaktadır.
Büyük veri ile devletler, kurum ve kuruluşlar müşteri davranışını analiz edebilmekte ve bu doğrultuda inovatif
atılımlar ve yeni hizmetler geliştirebilmektedir. Ürün/hizmetlerini müşterilerinin istediği şekilde dizayn
edebilmekte ve farklılaşma konusunda yeni uygulamalar geliştirebilmektedirler. Ayrıca işletmeler bu sayede iş
süreçlerini optimize edebilmekte, karar destek sistemlerini geliştirerek daha etkin işletme stratejisi
belirleyebilmektedirler. Büyük veri işletmelere yeni iş modeli geliştirerek başkalaşım ve dolayısıyla yeni iş
sahaları oluşturmak gibi fırsatlar da sunmaktadır.
Dünyada büyük verinin önemini benimsemiş birçok işletme olmasına karşın Türkiye’de gerek piyasada
gerekse akademik çevrede yapılan çalışmalar dünyada yapılanlara nazaran yetersiz sayıdadır. Önümüzdeki
yıllarda büyük veri kavramının öneminin hızla artacağı açıktır. Hızla büyüyen veriyi doğru analiz edebilen,
veri akışını yakalayabilen ve ona uyum sağlayabilen organizasyonların ve bu konuda yetkin personel istihdam
eden kuruluşların daha avantajlı konumda olacağı görülmektedir. Bu bağlamda Türkiye’de konuya olan ilginin
artması beklenmektedir.
Kaynakça
[1] Wormer, P. V. (2014, 11 11). A sense of urgency: Excecutives rush to adobt Big Data analytics. (Son Erişim
Tarihi: 15.11.2021)
URL: http://info.totaltraxinc.com/blog/a-sense-of-urgency-executives-rush-to-adopt-big-data-analytics
[2] Marzullo, K. (2016). Administration Issues Strategic Plan For Big Data Research and Developement. (Son
Erişim Tarihi: 08.11.2021)
URL: https://obamawhitehouse.archives.gov/blog/2016/05/23/administration-issues-strategic-plan-big-data-
research-and-development
[3] Julia Studinka ve Ali Asker Guenduez, “The Use of Big Data in the Public Policy Process - Paving the Way
for Evidence-Based Governance”, Research Platform Alexandria, 5 Eylül 2018.
[4] Koltan Yilmaz, Ş. “Businesses Creating Value With Big Data In Turkey: A Review On Private Sector
Applications”. International Journal of Management Information Systems and Computer Science, 2021,
5(1):44-62.
about:blank 139/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
[5] BTK, Bilgi Teknolojileri ve İletişim Kurumu (2020). “Dünyada ve Ülkemizde Sayısal Dönüşüm: Endüstri
4.0, Yapay Zekâ ve Büyük Veriye İlişkin Gelişmeler”, Sektörel Araştırma ve Strateji Geliştirme Dairesi,
Sayısal Dönüşüm Raporu, Ankara. (Son Erişim: 04.04.2021).
[6] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O.,
Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.
[7] Sağıroğlu, Ş. (2019). Büyük ve Açık Veri Türkiye Uygulamaları. Büyük Veri Uygulamaları Konferansı,
BTK Konferans Salonu, 26 Haziran 2019, Ankara (Son erişim: 19.11.2021).
[8] Özkan, Ö. “Açık Veri”, Blockchain Türkiye Platformu, Set Pozitif Matbaa, 2019.
[9] Boyner, C. (2017). Boyner Büyük Veri. (Ed.), Güvenir, H. A, İş Hayatında Büyük Veri Konferans Raporu
içinde (53-62), TÜSİAD-T/2017, İstanbul.
[10] Yemeksepeti (2020). “2020 Lezzet Rehberi”, (Son Erişim Tarihi:20.11.2021) URL:
https://www.instagram.com/p/CJYHOEep9nz/
[11] Akar, B. (2016, 5 Ocak). “Vaka II: Yemek Sepeti ve Büyük Veri”, Harvard Business Review Türkiye,
https://hbrturkiye.com/video/vaka-ii-yemek-sepeti-ve-buyuk-veri, (21.03.2021).
[13] Sabancı Üniversitesi (2021). “SAS Becomes The Analytical Partner of Turkey's First Big Data Lab”, (Son
Erişim Tarihi: 28.03.2021).
URL: https://sbs.sabanciuniv.edu/en/sas-becomes-analytical-partner-turkeys-first-big-data-lab,
[14] Datameer (2021). “Akbank Accelerates Marketing With Agile Analytics”, (Son Erişim Tarihi: 23.03.2021)
[15] İçözü, T (2021, 22 Şubat). “Akbank Mobil'in Kullanım Verileri ve Akbank'ın Uzaktan Müşteri Edinimine
Dair Detaylar”, (Son Erişim Tarihi: 28.03.2021)
URL: https://webrazzi.com/2021/02/22/akbank-mobil-in-kullanim-verileri-ve-akbank-in-uzaktan-musteri-
edinimi-detaylari/
[16] SAS, Statistical Analysis Software. “Enerji lideri veriyi müşteri bilgisine dönüştürüyor”, (Son Erişim
Tarihi: 23.03.2021)
URL: https://www.sas.com/tr_tr/customers/enerjisa-02.html
[17] Özbilgin İ.G. “Kamuda Büyük Veri ve Uygulamaları”, Akademik Bilişim Konferansları, Anadolu
Üniversitesi Eskişehir, 4-6 Şubat 2015.
[18] Dorsey, E. R., & Topol, E. J. (2020). Telemedicine 2020 and the next decade. The Lancet, 395(10227),
859.
Ünite Soruları
Soru-1 :
about:blank 140/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(Çoktan Seçmeli)
Cevap-1 :
Güvenlik politikaları
Soru-2 :
Aşağıdakilerden hangisi işletmelerin kendi verileri dışında kalan büyük veri kaynakları arasında yer
almaz?
(Çoktan Seçmeli)
Cevap-2 :
Eğitim kurumları
Soru-3 :
Aşağıdakilerden hangisi ülkemizdeki kamu kurumları tarafından geliştirilen büyük veri uygulamaları
arasında yer almaz?
(Çoktan Seçmeli)
(B) e-Nabız
(C) e-Nüfus
(D) e-Devlet
Cevap-3 :
e-Nüfus
about:blank 141/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Soru-4 :
Aşağıdakilerden hangisi ülkemizde son yıllarda kullanılmaya başlanılan büyük veri uygulamaları
arasında yer almaz?
(Çoktan Seçmeli)
Cevap-4 :
Eğitimde Oyunlaştırma
Soru-5 :
(Çoktan Seçmeli)
(A) Resmi istatistik program, resmi istatistiklerin üretimine ve yayımı amacıyla oluşturulmuştur.
(B) Açık veri portalı, ülkemizin sağlık verisini yayımlamak için oluşturulmuştur.
(C) Dijital dönüşüm portalı, kamu kurumları, özel sektör, akademi ve STK gibi paydaşlar arasında bilgi
paylaşımı sağlamak amacıyla oluşturulmuştur.
(D) Boyner grup, çok katlı mağazacılık, özel marka, e-ticaret ve mobil uygulama ile hizmet veren Türkiye’nin
lider mağaza ve moda perakendesi grubunun geliştirdiği büyük veri uygulamasıdır.
(E) EnerjiSa, enerji üretim bilgilerinin tutulduğu devlet kurumu olup büyük veri ile müşteri hareketlerini
izleyen büyük veri uygulamasıdır.
Cevap-5 :
EnerjiSa, enerji üretim bilgilerinin tutulduğu devlet kurumu olup büyük veri ile müşteri hareketlerini izleyen
büyük veri uygulamasıdır.
Soru-6 :
“Ülke halkının %70’nin kullandığı Twitter ve benzeri sosyal medya sitelerinden topladığı verilerle halkın genel
olarak ne üzerine konuştuğunu analiz etmiştir. Bunun yanı sıra duygu analizi yaparak genel olarak halkın
mutluluk düzeyini ortaya koymuştur.”
(Çoktan Seçmeli)
about:blank 142/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-6 :
Soru-7 :
“Hudson Körfezi’ne yerleştirdiği sensörlerle topladığı biyolojik, fiziksel ve kimyasal verileri meteorolojik
verilerle birleştirerek araştırmacı, kamu ve eğitimcilere sunmaktadır. Toplanıp analiz edilen bu verilerle olası
çevre felaketleri ve anlık değişimlerin daha hızlı fark edilmesi sağlanmaktadır.”
(Çoktan Seçmeli)
(B) Commonbond
Cevap-7 :
Beacon Enstitüsü
Soru-8 :
Aşağıdaki bilgilerden hangisi General Electik (GE) şirketi için doğru bir bilgi değildir?
(Çoktan Seçmeli)
Cevap-8 :
Soru-9 :
about:blank 143/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Büyük verinin kolomotifi olan uygulamaların başında gelen cep ve mobil cihazlara aşağıdakilerden
hangisi örnek olarak verilebilir?
(Çoktan Seçmeli)
(A) Kroger
(C) Commondbond
(E) ResearchKit
Cevap-9 :
ResearchKit
Soru-10 :
Aşağıdaki bilgilerden hangisi ülkemizde faaliyet gösteren YemekSepeti şirketi için doğru bir bilgi
değildir?
(Çoktan Seçmeli)
(B) Büyük verileri istek anında oluşan her siparişle yenilenen statik bir formata dönüşmüştür.
(C) Büyük verisindeki 10 milyar veriyi anahtar kategoriler ile 1.5 milyara indirgemiştir.
(D) Kişinin siparişleri, yeme alışkanlıklarını eğlenceye dönük sorular kullanıcıya video olarak sunulmuştur.
(E) Gerçekleştirdikleri proje sayesinde viral pazarlama ile müşteri odaklı pazarlama faydası elde etmişlerdir.
Cevap-10 :
Büyük verileri istek anında oluşan her siparişle yenilenen statik bir formata dönüşmüştür.
about:blank 144/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Başlamadan Önce
Sağlık sektöründe büyük veri için çeşitli kaynaklar arasında hastane kayıtları, hastaların tıbbi kayıtları, tıbbi
muayene sonuçları ve nesnelerin internetinin bir parçası olan cihazlar yer almaktadır.
Sağlık hizmetlerinde büyük veri, heterojenlik, tamamlanmamışlık, zamanlılık ve uzun ömür, mahremiyet ve
sahiplik gibi kendine has özelliklere sahiptir. Bu özellikler, sağlıkla ilgili araştırmaları teşvik etmek için veri
depolama, madencilik ve paylaşım için bir dizi zorluk getirmektedir. Bu zorluklarla başa çıkabilmek için
sağlık hizmetlerinde büyük veriye odaklanan analiz yaklaşımlarının geliştirilmesi ve büyük verinin sağlık
hizmetlerinde kullanılmasına yönelik yasa ve yönetmeliklerin çıkarılması gerekmektedir.
Hasta bakış açısıyla, büyük veri analizinin uygulanması tedaviyi iyileştirebilir ve maliyetleri azaltabilir.
Hastalara ek olarak, devlet, hastaneler ve araştırma kurumları da sağlık hizmetlerinde büyük veriden
yararlanabilir. Bilgi toplumunda beklendiği üzere veri depolanması hızlı bir şekilde artmakta ve bu devasa
veri birikimini en etkin bir şekilde kullanarak eldeki mevcut sınırlı finansal ve insan gücü kaynaklarını verimli
değerlendirmenin yolları aranmaktadır. Bunu yaparken gerekli olan analiz için etkinliği ispatlanmış bilimsel
metotların varlığı ve tabii ki değerlendirmeye tabii tutulacak büyük veri depolarının varlığıdır.
Ülkemiz veri depolanması konusunda son yıllarda çok önemli mesafe almıştır. Sağlık Bakanlığı ve Sosyal
Güvenlik Kurumu bünyesinde kurulan sağlık verileri, hem sağlık politikalarına yön verme konusunda hem de
ülkemizin bilimsel gelişimine katkı sunacak şekilde oldukça önemli bir hazinedir.
11.1. Giriş
Günümüzde bilgi ve iletişim teknolojilerindeki gelişmelere paralel olarak üretilen, depolanan ve işlenen veri
miktarı her geçen gün artmaktadır. İnternet bağlantılı akıllı cihazların (cep telefonu, bilgisayar, kamera vb.) ve
internet uygulamalarının (sosyal medya, e-posta vb.) kullanılması ile önemli boyutlarda veri üretilmektedir. Bu
teknolojilerin gelişmesi ile insan vücudundan sürekli veri toplayan akıllı asistanlar ile sağlık alanında veri
miktarı da hızla artmaktadır. Yüksek boyutlarda üretilen bu verilerin klasik yöntemlerle depolanamaması ve
anlamlı hale getirilememesi durumu “büyük sağlık verisi” kavramını ortaya çıkarmıştır. Verinin değerinin her
geçen gün daha fazla anlaşılması, her alanda üretilen verilerin depolanmasına ve analiz edilmesine yönelik
çabalarında artmasına neden olmaktadır.
Büyük sağlık veri analizinin temelleri, geleneksel istatistik ve yapay zeka yöntemlerine dayanır. Bu yöntemler
çok büyük ve çeşitli veri setlerini yüksek hızla analiz edebilen algoritmalar içermektedir. Veri setlerinin
çeşitlerine ve veriden elde edilmek istenen bilginin türüne göre seçilen algoritma, veri setine uygulanmakta,
böylece verinin içinde saklı olan desenler, değişkenler arasındaki ilişki ve korelasyonlar, geleceğe yönelik
tahminler elde edilmek için kullanılır.
about:blank 145/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Verinin depolanması, işlenmesi gibi süreçlere dair teknolojik gelişmelerle artan devasa sağlık verisi miktarı,
artık “dijital bir dünya” içinde yaşadığımızı göstermektedir. Üstelik bu dijital dünyanın boyutlarındaki büyüme,
büyük bir hızla gerçekleşmektedir. Bir araştırma şirketine göre 2020’de dijital dünyamızın boyutu, 2009 yılına
göre 44 kat daha büyük olacaktır. Sağlık sistemi politikalarının ve yönetsel kararlarının temeli veri ve veriden
elde edilmiş bilgidir. Sağlık politika ve kararlarının amaçlara uygun ve etkin olabilmesi güvenilir, güncel ve
doğru veriye bağlıdır. Sağlık bilgi sistemlerinin amacı büyük miktardaki sağlık verilerinden faydalı bilgi
üretmektir.
§ Maliyet azaltma.
Sağlık verileri hastaneler, diğer sağlık kurumları, sigorta şirketleri ve ilgili kamu kurumları başta olmak üzere
birçok kuruluş tarafından toplanmaktadır.
Büyük veri çok amaçlı veri anlamında yeniden kullanılabilir ve var olan veri tabanlarının birleştirilmesi ve
bağlantısını içerir (Habl, 2016). Büyük Sağlık Verileri, gözlemlenebilir bir olgu hakkında uygulanabilir bilginin
çıkarılması sürecini kolaylaştıran büyük boyutlarının ötesinde ve bazı benzersiz özelliklere sahip karmaşık veri
kümelerini ifade eder (Dinov, 2016). Tipik olarak, Büyük Sağlık Verileri arasında, farklı kaynaklardan türetilen
about:blank 146/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
heterojen, çoklu-spektral, eksik ve kesin olmayan gözlemlere (örn. demografik verilerin yanı sıra tanı,
tedaviler, hastalıklar, hastalıkların önlenmesi, yaralanma, fiziksel ve zihinsel bozukluklara) dayalı veriler
bulunmaktadır (Dinov, 2016). Büyük Verinin sunduğu imkanlar sayesinde sağlık sektöründe yer alan tıbbi
sigorta ve ilaç endüstrileri, reçete edilen ilaçların özellikleri hakkında bilgi sahibi olabilirler. Günümüzde artan
şekilde hayatımıza giren fitness izleme cihazları, kan basıncı monitörleri ve kilo tartım terazileri gibi IoT
(Internet of Things Nesnelerin İnterneti) cihazları ile hasta tarafından oluşturulan veriler, bir bireyin günlük
yaşam tarzı ve özellikleri hakkında kritik bilgiler vermektedir. Bu verilerin EMR(Elektronik Sağlık Verileri)
verileri, yaşamsal veriler, laboratuar verileri, ilaç bilgileri, semptomların yanı sıra doktor notları, hasta
taburculuk belgeleri, hasta günlükleri, tıbbi yayınlar gibi yapılandırılmış verilerle bir araya getirilerek bağlantı
kurulmasının insanların yaşam biçimlerini iyileştirmek ya da kronik hastalık, ilaç reaksiyonu ve hastaneye
yatma vakalarını azaltmak üzere koçluk programlarını tasarlamak için çok önemli olabilir (Big Data Value
Association, 2016).
Sağlık hizmetlerinde de birçok kaynaktan çok sayıda veri üretilmektedir. Sağlık hizmetlerindeki bu büyük veri
kaynakları şu şekilde gruplandırılmaktadır (Priyanka, 2014):
a. Klinik veriler: Doküman, görüntü, klinik veya reçete edilmemiş notların yanı sıra sağlık verilerinin
yaklaşık % 80’i bu şekilde yapılandırılmamış olan klinik verilerden oluşur.
c. Klinik referanslar: Metin tabanlı uygulama rehberleri ve sağlık ürünlerine (ör. İlaç bilgisi) ilişkin verileri
içerir.
d. Genomik veriler: Önemli miktarda yeni gen dizilimi verilerini temsil eder.
e. Akışlı veriler (Streamed data): Evden hasta takibi, tele sağlık, avuç içi ve algılayıcı tabanlı kablosuz veya
akıllı cihazlar gibi yeni veri kaynaklarından gelen veri ve türlerini ifade eder.
f. Web ve sosyal ağ verileri: Tüketici tarafından internetin kullanımı ya da arama motorları ve sosyal paylaşım
sitelerinden gelen yapılandırılmamış verileri kapsar.
g. İşletme, organizasyonel ve harici veriler: Fatura ve randevu sistemi gibi idari veriler ve diğer sağlık dışı
verilerden oluşur.
Sağlık hizmetlerinde büyük veri kaynakları şu şekilde de gruplandırılmaktadır: (Olaronke ve Oluwaseun, 2016;
Ehrenstein vd, 2017)
a. Makine Tarafından Oluşturulan Veriler: Sağlık sisteminde kullanılan makinelerden edinilen verilerdir.
Uzaktan algılayıcılar, giyilebilir cihazlar, akıllı sayaçlar ve sensörler, yaşamsal bulgu cihazlarından elde edilen
verileri içerir.
b. Biyometrik Veriler: Kişilerin parmak izi, genetik, imza, retina taramaları, kalp hızı, kan basıncı, nabız ve
nabız oksimetre okumaları gibi fiziksel özelliklerin yanı sıra röntgen ve diğer tıbbi görüntülerden elde edilen
verilerdir.
c. İnsan Tarafından Üretilen Veriler: Sağlık sisteminde insanlar tarafından oluşturulan verileri içerir. Bu tür
veriler, durum belgeleri, laboratuvar sonuçları, hastane kabul kayıtları, taburcu özetleri ve elektronik postalar
gibi yapılandırılmamış ve yarı yapılandırılmış klinik verileri içerir. İnsan tarafından üretilen veriler,
yapılandırılmış Elektronik Sağlık Kaydı (EHR) verileri de içerir.
d. İşlem Verileri: Sağlık talepleri ve fatura kayıtlarından elde edilen verileri içerir.
e. Davranış Verileri: Sosyal etkileşimlerden üretilen verilerin yanı sıra web siteleri, Twitter ve Facebook gibi
sosyal medya siteleri gibi iletişim araçları aracılığı ile üretilen verileri içerir. Facebook, Twitter ve diğer sosyal
medya platformları, kullanıcıların konumlarını, sağlık davranışlarını, duygularını ve sosyal etkileşimlerini
görüntüleyen zengin bir veri çeşitliliği üretir.
f. Epidemiyolojik Veriler: Bu veriler, istatistiksel verileri, sağlık araştırmaları ve hastalık kayıtlarını içerir.
Epidemiyolojik araştırma bağlamındaki büyük veriler, tek bir ülkedeki veri tabanları veya çokuluslu veri
about:blank 147/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
tabanlarının birbirine bağlanabilmesiyle elde edilen büyük veri setleri anlamına gelir.
h. Günlük yaşamdan sağlıkla ilişkilendirilebilecek güncel hayata ilişkin veriler: Bireylerin günlük
hayatlarındaki egzersiz düzeylerini gösteren adım sayıları, kilo değişimleri, beslenme şekilleri, tükettikleri
gıdalar, yararlı/zararlı alışkanlıkları vs. bu veriler kapsamındadır.
Sağlık Bakanlığı 2003 yılında Türk sağlık sisteminde hizmet sunumundan finansmanına, insan gücünden bilgi
sistemine kadar ilgili birçok alanda köklü değişikliklere gidilmesi amacıyla ‘Sağlıkta Dönüşüm Programını’
uygulamaya koymuştur. Sağlıkta Dönüşüm Programı ile Sağlık Bakanlığı Ulusal Sağlık Bilgi Sistemlerinde
önemli gelişmeler göstermiştir. 2013-2017 Stratejik Planında belirtilen misyonu insan merkezli yaklaşımla
birey ve toplum sağlığını en üst düzeyde korumak, sağlık sorunlarına zamanında, uygun ve etkili çözümleri
sunmak olan Sağlık Bakanlığı bu amaç doğrultusunda teknolojik gelişmeleri yakından takip ederek sağlık
kurumlarında bilgi ve iletişim teknolojileri kullanımının yaygınlaşması ve bilgi toplumuna dönüşümün hız
kazanmasına katkı sağlamaktadır. Sağlık Bakanlığı sağlık hizmet sunumunda koruyucu, tedavi ve rehabilite
edici sağlık hizmetleri sunmaktadır. Bu hizmet sunum süreçleri sonucunda giderek artan ve büyüklüğü ciddi
boyutlara ulaşan sağlık verisi oluşmaktadır.
Yukarıda verilen tüm işlemler 82.935 hekim, 8.266 diş hekimi, 101.204 hemşire, 47.997 ebe ve 101.989 sağlık
personeli ile gerçekleştirilmiştir. Bu verilere bakılarak kesintisiz hizmet veren sağlık alanında oluşan verinin
büyüklüğü görülmektedir (Ülgü ve Gökçay, 2017).
Oluşan bu büyük sağlık verisini yönetmek için Sağlık Bakanlığı olarak birtakım altyapı çözümleri
geliştirilmiştir. Öncelikle Sağlık Bakanlığı’nın Şekil 11.1’de görüldüğü üzere İstanbul ve Ankara’da bulunan
veri merkezlerinde toplam 60 adet veri merkezi kabini bulunmakta ve veriler burada depolanmaktadır.
Bunlardan 42 kabin kullanılmakta ve 18 kabin ise boş durumdadır.
about:blank 148/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Sağlık Bakanlığı’nın büyük veriyi yönetmek için oluşturduğu altyapı çözümlerinden diğeri Sağlık Bilişim Ağı
(SBA), sağlık sektöründe yer alan kurum ve kuruluşların kaynaklarını ve sağlıkla ilgili anonim verileri ortak
kullanabilmeleri ve güvenli yollardan hızlı veri iletişimi yapabilmeleri amacıyla oluşturulan sağlık özel ağıdır.
Dünya çapında sağlık alanında büyük veri kullanılarak yapılan çalışmalar gün geçtikçe artarken Sağlık
Bakanlığı da sağlık verilerinin toplanması, yönetilmesi ve analiz edilmesi ile karar verici ve politika yapıcıların
karar alma süreçlerine fayda sağlayarak sağlık hizmet sunumu kalitesini arttırmayı hedeflemektedir. Ayrıca
büyük veri analizleri ile kişilerin kendi sağlıklarının yönetiminde söz sahibi olmasını sağlayan kişiye özel
sistemler geliştirilerek etkili sağlık hizmeti sunmak da hedefler arasındadır. Bu hedefler doğrultusunda
birtakım uygulamalar geliştirilmiştir (Ülgü ve Gökçay, 2017). Bu uygulamalar şöyledir:
Teknolojik gelişmelerin bir sonucu olarak büyük verinin sağlık alanına entegre olması ile vatandaşların kendi
sağlıklarını yönetmeleri ve tedavi hizmetlerine erişimlerini kolaylaştırmak için Sağlık Bakanlığı e-Nabız
Kişisel Sağlık Sistemini geliştirmiştir. Sağlık Bakanlığı 2013-2017 Stratejik Planında belirtilen ‘Bireyin kendi
sağlığı ile ilgili kararlara aktif katılımını sağlamak için rolünü güçlendirmek’ hedefi ile doğrudan ilişkili olan e-
Nabız sistemi 4 Nisan 2015 tarihinde lansmanı yapılarak vatandaşların hizmetine açılmıştır. Sağlık kayıtlarının
vatandaşların erişimine açılmasını sağlayan e-Nabız sistemi ile vatandaşların sağlık hizmet sunumuna dahil
olması, sağlık okuryazarlığının artması ve sağlık hizmetlerinde sürdürülebilirliğin sağlanması
amaçlanmaktadır. Bunlara ek olarak toplanan verilerin analiz edilmesi ile karar verici ve politika yapıcılara
hazırlanan Karar Destek Sistemi raporları Bakanlık politikalarının belirlenmesine yardımcı olmaktadır.
e-Nabız sistemi vatandaşların 01.01.2015 tarihinden itibaren gittikleri sağlık kuruluşlarında toplanan muayene,
tanı ve tedavi verilerinin tamamı ve tüm tetkiklerin detaylı bir şekilde görülebildiği ulusal kişisel sağlık kaydı
uygulamasıdır. E-Nabız sistemi ile vatandaşlar ve sağlık profesyonelleri toplanan sağlık verilerine cep
telefonlarından, tablet ve bilgisayarlarından zamandan ve mekandan bağımsız olarak erişebilmektedir.
Vatandaşların tahlil sonuçları, reçete ve ilaç bilgileri, verilmiş her türlü rapor bilgileri, acil durum bilgileri,
radyolojik görüntüleri gibi kendilerine ait birçok sağlık verisine ulaşabilmelerini sağlayan e-Nabız sistemi aynı
zamanda giyilebilir teknolojiler ve mobil uygulamaları kullanarak adım, nabız, kalori, tansiyon, şeker gibi
sağlık verilerini sisteme kaydedebilmektedir. Ayrıca vatandaşlar organ bağışı ve kan bağışı bildirimlerinde
bulunabilmekte, 112 acil butonu ile acil durumlarda konumunu ve acil sağlık verilerini paylaşabilmektedir.
Sağlık Bakanlığının, tüm sağlık kuruluşlarının bilgi sistemlerini birbirine entegre ettiği e-Nabız sistemi sağlık
verilerini çevrimiçi olarak almakta ve anonimleştirerek korumaktadır. Bu veriler kullanılarak hastane, hekim ve
hizmet bazlı değerlendirme yapmak, sağlık politikaları oluşturmak, birinci, ikinci ve üçüncü basamak sağlık
hizmetlerinde kalite ve verimi arttırmak amaçlanmaktadır.
Teletıp/Teleradyoloji Sistemi
about:blank 149/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Sağlık Bakanlığı tarafından geliştirilen radyolojik görüntülerin işlendiği Teletıp sisteminin bir ucu olan
Teleradyoloji sistemi 2015 yılının ilk aylarında birkaç ilde pilot olarak başlamıştır. Daha sonra sistemin tüm
Türkiye’de yaygınlaştırılması amacıyla entegrasyon çalışmaları yapılmıştır. Teleradyoloji sisteminde HBYS ve
PACS sistemlerinde üretilen veriler, radyolojik raporlar ve klinik dokümanlar Sağlık Bakanlığına ait
sunucularda saklanmaktadır. Bu verilerin farklı sağlık tesislerinden erişilebilir olması amaçlanmaktadır. Mayıs
2017 tarihi itibarıyla Teleradyoloji sistemine entegre hastane sayısı 671, sistemi aktif kullanan hekim sayısı
26.109, aktif kullanıcı vatandaş sayısı 1.195.004, tetkik erişim talep sayısı 4.270.329, çekim sayısı 61.597.968,
kayıtlı vatandaş sayısı 37.740.156, rapor sayısı 20.640.841 ve son olarak Teleradyoloji sistemi üzerinden
yazılan rapor sayısı 502’ye ulaşmış durumdadır.
§ Merkezi radyoloji bilgi sistemi ile sesli ve yazılı radyolojik raporlama yapılabilmekte,
§ Karar Destek Sistemi ile hastanelere ait istatistikler anlık takip edilebilmektedir.
Gerektiğinde yeni sunucuların eklenebileceği dağıtık mimariye sahip ve tüm mobil cihazlarla uyumlu olan
Teleradyoloji sistemi e-Nabız Kişisel Sağlık Sistemi ile de entegre olup hekimler hastaların klinik verilerini ve
tıbbi görüntülerini çevrimiçi olarak birlikte değerlendirebilmekte ve aynı radyolojik görüntüyü birlikte
yorumlayarak rapor hazırlayabilmektedir (Ülgü ve Gökçay, 2017).
about:blank 150/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Teknolojik yenilikler, geleneksel hasta deneyiminin ötesinde yeni bakım yöntemlerini etkinleştirecek yeni veri
analiz yöntemlerini geliştirmektedir (Stanford Medicine, 2017). Bilgisayar sistemleri, bir programı çalıştıran
açıkça programlanmış kuralları kullanarak klinik karar verme desteği sunabilirler. Örneğin bireysel hasta
unsurları, hasta kabul edildiğinde kaydedilir. Ayrıca hemşirelik değerlendirmeleri ve gözlemlerine dayalı
veriler de hemşireler tarafından elektronik sağlık kayıtlarına kaydedilir. Her bir bireysel hasta unsuru,
bilgisayarlı veri tabanına uyarlanabilir. Bilgisayar yazılımıyla da bu verileri inceleyen, işleyen ve ilişkilendiren,
hastaların tedavi, müdahale ve bakımı için özel öneriler sağlayan bir algoritma çalıştırmak üzere bir
programlama yapılabilir (Harper, 2014).
Çünkü günümüz bilgisayar sistemleri, bir hastanın sepsis gelişiminin erken belirtilerini ve semptomlarını
belirlemek ve müdahale ekibini kısa sürede uyarmak için yapılmış kurallara benzer şekilde, “benzer hastaları”
tanımlamak için aynı anda yüzlerce kuralı çalıştırma potansiyeline sahiptir (Harper, 2014).
Büyük Veri, hastalıklar, terapiler ve sonuçların yanı sıra genetik verilerin sistematik olarak toplanması ve
analiziyle en iyi tanı ve tedavilerin seçilmesi, hastaların zarar görmesini önlenmesi ya da etkili terapilerin
geliştirilmesini etkileyici bir biçimde artırma potansiyeline sahiptir (BDV, 2016). Büyük veri kaynağı olarak
kullanılan elektronik sağlık kayıtları (EHR) klinik tıpta potansiyel bir değere sahip çok miktarda veri
sağlayabilir (Salas-Vega, 2015; Pentland, 2013).
Elektronik sağlık kayıtları aracılığı ile standart temelli klinik bilgilere etkin ve sorunsuz erişim, bakım
noktasında bilinçli klinik kararları desteklemek için önemlidir. Büyük veri setleri, bilgiyi sürekli iyileştirme ve
yenilik yapma konusunda bilgi sağlayabilir (Harper, 2014). Bu anlamda Hollanda, Danimarka ve İngiltere de
dahil olmak üzere birçok AB ülkesinin tıbbi konsültasyonları veya tedaviyi takiben hastanın bireysel sağlık
geçmişini güncelleyen bir elektronik sağlık kayıt sistemi (EHR) kurduğu belirtiliyor (Salas-Vega vd., 2015).
EHR kullanımı, klinik karar destek yeteneklerinin kullanımını kolaylaştırır; bunlar genellikle değerlendirme
verileri, tanı / sorun listesi, ilaç listesi ve laboratuar sonuçları gibi yapılandırılmış ve kodlanmış bilgilere
dayandırılır (Harper, 2014). Ayrıca Büyük Veri, sunulan veri çeşitliliği sayesinde birbiri ile ilgisiz duran verileri
bir araya getirerek işletme için bir içgörü yanı sıra bir değer yaratabilme gücüne sahiptir (Atan, 2016).
Büyük veri, kanser tıbbında kullanılabilir. Kanserli hastalar için daha iyi sonuçlar yaratmak için büyük veri
analizi kullanılabilir (Reeder-Hayes, 2017). Kurulan bazı büyük veri araştırma merkezlerinde kanser verileri
toplanıp analiz edilerek kanser tıbbında veri odaklı kişiselleştirilmiş tedavilerin uygulanması söz konusu
olabilmektedir (Salas-Vega, 2015). Örneğin tıbbi veri setlerini toplamak, analiz etmek ve kanser tıbbında veri
odaklı kişiselleştirmeyi teşvik etmek için Oxford Üniversitesi tarafından Büyük Veri Araştırma Enstitüsü ve
Chan Soon-Shiong Oxford Moleküler Tıp Merkezi kuruldu (Salas-Vega, 2015). Ayrıca İngiltere'de İngiltere
Toplum Sağlığı (Public Health England) ve Ulusal Kanser İstihbarat Ağının (National Cancer Intelligence
Network), bakım çalışmalarında devrim yaratmak amacıyla hastalıkların önlenmesi, tedavisi ve tedavi
sonuçlarını iyileştirmek için dünyanın en büyük kanser hastası veri tabanını oluşturmak üzere harekete geçtiği
belirtilmektedir (Gallagher, 2013; Salas-Vega, 2015).
“Hastalık sürveyansı, bulaşıcı hastalıkların ilerleme modellerini belirleyebilmek için yayılımlarının takip
edildiği, epidemiyolojik uygulamaların tamamına verilen isimdir.”
Büyük veri araştırma merkezleri ulusal ve küresel halk sağlığı sürveyanslarında kullanılmaktadır (Hay, 2013;
Salas-Vega, 2015). Toplu bireysel verilerle, küresel hastalık eğilimleri gerçek zamanlı olarak izlenebilir (Ji,
2014; Salas-Vega, 2015; Ola ve Sedig, 2014). Örneğin Philips liderliğinde, yaşamsal bulguları periyodik olarak
izleyerek ve sağlık durumunu gerçek zamanlı olarak oluşturarak kardiyovasküler hastalıkların önlenmesi için
akıllı bir sistem geliştirilmiştir (Ji vd., 2014). Vücut alan sensor ağları (body area sensor network- BASN),
insan vücuduna yerleştirilen biyolojik sensörler ile gerçek zamanlı tıbbi veri toplama için kullanılan bir veri
toplayıcı (Sink) tarafından oluşturulan kablosuz bir ağdır. BASN verileri toplayabilir, sınıflandırılmış öğrenme
yapabilir ve verileri gerçek zamanlı olarak analiz edebilir, böylece erken bir tıbbi uyarıda bulunabilir (Ji, 2014).
X73 Mobil sağlık hizmeti sistemi (X73 uHealth system) saniyede bir milyon aralıktaki mesajları işleyebilir. Bu
sistem ile gerçek zamanlı tıbbi veriler alınır ve çeşitli önceden tanımlanmış sağlık parametre eşikleriyle
karşılaştırır. Böylece gerçek zamanlı olarak hastanın sağlık durumu izlenir. Bu sistem, tıbbi parametre
değerlerinden biri anormal bir şekilde sapma gösterir ve sapmaya devam ederse, hastalığın önlenmesi ve
tedavisi için zaman kazandırıcı bir uyarı verir (Ji, 2014). Cep telefonu ve web servis yeteneklerine sahip, mobil
sağlık izleme sistemi ile Büyük Veri analizleri yapılabilir. Mobil sağlık izleme sistemi ile (Zhang, 2015)
about:blank 151/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
§ Solunum ve kalp hızı gibi fizyolojik parametreler, giyilebilir sensörler tarafından ölçülmekte ve kullanıcının,
sağlık durumunu daha kolay gözlemleyebilmesi için grafik arayüzü sunan bir cep telefonuyla
kaydedilmektedir.
§ Doktorlara ve aile bireylerine bir web arayüzü aracılığıyla gerekli verileri sağlar ve yetkili personelin
hastanın durumunu izlemesi ve uzaktan teşhis etmesini sağlar.
§ Beklenmedik olayların zamanında ele alınabilmesi için, bir düşme veya kalp krizi gibi acil bir durum
sırasında gerçek zamanlı alarm ve konumlandırma servislerini destekler.
Aynı zamanda nüfus sağlığı konularındaki araştırmalarda da büyük veriden faydalanıldığı belirtilmektedir
(Nash, 2014; Salas-Vega, 2015). Kurulan merkezlerden elde edilen verilerden sağlanan görsel analiz, gıda
kaynaklı hastalık eğilimleri temelinde uygun müdahale politikalarının seçimine yardımcı olmak için
kullanılmaktadır (Salas-Vega, 2015). İnternetin ortaya çıkardığı çok sayıdaki facebook, twitter, instagram,
tumblr, google ve amazon gibi çevrimiçi iletişim kanalları Büyük Veri için önemli bir kaynaktır. Dolayısıyla bu
kaynaklar; sosyodemografik özellikler, yaşam tarzı davranışları, sosyo-kültürel yapılar, süpermarketlerden
aldıkları ürünler ve tüketici alışkanlıkları gibi konularda toplum sağlığında kullanılabilecek pasif olarak
toplanmış önemli bir veri zenginliği sağlar (Gittelman, 2015). Bireyler ve halk sağlığı araştırmacıları tarafından
bu kanallardan biri olan Facebook’un, yeni sürveyans uygulamaları için kullanıldığı belirtilmektedir
(Gittelman, 2015). Ancak bu verilerin analizinde, bilgisayar tabanlı bilgi araçları gereklidir (Ola ve Sedig,
2014). Bu zengin verilerden toplum sağlığı araştırmalarında çıkarımlar yapmak için Büyük Verinin sunduğu
analiz imkanlarından yararlanılabilir. Çünkü Büyük Veri kullanımı, koruyucu bakım verilmesi gereken veya
yaşam tarzı değişikliklerinden fayda görecek kişileri proaktif olarak belirleyecek bir gelişmiş profil analizi (ör.
tahmini modelleme) yapma ve uygulama imkânı sunar9. Ayrıca yaşlı, obez, hipertansif hastalar gibi değişen
profildeki hasta grubuna sağlık riskleri hakkında bilgi vermek ve davranış değişikliği yaratmak için de bu
tahmini modellemeler kullanılabilir (Salas-Vega, 2015). Büyük Verinin toplum sağlığı alanında kullanım
biçimleri kısaca şöyle özetlenebilir (Raghupathi ve Raghupathi, 2014; Feldman, 2012; Kao, 2014; Mavandadi,
2012)
§ Halk sağlığı sürveyansı ve cevap hızını iyileştirmek için hastalık salgınları ve bulaşların izlenmesi ve hastalık
kalıplarının analiz edilmesi
§ Daha hassas hedeflenmiş, örneğin, yıllık influenza türünün seçilmesi gibi alt türlere odaklanmış aşıların hızla
geliştirilmesi
§ Yeni dijital görüntüleme ve algılama teknolojilerinin maliyet avantajı ve taşınabilirliği sayesinde chip tabanlı
platformlar vasıtasıyla, sınırlı kaynaklara sahip ve uzak bölgelerinde bile büyük miktarda biyomedikal ve
çevresel verilerin geniş kapsamlı üretimine ve kullanımına olanak tanıyacaktır. Bu verilerin zenginliği, çeşitli
hastalıkların ve sağlık koşullarının mekânsal ve zamansal özellikleri gibi farklı olgularını daha iyi anlamak ve
küresel ölçekte tür kalıplarını ilişkilendirmemize, ulusal ve uluslararası sağlık ve çevre politikalarımızı
belirlemek için yeni fırsatlar sağlayacaktır.
§ Özellikle toplum sağlığı için krizleri öngörmek, önlemek, sağlık ihtiyaçlarını belirlemek ve gerekli hizmetin
sunulması amacıyla büyük miktarda veriyi eyleme geçirilebilir bilgilere dönüştürmek mümkün olabilir.
Tıp eğitimi ve öğretiminde Büyük Veri iki biçimde değerlendirilmektedir. Birincisi, yakın gelecekte eğitim
müfredatında bir ihtiyaç olacağı öngörüsü ile yer alması gerekliliği diğeri de Büyük Verinin bir araç olarak
eğitim ve öğretimde kullanılmasıdır (Salas-Vega, 2015; Ellaway, 2014; Krumholz, 2014; Thomas ve McSharry,
2015). Tıp, veri bilimini de kapsayan bir bilgi mesleğidir. Ancak klinik araştırmacıların çok azı veri bilimi
konusunda tam olarak eğitilmişlerdir. Dolayısıyla bu konuda klinik araştırmacıların yeteneklerinin
güçlendirilmesi konusuna yatırım yapmaya ihtiyaç vardır. Klinik araştırmacıların, verilerin gizli kalıplarını
bulmasını amaçlayan analizleri, ilişkiler ve kalıpların anlaşılması için grafik analizlerinin kullanımı gibi yeni
terimleri içeren veri bilimi hakkında bilgi sahibi olmaları oldukça önemlidir. Çünkü bir araştırmada verilerin en
about:blank 152/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
iyi nasıl üretileceğini bilmek bazı donanımlara (veri kullanım ve bilişim becerileri) sahip olmayı
gerektirecektir. Dolayısıyla bu konuların tıp müfredatının bir parçası olması gerekeceği düşünülmektedir
(Krumholz, 2014).
Kurumların verilerden öğrenmesi, kurumların verileri aranabilir bir forma dönüştürme ve bilgi birikimini
keşfetmek için bilgi işlem gücü kullanma yeteneklerine bağlıdır. (Harper, 2014). Ancak bu gücü kullanmak için
gerçekten kurumun üst yönetiminin bu konuya inanması ve gereken desteği vermesi istenen öğrenmenin
sağlanmasında temel şarttır. Kurumsal öğrenmede önemli bir kaynak olma potansiyeline sahip olan elektronik
sağlık kayıtlarına (EHR) ABD’de dahil olmak üzere çoğu ülke, sahip değildir (Harper, 2014).
Günümüzde verilerin yararlanıldıktan sonra eskiyen ve statik bir özelliğe sahip olduğu görüşü yerine, yenilik
ve değer yaratan bir hammadde/kaynak olarak değerlendirildiği görüşü kabul edilmektedir (Harper, 2014;
Groves, 2013). Hastalığın genetik özelliklerinin belirlenmesi gibi çeşitli sağlık alanlarda yapılan araştırmalar,
Büyük Veri kaynakları (sigorta talepleri, kanser kayıtları ve elektronik sağlık kayıtlarındaki veriler vs.)
kullanılarak yürütülmektedir (Reeder-Hayes, 2017). Büyük Verinin olası sağlık hizmetleri Ar-Ge kullanım
şekilleri şu şekilde özetlenebilir (Raghupathi ve Raghupathi, 2014; Feldman vd, 2012):
§ İlaçlar ve cihazlardaki yıpranmayı azaltmaya ilişkin yapılan araştırmalarda Büyük Veri algoritmaları, daha
hızlı ve daha hedefli bir Ar-Ge sunabilir.
§ Büyük veri ile yapılan istatistiksel araçlar ve algoritmalar ile hastalara daha uyumlu tedavileri sağlamak
üzere kişiselleştirilmiş tedavileri için klinik deneme tasarımı geliştirilebilir. Böylece deneme başarısızlıkları
azalır ve yeni tedavilerin pazarlanmasını hızlandırır.
§ Büyük Veri, ürünler daha piyasaya girmeden yan etkilerini keşfetmek ve takip eden endikasyonları
belirlemek için hasta kayıtları ve klinik araştırmaların analiz edilmesine imkan sağlar.
§ Büyük Veri, doğru zamanda doğru tedavinin doğru hastayla eşleştirilmesiyle ulaşılabilecek kişiselleştirilmiş
tıbba yardımcı olmak için geniş veri kümelerinin analizini yapabilir (Raghupathi ve Raghupathi, 2014;
Feldman, 2012).
Ortaya çıkan mobil ve bilgisayar tabanlı sağlık uygulamaları, hastaların kişisel tedavi deneyimlerini
paylaşmalarına ve fiziksel ve zihinsel sağlıklarını geliştirmelerine yardımcı olmuştur (Salas-Vega vd., 2015).
Büyük Veri ile Geliştirilen program, hastaların bakım ve kişisel sağlıklarının teşviki ve geliştirilmesinde
günlük kalori tüketimi, glikoz seviyesi gibi kişisel sağlık verilerini depolamak, almak ve yönetmek için
benzersiz bir yol sağlar. Böylece kişisel sağlık hizmetinin geliştirilmesini hızlandırır (Kim, 2014). Örneğin,
Stanford Medicine tarafından yapılan araştırmalarda, giyilebilir cihazların, Lyme hastalığı gibi olası
hastalıkların belirtilerini algılamak için biyolojik sensörleri kullanabileceği belirtilmektedir (Stanford
Medicine, 2017). Aktif bir yaşam tarzı geliştirmek amacıyla kişilere özgü zihinsel, fiziksel ve sosyal
sağlıklarına dayalı bir sağlık hizmeti sunmak üzere kişiselleştirilmiş bir platform kullanılabilir. Bu platform,
kullanıcının akıllı telefonundan ve giyilebilir sensörlerinden elde edilen duyusal veriler temel alınarak
kullanıcının faaliyetlerini, duygularını ve sosyal etkileşimini tanır. Bu büyük hacim ve çeşitlilikteki duyusal
verileri depolamak ve işlemek için, büyük veri depolama teknolojisi ve bulut bilgi işlem yeteneği kullanılır.
Gerek insan davranışının anlaşılması gerekse de aktif bir yaşam biçimi ve refahının desteklenmesi için uygun
kişiselleştirilmiş yaşam tarzı kalıplarını önerilmesinde Büyük Verinin yararlı olabileceği belirtiliyor. Çünkü
insan davranışının anlaşılmasıyla aktif bir yaşam biçimi için uygun kişiselleştirilmiş yaşam tarzı kalıplarının
önerilmesi mümkün olabilir (Fahim, 2014).
Genomik ve biyoinformatik, veri ve sağlık konularının birleşmesinden oluşan ve büyük verinin diğer önemli
kullanım alanlarındandır (Salas-Vega, 2015). Biyoinformatik, biyolojik bilgilerin yaratılması ve saklanması
için veri tabanlarının oluşturulmasıdır (Polat ve Karahan, 2009). Biyoinformatiğin önemli fonksiyonlarından
biri, biyolojik olayların moleküler düzeyde açıklanmasına yardımcı olmasıdır. Dolayısıyla hastalıkların teşhisi
about:blank 153/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Genomik; bir organizmadaki tüm DNA genlerinin haritalanması, sıralanması ve analizini içeren yeni bir
disiplindir (Polat ve Karahan, 2009). Bu alanda oluşturulan veri tabanlarının büyük bir kısmını nükleik asitler
oluşturmaktadır11. Milyonlarca nükleotidin depolanması ve organizasyonu için veri tabanlarının oluşturulması,
araştırıcıların bu bilgilere ulaşabilmeleri ve yeni verileri girebilmeleri için zorunlu bir aşamadır (Çadırcı,
2009). Genomiklerin iki temel kullanım şekli vardır. Bunlar; malign tümörlerin ve genomların sıralanmasıdır.
Gerek sıralama gerekse de translasyonel biyoinformatik, veri işleme için büyük miktarda depolama ve analitik
güç gerektiren Büyük Veri uygulamalarını gerektirir (Salas-Vega, 2015).
Yeni nesil gen sıralama teknolojisinin son zamanlarda ortaya çıkması, patojen genomdaki izlenebilir
farklılıkların tanımlanmasına olanak tanır (Kao, 2014). Normal ve/veya hasta kişilerin gen fonksiyonlarının
tam olarak nasıl işlev gördüğünün anlaşılması, hastalıkların algılanmasında, teşhis ve tedavisinde ilerlemelere
yol açabilir (Polat ve Karahan, 2009). Örneğin insan genom projesindeki büyük başarı, bireysel genetik
taramaların çok düşük bir maliyet ile gerçekleştirilmesine olanak sağlamıştır (Polat ve Karahan, 2009).
Özellikle bulut bilgi işlem ve depolama teknikleri de dahil olmak üzere, altyapı ve büyük veri araçları genetik
ve ilişkili bilim dallarında kullanılıyor. AB'de bunun bir örneği “Helix Nebula Projesi”dir (Salas-Vega, 2015).
Genellikle sağlık kuruluşlarında meydana gelen büyük veri sorunları dört ana kategoride ele alınmaktadır (BK
Sarkar, 2017).
1. Veri Yönetimi: Veri yönetimi ve düzenlemesi, verilerin yönetişimidir. Sağlık sektörü veri analitiğine doğru
ilerlerken, veri yönetişimi büyük bir zorluk haline geliyor. Üretilen sağlık hizmeti verileri, doğası gereği
çeşitlendirilmiştir ve standardizasyon ve yönetişim gerektirir.
2. Ekonomik Zorluklar: Klinik ziyaretler boyunca hastalar ve sağlık profesyonelleri arasındaki tıp alanındaki
tesisler, ücretli hizmete bağlıdır. Daha sonra, bu süreçle ilişkili teknolojilerdeki ilerleme, tıp camiasına bir yük
getirmekte ve personel için bu tür ücretsiz hizmetlere karşı gereksiz bir etki yaratmaktadır.
3. Büyük Veri Teknolojisinin Zorlukları: Sağlık hizmetlerinde büyük veri çok büyük ve çok parçalıdır, bu da
bilgi kalitesinde sorunlara neden olur ve ayrıca teknoloji açısından büyük veri, sağlık hizmeti vizyonunu
gerçekleştirmek için bir engel oluşturur.
4. Güvenlik ve Gizlilik Sorunları: Büyük veri çağında, bireysel sağlık paydaşları hakkında potansiyel olarak
hassas bilgiler nedeniyle sağlık verilerinin gizliliği ciddi şekilde düşünülmelidir. Sağlık hizmetleri verileri,
kamuya açık hale getirilmemesi için yetkisiz erişime karşı güvence altına alınması gereken son derece hassas
verilerdir ve ayrıca sağlık hizmeti sahtekarlığı da saldırganlardan önlenebilir. Bu nedenle, veri güvenliği sağlık
alanındaki en önemli zorlu görevlerden biridir.
about:blank 154/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Büyük verinin sağlık alanında kullanılmasıyla ortaya çıkan etik açıdan anlamlı olan sorun alanlarından belki de
en önemlisi kişinin sağlığıyla ilgili verilerinin dijital ortama aktarılmasından sonra bunların korunması ve
kişinin tasarrufu ve rızası dahilinde kullanılmasıdır. Bu durum sağlık hizmetlerinden istifade eden herkes için
geçerli olduğuna göre büyük veri kullanımı ile ilgili yeterli bilgi düzeyi ve hassasiyette olmayan insanlar için
ciddi bir sorun teşkil etmektedir. Dolayısıyla bu alanda ilk karşımıza çıkan problem her yetişkin insanın bu
konuda gerektiği kadar ve doğru bir şekilde bilgilendirilmesidir. Büyük verinin sağlık alanında yaygın olarak
kullanılmasında diğer bir sorun bu verilerin ve bilgilerin hasta veya kişi mahremiyeti bağlamında
korunmasıdır.
Bilindiği gibi sağlık hizmetleri sırasında hekimin hastası ile olan ilişkisi özel olma durumundadır ve
dolayısıyla hem hukuki olarak hem de etik açıdan hekim sır saklama mükellefiyetindedir. Ancak büyük veri
geniş alanlarda kullanıldığında bu mükellefiyetin gerçekleştirilmesi zorlaşmaktadır. Bu konudaki klasik
problemlerden birisi kişinin sağlıkla ilgili bilgilerine başkaları tarafından ulaşılarak kişinin aleyhinde birtakım
sonuçları doğurmasıdır (Uçar ve İlkılıç, 2019).
Bölüm Özeti
Sonuç olarak sağlık alanında oluşan verinin büyüklüğüne bakıldığında sağlık hizmet sunumunda kalite, hız ve
verimliliği arttırmak için bu veriyi yönetmenin ve analiz etmenin gerekliliği açıkça görülmektedir. Sağlık
Bakanlığı da bu amaçla veriyi sistem altyapısında bulunan veri merkezlerinde depolamakta ve Sağlık Bilişim
Ağı ile tüm sağlık kurum ve kuruluşlarını aynı ağ üzerinden birbirine bağlayarak verilerin ortak
kullanılabilmesini sağlamaktadır. Ayrıca Bakanlık olarak sağlık alanında oluşan büyük verinin yönetilmesi ve
analizi ile etkili sağlık hizmet sunmak ve gerçek zamanlı karar desteği sağlamak amacıyla Sağlık Yönetim
Sistemi, e-Nabız Kişisel Sağlık Sistemi ve Teletıp/Teleradyoloji Sistemi gibi entegratif sistemler
geliştirilmiştir. Bu doğrultuda hızla gelişen teknolojik çağa ayak uydurularak yeni sistemler ve projeler
geliştirilmeye devam edilecektir. Böylece vatandaşa etkin ve kaliteli sağlık hizmeti sunmak için karar verici ve
politika yapıcılara strateji ve politika geliştirme noktasında destek sağlanacaktır.
Bu bölümde esas olarak tıbbi Büyük Veri ile ilgili kavramları, arka planı ve ana uygulamaları tanıtmaktadır ve
tıbbi Büyük Veri ile ilgili Sağlık Bakanlığı’nın yaptığı çalışmalar, zorlukları, uygulama alanları ve etik
boyutunu tanıtmaktadır. Ek olarak, büyük tıbbi verilerin çalışmasındaki fırsatları aşağıda özetliyoruz.
Sağlıkta büyük verilerin kullanımının sunduğu fırsatlar ülkeleri, bunun önemini farkına varmaya ve sağlık
bilgilerinin depolanabileceği çok geniş kapsamlı veri merkezleri kurmaya yöneltmektedir. Bu anlamda
ülkemizde de sağlık sisteminin performansını artırmak amacıyla büyük hacimlerdeki sağlık veri setlerini
toplamak ve analiz etmek üzere Büyük Veri Araştırma Enstitülerinin kurulması önerilebilir. Kurulan bu
Enstitülerde analitik maliyetini azaltmak, etkili Klinik Karar Destek (CDS) sistemleri geliştirmek, daha iyi
tedavi stratejileri için platformlar sağlamak ve büyük verilerle ilişkili dolandırıcılığı tespit etmek ve önlemek
konusunda çalışmalar yapılabilir. Ayrıca sağlık hizmetlerinde büyük verinin bir araç veya bir proje yerine
ulusal bir strateji olarak ele alınması önerilmektedir.
Kaynakça
[1] Atan S. (2016). “Veri, Büyük Veri ve İşletmecilik”. Balıkesir Üniversitesi Sosyal Bilimler Enstitüsü
Dergisi, (35), 137-153.
[2] Ward JS and Barker A. (2013). Undefined By Data: A Survey of Big Data Definitions. arXiv:1309.5821v1
[cs.DB] 20 Sep 2013. https://arxiv.org/pdf/1309.5821.pdf
about:blank 155/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
[3] De Mauro A, Marco Greco, M, Grimaldi M. (2015). What is Big Data? A Consensual Definition and a
Review of Key Research Topics. International Conference on Integrated Information (ICININFO 2014) AIP
Conf. Proc. 1644, 97-104 (2015); doi: 10.1063/1.4907823
[4] Salas-Vega S, Haimann A, and Mossialos E. (2015). Big Data and Health Care: Challenges and
Opportunities for Coordinated Policy Development in the EU. Health Systems & Reform, 1(4):285–300.
[5] Yengi Y. (2016). “Büyük Veride Duygu Analizine Dayalı Öneri Sistemleri”. Kocaeli Üniversitesi, Fen
Bilimleri Enstitüsü, Bilgisayar Mühendisliği Anabilim Dalı Yüksek Lisans Tezi. Kocaeli.
[6] Reeder-Hayes KE, Troester MA, Meyer AM.(2017). Reducing Racial Disparities in Breast Cancer Care:
The Role of 'Big Data' . Oncology Journal, 31(10).
[7] Bayrakçı S. (2015). “Sosyal Bilimlerdeki Akademik Çalışmalarda Büyük Veri Kullanımı”. Marmara
Üniversitesi Sosyal Bilimler Enstitüsü, Gazetecilik Anabilim Dalı, Bilişim Bilim Dalı Yüksek Lisans Tezi.
İstanbul.
[8] Herland M, Khoshgoftaar TM and Wald R(2014). “A review of data mining using big data in health
informatics”. Journal Of Big Data.1(2).
[9] Olaranke I and Oluwaseun O. (2016). Big Data in Healthcare: Prospects, Challenges and Resolutions. FTC
2016 - Future Technologies Conference 2016 . 6-7 December 2016 . San Francisco, United States.
[10] Habl C, Renner AT, Bobek J, Laschkolnig Anja (2016). Study on Big Data in Public Health, Telemedine
and Healthcare Final Report (December 2016).
[11] Dinov Ivo D. (2016). “Volume and Value of Big Healthcare Data”. J Med Stat Inform. 2016; 4: .
doi:10.7243/2053-7662-4-3.
[12] Big Data Value Association BDV (2016). Big Data Technologies in Healthcare Needs, opportunities and
challenges. Available at (Son Erişim: 22 Kasım 2016)
http://www.bdva.eu/sites/default/files/Big%20Data%20Technologies%20in%20Healthcare.pdf
[13] Ülgü MM, Gökçay O(2017). “Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar”içinde (267-
282.ss.), Grafiker Yayınevi.
[14] Stanford Medicine (2017). Health Trends Report: Harnessing the Power of Data in Health, July 2017.
Available at (Erişim Tarihi 22 Kasım 2021):
https://med.stanford.edu/content/dam/sm/smnews/documents/kimordMedicineHealthTrendsWhitePaper2017.pdf
[15] Harper E. (2014). Can big data transform electronic health records into learning health systems? In:
Nursing Informatics 2014, Saranto K, Weaver CA, Chang P, eds. Amsterdam, The Netherlands: IOS Press;
2014.
[16] Gallagher J. Public Health England to launch largest cancer database [internet]. BBC News. 2013.
Available at (Erişim Tarihi: 22 Ekim 2021):
http://www.bbc. co.uk/news/health-22870352
[17] Hay SI, George DB, Moyes CL, Brownstein JS (2013). Big Data Opportunities for Global Infectious
Disease Surveillance. PLoS Med 10(4): e1001413.
[18] Ji Z, Ganchev I, O’Droma M, Zhang X, Zhang X. (2014). A cloud based X73 ubiquitous mobile
healthcare system: design and implementation. Sci World J 2014; 2014(2014): 1-14.
[19] Ola O, Sedig K. (2014). The challenge of big data in public health: an opportunity for visual analytics.
Online J Public Health Inform. 5(3): 1–21.
about:blank 156/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
[20] Zhang Y, Liu H, Su X, Jiang P, Dongfei Wei D. (2015). “Remote Mobile Health Monitoring System Based
on Smart Phone and Browser/Server Structure”. Journal of Healthcare Engineering· Vol. 6 · No. 4 · 2015 Page
717–738.
[21] Kao RR, Haydon DT, Lycett SJ, Murcia PR. (2014). Supersize me: how whole-genome sequencing and
big data are transforming epidemiology. Trends Microbiol. 22(5): 282-291.
[22] Nash DB. (2014). Harnessing the power of big data in healthcare. Am Health Drug Benefits. 7(2): 69-70.
[23] Gittelman S, Lange V, Gotway Crawford CA, Okoro CA, Lieb E, Dhingra SS & Trimarchi E. (2015). A
New Source of Data for Public Health Surveillance: Facebook Likes. Journal of Medical Internet Research,
17(4), e98. http://doi.org/10.2196/jmir.39703.
[24] Raghupathi W and Raghupathi V. (2014). Big data analytics in healthcare: promise and potential. Health
Information Science and Systems, 2, 3. http://doi.org/10.1186/2047-2501-2-3
[25] Feldman B, Martin EM, Skotnes T. (2012). Data in Healthcare Hype and Hope. Available at (Erişim
Tarihi: 22 Ekim 2021):
http://www.kmhealthcare.net/images/hypeandhope.pdf
[26] Mavandadi S, Dimitrov S, Feng S, Yu F, Yu R, Sikora U, Ozcan A. (2012). Crowd sourced BioGames:
managing the big data problem for next generation lab o a chip platforms. Lab Chip. 12(20): 4102–4106
[27] Ellaway RH, Pusic MV, Galbraith RM, Cameron T. (2014). Developing the role of big data and analytics
in health professional education. Med Teach. 36(3): 216-222.
[28] Krumholz HM. (2014). Big data and new knowledge in medicine: the thinking, training, and tools needed
for a learning health system. Health Aff. 33(7): 1163-1170.
[29] Thomas R and McSharry P. (2015). Big Data Revolution: What farmers, doctors and insurance agents
teach us about discovering big data patterns. 1st Edition, Published by John Wiley Sons Inc, United States.
[30] Groves P, Kayyali B, Knott D, Van Kuilen S. (2013). The “big data” revolution in healthcare: Accelerating
Value and İnnovation. Available at (Erişim Tarihi: 22 Ekim 2021):
https://www.ghdonline.org/uploads/Big_Data_Revolution_in_health_care_2013_McKinsey_Report.pdf
[31] Kim JH. (2014). Health avatar: an informatics platform for personal and private big data. Healthc Inform
Res. 20 (1): 1-2.
[32] Fahim M, Idris M, Ali R, Nugent C, Kang B, Huh EN, Lee S. (2014). ATHENA: a personalized platform
to promote an active lifestyle and wellbeing based on physical, mental and social health primitives. Sensors
(Basel). 14(5): 9313-9329.
[33] Polat M, Karahan AG (2009). Multidisipliner yeni bir bilim dalı: biyoinformatik ve tıpta uygulamaları.
S.D.Ü. Tıp Fak. Derg. 16(3)/ 41-50.
[34] Uçar A, İlkiliç İ. “Büyük Verinin Sağlık Hizmetlerinde Kullanımında Epistemolojik ve Etik Sorunlar”.
Sağlık Bilimlerinde İleri Araştırmalar Dergisi 2/2 (06 Eylül 2019), 80- 92.
https://doi.org/10.26650/JARHS2019-616389
[35] Sarkar BK. “Güvenli sağlık sistemi için büyük veri: kavramsal bir tasarım,” Karmaşık ve Akıllı Sistemler,
cilt. 3, hayır. 2, s. 133–151, 2017.
Ünite Soruları
about:blank 157/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Soru-1 :
Aşağıdakilerden hangisi sağlık hizmetlerinde büyük veri analitiğinin faydalarından biri değildir?
(Çoktan Seçmeli)
Cevap-1 :
Soru-2 :
(Çoktan Seçmeli)
Cevap-2 :
Soru-3 :
(Çoktan Seçmeli)
(B) Sağlıkta personel performansını iyileştirmek amacıyla hastalardan toplanan verileri ve veri kümelerini
ifade eder.
(C) Sağlık ve sağlık sistemi performansını artırmak amacıyla elektronik olarak yakalanan ve saklanan, rutin
veya otomatik olarak toplanan büyük veri kümelerini ifade eder
(E) Sağlık sektöründe yer alan tıbbi sigorta ve ilaç endüstrisi ile reçete sistemini modellemeyi ifade eder.
about:blank 158/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-3 :
Sağlık ve sağlık sistemi performansını artırmak amacıyla elektronik olarak yakalanan ve saklanan, rutin veya
otomatik olarak toplanan büyük veri kümelerini ifade eder
Soru-4 :
(Çoktan Seçmeli)
Cevap-4 :
Soru-5 :
Aşağıdakilerden hangisi sağlıkta büyük veri kaynakları için oluşturulan gruplardan biri değildir?
(Çoktan Seçmeli)
Cevap-5 :
Soru-6 :
(Çoktan Seçmeli)
about:blank 159/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-6 :
Epidemiyolojik veriler
Soru-7 :
Aşağıdakilerden hangisi Sağlık Bakanlığı’nın büyük veriyi yönetmek için oluşturduğu altyapı
çözümlerine verilen isimdir?
(Çoktan Seçmeli)
Cevap-7 :
Soru-8 :
Aşağıdakilerden hangisi e-Nabız Kişisel Sağlık Sistemi için doğru bir ifade değildir?
(Çoktan Seçmeli)
(A) Vatandaşların kendi sağlıklarını yönetmeleri ve tedavi hizmetlerine erişimlerini kolaylaştırmak amacıyla
oluşturulmuştur.
(B) Bireyin kendi sağlığı ile ilgili kararlara aktif katılımını sağlamak için rolünü güçlendirmek hedefine
ulaşması amaçlanmıştır.
(C) Toplanan veriler analiz edilerek karar verici ve politika yapıcılara karar destek sistemi raporları belirlemede
yardımcı olması amaçlanmıştır.
(D) Vatandaşların tahlil sonuçlarını, reçete ve ilaç bilgilerinin yanında giyilebilir teknolojiler ile toplanan
bilgilerden de hastaya tanı koyabilecek karar destek sistemi il hastalara hizmet vermektedir.
(E) 2015 yılından itibaren gittikleri sağlık kuruluşlarında toplanan muayene, tanı ve tedavi verilerini
toplamaktadır.
Cevap-8 :
Vatandaşların tahlil sonuçlarını, reçete ve ilaç bilgilerinin yanında giyilebilir teknolojiler ile toplanan
bilgilerden de hastaya tanı koyabilecek karar destek sistemi il hastalara hizmet vermektedir.
about:blank 160/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Soru-9 :
(Çoktan Seçmeli)
(A) EMG, EEG, ECG gibi biyolojik bütün sinyalleri yapay zeka ile analiz edebilmekte ve paylaşabilmektedir.
(B) Merkezi radyoloji bilgi sistemi ile sesli ve yazılı radyolojik raporlama yapılabilmektedir.
Cevap-9 :
EMG, EEG, ECG gibi biyolojik bütün sinyalleri yapay zeka ile analiz edebilmekte ve paylaşabilmektedir.
Soru-10 :
Aşağıdakilerden hangisi sağlık alanında kullanılan büyük veri alanlarından biri değildir?
(Çoktan Seçmeli)
Cevap-10 :
Soru-11 :
Aşağıdakilerden hangisi mobil sağlık hizmeti ile büyük veri çalışmalarının getirilerinden biri değildir?
(Çoktan Seçmeli)
(A) Solunum ve kalp hızı gibi fizyolojik parametreler, giyilebilir sensörler tarafından ölçülmekte ve
kullanıcının, sağlık durumunu daha kolay gözlemleyebilmesi için grafik arayüzü sunan bir cep telefonuyla
kaydedilmektedir.
(B) Doktorlara ve aile bireylerine bir web arayüzü aracılığıyla gerekli verileri sağlar ve yetkili personelin
hastanın durumunu izlemesi ve uzaktan teşhis etmesini sağlar.
(C) Beklenmedik olayların zamanında ele alınabilmesi için, bir düşme veya kalp krizi gibi acil bir durum
sırasında gerçek zamanlı alarm ve konumlandırma servislerini destekler.
about:blank 161/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(D) Miktoorganizmaların 5inkübasyon süreleri, iletim oranlarının heterojenlik, bulaşıcılık süreleri ve yüksek
riskli grupların varlığını belirlemesini ve tanımlanmasını sağlar.
(E) Gerçek zamanlı hastaların izlenmesi, tıbbi parametre değerlerinde anormal saptamaları uyarıcı sistemler ile
gerekli servisleri destekler.
Cevap-11 :
Miktoorganizmaların 5inkübasyon süreleri, iletim oranlarının heterojenlik, bulaşıcılık süreleri ve yüksek riskli
grupların varlığını belirlemesini ve tanımlanmasını sağlar.
Soru-12 :
Aşağıdakilerden hangisi sağlıkta büyük veri ile çalışmanın zorluklarından biri değildir?
(Çoktan Seçmeli)
Cevap-12 :
Hasta yönetimi
about:blank 162/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Başlamadan Önce
Büyük verinin beraberinde getirdiği sosyal ve ekonomik fayda bütün dünyada gerek özel sektör gerekse kamu
verisinin büyük veri uygulamaları çerçevesinde değerlendirilmesi yaklaşımını ortaya çıkarmaktadır. Bununla
birlikte, büyük veri, ortaya çıkardığı faydanın yanında işlenen verilerin büyük bir kısmının kişisel veriler
olması dolayısıyla veri mahremiyeti kurallarının uygulanması bakımından birtakım zorlukları beraberinde
getirmiştir. Bu durum başta İktisadi İşbirliği ve Kalkınma Teşkilatı (OECD), AB ve ABD gibi politika yapıcı
kurum, kuruluş ve ülkeleri yeni bir düzenleyici tepki ortaya koymaya teşvik etmiş, bu çerçevede kapsamlı
güncelleme çalışmaları hızlıca ortaya konulmuştur. Zira büyük veri çağı henüz başlamasına rağmen bu
teknolojinin veri mahremiyeti bakımından ortaya çıkardığı sorunlara ilişkin çözüm önerilerinin bir an önce
geliştirilmesi önem arz etmektedir.
Veri mahremiyetinin ihlali devletlerin vatandaşlarını koruması açısından güvence altına alınmak zorundadır.
Bu bölümde, büyük verinin, veri mahremiyeti alanında ortaya çıkardığı riskler boyutuyla değerlendirilmesiyle
bu alana ilişkin temel politika ve düzenlemelerde belirlenen yeni ihtiyaçlar irdelenmekte ve bu alanda atılması
gereken adımlar ele alınmaktadır.
Kişisel veri işlenmesine ilişkin ilkeler, ekonomik sistem içerisinde faaliyet göstermek isteyen herkes için
uygulanacak tüm düzenlemelerin temelini oluşturmakta; kurallar, izinler ve yasaklar bu ilkeler üzerinde
şekillenmektedir. Bu ilkeleri genel olarak [3]:
about:blank 163/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
2. Kişisel verilerin toplanmasının, verinin toplanma amaç(lar)ının gerçekleştirilmesi için gerekli ve yeterli
olduğu miktarla sınırlı tutulması anlamına gelen asgarilik veyahut veri minimizasyonu;
3. Kişisel verilerin önceden belirlenmiş olan ve hukuka uygun amaçlarla toplanması, işlenmesi ve bu amaçlara
aykırı surette işlenmemesi,
4. Belirlenen amaçlar dışında başka bir amaç için kişisel verilerin kullanımının, ancak veri sahibinin rızası veya
yasal bir yetki ile mümkün olması, verilerin kullanımının sınırlandırılması ilkesi;
6. Kişisel verilerin istenmeyen ya da yetkili olmayan ifşalardan, yok edilmeden veya değiştirilmeden korumak
için gerekli güvenlik önlemleri alınması,
7. Veri sahiplerinin, işlenen verileri hakkında bilgilendirilmesi, bunlara erişimlerinin temini ve düzeltme
hakkına sahip olması şeklinde kendini gösteren bireysel katılım ilkesi ve
8. Veri işleme sorumluluğu olan kişilerin, bu ilkelere riayet etme yönünde sorumluluğu ilkesi olarak sekiz
başlık altında toplamak mümkündür [4,5,6].
Bununla birlikte, bireylerden açıkça rızaları alınmış olsa dahi, meşru yollarla elde edilen verilerin
kaydedilmesi, dönüştürülmesi veya kullanımı esnasında ortaya çıkabilecek sızıntılar, hizmet sağlayıcıların
sebebiyet verdiği güvenlik açıkları ve operatör hatası gibi sebepler veri güvenliği alanında önemli sorunları
beraberinde getirmektedir [7].
Büyük veri, geniş bir yelpazede topluma yeni fırsatlar sunarken, bu fırsatların bazısı veri toplanması
aşamasında öngörülememektedir. Örneğin kırk yıl önce insanlardan kan örnekleri toplandığında kan
örneklerinin potansiyel kullanım alanı olarak DNA testinden bahsedilmemekteydi. Bununla birlikte verinin
istismar edilebildiği de dikkate alınması gereken bir gerçektir. Gecekondu mahallelerinde yaşayan kişilere
kredi verilmemesi/sigorta yapılmaması gibi uygulamalar istismar olayına örnek teşkil etmektedir [8,10].
Bilgi devrimini yaşadığımız son günlerde kişisel verinin toplanması, kullanılması ve analizi kaçınılmazdır.
Fakat bu noktada bireyler, kendileriyle ilgili hangi verinin toplandığını ve üçüncü taraflarla paylaşıldığını tam
olarak bilememektedirler. Gizlilik, şeffaflık ve kimlik bilgileri gibi önem verilen değerlerin korunması
sağlanamazsa büyük veri ile yenilik ve avantaj elde etme uğruna bu değerlerin kaybedilmesi riski doğmaktadır.
Büyük veri çağında gizlilik kavramının, kişisel verinin akışını yönetmek adına daha iyi anlaşılıyor olması
gerekmektedir. Bununla birlikte gizlilik değeri taşıyan verinin, paylaşım esnasında gizli kalıyor olması da ayrı
bir önem taşımaktadır. Ayrıca büyük veri, bireylerin kendilerini güvende hissetmeleri adına şeffaf olmalı ve
kimlik bilgilerini ifşa etmemelidir [9,10].
Bu noktada, özel hayatın ve kişisel verinin gizliliğini garanti altına almak adına gerek uluslararası alanda
gerekse ulusal düzeyde düzenlemeler getirilmiştir. Kişisel verinin korunmasına ilişkin düzenlenen ilk geniş
kapsamlı uluslararası sözleşme, Avrupa Konseyi tarafından 28 Ocak 1981 tarihinde kabul edilen 108 sayılı
“Kişisel Verilerin Otomatik İşleme Tabi Tutulması Karşısında Şahısların Korunmasına Dair Sözleşme”
olmuştur [11].
Ayrıca ülkemizde de Türkiye Cumhuriyeti Anayasasında, özel hayatın gizliliğiyle ilgili “herkes, özel hayatına
ve aile hayatına saygı gösterilmesini isteme hakkına sahiptir. Özel hayatın ve aile hayatının gizliliğine
dokunulamaz” hükmü bulunmaktadır (Türkiye Cumhuriyeti Anayasası, 1982, Madde 20). Söz konusu maddeyi
dayanak alarak hazırlanan 6698 sayılı “Kişisel Verilerin Korunması Kanunu” da kişisel veri, özel nitelikli
kişisel veri ve kişisel verinin işlenmesi kavramlarını tanımlamakta ve kişisel verinin işlenme şartlarını
açıklamaktadır [10].
şirketine satılan bilgilerin kapsamı, 2013 yılında bir ‘kişilik testi’ görüntüsü altında Facebook’ta yer alan bir
uygulamayı indiren kullanıcıların kişisel bilgilerinin yanı sıra, arkadaş listelerindeki kişilere ait bilgileri de
içeriyordu. Söz konusu uygulamanın Washington’ın bağlı bulunduğu District Columbia bölgesindeki 340.000
kullanıcının kişisel bilgilerine ulaştığı ancak yalnızca 852 kişinin uygulama ile doğrudan etkileşim kurduğu
saptanmıştı [12].
Cambridge Analytica’nın bu şekilde elde ettiği verilerle kısmen oluşturulan psikografik modelleme
tekniklerinin Trump seçim kampanyası için yürütülen çalışmaların temelini oluşturduğu iddia edilmektedir.
Aynı şekilde Brexit döneminde Birleşik Krallık’ta da benzer bir kampanyanın yürütüldüğü düşünülmektedir.
Bu doğrultuda Birleşik Krallık ve Amerika’da şirketin Facebook kanalıyla seçmenlerin verilerini topladığı
konusunda incelemeler başlatılmıştır. Bu konuda başlatılan soruşturmalar bütün dünyada büyük bir ilgi ile
takip edilmiştir [13].
Aadhar, Hindistanın Benzersiz Kimlik Kurumu (UIDAI) tarafından yönetilen Hisdistan hükümeti kimlik veri
tabanıdır. Aaadhar numarasına sahip olan kullanıcılara tanınan bazı ayrıcalıklar nedeniyle Hindistan nüfusunun
1,1 milyar kadar yüksek bir bölümü kişisel verilerini UIDAI’ye verdi. 2018 yılında Aadhar veritabanında
yaşanan ihlal sonucu kişilere ait doğum tarihinden iris tarama bilgilerine kadar önemli kişisel veriler sızdırıldı.
Bu ihlal 2017 yılın en büyük siber güvenlik sorunu olarak değerlendirildi [14].
Ünlü otel Marriott 30 Eylül’de büyük çapta bir veri ihlali yaşadığını açıkladı. Fakat müşterilerini
etkilenebilecekleri konusunda bilgilendirmeleri 3 ay gibi bir süreyi aldı. Sızdırılan bilgiler müşterilerin
isimlerini, telefon numaralarını, ödeme bilgilerini, posta adreslerini, e-posta adreslerini ve pasaport
numaralarını içeriyordu. Soruşturma sonrası bulunan kanıtlar saldırganların sistemlerine 2014 yılı başlarında
eriştiğini gösteriyordu. Araştırmacılar bulunan dosyaların şifresini çözdükten sonra, müşterilerin kişisel
bilgileri olduklarını kanıtladılar ve tam açıklama yaklaşık üç ay sonra gerçekleşti. Bu, Marriott'un itibarında
önemli bir hasara yol açtı [14].
about:blank 165/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Büyük veride her yıl çok sayıda veri sızdırılmakla birlikte örneğin LinkedIn firması 2016 yılında 117 milyon
hesabın e-posta ve şifre bilgilerinin sızdırıldı, birçok farklı kuruluş tarafından 2019 yılındaki veri ihlalleri
sonucunda toplam 39,7 milyon kayıt sızdırıldı. Bu sızıntılar içerisinde gizli tutulan ve basına aksettirilmeyen
ihlaller olduğu da unutulmamalıdır. Veri ihlalleri ve sızan veri sayısına ait liste aşağıda verildiği gibidir [14].
Bu listelerde veri miktarından ziyade sızılan verinin etkisi ön planda tutulmaktadır. Bu liste her yıl benzer
şekilde oluşturulmakta ve liste uzayıp gitmektedir.
§ Broome Co., NY, hükümet sistemleri yetkisiz kişilerce erişildi (veri miktarı bilinmiyor).
§ Chicago Üniversitesi'ndeki veritabanı yanlış yapılandırma sonucu kişisel verilerin ihlaline sebep oldu
(1.679.993).
§ Yahudi escort uygulaması JCrush, kullanıcının kişisel verilerini ve özel mesaj kayıtlarını güvensiz
veritabanında tutularak kişisel verilerin ihlaline sebep oldu (200.000).
§ Baltimore Co. Okulları, öğrenciler ve çalışanlar hakkında hassas verileri ortaya koymaktadır (+116.000).
§ Shanghai Jiao Tong Üniversitesi, öğrencilerin e-posta meta verilerini sızdırıyor (veri miktarı bilinmiyor).
§ Evernote eklentisindeki kritik açıklık kullanıcının hassas verilerini tehlikeye atmaktadır (4.6 milyon).
§ Dublin Limanı Şirketi bir veri sızıntısı kaynağını araştırıyor (veri miktarı bilinmiyor).
§ Temple Üniversitesinde’ki bir çalışan, öğrenci bilgilerini yanlışlıkla İnternet’e yükledi (160).
§ Şikago merkezli sağlık merkezi şu anda kapalı olan tesiste hasta verilerini bıraktı (veri miktarı bilinmiyor).
§ Hindistan iş portalına ait yanlış yapılandırılmış veritabanı, büyük veri ihlallerine (1.6 milyon) neden
olmuştur.
§ Reklam ajansı, hastaların tıbbi yaralanma iddia kayıtlarına maruz kaldı (150.000).
§ Maryland merkezli iki tıbbi uygulama, kazayla veri ifşa edildikten sonra hastaları haberdar etmiştir (3,380).
§ HIV hastalarının verileri NHS Highland e-posta gaffe'de ihlal edildi (37).
about:blank 166/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
§ Specsavers, Queensland müşterilerinin özel tıbbi bilgilerinin kaybolduğunu söylenmiştir (veri miktarı
bilinmiyor).
§ Creighton Üniversitesi'ndeki BT hatası hasta tıbbi kayıtlarını ulaşılmasına imkân veriyor (veri miktarı
bilinmiyor).
§ Indiana merkezli sağlık kuruluşu, bir çalışanın hasta verilerine yetkisiz erişim sağladığını söyledi (2.200).
§ Woodbury’deki Merrill Sanat Merkezi veri ihlali yaşadı (veri miktarı bilinmiyor).
Sonuç olarak her yıl aşırı miktarda büyük veri ihlali/sızıntısı olmakla birlikte en büyük birkaç örneği açıklamak
gerekirse [15]:
İlk ihlalden neredeyse yedi yıl sonra ve ifşa edilen gerçek kayıt sayısının ortaya çıkmasından dört yıl sonra bir
numaralı noktayı güvence altına almak, Yahoo’ya yapılan saldırıdır. Şirket, 2013 yılında gerçekleştiğini
söylediği olayı ilk olarak Aralık 2016’da kamuoyuna duyurdu. O sırada Verizon tarafından satın alınma
sürecindeydi ve bir milyardan fazla müşterisinin bir hack grubu tarafından hesap bilgilerine erişildiğini tahmin
ediyordu. Bir yıldan kısa bir süre sonra Yahoo, ifşa edilen gerçek kullanıcı hesaplarının 3 milyar olduğunu
açıkladı. Yahoo, gözden geçirilmiş tahminin yeni bir güvenlik sorununu temsil etmediğini ve “etkilenen ek
kullanıcı hesaplarının” tümüne e-posta gönderdiğini belirtti [15].
Sekiz aylık bir süre boyunca bir pazarlamacı için çalışan bir geliştirici, oluşturduğu tarayıcı yazılımını
kullanarak Alibaba Çin alışveriş web sitesi Taobao’dan 1.1 milyar adet kullanıcı adları ve cep telefonu
numaraları dahil olmak üzere müşteri verilerini elde etmeyi başardı. Görünüşe göre geliştirici ve işvereni,
bilgileri kendi kullanımları için topluyorlardı ve her ikisi de üç yıl hapis cezasına çarptırılmış olmasına rağmen,
karaborsada satmadı [15].
Profesyonel iş sosyal ağı devi LinkedIn, Haziran 2021’de bir karanlık web forumunda yayınlanan 700 milyon
kullanıcısı ile ilgili verileri gördü ve kullanıcı tabanının %90’ından fazlasını etkiledi. “Tanrı Kullanıcısı”
lakabını kullanan bir bilgisayar korsanı, yaklaşık 500 milyon müşteriden oluşan ilk bilgi veri setini
boşaltmadan önce sitenin (ve diğerlerinin) API’sini kullanarak veri kazıma tekniklerini kullandı. Ardından, 700
milyon müşteri veri tabanının tamamını sattıklarıyla övünerek devam ettiler. LinkedIn, hiçbir hassas ve özel
kişisel verinin ifşa edilmediğini, olayın bir veri ihlalinden ziyade hizmet şartlarının ihlali olduğunu iddia
etmiştir. God User tarafından yayınlanan bir veri örneğinde e-posta adresleri, telefon numaraları, coğrafi
konum kayıtları gibi bol miktarda veri sağlayacak olan cinsiyetler ve diğer sosyal medya ayrıntıları
bulunmaktadır [15].
600 milyondan fazla kullanıcısı olan Sina Weibo, Çin’in en büyük sosyal medya platformlarından biridir. Mart
2020’de şirket, bir saldırganın veri tabanının bir kısmını ele geçirerek 538 milyon Weibo kullanıcısını ve
gerçek adlar, site kullanıcı adları, cinsiyet, konum ve telefon numaraları dahil olmak üzere kişisel bilgilerini ele
geçirdiğini duyurdu. Saldırganın daha sonra veritabanını dark web’de 250 dolara sattığı bildiriliyor.
Çin Sanayi ve Bilgi Teknolojileri Bakanlığı (MIIT), Weibo’ya kişisel bilgileri daha iyi korumak ve veri
güvenliği olayları meydana geldiğinde kullanıcıları ve yetkilileri bilgilendirmek için veri güvenliği önlemlerini
geliştirmesini emretti. Sina Weibo yaptığı açıklamada, bir saldırganın, kullanıcıların telefon numaralarını
girerek arkadaşlarının Weibo hesaplarını bulmasına yardımcı olmayı amaçlayan bir hizmet kullanarak herkese
açık olarak yayınlanan bilgileri topladığını ve hiçbir parolanın etkilenmediğini savundu. Ancak, şifreler başka
about:blank 167/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
hesaplarda yeniden kullanılırsa, açığa çıkan verilerin hesapları şifrelerle ilişkilendirmek için kullanılabileceğini
kabul etti. Şirket, güvenlik stratejisini güçlendirdiğini ve ayrıntıları uygun makama bildirdiğini söyledi [15].
Bilgi güvenliği, yalnızca bilgileri yetkisiz erişimden korumakla ilgili değildir. Bilgi güvenliği temel olarak
bilgiye yetkisiz erişimi, bilginin kullanılmasını, ifşa edilmesini, bozulmasını, değiştirilmesini, denetlenmesini,
kaydedilmesini veya yok edilmesini önleme uygulamasıdır. Bilgi fiziksel veya elektronik olabilir. Bilgi,
kullanıcı bilgileri gibi herhangi bir şey veya sosyal medya profili, cep telefonu verileri, biyometri gibi hassas
bilgiler olabilir. Bu nedenle ‘Bilgi Güvenliği’, kriptografi, mobil bilişim, siber adli tıp, çevrimiçi sosyal medya
vb. gibi pek çok araştırma alanını kapsamaktadır ve yasalarla koruma altına alınmıştır [16].
Güvenirlilik: Bir sistemden beklentimiz ile sistemin davranışı arasındaki uyumu, yani sistemi
çalıştırdığımızda hatasız ve sıkıntısız olarak çalışıp tutarlılığını koruması şeklinde açıklanabilmektedir.
Bütünlük: Bilginin yetkisi olmayan kişilerce değiştirilmemesidir yani bilgiyi gerektiği şekilde tutmak ve
saklamaktır.
Kimlik Tespiti: Bilgiye erişmek isteyen kullanıcının kimliğinin doğrulanıp tespiti yapılarak sistemde kayıtlı
olup olmadığının doğrulamasıdır.
İnkar Edememe: Bilginin paylaşılması durumunda bilgiyi gönderen kişi ile bilgiyi alan kişinin, bilginin
paylaşılmadığını inkar edememesidir. Veri bütünlüğü ve özgünlüğü inkar edememe unsurunun ön koşullarıdır.
Bu unsurun amacı, oluşabilecek herhangi bir anlaşmazlık durumunda bu durumun ortadan kaldırılmasıdır.
Gizlilik: Bilginin yetkisi olmayan kişilerin eline geçmesinin engellenmesidir yani bilgiye erişim yetkisi
bulunmayan kişilerin erişip, değiştirmesini veya herhangi bir şekilde kullanmasını kısıtlamaktır.
Log (kayıt) Tutma: Sistemde olan tüm kullanıcıların erişimlerinin ve bunları ne zaman yaptıklarının
zamanının kaydedilmesidir. Bu kayıtların herhangi bir arıza durumu, yasal veya hukuki nedenlerden dolayı bir
önlem amacıyla yapıldığı söylenebilmektedir.
Erişilebilirlik: Bilginin yalnızca yetkisi olan kişiler tarafından erişilebilir olması durumudur yani bilgiyi
erişim hakkı olan kişilerin kullanabilmesi olarak yorumlanabilir.
Bilgi güvenliği temel unsurları Confidentiality (gizlilik), Integrity (bütünlük), Availability (kullanılabilirlik).
Bu üç unsur da birbirlerinden ayrılmaz bir bütündür.
Integrity (Bütünlük): Bilginin yetkisiz kişiler tarafından değiştirilmemesidir. Bilgi değiştirilebilir ancak
yetkili olan kişiler tarafından ve ihtiyaca göre değiştirilmesi doğru olur.
Bu kapsamda bilgi güvenliği ele alınarak yasalarla ihlaller tespit edilmiş ve büyük veri ile ilgilenen kurum ve
kuruluşlara kanunlar çerçevesinde yasal yükümlülükler getirilmiştir. Bu yükümlülüklerin temel amaçları [17]:
§ Bireysel anlamda kimliğe dair unsurların korunması ve bu vesile ile mahremiyet olgusunun ve kişisel
haklarının güçlendirilmesi,
§ Finansal anlamda sahip olunan verilerin korunması neticesinde, maddi anlamda yaşanabilecek yüksek ölçekli
tehdit, kayıp ve risklerden bireylerin korunması,
about:blank 168/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
§ Tıbbi anlamda sahip olunan verilerin kötüye kullanılmaması ve bireylerin hayatlarının ve sağlık durumlarının
akışını olumsuz yönde etkileyecek şekilde sorunların ortaya çıkmaması,
§ Dijital ortamlarda sahip olunan bilgilerin, elde edilen hakların, gönderilen mesajların, yapılan işlemlerin vb.
faaliyet ve unsurların mahremiyetinin korunması,
§ Bireylerin, kötü amaçlı faaliyetleri yürüten taraflara karşı hukuki anlamda ellerinin güçlendirilmesi.
Günümüzde gerek devlet kurumları gerekse özel kuruluşlar, her gün binlerce kişiye ilişkin çeşitli bilgilere
ulaşabilmektedir. Elde edilen bilgiler, bilişim teknolojilerinde yaşanan gelişmelerin de etkisiyle, kolaylıkla
işlenebilmekte ve aktarılabilmektedir. Bunun sonucunda da kişisel verilerin korunması ihtiyacı doğmuştur.
Kurumlardaki veri sorumlusu, 6698 sayılı Kişisel Verilerin Korunması Kanununun 12'nci maddesinin (1)
numaralı fıkrasında bulunan;
amacıyla uygun güvenlik düzeyini temin etmeye yönelik gerekli her türlü teknik ve idari tedbirleri almak
zorundadır.
Kişisel Verileri Koruma Kurulu ise KVKK ve diğer mevzuatla verilen görev ve yetkilerini kendi sorumluluğu
altında, bağımsız olarak yerine getirir ve kullanır. Kurulun kişisel verilerin korunmasına ilişkin görev ve
yetkileri aşağıdaki gibidir [18]:
§ Kişisel verilerle ilgili haklarının ihlal edildiğini ileri sürenlerin şikâyetlerini karara bağlamak.
§ Şikâyet üzerine veya ihlal iddiasını öğrenmesi durumunda resen görev alanına giren konularda kişisel
verilerin kanunlara uygun olarak işlenip işlenmediğini incelemek ve gerektiğinde bu konuda geçici önlemler
almak.
about:blank 169/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
§ Özel nitelikli kişisel verilerin işlenmesi için aranan yeterli önlemleri belirlemek.
§ Kurulun görev alanı ile Kurumun işleyişine ilişkin konularda gerekli düzenleyici işlemleri yapmak.
§ Veri sorumlusunun (kişisel verilerin işleme amaçlarını ve vasıtalarını belirleyen, veri kayıt sisteminin
kurulmasından ve yönetilmesinden sorumlu olan gerçek veya tüzel kişiyi tanımlar) ve temsilcisinin görev,
yetki ve sorumluluklarına ilişkin düzenleyici işlem yapmak.
Kişisel Verileri Koruma Kurulu ise KVKK ayrıca teknik önlemler olarak aşağıdaki maddeleri belirlemiş ve
büyük veride yapılan ihlallerin azaltılması amaçlanmıştır [19]:
§ Verileri durumlarına göre silme, yok etme veya anonim hale getirme işlemleri yapılmalıdır.
Ülkemizde “kişisel verilerin işlenmesinde başta özel hayatı gizliliği olmak üzere kişilerin temel hak ve
özgürlüklerini korumak ve kişisel verileri işleyen gerçek ve tüzel kişilerin yükümlülükleri ile uyacakları usul
ve esasları” belirleyen ve yöneten yegâne kurum olan Kişisel Verileri Koruma Kurumu idari yapılanmasını
tamamlamış ve etkin bir şekilde çalışmaya başlamıştır.
ABD, General Data Protection Regulation (GPDR)’den aldığı ilham ile yeni kanunlar oluşturmuştur. Yeni
uygulamalardan biri olan 2018 Kaliforniya Tüketici Gizlilik Yasası, Kaliforniya eyaleti vatandaşlarına
GDPR’ye benzerlik gösteren haklar tanıyor. Bu haklara göre kişiler, hangi verilerinin ne amaçla işlendiğine ve
üçüncü bir şirket veya kişiye verilip verilmediğine dair şirketlerden bilgi talep edebiliyor. Elektronik veya
fiziksel olarak oluşturulabilen bu taleplere şirketler bir ay içinde ücretsiz olarak cevap vermek zorunda kalıyor.
about:blank 170/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
İngiltere Bilgi Komisyonluğu Ofisi başkanlığında veri koruma ve gizliliği ile ilgili kendi düzenlemelerini
oluşturuyor. İngiltere Bilgi Komisyonluğu Ofisi, GDPR ile uyumlu kuralların yürütülmeye devam edilmesi
adına yeni bir Veri Koruma Yasa Tasarı taslağı hazırlamakta olan İngiltere için bu konunun oldukça önemli
olduğunu ve veri korumaya dair sorunların kamuoyunda sıkça ses getirdiğini belirtiyor.
Avustralya’daki Gizlilik Yasası, ülkedeki tüm gizlilik düzenlemelerinin birbiriyle tutarlılık göstermesini
sağlayarak eksiksiz bir uyum mekanizması oluşturulmasını hedefliyor. Bu yasalar, ülke içindeki veri akışının
Avustralya sınırları dışına çıkışının azaltılmasını ve kişisel gizlilik hakkını garanti altına alacak kurallar
içeriyor.
Veri denetleyicilerine pek çok sorumluluk yükleyen Avustralya, bu kişilerden kişisel bilgileri tamamen açık ve
şeffaf bir şekilde yönetmesini ve yasaların tüm prensiplerine uyum göstermesini bekliyor. Veri sızıntısı ile ilgili
bildirimler, raporlama kuralları ya da “ciddi hasar” teriminin tanımı kısımlarındaki farkların haricinde
Avustralya, veri korumada GDPR’ye yakın bir yörüngede ilerliyor.
Meksika’nın Özel Taraflarca Yapılan Federal Veri Koruma Yasası, Avrupa’da uygulanan yasalardan neredeyse
hiç ayrılmıyor. Uluslararası Gizlilik Profesyonelleri Birliği’nden Veri Koruma Yasası Başkanı Miguel Recio,
“Avrupa Birliği’nde olduğu gibi Meksika’da da veri koruma alanında dinamik gelişmeler yaşıyor. Bu
gelişmelerde mesuliyet hissi, sağlam ve etkili bir veri yönetimi için anahtar rol oynuyor. Meksika’daki veri
denetleyicileri, teknik ve operasyonel önlemler hakkında AB’dekilerle benzer sorumluluklar alarak veri
gizliliği yasalarına uyumu proaktif bir şekilde gösteriyor.” sözleriyle Meksika’nın veri korumaya yeni bakış
açısını özetliyor.
GDPR ile çok alakalı olmayan uygulamaları gündeme getiren ülkeler de bulunuyor. Kanada, oluşturduğu
Kanada Kişisel Veri Koruma ve Elektronik Belge Yasası kapsamında kendi standartlarını yaratıyor. Ayrıca,
temel işleri direkt veri işlemeye dayanan tüm Kanadalı şirketlerin, Kanada kanunları dışında bütün GDPR
kurallarına da uyması bekleniyor.
Bölüm Özeti
Büyük veri olgusunun 21. yüzyılın iletişim teknolojileri açısından en popüler alanlarından biri olduğunu
söylemek mümkündür. Büyük verinin temelini internet ve uzantılı teknolojilerin oluşturduğu görülmektedir.
Teknik ve soyut bir yapısı bulunmasına karşın büyük veriler, nitelikli analizler sayesinde, ekonomiden siyasete,
eğitimden ticarete kadar pek çok alanda işlevsel olarak kullanılabilmektedir.
about:blank 171/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Büyük veri kaynakları, bu geniş yelpazede faaliyet göstermek isteyen kötü amaçlı birey/kurum ve kuruluşlar
için vazgeçilmez bir kaynak haline dönüşmektedir. Dolayısıyla kullanıcılarının bilgilerini paylaşması, özel
yaşamın gizliliği, mahremiyetin korunması, kişisel verilerin güvenliğinin sağlanması, bireylerin onların bilgisi
ve izni olmaksızın veri kaynağı olarak kullanılmaması gibi etik değerleri aşındırmıştır.
Ayrıca devletler vatandaşlarını korumak adına da yasal düzenlemeler gerçekleştirmek zorunda kalmıştır.
Dünyada farklı ülkelerin kişisel verilerin korunması hususunda farklı yasaları ve uygulamaları mevcuttur.
Ülkemizde de bu sorumluluğu KVKK kurumu gerçekleştirmekte ve birçok kurum ve kuruluşa rehberlik ederek
büyük veri mahremiyeti konusunda önerilerde bulunmaktadır.
Kaynakça
[1] Akkurt, S. S. (2016). 17.06.2015 tarih, e. 2014/4-56, k. 2015/1679 sayılı Yargıtay hukuk genel kurulu kararı
ve mukayeseli hukuk çerçevesinde “Unutulma Hakkı”. Ankara Üniversitesi Hukuk Fakültesi Dergisi, 65(4),
2605-2635.
[2] Öncü, G. A. (2011). Avrupa İnsan Hakları Sözleşmesinde Özel Yaşamın Korunması. İstanbul: Beta
Yayınları.
[3] Ketizmen, M., Kart, A. (2019). Kişisel Veri ve Rekabet Hukuku Kapsamında “Big Data”, Kişisel Verileri
Koruma Dergisi. 1(1), 64-76.
[4] Bygrave, L. A. (1998). Data Protection Pursuant to the Right to Privacy in Human Right Treaties.
International Journal of Law and Infırmation Technology, 6, 247-284.
[5] Ketizmen, M. (2008). Türk Ceza Hukukunda Bilişim Suçları. Ankara: Adalet Yayınevi.
[6] Wacks, R. (1989). Personal Information: Privacy and the Law. Oxford: Clarendon Press.
[7] Chen, M., S. Mao, Y. Zhang, V. C. M. Leung, “Big Data: A Survey”, Mobile Networks and Applications,
April 2014, Vol.: 19, Issue 2, pp. 171-209.
[8] Charney, S. (2012). Trustworthy Computing Next (Version 1.01). Microsoft Corporation
Trustworthy Computing.
[9] Richards, N. M. ve King, J. H. (2014). Big Data Ethics. Wake Forest Law Review, 49(2), 393-432.
[10] Aktan E. “Big Data: Application Areas, Analytics and Security Dimension”, Bilgi Yönetimi 1: 1 (2018), 1-
22.
[11] Kişisel Verileri Koruma Kurumu. (2018). Kişisel Verilerin Korunması Kanununa İlişkin Uygulama
Rehberi. Ankara: KVKK Yayınları.
URL: https://www.forseti.com.tr/makale/big-data-konfor-mu-tehlike-mi/
[13] Foo Yun Chee, “EU lawmakers to investigate alleged misuse of Facebook users' data”, ed. Alissa de
Carbonel, Reuters, 19 Mart 2018, (Son Erişim Tarihi: 20 Ocak 2022)
URL: https://www.reuters.com/article/us-facebook-cambridge-analytica-eu/eu-lawmakers-to-
investigatealleged-misuse-of-facebook-users-data-idUSKBN1GV1A3
[14] BeyazNet, 2019 Yılında Yaşanan Büyük Veri İhlalleri. (Son Erişim :20.01.2022)
URL:https://www.beyaz.net/tr/guvenlik/makaleler/2019_yilinda_yasanan_buyuk_veri_ihlalleri.html
[15] SocialBuciness Web sitesi. “21. Yüzyılın En Büyük 5 Veri İhlali” (Son Erişim: 20.01.2022)
URL: https://www.socialbusinesstr.com/2021/08/06/21-yuzyilin-en-buyuk-5-veri-ihlali/
about:blank 172/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
URL: https://www.beyaz.net/tr/guvenlik/makaleler/bilgi_guvenligi.html
[17] Uzun S.A. “Türkiye'de Kişisel Verilerin Korunması ve Vatandaş Algısının Ölçülmesi”, Bilişim
Teknolojileri Dergisi, Cilt: 14, Sayı: 3, Temmuz 2021.
[18] İnternet: Kişisel Verilerin Korunması Kanunu. 29677 sayılı ve 07 Nisan 2016 tarihli Resmi Gazete (Son
Erişim :15.02.2020).
URL: https://www.mevzuat.gov.tr/MevzuatMetin/1.5.6698.pdf
[19] BeyazNet, KVKK Kurumunun Tavsiye Ettiği Teknik Önlemler. (Son Erişim: 20.01.2022)
URL:https://www.beyaz.net/tr/guvenlik/makaleler/kvkk_kurumunun_tavsiye_ettigi_teknik_onlemler.html
[20] WebTekno, “Türkiye'de Verilerimizi Koruyan KVKK Nedir, GDPR ile Arasında Ne Fark Var?”, (Son
Erişim: 22.01.2022)
URL: https://www.webtekno.com/kvkk-nedir-gdpr-farklari-h105089.html
Ünite Soruları
Soru-1 :
Aşağıdakilerden hangisi kişinin kimliğini hassas bir şekilde belirleyen bilgilerden biri değildir?
(Çoktan Seçmeli)
(C) Fotoğrafları
Cevap-1 :
Hobi bilgileri
Soru-2 :
(Çoktan Seçmeli)
(A) Veri işleme sorumluluğu olan kişilerin, bu ilkelere riayet etme yönünde sorumluluğunun ortadan
kaldırılması ilkesi
(B) Kişisel verileri dürüst ve hukuka uygun bir şekilde toplama ve işleme ilkesi
about:blank 173/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(C) Kişisel verilerin önceden belirlenmiş olan ve hukuka uygun amaçlarla toplanması, işlenmesi ve bu
amaçlara aykırı surette işlenmemesi ilkesi
(D) Kişisel verilerin istenmeyen ya da yetkili olmayan ifşalardan, yok edilmeden veya değiştirilmeden
korumak için gerekli güvenlik önlemleri alınması ilkesi
(E) Veri sahiplerinin, işlenen verileri hakkında bilgilendirilmesi, bunlara erişimlerinin temini ve düzeltme
hakkına sahip olması şeklinde kendini gösteren bireysel katılım ilkesi
Cevap-2 :
Veri işleme sorumluluğu olan kişilerin, bu ilkelere riayet etme yönünde sorumluluğunun ortadan kaldırılması
ilkesi
Soru-3 :
“Bireylerden açıkça rızaları alınmış olsa dahi, meşru yollarla elde edilen verilerin kaydedilmesi,
dönüştürülmesi veya kullanımı esnasında ortaya çıkabilecek sızıntılar, hizmet sağlayıcıların sebebiyet verdiği
açıklar ve operatör hatası gibi sebepler”
(Çoktan Seçmeli)
Cevap-3 :
Veri güvenliği
Soru-4 :
Aşağıdakilerden hangisi dünyada olumsuz büyük veri örneklerinden biri olan Facebook ile ilgili doğru
bir bilgi değildir?
(Çoktan Seçmeli)
(A) Şirketin bu bilgileri siyasi danışmanlık şirketi Cambridge Analytica’ya satmasından en az iki yıl boyunca
haberdar olmak ve gerekli önlemleri almamakla suçlanmıştır.
(B) 2013 yılında bir ‘kişilik testi’ görüntüsü altında Facebook’ta yer alan bir uygulamayı indiren kullanıcıların
kişisel bilgilerinin çalınmıştır.
(C) Washington’ın bağlı bulunduğu District Columbia bölgesindeki 340.000 kullanıcının kişisel bilgilerine
ulaştığı ancak yalnızca 852 kişinin uygulama ile doğrudan etkileşim kurduğu saptanmıştır.
(D) Fizyolojik modelleme tekniklerinin Obama’nın seçim kampanyası için yürütülen çalışmaların temelini
oluşturduğu iddia edilmektedir.
about:blank 174/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(E) Birleşik Krallık ve Amerika’da şirketin Facebook kanalıyla seçmenlerin verilerini topladığı konusunda
incelemeler başlatılmıştır.
Cevap-4 :
Fizyolojik modelleme tekniklerinin Obama’nın seçim kampanyası için yürütülen çalışmaların temelini
oluşturduğu iddia edilmektedir.
Soru-5 :
(Çoktan Seçmeli)
(A) Facebook
(D) LinkedIn
Cevap-5 :
Ali Express
Soru-6 :
(Çoktan Seçmeli)
(A) Kriptoloji
Cevap-6 :
Kamu Hizmeti
Soru-7 :
(Çoktan Seçmeli)
(A) Erişebilirlik
(D) Güvenirlilik
Cevap-7 :
İnkar Etme
Soru-8 :
Aşağıdaki seçeneklerin hangisinde bilgi güvenliğinin temel unsurları doğru olarak verilmiştir?
(Çoktan Seçmeli)
(A) Gizlilik-Bütünlük-Kullanılabilirlik
(B) Bütünlük-Erişilebilirlik-Güvenirlilik
(C) Sürdürülebilirlik-Erişilebilirlik-Kullanılabilirlik
(D) Güvenirlilik-Gizlilik-Erişilebilirlik
(E) Dinamiklik-Akışkanlık-Sürdürülebilirlik
Cevap-8 :
Gizlilik-Bütünlük-Kullanılabilirlik
Soru-9 :
Aşağıdakilerden hangisi bilgi güvenliği ihlalinden kaynaklı getirilen yasal yükümlülüklerinin temel
amaçlarından biri değildir?
(Çoktan Seçmeli)
(A) Bireysel anlamda kimliğe dair unsurların korunması ve bu vesile ile mahremiyet olgusunun ve kişisel
haklarının güçlendirilmesi
(B) Dijital ortamlarda sahip olunan bilgilerin, elde edilen hakların, gönderilen mesajların, yapılan işlemlerin
vb. faaliyet ve unsurların mahremiyetinin korunması
(C) Sosyal anlamda eldeki verilerin korunması neticesinde, maddi anlamda yaşanabilecek yüksek ölçekli
tehdit, kayıp ve risklerden sigorta şirketlerinin korunması
(E) Bireylerin, kötü amaçlı faaliyetleri yürüten taraflara karşı hukuki anlamda ellerinin güçlendirilmesi
Cevap-9 :
Sosyal anlamda eldeki verilerin korunması neticesinde, maddi anlamda yaşanabilecek yüksek ölçekli tehdit,
kayıp ve risklerden sigorta şirketlerinin korunması
Soru-10 :
about:blank 176/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Aşağıdakilerden hangisi Kişisel Verileri Koruma Kurumu’nun (KVKK) kişisel verilerin korunmasına
ilişkin görev ve yetkilerinden biri değildir?
(Çoktan Seçmeli)
(A) Kişisel verilerin, temel hak ve özgürlüklere uygun şekilde işlenmesini önlemek
(B) Kişisel verilerle ilgili haklarının ihlal edildiğini ileri sürenlerin şikâyetlerini karara bağlamak
(C) Özel nitelikli kişisel verilerin işlenmesi için aranan yeterli önlemleri belirlemek
(E) Veri güvenliğine ilişkin yükümlülükleri belirlemek amacıyla düzenleyici işlem yapmak
Cevap-10 :
Soru-11 :
Aşağıdakilerden hangisi Kişisel Verileri Koruma Kurumu’nun (KVKK) büyük verideki ihlallerin
azaltılmasına yönelik önerdiği teknik önlemlerden biri değildir?
(Çoktan Seçmeli)
Cevap-11 :
Soru-12 :
“Ülkedeki tüm gizlilik düzenlemelerinin birbiriyle tutarlılık göstermesini sağlayarak eksiksiz bir uyum
mekanizması oluşturulmasını hedefliyor. Bu yasalar, ülke içindeki veri akışının ülke sınırları dışına çıkışının
azaltılmasını ve kişisel gizlilik hakkını garanti altına alacak kurallar içeriyor.”
Yukarıda bahsi geçen büyük veri koruma yasası hangi ülkenin yasasını işaret etmektedir?
(Çoktan Seçmeli)
about:blank 177/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-12 :
about:blank 178/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Başlamadan Önce
Birçok sektörde kullanılmasının yanında popüler olarak dijital reklam şirketleri Apache Spark’ı, web
sitelerinin veri tabanlarını korumak ve belirli tüketicilere özel kampanyalar tasarlamak için kullanır. Bununla
birlikte finans şirketleri, finansal verileri almak ve yatırım faaliyetlerine rehberlik etmek için kullanır. Tüketici
ürünleri şirketleri, envanter kararlarına rehberlik etmek ve yeni pazar fırsatlarını tespit etmek, müşteri
verilerini toplamak ve trendleri tahmin etmek için kullanır.
Büyük veri uygulamalarıyla çalışan büyük kuruluşlar, hızı ve birden çok veri tabanını birbirine bağlama ve
farklı türlerde analitik uygulamaları çalıştırma yeteneği nedeniyle Apache Spark kullanmayı tercih etmektedir.
Apache Spark, büyük veri kümelerindeki görevleri hızlı bir şekilde gerçekleştirebilen, aynı zamanda veri
işleme görevlerini birden çok bilgisayara tek başına dağıtabilen popüler bir büyük veri analiz aracıdır.
Apache Spark, Java, Scala, Python ve R programlama dilleri için yerel bağlantılar sağlayabilir ve SQL, veri
akışı, makine öğrenimi ve grafik işleme gibi işlemleri destekler. Bankalar, telekomünikasyon şirketleri, oyun
şirketlerinin yanı sıra, Apple, Facebook, IBM ve Microsoft gibi büyük teknoloji devleri tarafından da
kullanılmaktadır.
§ Bir uygulamayı çok daha hızlı Hadoop kümesinde çalıştırmaya yardımcı olma olanağı,
§ Paketleri geliştirmeye yardımcı olmak için her yerde katkıda bulunanlarla topluluk iletişimi.
Büyük veri çözümleri, geleneksel veritabanları için çok büyük veya karmaşık olan verileri işlemek üzere
tasarlanmıştır. Büyük veri kümeleri üzerinde paralel olarak işlem yapılmasını sağlayan, Scala dili ile
geliştirilmiş açık kaynak kodlu bir kütüphane olan Spark Disk tabanlı alternatiflerden çok daha hızlı olarak
about:blank 179/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
büyük miktarlardaki verileri (RAM) bellekte işler. Ancak, veri kümeleri mevcut sistem belleğine sığmayacak
kadar büyük olduğu takdirde disk tabanlı işlemeyi de gerçekleştirebilir.
Java, Scala, Python ve R için üst düzey API'ler sunan Spark, kullanım kolaylığı ve popülerliği açısından ön
plana çıkmaktadır. Ayrıca bellek içi hesaplaması sayesinde çok düşük gecikme süresi ile gerçek zamanlı veri
işleme imkanı sunmaktadır. Öte yandan basit programlama katmanına sahip olan Spark, güçlü önbellekleme ve
disk kalıcılığı yeteneklerine sahiptir. Hızını kontrollü bölümlemeye ve bellek içi işlemeye borçlu olan Spark,
temel yapı olarak Şekil 13.2’de görülen Esnek Dağıtılmış Veri Kümeleri (RDD)’ni kullanır [1].
Esnek Dağıtılmış Veri Kümeleri (RDD), hesaplama karmaşıklığını kullanıcılardan gizleyecek şekilde
tasarlanmış bir yapıya sahip olmakla birlikte elemanlar üzerinde paralel olarak işlemlerin yapılmasını sağlayan,
makinalar arasında bölünmüş veri koleksiyonlarıdır. Esnek Dağıtılmış Veri Kümeleri oluşturularak diskteki
veriler, geçici belleğe taşınmakta ve üzerinde çalışılacak senaryolara uygun sorgular yazılarak verilerin
işlenmesi mümkün olmaktadır.
Hızlı İşleme: Büyük veri dünyasının bu teknolojiyi diğerlerine tercih etmesini sağlayan Apache Spark'ın en
önemli yanı hızıdır. Büyük veri, daha yüksek hızda işlenmesi gereken hacim, çeşitlilik, hız ve doğrulukla
karakterize edilir.
Esneklik: Apache Spark, birden çok dili destekler ve geliştiricilerin Java, Scara, R veya Python'da
uygulamalar yazmasına izin verir.
about:blank 180/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Bellek İçi Bilgi İşlem: Apache Spark, verileri sunucuların RAM'inde depolar. Bu da hızlı erişime izin verir.
Dolayısıyla analitiğin hızı önemli ölçüde artmış olur.
Gerçek Zamanlı İşleme: Apache Spark, gerçek zamanlı akış verilerini işleyebilir. Yalnızca depolanan verileri
işleyen MapReduce'un aksine, Spark gerçek zamanlı verileri işleyebilir. Bu nedenla anlık sonuçlar üretebilir.
Daha İyi Analitik: Map ve Reduce işlevlerini içeren MapReduce'un aksine, Spark bundan çok daha fazlasını
içerir. Apache Spark, zengin bir SQL sorguları, makine öğrenimi algoritmaları, karmaşık analitik vb. içerir.
Apache Spark, son birkaç yılda muazzam bir büyüme elde etti. Hızı, kullanım kolaylığı ve sofistike analitiği
nedeniyle bugün işletmelerde en etkili veri işleme ve AI motoru haline geldi. Bununla birlikte, bellek içi
çalıştırmak için çok fazla RAM gerektirdiğinden Spark'ın maliyeti yüksektir.
Spark, çeşitli kaynaklarda büyük ölçekte veri hazırlamayı basitleştirerek verileri ve yapay zekayı birleştirir.
Ayrıca, TensorFlow, PyTorch, R ve SciKit-Learn gibi popüler kitaplıkların sorunsuz entegrasyonunun yanı sıra
hem veri mühendisliği hem veri bilimi iş yükleri için tutarlı bir API seti sağlar [1].
Logosu Şekil 13.3’de görülen Apache Spark uygulaması iki ana bileşenden ihtiva etmektedir. İlk bileşen,
kullanıcının kodunu düğümler arasında dağıtıp birden çok göreve dönüştüren bir sürücüdür. İkinci bileşen ise
bu düğümlere atanan görevleri çalıştıran yürütücülerdir. İki bileşen arasında arabuluculuk yapmak üzere bir
küme yöneticisi bulunmaktadır.
Uygulama geliştiricileri ve veri bilimcileri, verileri uygun ölçekte hızla sorgulamak, analiz etmek ve
dönüştürmek için genellikle Apache Spark'ı uygulamalarına dahil eder. Spark ile en sık ilişkilendirilen
görevlerden bazıları şunlardır:
about:blank 181/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
§ Büyük veri kümelerinde (genellikle terabayt boyutunda) ETL ve SQL toplu işleri,
§ IoT cihazlarından ve düğümlerinden akış verilerinin işlenmesi, çeşitli sensörlerden gelen veriler, finansal ve
her türden işlem sistemi ve
Spark, görselleştirme (grafik işleme), makine öğrenimi, akış işlemleri için aşağıdaki gibi bileşenlere sahiptir.
Spark Core
Büyük ölçekli paralel ve dağıtılmış veri işleme için temel motor bileşenidir. Sahip olduğu kütüphaneler ile
akış, SQL ve makine öğrenmesi gibi çeşitli iş yüklerine izin verir. Bellek yönetimi ve hata kurtarma, bir
kümedeki işleri planlamak, dağıtmak, izlemek ve depolama sistemleriyle etkileşimden sorumludur [1].
Spark Streaming
Spark Streaming, gerçek zamanlı akış verilerini işlemek için kullanılan bir Spark bileşenidir. Gerçek zamanlı
veriler ile yüksek verimli işlemler ve analizler yapılmasına olanak sağlar. Şekil 13.5’te görüldüğü üzere Kafka,
Kinesis veya TCP soketleri gibi farklı kaynaklardan verileri alarak karmaşık algoritmalar ile işleyebilmektedir.
Bu verileri dosya sistemlerine, veri tabanlarına ve dashboard’lara gerçek zamanlı olarak aktarabilmektedir [2].
Spark Streaming, aldığı gerçek zamanlı veriyi mikro batch’lere ayırarak Spark Engine kısmına yönlendirir.
Şekil 13.6’da görüldüğü üzere akışı oluşturmak için Spark Engine tarafından veriler işlenir ve nihai sonuç
akışın çıktısına gönderilir.
about:blank 182/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Spark Streaming, sürekli bir veri akışını temsil eden ayrıklaştırılmış akış veya DStream adı verilen üst düzey
bir soyutlama sağlar. Kaynaktan verileri okuyan ve RDD’lerin üzerine inşa edilen DStream, bir RDD dizisi
olarak temsil edilmektedir. RDD’ler DStream üzerinde belli bir zaman aralığındaki datayı tutmaktadır [2].
Spark SQL
En yaygın kullanılan Spark bileşenlerinden biri olan Spark SQL, kullanıcıların ortak SQL dilini kullanarak
farklı uygulamalarda depolanan verileri sorgulamasını sağlar. Yapılandırılmış veriler için kullanılan ilişkisel
sorgular için uygundur. “Join” işlemlerinde çok hızlı olan bu kütüphane, Spark SQL dilini kullanarak verilerin
işlenmesini kolaylaştırmaktadır.
GraphX
GraphX, grafik sorunlarını çözmek için tasarlanmış ve paralel hesaplamaları sağlayan Spark API'dir. Paralel
olarak işlenebilme özelliğine sahip bu kütüphane grafı oluşturan nokta ve bağlantılara farklı özellikler
tanımlayabilir.
MLlib, makine öğrenme algoritmalarını barındıran açık kaynaklı ve geniş kapsamlı bir kütüphanedir. Spark,
bellek içi dağıtık veri işleme motorudur ve büyük veri kullanımları için hızlı bir popülerlik kazanmıştır. Spark
toplu işlem ve akan veriyi işlemeye olanak tanır. Her iki paradigmayı kullanarak makine öğrenimi
gerçekleştirilebilir. MLlib ayrıca birçok matematiksel ve istatistiksel yöntemler ile veri ön işleme ve model
değerlendirmeyi destekler. Birçok kullanıma hazır sınıflandırma, regresyon, öneri, kümeleme ve boyut azalma
modelini sunar. Spark ve MLlib, Mahout’la kıyaslandığında oldukça hızlı olup bu algoritmaları uygulayan ve
değerlendiren akademik çalışmaların sayısında artış görülmektedir [3].
5. K-means kümeleme, Bisecting k-means, Gauss karışımları (GMM) ve kuvvetli iterasyon kümelendirmesi
about:blank 183/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
SparkR
Dağıtılmış bir veri çerçevesi uygulaması sağlayan bir R paketidir. Ayrıca, seçim, filtreleme, toplama gibi
işlemleri büyük veri kümelerinde de destekler [5].
Map-Reduce yapılacak işleri parçalara ayırıp ayrılan iş parçacıklarını diğer sunuculara dağıtmaktadır. Diğer
sunucularda işlenen verilerin sonuçlarını birleştirip tek bir sonuca indirgeyen bir yapı sunmaktadır.
“Map” adımı: Ana düğüm girişi alır, daha küçük alt parçalara ayırır ve onları işçi düğümlerine dağıtır. Bir işçi
düğümü bunu tekrar yaparak çok düzeyli bir ağaç yapısına götürür. İşçi düğümü daha küçük olan sorunu işler
ve cevabı ana düğüme geri gönderir. Harita, bir veri alanındaki bir türe sahip bir çift veri alır ve farklı bir
alandaki çiftlerin bir listesini döndürür.
“Reduce” adımı: Ana düğüm, daha sonra tüm alt problemlere cevapları toplar ve onları, başlangıçta çözmeye
çalışılan sorunun cevabı olan çıktıyı oluşturmak için bir şekilde birleştirir. Redüksiyon işlevi daha sonra her bir
gruba paralel olarak uygulanır; bu da aynı alanda bir değer topluluğu oluşturur [6].
Map-Reduce Bileşenleri
Veri Düğümü (Data-Node): Her blok için HDFS-default replication düzeyinin bloklarını depolar.
İş İzleyicisi (Job Tracker): Yeni hesaplardaki işyeri tahkiklerini planlar, ayırır ve izler.
Görev İzleyicisi (Task Tracker): Map Reduce işlemleri çalıştırır, genel olarak kullanışlı haritalar, redüktörler
ve bölücülerden oluşan bir kütüphane ile birlikte gelir.
MapReduce ve Spark’ın kendine göre avantajları ve dezavantajları olmakla birlikte Spark genellikle avantajları
ile çok daha ön plana çıkabilmektedir.
§ Hadoop MapReduce verileri okumak ve yazmak için diski kullanır. Bu işlem hızının yavaşlamasına sebep
olurken, Spark verileri bellekte depolar, dolayısıyla işlem hızının yaklaşık 100 kat daha yüksek olduğu veri
analitiği araştırmalarında ortaya konulmaktadır.
§ Hadoop MapReduce farklı gereksinimler için birbirinden farklı bileşenlere gereksinim duyar. Spark, toplu ve
etkileşimli bir şekilde makine öğrenmesi, grafik işleme, akan veri analizi gibi görevleri gerçekleştirir.
§ Hadoop, yapısı itibariyle verileri toplu ve verimli bir şekilde işlemek için tasarlanmıştır. Spark, gerçek
zamanlı verileri verimli bir şekilde yönetmek için tasarlanmıştır.
§ Hadoop MapReduce ile, yalnızca toplu modda verileri işlerken, Spark gerçek zamanlı verileri Spark
Streaming aracılığıyla işleyebilir.
about:blank 184/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
§ MapReduce ve Spark maliyet açısından karşılaştırıldığında disk ve bellek kullanımları göz önünde
bulundurulursa Spark bellek kullanımından dolayı daha maliyetli bir seçenek olabilir.
Python ile Spark’ın iş birliği sonucu PySPark ortaya çıkmıştır. Python dili ile Spark üzerinde geliştirme
yapabilme imkanı tanımaktadır. Aynı zamanda Python kütüphanesinin ismidir [1]. Bu kütüphane aracılığıyla
iki adet örnek uygulama gerçekleştirilmektedir.
Bölüm Özeti
Apache Spark gibi yeni teknolojiler sayesinde projelerinizde, çalışmalarınızda performans artışı
sağlayabilmeniz mümkün hale gelmektedir. Bu performans artışının sırrı ise, Apache Spark’ın bellek (RAM)
üzerinde çalışması ve bu da işlemeyi disk sürücülerinden çok daha hızlı hale getirmesidir.
Apache Spark, büyük veri kümeleri üzerinde paralel olarak işlem yapılmasını sağlayan, Scala dili ile
geliştirilmiş açık kaynak kodlu kütüphanedir.
Disk bazlı çalışma yapısına sahip olan MapReduce’un oluşturduğu performans maliyetlerin çözümüyle ortaya
çıkan Spark, bellek içi veri işleme özelliğiyle büyük veri uygulamalarında Apache Hadoop’tan daha hızlı
çalışabilmektedir. Dolayısıyla verileri işlerken diskten veri okumadan veya diske veri yazmadan bellekte
tutmasıyla Spark’ın analitik motorunun daha hızlı işlemler yapabildiğini söylemek mümkündür.
Bellek içi veri işleme, Spark’ın temel programlama özeti olan RDD (Resilient Distributed Datasets)’ler ile
yapılmaktadır. RDD’ler elemanlar üzerinde paralel olarak işlemlerin yapılmasını sağlayan, makinalar arasında
bölünmüş veri koleksiyonlarıdır. RDD’ler oluşturularak diskteki veriler, geçici belleğe taşınmaktadır. Bu
RDD’ler üzerinde yapılacak senaryolara göre sorgular yazılarak veriler işlenmektedir.
Makine öğrenimi, akış verileri, grafik verileri gibi farklı konularda büyük veri uygulamalarında kullanılabilen
Spark, veriyle ilgili çalışan kullanıcılar tarafından tercih edilmektedir. Ayrıca Java, Scala, Pyhton gibi farklı
yazılım dilleri ile uygulamalar geliştirilmesine olanak sağlamasıyla popülerliğini artırmaktadır.
Kaynakça
[1] Apache Spark Web Site, “Pyhton” (Son Erişim:20.01.2022)
URL: https://spark.apache.org/docs/latest/api/python/index.html"
target="_blank">https://spark.apache.org/docs/latest/api/python/index.html
URL: https://www.gtech.com.tr/apache-spark/
[3] Erdem Y. “Büyük Verinin Makine Öğrenmesi Yöntemleri İle Apache Spark Teknolojisi Kullanılarak
Sınıflandırılması”, Yüksek Lisans Tezi, Karabük Üniversitesi Fen Bilimleri Enstitüsü, 2017.
[4] Apache Spark Web Site, “Machine Learning Library (MLlib) Guide” (Son Erişim:20.01.2022)
URL: https://spark.apache.org/
[5] Teknoloji.Org Web Sitesi, “Apache Spark Nedir? Nasıl Çalışır” (Son Erişim:20.01.2022)
URL: https://teknoloji.org/apache-spark-nedir-nasil-calisir/
[6] Gazal, P., D., and Kaur, “A Survey on Big Data Storage Strategies”, IEEE, India (2015)
Ünite Soruları
about:blank 185/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Soru-1 :
(Çoktan Seçmeli)
(A) MLlib
(B) Streaming
(C) GraphX
(D) SparkSQL
(E) TimeSeries
Cevap-1 :
TimeSeries
Soru-2 :
Spark’ın gerçek zamanlı veri işleme üzerine geliştirilen bileşeni aşağıdakilerden hangisidir?
(Çoktan Seçmeli)
(A) Streaming
(B) Spark R
(E) MBLib
Cevap-2 :
Streaming
Soru-3 :
(Çoktan Seçmeli)
(A) Hadoop
(B) MapReduce
(C) ZooKeeper
(D) PySpark
(E) NoSQL
Cevap-3 :
about:blank 186/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
MapReduce
Soru-4 :
(Çoktan Seçmeli)
(A) Sürücü
(B) Yürütücü
Cevap-4 :
Veri tabanı
Soru-5 :
(Çoktan Seçmeli)
(A) Python
(B) Scala
(C) Ruby
(D) R
(E) Java
Cevap-5 :
Ruby
Soru-6 :
Apache Spark hangi dil ile geliştirilmiş bir büyük veri işleme motorudur?
(Çoktan Seçmeli)
(A) Python
(B) Java
(C) ASP
(D) C#
(E) Scala
about:blank 187/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Cevap-6 :
Scala
Soru-7 :
(Çoktan Seçmeli)
(C) Sürücüler ve küme yöneticileri olmak üzere iki ana bileşene sahiptir.
Cevap-7 :
Soru-8 :
(Çoktan Seçmeli)
Cevap-8 :
Soru-9 :
(Çoktan Seçmeli)
(C) Mevcut sistem belleği yetersiz olduğunda disk tabanlı işleme yapar.
Cevap-9 :
Soru-10 :
(Çoktan Seçmeli)
Cevap-10 :
Küme yöneticisi
Soru-11 :
(Çoktan Seçmeli)
Cevap-11 :
Soru-12 :
Aşağıdakilerden hangisi büyük veri işleme üzerine geliştirilmiş bir uygulama değildir?
(Çoktan Seçmeli)
(B) HADOOP
about:blank 189/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(C) MapReduce
(D) Pandas
(E) PySpark
Cevap-12 :
Pandas
about:blank 190/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
3. Apache Spark ile metin temelli büyük veri uygulaması geliştirmek için hangi komutlar kullanılır?
4. Büyük veride Apache Spark ile tahminleme işlemleri hangi kütüphane ve komutlar ile gerçekleştirilebilir.
Başlamadan Önce
Verinin her geçen gün katlanarak büyüdüğü günümüz dünyasında o veriyi işleyebilmenin ve veriden anlamlı
çıkarımlarda bulunabilmenin önemi de katlanarak artmaktadır. Ancak terabaytlarca ve hatta petabaytlarca
verinin olduğu ve içinde ilişkisel veritabanlarının, NoSQL’lerin ve text, CSV ve JSON, parquet gibi yarı
yapısal ve yapısal olmayan verilerin bulunduğu bir ekosistemde klasik yöntemlerle analiz yapmak çok zordur.
Bu noktada farklı bir mimariye sahip Apache Spark bu gibi sorunları ortadan kaldırarak büyük veri
uygulamalarında sıklıkla kullanılmaktadır.
Birçok uygulama örneklerini üzerinde gerçekleştirebileceğiniz Apache Spark üzerinde en yaygın kullanılan
metin işlemlerine aşinalık olması adına Pyhton üzerinde gerekli kütüphaneler kurularak basit kodlar yardımı
ile başlangıç yapılması amaçlanmıştır.
Akabinde makine öğrenmesinin büyük veride en yaygın kullanılan örneklerinden biri lineer regresyon
yöntemi ile tahminleme yapma işlemleridir. Bu konuda da temel oluşturabilecek işlem adımları ile örnek
kodlar geliştirilerek sunulacaktır.
Örnek uygulama gerçekleştirmek için sisteminizde Spark ve Java uygulamaları yüklemek gerekir. Python
uygulaması yüklü olan sistemler aşağıdaki şekilde spark kütüphanelerini yükleyerek uygulamayı
gerçekleştirebilirler.
Komut penceresi sayesinde yüklemenin başarılı bir şekilde sonuçlandığı aşağıdaki görselde verilmiştir.
about:blank 191/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
"findspark" kütüphanesi pyspark'ı normal bir kütüphane olarak içe aktarılabilir kılmak için kullanılır.
Oluşturulan spark oturumunu "sc" isimli değişkene aktarılarak aşağıdaki şekilde görüntülenebilir.
about:blank 192/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Bilgisayardaki bir metin dökümanını Spark ortamına dahil etmek için aşağıdaki şekilde bir kod yazılabilir.
Adım 3: Sayfalama
Dosya içerisinde tüm dokumanı görüntüleme yerine örneğin 20 satır incelenmek istendiğinde aşağıdaki şekilde
işlem gerçekleştirilebilir.
about:blank 193/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Büyük veride en çok yapılandırılmamış veri kümeleri metinlerdir. Bu metinlerde yoğun bir şekilde kelime
saydırma işlemleri kullanılmaktadır.
Satırlar boşluk karakterine göre ayrıldığında 1.416.508 adet kelime olduğu görülüyor.
Buradan anlaşıldığı üzere bazı kelimelerin aslında boşluk olduğu görülmektedir. Bu durumda boşluklardan
kurtulmak için filtreleme işlemleri yapılmalıdır:
Kelime sayısı 1.416.508 adete düşmüştür. Filtrelendikten sonraki ilk 10 kelimeyi görüntülenirse.
about:blank 194/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Tamamı büyük harflerden oluşan kelime listesinden ilk 10 kelime tekrar görüntülenirse:
about:blank 195/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Frekans değerlerine göre sıralanması için öncelikle key ve value değerleri yer değiştirilirse:
about:blank 196/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
İlk iki karakteri "EN" olan kelimeleri frekansları ile birlikte bulunmak istenirse:
Son iki karakteri "IS" olan ve frekansları 5.000'den yüksek olan kelimeler görüntülenirse:
TV, Radio, Newspaper, Sales olmak üzere 4 adet öznitelikten oluşan veri seti sırasıyla televizyon reklamları
için yapılan harcama miktarı, radyo reklamları için yapılan harcama miktarı, gazete reklamları için yapılan
harcama miktarı ve bu harcamaların sonucunda satışlardan elde edilen ciro miktarlarını barındırmaktadır.
about:blank 197/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Aşağıdaki kod aracılığıyla ilgili Apache Spark kütüphaneleri içe aktarılabilir ve böylelikle bir Spark oturumu
başlatılabilir. Bu amaç için Pandas kütüphanesi kullanılabilir.
Aşağıdaki kod aracılığıyla sabit diskimizde ve çalıştığımız dizinde bulunan “Advertising_Dataset.csv” isimli
veri seti içeri aktarılabilir. Pandas kütüphanesi aracılığıyla ilk 5 gözlemi görüntülemek için “head” komutunu
kullanabiliriz.
Veri setindeki özniteliklerin isimlerini değiştirmek için “as” bağlacı kullanılabilir. Aşağıdaki kod ile ilk ve son
öznitelik isimleri sırasıyla “id” ve “label” olarak güncellenmiştir.
about:blank 198/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Veri setindeki sayısal özniteliklerin merkezi eğilim ölçülerini görüntülemek için “describe” komutu
kullanılabilir.
TV ve Radio özniteliklerinin değerlerini her bir gözlem için vektöre dönüştürmek üzere “VectorAssembler”
komutu kullanılabilir.
Veri bilimi projelerinde analizin her bir aşamasını belirli bir sıraya koyarak süreçleri kolaylaştırmak amacıyla
“Pipeline” komutu kullanılabilir.
Eğitim ve test için veri seti sırasıyla ¾ ve ¼ olacak şekilde rassal olarak bölümlenebilir.
Vektör birleştirici ile birlikte regresyon modelini eğitebilmek için oluşturduğumuz “Pipeline” yapısı “fit”
komutu ile çalıştırılabilir.
Eğittiğimiz modeli, eğittiğimiz veri üzerinde tahminleyerek karşılaştırma yapmak için “transform” komutu
kullanılabilir.
Yukarıdaki tabloda “prediction” ve “label” öznitelikleri arasındaki fark tahminlerdeki sapmanın boyutunu
temsil etmektedir. Örneğin, 17.2 birim para televizyon reklamları için, 45.9 birim para radyo reklamları için ve
69.3 birim para gazete reklamları için harcandığı takdirde 9.3 birim ciro elde edilmektedir. Aynı girdi değerleri
için doğrusal regresyon modelimizin tahmini 12.7 birim ciro elde edileceği yönündedir. Bu durumda model
yaklaşık 3.5 birim ciro olması gerekenden fazla şekilde tahminde bulunmuştur.
Doğrusal regresyon modelinin denklemi, katsayıları ve eğim değeri ve özniteliklerin ne kadar anlamlı ve
önemli olduğu ve modelin başarısına dair detaylı bilgileri görebilmek için aşağıdaki kodlar çalıştırılabilir
Yukarıdaki bilgiler ışığında “intercept” ve “coefficient” değerlerine bakarak modelin denklemini aşağıdaki gibi
oluşturmak mümkündür.
Tahmin aşaması için televizyon reklam harcamalarına 100 birim ve radyo reklam harcamalarına 10 birim
ödenek ayrıldığında satıştan elde edilecek cironun kaç birim olacağını tahmin ettirmek için aşağıdaki kodlar
çalıştırılabilir.
Uygun formata getirildikten sonra “transform” komutu yardımı ile tahminleme gerçekleştirilebilir.
Yukarıda görüldüğü üzere satıştan elde edilecek cironun yaklaşık 9.33 birim olacağı tahminlenmiştir.
Bölüm Özeti
Bu bölümde aşinalık oluşturabilecek bazı temel işlemler ve en çok kullanılan komutlar anlatılmıştır. Bu
işlemlerden önce gerekli kurulum işlemleri anlatılmıştır.
Örnek uygulama gerçekleştirmek için işletim sistemlerine Spark ve Java uygulamaları yüklendikten sonra
spark kütüphanelerini yüklenerek uygulamalar gerçekleştirilmektedir.
Ayrıca bu bölümde yapılandırılmamış veya yarı yapılandırılmış birçok büyük veri uygulamasında kullanılan
temel metin işlemleri anlatılmıştır. Bu işlemler adım adım ve dilin grameri ile oluşturulan komut dizisi şeklinde
verilmiştir.
Son olarak veri analizi konusunda kolaylıkla temin edilebilecek “Advertising” isimli veri seti üzerinde sayısal
tahmin problemine yer verilmiştir. Bir Apache Spark oturumu başlatmak, bu oturum ile veri setini diskimizden
içe aktarmak, regresyon modeli kurmak ve kurulan modelin başarısını değerlendirmek adım adım işlenmiştir.
Kaynakça
[1] Apache Spark Web Site, “Pyhton” (Son Erişim:20.01.2022)
URL: https://spark.apache.org/docs/latest/api/python/index.html"
target="_blank">https://spark.apache.org/docs/latest/api/python/index.html
[2] Apache Spark Web Site, “Machine Learning Library (MLlib) Guide” (Son Erişim:20.01.2022)
URL: https://spark.apache.org/
about:blank 201/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
Ünite Soruları
Soru-1 :
Aşağıdakilerden hangisi PySpark ile veri madenciliği esnasında kullanılabilecek bir komut değildir?
(Çoktan Seçmeli)
(A) ReduceByKey
(B) Map
(C) FlatMap
(D) ReduceMap
(E) SortByKey
Cevap-1 :
ReduceMap
Soru-2 :
İsimsiz fonksiyonlar olarak bilinen ve filter, map, flatmap gibi işlemlerle sıklıkla kullanılabilen
fonksiyon yapısı aşağıdakilerden hangisidir?
(Çoktan Seçmeli)
(A) apply
(B) lambda
(C) def
(D) void
(E) transform
Cevap-2 :
lambda
Soru-3 :
(Çoktan Seçmeli)
(A) scan
(B) map
(C) sortByKey
about:blank 202/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(D) take
(E) creatDataFrame
Cevap-3 :
scan
Soru-4 :
Veri bilimi projelerinde analizin her bir aşamasını belirli bir sıraya koyarak süreçleri kolaylaştırmak
amacıyla aşağıdaki komutlardan hangisi kullanılır?
(Çoktan Seçmeli)
(A) filter
(B) lambda
(C) pipeline
(D) take
(E) summary
Cevap-4 :
pipeline
Soru-5 :
(Çoktan Seçmeli)
(A) spark
(B) pyspark
(C) tensorflow
(D) pipeline
(E) pandas
Cevap-5 :
pandas
Soru-6 :
Metin işlemlerinde kelimelerin benzerlik frekanslarını bulmak amacıyla aşağıdaki komutlardan hangisi
kullanılır?
(Çoktan Seçmeli)
(A) sortByKey
about:blank 203/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(B) lambda
(C) take
(D) reduceByKey
(E) describe
Cevap-6 :
reduceByKey
Soru-7 :
Metin işlemlerinde veri setindeki sayısal özniteliklerin merkezi eğilim ölçülerini görüntülemek için
amacıyla aşağıdaki komutlardan hangisi kullanılır?
(Çoktan Seçmeli)
(A) summary
(B) lambda
(C) take
(D) transform
(E) describe
Cevap-7 :
describe
Soru-8 :
Özniteliklerin değerlerini her bir gözlem için vektöre dönüştürmek üzere aşağıdaki komutlardan hangisi
kullanılır?
(Çoktan Seçmeli)
(A) VectorFit
(B) VectorTransform
(C) VectorAssembler
(D) VectorTake
(E) Assembler
Cevap-8 :
VectorAssembler
Soru-9 :
Yerel bilgisayarda 4 çekirdekli bir uygulama geliştirmek için aşağıdaki komutlardan hangisi kullanılır?
about:blank 204/205
31.05.2023 02:06 Ders : Büyük Veri - eKitap
(Çoktan Seçmeli)
(A) SparkSession.builder
(B) SparkSession.transform
(C) SparkSession.fit
(D) SparkSession.lambda
(E) SparkSession.assembler
Cevap-9 :
SparkSession.builder
Soru-10 :
Eğitim ve test işlemleri için rassal bölünmeyi sağlayan komut aşağıdakilerden hangisidir?
(Çoktan Seçmeli)
(A) sessionSplit
(B) randomSplit
(C) firSplit
(D) sparkSplit
(E) splitTake
Cevap-10 :
randomSplit
about:blank 205/205