Google Big Table Final

Uploaded by

Kuba Łapuszyński

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

89 views18 pages

Google Big Table Final

Uploaded by

Kuba Łapuszyński

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Google BigTable

Geneza powstania
Ilod danych - Kopie witryn, dane satelitarne, dane uytkownikw, email, etc. Brak komercyjnego systemu tej wielkoci - Koszta uytkowania powyszego gdyby istnia - Moliwe, e nie posiadaby take odpowiednich rozwizao Astronomiczna liczba zapytao.

Na pocztku roku 2004 Google rozpoczyna prace nad Bigtable. Gwne cele tego projektu to: 1. Skalowalnod do petabajtw danych na tysicach komputerw 2. Mnogod zastosowao (Bigtable znajduje aktualnie zastosowanie w wikszoci serwisw Google) 3. Wysoka wydajnod 4. Wysoka stabilnod

W skrcie

Wartoci kadej z krotek jest ciag bajtw. (row:string, column:string, time:int64) > string

Na klucz krotki skada sie:

Identyfikator wiersza, wg ktrego dane sa sortowane. Rodzina kolumn (ang. column family ) - przypomina dobrze znan kolumn z relacyjnych baz danych. Liczba rodzin kolumn powinna byd niewielka (co najwyej setki) i rzadko si zmieniad. Dane przechowywane w rodzinie kolumn sa tego samego typu. Kwalifikator kolumny (ang. qualifier ) - w jednej rodzinie kolumn moe byd nieskooczenie wiele kwalifikatorw. Kwalifikator, wraz z nazwa rodziny, tworzy klucz kolumny, ktrego skadnia jest nastpujca: family:qualifier. Znacznik czasowy (timestamp) - umoliwia wersjonowanie danej krotki(np. mona trzymad dane nie starsze ni 3 dni, lub ich 8 ostatnich wersji).

Organizacja danych
Dane przechowywane s w plikach w specjalnym formacie o nazwie SSTable SSTable to posortowane odwzorowanie z kluczy do ich wartoci, gdzie zarwno klucze jak i wartoci s po prostu cigami bajtw.

Organizacja danych
Pliki w formacie SSTable s podzielone na bloki po 64 KB kady. Na koocu pliku znajduje sie indeks blokw, ktry po otwarciu pliku jest w caoci kopiowany do pamici. Indeks ten jest zbiorem par nastpujcej postaci: - (ostatni klucz w bloku, pooenie bloku) Odczyt wartoci krotki z danego pliku odbywa sie poprzez wyszukanie przedziau, w ktrym znajduje sie dana wartod klucza - tj. zdefiniowanie waciwego bloku wykorzystywany jest zwyky algorytm binarny) oraz na odczytaniu tego bloku z dysku.

Organizacja danych
SSTable s zgrupowane w kolejnym typie danych zwanym Tablet. Dane s podzielone na zbiory o wielkosci ok. 100 MB. S to przedziay (tablets) zdefiniowane przez klucz wiersza pierwszej i ostatniej krotki. Pocztkowo kada tabela skada sie z jednego przedziau, ktry rozpina wszystkie klucze. W momencie, gdy przedzia staje sie zbyt duy (jego rozmiar przekracza 200 MB), dzieli sie on na dwa przedziay ze rodkowym kluczem jako miejscem podziau. Nowy przedzia zostanie przydzielony do nowego serwera przez serwer gwny.

Bigtable wykorzystuje inne komponenty infrastruktury Google.

Google File System (GFS) - do przechowywania logw oraz plikw z danymi. Chubby - mechanizm blokad oraz przechowywanie maych plikw.

GFS
GFS to rozproszony system plikw, ktry przez Bigtable jest wykorzystywany do przechowywania logw oraz plikw z danymi. GFS to jeden serwer gwny i kilkaset do kilku tysicy serwerw czstkowych (chunk-servers) Serwer gwny (master ) przechowuje dane o pooeniu blokw i monitoruje dostpnod chunkserwerw. Kady blok jest powielany w co najmniej 3 kopiach.

Chubby
Chubby to odporny na bdy zarzdca mechanizmu blokad dla rozproszonych systemw (jest wykorzystywany przez GFS i Bigtable). Suy take do przechowywania maych plikw. Do jednego klastra jest przypisany jeden Chubby. Odpornod na awarie jest uzyskiwana przez replikacje na serwis ten przypada piec replik, z ktrych jedna jest wybierana do aktywnej obsugi zapytao (pozostae repliki na zapytania klientw odpowiadaj, adresem IP aktywnej repliki). Serwis przestaje dziaad, gdy wikszod replik jest niedostpna.

Tablet servers
kady serwer przedziaw jest odpowiedzialny za obsug dao zapisu i odczytu od klientw (dane nie przechodz przez serwer gwny) jednemu serwerowi moe byd przydzielonych wiele tysicy przedziaw. nowe serwery przedziaw mog byd atwo doczane lub odczane od klastra. Mona dziki temu szybko reagowad na zmiany obcienia

Serwer gwny
Gwne zadania serwera gwnego to:
zarzdzanie przedziaami kluczy - przydzielane ich do odpowiednich serwerw wykrywanie doczenia i odczenia serwera przedziaw od klastra rozpraszanie obcienia pomidzy serwery usuwanie niepotrzebnych plikw z GFS

Odnajdywanie przedziaw

Root Tablet zawiera lokalizacje wszystkich przedziaw wchodzcych w skad specjalnej tabeli zawierajcej metadane o przedziaach. Jest to tak naprawd pierwszy przedzia tej tabeli. Jest on traktowany specjalnie jedynie w tym sensie, ze nigdy nie podlega podziaowi dla zapewnienia co najwyej trj-poziomowej hierarchii. tabela metadanych zawiera lokalizacje przedziau (list plikw w formacie SSTable, oraz wskaniki do plikw dziennika), ktry jest definiowany przez nazw tabeli, do ktrej naley przedzia oraz jego koocowy klucz. przedziay w tabeli metadanych maja rozmiar co najwyej 128 MB co, przy redniej wielkoci wiersza w tej tabeli wynoszcej 1KB, umoliwia zaadresowanie 234 przedziaw (lub 261 danych przy rozmiarze przedziau wynoszcym 128MB)

Przykadowy kod aktualizacja danych

// Open the table Table T = OpenOrDie (/ bigtable/web/webtable ); // Write a new anchor and delete an old anchor RowMutation r1 (T, com.cnn.www); r1 . Set ( anchor:www.cspan.org , CNN ) ; r1 . De l e t e (anchor:www. abc.com ) ; Operation op ; Apply (&op , &r1 ) ;

Przykadowy kod wczytanie danych

Scanner scanner(T); ScanStream *stream; stream = scanner.FetchColumnFamily("anchor"); stream->SetReturnAllVersions(); scanner.Lookup("com.cnn.www"); for (; !stream->Done(); stream->Next()) { printf("%s %s %lld %s\n", scanner.RowName(), stream->ColumnName(), stream->MicroTimestamp(), stream->Value()); }

Bazy Danych Tablicowych: Koncepcje, Standardy, Wdrożenia
No ratings yet
Bazy Danych Tablicowych: Koncepcje, Standardy, Wdrożenia
61 pages
Dane Przestrzenne
No ratings yet
Dane Przestrzenne
103 pages
Analiza Danych Z Uzyciem Narzedz
No ratings yet
Analiza Danych Z Uzyciem Narzedz
21 pages
Wykład 07
No ratings yet
Wykład 07
57 pages
Mapa Numeryczna
No ratings yet
Mapa Numeryczna
9 pages
Sieciowe Serwery Baz Danych PDF
No ratings yet
Sieciowe Serwery Baz Danych PDF
6 pages
Informatyka
No ratings yet
Informatyka
5 pages
Podstawowe Struktury Danych Rekord
No ratings yet
Podstawowe Struktury Danych Rekord
21 pages
GIS
No ratings yet
GIS
6 pages
4 System Plików Linuxa
No ratings yet
4 System Plików Linuxa
5 pages
Materialy Szkoleniowe - GIS W QGIS Poziom Podstawowy
No ratings yet
Materialy Szkoleniowe - GIS W QGIS Poziom Podstawowy
111 pages
Kolokwium Mapa Numeryczna Sciaga Popraw
No ratings yet
Kolokwium Mapa Numeryczna Sciaga Popraw
1 page
Aso Systemy Plikow, Przystawki
No ratings yet
Aso Systemy Plikow, Przystawki
4 pages
Wykład 03
No ratings yet
Wykład 03
48 pages
Technologie Baz Danych CD
No ratings yet
Technologie Baz Danych CD
73 pages
Rozwój Bibliotek Cyfrowych I Repozytoriów
No ratings yet
Rozwój Bibliotek Cyfrowych I Repozytoriów
13 pages
MateriaÅ y Do Wykå Adã W Big Data
No ratings yet
MateriaÅ y Do Wykå Adã W Big Data
30 pages
Historia SZBD
No ratings yet
Historia SZBD
20 pages
ĆWICZENIA Z PROJEKTOWANIA BAZ DANYCH (1) Nacisk
No ratings yet
ĆWICZENIA Z PROJEKTOWANIA BAZ DANYCH (1) Nacisk
9 pages
Język Baz Danych - SQL cz.1: Wstęp
No ratings yet
Język Baz Danych - SQL cz.1: Wstęp
5 pages
Podstawowe Pojęcia Baz Danych
No ratings yet
Podstawowe Pojęcia Baz Danych
15 pages
Typy Danych
No ratings yet
Typy Danych
1 page
Uwagato Jest Git
No ratings yet
Uwagato Jest Git
4 pages
Baza Danych Mysql: HOST: 149.156.136.151 PORT: 3306
No ratings yet
Baza Danych Mysql: HOST: 149.156.136.151 PORT: 3306
15 pages
01 SAP Podstawy ABAP Wyklad
No ratings yet
01 SAP Podstawy ABAP Wyklad
104 pages
Zakres Pytan Egzamin BD Ns
No ratings yet
Zakres Pytan Egzamin BD Ns
23 pages
Modelowanie Stacjo
No ratings yet
Modelowanie Stacjo
4 pages
Programista 100a
No ratings yet
Programista 100a
128 pages
w02 NoSQL-RPerliński
No ratings yet
w02 NoSQL-RPerliński
75 pages
DB Lab6
No ratings yet
DB Lab6
9 pages
SPDB-Sprawozdanie Karwat Kotulskiv2
No ratings yet
SPDB-Sprawozdanie Karwat Kotulskiv2
7 pages
Podstawy Budowy I Eksploatacji Sprzętu It
No ratings yet
Podstawy Budowy I Eksploatacji Sprzętu It
17 pages
Bazy Danych Sciaga
No ratings yet
Bazy Danych Sciaga
6 pages
Mapy W QGIS 3.4 Od Podstaw-Kartogram
No ratings yet
Mapy W QGIS 3.4 Od Podstaw-Kartogram
20 pages
Wymagania Projektowe
No ratings yet
Wymagania Projektowe
1 page
3.programowanie C++
No ratings yet
3.programowanie C++
12 pages
03 02 Tabele Ob
No ratings yet
03 02 Tabele Ob
34 pages
Wojciech Chrobak 2019
No ratings yet
Wojciech Chrobak 2019
66 pages
Sys Komp 3
No ratings yet
Sys Komp 3
27 pages
Budownictwo
No ratings yet
Budownictwo
8 pages
Raport Z Seminarium Na Temat Normalizacji
No ratings yet
Raport Z Seminarium Na Temat Normalizacji
29 pages
Patryk Basiaga, Radosław Duda
No ratings yet
Patryk Basiaga, Radosław Duda
19 pages
Programowanie Nauka
No ratings yet
Programowanie Nauka
2 pages
Wykład 08
No ratings yet
Wykład 08
44 pages
Dokumentacja Bazydanych
No ratings yet
Dokumentacja Bazydanych
6 pages
Wyklad4 PK 2025c
No ratings yet
Wyklad4 PK 2025c
36 pages
1 Podstawowe Pojęcia SQL
No ratings yet
1 Podstawowe Pojęcia SQL
34 pages
Systemy Plików
No ratings yet
Systemy Plików
45 pages
Bazy Danych Lab22
No ratings yet
Bazy Danych Lab22
5 pages
Pamięć Masowa W Chmurze
No ratings yet
Pamięć Masowa W Chmurze
21 pages
Urządzenia Pamięciowe
No ratings yet
Urządzenia Pamięciowe
6 pages
BD Projekt Tematy
No ratings yet
BD Projekt Tematy
2 pages
09 Elementy Platformy Systemowej Wonderware
No ratings yet
09 Elementy Platformy Systemowej Wonderware
12 pages
Google Hacking PDF
No ratings yet
Google Hacking PDF
77 pages
Zagadnienie NR 15
No ratings yet
Zagadnienie NR 15
24 pages
Siggg
No ratings yet
Siggg
6 pages
System Plikow EXT2
No ratings yet
System Plikow EXT2
3 pages
Zarządzanie Przestrzeniami Tabel W Oracle
No ratings yet
Zarządzanie Przestrzeniami Tabel W Oracle
5 pages
b22 st23 Prak1
No ratings yet
b22 st23 Prak1
6 pages
Pełnomocnictwo OSD - ECO
No ratings yet
Pełnomocnictwo OSD - ECO
1 page
Umowa Na Lekcje Prywatne
No ratings yet
Umowa Na Lekcje Prywatne
1 page
33 Tkanki Roslinne
No ratings yet
33 Tkanki Roslinne
10 pages
Instrukcja Obslugi Sony Fe 135mm f1.8 GM
No ratings yet
Instrukcja Obslugi Sony Fe 135mm f1.8 GM
2 pages
$R3K5YOF
No ratings yet
$R3K5YOF
2 pages
MSDS 2
No ratings yet
MSDS 2
10 pages

Google Big Table Final

Uploaded by

Google Big Table Final

Uploaded by

Google BigTable

Na klucz krotki skada sie:

Bigtable wykorzystuje inne komponenty infrastruktury Google.

Przykadowy kod aktualizacja danych

Przykadowy kod wczytanie danych

You might also like