PSX-NET

Na czym opierają się trzy podstawowe poziomy deduplikacji danych?

Proces deduplikacji danych komputerowych, oznacza usuwanie powtarzających się plików oraz mogłaby odbyć się na trzech najważniejszych poziomach: bajtów, bloków i plików. Każdy z wymienionych poziomów określa inny typ fragmentu danych.

Są one następnie za pomocą systemu kontrolowane na wypadek występowania duplikacji. Do tworzenia unikatowych identyfikatorów wykorzystywany jest algorytm funkcji skrótu. Dotyczy to jakiejkolwiek przeanalizowanej części danych. Wspomniane identyfikatory przechowywane są w indeksie, a potem stosowane są w procesie deduplikacji. Naturalnie zduplikowane fragmenty posiadają takie same identyfikatory funkcji skrótu. W teorii im bardziej precyzyjna jest analiza, to tym wyższy jest współczynnik deduplikacji. W praktyce jednak wszystkie wymienione poziomy w każdym przypadku posiadają swe wady i zalety. Dla przykładu deduplikacja na poziomie plików okazuje się być zawsze najbardziej prosta przy wdrożeniu.
PIT
efekty
Co ważne, taka postać deduplikacji nie jest za bardzo obciążająca dla serwera, ponieważ wygenerowanie funkcji skrótu jest relatywnie proste. Niestety minusem tego typu operacji jest to, że jeśli dany plik zostanie w jakikolwiek sposób zmieniony, to zmienia się także identyfikator funkcji skrótu. W wyniku obie wersje plików będą na serwerze zamieszczone. Deduplikacja na szczeblu bloków opiera się naturalnie na porównaniu bloków danych. Wymaga ona większej mocy obliczeniowej. Podobnej mocy wymaga deduplikacja na poziomie bajtów. Jest to poniekąd najbardziej prymitywny sposób na porównywanie danych.

Wykonuje się to, jak sama nazwa sugeruje, bajt po bajcie. Przeprowadzana w taki sposób analiza jest naturalnie bardzo dokładna. Jakimś mankamentem mógłby okazać się czas trwania takiego typu deduplikacji.

About: admin