Niedawno zaprezentowaliśmy artykuł, w którym rozważaliśmy ograniczone możliwości gromadzenia danych, oraz możliwych sposobów ich segregowania na ważne, warte przechowywania, oraz tych mniej ważnych, nadających się tylko i wyłącznie do usunięcia. Dzisiaj pociągniemy ten wątek i zastanowimy się jak to jest z tymi danymi.

Dla osób, które nie przeczytały poprzedniego artykułu, kilka słów wprowadzenia. Powódź danych rośnie, zaczynając od coraz większej ilości filmów i gier o wysokiej rozdzielczości obrazu, kamer zapisujących każdy ruch, telefonów, tabletów oraz innych gadżetów które zapisują wszelkiego rodzaju informacje, zalewając nas niezliczoną ilością bitów, które musimy przechowywać. Wciąż uważasz, że produkujesz mało informacji? W takim razie idźmy dalej. Prawie każde urządzanie w dzisiejszych czasach jest wyposażone w procesor i oprogramowanie, które pozwala łączyć się z innymi urządzeniami oraz internetem. Wszystko co powstanie gdzieś jest zapisywane, przecież dobrze wiemy, bo od zawsze nam to powtarzano, że w przyrodzie nic nie ginie…

Prognozy przewidują wzrost globalnych danych nawet 50-krotny do 2020 roku ! Oczywiście dane nie są rozłożone równomiernie, niektóre firmy (np. dostawcy rozwiązań typu cloud), będą przechowywać większość powstałych informacji. Teraz pytanie, jak przechowywać je w sposób ekonomicznie efektywny? Jest to sprawa dyskusyjna i należy zastanowić się co robić z tym dalej.

Każdy z nas ma naturę chomika

Zacznijmy teraz od prostego przykładu, który zobrazuje ( chyba w najlepszy możliwy sposób) istniejący problem, można by powiedzieć problem natury ludzkiej. Na pewno przeżyliście w życiu taką sytuacje, że nadchodzi dzień przeprowadzki. Mieszkaliście w jednym miejscu kilka lat i nagle musicie wszystkie swoje „ śmieci” spakować w kartony. Wziąłem słowo śmieci w cudzysłów, ale tak naprawdę nie powinienem tego robić. W rzeczywistości są to śmieci, które gromadziliśmy przez lata. W szlachetnym pragnieniu uniknięcia marnotrawstwa, często gromadzimy całkiem bezużyteczne i bezwartościowe przedmioty, a na pytanie typ: „stary, po co Ci to?” , bez wahania odpowiadamy, „na pewno mi się to kiedyś przyda!”. Dla wielu osób, świadome pozbycie się czegoś, jest niemożliwe lub graniczy z cudem. Tak samo jest z danymi. Każdy z nas uwielbia je „chomikować”.

Taki sam problem mamy z danymi. Cały ten zbiór informacji zapisanych w postaci zer i jedynek często jest bezużyteczny. Informacje, które w teorii powinny decydować o wartości naszego przedsiębiorstwa, są kupą śmieci, które tylko i wyłącznie zajmują miejsce, tak cenne w dzisiejszych czasach. Dla niektórych firm, wartość, którą uzyskają z analizy tej ogromnej ilości danych, poprzez wdrożenie systemu analitycznego danych, nie jest wystarczająca i nie znajduje odpowiedniego uzasadnienia, aby go wprowadzić.

Nawet jeśli firma nie przetwarza tak dużej ilości danych, aby musiała wprowadzać jakiś system analizy, to jej potrzeby nadal będą rosnąć. Dlatego także takie firmy, powinny realizować pewne podejście do eliminowania niepotrzebnych danych. I znowu powstaje pytanie : jak różnicować dane użyteczne i bezużyteczne? Określenie i ocena wartości danych jest bardzo trudna.

Sprawa nie jest prosta

Jeśli nie interesują was analiza dużych danych, ale zamiast tego chcecie po prostu obniżyć koszty magazynowania, eliminując zbędne dane, należy określić sposoby różnicowania dobrych i złych danych. Ale tak jak napisaliśmy wcześniej, nie jest to prosta sprawa. Chociaż mogłoby się wydawać, że starsze dane są mniej użyteczne niż nowe i dlatego to właśnie je powinniśmy usunąć po określonym czasie, to nie zawsze to jest prawda. Robiąc tak, możemy wyeliminować dane, które zawierają o wiele cenniejsze informacje niż te, zebrane np. zaledwie minute temu.

Próby rozróżnienia danych według typu pliku, częstotliwości użytkowania, lokalizacji w pamięci, źródła, rozmiaru itp., zawsze napotkają ten sam problem. Analiza plików to żmudna robota, która zazwyczaj jest najprościej mówiąc nieopłacalna.

Oczywiście może podjąć pewne kroki, aby usunąć informacje które stają się bezużyteczne na bieżąco, ale takie podejście nie odnosi się do danych utworzonych automatycznie przez czujniki, sprzęt do monitorowania i tak dalej. Niestety, identyfikowania i usuwania niepotrzebnych danych może wydawać się bardziej kosztowne (lub przynajmniej bardziej kłopotliwe) niż po prostu opłata za dodatkowe miejsce i ignorowanie problemu. Problem z gromadzenie danych ma zatem wiele firm i osób prywatnych.

 Analizować czy nie analizować?

Przetwarzania dużych ilości danych jest kosztowne: wymaga podstawowej pamięci masowej, kopii zapasowej, kosztów inwestycyjnych dla obu urządzeń: przechowywania i przetwarzania, oprogramowania, kosztów pracy w zakresie wdrażania systemu oraz bieżące koszty uruchomienia wszystkiego. Realizacja wielkiej platformy danych powinna, tak jak każdej decyzji biznesowej, powinna być uzasadniona określonym potencjałem zysków. Jeżeli nakłady są większe niż zyski, to nie podejmujemy żadnych kroków, ponieważ nam się to nie opłaca.

Jeżeli nie chcesz inwestować w platformę, lub zwyczajnie nie masz takiej potrzeby mamy do zaprezentowania kilka innych dobrych powodów, aby regularnie eliminować niepotrzebne dane. Usuwanie danych, pomoże zaoszczędzić na kosztach magazynowania i tworzenia kopii zapasowych- które muszą być brane pod uwagę przy realizacji zadania, jakim jest magazynowanie danych. Taki prosty krok, jak usuwanie niepotrzebnych danych, może przynieść wiele korzyści, a co najważniejsze obniżyć koszty.

Podsumowanie

Ustalenie, czy duże dane analityczne są źródłem cennych spostrzeżeń zależy od wielu czynników. Dla wszystkich firm (być może, poza kilkoma wyjątkami), kampania przeciwko chomikowaniu danych, może pomóc poprzez zmniejszenie kosztów magazynowania, jak również zwraca większą uwagę na sam problem jakim jest przechowywanie danych. Niestety, ustalenie, jakie dane do usunięcia jest bardzo problematyczne, w dużej mierze ze względu na samą ich ilość. Ważne jest, aby podjąć jakieś kroki i zastanowić się co dalej zrobić z tym problemem i jak go rozwiązać.

Źródło : http://www.datacenterjournal.com/it/big-data-big-data-hoarding/