Your browser (Internet Explorer 6) is out of date. It has known security flaws and may not display all features of this and other websites. Learn how to update your browser.
X

Nestrukturovaná data: Kolik jich je?

Už jste to slyšeli? Osmdesát až pětaosmdesát procent všech dat kolem nás je nestrukturovaných. Tedy jenom patnáct až dvacet procent dat sedí v pevně definovaných strukturách tabulek databází. Jednou se jako zdroj této informace uvádí Gartner, jindy IDC, Merrill Lynch nebo IBM.

Odkud se všechna ta čísla berou? A jak je prokázat?

„Množství informací se zdvojnásobuje po každých 1100 dnech, tedy zhruba po třech letech. Nicméně čas, který máme k zpracování těchto narůstajících informací je stále stejný: 1440 minut denně.“

Tento známý výrok Billa Jensena z knihy Simplicity platí už jen z jeho druhé poloviny. Množství dat se v organizacích zdvojnásobuje přinejmenším za polovinu Jensenem uváděného času.

Materiál IBM The Toxic Terabytes z roku 2006 dokonce uvádí, že do čtyř let můžeme počítat s tím, že celosvětová data se budou zdvojnásobovat každých jedenáct (!) hodin. Je tomu dnes v r. 2010 skutečně tak?

Každopádně nárůst dat je v dnešní době závratný. Zatímco před asi dvaceti lety pracovaly profesionální počítače s kilobajty a megabajty dat, dnešní školáci jich se svými laptopy spravují gigabajty a mezi profesionály se běžně hovoří o tera (1012 ) a petabytech (1015 ). Následují exa (1018 ), zetta (1021 ) a yotta (1024 ) bajty.

Jedna ze studií IDC hovoří o tom, že v roce 2006 bylo celkem vygenerováno 161 exabajtů dat, což představuje tři milionkrát více dat než se nacházelo v dosud vydaných knihách. Podle jiné studie společnosti Cisco v roce 2013 dosáhne objem IP komunikace dvou třetin zettabajtu, tj. 667 exabajtů. Video obsah na internetu bude v r. 2013 představovat 18exabajtů měsíčně a mobilní datová komunikace přenese v tom samém roce měsíčně dva exabajty dat.

Pro tak často uváděných 80% nestrukturovaných dat nelze dohledat žádné seriozní průzkumy, o které by bylo možné se opřít. Na druhé straně, expert přes data Philip Russom z The Datawarehouse Institute (TDWI) prezentoval v r. 2007 ve své práci zcela jiné údaje. Nejprve rozdělil široké datové spektrum na:

Strukturovaná data. Jeden z extrémů datového kontinua. Tato data se vyskytují zejména v databázích různých typů.

(Finanční transakce, data z různých snímačů a RFID čteček, aplikací Business Intelligence a datových skladů)

Nestrukturovaná data. Opačný extrém k předchozímu zahrnující dokumenty jakými jsou soubory z textových editorů, webové stránky, e-maily, audio a video.

(Těmito daty se zabývá Content Management, který disponuje mnohem širším záběrem, než jeho předchůdce Document Mangement)

Semistrukturovaná data. Vyplňují prostor definovaný oběma výšeuvedenými extrémy.

(Data z tabulkových procesorů, RSS feeds a XML dokumentů)

Grafické znázornění datového spektra/kontinua:

Podle tohoto průzkumu bylo 47 procent dat strukturovaných, 31 procent nestrukturovaných a zbylých 22 procent semistrukturovaných. I když dvě poslední kategorie označíme jako nestrukturovaná data – dostáváme se na 53 procent.

To ale stále není oněch 80-85%, které jsou běžně uváděny.

Související články:

Big Data & Big Knowledge

Big Big Data

Atlas oblaků: Mapy cloud computingu

  • There is visibly a bunch to identify about this. I believe you made certain good points in features also.

    Neely Whiby

    Únor 22, 2012

  • I’d like to see any serious analytics on that. However, did not succeed yet.

    pza

    Únor 26, 2012

Leave a comment  

name*

email*

website

Submit comment