Az adattavakat és az adattárházakat egyaránt széles körben használják a nagy mennyiségű adatok tárolására, de a két kifejezés nem ugyanazt takarja, hiszen a megoldások között számos eltérés van. De melyiket mikor érdemes választani?
Röviden
Az adattó a nyers adatok hatalmas tárháza, amelynek célja még nincs meghatározva. Az adattárház pedig olyan strukturált, szűrt adatok tárolója, amelyeket már feldolgoztak (rendszereztek) egy adott célra.
Az adattó
Az adattó egy olyan tárolóhely, amely nagy mennyiségű strukturált, félig strukturált és strukturálatlan adatot képes tárolni. Az adattó esetében minden típusú adat az eredeti formátumban kerül tárolásra, a fiókméretre vagy a fájlra vonatkozó rögzített korlátok nélkül.
Az adattavak sokféle forrásból származó adatokat tárolnak. Néha ezek az adatok strukturáltak, de gyakran meglehetősen rendezetlenek, mivel az azok közvetlenül az adatforrásokból kerülnek beolvasásra, ilyenek például IoT-eszközök, valós idejű közösségi médiafolyamok, vagy akár egy webalkalmazásokon belüli tranzakciók.
A céges adatvagyon részét képezhetik az internetről származó tartalmak is, amelyek gyűjtésére már több hazai megoldás is elérhető, ilyen többek között a Precognox által kifejlesztett TAS Data Collector.
Az akár petabájt méretű adattavakat főként adattudósok és mérnökök használják előszeretettel mivel az az adattárolás mellett kiválóan alkalmasak adatelemzésre, azon belül is mélytanulásos vagy valós idejű analitikára.
Az adattó alkalmazása mellett akkor érdemes dönteni, amikor a cél a költséghatékony nagy mennyiségű adat tárolása, mégpedig az eredeti formátumban.
a tárolás is igazi művészet, különösen ha adatokról van szó
Az adattárház
Az adattárház az adatok főként stratégiai (üzleti elemzői) felhasználását szolgálja, hiszen azt a különböző forrásokból származó adatok lekérdezésre és elemzésre tervezték. Az adattárházak az adattavakkal szemben olyan adatokat tartalmaznak, amelyeket korábban már megtisztítottak, hogy illeszkedjenek egy sémához, struktúrához, így jellemzően read-only módon vannak beállítva, mivel általában nincs szükség további adatok beszúrására.
Az adattárház kizárólag az elemzés szempontjából releváns adatokat tárolja, a felhasználók köre pedig legfőképpen az adat- és az üzleti elemzők.
Választási szempontok
A fentiekből jól kiolvasható, hogy amikor döntés előtt állunk, hogy adattóra vagy adattárházra van szükség, akkor az könnyedén meghozható, mivel jól elkülönülnek a felhasználási célok és módszerek, illetve a felhasználók köre.
Érdemes tehát a választás előtt tisztázni, hogy nyers vagy tisztított (és strukturált) adatokat kívánunk tárolni, azokkal főként adattudósok vagy üzleti elemzők dolgoznak, illetve milyen célok megvalósítása tűztük ki.
Amennyiben többet szeretne megtudni a témáról, kérjük olvassa el a Datacamp oldalán megjelent angol nyelvű cikket, amely jelen blogbejegyzésünk alapjául is szolgált!