"大數據"是一個體(tǐ)量特别大,數據類别特别大的數據集,并且這樣的數據集無法用(yòng)傳統數據庫工具對其内容進行抓取、管理(lǐ)和處理(lǐ)。
"大數據"首先是指數據體(tǐ)量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實際應用(yòng)中,很(hěn)多(duō)企業用(yòng)戶把多(duō)個數據集放在一起,已經形成了PB級的數據量;其次是指數據類别(variety)大,數據來自多(duō)種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據範疇,囊括了半結構化和非結構化數據。
接着是數據處理(lǐ)速度(Velocity)快,在數據量非常龐大的情況下,也能(néng)夠做到數據的實時處理(lǐ)。最後一個特點是指數據真實性(Veracity)高,随着社交數據、企業内容、交易與應用(yòng)數據等新(xīn)數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以确保其真實性及安(ān)全性。