數(shù)據(jù)流區(qū)別特征
與傳統(tǒng)的關(guān)系數(shù)據(jù)模式區(qū)別
b.babcock等[90]認(rèn)為數(shù)據(jù)流模式在以下幾個方面不同于傳統(tǒng)的關(guān)系數(shù)據(jù)模式:
1. 數(shù)據(jù)聯(lián)機到達(dá);
2. 處理系統(tǒng)無法控制所處理的數(shù)據(jù)的到達(dá)順序;
3. 數(shù)據(jù)可能是無限多的;
4. 由于數(shù)據(jù)量的龐大,數(shù)據(jù)流中的元素被處理后將被拋棄或存檔(archive)。以后再想獲取這些數(shù)據(jù)將會很困難,除非將數(shù)據(jù)存儲在內(nèi)存中,但由于內(nèi)存大小通常遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)流數(shù)據(jù)的數(shù)量,因此實際上通常只能在數(shù)據(jù)**次到達(dá)時獲取數(shù)據(jù)。
三個特點
我們認(rèn)為,當(dāng)前所研究的數(shù)據(jù)流計算之所以不同于傳統(tǒng)的計算模式,關(guān)鍵在于這些數(shù)據(jù)流數(shù)據(jù)本身具有如下三個特點:
數(shù)據(jù)的到達(dá)—快速
這意味著短時間內(nèi)可能會有大量的輸入數(shù)據(jù)需要處理。這對處理器和輸入輸出設(shè)備來說都是一個較大的負(fù)擔(dān),因此對數(shù)據(jù)流的處理應(yīng)盡可能簡單。
數(shù)據(jù)流
數(shù)據(jù)的范圍—廣域
這是指數(shù)據(jù)屬性(維)的取值范圍非常大,可能取的值非常多,如地域、手機號碼、人、網(wǎng)絡(luò)節(jié)點等。這才是導(dǎo)致數(shù)據(jù)流無法在內(nèi)存或硬盤中存儲的主要原因。如果維度小,即使到來的數(shù)據(jù)量很大,也可以在較小的存儲器中保存這些數(shù)據(jù)。例如,對于無線通信網(wǎng)來說,同樣的100萬條通話記錄,如果只有1000個用戶,那么使用1000個存儲單位就可以保存足夠多和足夠精確的數(shù)據(jù)來回答“某一用戶的累計通話時間有多長”的問題;而如果共有100000個用戶,要保存這些信息,就需要100000個存儲單位。數(shù)據(jù)流數(shù)據(jù)的屬性大多與地理信息、ip地址、手機號碼等有關(guān),而且往往與時間聯(lián)系在一起。這時,數(shù)據(jù)的維度遠(yuǎn)遠(yuǎn)**過了內(nèi)存和硬盤容量,這意味著系統(tǒng)無法完整保存這些信息,通常只能在數(shù)據(jù)到達(dá)的時候存取數(shù)據(jù)一次。
數(shù)據(jù)到達(dá)的時間—持續(xù)
數(shù)據(jù)的持續(xù)到達(dá)意味著數(shù)據(jù)量可能是無限的。而且,對數(shù)據(jù)進行處理的結(jié)果不會是較終的結(jié)果,因為數(shù)據(jù)還會不斷地到達(dá)。因此,對數(shù)據(jù)流的查詢的結(jié)果往往不是一次性而是持續(xù)的,即隨著底層數(shù)據(jù)的到達(dá)而不斷返回較新的結(jié)果。
以上數(shù)據(jù)流的特點決定了數(shù)據(jù)流處理的特點一次存取,持續(xù)處理,有限存儲,近似結(jié)果,快速響應(yīng)。
近似結(jié)果是在**個條件限制下產(chǎn)生的必然結(jié)果。由于只能存取數(shù)據(jù)一次,而且只有相對較小的有限空間存儲數(shù)據(jù),因此產(chǎn)生精確的計算結(jié)果通常是不可能的。而將對結(jié)果的要求從過去的“精確”改為“近似”后,實現(xiàn)數(shù)據(jù)流查詢的快速響應(yīng)也就成為了可能。
湖北匯智橋數(shù)據(jù)信息服務(wù)有限公司專注于項目股權(quán)**報告,項目數(shù)據(jù)分析,股權(quán)投資**分析及風(fēng)險評定報告等