基本介紹
在計(jì)算機(jī)系統(tǒng)中,各種字母、數(shù)字符號(hào)的組合、語(yǔ)音、圖形、圖像等統(tǒng)稱(chēng)為數(shù)據(jù),數(shù)據(jù)經(jīng)過(guò)加工后就成為信息。
在計(jì)算機(jī)科學(xué)中,數(shù)據(jù)是指所有能輸入到計(jì)算機(jī)并被計(jì)算機(jī)程序處理的符號(hào)的介質(zhì)的總稱(chēng),是用于輸入電子計(jì)算機(jī)進(jìn)行處理,具有一定意義的數(shù)字、字母、符號(hào)和模擬量等的通稱(chēng)。是組成地理信息系統(tǒng)的最基本要素,種類(lèi)很多。
分類(lèi)
按性質(zhì)分為
?、俣ㄎ坏模绺鞣N坐標(biāo)數(shù)據(jù);
②定性的,如表示事物屬性的數(shù)據(jù)(居民地、河流、道路等);
?、鄱康模从呈挛飻?shù)量特征的數(shù)據(jù),如長(zhǎng)度、面積、體積等幾何量或重量、速度等物理量;
?、芏〞r(shí)的,反映事物時(shí)間特性的數(shù)據(jù),如年、月、日、時(shí)、分、秒等。
按表現(xiàn)形式分為
①數(shù)字?jǐn)?shù)據(jù),如各種統(tǒng)計(jì)或量測(cè)數(shù)據(jù)。數(shù)字?jǐn)?shù)據(jù)在某個(gè)區(qū)間內(nèi)是離散的值[1];
?、谀M數(shù)據(jù),由連續(xù)函數(shù)組成,是指在某個(gè)區(qū)間連續(xù)變化的物理量,又可以分為圖形數(shù)據(jù)(如點(diǎn)、線、面)、符號(hào)數(shù)據(jù)、文字?jǐn)?shù)據(jù)和圖像數(shù)據(jù)等,如聲音的大小和溫度的變化等。
按記錄方式分為
地圖、表格、影像、磁帶、紙帶。按數(shù)字化方式分為矢量數(shù)據(jù)、格網(wǎng)數(shù)據(jù)等。在地理信息系統(tǒng)中,數(shù)據(jù)的選擇、類(lèi)型、數(shù)量、采集方法、詳細(xì)程度、可信度等,取決于系統(tǒng)應(yīng)用目標(biāo)、功能、結(jié)構(gòu)和數(shù)據(jù)處理、管理與分析的要求。
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)的定義
數(shù)據(jù)庫(kù)是依照某種數(shù)據(jù)模型組織起來(lái)并存放二級(jí)存儲(chǔ)器中的數(shù)據(jù)集合。這種數(shù)據(jù)集合具有如下特點(diǎn):盡可能不重復(fù),以最優(yōu)方式為某個(gè)特定組織的多種應(yīng)用服務(wù),其數(shù)據(jù)結(jié)構(gòu)獨(dú)立于使用它的應(yīng)用程序,對(duì)數(shù)據(jù)的增、刪、改和檢索由統(tǒng)一軟件進(jìn)行管理和控制。從發(fā)展的歷史看,數(shù)據(jù)庫(kù)是數(shù)據(jù)管理的高級(jí)階段,它是由文件管理系統(tǒng)發(fā)展起來(lái)的。
數(shù)據(jù)庫(kù)的層次
數(shù)據(jù)庫(kù)的基本結(jié)構(gòu)分三個(gè)層次,反映了觀察數(shù)據(jù)庫(kù)的三種不同角度。
(1)物理數(shù)據(jù)層。它是數(shù)據(jù)庫(kù)的最內(nèi)層,是物理存貯設(shè)備上實(shí)際存儲(chǔ)的數(shù)據(jù)的集合。這些數(shù)據(jù)是原始數(shù)據(jù),是用戶加工的對(duì)象,由內(nèi)部模式描述的指令操作處理的位串、字符和字組成。
(2)概念數(shù)據(jù)層。它是數(shù)據(jù)庫(kù)的中間一層,是數(shù)據(jù)庫(kù)的整體邏輯表示。指出了每個(gè)數(shù)據(jù)的邏輯定義及數(shù)據(jù)間的邏輯聯(lián)系,是存貯記錄的集合。它所涉及的是數(shù)據(jù)庫(kù)所有對(duì)象的邏輯關(guān)系,而不是它們的物理情況,是數(shù)據(jù)庫(kù)管理員概念下的數(shù)據(jù)庫(kù)。
(3)邏輯數(shù)據(jù)層。它是用戶所看到和使用的數(shù)據(jù)庫(kù),表示了一個(gè)或一些特定用戶使用的數(shù)據(jù)集合,即邏輯記錄的集合。
數(shù)據(jù)庫(kù)的特點(diǎn)
數(shù)據(jù)庫(kù)不同層次之間的聯(lián)系是通過(guò)映射進(jìn)行轉(zhuǎn)換的。數(shù)據(jù)庫(kù)具有以下主要特點(diǎn):
(1)實(shí)現(xiàn)數(shù)據(jù)共享。數(shù)據(jù)共享包含所有用戶可同時(shí)存取數(shù)據(jù)庫(kù)中的數(shù)據(jù),也包括用戶可以用各種方式通過(guò)接口使用數(shù)據(jù)庫(kù),并提供數(shù)據(jù)共享。
(2)減少數(shù)據(jù)的冗余度。同文件系統(tǒng)相比,由于數(shù)據(jù)庫(kù)實(shí)現(xiàn)了數(shù)據(jù)共享,從而避免了用戶各自建立應(yīng)用文件。減少了大量重復(fù)數(shù)據(jù),減少了數(shù)據(jù)冗余,維護(hù)了數(shù)據(jù)的一致性。
(3)數(shù)據(jù)的獨(dú)立性。數(shù)據(jù)的獨(dú)立性包括數(shù)據(jù)庫(kù)中數(shù)據(jù)庫(kù)的邏輯結(jié)構(gòu)和應(yīng)用程序相互獨(dú)立,也包括數(shù)據(jù)物理結(jié)構(gòu)的變化不影響數(shù)據(jù)的邏輯結(jié)構(gòu)。
(4)數(shù)據(jù)實(shí)現(xiàn)集中控制。文件管理方式中,數(shù)據(jù)處于一種分散的狀態(tài),不同的用戶或同一用戶在不同處理中其文件之間毫無(wú)關(guān)系。利用數(shù)據(jù)庫(kù)可對(duì)數(shù)據(jù)進(jìn)行集中控制和管理,并通過(guò)數(shù)據(jù)模型表示各種數(shù)據(jù)的組織以及數(shù)據(jù)間的聯(lián)系。
(5)數(shù)據(jù)一致性和可維護(hù)性,以確保數(shù)據(jù)的安全性和可靠性。主要包括:①安全性控制:以防止數(shù)據(jù)丟失、錯(cuò)誤更新和越權(quán)使用;②完整性控制:保證數(shù)據(jù)的正確性、有效性和相容性;③并發(fā)控制:使在同一時(shí)間周期內(nèi),允許對(duì)數(shù)據(jù)實(shí)現(xiàn)多路存取,又能防止用戶之間的不正常交互作用;④故障的發(fā)現(xiàn)和恢復(fù):由數(shù)據(jù)庫(kù)管理系統(tǒng)提供一套方法,可及時(shí)發(fā)現(xiàn)故障和修復(fù)故障,從而防止數(shù)據(jù)被破壞。
數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)的定義
著名的數(shù)據(jù)倉(cāng)庫(kù)專(zhuān)家W.H.Inmon在其著作《buildingthedatawarehouse》一書(shū)中給予如下描述:數(shù)據(jù)倉(cāng)庫(kù)(datawarehouse)是一個(gè)面向主題的(subjectoriented)、集成的(integrate)、相對(duì)穩(wěn)定的(non-volatile)、反映歷史變化(timevariant)的數(shù)據(jù)集合,用于支持管理決策。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的概念我們可以從兩個(gè)層次予以理解,首先,數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù);其次,數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。
數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)
根據(jù)數(shù)據(jù)倉(cāng)庫(kù)概念的含義,數(shù)據(jù)倉(cāng)庫(kù)擁有以下四個(gè)特點(diǎn):
1、面向主題。操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。
2、集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
3、相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢(xún),一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢(xún)操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
4、反映歷史變化。操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。
數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)
企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營(yíng)的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉(cāng)庫(kù)的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉(cāng)庫(kù)建設(shè)是一個(gè)工程,是一個(gè)過(guò)程。
內(nèi)容來(lái)自百科網(wǎng)