对数据库与数据仓库差异性的分析和调查外文翻译资料

 2022-11-06 16:28:59

Analysis and research on the difference

between data warehouse and database

Hou, Ruilian

Abstract:

The authors introduced the development and conception of data warehouse and database and research the relationship between database and data warehouse, and have studied the difference between their technology. At last discuss the combination and application of the database, and data warehouse technology.

Keywords: Database, data warehouse, conception, technology, combination

SECTION IV

Database and data warehouse

Database is transaction-oriented design, data warehouse is subject-oriented design. The database is generally saving online bargain data, data warehousersquo;s saving generally is a history data. Database design is to avoid redundancy, the general rules in line with the paradigm to design, data warehouse is intended to introduce redundancy in the design, the use of anti-paradigm approach to design. Database is designed to capture data, and while the data warehouse is designed for the analysis of data, its two basic elements of dimension and fact tables. Victoria is the angle of approach, such as time, departments, put the dimensional table is the definition of these things. To query data stored in the fact table, while the fact table has a dimension ID. Data warehouse is also for in great quantities already from the database of a kind of analysis type of the data of OLTP formation. Data warehouse is used to handle business intelligence, decision support and other important decision-making information. Data warehouse is applied to certain procedures in the database after a while the processing and analysis of historical data.

1. Database theory

1.1 what is a database?

A database is a collection of related data items.It is generally stored on secondary storage devices that allow rapid direct access to individual data items. Redundancy is minimized; where possible, only a single copy if a data item exists. The database may be used by many different application systems at once, eliminating the need for separate systems to maintain the data for each application. When a user program inquires if a particular item is in the database, a database management system(DBMS) does the actual searching.The user does not need to be familiar with the format in which the data is stored or the actual physical location of the data.

The database is the warehouse that organize, saves and manages a data according to the data structure. J. Martin database is defined by J. Martin had given: database is a collection of the related datas saved as together, and these data. The data is structured, no harmful or unnecessary redundancy, and for a variety of applications. Data storage is independent of the procedures for the use of data. Insert new data to the database, modify and retrieve the original data can Click a common and controlled manner. Database is a data collection which is long-term saved in the computer, organized, shared, and unified management. It is a computer software system which is based on data structures to store and manage data. The basic structure of the database is divided into three levels, which reflect three different angles of observation database.

  1. physical data layer

This layer is the innermost layer of the database, which is collection of data, that are actually stored in the physical storage device. These data are original data, and are the objects that the customer processes which are the string, character list and word of instruction operation processing that are described by the internal mode to constitute.

b) conceptual data layer

This layer is the middle layer of the database and a logical representation of the whole database. It is a collection of records stored and notes the logical definition of each data and the logical link between data. It involves all the objects in the database logic, rather than their physical conditions. This layer is under the concept of the database administrator database.

c) the logical data layer

This layer is the database which can be seen and used by the users, and it I expresses the data collection which is used by one or some specific users, and that is a collection of the logical records.

The DBMS creates the database, keeps it up-to-date, and provides ready access to authorized user. Database management systems also provide extensive security measures to prevent unauthorized access.They make it convenient for expressing relationship between related data items and facilitate the design of user application systems. They provide backup and recovery capabilities to prevent against loss or destruction of vital information. They ensure database integrity, that is, what is supposed to be in the database is there and what is not supposed to be.isnrsquo;t. a person called the database administrator determines who may access the database,modify it, add new relationships, and the like. This is a very important lifeline. The real question in database management systems is how to organize information to provide rapid answers to the kinds of questions users are likely to ask. The same data organized differently can yield drama-tidally different access speeds. There common ways are used to structure a database to indicate the relationships among the data items; these are the relational database, the hierarchical data-base, and the network database.

a)The Hierarchical Model

In a hierarchical database, data records are arranged in a strict parent child relationship.Each parent record may have many children, but each child record has exactly one parent. Figure 3-1 shows a simple hierarchical database, indicating the relationship between a customer and the orders it has placed with a company. Searching a

剩余内容已隐藏,支付完成后下载完整资料


对数据库与数据仓库差异性的分析和调查

Hou, Ruilian

摘要

作者简要介绍了数据仓库和数据库的发展和概念,并对二者的联系性和差异性进行分析研究。最后讨论了数据库和数据仓库二者的结合以及应用情况。

关键词:数据库,数据仓库,概念,技术,结合性

第4章 数据库和数据仓库

数据库是面向过程的设计,数据仓库是面向对象的设计。数据库一般可以减少在线数据的冗余性,冗余性数据常指非实时的数据。 数据库可以用于捕获数据,而数据仓库主要用于分析数据,它的维度和事实表的两个基本要素。 维多利亚角度常指一个接近的角度,比如时间,部门,把维度表定义为这些东西。 查询事实表中存储的数据,而事实表中有一个维度ID。 数据仓库也已经从数据库中大量数据库中的一种分析类型的OLTP数据组成。 数据仓库用于处理商业智能,决策支持等重要决策信息。 数据仓库应用于数据库中的某些过程一段时间后处理和分析历史数据。

1.数据库理论

1.1数据库是什么?

数据库就是相关的数据项的集合。它通常被存储在辅助存储器上,这些设备允许快速直接地访问单个数据项。这样可以做到冗余最小,如果数据项存在的话,那么它只有一个副本。数据库可被很多不同的应用系统使用,因而避免了不同的系统为每一个应用而维护一个数据库。当用户程序需要数据库中的特殊项时,数据库管理系统(DBMS)做实际的搜索。用户不需要了解数据的存储格式或数据的实际物理位置。

数据库可以类似于一个仓库形式,根据数据结构进行组织、存储和管理。将新数据插入到数据库中,修改和检索原始数据可以点击一个通用和受控的方式。 数据库是一种长期保存在计算机,组织,共享和统一管理中的数据收集。 它是一种基于数据结构存储和管理数据的计算机软件系统。 数据库的基本结构分为三个层次,反映了三个观察数据库的不同角度。

a)物理数据层

该层是数据库的最内层,它是实际存储在物理存储设备中的数据集合。 这些数据是原始数据,是客户处理的对象,它们是由内部模式构成的字符串,字符列表和指令操作处理字。

b)概念数据层

该层是数据库的中间层和整个数据库的逻辑表示。 它是存储的记录的集合,并记录每个数据的逻辑定义和数据之间的逻辑链接。 它涉及数据库逻辑中的所有对象,而不是其物理条件。 这一层是数据库管理员数据库的概念。

c)逻辑数据层

该层是用户可以看到和使用的数据库,它表示一个或某些特定用户使用的数据收集,也就是逻辑记录的集合。

数据库管理系统建立数据库并不断更新,为授权用户提供方便的访问方法。数据库管理系统也提供其它的安全措施以防止非授权访问。DBMS使用相关数据项之间关系的表示非常方便,使用户应用系统的设计变得容易。它们提供备份和恢复功能以防止重要的信息丢失或被破坏。由系统管理员决定谁可以访问数据库、修改数据库以及增加新的关系等。这也是非常重要的责任。数据库管理员具有对商业信息生命线最大的控制权。数据库管理系统真正的问题是如何组织信息为用户提出的各种可能的问题提供快速的答案。以不同方式组织的相同数据会产生非常不同的访问速度。为了表明数据项之间的关系,通常有三种方法用于建立数据库:关系数据库、层次数据库和网状数据库。

(1)层次模型

在层次数据库中,数据记录按严格的双亲-孩子关系控制。每一个双亲记录可以有许多孩子,但是每个孩子只能有一个双亲。在一个简单的层次数据库,它显示了顾客和一家公司的订货关系。从上到下搜索一个层次数据库是快捷和方便的。IBM的信息管理系统(IMS)是应用最广泛的层次数据库管理系统。层次数据库管理系统最适合于需要有限个能够提前详细说明的结构性答案的问题。一旦数据关系被详细说明,如果没有强有力的编程支持,它们是不能轻易被修改的。因此,层次模型不能灵活地满足信息要求改变的情况。

(2)网状模型

网状数据库模型最适宜于表示数据之间多对多的关系,换句话说,“孩子”可以有不止一个“双亲”。Computer Associate 的IDMS就是一个大型计算机的网状数据库管理系统。

网状数据库管理系统比层次数据库管理系统更加的灵活,但是访问路径仍需提前说明。实际应用中,记录之间建立的连接或关系有一些限制。如果关系太多的话,软件将不能有效地工作。在不修改主程序的情况下,网状和层次数据库管理模型都不能容易的在数据元素之间建立新的关系或新的访问方式。

(3)关系模型

在20世纪70年代早期发展关系数据库是为了提供更多的对用户友好的组织。关系数据库简单地将数据存储为表格(这些表格叫关系)而没有采用复杂的指针结构。这些有时被称为平面文件,因为表的行同文件的记录非常相似。

关系中的每一行叫一个记录。每一列是记录的一个特殊的域。域对应以域名开头,它描述了整个一列。关系数据库包含一个或多个关系。一个关系数据库管理系统对关系进行一下三种主要的操作以建立新的关系。

  1. 连接两个关系(合并)
  2. 扩展一个关系(从关系中抽出某几列用于形成新的关系的列)
  3. 根据用户描述的不同标准选择记录(结构查询语言)是基于关系模型的最重要的查询语言。

在一个叫“账目”的关系记录银行的账目。列的头是3个域名:账号、结余、类型。域名一下是行或记录。第一行说明账号173921有1700元的结余,它是检查账号。假设我们想知道账号173921的结余,我们可以用SQL发出请求如下:

SELECT balance FROM Accounts WHERE accountNo=173921

IBM的DB2和oracle公司的oracle 就是大型计算机关系数据库管理系统。Microsoft 的Access的Access是个人计算机关系数据库管理系统。

1.2客户/服务器结构

现代软件中有很多采用客户/服务器结构。在这种结构中一个过程(客户)的要求发送给另一个过程(服务器)去处理,数据库系统也不例外。在最简单的客户/服务器结构中,除了查询接口外整个数据库管理系统都是服务器,查询接口和用户打交道并且发送查询或其他命令给服务器。关系系统通常用SQL语言来表示从客户到服务器的要求。然后数据库服务器以表或关系的形式将答案返回给客户。当答案非常大时,客户和服务器的关系可能会变得复杂。如果同时有很多数据库用户,那么服务器就会成为瓶颈,因此现在也有一种将更多的工作交给用户的趋势。

1.3数据库的新形式和数据仓库

(1)面向对象的数据库

面向对象的数据库将数据作为能自动重新得到和共享的对象存储,包含在对象中的是完成每一项数据库事务的处理指令。这些对象可能包含不同类型的数据,包括传统的数据和处理过程,也包括声音、图形和视频信号等。对象可以共享和重用。面向对象的数据库的这些特性通过重用和建立新的多媒体应用的能力使开发软件变得容易,这些应用可以将不同类型的数据结合起来。面向对象数据库管理系统的好处就是它们支持WWW应用的能力。

(2)超媒体数据库

超媒体数据库管理数据的方法与面对对象数据库管理系统不同而且它也可能包含不同类型的数据。它们将数据按信息“块”存储,每一块在一个单独的节点里。每一个节点可能包含传统的数字、字符数据或整个文档、软件程序、图形甚至连续运动的视频图像。每一个节点是完全独立的——节点并不像它们在传统数据库中那样通过预先确定的组织方案联系起来,而是由用户自己建立节点间的连接。节点间的关系并不像传统数据库管理系统那样结构化,搜索信息也不需按照事先确定好的组织方案,用户可以直接从一个节点到另一个节点而不管它们之间的关系。

(3)数据仓库

很多公司允许他们的数据被存在很多开放的系统上,但这些系统不能再公司范围内提供了一个统一的可用的信息视图。解决这个问题的方法是建立一个数据仓库。数据仓库是一种数据库。它将从不同产品和操作系统调出的数据组合在一起放入这种大型数据库,对管理状况作出报告和进行分析。这种数据库对源于机构核心事务处理系统的数据进行重新组织并与其它信息(包括过去的信息)进行合并。这些数据可以用来做出管理方面的决策和对管理进行分析。在大多数情况下,数据仓库中的数据只可以用来进行报告,不可进行更新,所以公司的隐性操作系统的表现就没有受到影响。数据仓库这种侧重解决问题的特性,使众多的公司由于运用了数据仓库而获益匪浅。

数据仓库一般都有重新塑造数据的能力。关系数据库的数据视图可以让用户从两个以上的方面观察数据。在按地区季度销售中,为提供这种信息,组织可以用一种特殊化的多维数据库,或用可以在关系数据库中生产数据的多维视图的工具。多维分析能够使用户在多维的不同视角下看到相同的数据。信息的每个方面——生产、定价、成本、地区或时间——都代表不同的维。所以一个产品经理能用多维工具得知六月在西南销售区共卖出多少件,与前一个月和去年六月相比怎么样,和销售预测相比怎么样。多维数据分析的另外一项是在线分析过程(LOAP)。

(4)数据字典

数据字典是一种用户可以访问的记录数据库和应用程序元数据的目录。主动数据字典是指在对数据库或应用程序结构进行修改时,其内容可以由DBMS自动更新的数据字典。被动数据字典是指修改时必须手动更新其内容的数据字典。

数据字典是一个预留空间,一个数据库,这是用来存储信息数据库本身。数据字典可能包含的信息,例如:数据库设计资料,储存的SQL程序,用户权限,用户统计,数据库的过程中的信、数据库增长统计,数据库性能统计,数据字典则是系统中各类数据描述的集合体,是进行详细的数据收集和数据分析所获得的主要成果。

数据字典通常包括数据项,数据结构,数据流,数据存储和处理过程五个部分。数据字典是关于数据的信息的集合,也就是对数据流图中包含的所有元素的定义的集合。组成:数据流、数据流分量、数据存储。数据流分量即数据元素,数据字典是处理数据库的重要部分,它存放有数据库所用的有关信息,对用户来说是一组只读的表。数据字典包括:

  1. 数据库中所有模式对象的信息,如表、视图、簇及索引等,分配多少空间,当前使用了多少空间等。
  2. 列的缺省值。
  3. 约束信息的完整性。
  4. 用户的名字。
  5. 用户及角色被授予的权限。
  6. 用户访问或使用的审计信息。
  7. 其他产生的数据库信息。

数据库数据字典是一组表和视图结构。它们存放在SYSTEM表空间中。数据库数据字典不仅是每个数据库的中心,而且对每个用户也是非常重要的信息。用户可以用SQL语句访问数据库数据字典。

1.4数据的独立性、完整性和安全性

a)数据的独立性

在数据库系统中,每一个程序处理它自己的视图或数据库的视图。如果给数据记录里加了新的域,数据库管理系统就保存已有的视图以便已有的程序不必改变。修改数据库的结构而不影响已有的引用数据库的程序被称为数据的独立性。

b)数据的完整性

数据的完整性是指数据库中的数据的精确性、正确性和有效性。在数据库系统中,数据的完整性意味着保护数据防止非法修改或破坏。在大型联机数据库系统中,数据库的完整性更加重要。

c)数据的安全性

数据的安全性是指数据库防止未授权的或非法的访问或修改,这通常涉及一级或多级的口令保护,这些在数据字典中有详细说明。例如,高级口令可能允许用户督促、写入和修改数据库结构,但低级口令可能允许用户从数据库中读出。

通常,审计跟踪记录着数据库修改历史,可以用来指明数据库被破坏的时间和地点,它也用于将文件复原。

2.数据仓库理论

数据仓库为企业高管提供架构和工具,以系统地组织、理解和使用其数据进行战略决策。许多组织发现,数据仓库系统是当今竞争激烈,发展迅速的世界中的宝贵工具。

数据仓库已经以许多方式进行了定义,使得难以制定严格的定义。通常来说,数据仓库是指与组织的操作数据库分开维护的数据库。数据仓库系统允许集成各种应用系统。它们通过提供统一的历史数据的稳定平台来分析支持信息处理。

据W.H.Ion说,数据仓库是面向对象的,集成的,时变的和非易失性的数据收集,以支持管理决策过程。这个简短而全面的定义介绍了数据仓库的主要功能。四个关键字,面向对象,集成,时变和非易失性,将数据仓库与其他数据库存储库系统(如关系数据库系统,事务处理系统和网状数据库系统)区分开来。

数据仓库的主要特点如下:

(1)以学科为导向:围绕主要学科,如客户,供应商,产品和销售组织数据仓库。数据仓库不是专注于组织的日常操作和事务处理,而是专注于决策者对数据的建模和分析。因此,数据仓库通常通过排除在决策支持过程中无用的数据来提供关于特定主题问题的方法和简明的视图。

(2)整合:数据仓库通常通过集成多个异构源(如关系数据库,平面文件和在线交易记录)来构建。应用数据清理和数据集成技术来确保命名约定,编码结构,属性度量等的一致性。

(3)时变:存储数据以从历史角度(例如,过去5-10年)提供信息。数据仓库中的每个关键结构都隐含或明确地包含时间元素。

(4)非易失性:数据仓库始终是与在操作环境中发现的应用程序数据进行转换的物理上独立的数据存储。由于这种分离,数据仓库不需要事务处理,恢复和并发控制机制。数据访问通常只需要两个操作:初始加载数据和访问数据。

总而言之,数据仓库是一个语义一致的数据存储,用作决策支持数据模型的物理实现,并存储企业需要作出战略决策的信息。数据仓库通常被视为一种架构,通过集成来自多个异构来源的数据来支持结构化和广告查询,分析报告和决策。

3.数据库和数据仓库的差异性

尽管数据库和数据仓库是不同的,但

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[138991],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。