本文回答了有关 SQL Server 2005 中的数据转换服务的某些常见问题,特别回答了某些设计问题,这是关于“为什么”而不是关于“如何”的常见问题。
当前的向导体系结构会创建一个 DTS 软件包数据流以传输数据。但如果要处理几千个表,则会遇到可伸缩性限制。我们认为这是合理的,因为软件包设计人员不太可能在一个数据流中使用几千个源和几千个目标。Beta 3 中可能会针对此问题进行一些改进。
导入/导出向导是为了让用户方便地将数据移入和移出 SQL Server 而设计的。在服务器之间复制数据库对象实际上属于管理操作而不是数据移动操作,即使实际上移动了数据。
用户可以使用 SQL Server“管理”工作区中的“复制数据库向导”来复制数据库对象,而且该向导是专门用于复制数据库对象的。
另一方面,DTS 导入/导出向导简化了典型的 DTS 操作——从各种数据源(包括文本文件、电子表格和 OLEDB 数据源)加载数据。
SQL Server Management Studio 是一个环境,用于管理已部署软件包的存储和执行。它提供了专门用来设计软件包的特殊功能,包括与 DTS 服务的集成以及枚举远程服务器上的软件包的能力。但它不是一个设计环境。
Business Intelligence Design Studio 才是用于设计软件包、在解决方案和项目中组织软件包、调试软件包并管理多用户项目的源和版本控制的环境。
所以,在 SQL Server 2005 中,用户分别在两个独立的专门化环境中设计和管理软件包。
有关设计和管理软件包以及在环境之间部署软件包的详细信息,请参阅联机图书。
数据源和数据源视图不是 DTS 软件包中的对象,而是存储在 Business Intelligence Development Studio 的数据转换项目中的单独对象。由于它们位于项目中而不是位于 DTS 软件包中,因此可以在 DTS 软件包之间共享,从而允许为明星架构定义数据源视图并由加载明星架构的每个软件包一致地使用该视图。
数据源定义了如何连接到 OLEDB 或 ADO.NET 数据库。它们包含连接字符串以及其他某些属性,包括连接的友好名称和描述字段。
数据源视图是数据源所指向的关系架构的子集。可以用命名查询、计算列、虚拟关系和友好名称详细描述这些视图。例如,在使用大型架构时,您可能只想使用数据源中的一小部分表。这种情况下,就可以使用数据源视图来定义这样一个子集。
数据源和数据源视图属于设计时对象,只能在 BI Development Studio 项目中使用。在设计时,数据源可由项目中的一个或多个 DTS 软件包使用,但在运行时,已部署的 DTS 软件包将无法访问这些设计时对象。DTS 软件包包含多个连接,这使软件包设计器能够管理与数据库、文件等的连接。在设计时,连接可以引用数据源或数据源视图,但在运行时,DTS 连接将使所有必需的元数据能够独立使用。这样,用户可以设计能够共享数据源引用和数据源视图的不同软件包,然后独立运行并单独部署每个软件包。
如果 DTS 连接引用了数据源,那么使用该 DTS 连接的对象就可以使用也使用该数据源的任何数据源视图。这样,DTS 软件包就可以很容易地只引用大型架构的一个小子集。
最后,DTS 连接比数据源更通用,因为它们可以连接到文本文件、HTTP 连接、FTP 连接以及需要连接字符串的其他很多情形,而不只是连接到 OLEDB 和 ADO.NET 管理的提供程序。
有关连接、数据源和数据源视图的详细信息,请参阅联机图书。
要导入 Excel 和 Access 数据文件,可以使用经过适当配置的 OLEDB 连接管理器。还可以很轻松地使用 DTS 导入/导出向导,该向导将为您创建连接管理器。
有关详细信息,请在联机图书中搜索“Creating a Package Using the DTS Import/Export Wizard”。
“快速分析”选项是在适当的情况下才能使用的选项。它不支持特定于区域设置的分析或“年-月-日”以外的日期格式。它只对有限的数据格式有用,对于这些格式来说,此选项的分析速度可能比默认的标准分析方式更快。因此,用户必须基于自己的数据格式显式选择此选项。
有关详细信息,请在联机图书中搜索“Fast Parse”。
系统管理数据可用于影响 DTS 控制流。例如,运行 ETL 流之前,可以检查 SQL Server 是否正在运行、计算机上是否有可用的 C: 驱动器或者是否有足够的可用磁盘空间。WMI 数据任务用来检索此类系统数据。
系统管理事件可用于在 DTS 控制流中执行实时操作。例如,仅当内存使用量下降到 50% 以下时才运行 ETL 流,或者仅当文件系统上有可用的新源文件时才启动数据流。WMI 事件任务允许定义和处理此类系统事件。
而且,这两种任务在所提供的功能方面也基本上是不同的。在本发行版中,我们可以更主动地根据任务提供的功能对任务进行拆分,以创建更有针对性的软件包。这种拆分的另一个例子是文件系统任务和 FTP 任务。在 DTS 2000 中,这两个任务提供的功能被组合到一个任务中,但在本发行版中,这两个任务被拆分开来,从而使用户更容易创建、理解和支持软件包。
因为 SQL 和 Visual Basic 都不能满足 DTS 数据流的要求。例如,我们想支持一组运算符,比如用于处理很多情况下作为标记使用的位掩码的按位运算符。此外,为了更好地利用内存(从而获得最佳性能),DTS 数据流对数据类型有着严格的限制,这也反映在表达式语法中。
DTS 表达式语法使您能够设计出通过复杂的字符串和数据类型处理而获得高性能的数据流。如果表达式语言不支持您需要的某些函数,或者您更喜欢使用 Visual Basic 语法,那么您可以使用脚本组件,脚本组件允许您在数据流中使用 Visual Basic .NET。
由于资源限制,无法实现目前可从 SQL Server TSQL 中找到的每个函数。设置第一批函数时我们曾咨询过客户和开发人员,我们会认真考虑收到的测试版反馈信息,为以后的测试版和最终版本做好准备。
行的顺序是在源适配器中设置的,并且无法通过大多数下游转换进行更改(排序可能是一个例外)。能够识别源数据顺序的源适配器无需用户帮助即可设置此信息,但在大多数情况下,提供给源组件的元数据不充分,使源组件无法设置输出列排序信息,因此用户需要自行完成此操作。
当适于改进并发性并且这样可以提高性能和可伸缩性时,DTS 运行时将使用多个线程来完成执行。为了避免多个线程同时试图访问一个变量,必须为您的操作锁定变量,从而使对变量的所有访问都是“安全的”;如果不这样做,可能会导致软件包出现各种响应,从“有时不工作”到返回完全不正确的结果。即使软件包是完全线性的,这也可能是一个问题:例如,如果用户要更改循环中的并发设置。
DTS 设计器用户应当能够删除路径然后重新附着路径,这样才不会破坏软件包或更改软件包的行为。通过提供 OnOutputPathDetached 方法,我们允许行为不当的组件不遵守此规则。为了满足希望提供多个输出的组件作者的需要,DTS 对象模型提供了一个名为 DeleteOutputOnPathDetached 的输出属性,如果将此属性设置为 true,当路径被分离时,输出将自动被删除。
适用于 DTS 的新的 Windows 服务允许操作员查看并停止特定服务器上运行的 DTS 软件包。此服务在 SQL Management Studio 中提供。注意:需要首先启动 DTS 服务,因为默认情况下它是被禁用的。
请参阅常见问题中的“为什么在 Mgt Studio 中无法在 DTS 服务器下看到正在运行的软件包?”主题。
有关详细信息,请在联机图书中搜索“DTS Service”和“Managing DTS Service”。
默认情况下 DTS 服务是被禁用的。这是故意设计的,目的是为了使系统管理员可以控制何时运行该服务。要启动 DTS 服务,请右键单击“我的电脑”并选择“管理”(从“开始”按钮或从桌面上均可),然后在“计算机管理”窗口中双击“服务和应用程序”,然后单击“服务”,即可看见在右侧列出的所有 Windows 服务。在列表中找到“DTS 服务器”,右键单击并选择“启动”。(如果您希望在每次启动计算机时自动启动该服务,还可以双击该服务以打开它的属性,将“启动类型”更改为“自动”。)
有关详细信息,请在联机图书中搜索“DTS Service”和“Managing DTS Service”。
SQL 2005 DTS 为在日志中记录有关数据库的信息添加了很多新选项。这允许您为每个软件包定义一个或多个不同类型的日志提供程序。日志提供程序类型包括文本文件、SQL Server、Windows 事件日志等等。在您的软件包中,通过转到“DTS”菜单并选择“日志记录”,可以添加日志提供程序。
有关详细信息,请在联机图书中搜索“DTS Log Providers”和“Setting Logging Options in Packages”。
XML 文档架构的变化将极大地影响数据流的元数据。这要求用户显式更改架构并在更改时考虑到元数据的变化。
DTS 2005 中发生更改的范围要求完全重写对象模型。作为迁移到 SQL Server 2005 DTS 的结果,引用通过 DTSGlobalVariables 父属性访问的 SQL Server 2000 DTS 对象的 ActiveX 脚本将不再有效。
DTS 2005 数据流任务取代了 DTS 2000 数据转换任务,使功能有了很大的改进。但这样的结果是,2000 和 2005 所提供的功能之间没有明确的对应。为了确保以前的数据转换任务能够继续正确操作,没有将它们完全迁移到 SQL Server 2005。迁移向导当前将这样的任务包装在专用的 SQL Server 2000 软件包中,并从执行 SQL Server 2000 DTS 软件包任务调用它。
因为此任务直接依赖于不再提供的 DTS 2000 对象模型,迁移向导当前为此任务提供的支持很有限。此任务的实例被脚本任务取代,脚本任务中包含描述曾由此任务设置的属性的注释。要恢复以前的功能,必须进行手动修改。
Beta 2 不支持访问全局变量。
SQL Server 2005 包括的数据流任务取代了这两个 SQL 2000 任务。数据流任务对数据源、目标和转换的数量没有限制,而在 SQL 2000 中,用户对每个任务只能使用一个数据源、一个目标和一个转换。支持这项扩展功能所需的新对象模型无法容纳这两个功能不太强的任务。
DTS 已被重写,从 SQL Server 2000 中有用的实用程序变成了 SQL Server 2005 中功能丰富的应用程序和平台。这种变化同时带来为 DTS 用户提供服务和支持的责任,这些服务和支持最好通过管理和许可与其他 SQL 服务器应用程序类似的 DTS 引擎功能来处理。因此,虽然用户可以使用部署向导轻松部署软件包,但他们必须在需要运行软件包的每台计算机上运行 SQL Server 2005 安装程序并安装 DTS。这不仅有助于确保用户/计算机使用正确版本的 DTS 可执行程序,还有助于该软件以后的更新。
基于 MSI 的部署具有完全独立安装的优点,但它需要再分发 DTS 二进制文件。如果需要某个重要的安全修补程序,那么以托管方式将修补程序应用到每个部署目标是不可能的。当前的部署实用程序要求目标服务器上已安装 DTS,因为这对管理员来说才是更有用的模型。
有关详细信息,请在联机图书中搜索“Deployment Utility”。