208个最新最全大数据/人工智能专有名词术语 中英对照D

D

数据分析师(Data Analyst):数据分析师是一个非常重要和受欢迎的工作,除了准备报告之外,它还负责收集、编辑和分析数据。

数据清洗(Data Cleansing):顾名思义,数据清洗涉及到检测并更正或者删除数据库中不准确的数据或记录,然后记住「脏数据」。借助于自动化或者人工工具和算法,数据分析师能够更正并进一步丰富数据,以提高数据质量。请记住,脏数据会导致错误的分析和糟糕的决策。

数据即服务(DaaS):通过给用户提供按需访问的云端数据,DaaS 提供商能够帮助我们快速地得到高质量的数据。

数据虚拟化(Data virtualization):这是一种数据管理方法,它允许某个应用在不知道技术细节(如数据存放在何处,以什么格式)的情况下能够抽取并操作数据。例如,社交网络利用这个方法来存储我们的照片。

脏数据(Dirty Data):脏数据就是不干净的数据,换言之,就是不准确的、重复的以及不一致的数据。显然,你不会想着和脏数据搅在一起。所以,尽快地修正它。

暗数据(Dark data):公司积累和处理的实际上完全用不到的所有数据,从这个意义上来说我们称它们为「暗」的数据,它们有可能根本不会被分析。这些数据可以是社交网络中的信息,电话中心的记录,会议记录等等。很多估计认为所有公司的数据中有 60% 到 90% 不等可能是暗数据,但实际上没人知道。

数据流(data stream):最初是通信领域使用的概念,代表传输中所使用的信息的数字编码信号序列。然而,我们所提到的数据流概念与此不同。

数据湖(Data lake):即一个以大量原始格式保存了公司级别的数据知识库。这里我们介绍一下数据仓库(Data warehouse)。数据仓库是一个与这里提到的数据湖类似的概念,但不同的是,它保存的是经过清理和并且其它资源整合后的结构化数据。数据仓库经常被用于通用数据(但不一定如此)。一般认为,一个数据湖可以让人更方便地接触到那些你真正需要的数据,此外,你也可以更方便地处理、有效地使用它们。

数据资源管理(Data Resources):是应用信息技术和软件工具完成组织数据资源管理任务的管理活动。

数据源(Data Source):顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,你可以找到相应的数据库连接。

数据挖掘(Data mining):从一大群数据中以复杂的模式识别技巧找出有意义的模式,并且得到相关洞见。

数据分析平台(Data analyst platforms): 主要通过集成企业内部运营支撑系统和外部数据,包括交易型大数据(Big Transaction Data)和交互型大数据(Big Interaction Data),通过多种云计算的技术将之集成和处理,向企业内部和外部企业客户提供有极大商业价值的信息支撑和智能解决方案,基于大数据平台建设的数据仓库的基础上,提供报表工具,分析工具,结合企业的实际需求进行的解决方案实施服务;企业的管理人员、业务分析人员等可以通过web、手机或其它移动设备访问,以便随时了解企业的关键指标和进行深度业务分析。

分布式文件系统(Distributed File System):大数据数量太大,不能存储在一个单独的系统中,分布式文件系统是一个能够把大量数据存储在多个存储设备上的文件系统,它能够减少存储大量数据的成本和复杂度。

仪表板(Dashboard) :使用算法分析数据,并将结果用图表方式显示于仪表板中。

数据存取(Data access):是指数据库数据存贮组织和存贮路径的实现和维护。

数据传送(data transfer):是指在数据源和数据宿之间传送数据的过程,也称数据通信。

数据聚合工具(Data aggregation tools) :将分散于众多数据源的数据转化成一个全新数据源的过程。

数据库(Database) :一个以某种特定的技术来存储数据集合的仓库。

数据库管理系统(DBMS: Database Management System) :收集、存储数据,并提供数据的访问。

数据中心(Data centre) : 一个实体地点,放置了用来存储数据的服务器。

数据管理员(Data custodian) :负责维护数据存储所需技术环境的专业技术人员。

数据道德准则(Data ethical guidelines) :这些准则有助于组织机构使其数据透明化,保证数据的简洁、安全及隐私。

数据订阅(Data feed) : 一种数据流,例如Twitter订阅和RSS。

数据集市(Data marketplace) :进行数据集买卖的在线交易场所。

数据建模(Data modelling) :使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义。

数据集(Data set) :大量数据的集合。

数据虚拟化(Data virtualization) :数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等。

去身份识别(De-identification) :也称为匿名化(anonymization),确保个人不会通过数据被识别。

判别分析(Discriminant analysis) :将数据分类;按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。

分布式文件系统(Distributed File System) :提供简化的,高可用的方式来存储、分析、处理数据的系统。

文件存贮数据库(Document Store Databases) 又称为文档数据库(document-oriented database), 为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据。

数据治理(Data Governance) :数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。

数据转换服务(Data Transfer Service): 主要用作在不同的数据库之间转换数据,比如在SQL Server和Oracle之间转换数据。

数据集成(Data integration):是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。

你可能感兴趣的:(208个最新最全大数据/人工智能专有名词术语 中英对照D)