非结构化数据的时刻已经到来:2023 年的 3 个关键预测

尽管在过去四十年中数据处理、数据库管理和数据仓库方面取得了所有进步,但一个基本的、甚至令人不安的现实仍然存在:大多数企业基本上无法利用其庞大的数据库中的大部分来构建真正的数据库。价值。对于关系数据库中的结构化数据是这样,对于半结构化和非结构化数据更是如此。专家估计55% 到 80% 以上的企业数据是暗数据,即未以任何方式用于获取决策见解或加速业务增长。 

在一个典型的企业中,包括那些利用云服务的企业,一个集中的 IT 部门清理和转换一些选定的数据集,通过数据管道移动副本,然后专家从这些数据集中获取商业智能。用例通常是有限的,流程和系统的复杂性很大,数据服务通常是昂贵的、专有的和低效的。Gartner 观察“跨数据、分析和人工智能市场的传统平台难以适应越来越多的新数据和分析用例。” 

但随着我们进入 2023 年,一些强大的、非传统的人工智能驱动技术——直到最近才出现在超大规模企业及其数据科学和研究部门——正在广泛使用,以让任何企业真正扩展对其数据的访问,因为该数据以更加分布式的方式存在。Gartner 继续说道,到 2025 年,“70% 的组织将被迫将他们的重点从大数据转移到小型和广泛的数据上,以通过减少所需的数据量或从非结构化、多样化的数据源中提取更多价值来更有效地利用可用数据” 

围绕半结构化和非结构化数据处理的黑暗确实正在消散,探索未开发数据量和执行高级预测分析的民主化能力已经到来。 

以下是与这一转变相关的三个主要发展,它们将有助于指导 2023 年的数据战略。

01

矢量数据库将为大规模人工智能应用提供支持

这将从跨企业和中小企业的非结构化数据中释放具体的新价值。

矢量数据库专为非结构化数据相似性搜索和分析而构建,是一些最实用的 AI 应用程序背后的力量。它们是通过嵌入进行存储、索引和搜索的工具——这是一种在非结构化数据中表示数据点的方式——具有极快的速度、准确性和规模。矢量数据库使 AI 应用程序能够运行个性化电子商务搜索、有针对性的智能广告、推荐系统(包括用户生成的内容推荐、视频和图像分析)、防病毒网络安全、具有更多自然语言技能的改进聊天机器人、银行反欺诈检测系统、地理空间分析、药物发现和蛋白质结构预测,以及许多其他用例。

随着越来越多的企业拥抱 AI 时代并尝试充分利用其在生产中的优势,非结构化数据的数量将进一步激增——矢量数据库将帮助企业快速理解机器学习模型输出的洪流。

02

结构化数据和非结构化数据之间的持久协同作用 

尽管非结构化数据呈指数增长,但关系系统中的结构化数据仍然普遍存在,并将在可预见的未来保持其巨大价值。组织几乎不可避免地必须同时处理结构化和非结构化数据以实现最大的业务增长。他们越来越多地通过转向识别多种数据形式、数据的分布式特性以及将数据视为待开发、共享和消费的产品可以增加收入的系统来实现这一目标。  

现有解决方案最初设计用于处理传统数据分析的结构化数据,实际上可以通过插件将其处理能力扩展到非结构化数据。例如,考虑 ElasticSearch 8.0 中的“原生向量搜索”和 Redis 6.0 中的“向量相似性搜索”。但对于以其下一级、密集的非结构化数据和计算量大的功能而闻名的 AI 应用程序,像矢量数据库这样的专用解决方案大放异彩。在这方面,谷歌推出了其 Vertex AI 匹配引擎,由 Linux 基金会支持的开源 Milvus 越来越受欢迎,其创建者在市场上提供了一个完全托管的矢量数据库,专门构建的矢量数据库可以与支持基于标签的熟悉类型的关系过滤的混合搜索功能, 

企业应根据具体情况决定哪一种更适合他们。使选择和部署尽可能简单和便宜的解决方案和平台将是明显的赢家。

03

异构计算将提升性能

异构计算是指在计算任务中使用不同种类的微处理器——执行程序的硬件——如各种CPU和下一代GPU。通过将任务的不同方面分配给不同的处理器,应用程序可以显着提高性能。 

CPU 作为支持现有技术解决方案的处理器在市场上盛行,因为它们具有广泛认可的成本效率。但是,随着人工智能的普及,非结构化数据越来越多,应用越来越多样化,对性能的要求也越来越高。某些场景中的高吞吐量是必须具备的,只能通过 GPU 加速解决方案来实现。例如,想想 Meta 的数十亿规模的图像搜索和视频分析。

用于实际业务用途的 AI 驱动矢量数据库的兴起、结构化和非结构化数据系统的日益互连以及处理器的混合以产生非凡的性能,这些发展都将在 2023 年加速发展并持续到可预见的未来。使非结构化数据处理变得普遍将有助于确保每个企业都能获得强大的人工智能应用程序及其创造的价值。

原文章链接:https://www.spiceworks.com/tech/data-management/guest-article/unstructured-datas-moment-has-arrived-key-predictions/

你可能感兴趣的:(数据库,人工智能,大数据)