恒运资本:数据要素很重要 缘何数据赛道却静悄悄

最近,关于大模型的方针与措施密集出台,好消息不断传来。7月13日,国家网信办等七部分联合发布了《生成式人工智能服务管理暂行办法》,鼓舞生成式人工智能技术在各职业、各范畴的创新使用;而就在消息发布前的一周,上海人工智能实验室正式开源了“书生·浦语”大模型70亿参数轻量级版别InternLM-7B,支撑免费商用,根据这一基座模型,各企业与研究机构能够开发打造各自垂直范畴的大模型。

 

这些方针措施,表现了国家促进生成式人工智能健康发展和标准使用的态度,也给职业大模型加速使用带来了更多确实定性。采访过程中,几乎每个采访目标都向记者表示,职业大模型浪潮下,数据直接决议职业大模型的专业度与精准度,重要性正不断凸显。

这样的结论好像成了一种“职业正确”,可一个问题却一直萦绕在记者心头:都说数据、算力、算法是人工智能的三大根底要素,为何算力赛道如此喧嚣,芯片、服务器、光模块等商场热门层出不穷,数据赛道却显得有些“尴尬”和不温不火?

事实上,这也是业界许多人士的相同感触。归纳来看,背后的原因与数据产品的特殊性、现在数据买卖商场的不成熟等多重要素有关。

就数据产品本身而言,其“非标准化”和“难以通用”的特性,决议了数据产品很难在商场上构成统一和“公允”的价值。算力要素中的根底硬件往往是明码标价的“硬通货”,芯片、服务器等成本均能够核算,能够在不同的职业大模型研发中通用,商场价值较易表现。可是数据价值需在特定的场景中实现,数据的规划、质量也无法统一衡量。很多细碎、非标准、定制化的场景使用,让数据产品难以实现大规划流转。

就数据买卖商场而言,现在我国在数据合规确权、计量评价、和谐分配、安全隐私保护等方面的根底性难题仍待破解,尤其是在数据确权方面,还没有构成明确的标准。关于职业大模型而言,数据具有私域属性,有一定的获取壁垒,在安全和隐私性上面有更高的要求。一直以来,数据源违规收集、个人隐私泄露等安全风险是各国监管机构对生成式人工智能的最大顾忌,也是影响大模型落地的最大不确定性要素之一。在根底性制度和规矩尚未明确的情况下,数据买卖和数据服务也面对种种限制和障碍。

不过,随着大模型在各个范畴的使用不断走深,职业界对高质量数据集的“饥渴”将促进数据产业链的全体发展,相关方面也现已积极行动起来。工信部电子第五研究所副所长王蕴辉介绍,现在所里现已联合产业侧成立了“大模型产业使用工作组”,从加速数据要素商场化、完善数据要素安全治理系统等方面引导并标准职业发展。在大模型商业化使用需求的影响带动下,数据生态系统建造有望加速,数据要素商场也或将迎来长足的昌盛。

你可能感兴趣的:(elasticsearch)