OReillyData

数据工程师vs数据科学家

编者注：文中超链接如果不能访问可以点击“阅读原文”访问本文原页面；2019年6月18-21日在北京举行的人工智能大会议题征集已经开始。

了解数据工程师和数据科学家之间的差异非常重要。误解或不了解其差异，会导致团队在处理大数据时失败或者表现不及预期。

一个核心的误解是每个职位各自的优点和弱点。我认为，其中一些误解来源于描述数据科学家和数据工程师的图表。

图1.关于数据科学家和数据工程师过度简化的维恩图。 来自Jesse Anderson的插图

像图1这样的维恩图，过度简化了岗位的复杂性，以及岗位的区别之处。它使两个岗位看上去可以互换。是的，这两个岗位都处理大数据。不过，每个岗位利用大数据，无论是创造价值，还是创造数据管线的做法都是截然不同的。这种差异来自每个岗位的基本技能。

何为数据科学家和数据工程师？

当我与组织机构合作，处理它们的团队架构时，我不用维恩图去描述一名数据工程师和一名数据科学家之间的关系。我绘制的图如图2所示。

图2.显示数据科学家和数据工程师的核心能力及其重叠技能的图表。 Jesse Anderson和大数据研究所的插图

数据科学家的技能

数学与统计学（有时物理也可以）是数据科学家的核心。在基于这种数学背景，他们正创建高级分析能力。他们通过将数学应用到极致来创建机器学习模型和人工智能模型。

如同软件工程一样，数据科学家将不得不与业务端进行交流。这包括充分了解领域，以获得洞察力。数据科学家通常负责分析数据以帮助业务，这需要一定的商业敏锐度。最后，他们的结果需要以可理解的方式提供给业务方。这要求数据科学家有能力用口述和视觉结果的形式，与业务方交流那些复杂的结果和观察情况，以似的业务方能够理解并且基于此展开决策。

关于数据科学家，我一言以概之的定义是：数据科学家是通过编程来强化他们的数学和统计背景能力来进行分析数据、创造数学模型的人。

数据科学家的一个常见特征是，他们不得不选择了编程，以实现他们除了编程以外无法做到的事情。当我与数据科学家交谈时，他们经常向我倾诉的一件事情。为了完成更复杂的分析，或者由于其他方面难以克服的问题，他们学会了如何编程。他们的编程和系统搭建技能达不到你从程序员或数据工程师那里会看到的水平 – 他们也没必要达到。

数据工程师的技能

编程能力是数据工程师的核心。这种能力背景通常是Java，Scala或Python的编程经验。他们的工作重点或专业能力主要在分布式系统和大数据方面。数据工程师具有高级编程和系统构建技能。

对于数据工程师，我对其一言以蔽之的定义是：数据工程师是在围绕大数据建立创建软件解决方案上具备专业技能的人。

利用这些工程技能，他们可以创建数据管线。创建数据管线可能听起来很简单或微不足道，但在大数据这种规模上，这意味着将10-30种不同的大数据技术整合在一起。更重要的是，数据工程师是理解并选择“适合处理某种工作的工具”的人。数据工程师深入了解各种技术和框架，以及如何将它们组合在一起以创建解决方案，从而使公司的业务流程具备数据管线。

在我的经验中，数据工程师只是最低限度地参与集群的运维（与此处讨论有关数据工程师的说法相反）。虽然某些数据科学技术确实需要设置一个运维或者数据运维岗位，不过绝大多数技术都没有。就像大多数程序员一样，我不允许他们直接访问生产系统。这主要是系统管理员或运维人员的工作。

重叠技能

数据科学家和数据工程师技能之间存在重叠。然而，重叠永远发生在每个人能力的不规则边缘。

比方说，这两个岗位在“分析”上重叠了。但是，数据科学家的分析技能将远远超过数据工程师的分析技能。数据工程师可以执行一些基本到中级的分析，但很难进行数据科学家所做的高级分析。

数据科学家和数据工程师在编程能力上有所重叠。不过，数据工程师的编程技能远远超出了数据科学家的编程技能。让数据科学家创建数据管线早已远离了他们技能优势边界，但却是数据工程师的优势所在。在这种情况下，这两个角色是互补的，数据工程师对数据科学家的工作起支持作用。

您会注意到，数据科学家和数据工程师之间还存在一个大数据方面的重叠。通过更好地了解每个岗位的技能，您现在可以更好的理解这种技能重叠。数据工程师使用他们的编程和系统构建技能来创建大数据管线。数据科学家利用他们更加有限的编程技能，运用他们的高级数学技能，利用已经存在的数据管线创建高级数据产品。 “创建和使用”之间的这种差异，是在处理大数据时，团队失败或者表现不佳的核心之处。一个团队，如果期望他们的数据科学家创建数据管线，最后将会极其失望。

当机构把事情搞错了

不幸的是，一个机构误解每个岗位的核心技能和职位角色相当常见。一些机构认为数据科学家可以创建数据管线。数据科学家可以将就地创建数据管线。数据科学家创建数据管道的问题有几个方面。请记住，数据科学家只是不得不学习编程和大数据。他们是聪明的人，最终确实可以解决问题，但创建数据管线并不是他们的核心竞争力。

从管理角度来看，数据科学团队将陷入困境。您将环顾四周或听取其他团队的意见，并将他们的进度与本团队的进度进行比较。看起来，好像数据科学团队根本没有产出，或者表现不佳。这是一种基于对数据科学家核心竞争力的误解，所产生的不公平的评估。

数据科学家从事数据工程

我见过公司要求数据科学家们做数据工程师所做的事情。数据科学家的效率为20-30％。数据科学家并不知道数据工程师所知道的事情。创建数据管道并非易事 – 它需要高级编程技能，大数据框架理解和系统创建。这些不是普通数据科学家所拥有的技能。数据科学家可以获得这些技能; 然而，这段时间的投资回报率（ROI）非常低。不要误解我：数据科学家确实需要编程和大数据技能，而不是数据工程师需要的水平。

在数据管线创建中，相对来说业余的数据科学家也会碰到这种问题：数据科学家会在选择工具上犯错误、进行错误的选择，而数据工程师则不会。数据科学家通常不清楚或者不理解处理一个任务所需要的合适工具。对于所有任务都使用单一工具（往往是一个错误的工具），最终把一切都搞砸。现实情况是，为了处理不同的工作，需要许多不同的工具。合格的数据工程师会知道这些，数据科学家通常不会知道这些。

最近的一个例子是，数据科学家使用Apache Spark处理几十GB数据集。的确，Spark可以处理这么多数据。但是，一个小型数据程序会更快，也会执行的更好。他们的Spark任务需要10-15分钟才能执行，然而小数据的关系型数据库只需要0.01秒来完成同样的事情。在这种情况下，数据科学家不甚完美地解决了这个问题，但却不明白这项工作的正确工具是什么。在一天内完成这种消耗15分钟时间的工作16次，（这是低端的数据分析），你的数据科学家每天就要花四个小时等待，因为他们正在使用错误的工具来完成这个任务。

在另一个机构中，他们的数据科学家没有任何数据工程资源。数据科学家会处理这些问题，直到他们遇到无法解决的数据工程问题并且卡住。他们向业务部门报告说，他们无法完成任务，就在那里让工作只完成了一半就停了下来。这导致数据科学家们截止到那个时刻都在浪费时间，并且据他们估计，就只因为无法完成工作，数百万美元的价值在那里悬而未决。

如果让一位数据科学家做数据工程师工作，一个更令人担忧的表现是数据科学家会感到沮丧并辞职。我在许多机构中，和处理数据工程师工作的许多数据科学家交谈过。对话总是一样的：数据科学家抱怨他们来公司是为了从事数据科学工作，而不是数据工程工作的。他们把事情做完就需要完成数据工程工作，但让数据科学家做数据工程师的工作会让他们发疯。他们会选择辞职，而您将会需要用3-6个月的时间来完成数据工程。我在另一篇文章中更多地讨论了这些问题。

数据工程师与数据科学家的比率

决定数据工程师和数据科学家的比率是一个常见问题。在确定这个比率时，常见需要考虑的问题包括数据管线有多复杂，数据管线有多成熟，以及数据工程团队需要拥有多少经验。

拥有比数据工程师更多的数据科学家通常是个问题。它通常意味着，机构正在让他们的数据科学家进行数据工程工作。正如我之前所说的，这会进而导致各种各样的问题。

为每个数据科学家搭配2-3位数据工程师是一个常见配置。对于一些具有更复杂数据工程要求的机构，这个数字可以是每个数据科学家配备4-5名数据工程师。这包括那些数据工程和数据科学处于不同汇报组织结构中的机构。您需要更多的数据工程师，因为创建数据管线需要比创建ML / AI部分花费更多的时间和精力。

我在《数据工程团队》一书中，更多地讨论了数据工程和数据科学团队应该如何相互交流。

数据工程师从事数据科学研究

一个远非常见的情况是数据工程师开始进行数据科学工作。随着数据工程师开始提高他们的数学和统计技能，这是一个向上的推动力。随着数据科学变得更加标准化，这种向上的推动力变得越来越普遍。它导致了一种全新的工程师类型出现。

对机器学习工程师的需求

让我们直面这个事实：数据科学家来自学术背景。他们通常拥有博士学位或硕士学位。问题在于，他们宁愿写一篇关于问题的论文，而不是将某些东西投入生产。其他时候，他们的编程能力只会扩展到在R中创建一些东西。把用R编写的东西放到生产中本身就是一个问题。他们不像工程师那样思考如何建立系统。

数据科学家面临的一般问题是，他们不是将工作投入生产、创建数据管线以及公开这些AI / ML结果的工程师。

为了应对学术思维与“投入生产的需求”之间的差异，我们观察到了一种新型的工程师。现在，这位工程师大多可以在美国看到。他们的头衔是机器学习工程师。

图3.显示机器学习工程师与数据科学家和数据工程师的匹配情况的图表。 Jesse Anderson和大数据研究所的插图

机器学习工程师主要来自数据工程背景。他们经历了足够多的交叉培训，变得同时熟练掌握数据工程和数据科学。一种不常见的途径是数据科学家在数据工程方面进行交叉训练。

对机器学习工程师，我一言以蔽之的定义是：机器学习工程师是坐在数据科学和数据工程的十字路口，并且熟练掌握数据工程和数据科学两方面的人。

如图2所示，您可能想知道在数据科学与数据工程之间存在的差距里会发生什么。这正是机器学习工程师所处的位置，如图3所示。它们是数据工程师创建的数据管线与数据科学家所创造东西之间的桥梁。机器学习工程师负责获取数据科学家发现或创造的内容，并使其在生产环境中发挥价值（值得注意的是，数据科学家创建的大部分内容并非在生产上有价值，并且大部分被用技巧拼凑起来能够工作）。

机器学习工程师的工作，主要是创建数据科学管线的最后一步。这可能需要几个部分。它可能是将数据科学家的代码从R / Python重写为Java / Scala。它可能是从软件工程的角度优化ML / AI代码，保证数据科学家写的代码能够运行良好（或者干脆就是能够运行）。机器学习工程师具有足够的工程背景，可以在一个领域（数据科学）保障所必需的工程规范，这些领域以并不遵循良好的工程原理而著称。

在生产环境中运行的模型需要维护和输入，而普通的软件并不需要。机器学习模型可能过时，并开始给出不正确或扭曲事实的结果。这可能来自数据属性的改变，新数据的增加，或恶意性质的攻击。无论是哪种方式导致的，机器学习工程师都需要时刻注意他们的模型中需要修改的部分，这可能导致模型的重新训练或调整。

机器学习工程师和数据工程师

数据工程师向机器学习工程师的过渡是一个缓慢的过程。坦率来讲，我们将看到，变成机器学习工程师需要作出什么变化和变成数据科学家需要作出什么变化是非常相似的。

为了解释我的“缓慢变化”的意思，我将分享那些我见过的从数据工程师转变为机器学习工程师的人的经验。他们花了数年时间做软件工程师和数据工程师的开发工作。他们一直对统计学或数学感兴趣。其他时候，他们只是厌倦了作为一名数据工程师所遇到的限制。无论哪种方式，这种转变需要数年时间。参加初级统计课程或初级学习机器课程之后，我没发现人们能立刻成为机器学习工程师。

正如我将数据科学家视为偏学术一样，数据工程师也不刚好是适合做机器学习工程师的。一个工程师喜欢世界里的真和假，黑和白，以及1和0。他们不喜欢不确定性。通过机器学习，模型的猜测存在一定程度的不确定性（工程师也不喜欢猜测）。与大多数工程师不同，机器学习工程师可以跨越数据工程的确定性和数据科学的不确定性。

机器学习工程师日益增加的价值

进行数据科学的门槛正在逐渐降低。最佳实践正在逐步充实。最常见的算法变为共识。更好的消息是，有人已经编码并优化了这些算法。

这种不断增长的成熟性，使得数据科学家和机器学习工程师更容易将算法投入生产而无需编码。我们也看到，数据科学变得更加自动化，有着更为自驱动的过程。 Google的AutoML就代表了这样一种趋势，工具会自动为您找到最佳算法，无需成熟数据科学家的工作即可获得结果。 DataRobot是另一种自动化技术，它为数据寻找最佳的数据科学算法。它还将帮助机器学习工程师将算法投入生产。

这些工具不会取代硬核的数据科学，但它将使数据科学家能够专注于数据科学中更困难的部分。它将使机器学习工程师变得越来越有生产力。我们将逐渐看到，机器学习工程师的负担会越发减少，自动化算法越发增加。

未来应该期望机器学习工程师达到何种水平的生产力？我对这一点感到左右为难。简单来说，机器学习工程师是否要为他们的Web开发人员做Wordpress配置员？在这种场景下，机器学习工程师可以通过众所周知的标准用例来提高工作效率，只有数据科学家才能处理真正的自定义工作。或者，机器学习工程师会重新成为数据库管理员吗？在对模型已知的深入了解，他们可以使用已知的、千篇一律的方法来配置模型，在50-80％的时候获得正确的结果，并且这足以满足所有需求。要获得真正准确的结果，您会需要一位数据科学家。

机器学习工程师和数据科学家的生产力的关键，将会是他们的工具。现在工具缺乏成熟度，这就是为什么我会好奇他们将来会有多么高效。

我希望数据科学的入门门槛继续降低。这将使机器学习工程师能够在不大量增加知识的情况下完成更多的数据科学工作。我希望机器学习工程师的角色在美国和全世界范围内变得越来越普遍。

该怎么做？

现在您已经看到了数据科学家和数据工程师之间的差异，您需要环顾整个机构，看看您需要在哪些地方作出改变。这是我帮助其他机构完成的一项变革，他们已经看到了巨大的成果。在数据科学小组似乎陷入困境、无法有作为的情况下，我们创建了数据工程团队，向数据科学和数据工程团队展示了如何协同工作，并制定了正确的流程。

这些变化使数据科学团队的生产力从20％提高到90％。团队能够用相同数量的人做更多事情。数据科学家们更开心，因为他们没有进行数据工程。管理层可以开始基于备受期待的大数据提供价值。

您也许还会遇到一个新岗位，机器学习工程师。随着您的数据科学和数据工程团队的成熟，您需要检查团队之间的差距。您可能需要提拔一位数据工程师，在他的努力路径上让他成为机器学习工程师，或直接聘请一位机器学习工程师。

最后，大数据的绝大多数问题都是人和团队的问题。它们不是技术问题（至少在最初阶段不是）。技术通常会受到指责，因为责怪技术要比团队自省容易得多。在您解决人事问题之前，您不会遇到真正棘手的技术问题，也不会创造出您所期望的大数据能够带来的价值。诚实地审视您的团队和您的机构，看看您需要在哪里作出改变。

非常感谢Russell Jurney、Paco Nathan和Ben Lorica的反馈。

请阅读“ 数据工程：快速简单的定义”了解数据工程和推荐材料的基本概述。

This article originally appeared in English: "Data engineers vs. data scientists".

Jesse Anderson

Jesse Anderson是BDI（Big Data Institute，大数据研究院）的数据工程师、创新性工程师以及管理总监。 Jesse为员工提供大数据培训，包括Apache Kafka，Apache Hadoop和Apache Spark等前沿技术。他教过成千上万的学生，这些学生遍布初创公司和财富百强企业，掌握了成为数据工程师的技能。他被广泛认为是该领域的专家，并因其新颖的教学实践而广受认知。 Jesse由O'Reilly和Pragmatic Programmers进行宣传，并且吸引了Wall Street Journal, CNN, BBC, NPR, Engadget, and Wired这种主流媒体的注意。您可以查看Jesse-Anderson.com来查阅关于他的更多信息。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
《中华小厨师》单行VS爱藏：姜是老的辣，书是新的好 cicoky
《汉书·郦食其传》有曰：“王者以民为天，而民以食为天。”自古以来，吃饱饭是每一个人的基本要求，而吃好饭却是每一个人的最终追求。于是，厨师这一职业孕育而生，其渊源之久，甚至可追溯到4000年前的奴隶时代。职业本身无贵贱，但职业能力却有高低之分。所以一家餐馆生意好不好，厨师的水平决定一切，而站在所有厨师顶端的就被称之为“特级厨师”。今天要说的就是一个关于“特级厨师刘昴星”的故事。连载历程1995年第4
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

数据工程师vs数据科学家

何为数据科学家和数据工程师？

对机器学习工程师的需求

该怎么做？

Jesse Anderson

你可能感兴趣的:(数据工程师vs数据科学家)