BigDataDigest

AI落地进入Hard模式！氪皮肤不如氪装备，拼算法不如拼高质量数据

大数据文摘出品

作者：coolboy、魏子敏

大名鼎鼎的横店影视城有着这么一群人。他们每天穿梭于各大剧组，换上威武的武士服和漂亮的古装，在满满的通告中获取一份相对稳定的收入。有时运气好了可以讲一两句台词，和大明星合个影，也能自豪地给家里人讲自己风光的一面。

如果你看过尔冬升导演的《我是路人甲》，你可能对这帮“群演”的故事不会陌生。

随着《甄嬛传》《琅琊榜》和《庆余年》等热门剧集的影响，横店的势头也步步高升。然而，2015年随着“限古令”的公布，每年来横店的剧组数量从几十个锐减至十几个。

以前一天可以跑三四个通告，现在可能两天才能拿到一个。

通告的减少，不少“群演”收入锐减，甚至开始做起了快递分拣、送外卖的兼职工作。而这其中，有这样一批“演员”，还能幸运的靠演技谋得一份生路。虽然这次，雇主不再是影视公司，而是和人工智能密切相关的AI数据企业。

被作为“自动驾驶”数据采集的这批群演们自称“车模”，在通过“数据测试”后，他们会被叫到几辆汽车前，进入规定车辆的驾驶位上做出转头、摇头和拿水杯等动作。半小时的采集工作，可以给他们相当于片场“半个工”（半个工作日）的薪水。

这些群演们可能自己都意识不到，自己在做的事情正在为这个智能时代产生巨大的价值。

人工智能时代，数据是和算法、算力一样必不可少的生产力。我们无时无刻都在产生数据，但“数量庞大”这一标准已远不能满足这个时代的需要。

就如纯度高的黄金需要杂质少的原材料，像上面这样找专业人士获取特定的、高质量的AI数据的需求，已经成为一种常态。

AI数据的生产模式已经从小作坊，转向更专业的生产机构。入局这一赛道的，除了BAT、京东等需要满足自身数据需求的大厂，也有越来越多专业化的超高质量数据服务平台。

那么，各大人工智能厂商不惜重金、趋之若鹜的AI数据，为什么这么重要呢？

“更高更快更强”：助推算法精准度，高质量数据必不可少

如果把人工智能研究比作一场奥运比赛，那么提高深度学习模型的契合度、努力刷新前人的记录，是研究者们追求的共同目标。对深度学习来说，算法提供了整体的框架，算力提供着训练的动能，而没有高质量数据，再怎么萃取也不会有高质量的精华。

行业中，开发人员会戏称训练深度学习模型的过程为“炼丹”。想要炼出太上老君的仙丹，光有一口好炉子（算法）和充足的火力（算力）还远远不够，纯度高的原材料（数据）万万不可或缺。而越是好炉子，对原材料的精细度越是挑剔。

近年来，大数据的井喷逐渐推动着算法和算力的发展。有了过硬的算法和算力，相较于数量上的竞赛，各大公司争先恐后地想搞出些“真刀真枪”来进行比拼。在这样的背景下，为了提升AI的准确性，向产品落地的方向更进一步，企业们已把眼光从之前对数据“数量”的要求转向对“质量”的要求。

作为AI数据服务行业内头部代表企业，云测数据总经理贾宇航用简单的实例为我们解释了自动驾驶场景下精准数据的重要性，“公司对数据精度的高要求，是由于很多算法落地的过程之中，AI需要达到这样的精度，才能够去做到一个相应的运转。“

“拿自动驾驶为例，如果你的训练数据中的车都是白车，实际情况中突然出现红车，基于训练数据总结出的规律，可能AI就不认为这是一辆汽车。”

在开头描述的横店群演们的“车模”新工作，就是云测数据为自动驾驶客户提供的基于真实场景的数据采集服务。

复杂的场景中，高质量数据拒绝AI的“错误”行为

人工智能正在进入更加复杂的应用领域，除了对数据精准度的要求，现实场景的复杂度也成为人工智能落地前的痛点，两者结合对AI数据提出了更高的要求。云测数据所提供的服务正是解决了当下数据需求痛点。

微软的沈向洋博士曾经在清华的就职演讲中，用这样一个案例讲述了在图片识别领域，高质量AI数据的重要性。

在一个认出“哈士奇狗”的训练任务中，AI在六张图片中鉴别对了其中五张，但进一步观察判断的依据，AI其实是在用“图片中有没有雪”这一特征进行判断。很显然，由这样的数据训练出来的AI不是一个“哈士奇分类器”，而变成了一个“场景分类器”。

AI之所以会在这里出现“错误”，是因为算法会让它在训练过程中，确保大部分训练数据的准确率够高。大部分训练数据的准确率高了，整体的准确率就有保证。想要做到这一点，提取这大部分数据中共有的关键特征，再根据数据中有无这些特征进行判断就可以了。在上面鉴别哈士奇图片的例子中，图片中“有没有雪”就是这一关键特征，而高质量（准确）的数据在这里就显得十分重要。

采访中，云测数据也向我们指出了复杂的场景带来的挑战。“近年来，因为使用的场景非常复杂，AI公司对数据的数据标注的精度和场景多样性的要求越来越高。某些人工智能应用可能换一种情景就行不通，比如语音识别，可能在普通话的情况识别率很高，但换了方言就行不通。所以说，当你训练数据的覆盖场景越多、数据标注的的精准度越高，实际上AI总结出来的规律也就越正确。”贾宇航说道。

为了保证AI总结出正确的规律，训练数据的多样性是一个关键。春夏秋冬的哈士奇，全身半身的哈士奇，只露一个耳朵的哈士奇，丰富的数据是避免AI错误的一剂良药。

贾宇航介绍道：“举个例子说，想要做一个全球适用的人脸识别系统，黑、白、黄，各肤色的数据是必不可少的，甚至在每种肤色下面还要细分种类。同时各个年龄层面也都要考虑。“

通过这样丰富的数据，或者说，高质量的数据，我们训练出来的AI就会更有可信度，落地的产品也才会更加可靠。

以一敌百万：随机数据让算法更聪明！

刚刚提到的方言识别是语音助手面对的挑战之一，除此之外，外部噪音对人声的影响也是语音识别行业一个亟待解决的问题。

借用吴恩达深度学习课程中的例子，训练车内的语音AI时，我们需要人们在「车内讲话」的音源。这是因为由于行驶时的噪音的存在，我们在车中讲话的声音和平常是不同的。

为了提升模型识别的精准度，我们需要为算法搜集定制化的车内噪声数据。传统的实验室做法是这样的：为了制作出车中的人声，将一段搜索到的白噪音与一万条人声数据分别拼接。看上去我们获得了一万条车中人声的数据，但通过这样的操作得出的模型，在现实场景中往往很快“扑街”。

为什么呢？这里就涉及到了数据搜集的“随机性”问题。

我们对数据多样性的要求，其实和统计学中随机性这一概念息息相关。想要涵盖各年龄层，各方言层的数据，其实是给样本注入随机性——为了让样本更能代表整体。刚刚提到的合成人声，数据量看起来很多，但实际情况的车内人声变化多端，我们合成的一万条数据看似很多，但很可能并不具有现实代表性。

大家都知道随机性很好，但它究竟好到什么程度？让我们回到统计学的基本概念中来看看。

假设我们想要估计全国人民使用某电商品牌的比例，称这个数字为p。我们可以使用互联网上现成的观测性大数据（observational data）。但在这个数据集中，一个人被抽到的概率和这个人使用电商的概率是相关的（称这个相关性为r，r越小数据越随机）。

比较之下，我们还可以采取简单随机抽样（SRS, simple random sample），避免相关性的问题。

假设我们在简单随机抽样中抽取了n个样本，而使用的观测性大数据中包含的全国人口比例为f。我们用常用的MSE（Mean Squared Error，平均误差）来衡量误差，在这两种情况下，MSE分别是：

上面的公式说明了什么？

如果我们乐观地假设r=0.1，那么100个随机样本产生的误差和一半人口（f=0.5, 7000万人）的观测数据产生的误差一样多。

如果我们有能力采集10000个随机样本（中国人口的十万分之七），则它和涵盖99%的中国人口（1.386亿）的观测数据会产生一样大的误差！

但在行业落地中，获取更符合现实分布的随机数据并不是一件容易的事情。

贾宇航告诉我们，“声纹识别上，我们需要考虑到方言的语系语种，以及性别层面和年龄层面。“

就拿方言数据来说，云测数据在华东、华南、华北都设有自己的实验室，从地理位置上保证八大方言体系的数据都有被涵盖。而在收集之前，云测数据还会进行认证和把关，确保录入人员讲的方言符合标准。

有些公司需要底噪比较高的环境，比如之前提到的车内语音，云测数据也会使用相应的设备去调制这样的场景，确保数据的采集达到标准。

贾宇航还给我们介绍道，也有一些对夸张表情进行情绪识别的数据需求。比如在自动驾驶中，夸张的表情很可能表示驾驶员遇到了紧急情况。这些是并不常见但对于提升AI的安全性至关重要的数据。换句话说，是使自动驾驶安全落地的一个关键突破口。

为了收集这样的表情数据，云测数据想到的是在演艺界打开渠道，而开篇提到的横店影视城群演就自然成为了高质量的资源。在表情数据收集的过程中，云测数据和专业人士合作，采取了人员筛选、情绪引导、数据采集的三步法。类似于演员的面试，项目负责人先筛选出表演能力强的演员，再对筛选下来的人员进行情绪引导，最后采集表情数据，来确保在数据采集初期的高质量获取，以达到客户需要的水平。

除了对人的要求，数据采集的场景化还包括对光源的具体模拟。云测数据告诉我们，场景化的模拟包括不同光照条件、不同光照角度下以及遮挡物（如玻璃）等细节要求。某个项目中单是光源条件就分成了室内和室外，强光、逆光、倒光等一共24种光照条件，不仅如此，玻璃反光度、模特脸部遮挡比例值等都有严格的要求。在这个项目中，玻璃的反光程度不仅与玻璃的材质厚度有关，也跟光源大小、光源与玻璃之间的角度和距离等一系列变量有关。云测数据最终搭建了一个将近3000平米的场景圆满完成了此次项目。

数据智能的未来：专业数据服务机构和人工智能携手共进

人工智能的产品正如雨后春笋一样不断冒出，但AI系统的质量仍然制约着一些应用的落地。即使系统已经落地，人们对于精细度的打磨也在产生新的要求。

“我们希望和客户一起成长，更加深化合作方向。”

贾宇航对于数据行业和人工智能间关系如此展望，”比如说语音助手原来只是做到对语句的识别，但随着时代的发展，人们对于精细度的进一步要求，我们同时也要做到情绪上的识别。同一句话在用不同的语气讲的时候，我们希望语音助手也可以用相对应的语气来回应，而不是像现在这样，每一句话都是一个语调。大家肯定希望压力大的时候，语音助手可以用温柔的语气送上问候。我们希望语音助手也可以更加拟人化，在这个层面上我们会去进一步地深耕，利用场景的定制和设备的专业性进行数据服务方案的进一步调优。”

为了进一步满足AI行业的需求，云测数据也在数据标注的环节不断拓展。以NLP为例，对一个语句的“主/谓/宾“或是”时间/地点/人物”式的划分早已不能满足应用场景的细化要求。用人为的标签给平淡的语句加入适当的背景含义，算法才能更加适应场景。

想要达到高标准的标注水平，需要对员工的专业培训，甚至在某些领域，比如医疗图像识别，AI数据标注必须由领域的专家来完成。在不同的领域，建立起AI数据生产的标准流程，是数据行业当下将要面临的机遇和挑战。

对于AI行业当下发展非常敏感的数据隐私问题，云测数据也给出了自己的解决方案：“让拥有数据成为企业的核心竞争壁垒”，通过数据隔离、质量保障等一系列保护数据安全的方法，确保企业数据安全的情况下，持续为数据采集和标注构建和优化自己的方案。

另一方面，贾宇航也希望云测数据可以和更多的行业进行深度合作。“除了现在的智能驾驶、智能家居、智能安防、智慧金融、新零售等领域，我们也在往更多的行业去拓展。比如说文娱和教育，实际上我们现在都有涉及，并和这些行业一起进步。我们希望把我们的AI数据服务带到新的领域，在新的领域解决新的挑战，帮助更多的企业实现产品智能化。”

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户

AI落地进入Hard模式！氪皮肤不如氪装备，拼算法不如拼高质量数据

“更高更快更强”：助推算法精准度，高质量数据必不可少

复杂的场景中，高质量数据拒绝AI的“错误”行为

以一敌百万：随机数据让算法更聪明！

数据智能的未来：专业数据服务机构和人工智能携手共进

你可能感兴趣的:(人工智能,数据分析)