zzc_zhuyu

山东大学数据科学导论笔记

数据科学导论这门课，怎么说呢。老师也不知道教了什么，学生也不知道学了什么，莫名其妙考试也不知道靠什么。这里整理了一点笔记，仅供考试前参考！！。

ch1 引言

引言这一章，基本上不会出题，了解即可。

数据科学概念：是对数据进行分析，抽取信息和知识的过程，提供指导和支持的基本原则和方法。它研究数据的各种类型、状态、属性及其变化规律，它研究各种方法，对数据进行分析，从而揭示自然界和人类行为等现象背后的规律。

数据科学的核心任务，是从数据中抽取有用的信息/知识

数据科学组成：一组概念 Concept 、原则 Principles 、过程 processes 、技术 techniques
/方法 methods 、以及工具 tools 。（简记cpptt）

数据科学的基本原则：

分析数据、获得知识，从而解决具体的业务问题，是数据科学的核心任务，这个任务可以划分为 understand data, collect data, integrate data, analyze data, visualize result, communicate result 等一系列的阶段
对数据分析的结果进行评估，需要结合所处的应用程序上下文环境进行仔细考察。
从大量的基础数据中，我们可能分析出变量之间的相关性
在一些属性上相似的实体，在其它属性上（可能是未知的一些属性）一般也是相似的。
在现有的数据上适配得很好的模型（分析结果），有可能不能很好地泛化，即不能适配到新数据上。
当我们从数据的分析结果中，试图得出一些因果关系的结论的时候，我们必须考虑到一些额外的因子（有可能先前没有考虑进来）。
通过并行处理提高数据处理（分析）速度

数据处理流程：采集、表示与存储、清洗、集成、分析、展现、决策

ch2 数据预准备

ETL 概念：（蛮重要的）
Extract：从源中提取数据
Transform：在源、汇或暂存区转换数据
Load：将数据加载到汇中

数据预准备的阶段任务
阶段：数据特征化、数据清洗、数据集成
任务：必须有效地在空间和时间移动数据，包括数据传输和数据序列化和反序列化(用于文件或网络)

几种数据格式：JSON、XML、HTML

ch3 数据模型

关系型数据库不适用的原因

索引：典型的 RDBMS 表存储大部分是索引，负担不起这么大的数据存储开销
事务：安全状态变化需要日志等，而且速度很慢
关系：检查关系会增加更新的开销
稀疏数据支持：当数据非常稀疏时，RDBMS 表是非常浪费的

Key-value 列存储分解

ch4 数据清洗和集成

脏数据 在数据挖掘工作中，脏数据是指不完整、含噪声、不一致的数据

脏数据表现

将文本解析为字段(分隔符问题)
命名惯例
缺少必要的字段(如关键字段)
不同的表述
字段太长(被截断)
主键冲突(从非结构化转成结构化的过程中或在集成期间)
冗余记录(精确匹配或其他)
格式问题——尤其是日期
许可问题/隐私/阻止您按自己的意愿使用数据?

数据质量
正确性：数据记录正确。
完整性：所有有关数据均已记录。
唯一性：实体记录一次。
及时性：数据是最新的。
时间一致性。
一致性：数据本身是一致的。

数据清洗任务

对元组及其各个属性值格式进行调整，使之符合值域要求，使用统一单位
完整性约束条件的检查和实施
从已有的取值导出缺失的值
解决元组内部和元组之间的矛盾冲突
消除、合并重复值
检测离群值，极有可能是无效数据

数据清洗过程

对数据进行审计，把数据异常的类型标识出来
定义工作流。选择合适的方法，用于检测和剔出这些异常
执行工作流。在数据上执行这些方法
后续处理和控制阶段将检查清洗结果，把在前面步骤中没有纠正过来的错误元组进行进一步处理

数据清洗具体方法

对数据进行解析，检测语法错误
数据转换，将数据从一个格式映射到另外一种格式，以适应应用程序的需要
实施完整性约束条件
消除重复数据
用统计方法对数据进行审计，甚至可以对数据中的异常进行纠正

数据清洗的若干问题

不可测量的：准确性和完整性是非常困难的，可能无法测量。
上下文无关：不考虑什么是重要的。
不完整：可解释性、可访问性、元数据、分析等等。
含糊不清：传统的定义没有对数据的实际改进提供任何指导。

数据集成面对的困难

异构数据:没有共同的关键字，不同的字段格式。近似匹配
不同的定义
时间同步：数据是否与相同的时间段相关?时间窗口是否兼容?
遗留数据

数据集成步骤

预处理/标准化：将数据转换成规范化格式
项的相似度计算
模式匹配

ch5 数据探索性分析

数据探索性分析
指对已有的数据在尽量量少的先验假定情况下进行探索，逐步了解数据的特点

数据探索性分析作用
利用人机交互技术和数据可视化技术，通过不断揭示数据的规律和数据间的关联，引导分析人员发现并认识以前不知道的数据模式或规律。对未知的数据模式和规律的探索是其价值所在。

各种图

单变量：点图、抖动图、错误条形图、箱线图、直方图、核密度估计、累计分布函数
二变量：条形图、散点图、折线图、重对数坐标图（对于幂律数据非常有用）
多变量：堆叠图:堆叠变量是离散的、平行坐标图:一个离散变量，任意数量的其他变量

探索式数据分析的基本方法

计算一些汇总统计量，了解数据的典型值，还可以通过确定异常值，了解数据的异常情况
制图和指表，展示变量的分布情况、时间序列数据的变化趋势以及变量之间的关系。

ch6 NLP

Bow (很重要)
将所有的词语装进一个袋子，不考虑其词法及语序，即每个单词都是独立的。一种特征化，它使用一个忽略顺序的单词计数向量。

ch7 ML

各种距离（很重要）

还有一个切比雪夫距离。

ch8 推荐

HITS 算法基本流程
输入：一个有向图
初始化：对于每一个节点 p，auth（p）=1，hub（p）=1
利用中枢值更新权威值：对于每一个节点 p，让 auth§等于指向 p 的所有节点 q 的 hub(q)
之和
利用权威值更新中枢值：对于每一个节点 p，让 hub§等于 p 指向的所有节点 q 的 auth(q)
之和
重复上述两步若干（k）次

归一化与极限
• 数值随迭代次数递增
• Auth 和 hub 值的意义在于相对大小
• 在每一轮结束后做归一化：值／总和
• 归一化结果随迭代次数趋向于一个极限，相继两次迭代的值不变，极限与初值无关，即存在“均衡”
• 向量方向的收敛

PageRank 算法
基本思想：用网页间的链接关系计算网页重要性过程：
输入：一个有 n 个节点的网络（有向图），设所有节点的 PageRank 初始值为 1/ n。
选择操作的步骤数 k
对 PageRank 做k 次更新操作，每次使用以下规则：
每个节点将自己当前的 PageRank 值通过出向链接均分传递给所指向的节点。若没有出向链接，则认为传递给自己（或者说保留）。每个节点以从入向链接获得的（包括可能自传的）所有值之和更新它的 PageRank

退化图结构的处理
• 同比缩减
在每次运行基本 PageRank 更新规则后，将每一节点的 PageRank 值都乘以一个小于 1 的比例因子 s，0 • 统一补偿
在每一节点的 PageRank 值上统一加上(1-s)/n。

ch9 hadoop

大数据时代的技术支撑： 存储设备容量不断增加 CPU 处理能力大幅提升网络带宽不断增加

大数据概念：数据量大、数据类型多、处理速度快、价值密度低，商业价值高

云计算概念： 云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种 IT 资源
云计算关键技术：虚拟化、分布式存储、分布式计算、多租户等

Hadoop 是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性：

高可靠性、高容错性
高效性
高可扩展性
成本低
运行在 Linux 平台上
支持多种编程语言
核心： 分布式文件系统 HDFS 和并行运算方法 MapReduce

HDFS 分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群
分布式文件系统设计需求：分布式文件系统的设计目标主要包括透明性、并发控制、可伸缩性、容错以及安全需求等。但是，在具体实现中，不同产品实现的级别和方式都有所不同。
HDFS 目标： 兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性
HDFS 局限性： 不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件
组成： 主节点（名称节点） + 从节点（数据节点）
主节点：负责管理分布式文件系统的命名空间，保存了两个核心的数据结构，FsImage 和 EditLog。FsImage 用于维护文件系统树以及文件树中所有的文件和文件夹的元数据，操作日志文件 EditLog 中记录了所有针对文件的创建、删除、重命名等操作。名称节点记录了每个文件中各个块所在的数据节点的位置信息。
从节点：是分布式文件系统 HDFS 的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。每个数据节点中的数据会被保存在各自节点的本地 Linux 文件系统中
HDFS 体系结构的局限性（只有一个名称节点）：

命名空间的限制：名称节点是保存在内存中的，因此，名称节点能够容纳的对象（文件、块）的个数会受到内存空间大小的限制。
性能的瓶颈：整个分布式文件系统的吞吐量，受限于单个名称节点的吞吐量。
隔离问题：由于集群中只有一个名称节点，只有一个命名空间，因此，无法对不同应用程序进行隔离。
集群的可用性：一旦这个唯一的名称节点发生故障，会导致整个集群变得不可用。

块的好处： 支持大规模文件、存储简化系统设计、适合数据备份

为什么进行冗余数据保存：
作为一个分布式文件系统，为了保证系统的容错性和可用性，HDFS采用了多副本方式对数据进行冗余存储，通常一个数据块的多个副本会被分布到不同的数据节点上。这种多副本方式具有以下几个优点
加快数据传输速度、容易检查数据错误、保证数据可靠性

MapReduce （重点）

shuffle过程

ch10 老师的随口一说，你以为的介绍，他认为的重点

personal rank（很重要）

在推荐系统中，用户行为数据可以表示成图的形式，具体地，令G（V，E）表示用户物品二分图，其中V由用户顶点集合和物品顶点集合组成。对于数据集中每一个二元组(u, i)，图中都有一套对应的边，其中是用户对应的顶点，是物品对应的顶点。图中用户节点和物品节点相连，说明用户对物品产生过行为。
将用户行为数据用二分图表示，将个性化推荐放在二分图模型中，那么给用户u推荐物品任务可以转化为度量Vu和与Vu 没有边直接相连的物品节点在图上的相关度，相关度越高的在推荐列表中越靠前。

1.在执行算法之前，我们需要初始化每个节点的初始概率值。如果我们对用户u进行推荐，则令u对应的节点的初始访问概率为1，其他节点的初始访问概率为0，然后再使用迭代公式计算。

2.对于personalRank来说，由于每个节点的初始访问概率相同，所以所有节点的初始访问概率都是1/N （N是节点总数）。

如果我们要计算所有节点相对于用户u的相关度，则PersonalRank从用户u对应的节点开始游走，每到一个节点都以1-d的概率停止游走并从u重新开始，或者以d的概率继续游走，从当前节点指向的节点中按照均匀分布随机选择一个节点往下游走。这样经过很多轮游走之后，每个顶点被访问到的概率也会收敛趋于稳定，这个时候我们就可以用概率来进行排名了。

众包思想

众包指的是一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的（而且通常是大型的）大众网络的做法。众包的任务通常是由个人来承担，但如果涉及到需要多人协作完成的任务，也有可能以依靠开源的个体生产的形式出现。

最后，clz老师的数据科学这门课，真的是。。。。还要看看其他老师讲的什么。每个学期可能讲的东西都不太一样。老师也不太记得自己讲的什么，这次考试莫名其妙出了个什么切比雪夫距离，最后还有个协同过滤推荐算法，感觉是全军覆没了。学弟学妹们，加油吧。

Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
python卡方检验计算pvalue值_Python数据科学：卡方检验 CodeWhiz
之前已经介绍的变量分析：①相关分析：一个连续变量与一个连续变量间的关系。②双样本t检验：一个二分分类变量与一个连续变量间的关系。③方差分析：一个多分类分类变量与一个连续变量间的关系。本次介绍：卡方检验：一个二分分类变量或多分类分类变量与一个二分分类变量间的关系。如果其中一个变量的分布随着另一个变量的水平不同而发生变化时，那么两个分类变量就有关系。卡方检验并不能展现出两个分类变量相关性的强弱，只能展
Pandas教程：详解Pandas数据清洗旦莫 Python Pandas python pandas 数据分析
目录1.引言2.Pandas基础2.1安装与导入2.2创建一个复杂的DataFrame3.数据清洗流程3.1处理缺失值3.1.1删除缺失值3.1.2填充缺失值3.2数据去重3.3数据类型转换4.数据处理与变换4.1添加与删除列4.2数据排序5.数据分组与聚合6.其他数据清洗方法6.1字符串处理6.2时间序列处理6.3数据类型转换1.引言数据清洗是数据科学和数据分析中的一个重要步骤，旨在提升数据的质
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
2019-05-30导论激情老王
洞察力，看透事物本质的能力，这个和格局有异曲同工之妙，但更能给人以清晰的描述和动感；看透了事物的发展规律，自然规律，才能找到自我追求的动力。系统动力学=要素✖连接关系。
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
AI学习者的Python快速入门指南 AI科研视界人工智能 python chatgpt
Python已成为AI和数据科学的事实标准编程语言。尽管存在无需编码的解决方案，但学习编程仍然是构建完全定制化AI项目或产品的必要途径。在本文中，我将分享一个Python入门快速指南，帮助初学者进行AI开发。我会先介绍基础知识，然后分享一个带有示例代码的具体实例。图片来自Canva。Python是一种编程语言，也就是说，它是给计算机下达我们无法或不愿亲自执行的精确指令的一种方式[1]。这在自动化特
「RIA学习力」《学习心理学》No.1，未闻 Nathan_2
「RIA学习力授权导师」便签输出第6期第1天《学习心理学》拆页一来自《第一章学习理论与教学导论》P9(一)学习的定义虽然本书讨论的学习理论之间存在差异，但这些理论在学习上确实有一些基本的确定性的假设。首先，它们都指出学习是人类行为表现performance，又译表现)或行为表现潜能的持久改变。这意味着学习者能够执行一些在学习发生之前不能执行的行动而且不管它们实际上是否有展示新习得行为表现的机会，这
python基础学习 agente python python 学习开发语言
第一章标识符1、python被称为胶水语言，可以跟各个代码能一块儿使用爬虫、数据分析web全栈开发、数据科学方向、人工智能的机械学习和深度学习、自动化运维、爬虫、办公自动化python是跨平台的，python是解释型语言，不需要编译，python是面向对象的语言1、print()#print()可以输出数字、字符串、含有运算符的表达式#print()可以将内容输出到显示器、文件#print()输出
Python和数据分析：Seaborn新手指南 Python_魔力猿 python 数据分析信息可视化
Seaborn是建立在Matplotlib之上的统计数据可视化库，它提供了高级接口和漂亮的默认样式，使得数据可视化变得更加简单和美观。1.导论Seaborn在数据可视化中的角色和优势体现在以下方面：简化API：Seaborn的API设计更加简洁，容易使用，尤其适合初学者。它能够通过几行代码生成漂亮而具有信息含量的图表。美观的默认样式：Seaborn具有吸引人的默认颜色和样式，无需额外的配置即可生成
Holoviews 创建复杂的可视化布局步入烟尘 Python超入门指南全册 Holoviews python
如何使用Holoviews创建复杂的可视化布局在数据科学和数据可视化领域，Holoviews是一个非常强大的Python库，它可以帮助我们轻松地创建各种复杂的可视化布局。Holoviews提供了一个高层次的接口，使得创建交互式和静态可视化变得简单而直观。本文将介绍如何使用Holoviews来创建复杂的可视化布局，让你的数据以最直观的方式展现出来。安装Holoviews首先，确保你已经安装了Holo
程式语言区分白总Server html python java c++开发语言
程序语言有很多种，每种都有其特定的用途和特点。以下是一些广泛使用的编程语言：1.Python：易于学习，广泛用于数据科学、机器学习、网络开发、自动化等领域。2.Java：广泛应用于企业级应用、安卓开发、大型系统开发等。3.C：一种基础语言，广泛用于系统编程、嵌入式开发、操作系统等领域。4.C++：C语言的扩展，支持面向对象编程，用于游戏开发、高性能应用等。5.JavaScript：主要用于网页前端
双峰高斯分布蒙特卡洛模并画pdf和cdf图 tpHRlIi pdf
双峰高斯分布蒙特卡洛模并画pdf和cdf图可设置双峰组合分布中不同正态参数的分布比例，也可以对多个组合进行计算matlab代码，备注清楚，更改为自己需要的分布比例与参数即可双峰高斯分布蒙特卡洛模并画pdf和cdf图在现代数据科学中，探究数据的分布状态是非常重要的。而在实际应用场景中，数据不一定总是符合单一的分布模型。双峰高斯分布是一种较为常见的数据分布模型，它适用于许多实际场景，比如人口年龄分布、
【数据获取与读取】JSON & CSV yogurt=b 数据分析 json python
数据分析流程获取数据-读取数据-评估数据-清洗数据-整理数据-分析数据-可视化数据公开数据集飞桨（百度旗下深度学习平台）数据集：https:/aistudio.baidu.com/aistudio/datasetoverview天池（阿里云旗下开发者竞赛平台）:https:/tianchiaiyun.com/dataset/和鲸社区（数据科学开源社区）数据集：htps://www.heywhale
【人工智能导论】吃豆人游戏（上）：对抗搜索与Minimax算法 Pericles_HAT 算法 python 人工智能游戏广度搜索
吃豆人实验（ThePac-ManProject）简介ThePac-ManprojectsweredevelopedforUCBerkeley’sintroductoryartificialintelligencecourse,CS188.TheyapplyanarrayofAItechniquestoplayingPac-Man.Theprojectsallowstudentstovisualiz
Python中的matplotlib库安装教程：多种方法详解代码前哨站 python matplotlib 开发语言
在数据可视化的世界里，matplotlib是一个非常重要的工具库。它提供了一整套绘图功能，帮助我们将数据可视化为图表。无论你是数据科学家、工程师，还是只是在数据处理领域有所涉猎，掌握matplotlib的安装方法都能让你的工作更加高效。本文将详细介绍几种在Python中安装matplotlib的方法。方法一：使用pip安装pip是Python包管理工具，使用它安装matplotlib非常简单。以下
读书笔记｜《乌合之众》玛格丽特昭
导论：思想、观念和信念的改变，是促成文明变革的唯一重要变化。人类最稳定的因素就是他们世代相传的思维定势。人类思想转变的关键时刻：一、宗教、政治和社会信仰的毁灭，而他们是人类文明存在的根基二、现代科学和工业的新发现，它们创造了一种全新的生存和思想条件。在这个过渡时期，最引人注意的特点是各阶层的民众逐渐进入国家政治生活，慢慢成了统治阶层。群众的势力不断壮大，首先得益于某些观念的广泛传播，慢慢地在人们头
【conda】完整指南：如何配置 Conda 环境与镜像源丶2136 conda conda
目录1.Conda配置概述2.配置镜像源2.1查找合适的镜像源2.2配置镜像源2.3优先级设置3.环境管理3.1设置默认环境路径3.2默认环境3.3环境清理3.4自定义命令4.其他常用配置选项4.1配置日志级别4.2缓存设置4.3自动更新总结conda是一个功能强大的包和环境管理工具，广泛用于数据科学、机器学习和科学计算领域。为了最大化利用conda，了解其配置选项至关重要。本文将深入探讨cond
【区块链 + 人才服务】区块链综合实训平台 | FISCO BCOS应用案例 | FISCO BCOS应用案例 FISCO_BCOS 2023FISCO BCOS产业应用发展报告区块链人才服务
区块链综合实训平台由秉蔚信息面向高校区块链专业开发，是一款集软硬件于一体的实验实训产品。该产品填补了高校区块链相关专业和课程在实验室实训环节的空缺，覆盖了区块链原理与技术、区块链开发、区块链运维、区块链安全、区块链实训案例等核心实训教学资源，分层次地融入到实训教学中去，为高校的区块链实验实训提供领先的一体化实验教学环境。平台内置丰富的实验教学资源，课程涵盖区块链导论、区块链密码学应用、区块链网络与
顶级的python入门教程！小白到大师，从这篇教程开始！马大哈（Python） python pycharm 开发语言学习青少年编程
1.为什么要学习Python？学习Python的原因有很多，以下是几个主要的原因：广泛应用：Python被广泛应用于Web开发、数据科学、人工智能、机器学习、自动化运维、网络爬虫、科学计算、游戏开发等多个领域。掌握Python意味着你可以在这些领域中找到丰富的职业机会。入门简单：Python的语法简洁明了，易于学习和理解，对于编程初学者来说非常友好。它的代码风格一致，可读性强，有助于培养良好的编程
python指南之Pandas和Matplotlib进行数据清洗步入烟尘 Python超入门指南全册 Matplotlib matplotlib 开发语言 python
使用Pandas和Matplotlib进行数据清洗与可视化在数据科学领域，数据清洗和可视化是构建数据驱动解决方案的重要步骤。本文将详细介绍如何使用Pandas进行数据清洗，并结合Matplotlib进行可视化。通过实际代码示例，我们将处理一个包含缺失值、不一致格式和噪声数据的示例数据集，最终将其转换为可视化友好的形式。1.准备工作在开始之前，我们需要安装必要的Python库。如果尚未安装，可以使用
基于 React & TypeScript & Webpack 的微前端应用模板 weixin_33806300 前端 webpack javascript ViewUI
m-fe/react-ts-webpack在Web开发导论/微前端与大前端一文中，笔者简述了微服务与微前端的设计理念以及微前端的潜在可行方案。微服务与微前端，都是希望将某个单一的单体应用，转化为多个可以独立运行、独立开发、独立部署、独立维护的服务或者应用的聚合，从而满足业务快速变化及分布式多团队并行开发的需求。如康威定律(Conway’sLaw)所言，设计系统的组织，其产生的设计和架构等价于组织间
【Rust光年纪】从心理学计算到机器学习：Rust语言数据科学库全方位解读！ friklogff Rust光年纪机器学习 rust 人工智能
Rust语言的数据科学和机器学习库大揭秘：核心功能、使用指南一网打尽！前言随着数据科学和机器学习在各个领域的广泛应用，使用高效、稳定的编程语言来实现这些功能变得尤为重要。Rust语言作为一种安全且高性能的系统编程语言，正逐渐成为数据科学和机器学习领域的热门选择。本文将介绍几个优秀的Rust库，它们分别用于心理学计算、统计分析、数据科学和机器学习，让我们一同探索它们的核心功能、使用场景和API概览。
Python大数据：深入探索Hadoop库的使用 t0_54coder Python基础入门教程大数据 python hadoop
在大数据的世界中，Python和Hadoop结合使用，为处理庞大数据集提供了强大的工具。本文将详细探讨如何在Python中使用Hadoop，特别是通过实例来展示这一过程。1.简介Hadoop是一个用于分布式处理大量数据的开源框架。尽管Hadoop主要用Java编写，但通过HadoopStreaming，Python程序员也可以利用其强大的数据处理能力。Python在数据科学中的流行，加上Hadoo
Python与R的完美协作：深入解析subprocess模块调用R脚本的参数传递机制十步杀一人_千里不留行 python r语言 microsoft
在数据科学和机器学习领域，Python和R经常需要协同工作。作为一名数据科学家，掌握这两种语言的交互技巧至关重要。今天，我们将深入探讨使用Python的subprocess模块调用R脚本时的参数传递机制，揭示其中的细节和潜在陷阱。两种参数传递方式的解析方法一：直接传递参数这种方法直接在subprocess.run()函数中传递参数：result1=subprocess.run([rscript_p
爬取微博热搜榜带刺的厚崽 python 数据挖掘开发语言
201911081102汤昕宇现代信息检索导论实验一程序运行的截图：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GimpWjCB-1639531088565)(程序运行截图.png)]当时微博热搜的截图[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lDXRgrxa-1639531088568)(微博热搜截图.png)]对应的CSV截
企业大规模部署机器学习模型的困境 AI前线
作者|JustinGage译者|Sambodhi编辑|VincentAI前线出品｜ID：ai-frontAI前线导语：“尽管人工智能正在被广泛应用，但大规模部署基于AI的产品如此之难，不过，一些新技术正被寄以厚望改变这一现状。基石风投合伙公司研究人工智能、机器学习的分析师、美国纽约大学的前数据科学家JustinGage不久前写了一篇文章[1]，为我们讲述了机器学习的部署和建模的不同之处，以及在公司
数值分析——LU分解（LU Factorization）怀帝阍而不见计算数学 c++
本系列整理自博主21年秋季学期本科课程数值分析I的编程作业，内容相对基础，参考书:DavidKincaid,WardCheney-NumericalAnalysisMathematicsofScientificComputing(2002,AmericalMathematicalSociety)目录背景LU分解（LU-Factorization）辅助部分Doolittle分解Cholesky分解定
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name