Datawhale

数据科学家成长指南(上)

点击上方“Datawhale”，选择“星标”公众号

第一时间获取价值内容

少年，你渴望力量么？

这才是真正的力量，年轻人！

这是Swami Chandrasekaran所绘制的一张地图。名字叫MetroMap to Data Scientist（数据科学家之路），别称怎么死都不知道的。

数据科学家是近年火爆兴起的职位，它是数据分析师的后续进阶，融合了统计、业务、编程、机器学习、数据工程的复合型职位。

该地图一共十条路线，分别是基础原理、统计学、编程能力、机器学习、文本挖掘／自然语言处理、数据可视化、大数据、数据获取、数据清理、常用工具。条条路线都不是人走的。因为网上只有英文版，我将其翻译成中文，并对内容作一些解释和补充。

该指南主要涉及硬技能，数据科学家的另外一个核心业务能力，这里没有涉及，它并不代表不重要。

——————
Fundamentals原理
算是多学科的交叉基础，属于数据科学家的必备素质。

Matrices & Linear Algebra
矩阵和线性代数

矩阵（Matrix）是一个按照长方阵列排列的复数或实数集合。涉及到的机器学习应用有SVD、PCA、最小二乘法、共轭梯度法等。

线性代数是研究向量、向量空间、线性变换等内容的数学分支。向量是线性代数最基本的内容。中学时，数学书告诉我们向量是空间（通常是二维的坐标系）中的一个箭头，它有方向和数值。在数据科学家眼中，向量是有序的数字列表。线性代数是围绕向量加法和乘法展开的。

矩阵和线性代数有什么关系呢？当向量进行线性变换时，这种变换可以想象成几何意义上的线性挤压和拉扯，而矩阵则是描述这种变换的信息，由变换后的基向量决定。

矩阵和线性代数是一体的，矩阵是描述线性代数的参数。它们构成了机器学习的庞大基石。

Hash Functions,Binary Tree,O(n)

哈希函数，二叉树，时间复杂度

哈希函数也叫散列函数，它能将任意的数据作为输入，然后输出固定长度的数据，这个数据叫哈希值也叫散列值，用h表示，此时h就输入数据的指纹。

哈希函数有一个基本特性，如果两个哈希值不相同，那么它的输入也肯定不相同。反过来，如果两个哈希值是相同的，那么输入值可能相同，也可能不相同，故无法通过哈希值来判断输入。

哈希函数常用在数据结构、密码学中。

二叉树是计算机科学的一个概念，它是一种树形结构。在这个结构中，每个节点最多有两个子树（左子树和右子树），子树次序不能颠倒。二叉树又有多种形态。

二叉树是树这类数据结构的第一种树，后续还有红黑树等，很多语言的set，map都是用二叉树写的。

时间复杂度是编程中的一个概念，它描述了执行算法需要的时间。不同算法有不同的时间复杂度，例如快排、冒泡等。

简便的计算方法是看有几个for循环，一个是O(n)，两个是O(n^2)，三个是O(n^3)。当复杂度是n^3+n^2时，则取最大的量级n^3即可。

与之相对应的还有空间复杂度，它代表的是算法占用的内存空间。算法通常要在时间和内存中取得一个平衡，既内存换时间，或者时间换内存。

Relational Algebra

关系代数

它是一种抽象的查询语言。基本的代数运算有选择、投影、集合并、集合差、笛卡尔积和更名。

关系型数据库就是以关系代数为基础。在SQL语言中都能找到关系代数相应的计算。

Inner、Outer、Cross、Theta Join

内连接、外连接、交叉连接、θ连接

这是关系模型中的概念，也是数据库的查询基础。

内连接，只连接匹配的行，又叫等值连接。

外连接，连接左右两表所有行，不论它们是否匹配。

交叉连接是对两个数据集所有行进行笛卡尔积运算，比如一幅扑克牌，其中有A集，是13个牌的点数集合，集合B则是4个花色的集合，集合A和集合B的交叉链接就是4*13共52个。

θ连接使用where子句引入连接条件，θ连接可以视作交叉连接的一个特殊情况。where 可以是等值，也可以是非等值如大于小于。

不同数据库的join方式会有差异。

CAP Theorem

CAP定理

指的是在一个分布式系统中， Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），三者不可得兼。

一致性（C）：在分布式系统中的所有数据备份，在同一时刻是否同样的值。（等同于所有节点访问同一份最新的数据副本）

可用性（A）：在集群中一部分节点故障后，集群整体是否还能响应客户端的读写请求。（对数据更新具备高可用性）

分区容错性（P）：以实际效果而言，分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性，就意味着发生了分区的情况，必须就当前操作在C和A之间做出选择。

数据系统设计必须在三个性能方便做出取舍，不同的数据库，CAP倾向性不同。

tabular data

列表数据

即二维的表格数据，关系型数据库的基础。

DataFrames & Series

Pandas数据结构

Series是一个一维数据对象，由一组NumPy的array和一组与之相关的索引组成。Python字典和数组都能转换成数组。Series以0为开始，步长为1作为索引。

x = Series([1,2,3,4,5])

x
0 1
1 2
2 3
3 4
4 5

DataFrames是一个表格型的数据，是Series的多维表现。DataFrames即有行索引也有列索引，可以看作Series组成的字典。

Sharding

分片

分片不是一种特定的功能或者工具，而是技术细节上的抽象处理，是水平拓展的解决方法。一般数据库遇到性能瓶颈，采用的是Scale Up，即向上增加性能的方法，但单个机器总有上限，于是水平拓展应运而生。

分片是从分区(Partition)的思想而来，分区通常针对表和索引，而分片可以跨域数据库和物理假期。比如我们将中国划分南北方，南方用户放在一个服务器上，北方用户放在另一个服务器上。

实际形式上，每一个分片都包含数据库的一部分，可以是多个表的内容也可以是多个实例的内容。当需要查询时，则去需要查询内容所在的分片服务器上查询。它是集群，但不同于Hadoop的MR。

如果能够保证数据量很难超过现有数据库服务器的物理承载量，那么只需利用MySQL5.1提供的分区(Partition)功能来改善数据库性能即可；否则，还是考虑应用Sharding理念。另外一个流传甚广的观点是：我们的数据也许没有那么大，Hadoop不是必需的，用sharding即可。

OLAP

联机分析处理（Online Analytical Processing）

它是数据仓库系统主要的应用，主要用于复杂的分析操作。

针对数据分析人员，数据是多维数据。查询均是涉及到多表的复杂关联查询，为了支持数据业务系统的搭建，OLAP可以想象成一个多维度的立方体，以维度（Dimension）和度量（Measure）为基本概念。我们用到的多维分析就是OLAP的具象化应用。

OLAP更偏向于传统企业，互联网企业会灵活变动一些。另外还有一个OLTP的概念。

Multidimensional Data Model

多维数据模型。

它是OLAP处理生成后的数据立方体。它提供了最直观观察数据的方法。

涉及钻取，上卷，切片，切块，旋转等操作，就是把上面的立方体变变变啦。

ETL

ETL是抽取（extract）、转换（transform）、加载（load）的过程。常用在数据仓库。

整个流程是从数据源抽取数据，结果数据清洗和转换，最终将数据以特定模型加载到数据仓库中去。

ETL是一个古老的概念，在以前SQL数据仓库时代和OLAP伴随而生，在现在日新月异的技术生态圈，会逐步演进到Hadoop相关的技术了。

Reporting vs BI vs Analytics

报表与商业智能与分析

这是BI的三个组成部分。Reporting是数据报表。利用表格和图表呈现数据。报表通常是动态多样的。数个报表的集合统称为Dashboard。

BI是商业智能，是对企业的数据进行有效整合，通过数据报表快速作出决策。

Analytics是数据分析，基于数据报表作出分析。包括趋势的波动，维度的对比等。

JSON & XML

JSON是一种轻量级的数据交换格式，易于阅读和编写，也易于机器解析和生成。

JSON的语法规则是：

{ }保存对象；
[ ]保存数组；
数据由逗号分隔；
数据在键值对中；

下面范例就是一组JSON值

{
  "firstName": "John",
  "lastName": "Smith",
  "age": 25,
  "address": {
    "streetAddress": "21 2nd Street",
    "city": "New York",
    "state": "NY",
    "postalCode": "10021"
  }
}

XML是可拓展标记语言，被设计用来传输和存储数据，与之对应的HTML则是显示数据。XML和HTML服务于不同目的，XML是不作为的。


George
John
Reminder
Don't forget the meeting!

上面的范例，纯粹就是用来传输的一段信息，没有任何意义。

NoSQL

泛指非关系型的数据库，意为Not Only SQL。

NoSQL是随着大数据时代发展起来的，传统的关系数据库在高并发大规模多数据类型的环境下力不从心，而NoSQL就是为了解决这些问题而产生的。

NoSQL主要分为四大类：

键值KeyValue数据库

这类数据库会使用哈希表，哈希表中有一个特定的键指向一个特定的值，KeyValue的特点是去中心化，不涉及业务关系。代表Redis。

列数据库

这类数据库用于分布式海量存储，和KeyValue的区别在于这里的Key指向的是列。横向拓展性好，适合大数据量高IO。代表HBase，Cassandra

文档型数据库

属于KeyValue数据库的升级版，允许嵌套键值。文档是处理信息的基本单位，一个文档等于一个关系数据库的一条记录。

因为文档的自由性，文档型数据库适合复杂、松散、无结构或半结构化的数据模型，和JSON类似，叫做BSON（MongoDB的存储格式）。代表MongoDB

图形数据库

基于图论算法的数据库，将数据集以图形元素（点、线、面）建立起来。这种数据库常应用在社交网络关系链，N度关系等。代表Neo4j

Regex

正则表达式（Regular Expression）

正则表通常被用来检索、替换那些符合某个模式(规则)的字符串。通过特定字符的组合，对字符串进行逻辑过滤。例如注册账号时检查对方邮件格式对不对啊，手机号格式对不对啊。

学起来靠记，记了也会忘，每次用得查，查了还得检验。网上记忆口诀一堆图表，相关网站也不少，仁者见仁了。

Vendor Landscape

不懂，供应商风景？

Env Setup

环境安装

想了半天，Env应该是环境安装的意思，IDE啊，GUI啊等等全部安装上去，再调各种路径啥的。针对数据科学家，Anaconda + Rstudio用的比较多。

——————

Statistics 统计

统计是数据科学家的核心能力之一，机器学习就是基于统计学原理的，我不算精通这一块，许多内容都是网络教科书式的语言。都掌握后再重写一遍。

Pick a Dataset(UCI Repo)

找数据（UCI数据集）

UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库，这个数据库目前共有335个数据集，其数目还在不断增加，可以拿来玩机器学习。网上搜的到。另外的数据来源是Kaggle竞赛等。

最经典的数据莫过于Iris了。

Descriptive Statistics（mean, median, range, SD, Var）

描述性统计（均值，中位数，极差，标准差，方差）

均值也叫平均数，是统计学中的概念。小学学习的算数平均数是其中的一种均值，除此以外还有众数和中位数。

中位数可以避免极端值，在数据呈现偏态的情况下会使用。

极差就是最大值减最小值。

标准差，也叫做均方差。现实意义是表述各数据偏离真实值的情况，反映的是一组数据的离散程度。平均数相同的两组数据，如[1,9]和[4,6]，平均数相同，标准差不一样，前者的离散程度更大。

方差，是标准差的平方。方差和标准差的量纲是一致的。在实际使用过程中，标准差需要比方差多一步开平方的运算，但它在描述现实意义上更贴切，各有优劣。

Exploratory Data Analysis

探索性数据分析

获得一组数据集时，通常分析师需要掌握数据的大体情况，此时就要用到探索性数据分析。

主要是两类：

图形法，通过直方图、箱线图、茎叶图、散点图快速汇总描述数据。
数值法：观察数据的分布形态，包括中位数、极值、均值等，观察多变量之间的关系。

探索性数据分析不会涉及到复杂运算，而是通过简单的方式对数据有一个大概的了解，然后才去深入挖掘数据价值，在Python和R中，都有相关的summary函数。

Histograms

直方图

它又称质量分布图，是一种表示数据分布的统计报告图。

近似图表中的条形图，不过直方图的条形是连续排列，没有间隔、因为分组数据具有连续性，不能放开。

正常的直方图是中间高、两边低、左右近似对称。而异常型的直方图种类过多，不同的异常代表不同的可能情况。

Percentiles & Outliers

百分位数和极值

它们是描述性统计的元素。

百分位数指将一组数据从小到大排序，并计算相遇的累积百分值，某一百分位所对应数据的值就称为这一百分位的百分位数。比如1～100的数组中，25代表25分位，60代表60分位。

我们常将百分位数均匀四等分：第25百分位数，叫做第一四分位数；第50百分位数，称第二四分位数，也叫中位数；第75百分位数，叫做第三四分位数。通过四分位数能够简单快速的衡量一组数据的分布。它们构成了箱线图的指标。

极值是最大值和最小值，也是第一百分位数和第一百百分位数。

百分位数和极值可以用来描绘箱线图。

Probability Theory

概率论，统计学的核心之一，主要研究随机现象发生的可能性。

Bayes Theorem

贝叶斯定理

它关于随机事件A和B的条件概率的定理。

现实世界有很多通过某些信息推断出其他信息的推理和决策，比如看到天暗了、蜻蜓低飞了，那么就表示有可能下雨。这组关系被称为条件概率：用P(A|B)表示在B发生的情况下A发生的可能性。

贝叶斯公式：P(B|A) = P(A|B)*P(B) / P(A)

现实生活中最经典的例子就是疾病检测，如果某种疾病的发病率为千分之一。现在有一种试纸，它在患者得病的情况下，有99%的准确判断患者得病，在患者没有得病的情况下，有5%的可能误判患者得病。现在试纸说一个患者得了病，那么患者真的得病的概率是多少？

从我们的直觉看，是不是患者得病的概率很大，有80%？90%？实际上，患者得病的概率只有1.9%。关键在哪里？一个是疾病的发病率过低，一个是5%的误判率太高，导致大多数没有得病的人被误判。这就是贝叶斯定理的作用，用数学，而不是直觉做判断。

最经典的应用莫过于垃圾邮件的过滤。

Random Variables

随机变量

表示随机试验各种结果的实际值。比如天气下雨的降水量，比如某一时间段商城的客流量。

随机变量是规律的反应，扔一枚硬币，既有可能正面、也有可能反面，两者的概率都是50%。扔骰子，结果是1～6之间的任何一个，概率也是六分之一。虽然做一次试验，结果肯定是不确定性的，但是概率是一定的。随机变量是概率的基石。

Cumul Dist Fn(CDF)

累计分布函数（Cumulative Distribution Function）

它是概率密度函数的积分，能够完整描述一个实数随机变量X的概率分布。直观看，累积分布函数是概率密度函数曲线下的面积。

上图阴影部分就是一个标准的累积分布函数F(x)，给定任意值x，计算小于x的概率为多大。实际工作中不会涉及CDF的计算，都是计算机负责的。记得在我大学考试，也是专门查表的。

现实生活中，我们描述的很多概率都是累积分布函数，我们说考试90分以上的概率有95%，实际是90分～100分所有的概率求和为95%。

Continuos Distributions(Normal, Poisson, Gaussian)

连续分布（正态、泊松、高斯）

分布有两种，离散分布和连续分布。连续分布是随机变量在区间内能够取任意数值。

正态分布是统计学中最重要的分布之一，它的形状呈钟型，两头低，中间高，左右对称。

正态分布有两个参数，期望μ和标准差σ：μ反应了正态分布的集中趋势位置，σ反应了离散程度，σ越大，曲线越扁平，σ越小，曲线越窄高。

自然届中大量的现象都按正态形式分布，标准正态分布则是正态分布的一种，平均数为0，标准差为1。应用中，都会将正态分布先转换成标准正态分布进行计算。很多统计学方法，都会要求数据符合正态分布才能计算。

泊松分布是离散概率分布。适合描述某个随机事件在单位时间／距离／面积等出现的次数。当n出现的次数足够多时，泊松分布可以看作正态分布。

高斯分布就是正态分布。

Skewness

偏度

它是数据分布倾斜方向和程度的度量，当数据非对称时，需要用到偏度。

正态分布的偏度为0，当偏度为负时，数据分布往左偏离，叫做负偏离，也称左偏态。反之叫右偏态。

ANOVA

方差分析

用于多个变量的显著性检验。基本思想是：通过分析研究不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。

方差分析属于回归分析的特例。方差分析用于检验所有变量的显著性，而回归分析通常针对单个变量的。

Prob Den Fn(PDF)

概率密度函数

PDF是用来描述连续型随机变量的输出值。概率密度函数应该和分布函数一起看:

蓝色曲线是概率密度函数，阴影部分是累积分布函数。我们用概率密度函数在某一区间上的积分来刻画随机变量落在这个区间中的概率。概率等于区间乘概率密度，累积分布等于所有概率的累加。

概率密度函数：f(x) = P(X=x)

累积分布函数：F(x) = P(X<=x)

概率密度函数是累积分布函数的导数，现有分布函数，才有密度函数。累积分布函数即可以离散也可以连续，而密度函数是用在连续分布中的。

Central Limit THeorem

中心极限定理

它是概率论中最重要的一类定理。

自然届中很多随机变量都服从正态分布，中心极限定理就是理解和解释这些随机变量的。我们有一个总体样本，从中取样本量为n的样本，这个样本有一个均值，当我们重复取了m次时，对应有m个均值，如果我们把数据分布画出来，得到的结果近似正态分布。

这就是中心极限定理，它神奇的地方就在于不管总体是什么分布。我们很多推导都是基于中心极限定理的。

Monte Carlo Method

蒙特卡罗方法

它是使用随机数来解决计算问题的方法。

蒙特卡罗是一个大赌场，以它命名，含义近似于随机。我们有时候会因为各种限制而无法使用确定性的方法，此时我们只能随机模拟，用通过概率实验所求的概率来估计我们感兴趣的一个量。最知名的例子有布丰投针试验。

18世纪，布丰提出以下问题：设我们有一个以平行且等距木纹铺成的地板，木纹间距为a，现在随意抛一支长度l比木纹之间距离a小的针，求针和其中一条木纹相交的概率。布丰计算出来了概率为p = 2l/πa。

为了计算圆周率，人们纷纷投针，以实际的试验结果来计算。

下图则是计算机模拟的结果

这就是蒙特卡罗方法的实际应用。它的理论依据是大数定理和中心极限定理。

Hypothesis Testing

假设检验

它是根据一定的假设条件由样本推断总体的方法。

首先根据实际问题作出一个假设，记作H0，相反的假设称为备择假设。它的核心思想是小概率反证法，如果这个假设发生的概率太小以至于不可能发生，结果它发生了，那么我们认为假设是不成立的。

假设检验是需要容忍的，因为样本会存在波动，这个波动范围不会太严格，在这个范围内出现的事件我们都能接受。但是我们都这么容忍了，还是出现了违背原假设的小概率事件，那么说明原假设有问题。不能容忍的范围即拒绝域，在拒绝域发生的概率我们都认为它是小概率事件。

假设检验容易犯两类错误，第一类错误是真实情况为h0成立，但判断h0不成立，犯了“以真为假”的错误。第二类错误是h0实际不成立，但判断它成立，犯了“以假为真”的错误。

假设检验有U检验、T检验、F检验等方法。

p-Value

P值

它是进行假设检验判定的一个参数。当原假设为真时样本观察结果（或更极端结果）出现的概率。P值很小，说明原假设发生的概率很小，但它确实发生了，那么我们就有理由拒绝原假设。

至于P值的选择根据具体情况，一般是1%，5%几个档次。

然而，P值在统计学上争议很大，P值是否是接受原假设的标准，都是统计学各种流派混合后的观点。P值从来没有被证明可以用来接收某个假设（所以我上文的说明并不严谨），它只是仅供参考。现在统计学家们也开始倡导：应该给出置信区间和统计功效，实际的行动判读还是留给人吧。

Chi2 Test

卡方检验

Chi读作卡。通常用作独立性检验和拟合优度检验。

卡方检验基于卡方分布。检验的假设是观察频数与期望频数没有差别。

独立性检验：卡方分布的一个重要应用是基于样本数据判断两个变量的独立性。独立性检验使用列联表格式，因此也被称为列联表检验。原假设中，列变量与行变量独立，通过每个单元格的期望频数检验统计量。

拟合优度检验：它依据总体分布状况，计算出分类变量中各类别的期望频数，与分布的观察频数进行对比，判断期望频数与观察频数是否有显著差异。目的是判断假设的概率分布模型是否能用作研究总体的模型。

独立性检验是拟合优度检验的推广。

Estimation

估计

统计学里面估计分为参数估计和非参数估计。

参数估计是用样本指标估计总体指标，这个指标可以是期望、方差、相关系数等，指标的正式名称就是参数。当估计的是这些参数的值时，叫做点估计。当估计的是一个区间，即总体指标在某范围内的可能时，叫做区间估计，简单认为是人们常说的有多少把握保证某值在某个范围内。

参数估计需要先明确对样本的分布形态与模型的具体形式做假设。常见的估计方法有极大似然估计法、最小二乘法、贝叶斯估计法等。

非参数估计则是不做假设，直接利用样本数据去做逼近，找出相应的模型。

Confid Int(CI)

置信区间

它是参数检验中对某个样本的总体参数的区间估计。它描述的是这个参数有一定概率落在测量结果的范围程度。这个概率叫做置信水平。

以网上例子来说，如果在一次大选中某人的支持率为55%，而置信水平0.95以上的置信区间是（50%,60%），那么他的真实支持率有95%的概率落在和50～60的支持率之间。我们也可以很容易的推得，当置信区间越大，置信水平也一定越大，落在40～70%支持率的可能性就有99.99%了。当然，越大的置信区间，它在现实的决策价值也越低。

置信区间经常见于抽样调研，AB测试等。

MLE

极大似然估计

它是建立在极大似然原理的基础上。

如果试验如有若干个可能的结果A，B，C…。若在仅仅作一次试验中，结果A出现，则一般认为试验条件对A出现有利，也即A出现的概率很大。

此时我们需要找出某个参数，参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

Kernel Density Estimate

核密度估计

它是概率论中估计未知的密度函数，属于非参数检验。

一般的概率问题，我们都会假定数据分布满足状态，是基于假定的判别。这种叫参数检验。如果如果数据与假定存在很大的差异，那么这些方法就不好用，于是便有了非参数检验。核密度估计就是非参数检验，它不需要假定数据满足那种分布。

Regression

回归

回归，指研究一组随机变量(Y1 ，Y2 ，…，Yi)和另一组(X1，X2，…，Xk)变量之间关系的统计分析方法，又称多重回归分析。通常Y1，Y2，…，Yi是因变量，X1、X2，…，Xk是自变量。

回归分析常用来探讨变量之间的关系，在有限情况下，也能推断相关性和因果性。而在机器学习领域中，它被用来预测，也能用来筛选特征。

回归包括线性回归、非线性回归、逻辑回归等。上图就是线性回归。

Convariance

协方差

用于衡量两个变量的总体误差，方差是协方差的一种特殊情况，即两个变量相同。

协方差用数据期望值E计算：cov(x,y) = E[XY]-E[X][Y]。

如果XY互相独立，则cov(x,y)=0.此时E[XY] = E[X][Y]。

Correlation

相关性

即变量之间的关联性，相关性只涉及数学层面，即一个变量变化，另外一个变量会不会变化，但是两个变量的因果性不做研究。

相关关系是一种非确定性的关系，即无法通过一个变量精确地确定另外一个变量，比如我们都认为，一个人身高越高体重越重，但是不能真的通过身高去确定人的体重。

Pearson Coeff

皮尔逊相关系数

它是度量两个变量线性相关的系数，用r表示，其值介于-1与1之间。1表示完全正相关，0表示完全无关，-1表示完全负相关。

Causation

因果性

和相关性是一堆好基友。相关性代表数学上的关系，但并不代表具有因果性。

夏天，吃冷饮的人数和淹死的人数都呈现正相关。难道是吃冷饮导致了淹死？不是的，是因为天热，天热吃冷饮的人多了，游泳的人也多了。

《大数据时代》曾经强调，我们应该重视相关性而不是因果性，这是存疑的，因为对数据科学家来说，对业务因果性的了解往往胜于相关性，比如你预测一个人是否会得癌症，你不能拿是否做过放疗作为特征，因为放疗已经是癌症的果，必然是非常强相关，但是对预测没有任何帮助，只是测试数据上好看而已。

Least2 fit

最小二乘法

它是线性回归的一种用于机器学习中的优化技术。

最小二乘的基本思想是：最优拟合直线应该是使各点到回归直线的距离和最小的直线，即平方和最小。它是基于欧式距离的。

Eculidean Distance

欧氏距离

指在m维空间中两个点之间的真实距离。小学时求的坐标轴轴上两个点的直线距离就是二维空间的欧式距离。很多算法都是基于欧式距离求解的。

二维：

——————

Programming 编程

数据科学家是需要一定的编程能力，虽然不需要程序员那么精通，注重的是解决的能力，而不是工程化的能力。作者从内容看更推崇R，我个人是推崇Python的。

Python Basics

Python基础知识。

人生苦短，我用Python。

Python的基础内容比R丰富的多，近几年，Python有作为第一数据科学语言的趋势。基础内容就不多复述了。

Working in Excel

Excel干活

掌握常用函数，懂得数据分析库，会Power系列加分。VBA这种就不用学了。

R Setup, RStudio R

安装R和RStudio

R是一门统计学语言。下列的内容，都是R语言相关。

R Basics

R的基础，不多作陈述了。

Varibles

变量

变量是计算机语言中的抽象概念，可以理解成我们计算的结果或者值，不同计算语言的变量性质不一样。主要理解R和Python的变量就行。大数据那块可能还会涉及到Java和Scala。

R 用 <- 给变量赋值，=也能用，但不建议。

Vectors

向量

向量是一维数组，可以存储数值型、字符型或逻辑型数据的一维数组。R里面使用函数c( )创建向量。

v <- c(1,2,3,4)

向量中的数据必须拥有相同的数据类型，无法混杂。

Matrices

矩阵

矩阵是一个二维数组，和向量一样，每个元素必须拥有相同的数据类型。当维度超过2时，我们更建议使用数组

m <- matrix(1:20,nrow=5,ncol=4)

Arrays

数组

数组与矩阵类似，但是维度可以大于2，数据类型必须一样。

a <- array(1:20,c(4,5))

Factors

因子

因子是R中的有序变量和类别变量。

类别变量也叫做名义变量，它没有顺序之分，比如男女，虽然编码中可能男为1，女为2，但不具备数值计算含义。有序变量则表示一种顺序关系，少年、青年、老年则是一种有序变量。

f <- factor(c("type1","type2","type1))

在factor函数中加入参数ordered = True，就表示为有序型变量了。

Lists

列表

它是R最复杂的数据类型，它可以是上述数据结构的组合。

l <- list(names = v,m,a,f )

上述例子就包含了向量、矩阵、数组、因子。我们可以使用双重方括号[[ ]]选取列表中的元素。R中的下标不从0开始，所以list[[1]] 选取的是v。

Data Frames

数据框

在R和Python中为常用的数据结构。

R语言中为data.frame，Python中为Pandas的DataFrame。这里以R语言举例。

数据框可以包含不同数据类型的列，它是比矩阵更广泛的概念，也是R中最常用的数据结构。每一列的数据类型必须唯一。

x <- data.frame(col1,col2,col3)

Reading CSV Data

读取CSV

这一块比较坑的地方是中文，R语言对中文编码的支持比较麻烦。

Reading Raw Data

读取原始数据

不清楚这和CSV的区别。

Subsetting Data

构建数据集

R提供了常用函数方便我们构建数据集（反正来去都那几个英文）。

数据集合并使用merge函数。
添加数据行使用rbind函数。
dataframe选取子集用[ row,column]。
删除变量可以通过 <- Null。
复杂查询则使用subset函数。
如果已经习惯SQL函数，可以载入library(sqldf)后用sqldf函数。

Manipulate Data Frames

操作数据框

除了上面的构建数据集的技巧，如果我们需要更复杂的操作，加工某些数据，如求变量和、计算方差等，则要用到R语言的其他函数。

R本身提供了abs(x),sort(x),mean(x),cos(x)等常用的统计方法，如何应用在数据框呢？我们使用apply函数，可将任意一个函数应用在矩阵、数组、数据框中。

apply(dataframe,margin,fun)

Functions

函数

R语言自带了丰富的统计函数，可以通过官方/第三方文档查询，R也可以自建函数。

myfunction <- function(arg1,arg2,……){
 statements
 return(object)
}

函数中的对象只在函数内部使用。如果要调试函数，可以使用warning( ),messagr( ),stop( )等纠错。

Factor Analysis

因子分析

我不知道这块的编程基础内容为什么要加入因子分析。R语言的因子分析函数是factanal()

Install Pkgs

调包侠

R的包非常丰富（Python更是），可以通过cran下载，包括爬虫、解析、各专业领域等。函数library可以显示有哪些包，可能直接加入包。RStudio则提供了与包相关的丰富查询界面。

——————

Machine Learning机器学习

数据科学的终极应用，现在已经是深度学习了。这条路也叫从调包到科学调参。这里的算法属于经典算法，但是向GBDT、XGBoost、RF等近几年竞赛中大发异彩的算法没有涉及，应该是写得比较早的原因。

What is ML?

机器学习是啥子哟

机器学习，区别于数据挖掘，机器学习的算法基于统计学和概率论，根据已有数据不断自动学习找到最优解。数据挖掘能包含机器学习的算法，但是协同过滤，关联规则不是机器学习，在机器学习的教程上看不到，但是在数据挖掘书本能看到。

Numerical Var

数值变量

机器学习中主要是两类变量，数值变量和分量变量。

数值变量具有计算意义，可用加减乘除。数据类型有int、float等。

在很多模型中，连续性的数值变量不会直接使用，为了模型的泛化能力会将其转换为分类变量。

Categorical Var

分类变量

分类变量可以用非数值表示，它是离散变量。

有时候为了方便和节省存储空间，也会用数值表示，比如1代表男，0代表女。但它们没有计算意义。在输入模型的过程中，会将其转变为哑变量。

Supervised Learning

监督学习

机器学习主要分为监督学习和非监督学习。

监督学习是从给定的训练集中学习出一个超级函数Y=F(X)，我们也称之为模型。当新数据放入到模型的时候，它能输出我们需要的结果达到分类或者预测的目的。结果Y叫做目标，X叫做特征。当有新数据进入，能够产生新的准确的结果。

既然从训练集中生成模型，那么训练集的结果Y应该是已知的，知道输入X和输出Y，模型才会建立，这个过程叫做监督学习。如果输出值是离散的，是分类，如果输出值是连续的，是预测。

监督学习常见于KNN、线性回归、朴素贝叶斯、随机森林等。

Unsupervied Learning

非监督学习

无监督学习和监督学习，监督学习是知道结果Y，无监督学习是不知道Y，仅通过已有的X，来找出隐藏的结构。

无监督学习常见于聚类、隐马尔可夫模型等。

Concepts, Inputs & Attributes

概念、输入和特征

机器学习包括输入空间、输出空间、和特征空间三类。特征选择的目的是筛选出结果有影响的数据。

Traning & Test Data

训练集和测试集

机器学习的模型是构建在数据集上的，我们会采用随机抽样或者分层抽样的将数据分成大小两个部分，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，通过小样本的预测结果和真实结果做对比，来判断模型优劣。这个叫做交叉验证。

交叉验证能够提高模型的稳定性，但不是完全保险的，依旧有过拟合的风险。

通常用80%的数据构建训练集，20%的数据构建测试集

Classifier

分类

监督学习中，如果输出是离散变量，算法称为分类。

输出的离散变量如果是二元的，则是二元分类，比如判断是不是垃圾邮件{是，否}，很多分类问题都是二元分类。与之相对的是多元分类。

Prediction

预测

监督学习中，如果输出是连续变量，算法称为预测。

预测即可以是数值型，比如未来的销量，也可以是介于[0,1]间的概率问题。

有些算法适合分类、有些则是预测，也有算法可以两者都能做到。

Lift

Lift曲线

它是衡量模型性能的一种最常用的度量，它考虑的是模型的准确性。它核心的思想是以结果作导向，用了模型得到的正类数量比不用模型的效果提升了多少？

比如某一次活动营销，1000个用户会有200个响应，响应率是20%。用了模型后，我通过算法，讲用户分群，挑出了最有可能响应的用户200个，测试后的结果是有100个，此时的响应率变成了50%。此时的Lift值为5。

上图就是按Lift值画出曲线的范例。纵坐标是lift值，横坐标是挑选的的阀值。阀值越低，说明挑选的越严格，按上文的例子理解，挑选的就是最有可能响应的用户。当没有阀值时，lift就为0了。阀值通常是根据预测分数排序的。

还有一种常用的叫ROC曲线。

Overfitting

过拟合

过拟合是机器学习中常碰到的一类问题。主要体现在模型在训练数据集上变现优秀，而在真实数据集上表现欠佳。造成的原因是为了在训练集上获得出色的表现，使得模型的构造如此精细复杂，规则如此严格，以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别。

上图，黑色的线条是正常模型，绿色的线条是过拟合模型。

不同的机器学习算法，是否容易拟合的程度也不仅相同。通常采用加大样本数据量、减少共线性、增加特征泛化能力的方法解决过拟合。

与之相反的是欠拟合。

Bias & Variance

偏差和方差

偏差和方差除了统计学概念外，它们也是解释算法泛化能力的一种重要工具。

算法在不同训练集上得到的结果不同，我们用偏差度量算法的期望预测和真实结果的偏离程度，这代表算法本身的拟合能力，方差则度量了算法受数据波动造成的影响。

偏差越小、越能够拟合数据，方差越小、越能够扛数据波动。

Trees & Classification

树分类

树分类是需要通过多级判别才能确定模式所属类别的一种分类方法。多级判别过程可以用树状结构表示，所以称为树分类器。最经典的便是决策树算法。

Classification Rate

分类正确率

为了验证模型的好坏，即最终判断结果的对错，我们引入了分类正确率。

分类正确率即可以判断二分类任务，也适用于多分类任务。我们定义分类错误的样本数占总样本的比率为错误率，精确度则是正确的样本数比率。两者相加为1。

为了更好的判断模型，主要是业务需要，我们还加入了查准率(precision),查全率(recall)，查准率是预测为真的数据中有多少是真的。查全率是真的数据中有多少数据被预测对了。

这个有点绕，主要是为了业务判断，假如我们的预测是病人是否患了某个致死疾病，假设得病为真，我们显然希望把全部都得病的患者找出来，那么此时查全率（得病的患者有多少被准确预测出来）比查准率（预测得病的患者有多少真的得病了）更重要，因为这个会死人，那么肯定是选择有杀错无放过。此时更追求查全率。

算法竞赛就是基于上述指标评分的。

Decision Tress

决策树

它是基本的分类和回归方法。可以理解成If-Then的规则集，每一条路径都互斥且完备。决策树分为内部节点和叶节点，内部节点就是If-Then的规则，叶节点就是分类结果。

决策树主流有ID3、C4.5（C5.0也有了）、CART算法。

因为决策树形成的结构是根据树形递归产生，它对训练数据表现良好，但是会产生过拟合现象。为了避免这一现象，会进行减枝。剪纸通过损失函数或代价函数实现。

决策树的优点是：高校简单、可解释性强、在大型数据库有良好表现、适合高维数据。

缺点是：容易过拟合、并且分类结果会倾向拥有更多数值的特征（基于信息增益）。

随机森林算法是基于决策树的。

Boosting

提升方法

属于集成学习的一种。提升方法Boosting一般是通过多个弱分类器组成一个强分类器，提高分类性能。简而言之是三个臭皮匠顶一个诸葛亮。

通过对训练集训练出一个基学习器，然后根据基学习器的分类表现跳转和优化，分类错误的样本将会获得更多关注，以此重复迭代，最终产生的多个基分类器进行加强结合得出一个强分类器。

主流方法是AdaBoost，以基分类器做线性组合，每一轮提高前几轮被错误分类的权值。

Naive Bayes Classifiers

朴素贝叶斯分类

它基于贝叶斯定理的分类方法。朴素贝叶斯法的使用条件是各条件互相独立。这里引入经典的贝叶斯定理：

在算法中，我们的B就是分类结果Target，A就是特征。意思是在特征已经发生的情况下，发生B的概率是多少？

概率估计方法有极大似然估计和贝叶斯估计，极大似然估计容易产生概率值为0的情况。

优点是对缺失数据不太敏感，算法也比较简单。缺点是条件互相独立在实际工作中不太成立。

K-Nearest Neighbour

K近邻分类。

K近邻分类的特点是通过训练数据对特征向量空间进行划分。当有新的数据输入时，寻找距离它最近的K个实例，如果K个实例多数属于某类，那么就把新数据也算作某类。

特征空间中，每个训练数据都是一个点，距离该点比其他点更近的所有点将组成一个子空间，叫做单元Cell，这时候，每个点都属于一个单元，单元将是点的分类。

k值的选择将会影响分类结果，k值越小，模型越复杂，容易过拟合，不抗干扰。K值越大，模型将越简单，分类的准确度会下降。上图是K=1时的子空间划分，下图是K=5时的子空间划分，从颜色很直观的看到影响。

K近邻的这类基于距离的算法，训练的时间复杂度低，为O(n)，适用范围范围广。但是时间复杂度低是通过空间复杂度换来的，所以需要大量的计算资源和内存。另外样本不平衡问题解决不了。

Logistic Regression

逻辑斯谛回归，简称逻辑回归。

逻辑回归属于对数线性模型，虽然叫回归，本质却是分类模型。如果我们要用线性模型做分类任务，则找到sigmoid函数将分类目标Y和回归的预测值联系起来，当预测值大于0,判断正例，小于0为反例，等于0任意判别，这个方法叫逻辑回归模型。

模型参数通过极大似然法求得。逻辑回归的优点是快速和简单，缺点是高维数据支持不好，容易钱拟合。

Ranking

排序，PageRank

这里应该泛指Google的PageRank算法。

PageRank的核心思想有2点：

如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是pagerank值会相对较高；
如果一个pagerank值很高的网页链接到一个其他的网页，那么被链接到的网页的pagerank值会相应地因此而提高。

PageRank并不是唯一的排名算法，而是最为广泛使用的一种。其他算法还有：Hilltop 算法、ExpertRank、HITS、TrustRank。

Linear Regression

线性回归

线性回归是机器学习的入门级别算法，它通过学习得到一个线性组合来进行预测。

一般写成F(x) = wx +b，我们通过均方误差获得w和b，均方误差是基于欧式距离的求解，就是最小二乘法啦。找到一条线，所有数据到这条线的欧式距离之和最小。

线性回归容易优化，模型简单，缺点是不支持非线性。

Perceptron

感知机

它是二类分类的线性分类模型。

它通过一个wx+b的超平面S划分特征空间。为了找出这个超平面，我们利用损失函数极小化求出。超平面的解不是唯一的，采取不同初值或误分类点将会造成不同结果。

Hierarchical Clustering

层次聚类

层次聚类指在不同层次对数据集进行划分，从而形成树形的聚类结构。

它将样本看作一个初始聚类簇，每次运算找出最近的簇进行合并，该过程不断合并，直到满足预设的簇的个数。

上图就是所有样本重复执行最终K=1时的结果。横轴是聚类簇之间的距离，当距离=5时，我们有两个聚类簇，当距离=3时，我们有四个聚类簇。

K-means Clusterning

K聚类

全称K均值聚类，无监督学习的经典算法。物以类聚人以群分的典型代表。

K聚类需要将原始数据无量纲化，然后设置聚类点迭代求解。K聚类的核心是针对划分出的群簇使其最小化平方误差。直观说，就是让样本紧密围绕群簇均值。

设置多少个聚类点多少有点主观的意思，这也是K聚类唯一的参数，考察的是外部指标，即你聚类本身是想分出几类，通过对结果的观察以及E值判断。

K聚类不适合多维特征，一般3～4维即可，维度太多会缺乏解释性，RFM模型是其经典应用。因为物以类聚，所以对偏离均值点的异常值非常敏感。

Neural Networks

神经网络

神经网络是一种模仿生物神经系统的算法，神经网络算法以神经元作为最基础的单位，神经元通过将输入数据转换为0或1的阀值，达到激活与否的目的，但是0和1不连续不光滑，对于连续性数据，往往用sigmoid函数转换成[0,1] 间的范围。

将这些神经单元以层次结构连接起来，就成了神经网络。因为这个特性，神经网络有许多的参数，可不具备可解释性。多层神经网络，它的输入层和输出层之间的层级叫做隐层，就是天晓得它代表什么含义。

神经网络的层数一般是固定的，但我们也能将网络层数作为学习的目标之一，找到最适合的层数。

另外，层数越多，参数越多的神经网络复杂度越高，深度学习就是典型的层数很多的神经网络。常见的有CNN、DNN、RNN等算法。

Sentiment Analysis

情感分析

比较前沿的一个领域。包括情感词的正面负面分类，标注语料，情感词的提取等。

情感分析可以通过情感关键词库计算，比如汇总开心、悲伤、难过的词汇，计算情感值，再加入表示情感强烈程度的维度，如1～5的数值进行打分。用户对商品评论的分析就是一个常见的情感分析：这手机太TM破了，就是5分愤怒。

然而情感词典需要维护，构建成本较高，我们也可以用机器学习的方法将其看待为分类问题。讲关键词特征向量化，常用词袋模型（bag-of-words ）以及连续分布词向量模型（word Embedding），特征化后，往往用CNN、RNN或者SVM算法。

Collaborative Fitering

协同过滤

简称CF算法。协同过滤不属于机器学习领域，所以你在机器学习的书上看不到，它属于数据挖掘。

协同过滤的核心是一种社会工程的思想：人们更倾向于向口味比较类似的朋友那里获得推荐。协同过滤主要分为两类，基于用户的user-based CF以及基于物体的item-based CF。虽然协同过滤不是机器学习，但它也会用到SVD矩阵分解计算相似性。

优点是简单，你并不需要基于内容做内容分析和打标签，推荐有新颖性，可以发掘用户的潜在兴趣点。

协同过滤的缺点是无法解决冷启动问题，新用户没行为数据，也没有好友关系，你是最不到推荐的；推荐会收到稀疏性的约束，你的行为越多，才会越准；随着数据量的增大，算法会收到性能的约束，并且难以拓展。

协同过滤可以和其他算法混合，来提高效果。这也是推荐系统的主流做法。

Tagging

标签/标注

这里稍微有歧义、如果是标签，间接理解为用户画像，涉及到标签系统。用户的男女、性别、出生地皆是标签，越丰富的标签，越能在特征工程中为我们所用。

如果是分类标签/标注，则是数据标注。有监督学习需要训练集有明确的结果Y，很多数据集需要人工添加上结果。比如图像识别，你需要标注图像属于什么分类，是猫是狗、是男是女等。在语音识别，则需要标注它对应的中文含义，如果涉及到方言，则还需要将方言标注为普通话。

数据标注是个苦力活。

——————

个人水平一般，内容解读不算好，可能部分内容有错误，欢迎指正。

因为微信文章最多2W字，所以该指南需要拆分成三篇。本文写的是基础原理、统计学、编程能力和机器学习。请大家期待后续。

你可能感兴趣的:(数据科学家成长指南(上))

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
第一场雪岁月静好_nx
早晨起来，外面白茫茫的一片，总算是下雪了，这还是今年第一场雪呢！走在路上，踩着雪“咯吱咯吱”的，空气很湿润。树上、草坪上、屋顶上都落了白白的一层，天上还零星漂着几点雪。慢慢走在路上，呼吸着清新的空气，感受着冬天的美好，心情也好多了。
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
2020.11.19 隆非凡
日精进，今日体验：在维修过程中遇到的问题，把源头找到，在进行下一步开始。不要停留在一个点上，合理调整心态，把当下事做好。
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
【夜读】提升生活品质的8个建议茳淮秀水
停止攀比很多人之所以感觉疲惫，部分原因是来自于跟别人攀比。殊不知，攀比得到的满足只是片刻的，过后往往会感到空虚。过分在意别人的评价，丢失的是自己原有的审美，扰乱的是自己最初的节奏。不妨活得洒脱些，自己内心丰盈了，快乐就能更持久。停止自责想改变自己，先从接纳自己开始。越是过分自责，就越难改变现状，因为如果把精力全耗在自责上，就没有精力用来改变了。遇到问题，我们要用正确的心态去面对。与其一味自责，不如
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
如果做到轻松在股市赚钱？只要坚持这三个原则。履霜之人
大A股里向来就有七亏二平一赚的说法，能赚钱的都是少数人。否则股市就成了慈善机构，人人都有钱赚，谁还要上班？所以说亏钱是正常的，或者说是应该的。那么那些赚钱的人又是如何做到的呢？普通人能不能找到捷径去分一杯羹呢？方法是有的，但要做到需要你有极高的自律。第一，控制仓位，散户最大的问题是追涨杀跌，只要涨起来，就把钱往股票上砸，然后被套，隔天跌的受不了，又一刀切，全部割肉。来来回回间，遍体鳞伤。所以散户首
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
凤凰公园吴侬暖语sym
凤凰公园距离我们家880米，大概步行12分钟就到了，这是我们每天饭后散步或者闲暇时的去处。现在夏季徬晚时分广场舞大妈们总是热情非凡，那里的大门口就是一个好地方，每天总有两拨人在那踩着节奏翩翩起舞呢！而且一路上，从我们小区到公园，或者从昆仑西苑沿河到公园，都是饭后锻炼的人们，川流不息，老人小孩，年轻人，…！哪哪都是。最早家乡的公园，所有公园都是要收门票的，那时候也就是休息天会有人花钱去转转，平时一般
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin