weixin_39628339

python生物数据分析师_全网最全数据分析师面试干货-python篇

以下内容如有借鉴，均在文章末尾附上原文章链接。

介于Python不是我目前的重点，本篇暂时只列出基础问题。

1.什么是Python？使用Python有什么好处？

Python是一种编程语言，它有对象、模块、线程、异常处理和自动内存管理。

它简洁、简单、方便、容易扩展，有许多自带的数据结构，而且它开源。

2.什么是PEP8？

PEP8是一个编程规范，内容是一些关于如何让你的程序更具可读性的建议。

3.什么是pickling和unpickling？

Pickle模块读入任何Python对象，将它们转换成字符串，然后使用dump函数将其转储到一个文件中——这个过程叫做pickling。反之从存储的字符串文件中提取原始Python对象的过程，叫做unpickling。

4.Python是如何被解释的？

Python是一种解释性语言，它的源代码可以直接运行。Python解释器会将源代码转换成中间语言，之后再翻译成机器码再执行。

5.Python是怎样管理内存的？

Python的内存管理是由私有heap空间管理的。所有的Python对象和数据结构都在一个私有heap中。程序员没有访问该heap的权限，只有解释器才能对它进行操作。为Python的heap空间分配内存是由Python的内存管理模块进行的，其核心API会提供一些访问该模块的方法供程序员使用。Python有自带的垃圾回收系统，它回收并释放没有被使用的内存，让它们能够被其他程序使用。

6.有哪些工具可以帮助debug或做静态分析？

PyChecker是一个静态分析工具，它不仅能报告源代码中的错误，并且会报告错误类型和复杂度。Pylint是检验模块是否达到代码标准的另一个工具。7.什么是Python装饰器？

Python装饰器是Python中的特有变动，可以使修改函数变得更容易。

8.数组和元组之间的区别是什么？

数组和元组之间的区别：数组内容是可以被修改的，而元组内容是只读的。另外，元组可以被哈希，比如作为字典的关键字。

9.参数按值传递和引用传递是怎样实现的？

Python中的一切都是类，所有的变量都是一个对象的引用。引用的值是由函数确定的，因此无法被改变。但是如果一个对象是可以被修改的，你可以改动对象。

10.字典推导式和列表推导式是什么？

它们是可以轻松创建字典和列表的语法结构。

11.Python都有哪些自带的数据结构？

Python自带的数据结构分为可变的和不可变的。可变的有：数组、集合、字典；不可变的有：字符串、元组、数。

12.什么是Python的命名空间？

在Python中，所有的名字都存在于一个空间中，它们在该空间中存在和被操作——这就是命名空间。它就好像一个盒子，每一个变量名字都对应装着一个对象。当查询变量的时候，会从该盒子里面寻找相应的对象。

13.Python中的lambda是什么？

这是一个常被用于代码中的单个表达式的匿名函数。

14.为什么lambda没有语句？

匿名函数lambda没有语句的原因，是它被用于在代码被执行的时候构建新的函数对象并且返回。

15.Python中的pass是什么？

Pass是一个在Python中不会被执行的语句。在复杂语句中，如果一个地方需要暂时被留白，它常常被用于占位符。

16.Python中什么是遍历器？

遍历器用于遍历一组元素，比如列表这样的容器。

17.Python中的unittest是什么？

在Python中，unittest是Python中的单元测试框架。它拥有支持共享搭建、自动测试、在测试中暂停代码、将不同测试迭代成一组，等等的功能。

18.在Python中什么是slicing？

Slicing是一种在有序的对象类型中（数组，元组，字符串）节选某一段的语法。

19.在Python中什么是构造器？

生成器是实现迭代器的一种机制。它功能的实现依赖于yield表达式，除此之外它跟普通的函数没有两样。

20.Python中的docstring是什么？

Python中文档字符串被称为docstring，它在Python中的作用是为函数、模块和类注释生成文档。

21.如何在Python中拷贝一个对象？

如果要在Python中拷贝一个对象，大多时候你可以用copy.copy()或者copy.deepcopy()。但并不是所有的对象都可以被拷贝。

22.Python中的负索引是什么？

Python中的序列索引可以是正也可以是负。如果是正索引，0是序列中的第一个索引，1是第二个索引。如果是负索引，（-1）是最后一个索引而（-2）是倒数第二个索引。

23.如何将一个数字转换成一个字符串？

你可以使用自带函数str()将一个数字转换为字符串。如果你想要八进制或者十六进制数，可以用oct()或hex()。

24.Xrange和range的区别是什么？

Xrange用于返回一个xrange对象，而range用于返回一个数组。不管那个范围多大，Xrange都使用同样的内存。

25.Python中的模块和包是什么？

在Python中，模块是搭建程序的一种方式。每一个Python代码文件都是一个模块，并可以引用其他的模块，比如对象和属性。

一个包含许多Python代码的文件夹是一个包。一个包可以包含模块和子文件夹。

作为一种解释型、交互式、面向对象的高级编程语言，Python和别的一些使用标点符号的语言不同，它使用了大量的英语单词作为关键字，因而具有很好的可读性。而且Python跟其他编程语言相比，有着更少的语法结构，因而深受个人和企业的喜爱。

26.给你一个无序数组，怎么才能合理采样？无序数组是相对有序数组而言的，无序数组并不等于随机，我们要做的是将无序数组洗牌，得到随机排列。

对于无序数组，n个元素能产生n！种排序。如果洗牌算法能产生n！种不同的结果，并且这些结果产生的概率相等，那么这个洗牌算法是正确的。

方法：for i in range(len(n)): swap(arr[i], arr[random(i,n)])

这段代码是对随机确定数组第一位的值，然后递归对剩余的数组进行相同的过程，可以产生n！中等可能的排序情况。

27.常用的Python库有哪些?numpy：矩阵运算

sklearn：常用机器学习和数据挖掘工具库

scipy：基于numpy做高效的数学计算，如积分、线性代数、稀疏矩阵等

pandas：将数据用表的形式进行操作

matplotlib：数据可视化工具

seaborn：数据可视化工具

keras/tensorflow/theano：深度学习工具包

NLTK：自然语言处理工具包

beautifulsoap：网页文档解析工具

28.行存储和列存储的区别。(列式数据库,更符合人类阅读习惯)（1）行存储：传统数据库的存储方式，同一张表内的数据放在一起，插入更新很快。缺点是每次查询即使只涉及几列，也要把所有数据读取.

（2）列存储：OLAP等情况下，将数据按照列存储会更高效，每一列都可以成为索引，投影很高效。缺点是查询是选择完成时，需要对选择的列进行重新组装。

“当你的核心业务是 OLTP 时，一个行式数据库，再加上优化操作，可能是个最好的选择。

当你的核心业务是 OLAP 时，一个列式数据库，绝对是更好的选择”4.K-Means算法原理及改进，遇到异常值怎么办？评估算法的指标有哪些？

k-means原理：

在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。

改进：

a. kmeans++：初始随机点选择尽可能远，避免陷入局部解。方法是n+1个中心点选择时，对于离前n个点选择到的概率更大

b. mini batch kmeans：每次只用一个子集做重入类并找到类心（提高训练速度）

c. ISODATA：对于难以确定k的时候，使用该方法。思路是当类下的样本小时，剔除；类下样本数量多时，拆分

d. kernel kmeans：kmeans用欧氏距离计算相似度，也可以使用kernel映射到高维空间再聚类

遇到异常值：

a. 有条件的话使用密度聚类或者一些软聚类的方式先聚类，剔除异常值。不过本来用kmeans就是为了快，这么做有些南辕北辙了

b. 局部异常因子LOF：如果点p的密度明显小于其邻域点的密度，那么点p可能是异常值

c. 多元高斯分布异常点检测

d. 使用PCA或自动编码机进行异常点检测：使用降维后的维度作为新的特征空间，其降维结果可以认为剔除了异常值的影响（因为过程是保留使投影后方差最大的投影方向）

e. isolation forest：基本思路是建立树模型，一个节点所在的树深度越低，说明将其从样本空间划分出去越容易，因此越可能是异常值。是一种无监督的方法，随机选择n个sumsampe，随机选择一个特征一个值。

f. winsorize：对于简单的，可以对单一维度做上下截取评估聚类算法的指标：

a. 外部法（基于有标注）：Jaccard系数、纯度

b. 内部法（无标注）：内平方和WSS和外平方和BSS

c. 此外还要考虑到算法的时间空间复杂度、聚类稳定性等

29.数据预处理过程有哪些？缺失值处理：删、插

异常值处理

特征转换：时间特征sin化表示

标准化：最大最小标准化、z标准化等

归一化：对于文本或评分特征，不同样本之间可能有整体上的差异，如a文本共20个词，b文本30000个词，b文本中各个维度上的频次都很可能远远高于a文本

离散化：onehot、分箱等

30.随机森林原理？有哪些随机方法？随机森林原理：通过构造多个决策树，做bagging以提高泛化能力

subsample（有放回抽样）、subfeature、低维空间投影（特征做组合，参考林轩田的《机器学习基石》）

31.PCA（主成分分析）主成分分析是一种降维的方法

思想是将样本从原来的特征空间转化到新的特征空间，并且样本在新特征空间坐标轴上的投影方差尽可能大，这样就能涵盖样本最主要的信息

方法：

a. 特征归一化

b. 求样本特征的协方差矩阵A

c. 求A的特征值和特征向量，即AX=λX

d. 将特征值从大到小排列，选择topK，对应的特征向量就是新的坐标轴（采用最大方差理论解释，参考：https://blog.csdn.net/huang1024rui/article/details/46662195）

PCA也可以看成激活函数为线性函数的自动编码机（参考林轩田的《机器学习基石》第13课，深度学习）

32.hive？spark？sql？ nlp？Hive允许使用类SQL语句在hadoop集群上进行读、写、管理等操作

Spark是一种与hadoop相似的开源集群计算环境，将数据集缓存在分布式内存中的计算平台，每轮迭代不需要读取磁盘的IO操作，从而答复降低了单轮迭代时间

33.Linux基本命令目录操作：ls、cd、mkdir、find、locate、whereis等

文件操作：mv、cp、rm、touch、cat、more、less

权限操作：chmod+rwx421

账号操作：su、whoami、last、who、w、id、groups等

查看系统：history、top

关机重启：shutdown、reboot

vim操作：i、w、w!、q、q!、wq等

34.NVL函数是oracle的一个函数

NVL( string1, replace_with)，如果string1为NULL，则NVL函数返回replace_with的值，否则返回原来的值

35.LR用于分类问题的线性回归

采用sigmoid对输出值进行01转换

采用似然法求解

手推

优缺点局限性

改进空间

36.分类算法性能的主要评价指标。查准率、查全率、F1

AUC

LOSS

Gain和Lift

WOE和IV

37.数据缺失怎么办删除样本或删除字段

用中位数、平均值、众数等填充

插补：同类均值插补、多重插补、极大似然估计

用其它字段构建模型，预测该字段的值，从而填充缺失值（注意：如果该字段也是用于预测模型中作为特征，那么用其它字段建模填充缺失值的方式，并没有给最终的预测模型引入新信息）

onehot，将缺失值也认为一种取值

压缩感知及矩阵补全

38.GBDT（梯度提升树）首先介绍Adaboost Tree，是一种boosting的树集成方法。基本思路是依次训练多棵树，每棵树训练时对分错的样本进行加权。树模型中对样本的加权实际是对样本采样几率的加权，在进行有放回抽样时，分错的样本更有可能被抽到

GBDT是Adaboost Tree的改进，每棵树都是CART（分类回归树），树在叶节点输出的是一个数值，分类误差就是真实值减去叶节点的输出值，得到残差。GBDT要做的就是使用梯度下降的方法减少分类误差值。

在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)，让本轮的损失损失L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。

GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。得到多棵树后，根据每颗树的分类误差进行加权投票

39.如何避免决策树过拟合？限制树深

剪枝

限制叶节点数量

正则化项

增加数据

bagging（subsample、subfeature、低维空间投影）

数据增强（加入有杂质的数据）

早停

40.SVM的优缺点优点：

a. 能应用于非线性可分的情况

b. 最后分类时由支持向量决定，复杂度取决于支持向量的数目而不是样本空间的维度，避免了维度灾难

c. 具有鲁棒性：因为只使用少量支持向量，抓住关键样本，剔除冗余样本

d. 高维低样本下性能好，如文本分类

缺点：

a. 模型训练复杂度高

b. 难以适应多分类问题

c. 核函数选择没有较好的方法论

41.统计教授多门课老师数量并输出每位老师教授课程数统计表。

解：设表class中字段为id，teacher，course统计教授多门课老师数量

select count( * )

from class

group by teacher

having count( * ) > 1

输出每位老师教授课程数统计

select teacher, count(course) as count_course

from class

group by teacher

42.有uid，app名称，app类别，数据百亿级别，设计算法算出每个app类别只安装了一个app的uid总数。小数据量的话直接查询：

select b.apptype,count(b.uid) from (select uid, apptype, count(appname) as num from app_info group by uid,apptype having count(appname) = 1 )b group by b.apptype大数据量下（没用过hadoop不太清楚，望大家指正）

a. 原始文件可以拼接为uid-app-categroy

b. map阶段形成的是

c. reduce阶段统计key为“uid-category”的count数量

d. 只保留count为1的数据

e. 剩下的数据量直接统计uid出现次数=category类别数的数据

43.请说明随机森林较一般决策树稳定的几点原因.bagging的方法，多个树投票提高泛化能力

bagging中引入随机（参数、样本、特征、空间映射），避免单棵树的过拟合，提高整体泛化能力

44.什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析是一种无监督的学习方法，根据一定条件将相对同质的样本归到一个类总。

聚类方法主要有：

a. 层次聚类

b. 划分聚类：kmeans

c. 密度聚类

d. 网格聚类

e. 模型聚类：高斯混合模型

k-means比较好介绍，选k个点开始作为聚类中心，然后剩下的点根据距离划分到类中；找到新的类中心；重新分配点；迭代直到达到收敛条件或者迭代次数。优点是快；缺点是要先指定k，同时对异常值很敏感。

45.余弦距离与欧式距离求相似度的差别。

1）欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异。

余弦距离更多的是从方向上区分差异，而对绝对的数值不敏感，更多的用于使用用户对内容评分来区分兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题（因为余弦距离对绝对数值不敏感）。

2）总体来说，欧氏距离体现数值上的绝对差异，而余弦距离体现方向上的相对差异。

（1）例如，统计两部剧的用户观看行为，用户A的观看向量为(0,1)，用户B为(1,0)；此时二者的余弦距很大，而欧氏距离很小；我们分析两个用户对于不同视频的偏好，更关注相对差异，显然应当使用余弦距离。

（2）而当我们分析用户活跃度，以登陆次数(单位：次)和平均观看时长(单：分钟)作为特征时，余弦距离会认为(1,10)、(10,100)两个用户距离很近；但显然这两个用户活跃度是有着极大差异的，此时我们更关注数值绝对差异，应当使用欧氏距离。

46.数据清理中，处理缺失值的方法是？

由于调查、编码和录入误差，数据中可能存在一些无效值和缺失值，需要给予适当的处理。常用的处理方法有：估算，整例删除，变量删除和成对删除。

1）估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单，但没有充分考虑数据中已有的信息，误差可能较大。另一种办法就是根据调查对象对其他问题的答案，通过变量之间的相关分析或逻辑推论进行估计。例如，某一产品的拥有情况可能与家庭收入有关，可以根据调查对象的家庭收入推算拥有这一产品的可能性。

2）整例删除(casewise deletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值，这种做法的结果可能导致有效样本量大大减少，无法充分利用已经收集到的数据。因此，只适合关键变量缺失，或者含有无效值或缺失值的样本比重很小的情况。

3）变量删除(variable deletion)。如果某一变量的无效值和缺失值很多，而且该变量对于所研究的问题不是特别重要，则可以考虑将该变量删除。这种做法减少了供分析用的变量数目，但没有改变样本量。

4）成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值，同时保留数据集中的全部变量和样本。但是，在具体计算时只采用有完整答案的样本，因而不同的分析因涉及的变量不同，其有效样本量也会有所不同。这是一种保守的处理方法，最大限度地保留了数据集中的可用信息。

47.如何判断一个模型的好坏？

A：1。是否具备清晰的概念、足够的准确性

2。计算效率与表现形式

3。可移植性（推广应用价值）

4。易用性

48.聚类有哪些算法，kmeans算法有什么缺点？

k-means聚类算法

k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高，所以在对大规模数据进行聚类时被广泛应用。目前，许多算法均围绕着该算法进行扩展和改进。

k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。k-means算法的处理过程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。

步骤：

(1) 任意选择k个对象作为初始的簇中心；

(2) repeat；

(3) 根据簇中对象的平均值，将每个对象(重新)赋予最类似的簇；

(4) 更新簇的平均值，即计算每个簇中对象的平均值；

(5) until不再发生变化。

层次聚类算法

根据层次分解的顺序是自底向上的还是自上向下的，层次聚类算法分为凝聚的层次聚类算法和分裂的层次聚类算法。

凝聚型层次聚类的策略是先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中，或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类，它们只是在簇间相似度的定义上有所不同。

采用最小距离的凝聚层次聚类算法流程：

(1) 将每个对象看作一类，计算两两之间的最小距离；

(2) 将距离最小的两个类合并成一个新类；

(3) 重新计算新类与所有类之间的距离；

(4) 重复(2)、(3)，直到所有类最后合并成一类。

SOM聚类算法

该算法假设在输入对象中存在一些拓扑结构或顺序，可以实现从输入空间(n维)到输出平面(2维)的降维映射，其映射具有拓扑特征保持性质,与实际的大脑处理有很强的理论联系。

SOM网络包含输入层和输出层。输入层对应一个高维的输入向量，输出层由一系列组织在2维网格上的有序节点构成，输入节点与输出节点通过权重向量连接。学习过程中，找到与之距离最短的输出层单元，即获胜单元，对其更新。同时，将邻近区域的权值更新，使输出节点保持输入向量的拓扑特征。

FCM聚类算法

FCM算法是一种以隶属度来确定每个数据点属于某个聚类程度的算法。该聚类算法是传统硬聚类算法的一种改进。

四种聚类算法中，在运行时间及准确度方面综合考虑，k-means和FCM相对优于其他。但是，各个算法还是存在固定缺点：k-means聚类算法的初始点选择不稳定，是随机选取的，这就引起聚类结果的不稳定，本实验中虽是经过多次实验取的平均值，但是具体初始点的选择方法还需进一步研究；层次聚类虽然不需要确定分类数，但是一旦一个分裂或者合并被执行，就不能修正，聚类质量受限制；FCM对初始聚类中心敏感，需要人为确定聚类数，容易陷入局部最优解；SOM与实际大脑处理有很强的理论联系。但是处理时间较长，需要进一步研究使其适应大型数据库。

49.如何理解线性回归？

A：确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法

线性回归有很多实际用途。分为以下两大类：

如果目标是预测或者映射，线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后，对于一个新增的X值，在没有给定与它相配对的y的情况下，可以用这个拟合过的模型预测出一个y值。这是比方差分析进一步的作用，就是根据现在，预测未来。虽然，线性回归和方差都是需要因变量为连续变量，自变量为分类变量，自变量可以有一个或者多个，但是，线性回归增加另一个功能，也就是凭什么预测未来，就是凭回归方程。这个回归方程的因变量是一个未知数，也是一个估计数，虽然估计，但是，只要有规律，就能预测未来。

给定一个变量y和一些变量X1,...,Xp，这些变量有可能与y相关，线性回归分析可以用来量化y与Xj之间相关性的强度，评估出与y不相关的Xj，并识别出哪些Xj的子集包含了关于y的冗余信息。

线性回归模型经常用最小二乘逼近来拟合

应用多重线性回归进行统计分析时要求满足哪些条件呢？

总结起来可用四个词来描述：线性（自变量和因变量之间存在线性关系）、独立（各观测间相互独立）、正态（残差服从正态分布）、齐性（方差大小不随所有变量取值水平的改变而改变，即方差齐性）。

50.线性回归的因素如果有相关关系，会对模型有什么影响？

A：多重共线性指自变量问存在线性相关关系，即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。若存在多重共线性，计算自变量的偏回归系数β时，矩阵不可逆，导致β存在无穷多个解或无解。

解决办法：(1)逐步回归：使用逐步回归可以在一定程度上筛选存在多重共线性的自变量组合中对反应变量变异解释较大的变量，而将解释较小的变量排除在模型之外。

但这种方法缺点是当共线性较为严重时，变量自动筛选的方法并不能完全解决问题。

(2) 岭回归：岭回归为有偏估计，但能有效地控制回归系数的标准误大小。

(3) 主成分回归：可以使用主成分分析的方法对存在多重共线性的自变量组合提取主成分，然后以特征值较大的（如大于1）几个主成分与其他自变量一起进行多重线性回归。得出的主成分回归系数再根据主成分表达式反推出原始自变量的参数估计。

该方法在提取主成分时丢失了一部分信息，几个自变量间的多重共线性越强，提取主成分时丢失的信息越少。

(4) 路径分析

51.主成分分析的两个因子是什么关系？

A：相互独立

52.准确率和召回率哪个更重要些？

A：信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate)，召回率也叫查全率，准确率也叫查准率，概念公式:

召回率(Recall) = 系统检索到的相关文件 / 系统所有相关的文件总数

准确率(Precision) = 系统检索到的相关文件 / 系统所有检索到的文件总数

注意：准确率和召回率是互相影响的，理想情况下肯定是做到两者都高，但是一般情况下准确率高、召回率就低，召回率低、准确率高，当然如果两者都低，那是什么地方出问题了。

如果是做搜索，那就是保证召回的情况下提升准确率；如果做疾病监测、反垃圾，则是保准确率的条件下，提升召回。

53.都有什么降维方法？

A：缺失值比率 (Missing Values Ratio)该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此，可以将数据列缺失值大于某个阈值的列去掉。阈值越高，降维方法更为积极，即降维越少。

低方差滤波 (Low Variance Filter)与上个方法相似，该方法假设数据列变化非常小的列包含的信息量少。因此，所有的数据列方差小的列被移除。需要注意的一点是：方差与数据范围相关的，因此在采用该方法前需要对数据做归一化处理。

高相关滤波 (High Correlation Filter)高相关滤波认为当两列数据变化趋势相似时，它们包含的信息也显示。这样，使用相似列中的一列就可以满足机器学习模型。对于数值列之间的相似性通过计算相关系数来表示，对于名词类列的相关系数可以通过计算皮尔逊卡方值来表示。相关系数大于某个阈值的两列只保留一列。同样要注意的是：相关系数对范围敏感，所以在计算之前也需要对数据进行归一化处理。

随机森林/组合树（Random Forests）组合决策树通常又被称为随机森林，它在进行特征选择与构建有效的分类器时非常有用。一种常用的降维方法是对目标属性产生许多巨大的树，然后根据对每个属性的统计结果找到信息量最大的特征子集。Eg，如果我们能能够对一个非常巨大的数据集生成非常层次非常浅的树，每棵树只训练一小部分属性。如果一个属性经常成为最佳分裂属性，那么它很有可能是需要保留的信息特征。对随机森林数据属性的统计评分会向我们揭示与其它属性相比，哪个属性才是预测能力最好的属性。

主成分分析（PCA）通过正交变换将原始的n维数据集变换到一个新的呗称作主成分的数据集中。变换后的结果中，第一个主成分具有最大的方差值，每个后续的成分在与前述主成分正交条件限制下与具有最大方差。降维时仅保存前m个主成分即可保持最大的数据信息量。需要注意的是主成分变换对正交向量的尺度敏感。数据在变换前需要进行归一化处理。同样也需要注意的是，新的主成分并不是由实际系统产生的，因此在进行PCA变换后会丧失数据的解释性。

反向特征消除，所有分类算法先用n个特征进行训练。每次降维操作，采用n-1个特征对分类器训练n次，得到新的n个分类器。将新分类器中错分率变化最小的分类器所用的n-1维特征作为降维后的特征集。不断的对该过程进行迭代，即得到降维后的结果。第k次迭代过程中得到的是n-k维特征分类器。通过选择最大的错误容忍率，我们可以得到在选择分类器上打到指定分类性能最小需要多少个特征。（http://tech.idcquan.com/dc/78484.shtml）

我对降维的理解：提取数据中有用的信息，用最少的数据得到最有用的结果。

54.用全部的数据做线性回归，这样是什么错误？

A：过度拟合

55.如何判断一组数据是否服从正态分布？

A：1当样本数N<2000,shapiro-wilk的W统计量检验正态性

当样本数N>2000，Kolmogorov-Smirnov的D统计量检验正态性。把样本分布的形状和正态分布想比较，得出一个数值p，如果p小于0.05（给定显著性水平）认为数据不是来自正态分布。反之结论相反。

2 观察正态概率图，如果来自正态分布，图形应该呈现一条直线。

3 绘制数据条形图，如果来自正态分布，条形图呈现钟型

4 偏度系数和峰度系数，如果正态分布，两者都应该是0（适合大样本）

56.如何处理数据缺失值？

A：1）删除含有缺失值的个案

主要有简单删除法和权重法。简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标，那么这个方法是最有效的。当缺失值的类型为非完全随机缺失的时候，可以通过对完整的数据加权来减小偏差。把数据不完全的个案标记后，将完整的数据个案赋予不同的权重，个案的权重可以通过logistic或probit回归求得。如果解释变量中存在对权重估计起决定行因素的变量，那么这种方法可以有效减小偏差。如果解释变量和权重并不相关，它并不能减小偏差。对于存在多个属性缺失的情况，就需要对不同属性的缺失组合赋不同的权重，这将大大增加计算的难度，降低预测的准确性，这时权重法并不理想。

2）可能值插补缺失值

它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。在数据挖掘中，面对的通常是大型的数据库，它的属性有几十个甚至几百个，因为一个属性值的缺失而放弃大量的其他属性值，这种删除是对信息的极大浪费，所以产生了以可能值对缺失值进行插补的思想与方法。常用的有如下几种方法。

(1)均值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的，就以该属性存在值的平均值来插补缺失的值；如果缺失值是非定距型的，就根据统计学中的众数原理，用该属性的众数(即出现频率最高的值)来补齐缺失的值。

(2)利用同类均值插补。同均值插补的方法都属于单值插补，不同的是，它用层次聚类模型预测缺失变量的类型，再以该类型的均值插补。假设X=(X1,X2…Xp)为信息完全的变量，Y为存在缺失值的变量，那么首先对X或其子集行聚类，然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和Y做分析，那么这种插补方法将在模型中引入自相关，给分析造成障碍。

(3)极大似然估计（Max Likelihood ,ML）。在缺失类型为随机缺失的条件下，假设模型对于完整的样本是正确的，那么通过观测数据的边际分布可以对未知参数进行极大似然估计（Little and Rubin）。这种方法也被称为忽略缺失值的极大似然估计，对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization，EM）。该方法比删除个案和单值插补更有吸引力，它一个重要前提：适用于大样本。有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。

(4)多重插补（Multiple Imputation，MI）。多值插补的思想来源于贝叶斯估计，认为待插补的值是随机的，它的值来自于已观测到的值。具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。根据某种选择依据，选取最合适的插补值。

多重插补方法分为三个步骤：①为每个空值产生一套可能的插补值，这些值反映了无响应模型的不确定性；每个值都可以被用来插补数据集中的缺失值，产生若干个完整数据集合。②每个插补数据集合都用针对完整数据集的统计方法进行统计分析。③对来自各个插补数据集的结果，根据评分函数进行选择，产生最终的插补值。

假设一组数据，包括三个变量Y1，Y2，Y3，它们的联合分布为正态分布，将这组数据处理成三组，A组保持原始数据，B组仅缺失Y3，C组缺失Y1和Y2。在多值插补时，对A组将不进行任何处理，对B组产生Y3的一组估计值（作Y3关于Y1，Y2的回归），对C组作产生Y1和Y2的一组成对估计值（作Y1，Y2关于Y3的回归）。

当用多值插补时，对A组将不进行处理，对B、C组将完整的样本随机抽取形成为m组（m为可选择的m组插补值），每组个案数只要能够有效估计参数就可以了。对存在缺失值的属性的分布作出估计，然后基于这m组观测值，对于这m组样本分别产生关于参数的m组估计值，给出相应的预测即，这时采用的估计方法为极大似然法，在计算机中具体的实现算法为期望最大化法（EM）。对B组估计出一组Y3的值，对C将利用 Y1,Y2,Y3它们的联合分布为正态分布这一前提，估计出一组(Y1，Y2）。

上例中假定了Y1,Y2,Y3的联合分布为正态分布。这个假设是人为的，但是已经通过验证（Graham和Schafer于1999），非正态联合分布的变量，在这个假定下仍然可以估计到很接近真实值的结果。

多重插补和贝叶斯估计的思想是一致的，但是多重插补弥补了贝叶斯估计的几个不足。

(1)贝叶斯估计以极大似然的方法估计，极大似然的方法要求模型的形式必须准确，如果参数形式不正确，将得到错误得结论，即先验分布将影响后验分布的准确性。而多重插补所依据的是大样本渐近完整的数据的理论，在数据挖掘中的数据量都很大，先验分布将极小的影响结果，所以先验分布的对结果的影响不大。

(2)贝叶斯估计仅要求知道未知参数的先验分布，没有利用与参数的关系。而多重插补对参数的联合分布作出了估计，利用了参数间的相互关系。

以上四种插补方法，对于缺失值的类型为随机缺失的插补有很好的效果。两种均值插补方法是最容易实现的，也是以前人们经常使用的，但是它对样本存在极大的干扰，尤其是当插补后的值作为解释变量进行回归时，参数的估计值与真实值的偏差很大。相比较而言，极大似然估计和多重插补是两种比较好的插补方法，与多重插补对比，极大似然缺少不确定成分，所以越来越多的人倾向于使用多值插补方法。

57.

你可能感兴趣的:(python生物数据分析师)

探索数据之美：用Python生成词云图进击的六角龙 Python python 开发语言数据可视化
导语在这个信息爆炸的时代，数据无处不在，而如何从海量数据中提取有价值的信息并可视化展示，成为了数据分析与可视化领域的重要课题。今天，我们将一起探索如何使用Python中的wordcloud库来生成词云图，让数据“说话”，用图形讲述数据背后的故事。wordcloud是一个在Python中广泛使用的第三方库，主要用于根据文本数据生成词云（WordClouds）。词云是一种可视化技术，它能够有效地展示文
使用Python实现LLM的文本生成：风格迁移与内容控制二进制独立开发 GenAI与Python 非纯粹GenAI python 开发语言人工智能自然语言处理分布式语言模型 transformer
文章目录引言1.大型语言模型（LLM）概述1.1Transformer架构1.2预训练与微调2.文本生成基础2.1无条件生成2.2条件生成3.风格迁移3.1风格迁移的基本原理3.2使用Python实现风格迁移4.内容控制4.1内容控制的基本原理4.2使用Python实现内容控制5.高级技巧与优化5.1多轮对话生成5.2生成参数优化6.应用场景与未来展望结论引言随着自然语言处理（NLP）技术的快速发
VM-UNet: 基于Vision Mamba UNet的医学图像分割项目推荐翟洁英
VM-UNet:基于VisionMambaUNet的医学图像分割项目推荐VM-UNet项目地址:https://gitcode.com/gh_mirrors/vm/VM-UNet1.项目基础介绍和主要编程语言VM-UNet是一个基于VisionMambaUNet架构的开源项目，专门用于医学图像分割。该项目的主要编程语言是Python。VM-UNet结合了状态空间模型（StateSpaceModel
掌握Python核心技巧：轻松实现依赖注入与控制反转 | python 小知识 egzosn python 开发语言
掌握Python核心技巧：轻松实现依赖注入与控制反转|python小知识1.依赖注入与控制反转思想介绍**依赖注入(DependencyInjection,DI)**和控制反转(InversionofControl,IoC)是现代软件开发中的重要设计模式，它们的核心思想是减少模块间的耦合度，提高代码的可测试性和可维护性。依赖注入：指将对象的依赖关系从代码中抽离出来，由外部容器或框架在运行时动态地注
python 获取字典值 adixuan8152 python
一、Python中的字典遍历方法：info={'name':'xiaoming','sex':'nan','age':20,'id':1}info2={'name':'hhh','sex':'nv','addr':'beijign'}第一种方法：#直接循环字典，循环的是字典的key，如果想循环的时候同时获取到key和value，那么就要用.items()方法fork,vininfo.items()
python爬虫入门（实践）雁于飞爬虫 python 开发语言
python爬虫入门（实践）一、对目标网站进行分析二、博客爬取获取博客所有h2标题的路由确定目标，查看源码代码实现"""获取博客所有h2标题的路由"""url="http://www.crazyant.net"importrequestsfrombs4importBeautifulSoup#发送请求，获取页面所有内容r=requests.get(url)ifr.status_code!=200:r
Python函数——函数的传入参数 0号——开拓者 python 开发语言
一、引言在Python中，函数是组织代码的基本单位之一，它不仅可以帮助我们提高代码的复用性，还能使程序的结构更加清晰。在定义函数时，通常会需要传入一些数据，这些数据称为函数参数。参数是函数与外界交互的桥梁，它们使得同一个函数能够处理不同的输入，从而产生不同的输出。在本文中，我们将深入探讨Python函数的传入参数，包括如何定义、使用以及不同类型的参数如何影响函数的行为。二、传入参数的功能1、传入参
保留字-python 殇在山风 python 程序员创富学习方法
保留字也称为关键字，是指被编程语言内部定义并保留使用的标识符python.x有35个保留字，如下and,as,await,break,class,continue,def,del,elif,else,except,False,finally,global,if,import,in,is,lambda,None,nonlocal,not,or,pass,raise,return,True,try,w
【经典算法】LeetCode 66. 加一(Java/C/Python3实现含注释说明,简单) 天天学长爱编程 LeetCode 算法 leetcode
题目描述给定一个由整数组成的非空数组所表示的非负整数，在该数的基础上加一。最高位数字存放在数组的首位，数组中每个元素只存储单个数字。你可以假设除了整数0之外，这个整数不会以零开头。示例1:输入:[1,2,3]输出:[1,2,4]解释:输入数组表示数字123。示例2:输入:[4,3,2,1]输出:[4,3,2,2]解释:输入数组表示数字4321。思路及实现方式一：反转数组后逐位相加思路首先，将数组反
【LGR-196-Div.4】洛谷入门赛 #26 题A - H 详细题解--优化思路简洁代码(C++,Python语言描述) 多思考少编码洛谷入门赛题解算法 c++python 开发语言
前言:觉得这个比赛很有意思的，都是暴力题，涉及一些细节，难度比较适合刚学编程语言的，可以很好的锻炼基础还有手速，最后两题也是比较有意思，之后也准备更新atc的比赛题解和洛谷的一些高质量比赛题解（算法网瘾就是想参加各种比赛）如果觉得有帮助，或者觉得我写的好，可以点个赞或关注，也可以看看我的一些其他文章，我之后也会更新一些基础算法详细解释比赛链接:【LGR-196-Div.4】洛谷入门赛#26-洛谷|
程序代码篇---Python日志输出 Ronin-Lotus 程序代码篇 python 学习数据挖掘模块测试性能优化安全架构人机交互
文章目录前言Python日志输出python的logging日志库模块（一）日志级别：1.DEBUG2.INFO3.WARNING4.ERROR5.CRITICAL（二）logging模块中四个核心组成组件1.Logger2.Handler3.Formatter4.Level5.实例6.RotatingFileHandler日志处理器总结前言本文仅仅简单介绍了Python中日志输出管理。Pytho
python，如何设置和读取文件的路径，详细版资源存储库算法笔记 python 开发语言
目录python，如何设置和读取文件的路径，详细版1.路径的基本概念2.设置路径手动指定路径使用os和pathlib模块1.使用os.path2.使用pathlib3.文件读取和写入文本文件的读取文本文件的写入逐行读取4.检查文件和目录是否存在5.获取和设置当前工作目录6.处理跨平台路径总结python，如何设置和读取文件的路径，详细版在Python中，设置和读取文件路径是一个常见任务。以下是详细
Python 获取字典的值：全面指南 egzosn python java 服务器前端 linux
字典(dict)是Python中一个强大的数据结构，用于存储键值对。无论是处理JSON数据，还是设计复杂的配置文件，字典都无处不在。本文将全面介绍在Python中获取字典值的各种方法，通过多个详细的代码示例，帮助你掌握如何在不同场景下灵活操作字典。一、字典基础知识在Python中，字典使用花括号{}定义，其键必须是不可变的(如字符串、数字或元组)，值可以是任意类型。以下是一个简单的字典示例：登录后
简单线性插值去马赛克算法的Python实现大DA_辉 ISP图像处理_python python 计算机视觉人工智能
在图像处理领域中，去马赛克（Demosaicing）是一项关键技术，用于从单色彩滤波阵列（CFA）图像恢复全彩图像。本文将介绍一种简单的线性插值去马赛克算法，并将其从MATLAB代码转换为Python代码。最终结果将展示如何从Bayer格式的图像数据恢复出RGB全彩图像。什么是马赛克图像？马赛克图像是一种通过在传感器上覆盖彩色滤光片阵列（CFA）生成的单通道图像。最常见的CFA模式是Bayer模式
SCALA学习手册.pdf(JasonSwartz) zxfxghfd scala 学习 pdf
书:python33com(<----web)Scala概述：“Scala是‘可扩展语言’（SCAlableLanguage）的缩写，于2003年创建，为JVM平台上的函数式编程以及面向对象编程提供一个高性能开发环境。”值与变量：“值（val）是不可变、有类型的存储单元；变量（var）是可变、有类型的存储单元。”数据类型与转换：“Scala支持多种数据类型，包括Byte、Short、Int、Lon
numpy1.19.4与python3.9版本冲突解决 weixin_47154407
numpy1.19.4与python3.9版本冲突解决一、问题分析runtimeError:packagefailstopassasanitycheck解决方法如下：解决一：使用python3.9和numpy1.19.4时会发生此错误，卸载numpy1.19.4并安装1.19.3,即可解决此问题使用pipuninstallnumpy再安装numpy1.19.3版本即可，使用如下命令卸载命令：pip
成功解决：ssl报错：pip is configured with locations that require TLS/SSL, however the ssl module in Python i 兰若姐姐安装教程报错解决工具使用专栏 ssl pip python
1、下载安装openssl#执行下载命令sudowgetwgethttps://www.openssl.org/source/openssl-3.0.7.tar.gz#解压tar-zxvfopenssl-3.0.7
tf.function-＞ AttributeError: ‘double‘ object has no attribute ‘shape‘ 乔宇同学学习tensorflow
跑tensorflow时出现的bug,不使用tf.function没问题，一旦挂上装饰符，就报错，报错内容如下：Traceback(mostrecentcalllast):File"D:\Anaconda3\envs\tensorflow2\lib\site-packages\tensorflow_core\python\eager\function.py",line111,in_make_inp
GAN在图像增强中的应用实战指南码字仙子
本文还有配套的精品资源，点击获取简介：图像增强技术通过算法改善图像质量，GAN作为一种生成对抗网络，在此领域具有重要应用。通过生成器和判别器的对抗性训练，GAN可以生成逼真图像、修复低质量图像、扩增数据集并进行风格迁移。本项目将介绍如何使用Python及其相关库实现GAN图像增强，包括模型的构建、训练和评估。通过项目案例学习，你可以掌握GAN在图像增强中的实际应用，提高图像处理和深度学习的技能。1
pythonnumpy库离线安装_linux Python2.7 离线安装pip、numpy、scipy、sklearn等 weixin_39974932
服务器是离线的，只能离线安装安装pip1.先安装setuptools下载地址：https://pypi.python.org/pypi/setuptools#downloads将下载后的文件解压，进入到解压后的文件所在的目录执行命令：pythonsetup.pyinstall2安装pip下载地址：https://pypi.python.org/pypi/pip#downloads将下载后的文件解压
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
python3.9安装numpy+mky_windows下python 3.9 Numpy scipy和matlabplot的安装教程详解 Madmoiselle.may
学习python过程中想使用python的matlabplot绘图功能，遇到了一大批问题，然后一路过关斩将，最终安装成功，实为不易，发帖留念。1首先打开cmdwin+r2pip安装pip3install--usernumpyscipymatplotlib–user选项可以设置只安装在当前的用户下，而不是写入到系统目录。默认情况使用国外线路，国外太慢，我们使用清华的镜像就可以:pip3install
黑客常备十大编程语言，每一个都不容易学，但每一个又很有用一秋的编程笔记 Python 编程计算机科技数据库 sql 爬虫 python 自动化编程语言
文章目录1、C语言2、Python3、SQL4、Javascript5、PHP6、C++编程7、JAVA8、Ruby9、Perl10、BashPython学习资源分享1、Python所有方向的学习路线2、学习软件3、精品书籍4、入门学习视频5、实战案例6、清华编程大佬出品《漫画看学Python》7、Python副业兼职与全职路线一定要注意，您选择的编程将在很大程度上取决于您要定位的系统类型和计划使
关于python装numpy这些 danpengxie python numpy
弄了2个版本的，2.7和最新的3.6版本。步骤是一样的,每次要的二进制文件http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy找准了二进制文件，其下载在python的script文件夹下.然后命令截个图怕忘了（乖乖下载二进制文件，不要pipinstall.反正一会pip直接install，一会用二进制装会错的）现在装了2版本用py-2和py-3去调用
Python连接券商API有哪些步骤？需要掌握哪些关键技术与知识？股票程序化交易接口量化交易股票API接口 Python股票量化交易 python 券商api 连接步骤关键技术股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>API的概念与功能API即应用程序接口，券商API是券商提供给外部开发者的接口。它就像是一座桥梁，使得外部程序能够与券商的交易系统进行交互。通过这个接口，可以获取市场数据，如股票价格、成交量等信息，还能够进行交易操作，像下单买卖股票等
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
python 安装scipy Half0pen linux machine learning
之前安装pybrain,fann2要用到scipy,numpy但是用pip并没有安装成功sudoapt-getinstallpython-numpypython-scipypython-matplotlib安装成功==
【Python学习】科学计算工具包SciPy-安装配置墨夶 Python学习资料 python 学习 scipy
SciPy安装与配置指南SciPy是一个基于Python的科学计算库，广泛应用于数学、科学和工程领域。它建立在NumPy库的基础上，提供了丰富的数学和科学计算工具。本文将详细介绍如何在不同环境下安装和配置SciPy。1.前提条件在安装SciPy之前，确保你的系统已经安装了Python和pip。你可以通过以下命令检查Python是否已经安装：python--version如果输出类似于Python3
遗传算法神罗天征666 c++整理算法
遗传算法（GA）一、什么是遗传算法？遗传算法（GeneticAlgorithm，GA）是一类模仿生物进化过程的搜索启发式算法。它们是由约翰·霍兰德（JohnHolland）在20世纪70年代初提出的。遗传算法通过自然遗传机制（如选择、交叉、变异等）的模拟，对问题的潜在解进行进化，以期找到或逼近最优解。基本原理是类比达尔文进化论—“物竞天择，适者生存”其实很好理解，学过生物的都知道达尔文进化论的大概
Python 3.9 兼容的 NumPy 版本 Distantfbc python numpy
了解与Python3.9兼容的NumPy版本。根据搜索结果，以下是一些与Python3.9兼容的NumPy版本：NumPy1.21.1：这是一个与Python3.9兼容的NumPy版本。您可以通过运行以下命令来安装这个版本的NumPy：pipinstallnumpy==1.21.1NumPy1.26.0：根据版本对应关系表，NumPy1.26.0兼容Python3.9到Python3.12。您可以
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc