HappyGirl快乐女孩

数据分析岗_面试题整理总结

偏统计理论知识

1. 扑克牌54张，平均分成2份，求这2份都有2张A的概率。

M表示两个牌堆各有2个A的情况：M=4(25!25!)
N表示两个牌堆完全随机的情况：N=27!27!
所以概率为：M/N = 926/53*17

2.男生点击率增加，女生点击率增加，总体为何减少?

因为男女的点击率可能有较大差异，同时低点击率群体的占比增大。
如原来男性20人，点击1人；女性100人，点击99人，总点击率100/120。
现在男性100人，点击6人；女性20人，点击20人，总点击率26/120。
即那个段子“A系中智商最低的人去读B，同时提高了A系和B系的平均智商。”

3. 参数估计

用样本统计量去估计总体的参数。
可参考参数估计-矩估计和极大似然估计概述_六月麦茬的博客-CSDN博客_矩估计和极大似然估计

4. 假设检验

参数估计和假设检验是统计推断的两个组成部分，它们都是利用样本对总体进行某种推断，但推断的角度不同。
参数估计讨论的是用样本估计总体参数的方法，总体参数μ在估计前是未知的。
而在假设检验中，则是先对μ的值提出一个假设，然后利用样本信息去检验这个假设是否成立。
可参考统计学假设检验中 p 值的含义具体是什么？ - 知乎

5. 置信度、置信区间

置信区间是我们所计算出的变量存在的范围，之心水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。
举例来讲，有95%的把握，真正的数值在我们所计算的范围里。
在这里，95%是置信水平，而计算出的范围，就是置信区间。
如果置信度为95%，则抽取100个样本来估计总体的均值，由100个样本所构造的100个区间中，约有95个区间包含总体均值。

可参考如何通俗地解释「置信区间」和「置信水平」？

6. 协方差与相关系数的区别和联系。

协方差：
协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。
相关系数：
研究变量之间线性相关程度的量，取值范围是[-1,1]。相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差。

可参考新浪博客

7. 中心极限定理

中心极限定理定义：
（1）任何一个样本的平均值将会约等于其所在总体的平均值。
（2）不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的平均值周围，并且呈正态分布。
中心极限定理作用：
（1）在没有办法得到总体全部数据的情况下，我们可以用样本来估计总体。
（2）根据总体的平均值和标准差，判断某个样本是否属于总体。

可参考怎样理解和区分中心极限定理与大数定律？ - 知乎

8. p值的含义。

基本原理只有3个： 1、一个命题只能证伪，不能证明为真 2、在一次观测中，小概率事件不可能发生 3、在一次观测中，如果小概率事件发生了，那就是假设命题为假
证明逻辑就是：我要证明命题为真->证明该命题的否命题为假->在否命题的假设下，观察到小概率事件发生了->否命题被推翻->原命题为真->搞定。
结合这个例子来看：证明A是合格的投手-》证明“A不是合格投手”的命题为假-》观察到一个事件（比如A连续10次投中10环），而这个事件在“A不是合格投手”的假设下，概率为p，小于0.05->小概率事件发生，否命题被推翻。

可以看到p越小-》这个事件越是小概率事件-》否命题越可能被推翻-》原命题越可信

--
作者：吉米多维奇
链接：统计学假设检验中 p 值的含义具体是什么？ - 知乎

9.时间序列分析

是同一现象在不同时间上的相继观察值排列而成的序列。

9.怎么向小孩子解释正态分布

（随口追问了一句小孩子的智力水平，面试官说七八岁，能数数）

拿出小朋友班级的成绩表，每隔2分统计一下人数（因为小学一年级大家成绩很接近），画出钟形。然后说这就是正态分布，大多数的人都集中在中间，只有少数特别好和不够好
拿出隔壁班的成绩表，让小朋友自己画画看，发现也是这样的现象
然后拿出班级的身高表，发现也是这个样子的
大部分人之间是没有太大差别的，只有少数人特别好和不够好，这是生活里普遍看到的现象，这就是正态分布

10. 下面对于“预测变量间可能存在较严重的多重共线性”的论述中错误的是？

A. 回归系数的符号与专家经验知识不符（对）
B. 方差膨胀因子（VIF）<5（错，大于10认为有严重多重共线性）
C. 其中两个预测变量的相关系数>=0.85（对）
D. 变量重要性与专家经验严重违背（对）

11. PCA为什么要中心化？PCA的主成分是什么？

因为要算协方差。
单纯的线性变换只是产生了倍数缩放，无法消除量纲对协方差的影响，而协方差是为了让投影后方差最大。
在统计学中，主成分分析（PCA）是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。
主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上处理降维的一种方法。主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Va（rF1）越大，表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现再F2中，用数学语言表达就是要求Cov（F1,F2）=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

15. 极大似然估计

利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。
参考极大似然估计详解_知行流浪的博客-CSDN博客_极大似然估计

偏业务思维逻辑

1. 不用任何公开参考资料，估算今年新生儿出生数量。

采用两层模型（人群画像x人群转化）：新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率

（一般面试中采用这种方法，即费米估计问题，可以参考《这也能想到?——巧妙解答无厘头问题》）

从数字到数字：如果有前几年新生儿出生数量数据，建立时间序列模型（需要考虑到二胎放开的突变事件）进行预测
找先兆指标，如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。Xn/新生儿n为该年新生儿家庭用户的转化率，如X2007/新生儿2007为2007年新生儿家庭用户的转化率。该转化率会随平台发展而发展，可以根据往年数量推出今年的大致转化率，并根据今年新增新生儿家庭用户数量推出今年估计的新生儿数量。

2. 如果次日用户留存率下降了 5%该怎么分析？

首先采用“两层模型”分析：对用户进行细分，包括新老、渠道、活动、画像等多个维度，然后分别计算每个维度下不同用户的次日留存率。通过这种方法定位到导致留存率下降的用户群体是谁。
对于目标群体次日留存下降问题，具体情况具体分析。具体分析可以采用“内部-外部”因素考虑。
a. 内部因素分为获客（渠道质量低、活动获取非目标用户）、满足需求（新功能改动引发某类用户不满）、提活手段（签到等提活手段没达成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等）；
b. 外部因素采用PEST分析（宏观经济环境分析），政治（政策影响）、经济（短期内主要是竞争环境，如对竞争对手的活动）、社会（舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好变化）、技术（创新解决方案的出现、分销渠道变化等）。

3. 卖玉米如何提高收益？价格提高多少才能获取最大收益？

收益 = 单价*销售量，那么我们的策略是提高单位溢价或者提高销售规模。
- 提高单位溢价的方法：
  （1）品牌打造获得长期溢价，但缺陷是需要大量前期营销投入；
  （2）加工商品占据价值链更多环节，如熟玉米、玉米汁、玉米蛋白粉；重定位商品，如礼品化等；
  （3）价格歧视，根据价格敏感度对不同用户采用不同定价。
- 销售量=流量x转化率，上述提高单位溢价的方法可能对流量产生影响，也可能对转化率产生影响。
收益 = 单价x流量x转化率，短期内能规模化采用的应该是进行价格歧视，如不同时间、不同商圈的玉米价格不同，采取高定价，然后对价格敏感的用户提供优惠券等。

4. 类比到头条的收益，头条放多少广告可以获得最大收益，不需要真的计算，只要有个思路就行。

收益 = 出价x流量x点击率x有效转化率，放广告的数量会提高流量，但会降低匹配程度，因此降低点击率。最大收益是找到这个乘积的最大值，是一个有约束条件的最优化问题。
同时参考价格歧视方案，可以对不同的用户投放不同数量的广告。

5.APP激活量的来源渠道很多，怎样对来源渠道变化大的进行预警？

如果渠道使用时间较长，认为渠道的app激活量满足一个分布，比较可能是正态分布。求平均值和标准差，对于今日数值与均值差大于3/2/1个标准差的渠道进行预警。
对于短期的新渠道，直接与均值进行对比。

6.用户刚进来APP的时候会选择属性，怎样在保证有完整用户信息的同时让用户流失减少？

采用技术接受模型（TAM）来分析，影响用户接受选择属性这件事的主要因素有：

技术接受模型提出了两个主要的决定因素：
①感知的有用性(perceived usefulness)，反映一个人认为使用一个具体的系统对他工作业绩提高的程度；
②感知的易用性(perceived ease of use)，反映一个人认为容易使用一个具体的系统的程度。

（1）感知有用性：
a. 文案告知用户选择属性能给用户带来的好处
（2）感知易用性：
a. 关联用户第三方账号（如微博），可以冷启动阶段匹配用户更有可能选择的属性，推荐用户选择。
b. 交互性做好。
（3）使用者态度：用户对填写信息的态度
a. 这里需要允许用户跳过，后续再提醒用户填写
b. 告知用户填写的信息会受到很好的保护
（4）行为意图：用户使用APP的目的性，难以控制
（5）外部变量：如操作时间、操作环境等，这里难以控制

7.如何识别作弊用户（爬虫程序，或者渠道伪造的假用户）

分类问题可以用机器学习的方法去解决，下面是我目前想到的特征：
（1）渠道特征：渠道、渠道次日留存率、渠道流量以及各种比率特征
（2）环境特征：设备（一般伪造假用户的工作坊以低端机为主）、系统（刷量工作坊一般系统更新较慢）、wifi使用情况、使用时间、来源地区、ip是否进过黑名单
（3）用户行为特征：访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转行为（假用户的行为要么过于一致，要么过于随机）、页面使用行为（正常用户对图片的点击也是有分布的，假用户的行为容易过于随机）
（4）异常特征：设备号异常（频繁重置idfa）、ip异常（异地访问）、行为异常（突然大量点击广告、点赞）、数据包不完整等

8.怎么做恶意刷单检测?

分类问题用机器学习方法建模解决，我想到的特征有：
（1）商家特征：商家历史销量、信用、产品类别、发货快递公司等
（2）用户行为特征：用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号
（3）环境特征（主要是避免机器刷单）：地区、ip、手机型号等
（4）异常检测：ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等
（5）评论文本检测：刷单的评论文本可能套路较为一致，计算与已标注评论文本的相似度作为特征
（6）图片相似度检测：同理，刷单可能重复利用图片进行评论

9.一个网站销售额变低，你从哪几个方面去考量？

首先要定位到现象真正发生的位置，到底是谁的销售额变低了？这里划分的维度有：
a. 用户（画像、来源地区、新老、渠道等）
b. 产品或栏目
c. 访问时段
定位到发生未知后，进行问题拆解，关注目标群体中哪个指标下降导致网站销售额下降：
a. 销售额=入站流量x下单率x客单价
b. 入站流量 = Σ各来源流量x转化率
c. 下单率 = 页面访问量x转化率
d. 客单价 = 商品数量x商品价格
确定问题源头后，对问题原因进行分析，如采用内外部框架：
a. 内部：网站改版、产品更新、广告投放
b. 外部：用户偏好变化、媒体新闻、经济坏境、竞品行为等

10.用户流失的分析，新用户流失和老用户流失有什么不同？

（1）用户流失分析：

两层模型：细分用户、产品、渠道，看到底是哪里用户流失了。注意由于是用户流失问题，所以这里细分用户时可以细分用户处在生命周期的哪个阶段。
指标拆解：用户流失数量 = 该群体用户数量*流失率。拆解，看是因为到了这个阶段的用户数量多了（比如说大部分用户到了衰退期），还是这个用户群体的流失率比较高
内外部分析：
a. 内部：新手上手难度大、收费不合理、产品服务出现重大问题、活动质量低、缺少留存手段、用户参与度低等
b. 外部：市场、竞争对手、社会环境、节假日等

（2）新用户流失和老用户流失有什么不同：

新用户流失：原因可能有非目标用户（刚性流失）、产品不满足需求（自然流失）、产品难以上手（受挫流失）和竞争产品影响（市场流失）。
新用户要考虑如何在较少的数据支撑下做流失用户识别，提前防止用户流失，并如何对有效的新用户进行挽回。
老用户流失：原因可能有到达用户生命周期衰退期（自然流失）、过度拉升arpu导致低端用户驱逐（刚性流失）、社交蒸发难以满足前期用户需求（受挫流失）和竞争产品影响（市场流失）。
老用户有较多的数据，更容易进行流失用户识别，做好防止用户流失更重要。当用户流失后，要考虑用户生命周期剩余价值，是否需要进行挽回。
（参考@王玮的回答：如何进行用户流失原因调研？ - 知乎）

11.GMV升了20%怎么分析？

（我噼里啪啦分析了一通面试官笑嘻嘻地告诉我是数据错了，因为面试较紧张没有意识到这个问题，现在想想真是个大坑啊）

参考该面试者经验，应该先估算一下数字有没有问题
同样的套路：
（1）两层模型：进行用户群体、产品、渠道细分，发现到底是谁的GMV提升了
（2）指标拆解：将GMV拆解成乘法模型，如GMV=广告投放数量广告点击率产品浏览量放入购物车率交易成功率*客单价，检查哪一步有显著变化导致了GMV上升
（3）内外部分析：
a. 内部：网站、产品、广告投放、活动等
b. 外部：套PEST等框架也行，或者直接分析也行，注意MEMC即可

这一题要注意，GMV流水包括取消的订单金额和退货/拒收的订单金额，还有一种原因是商家刷单然后退货，虽然GMV上去了，但是实际成交量并没有那么多。

11.如果现在有个情景，我们有一款游戏收入下降了，你怎么分析。

两层模型：细分用户、渠道、产品，看到底是哪里的收入下降了
指标拆解：收入 = 玩家数量 * 活跃占比 * 付费转化率 * 付费次数 * 客单价
进一步细分，如玩家数量 = 老玩家数量 * 活跃度 + 新玩家数量 * 留存率等。然后对各个指标与以往的数据进行对比，发现哪些环节导致收入下降
原因分析：
a. 内部：产品变化、促活活动、拉新活动、定价策略、运营策略、服务器故障等
b. 外部：用户偏好变化、市场环境变化、舆论环境变化、竞争对手行为、外部渠道变化等
如何提高：基于乘法模型，可以采用上限分析，从前往后依次将指标提升到投入足够精力（假设优先分配人力、经费与渠道）后的上限，然后分析“收入”指标的数值提升。找到数值提升最快的那个阶段，就是我们提高收入的关键任务

12.现在有一个游戏测试的环节，游戏测试结束后需要根据数据提交一份PPT，这个PPT你会如何安排？包括什么内容？

这里可以套AARRR模型：

获取用户（Acquisition）
提高活跃度（Activation）
提高留存率（Retention）
获取收入（Revenue）
自传播（Refer）

获取：我们的用户是谁？用户规模多大？
a. 用户分层
激活：游戏是否吸引玩家？哪个渠道获取的用户有质量（如次日留存高、首日停留时间长等）？
留存：用户能否持续留存？哪些用户可以留存？
转化：用户的游戏行为如何？能否进行转化？能否持续转化？
自传播：用户是否会向他人推荐该游戏？哪种方式能有效鼓励用户推荐该游戏？传播k因子是否大于1？

13.比如你对楼市不熟悉，现在要你去做一个像58同城之类的，卖房的中介，电商，你会如何进行分析。

（1）商业模式分析：中介做的是双边市场生意，通过解决市场信息不对称下的信息流动问题，降低买方和卖方的交易成本，从而创造盈利空间
（2）需求分析：
a. 买方需求分析：低价买好房，对时间的需求有快的和慢的
b. 卖方需求分析：房子卖高价，对时间的需求有快的和慢的
（3）进入条件分析（套SWOT分析法（态势分析法）也行）：
a. 自身条件
b. 竞争对手
c. 市场增长规模
（4）进入策略分析：
a. 自身目标
b. 目标拆解
c. 分析目标达成的可能性，预估将来一段时间，好/正常/坏条件下的目标达成情况
d. 得出结论：是否进入该市场

14. 某业务部门在上周结束了为期一周的大促，作为业务对口分析师，需要你对活动进行一次评估，你会从哪几方面进行分析?

（1）确定大促的目的：拉新？促活？清库存？
（2）根据目的确定核心指标。
（3）效果评估：
a. 自身比较：活动前与活动中比较
b. 与预定目标比
c. 与同期其它活动比
d. 与往期同类活动比
（4）持续监控：
a. 检查活动后情况，避免透支消费情况发生
b. 如果是拉新等活动，根据后续数据检验这批新客的质量

偏机器学习、数据挖掘

1. 给你一个无序数组，怎么才能合理采样？

无序数组是相对有序数组而言的，无序数组并不等于随机，我们要做的是将无序数组洗牌，得到随机排列。
对于无序数组，n个元素能产生n！种排序。如果洗牌算法能产生n！种不同的结果，并且这些结果产生的概率相等，那么这个洗牌算法是正确的。
方法：for i in range(len(n)): swap(arr[i], arr[random(i,n)])
这段代码是对随机确定数组第一位的值，然后递归对剩余的数组进行相同的过程，可以产生n！中等可能的排序情况。

参考资料：数组随机打乱洗牌排序_rtian001的博客-CSDN博客；数组的完全随机排列算法_Jiang_zzz的博客-CSDN博客_随机排列算法

2. 常用的Python库有哪些?

numpy：矩阵运算
sklearn：常用机器学习和数据挖掘工具库
scipy：基于numpy做高效的数学计算，如积分、线性代数、稀疏矩阵等
pandas：将数据用表的形式进行操作
matplotlib：数据可视化工具
seaborn：数据可视化工具
keras/tensorflow/theano：深度学习工具包
NLTK：自然语言处理工具包
beautifulsoap：网页文档解析工具

3. 行存储和列存储的区别。

（1）行存储：传统数据库的存储方式，同一张表内的数据放在一起，插入更新很快。缺点是每次查询即使只涉及几列，也要把所有数据读取.
（2）列存储：OLAP等情况下，将数据按照列存储会更高效，每一列都可以成为索引，投影很高效。缺点是查询是选择完成时，需要对选择的列进行重新组装。
“当你的核心业务是 OLTP 时，一个行式数据库，再加上优化操作，可能是个最好的选择。
当你的核心业务是 OLAP 时，一个列式数据库，绝对是更好的选择”

参考：列式存储和行式存储的区别_qq_26091271的博客-CSDN博客_列式存储与行式存储；为什么列存储数据库读取速度会比传统的行数据库快？ - 知乎

4.K-Means算法原理及改进，遇到异常值怎么办？评估算法的指标有哪些？

k-means原理：
在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。
改进：
a. kmeans++：初始随机点选择尽可能远，避免陷入局部解。方法是n+1个中心点选择时，对于离前n个点选择到的概率更大
b. mini batch kmeans：每次只用一个子集做重入类并找到类心（提高训练速度）
c. ISODATA：对于难以确定k的时候，使用该方法。思路是当类下的样本小时，剔除；类下样本数量多时，拆分
d. kernel kmeans：kmeans用欧氏距离计算相似度，也可以使用kernel映射到高维空间再聚类
遇到异常值：
a. 有条件的话使用密度聚类或者一些软聚类的方式先聚类，剔除异常值。不过本来用kmeans就是为了快，这么做有些南辕北辙了
b. 局部异常因子LOF：如果点p的密度明显小于其邻域点的密度，那么点p可能是异常值
（参考：异常点/离群点检测算法——LOF_wangyibo0201的博客-CSDN博客_离群点检测的lof算法）
c. 多元高斯分布异常点检测
d. 使用PCA或自动编码机进行异常点检测：使用降维后的维度作为新的特征空间，其降维结果可以认为剔除了异常值的影响（因为过程是保留使投影后方差最大的投影方向）
e. isolation forest：基本思路是建立树模型，一个节点所在的树深度越低，说明将其从样本空间划分出去越容易，因此越可能是异常值。是一种无监督的方法，随机选择n个sumsampe，随机选择一个特征一个值。
（参考：Isolation Forest算法原理详解_JeemyJohn的博客-CSDN博客_isolationforest算法）
f. winsorize：对于简单的，可以对单一维度做上下截取
评估聚类算法的指标：
a. 外部法（基于有标注）：Jaccard系数、纯度
b. 内部法（无标注）：内平方和WSS和外平方和BSS
c. 此外还要考虑到算法的时间空间复杂度、聚类稳定性等

5.数据预处理过程有哪些？

缺失值处理：删、插
异常值处理
特征转换：时间特征sin化表示
标准化：最大最小标准化、z标准化等
归一化：对于文本或评分特征，不同样本之间可能有整体上的差异，如a文本共20个词，b文本30000个词，b文本中各个维度上的频次都很可能远远高于a文本
离散化：onehot、分箱等

6. 随机森林原理？有哪些随机方法？

随机森林原理：通过构造多个决策树，做bagging以提高泛化能力
subsample（有放回抽样）、subfeature、低维空间投影（特征做组合，参考林轩田的《机器学习基石》）

7. PCA（主成分分析）

主成分分析是一种降维的方法
思想是将样本从原来的特征空间转化到新的特征空间，并且样本在新特征空间坐标轴上的投影方差尽可能大，这样就能涵盖样本最主要的信息
方法：
a. 特征归一化
b. 求样本特征的协方差矩阵A
c. 求A的特征值和特征向量，即AX=λX
d. 将特征值从大到小排列，选择topK，对应的特征向量就是新的坐标轴（采用最大方差理论解释，参考：https://blog.csdn.net/huang1024rui/article/details/46662195）
PCA也可以看成激活函数为线性函数的自动编码机（参考林轩田的《机器学习基石》第13课，深度学习）

8. hive？spark？sql？ nlp？

Hive允许使用类SQL语句在hadoop集群上进行读、写、管理等操作
Spark是一种与hadoop相似的开源集群计算环境，将数据集缓存在分布式内存中的计算平台，每轮迭代不需要读取磁盘的IO操作，从而答复降低了单轮迭代时间

9. Linux基本命令

目录操作：ls、cd、mkdir、find、locate、whereis等
文件操作：mv、cp、rm、touch、cat、more、less
权限操作：chmod+rwx421
账号操作：su、whoami、last、who、w、id、groups等
查看系统：history、top
关机重启：shutdown、reboot
vim操作：i、w、w!、q、q!、wq等

10. NVL函数

是oracle的一个函数
NVL( string1, replace_with)，如果string1为NULL，则NVL函数返回replace_with的值，否则返回原来的值

11. LR

用于分类问题的线性回归
采用sigmoid对输出值进行01转换
采用似然法求解
手推
优缺点局限性
改进空间

12. sql中null与‘ ’的区别。

null表示空，用is null判断
''表示空字符串，用=''判断

13. 数据库与数据仓库的区别。

简单理解下数据仓库是多个数据库以一种方式组织起来
数据库强调范式，尽可能减少冗余
数据仓库强调查询分析的速度，优化读取操作，主要目的是快速做大量数据的查询
数据仓库定期写入新数据，但不覆盖原有数据，而是给数据加上时间戳标签
数据库采用行存储，数据仓库一般采用列存储（行存储与列存储区别见题3）
数据仓库的特征是面向主题、集成、相对稳定、反映历史变化，存储数历史数据；数据库是面向事务的，存储在线交易数据
数据仓库的两个基本元素是维表和事实表，维是看待问题的角度，比如时间、部门等，事实表放着要查询的数据

14. SQL的数据类型。

字符串：char、varchar、text
二进制串：binary、varbinary
布尔类型：boolean
数值类型：integer、smallint、bigint、decimal、numeric、float、real、double
时间类型：date、time、timestamp、interval

15. 分类算法性能的主要评价指标。

查准率、查全率、F1
AUC
LOSS
Gain和Lift
WOE和IV

16. 数据缺失怎么办

删除样本或删除字段
用中位数、平均值、众数等填充
插补：同类均值插补、多重插补、极大似然估计
用其它字段构建模型，预测该字段的值，从而填充缺失值（注意：如果该字段也是用于预测模型中作为特征，那么用其它字段建模填充缺失值的方式，并没有给最终的预测模型引入新信息）
onehot，将缺失值也认为一种取值
压缩感知及矩阵补全

17. GBDT（梯度提升树）

首先介绍Adaboost Tree，是一种boosting的树集成方法。基本思路是依次训练多棵树，每棵树训练时对分错的样本进行加权。树模型中对样本的加权实际是对样本采样几率的加权，在进行有放回抽样时，分错的样本更有可能被抽到
GBDT是Adaboost Tree的改进，每棵树都是CART（分类回归树），树在叶节点输出的是一个数值，分类误差就是真实值减去叶节点的输出值，得到残差。GBDT要做的就是使用梯度下降的方法减少分类误差值。
在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)，让本轮的损失损失L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。
GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。
（参考：梯度提升树(GBDT)原理小结 - 刘建平Pinard - 博客园）
得到多棵树后，根据每颗树的分类误差进行加权投票

18. 如何避免决策树过拟合？

限制树深
剪枝
限制叶节点数量
正则化项
增加数据
bagging（subsample、subfeature、低维空间投影）
数据增强（加入有杂质的数据）
早停

19.SVM的优缺点

优点：
a. 能应用于非线性可分的情况
b. 最后分类时由支持向量决定，复杂度取决于支持向量的数目而不是样本空间的维度，避免了维度灾难
c. 具有鲁棒性：因为只使用少量支持向量，抓住关键样本，剔除冗余样本
d. 高维低样本下性能好，如文本分类
缺点：
a. 模型训练复杂度高
b. 难以适应多分类问题
c. 核函数选择没有较好的方法论

20. 统计教授多门课老师数量并输出每位老师教授课程数统计表。

解：设表class中字段为id，teacher，course

统计教授多门课老师数量
select count( * )
from class
group by teacher
having count( * ) > 1
输出每位老师教授课程数统计
select teacher, count(course) as count_course
from class
group by teacher

21. 有uid，app名称，app类别，数据百亿级别，设计算法算出每个app类别只安装了一个app的uid总数。

小数据量的话直接查询：

select b.apptype,count(b.uid)
from
    (select uid, apptype, count(appname) as num
    from app_info
    group by uid,apptype
    having count(appname) = 1
    )b
group by b.apptype

大数据量下（没用过hadoop不太清楚，望大家指正）
a. 原始文件可以拼接为uid-app-categroy
b. map阶段形成的是
c. reduce阶段统计key为“uid-category”的count数量
d. 只保留count为1的数据
e. 剩下的数据量直接统计uid出现次数=category类别数的数据

22. 请说明随机森林较一般决策树稳定的几点原因.

bagging的方法，多个树投票提高泛化能力
bagging中引入随机（参数、样本、特征、空间映射），避免单棵树的过拟合，提高整体泛化能力

23. 什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。

聚类分析是一种无监督的学习方法，根据一定条件将相对同质的样本归到一个类总。
聚类方法主要有：
a. 层次聚类
b. 划分聚类：kmeans
c. 密度聚类
d. 网格聚类
e. 模型聚类：高斯混合模型
k-means比较好介绍，选k个点开始作为聚类中心，然后剩下的点根据距离划分到类中；找到新的类中心；重新分配点；迭代直到达到收敛条件或者迭代次数。优点是快；缺点是要先指定k，同时对异常值很敏感。

24. 余弦距离与欧式距离求相似度的差别。

欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异。
余弦距离更多的是从方向上区分差异，而对绝对的数值不敏感，更多的用于使用用户对内容评分来区分兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题（因为余弦距离对绝对数值不敏感）。
总体来说，欧氏距离体现数值上的绝对差异，而余弦距离体现方向上的相对差异。
（1）例如，统计两部剧的用户观看行为，用户A的观看向量为(0,1)，用户B为(1,0)；此时二者的余弦距很大，而欧氏距离很小；我们分析两个用户对于不同视频的偏好，更关注相对差异，显然应当使用余弦距离。
（2）而当我们分析用户活跃度，以登陆次数(单位：次)和平均观看时长(单：分钟)作为特征时，余弦距离会认为(1,10)、(10,100)两个用户距离很近；但显然这两个用户活跃度是有着极大差异的，此时我们更关注数值绝对差异，应当使用欧氏距离。

25. 数据清理中，处理缺失值的方法是？

由于调查、编码和录入误差，数据中可能存在一些无效值和缺失值，需要给予适当的处理。常用的处理方法有：估算，整例删除，变量删除和成对删除。

估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单，但没有充分考虑数据中已有的信息，误差可能较大。另一种办法就是根据调查对象对其他问题的答案，通过变量之间的相关分析或逻辑推论进行估计。例如，某一产品的拥有情况可能与家庭收入有关，可以根据调查对象的家庭收入推算拥有这一产品的可能性。
整例删除(casewise deletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值，这种做法的结果可能导致有效样本量大大减少，无法充分利用已经收集到的数据。因此，只适合关键变量缺失，或者含有无效值或缺失值的样本比重很小的情况。
变量删除(variable deletion)。如果某一变量的无效值和缺失值很多，而且该变量对于所研究的问题不是特别重要，则可以考虑将该变量删除。这种做法减少了供分析用的变量数目，但没有改变样本量。
成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值，同时保留数据集中的全部变量和样本。但是，在具体计算时只采用有完整答案的样本，因而不同的分析因涉及的变量不同，其有效样本量也会有所不同。这是一种保守的处理方法，最大限度地保留了数据集中的可用信息。

作者：美美May_
链接：https://www.jianshu.com/p/51c205d7b7b
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

你可能感兴趣的:(大数据,数据库,数据分析,数据挖掘,算法,概率论)

利用图数据库构建问答应用指南 scaFHIO 数据库 oracle python
在本指南中，我们将逐步介绍如何在图数据库上创建问答链。这些系统可以让我们针对图数据库中的数据提出问题，并返回自然语言的答案。⚠️安全提示⚠️构建基于图数据库的问答系统需要执行模型生成的图查询。这其中存在固有风险。确保数据库连接权限范围尽可能地缩小以满足链/代理的需求。这将减轻但不会消除构建模型驱动系统的风险。更多安全实践的信息，请查看这里。架构在高层次上，大多数图链的步骤为：将问题转换为图数据库查
鸿蒙开发API 12 完全解析：核心技术升级与开发实战北辰alk 鸿蒙 harmonyos 华为
文章目录一、API12架构全景图1.1系统架构层次1.2API12核心模块对比二、ArkUI3.0革命性升级2.13D图形能力2.1.13D组件基础结构2.1.2物理引擎集成2.2新增组件库三、分布式能力增强3.1超级终端协同框架3.2分布式数据管理3.2.1跨设备数据库3.2.2设备能力发现四、硬件服务扩展4.1外设统一管理框架4.2新硬件API概览五、安全体系强化5.1安全架构升级5.2关键安
数据分析师的SQL到底应该掌握到什么程度流里流气李 sql mysql 数据库
最近有网站统计了“雇主最想要的技术技能”，其中SQL力压Java、Python等，排名第一，成为雇主们最喜爱的技能。SQL简直是数据岗位心照不宣的“宠儿”。随手翻开网上对于数据分析岗位的要求，我们就会发现，熟悉SQL是必须的任职要求。都知道做数据分析需要学习sql，但在学习的过程中还是不太清楚，应该掌握到什么程度。今天给大家讲一下作为数据分析师：不需要学习的部分、基础部分和进阶部分。首先我们先揭穿
MySQL时间溢出原理、实战影响与全面解决方案 dblens 数据库管理和开发工具 mysql mysql 数据库
一、问题背景与现象复现操作场景：本文将手把手带您了解mysql时间溢出原理、实战影响与全面解决方案，所有代码均通过dblensformysql数据库工具验证，推荐使用该工具进行可视化数据库管理和开发。在MySQL5.7环境中，若通过命令date-s"2038-04-0100:00:00"将系统时间设置为2038年4月1日，观察MySQL的行为。现象总结：timestamp字段溢出：写入2038年后
想成为一名数据分析师，SQL技能需要掌握到什么程度？爱开发V 数据库 mysql java python 编程语言
请问做一名数据分析人员，在sql方面需要掌握到什么程度呢？会增删改查就可以了吗？还是说关于开发的内容也要会？想要成为一名数据分析师，SQL需要掌握到什么程度？对于这个问题，有的初学者可能会被一些资料误导，以为SQL要掌握到数据库管理员的水平，而去学习SQL所有的知识点，最后在学习的过程中发现很难学，学不会，走了不少弯路，有的还因此放弃了。其实对于数据分析师，不同的职位对SQL的要求是完全不一样的。
信号处理应用：电力系统中的信号处理_（9）.基于电力系统信号的数据挖掘技术 kkchenkx 信号处理技术仿真模拟信号处理数据挖掘人工智能
基于电力系统信号的数据挖掘技术1.引言电力系统中的信号处理是一个重要的研究领域，涉及电力系统的监测、故障诊断、状态评估等多个方面。随着大数据和人工智能技术的发展，数据挖掘技术在电力系统中的应用越来越广泛。本节将介绍如何利用数据挖掘技术对电力系统中的信号进行处理和分析，以提高系统的可靠性和效率。2.电力系统中的信号类型在电力系统中，信号可以分为多种类型，包括：电压信号：反映电力系统的电压水平，用于检
Vue 框架深度解析：源码分析与实现原理详解北辰alk vue 前端 vue.js 前端 javascript
文章目录一、Vue核心架构设计1.1整体架构流程图1.2模块职责划分二、响应式系统源码解析2.1核心类关系图2.2核心源码分析2.2.1数据劫持实现2.2.2依赖收集过程三、虚拟DOM与Diff算法实现3.1Diff算法流程图3.2核心Diff源码四、模板编译全流程剖析4.1编译流程图4.2编译阶段源码五、组件系统与生命周期5.1组件初始化流程5.2生命周期源码触发点六、异步更新队列与性能优化6.
智能教育：DeepSeek在课堂管理中的应用与代码实现 Evaporator Core #DeepSeek快速入门系统架构设计师 Python开发经验 deepseek
课堂管理是教育领域的重要组成部分，它直接影响教学效果和学生的学习体验。随着人工智能技术的发展，DeepSeek正在通过其强大的算法和数据处理能力，推动课堂管理的智能化和高效化。本文将结合代码实现，深入探讨DeepSeek在课堂管理中的应用。一、智能课堂管理系统：从数据到实时监控智能课堂管理的核心在于通过实时监控学生的学习行为，提供及时的反馈和调整。DeepSeek通过深度学习算法，能够从课堂数据中
mysql 存储过程和自定义函数详解 angen2018 mysql mysql 数据库
首先创建存储过程或者自定义函数时，都要使用usedatabase切换到目标数据库，因为存储过程和自定义函数都是属于某个数据库的。存储过程是一种预编译的SQL代码集合，封装在数据库对象中。以下是一些常见的存储过程的关键字：存储过程1.存储过程的定义CREATEPROCEDURE:用于创建一个新的存储过程。CREATEPROCEDUREprocedure_name(parameter_list)BEG
CCF-GESP Python一级考试全解析：网络协议+编程技能双突破奕澄羽邦 python 网络协议开发语言
第一章CCF-GESP考试全景透视1.1认证体系权威性中国计算机学会（CCF）主办的GESP编程能力等级认证，是国内首个面向青少年的编程能力标准化评估体系。Python一级考试作为入门级认证，主要考察考生对计算机基础逻辑、编程工具使用及网络基础概念的掌握程度，证书受教育部认可，为后续人工智能、大数据等领域学习奠定基石。1.2考试内容三维度编程语言：Python语法基础（变量、循环、条件判断）、函数
2024年大数据最新图解curator如何实现zookeeper分布式锁_curator 锁(3) 2401_84183802 程序员分布式大数据 zookeeper
三、Zookeeper分布式锁概述1、Zookeeper分布式锁实现思路2、Zookeeper分布式锁解决的问题3、Zookeeper分布式锁优缺点？四、InterProcessMute实现分布式锁原理1、加锁流程（acquire()方法）0）加锁流程图1）internalLock()LockDatainternalLock()方法逻辑2）LockInternals#attemptLock()--
sklearn 支持向量机实践总结可爱的红薯 python sklearn 支持向量机 python sklearn 支持向量机
转自http://www.cnblogs.com/pinard/p/6117515.html之前通过一个系列对支持向量机(以下简称SVM)算法的原理做了一个总结，本文从实践的角度对scikit-learnSVM算法库的使用做一个小结。scikit-learnSVM算法库封装了libsvm和liblinear的实现，仅仅重写了算法了接口部分。1.scikit-learnSVM算法库使用概述sciki
etl 增量对比解决方案 etl-engine 如何实现增量对比
什么是增量对比增量是相对于全量来说的，它们都是处于“同步数据”这个场景中。全量同步实现的逻辑是不管原表与目标表数据是否发生过变量，都要定期将原表数据全部覆盖到目标表，以保证目标表数据的完整性。增量对比实现的逻辑是将原表与目标表的数据通过算法进行对比，然后只将差异数据（增加、删除、修改）同步到目标表，在最小化操作目标表的同时还保证了目标表数据的完整性。增量对比的必要性模拟一个使用场景，业务系统A表中
物联网通过数字孪生技术实现设备状态的实时仿真和优化小赖同学啊智能硬件物联网
数字孪生（DigitalTwin）是一种通过虚拟模型实时映射和仿真物理设备状态的技术。它结合了物联网（IoT）、大数据、人工智能（AI）和仿真技术，能够实现对设备状态的实时监控、预测和优化。以下是数字孪生技术在设备状态实时仿真和优化中的应用及实现路径：一、数字孪生的核心概念1.物理实体实际的设备或系统（如工厂设备、风力发电机、汽车）。2.虚拟模型物理实体的数字化表示，通常包括几何模型、行为模型和数
MySQL SQL语句执行流程详解 AitTech Mysql mysql sql 数据库
一条SQL语句在MySQL中的执行过程是一个复杂而精细的过程，它涉及多个阶段和组件的协同工作。以下是这一过程的详细描述：一、客户端与服务器建立连接身份验证：用户通过客户端（如MySQL命令行工具、MySQLWorkbench、编程语言数据库接口等）向MySQL服务器发送连接请求，该请求包含数据库地址、用户名和密码。服务器端的连接器（Connector）接收请求，并通过用户模块验证用户名和密码的正确
图文详解维感科技3D深度相机在AGV/AMR的应用（一） Vzense ToF 3D 3D ToF深度相机计算机视觉视觉检测
叉式移动机器人(AGV/AMR)介绍叉式移动机器人（AGV/AMR）是在叉车上加载各种导引技术，构建地图算法，辅以避障安全技术，实现叉车的无人化作业。随着行业对自动化搬运的要求越来越高，近两年，融合了堆垛功能与自动化导向搬运的叉式移动机器人受到应用企业青睐。据中国移动机器人（AGV/AMR）产业联盟数据、新战略移动机器人产业研究所统计，2021年中国叉式移动机器人（含视觉导航）销量达8000台，同
面试被问 SQL 注入一脸懵？一文读懂 SQL 注入攻防全攻略大模型大数据攻城狮数据库 sql C++面试 java面试后端面试 sql注入 sql优化
目录SQL注入概述定义与原理常见类型攻击技术指标注入点识别绕过防御机制数据提取方法防范措施参数化查询输入验证与过滤最小权限原则检测与监控漏洞扫描实时监控SQL注入概述定义与原理SQL注入是一种极具破坏力的网络攻击技术。想象一下，Web应用程序就像是一座大厦，而数据库则是大厦里存放重要文件的保险柜。正常情况下，用户通过Web应用程序向数据库发送请求，就如同员工拿着正确的钥匙去保险柜取文件。但攻击者利
【算法】010、合并两个有序链表呆呆的猫算法算法链表数据结构
【算法】010、合并两个有序链表文章目录一、合并两个有序链表1.1思路1.2多语言解法一、合并两个有序链表1.1思路//gopackagemainimport("fmt""strconv")typeListNodestruct{ValintNext*ListNode}func(n*ListNode)String()(ansstring){for;n!=nil;n=n.Next{ans+="=>"a
使用LangChain构建大语言模型(LLM)应用程序: 基础入门 bavDHAUO langchain 语言模型服务器 python
使用LangChain构建大语言模型(LLM)应用程序:基础入门在这个教程中，我们将了解如何使用LangChain快速上手并构建一个基本的大语言模型(LLM)应用。我们将涵盖核心概念、基本实现和应用场景分析。技术背景介绍LangChain是一个强大的框架，旨在帮助开发人员构建涉及LLM的应用程序。从简单的聊天机器人到复杂的数据分析系统，LangChain提供了一整套工具来实现这一目标。核心原理解析
VO DTO DO PO BusyMonkey Java Spring java spring
1、定义VO：ViewObject，视图对象，用于展示层DTO：DataTransferObject，展示层与服务层的数据传输对象DO：DomainObject，领域对象，抽象的业务实体PO：PersistentObject，持久化对象2、VO和DTO的区别数据本质是一样的，比对DTO是没有转义的，数据库字段0、1、2、A、B等。VO则是转以后的开始状态、结束状态，运行状态等
数据库二三事（13）一只鱼玉玉数据库
故障管理四大类故障：事务内部故障，系统故障，介质故障，计算机病毒故障事物内部：分为预期与非预期故障，需要强制回滚事物恢复状态，自动完成且透明系统故障：软故障，因为软件意外导致非正常终止，影响所有事物，导致易失性存储器内容丢失，需要回滚所有未完成事务结果介质故障：硬故障，因为物理意义意外导致数据库数据丢失，采用备份（有局限性）和双物理存储设备，双系统方式进行保存病毒：杀死程序或备份文件恢复重点：建立
什么时候需要做性能测试？海姐软件测试测试工具职场和发展
性能测试是确保系统在高负载、复杂场景下稳定运行的关键环节，通常在以下场景中需要执行性能测试：---###**1.新系统上线或核心功能发布前**-**验证系统容量**：确保系统能承载预期的用户量和业务量（如日活用户、峰值并发）。-**预防生产事故**：提前发现性能瓶颈（如数据库慢查询、内存泄漏），避免上线后崩溃。---###**2.系统架构重大变更时**-**技术升级**：如数据库迁移（MySQL→
构建基于ASP.NET的教务管理系统黃昱儒
本文还有配套的精品资源，点击获取简介：教务管理系统是一个Web应用程序，利用ASP.NET技术为高校和教育机构提供全面的教务管理功能。它包括学生信息管理、课程管理、考试安排和成绩录入等核心模块。系统支持权限控制和数据管理，以确保信息安全和操作便捷。ASP.NET框架使用C#或VB.NET编程，结合.NETFramework、SQLServer或MySQL数据库以及前端技术（HTML、CSS、Jav
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
给求职者的建议：软件工程师追寻向上 python java c语言软件工程
一、编程基础：构建核心能力语言选择与学习首推Python：语法简洁，适合入门。推荐书籍《Python编程：从入门到实践》，重点掌握列表推导、装饰器、文件操作。Java/C++进阶：理解内存管理（如JVM垃圾回收）、多线程编程（synchronized关键字）。推荐《Java核心技术卷Ⅰ》。辅助语言：JavaScript（必学）、Go或Rust（扩展视野）。数据结构与算法基础必刷：数组、链表、哈希表
2025年毕设ssm网上超市论文+源码 SSM毕设程序源码JAVA 课程设计
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于网上超市系统的研究，现有研究主要集中在电子商务平台的设计与开发、供应链管理、以及用户行为分析等领域。尽管这些研究已经取得了一定的成果，但专门针对基于SSM（Spring、SpringMVC、MyBatis）框架的网上超市系统的研究仍相对较少。随着电子商务的蓬勃发展，网上超市
【人工智能基础】生成模型：让数据“无中生有”的神奇魔法 roman_日积跬步-终至千里 #人工智能基础知识人工智能
文章目录一、生成模型的发展脉络二、生成模型的基本原理三、主要生成模型及其逻辑1、生成对抗网络（GAN）2、变分自编码器（VAE）3、扩散模型（DPM）4、基于能量的模型（EBM）5、正规化流（NF）四、生成模型对比分析五、生成模型的应用拓展一、生成模型的发展脉络在深度学习尚未兴起的时期，计算机视觉领域的传统图像生成算法主要依赖纹理合成和纹理映射等技术。这些算法基于手工设计的特征进行图像构建，然而，
笔试题6：销售区域业绩对比 clownAdam 大数据笔试题数据库 sql 大数据面试笔试数据分析
2025年3月某运营商大数据笔试题（真实）并附有解答和解析说明笔试题6销售区域业绩对比：有一份销售业绩数据文件regional_sales.csv，包含字段：region（销售区域）、product_category（产品类别）、sales_amount（销售金额）。请使用SQL完成以下任务：统计每个销售区域各类产品的总销售金额，结果按销售区域和产品类别排序。找出每个销售区域销售金额最高的产品类别
二维码识别OCR接口：开启高效信息提取的新篇章安静的小员 ocr java javascript python 前端后端
前言在数字化时代，二维码作为一种高效的信息传递工具，已经广泛应用于各个领域。而二维码识别OCR接口的出现，更是为企业和开发者提供了一种快速、准确地提取信息的解决方案。技术原理：图像识别与数据解析的完美结合二维码识别OCR接口的核心在于其独特的技术架构。系统首先通过图像采集模块获取二维码图像，经过预处理后，利用定位算法精确识别二维码的位置和角度。随后，解码模块对二维码数据进行解析，最终输出可读的信息
linux网卡绑定和漂移,linux双网卡绑定和防漂移.doc Alysssssa linux网卡绑定和漂移
linux双网卡绑定和防漂移问题：四川Greenplum服务器双网卡绑定，重启后网卡组IP漂移到另一网卡组，掉包率严重，导致gp数据库无法正常使用。处理办法：在/etc/sysconfig/network-scripts/ifcfg-ethx中添加网卡mac地址，使其无论先后启动都不会发生IP漂移。结果：服务器正常工作。处理过程如下：[root@master~]#ifconfig-abond0Li
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "test@gmail.com"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它