轻轻一point

数据分析业务问题

一、如何估算今年新生儿出生数量

首先，这类估算问题会经常出现在数据分析、产品、咨询类岗位，统称为费米问题。分析这类问题可以分别从两个角度展开。根据情况，可以采用 Top down bottom up 法则，即先从宏观层面，自上而下推，再由某个点横向切入，反推上去。或者也可以从需求层面和供给层面来说。然后可以对比两次推测得到的结果，如果相差不悬殊，那基本就没差啦。然后在陈述的时候也可以需要说几句可能会出现误差的影响因素以及对结果的影响，会显得思考更加全面。具体的答案不是要求必须正确，重要的的是分析思路这类练习题不要方，多练练思路，多看看平时的新闻报道，掌握一些基本数据sense 就行。

针对本题目：

采用两层模型（人群画像x人群转化）：新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率
从数字到数字：如果有前几年新生儿出生数量数据，建立时间序列模型（需要考虑到二胎放开的突变事件）进行预测
找一些相关的指标。如婴儿类用品的新增活跃用户数量X_n表示新生儿家庭用户。X_n/第n年的新生儿 为该年新生儿家庭用户的转化率。该转化率会随平台发展而发展，可以根据往年数量推出今年的大致转化率，并根据今年新增新生儿家庭用户数量X_(n+1)推出今年估计的新生儿数量。

我的理解是后者都需要往年的数据，在不使用公开参考资料的情况下可能不适用。

附加问题：估算北京市一日卖出的油条数量

油条这道题适合从供给需求两个层面上来思考问题：

角度一（需求层面）：北京市一天卖出的油条

早饭吃油条的人数每人吃的油条的数量北京市约有人口2 000 万人，假设 20 人中有 1 人选择早饭吃油条，则有 2 000÷20 100 万人。每人每次吃 1 根油条。因此，北京市一天卖出约100*1=100 万根油条

角度二（供给层面）北京市一天卖出的油条

北京油条店的数目每家店卖出的油条数目北京市面积约16410平方千米，五环内面积约 7 35 万平方千米，若每 1 平方千米有 2 家油条店，则有 7 352=1470 家；五环外有约 1 5700 平方千米，若每两平方千米有 1 家油条店，则有1 5700÷2= 7 850 家。由此，北京共有油条店约 9 320 家。假设每家油条店每天卖出 1 00 根油条。那么，北京市一天卖出 9320100=93.2 万根油条

结果分析：根据两个角度的估算，北京市一天可以卖出的油条数量约在100 万左右。仍有一些因素可能导致误差，如五环内外油条店的分布密度尚待考证，可通过抽样调查使其更为精准。

二、如果次日用户留存率下降了 5%该怎么分析？

1）首先采用“两层模型”分析：对用户进行细分，包括新老、渠道、活动、画像等多个维度，然后分别计算每个维度下不同用户的次日留存。通过这种方式定位到导致留存率下降的用户群体是谁。

2）对于目标群体次日留存下降问题，具体情况具体分析。具体分析可以采用“内部-外部”因素考虑，内部因素分为获客（渠道质量低、互动获取非目标用户）、满足需求（新功能改动引发某类用户不满）、提活手段（签到等提活手段没打成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等等）；外部因素采用PEST分析，政治（政策影响）、经济（短期内主要是竞争环境，如竞争对手的活动）、社会（舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好变化）、技术（创新解决方案的出现、分销渠道的变化等等）

留存用户和留存率通常反映了不同时期获得的用户流失的情况，分析这个结果往往是为了找到用户流失的具体原因。

次日留存：因为都是新用户，所以结合产品的新手引导设计和新用户转化路径来分析用户的流失原因，通过不断的修改和调整来降低用户流失，提升次日留存率，通常这个数字如果达到了40%就表示产品非常优秀了。

周留存：在这个时间段里，用户通常会经历一个完整的使用和体验周期，如果在这个阶段用户能够留下来，就有可能成为忠诚度较高的用户。

月留存：通常移动APP的迭代周期为2-4周一个版本，所以月留存是能够反映出一个版本的用户留存情况，一个版本的更新，总是会或多或少的影响用户的体验，所以通过比较月留存率能够判断出每个版本更新是否对用户有影响。

在数据分析里，分析活跃和留存的思路是这样的：

可以对比不同渠道的来看，比如，选取样本的时候，我们就看A和B渠道（比如说seo或者sem）进来的用户有什么区别:

三、卖玉米如何提高收益，价格提高多少才能获取最大收益？

收益=单价*销售量，所以我们的策略是提高单价或者提高销售规模

提高单价的方法：品牌打造获得长期溢价，但缺陷是需要大量前期营销收入；加工商品占据价值链更多环节，如熟玉米、玉米汁、玉米蛋白粉；重定位商品，如礼品化等；价格歧视，根据价格敏感度对不同用户采用不同定价。

销售量=流量*转化率，上述提高单位溢价的方法可能对流量产生影响，也可能对转化率产生影响。

那么收益=单价流量转化率，短期内能规模化采用的应该是进行价格歧视，如不同时间、不同商圈的玉米价格不同，采取高定价，然后对价格敏感的用户提供优惠券等。

类比到广告收益，你觉得一个APP投放多少广告可以获得最大收益？

收益=出价流量点击率*有效转化率。放广告的数量增加会提高流量，但会降低匹配程度，因此降低点击率。最大收益是找到这个乘积的最大值，是一个有约束条件的最优化问题。同时参考价格歧视方案，可以对不同的用户投放不同数量的广告。

四、APP激活量的来源渠道很多，怎样对来源渠道变化大的进行预警

1）如果渠道使用时间较长，认为渠道的app激活量满足一个分布，比较可能是正态分布。求平均值和标准差，对于今日数值与均值差大于3/2/1个标准差的渠道进行预警

2）对于短期的新渠道，直接与均值进行对比

五、用户刚进来APP的时候会选择属性，怎么在保证有完整用户信息的同时让用户流失减少。

采用技术接受模型（TAM）来分析，影响用户接受选择属性这件事的主要因素有：

1）感知有用性：

      a:文案告知用户选择属性能给用户带来的好处。

2）感知易用性：

       a:关联用户第三方账号（如微博），可以冷启动阶段匹配用户更有可能选择的属性，推荐用户选择。

       b:交互性做好

3）使用者态度：用户对填写信息的态度

       a：这里需要允许用户跳过，后续再提醒用户填写

       b:告知用户填写的信息会收到很好的保护

4）行为意图：用户使用APP的目的性，难以控制

5）外部变量：操作时间、操作环境等，这里难以控制

六：男生点击率增加，女生点击率增加，总体为何减少

因为男女的点击率可能有较大差异，同时低点击率群体的占比增大。

如原来男性20人，点击1人；女性100人，点击99人，总点击率100/120。

现在男性100人，点击6人；女性20人，点击20人，总点击率26/120。

即那个段子“A系中智商最低的人去读B，同时提高了A系和B系的平均智商。”

七、如何识别作弊用户

1）渠道特征：渠道、渠道次日留存率、渠道流量以及各种比率特征。

2）环境特征：设备（一般伪造假用户的工作坊以低端机为主）、系统（刷量工作坊一般系统更新较慢）、wifi使用情况、使用时间、来源地区、ip是否进过黑名单

3）用户行为特征：访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转行为（假用户的行为要么过于一致，要么过于随机）、页面使用行为（正常用户对图片的点击也是有分布的，假用户的行为容易过于随机）

4）异常特征：设备号异常（频繁重置idfa）、ip异常（异地访问）、行为异常（突然大量点击广告、点赞）、数据包不完整等。

八、ABtest

关于AB test的重要性无需多言，数据、产品等从业人员几乎必知，好的数据科学家一定时知道理解业务比模型更为重要，而AB test就是伴随着业务增长的利器。

1、什么是AB test？

A / B测试（也称为分割测试或桶测试）是一种将网页或应用程序的两个版本相互比较以确定哪个版本的性能更好的方法。AB测试本质上是一个实验，其中页面的两个或多个变体随机显示给用户，统计分析确定哪个变体对于给定的转换目标（指标如CTR）效果更好。

2、进行AB test的目的是什么？

A / B test可以让个人，团队和公司通过用户行为结果数据不断对其用户体验进行仔细更改。这允许他们构建假设，并更好地了解为什么修改的某些元素会影响用户行为。这些假设可能被证明是错误的，也就是说他们对特定目标的最佳体验的个人或团队想法利用A / B test证明对用户来说是行不通的，当然也可能证明是正确的。

所以说 A/B test不仅仅是解决一次分歧的对比，A/B test可以持续使用，以不断改善用户的体验，改善某一目标，如随着时间推移的转换率。

例如，B2B技术公司可能希望从活动登陆页面提高其销售线索质量和数量。为了实现这一目标，团队将尝试对标题，可视图像，表单字段，号召性用语和页面的整体布局进行A / B测试更改。

一次测试一个变化有助于他们确定哪些变化对访问者的行为产生何种影响，哪些变化没有影响访问者的行为。随着时间的推移，他们可以结合实验中多次正向变化的效果来展示变体相对于控件的可测量的改进。

这样来说产品开发人员和设计人员可以使用A / B测试来演示新功能对用户体验变化的影响。只要目标明确定义并且有明确的假设，用户参与，产品体验等都可以通过A / B测试进行优化。

3、AB test流程

1）确定目标：目标是用于确定变体是否比原始版本更成功的指标。可以是点击按钮的点击率、链接到产品购买的打开率、电子邮件注册的注册率等等。

2）创建变体：对网站原有版本的元素进行所需的更改。可能是更改按钮的颜色，交换页面上元素的顺序，隐藏导航元素或完全自定义的内容。

3）生成假设：一旦确定了目标，就可以开始生成A / B测试想法和假设，以便统计分析它们是否会优于当前版本。

4）收集数据：针对指定区域的假设收集相对应的数据用于A/B test分析。

5）运行试验：此时，网站或应用的访问者将被随机分配控件或变体。测量，计算和比较他们与每种体验的相互作用，以确定每个用户体验的表现。

6）分析结果：实验完成后，就可以分析结果了。A / B test分析将显示两个版本之间是否存在统计性显著差异。

无论的实验结果如何，需要利用试验结果作为学习经验生成未来可以测试的新假设，并不断迭代优化应用元素或网站的用户体验。

4、AB test简例（结合python实现）

实例背景简述：

某司业务接入了的新推荐算法，新推荐策略算法开发完成后，在全流量上线之前要评估新推荐策略的优劣，所用的评估方法是A/B test，具体做法是在全量中抽样出两份小流量，分别走新推荐策略分支和旧推荐策略分支，通过对比这两份流量下的指标（这里按用户点击衡量）的差异，可以评估出新策略的优劣，进而决定新策略是否全适合全流量

步骤：

指标：CTR

变体：新的推荐策略

假设：新的推荐策略可以带来更多的用户点击

收集数据：以下B组数据为我们想验证的新的策略结果数据，A组数据为旧的策略结果数据。均为伪造数据。

分析结果：利用python中的scipy.stats.ttest_ind做关于两组数据的双边t检验，结果比较简单。但是做大于或者小于的单边检测的时候需要做一些处理，才能得到正确的结果。

from scipy import stats
import numpy as np
import seaborn as sns
A=np.array([1,4,2,3,5,5,5,7,8,9,10,18])
B=np.array([1,2,5,6,8,10,13,14,17,20,13,8])
print('策略A的均值是：'+str(np.mean(A)))
print('策略B的均值是：'+str(np.mean(B)))

很明显，策略B的均值大于策略A的均值，但这就能说明策略B可以带来更多的业务转化吗？还是说仅仅是由于一些随机的因素造成的。

我们是想证明新开发的策略B效果更好，所以可以设置原假设和备择假设分别是:

H_0:A>=B\par H1_:A

scipy.stats.ttest_ind(x,y)默认验证的是x.mean()-y.mean()这个假设。为了在结果中得到正数，计算如下：

stats.ttest_ind(B,A,equal_var=False)

根据 scipy.stats.ttest_ind(x, y) 文档的解释，这是双边检验的结果。为了得到单边检验的结果，需要将计算出来的 pvalue 除于2 取单边的结果(这里取阈值为0.05）。求得p-value=0.13462981561745652，p/2 > alpha(0.05),所以不能够拒绝假设，暂时不能够认为策略B能带来多的用户点击。

5、AB test需要注意的点

1）先验性：通过低代价，小流量的实验，再推广到全流量的用户。

2）并行性：不同版本、不同方案在验证时，要保重其他条件都一致。

3）分流科学性和数据科学性：分流科学是指对AB两组分配的数据要一致，数据科学性是指不能直接用均值转化率、均值点击率来进行AB test决策，而是要通过置信区间、假设检验、收敛程度来得出结论。

6、AB test中要知道的统计学知识

1）点估计

2）区间估计

3）中心极限定理（样本估计总体的核心，可以对比看一下大数定理）

4）假设检验

其中假设检验部分为核心，其他辅助更好的理解该部分内容，比如区间估计可以理解为正向的推断统计，假设检验可以理解为反证的推断统计，关于假设检验本身，你可能还需要知道小概率事件、t分布、z分布、卡方分布、p值、alpha错误、belta错误等内容。

九、数据分析中的环比和同比

同比：历史同期数据（一般指月份或者季度），好处是可以排除一部分季节因素，反映了产品的一个长期竞争力的表现。

环比：上一个统计周期数据，好处是可以更直观的表明阶段性的变化，但是会受季节因素影响，反映了产品的短期趋势。

根据统计周期、频率不同会有具体变化。最熟悉的就是CPI（通胀数据），这个是月统计数据，年为主要周期，所以简单来说，同比就是本月与去年同月的比，环比就是本月与上月的比。

一般这两个数据要结合公司的市场推广情况、产品的竞争力进行综合分析，剖析数据变化的内在原因，帮助市场部门更好的制定营销策略。

例1：环比增加了30%，同比只增加了5%，说明公司近期的推销手段可能起作用了，但整体来说，产品的市场认可度并没有大的提升，可能之前的价格没有竞争力或者性价比不高，或产品定位不准，这一切都需要具体情况分析。

例2：环比减少了10%，但同比增加了300%，说明产品近一年的销售情况是不错的，市场认可度一直在提升，但近期可能出现了问题，或者其他新产品影响了他的销售，或者缺少市场推广活动等等。s

十、浅析RFM模型

RFM模型在客户管理中常被用来衡量客户的价值和创新能力，主要考量三个指标：最近一次消费（Recency）、消费频率（Frequency）、消费金额（Money）。根据以上三个维度对客户做细分：假定每个维度划分五个等级，得到R值（1-5）、F值（1-5）、M值（1-5)。客户可以被分作125个细分群，可以根据客户的交易行为差异针对不同的群体做不同的推荐。还可以根据不同的业务场景，对R、F、M赋予不同的权重，Wr、Wf、Wm得到每个用户得分：W=WrR+WfF+Wm*M，根据最终得分W排序，再划分等级，采用不用的营销策略。

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
OmicsTools除b站教学视频外已整理的零代码生信全流程分析文档邢博士谈科教医学科研生信分析 r语言数据可视化数据挖掘数据分析生信医学生信分析
OmicsTools软件介绍和下载安装配置软件简介我开发了一款本地电脑无限使用的零代码生信数据分析作软图神器电脑软件OmicsTools，欢迎大家使用OmicsTools进行生物医学科研数据分析和作图，该软件件能让大家在不需要任何编程和代码编写的基础上，分析次数没有限制，可以无限使用，让您在自己电脑上快速进行大量的生信分析和加速大家的科研。OmicsTools生信分析电脑软件可以做医学生物生信各个
【数据分析】利用Python+AI+工作流实现自动化数据分析-全流程讲解 z千鑫 AI领域 FLASK基础 Python基础人工智能数据分析 python AI编程 AI工作流 ai 自动化
文章目录一、为什么要用AI进行自动化分析？二、AI自动化分析场景三、编写Python脚本示例1、用flask实现让AI分析数据内容使用说明：示例2、用定时任务的方式，定时处理AI数据代码说明四、把AI分析的数据，放到AI工作流中做展示五、openAI的key结尾在信息爆炸的时代，如何快速获取有价值的洞察力成为了各行各业的迫切需求。传统的内容分析方法往往又耗时又费力，并且难以满足快速变化的市场需求。
Mall4j商城实战 - 部署 canal 数据库增量日志解析 yueerba126 Mall4j商城实战数据库 spring cloud 微服务架构
Canal简介Canal是基于MySQL数据库增量日志解析的工具，主要用于增量数据的订阅和消费。Canal主要用途基于MySQL数据库增量日志解析详细功能：实时解析MySQL的二进制日志（Binlog）。捕获数据库中的所有增量变更，如插入、更新和删除操作。使用场景：适用于实时监控数据库变化的应用，比如数据复制、数据备份或实时数据分析等。提供增量数据订阅和消费服务
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Rust: duckdb和polars读csv文件比较 songroom rust 开发语言后端
duckdb在数据分析上，有非常多不错的特质。1、快；2、客户体验好，特别是可以同时批量读csv（在一个目录下的csv等文件）。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技术栈有很多相同之类。今天想比较一下两者在csv数据读写的情况。一、文件准备csv样本内容，是N行9列的csv标准格式，有字符串，有浮点数，有整型。具体如下：本次准备了两个csv文件，一个大约是2
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
Python最全的股票数据API接口 w_traveler python 开发语言大数据
python最全的股票数据API接口使用python是一种有效的方式来获取高频股票数据，以便进行股票行情数据分析和量化交易。python是一种广泛应用于金融数据领域的编程语言，可用于与股票数据API接口进行交互。通过调用股票数据API接口，我们可以获取实时的股票数据，包括tick数据和k线历史数据。tick数据提供了每次交易的详细信息，而k线历史数据则提供了一段时间内港股、美股、A股、沪深行情数据
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
新质农业-再生农业的应用橙蜂智农人工智能制造创业创新
橙蜂智能公司致力于提供先进的人工智能和物联网解决方案，帮助企业优化运营并实现技术潜能。公司主要服务包括AI数字人、AI翻译、埃域知识库、大模型服务等。其核心价值观为创新、客户至上、质量、合作和可持续发展。橙蜂智农的智慧农业产品涵盖了多方面的功能，如智能化推荐、数据分析、远程监控和决策支持系统。用户可以通过应用获得个性化的作物种植建议、实时的生长状态监控以及精确的灌溉和施肥指导，提升农业生产效率。文
利用发电量和气象数据分析来判断光伏仿真系统的准确性鹧鸪云光伏与储能软件开发数据分析数据挖掘光伏发电大数据光伏新能源
随着光伏产业的迅速发展，光伏仿真系统通过集成气象数据分析、发电量分析、投融资分析及损耗估算等功能，为光伏项目的全生命周期管理提供了科学依据。光伏仿真系统集成了气象数据分析、发电量预测、投融资分析、损耗估算及光伏设计等功能。其中，气象数据分析是仿真系统的基石，通过整合权威的气象数据（如Meteonorm、Nasa等），模拟光伏电站所在区域的历史气象条件及未来气象预测。基于这些气象数据，发电量分析功能
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

数据分析业务问题

你可能感兴趣的:(数据分析)