偲偲粑

商务与经济统计（13版，Python）笔记 01-02章

文章目录

第1章数据与统计资料

1.1 统计学在商务经济中的应用
1.2 数据
1.3 数据来源
1.4 描述统计
1.5 统计推断
1.6 逻辑分析方法
1.7 大数据与数据挖掘
1.8 计算机与统计分析
1.9 统计实践的道德准则

第2章描述统计学1:表格法和图形法

2.1 汇总分类变量的数据

条形图及样例（bar chart）
饼形图及样例（pie chart）

2.2 汇总数量变量的数据

单变量：打点图（dot plot）
单变量：直方图（histogram）
单变量：累积分布（displot）
单变量：茎叶显示（stem-and-leaf display）

2.3 用表格方法汇总两个变量的数据

交叉分组表（crosstabulation）

2.4 用图形显示方法汇总两个变量的数据

散点图（scatter diagram)和趋势线(trendline)
复合条形图（side-by-side bar chart)和结构条形图(stacked chart)

2.5 数据可视化：创建有效图形显示的最佳实践

创建有效的图形显示

第一次读本书的时候，因为有大学课程的基础，更关注于技术性的内容和理解，而忽略了看似简单的基础知识。实际上这应该是入门新手的通病，总是着眼于实用性内容，而忽略基础知识。虽然这样做有助于维持学习兴趣，帮助新人坚持到入门，然后在实践之中反过来学习基础知识。但是最好在第一次学习就能认识到基础知识的重要性，并且尽量掌握。最好的办法就是做习题。

最初是为了学习数据分析，然而当业内人士说数据分析最重要的知识是‘描述统计学’，我记忆中却是将其归为显浅知识，囫囵吞枣。

第1章数据与统计资料

1.1 统计学在商务经济中的应用

会计、财务、市场营销、生产、经济、信息系统

1.2 数据

数据、数据集、个体、变量、观测值、分类型数据、分类变量、数量型数据、数量变量、截面数据、时间序列数据
**1.2.2 测量尺度**
名义尺度、顺序尺度、间隔尺度、比率尺度按顺序层层包含
其中，顺序尺度加减无意义，间隔尺度乘除无意义，只有间隔尺度、比例尺度有计量单位测量尺度

1.3 数据来源

来源有：现有来源、观测性研究、实验，需要注意：时间与成本问题、数据采集误差

1.4 描述统计

将数据以表格、图形或数值形式汇总的统计方法

1.5 统计推断

总体、样本、普查、抽样调查
统计学的一个主要贡献就是利用样本数据对总体特征进行估计和假设检验，即统计推断

1.6 逻辑分析方法

逻辑分析方法包括：
描述性分析对过去数据的分析、BI、或复盘
预测性分析预测，或指出变量之间的影响
规范性分析产生一个最佳行动过程的分析技术集合，即在实际条件约束情况下的行动指导

1.7 大数据与数据挖掘

大数据容量（volume）、速度（velocity）、种类（variety），3V
数据挖掘data mining，从庞大的数据库中自动提取预测性的信息

1.8 计算机与统计分析

1.9 统计实践的道德准则

统计是搜集、分析、表述、和解析数据的艺术和科学

第2章描述统计学1:表格法和图形法

2.1 汇总分类变量的数据

频数分布、相对频数分布、百分比频数分布

条形图及样例（bar chart）

条形图（bar chat）描述：频数分布、相对频数分布、百分比频数分布，分类变量的条形图，应该有一定的间隔
matplotlib.bar（有样例）基本用法：

from matplotlib import pyplot as plt 
x,y,x2,y2=  [5,8,10] ,[12,16,6],[6,9,11] ,[6,15,7] 
plt.bar(x, y, align =  'center') 
plt.bar(x2, y2, color =  'g', align =  'center') 
plt.title('Bar graph') 
plt.ylabel('Y axis') 
plt.xlabel('X axis') 
plt.show()

极坐标条形图：

import numpy as np
import matplotlib.pyplot as plt
np.random.seed(19680801)
N = 20
theta = np.linspace(0.0, 2 * np.pi, N, endpoint=False)
radii = 10 * np.random.rand(N)
width = np.pi / 4 * np.random.rand(N)
colors = plt.cm.viridis(radii / 10.)
ax = plt.subplot(111, projection='polar')
ax.bar(theta, radii, width=width, bottom=0.0, color=colors, alpha=0.5)
plt.show()

seaborn.barplot（有样例）就简单多了：

ax = sns.barplot(x="day", y="total_bill", hue="sex", data=tips)

饼形图及样例（pie chart）

饼形图（pie chat）描述：相对频数分布、百分比频数分布（相对角度差异，人更能判断长度间的差异，所以最好标注比例）
matplotlib.pyplot.pie（有样例），个人觉得不错的3各样例（后附代码）：

import matplotlib.pyplot as plt
labels = 'Frogs', 'Hogs', 'Dogs', 'Logs'
sizes = [15, 30, 45, 10]
explode = (0, 0.1, 0, 0)  # only "explode" the 2nd slice (i.e. 'Hogs')
fig1, ax1 = plt.subplots()
ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
        shadow=True, startangle=90)
ax1.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.
plt.show()

import numpy as np
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(6, 3), subplot_kw=dict(aspect="equal"))
recipe = ["375 g flour","75 g sugar","250 g butter","300 g berries"]
data = [float(x.split()[0]) for x in recipe]
ingredients = [x.split()[-1] for x in recipe]
def func(pct, allvals):
    absolute = int(pct/100.*np.sum(allvals))
    return "{:.1f}%\n({:d} g)".format(pct, absolute)
wedges, texts, autotexts = ax.pie(data, autopct=lambda pct: func(pct, data),
                                  textprops=dict(color="w"))
ax.legend(wedges, ingredients,
          title="Ingredients",
          loc="center left",
          bbox_to_anchor=(1, 0, 0.5, 1))
plt.setp(autotexts, size=8, weight="bold")
ax.set_title("Matplotlib bakery: A pie")
plt.show()

fig, ax = plt.subplots(figsize=(6, 3), subplot_kw=dict(aspect="equal"))
recipe = ["225 g flour","90 g sugar","1 egg","60 g butter","100 ml milk","1/2 package of yeast"]
data = [225, 90, 50, 60, 100, 5]
wedges, texts = ax.pie(data, wedgeprops=dict(width=0.5), startangle=-40)
bbox_props = dict(boxstyle="square,pad=0.3", fc="w", ec="k", lw=0.72)
kw = dict(arrowprops=dict(arrowstyle="-"),
          bbox=bbox_props, zorder=0, va="center")
for i, p in enumerate(wedges):
    ang = (p.theta2 - p.theta1)/2. + p.theta1
    y = np.sin(np.deg2rad(ang))
    x = np.cos(np.deg2rad(ang))
    horizontalalignment = {-1: "right", 1: "left"}[int(np.sign(x))]
    connectionstyle = "angle,angleA=0,angleB={}".format(ang)
    kw["arrowprops"].update({"connectionstyle": connectionstyle})
    ax.annotate(recipe[i], xy=(x, y), xytext=(1.35*np.sign(x), 1.4*y),
                horizontalalignment=horizontalalignment, **kw)
ax.set_title("Matplotlib bakery: A donut")
plt.show()

Pandas 画图一个函数应该够用了，参数详解

DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, 
                sharex=None, sharey=False, layout=None,figsize=None, 
                use_index=True, title=None, grid=None, legend=True, 
                style=None, logx=False, logy=False, loglog=False, 
                xticks=None, yticks=None, xlim=None, ylim=None, rot=None,
                xerr=None,secondary_y=False, sort_columns=False, **kwds)

样例 Matplotlib examples
样例 Seaborn Example gallery

2.2 汇总数量变量的数据

组数、组宽、组限、组中值、相对频数分布、百分比频数分布、累积频数分布

单变量：打点图（dot plot）

使用 matplotlib.scatter,seaborn.swarmplot模拟

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

from matplotlib.pyplot import MultipleLocator
fig,ax=plt.subplots(1,2,figsize=(12,2))
np.random.seed(1900)
x=np.random.randint(1,99,size=20)
data=pd.DataFrame(x,columns=['x'])
data['y']=1
for i in range(len(data)):
    data['y'].at[i]=data['x'].iloc[:i+1][data['x'].iloc[:i+1]==data['x'].at[i]].count()
plt.subplot(121)

plt.scatter(data['x'],data['y'])
plt.tick_params(axis='both',which='major')
#刻度设置
# y_major_locator=MultipleLocator(1)
# x_major_locator=MultipleLocator(10)
# ax[0]=plt.gca()
# ax[0].xaxis.set_major_locator(y_major_locator)
# ax[0].xaxis.set_major_locator(x_major_locator)
sns.swarmplot(x="x", y="y",palette=["r", "c", "y"],data=data,ax=ax[1])
plt.show()

单变量：直方图（histogram）

与条形图原理一样，只是数量型变量进行分组，方条之间无间隔

from matplotlib import pyplot as plt 
import numpy as np  
np.random.seed(1900)
x=np.random.randint(1,99,size=50)
plt.hist(x, bins =  [0,20,40,60,80,100]) 
plt.show()

单变量：累积分布（displot）

累积分布如果使用matplotlib则需要计算累积量，使用seaborn.displot，一口气能画4张图Distribution plot options

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="white", palette="muted", color_codes=True)
rs = np.random.RandomState(10)
f, axes = plt.subplots(2, 2, figsize=(7, 7), sharex=True)
sns.despine(left=True)
d = rs.normal(size=100)
sns.distplot(d, kde=False, color="b", ax=axes[0, 0])
sns.distplot(d, hist=False, rug=True, color="r", ax=axes[0, 1])
sns.distplot(d, hist=False, color="g", kde_kws={"shade": True}, ax=axes[1, 0])
sns.distplot(d, color="m", ax=axes[1, 1])
plt.setp(axes, yticks=[])
plt.tight_layout()

单变量：茎叶显示（stem-and-leaf display）

暂时没找到茎叶图的库，手动实现

0 | 6 9 8 4
1 | 6 3 7 3 6 1 2
2 | 5 5 9 2
3 | 2 8 0 4
4 | 9 9
5 | 1 5 2 4 9 8 6
6 | 3 6 2
7 | 3 2 1 2
8 | 9 4 1 3 0 7 7 1 9 3 1
9 | 6 2 7 8

import numpy as np
np.random.seed(2019)
data=np.random.randint(1,99,size=50)
_stem=[]
for x in data:
    _stem.append(x//10)
    stem=list(set(_stem))
for m in stem:
    leaf=[]
    leaf.append(m)
    for n in data:
        if n//10==m:
            leaf.append(n%10)
    print(leaf[0],'|',end=' ')
    for i in range(1,len(leaf)):
        print(leaf[i],end=' ')
    print('\n')

2.3 用表格方法汇总两个变量的数据

辛普森悖论：依据综合和未综合的数据得到相反的结论。（原因是未综合的变量，本身权重不等）

交叉分组表（crosstabulation）

使用pandas.corsstab模拟了一下书上的表格:

import numpy as np
import pandas as pd
np.random.seed(900)
y=np.random.randint(0,3,size=300)
z=np.random.randint(11,49,size=300)
data=pd.DataFrame({'质量等级':y,'餐价':z})
data['质量等级'].replace({0:'好',1:'很好',2:'优秀'},inplace=True)
bins=[10,19,29,39,49]
quartiles = pd.cut(data['餐价'], bins,labels=['10~19','20~29','30~39','40~49'])
data['餐价']=quartiles
pd.crosstab(data['质量等级'],data['餐价'],margins=True,margins_name='总计')

2.4 用图形显示方法汇总两个变量的数据

散点图（scatter diagram)和趋势线(trendline)

帅气的散点图（matplotlib中，趋势线要用numpy.ployfit函数）：

import matplotlib.pyplot as plt
import numpy as np
np.random.seed(19680801)
x = np.arange(0.0, 50.0, 2.0)
y = x ** 1.3 + np.random.rand(*x.shape) * 30.0
s = np.random.rand(*x.shape) * 800 + 500
colors = np.random.rand(*x.shape)
plt.figure(figsize=(12,6))
plt.scatter(x, y, s,  c=colors,alpha=0.5, marker=r'$\clubsuit$',
            label="Luck")
p1 = np.poly1d(np.polyfit(x, y, 1))
l1=plt.plot(x,p1(x),'r--',label='trendline')
plt.xlabel("Leprechauns")
plt.ylabel("Gold")
plt.legend(loc='upper left')
plt.show()

使用seaborn库则可以更加绚丽（sns.jointplot太占位置了，没画）：

import seaborn as sns; sns.set()
import matplotlib.pyplot as plt
fig,axes=plt.subplots(2,2,figsize=(12,6))
tips = sns.load_dataset("tips")
cmap = sns.cubehelix_palette(dark=.3, light=.8, as_cmap=True)
sns.scatterplot(x="total_bill", y="tip",hue="time", data=tips,ax=axes[0,0])
sns.residplot(x="total_bill", y="tip",  data=tips,ax=axes[0,1])
sns.regplot(x="size", y="total_bill", data=tips, x_jitter=.1,ax=axes[1,1])
sns.lmplot(x="size", y="total_bill", hue="day", col="day",
             data=tips, height=6, aspect=.4, x_jitter=.1)
#sns.jointplot("total_bill", "tip", data=tips, kind="reg",
#              xlim=(0, 60), ylim=(0, 12), color="m", height=7)

复合条形图（side-by-side bar chart)和结构条形图(stacked chart)

matplotlib做这种复合图，有点复杂，附上链接
Stacked Bar Graph
Grouped bar chart with labels
Discrete distribution as horizontal bar chart
首先使用，pandas画图，还是2.3模拟表格的数字，这次用groupby聚合，然后增加汇总，转置

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('precision',1)#设置小数位
np.random.seed(900)
y=np.random.randint(0,3,size=300)
z=np.random.randint(11,49,size=300)
data=pd.DataFrame({'质量等级':y,'餐价':z})
data['质量等级'].replace({0:'好',1:'很好',2:'优秀'},inplace=True)
bins=[10,19,29,39,49]
quartiles = pd.cut(data['餐价'], bins,labels=['10~19','20~29','30~39','40~49'])
df=data.groupby(['质量等级',quartiles]).count().unstack()
df=df.apply(lambda x: x/x.sum()*100)
df.loc['总计'] = df.apply(lambda x: x.sum())#总计，作图时候不需要
df.T.plot(kind='bar',stacked=True)

分组的条形图，seaborn库写得少，图多：

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="darkgrid")
fig,(ax1,ax2)=plt.subplots(1,2,figsize=(12,6))
tips = sns.load_dataset("tips")
sns.countplot(y="day", hue="sex", data=tips,ax=ax1)
sns.barplot(x="day", y="total_bill", data=tips,ax=ax2)
sns.catplot(x="sex", y="total_bill",hue="smoker", col="time",data=tips, kind="bar",height=4, aspect=.7)
g = sns.FacetGrid(tips, row="sex", col="time", margin_titles=True)
bins = np.linspace(0, 60, 13)
g.map(plt.hist, "total_bill", color="steelblue", bins=bins)

结构条形图：

import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="whitegrid")
f, ax = plt.subplots(figsize=(15, 6))
crashes = sns.load_dataset("car_crashes").sort_values("total", ascending=False)
sns.set_color_codes("pastel")
sns.barplot(y="total", x="abbrev", data=crashes,
            label="Total", color="b")
sns.set_color_codes("muted")
sns.barplot(y="alcohol", x="abbrev", data=crashes,
            label="Alcohol-involved", color="b")
ax.legend(ncol=2, loc="lower right", frameon=True)
ax.set(xlim=(0, 24), ylabel="",
       xlabel="Automobile collisions per billion miles")
sns.despine(left=True, bottom=True)

2.5 数据可视化：创建有效图形显示的最佳实践

创建有效的图形显示

1、给予图形显示一个清晰、简明的标题。
2、使图形显示保持简洁，当能用二维表示时不要用三维表示。
3、每个坐标有清楚的标记，并给出测量单位。
4、如果使用颜色来区分类别，要确保颜色是不同的。
5、如果使用多种颜色或线型，用图例来标明时，要将图例靠近所表示的数据。

时序数据库：数据库领域的未来之星数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库时序数据库 ai
时序数据库：数据库领域的未来之星关键词：时序数据库、时间序列数据、物联网、大数据分析、数据库优化、TSDB、实时数据处理摘要：本文深入探讨了时序数据库(TimeSeriesDatabase,TSDB)这一新兴数据库技术。我们将从基本概念入手，分析时序数据库的核心原理和架构设计，详细讲解其特有的数据模型和存储机制。通过实际代码示例展示如何使用主流时序数据库处理时间序列数据，并探讨其在物联网、金融科技
基于Python的Twitter Card数据爬取与分析实战：从入门到精通 Python爬虫项目 python twitter dreamweaver 自动化开发语言宽度优先爬虫
摘要本文详细介绍了如何使用Python最新技术栈构建一个高效的TwitterCard数据爬虫系统。我们将从TwitterCard的基本概念讲起，逐步深入到爬虫架构设计、反爬策略应对、数据解析与存储等核心环节。文章包含完整的代码实现，使用Playwright+Asyncio的高性能爬取方案，以及数据分析与可视化的实战案例。通过本文，读者将掌握大规模社交媒体数据采集的关键技术，并能够将这些技术应用于实
使用 Python 爬取网易云音乐歌单数据（完整教程） Python爬虫项目 python 开发语言 github selenium 爬虫
一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析
全球气温逐年增高 CATTLECODE 人工智能
根据全球主要气候监测机构的权威数据，**全球气温确实在持续升高**，且呈现加速趋势。以下是关键事实和数据分析：一、科学共识与核心数据长期升温趋势（1880-2023）：工业革命前（1850-1900）相比：全球平均气温上升约1.45°C2023年成为有记录以来最热年份（比19世纪基线高1.48°C）过去10年（2014-2023）是史上最热的十年（WMO数据）加速升温证据：二、权威机构数据验证机构
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
MySQL(141)如何处理重复数据问题？辞暮尔尔-烟火年年 MySQL mysql 数据库
处理重复数据问题是数据管理中的一个常见挑战。重复数据会影响数据库的性能、占用资源，并且可能导致数据分析结果的偏差。以下是处理重复数据问题的详细步骤以及结合代码的示例。一、识别重复数据首先，需要识别数据库中的重复数据。可以使用SQL查询来查找重复的数据。示例：假设我们有一个名为employees的表，其中包含以下字段：id、name和email。CREATETABLEemployees(idINTP
如何用优惠卷赚钱？优惠券群怎么才能做起来？日常购物技巧呀
在数字化时代，社群经济日益繁荣，尤其是以优惠券为主题的社群，不仅能够帮助群成员省钱购物，还能为群主带来可观的收入。本文将详细解析如何建立和管理一个赚钱的优惠券群，包括群的建设、运营策略，以及如何通过专业数据分析来优化群的效果。目标读者包括宝妈、大学生、上班族和无业人员，这些群体通常对节省开支和额外收入有较高的需求。大家好，我是高省返利APP官方客服导师：童年，今日给大家推荐一款自用佣金高，还能做团
使用Python Scrapy打造个性化爬虫
使用PythonScrapy打造个性化爬虫——知识金字塔构建1.引入与连接：从“手动复制”到“自动化采集”的跨越你是否遇到过这样的场景？想整理1000条知乎优质回答做数据分析，却要逐条复制；想追踪某电商平台的商品价格波动，却要每天手动刷新页面……这些重复劳动，正是“个性化爬虫”的用武之地！与已有知识的连接：你可能用过requests+BeautifulSoup写过简单爬虫，但面对大规模数据、复杂反
Python 数据插值：NumPy 实现多种插值方法
Python数据插值：用NumPy解锁缺失数据的秘密拼图关键词数据插值、NumPy、线性插值、多项式插值、缺失值处理、数据平滑、数值分析摘要在数据分析和科学计算中，我们经常遇到离散或缺失的观测数据——比如气象站每小时记录的温度值有缺失，或者实验中只采集了稀疏的采样点。这时候，数据插值（Interpolation）就像“数据修复师”，能根据已知点推断出未知点的数值，让离散数据变成连续的“故事”。本文
Shell脚本-cut工具咖啡の猫 chrome 前端
一、前言在Linux/Unix系统中，cut是一个非常实用的文本处理命令，用于从文件或标准输入中提取特定列的内容。它特别适用于处理结构化文本数据，例如CSV文件、日志文件、配置文件等。无论是做数据分析、系统监控，还是编写自动化脚本，cut都是一个不可或缺的工具。本文将带你全面了解cut工具的使用方式，包括：✅cut的基本语法与常用参数✅如何按字符、字节、字段进行提取✅cut在Shell脚本中的实战
必看：购买黄金投资局中局曝光！伍戈碳中和云数据分析就是骗局！不成功不收费
被骗案例：聊天软件讲股票，又忽悠股民搞碳中和项目，云数据分析项目等才后来让我们自己投钱怕我们不相信还请反诉警员给上课，给我画大饼，说每月发6千元的工资，所以放松警惕上当了，投了钱，我投的少，还特别照顾我单独做，达到他们的标准，他们明知我没有钱，每天照顾在两次，赚了一百多万，让我提款必须交税5%，我没钱无法交税，一分也取不出来，而且还有时侯规定，我只能自已做让账户回到我能交的起税的金额，但你要交钱时
Excel处理控件Aspose.Cells指南：使用 Python 删除 Excel 中的重复行 CodeCraft Studio 文档管理控件 python excel 开发语言
在Excel中删除重复行对于维护干净、准确和一致的数据集至关重要。它可以确保一致性，并有助于防止分析或报告中出现错误。重复数据会导致错误的分析和糟糕的决策。因此，识别和消除重复数据的能力对于软件开发人员、数据分析师和Excel用户来说是一项宝贵的技能。在本篇博文中，我们将向您展示如何使用Python以编程方式删除Excel工作表中的重复行。Python库用于删除Excel中的重复行Aspose.C
Elasticsearch 聚合查询源码解读与架构方法论北漂老男人 Elasticsearch elasticsearch 架构大数据搜索引擎全文检索
Elasticsearch聚合查询源码解读与架构方法论01.引言Elasticsearch的聚合查询（Aggregation）是大规模分布式数据分析的核心能力。理解其源码结构与设计方法论，不仅有助于高效使用聚合，也能为自定义扩展、性能优化、集群运维等提供理论与实践基础。本文将从源码结构、核心模块、关键实现、行级注释与方法论出发，系统剖析聚合查询的底层原理。02.源码结构与核心模块2.1聚合相关源码
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
十种常用数据分析模型耐思nice～数据分析数据分析人工智能机器学习数学建模
1-线性回归（LinearRegression）场景：预测商品销售额优点：简单易用，结果易于解释缺点：假设线性关系，容易受到异常值影响概念：建立自变量和因变量之间线性关系的模型。公式：[y=b_0+b_1x_1+b_2x_2+...+b_nx_n]代码示例：importpandasaspdfromsklearn.linear_modelimportLinearRegressionfromsklea
【Pandas超实用经验汇总-数据建模分析】 Mr.小海 Python 数据挖掘数据分析 python
Pandas超实用经验汇总-数据分析前言基本方法1.读取文件2.查看数据3.修改、删除、替换数据等总结前言看见了很多教程虽然很全，但是很多技巧容易忘记且几乎用不上，读起来晦涩难懂，今天我给大家总结了Pandas的一些学习经验技巧，包含常见日常使用的pandas知识，以及一些技巧,这些技巧常见于数学建模，数据分析，数据挖掘比赛等。基本方法1.读取文件方法如下：importpandasaspd#正常写
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
基于 Python/PHP/Node.js 的淘宝 API 商品数据抓取开发教程
在电商数据分析、竞品监控等场景中，抓取淘宝商品数据是常见需求。淘宝开放平台（OpenPlatform）提供了标准化的API接口，通过合法途径调用可高效获取商品信息。本文将分别基于Python、PHP、Node.js三种语言，详解淘宝API商品数据抓取的开发流程，并提供完整代码示例。一、淘宝API准备工作在开发前，需完成以下准备步骤：注册开发者账号访问注册账号并完成实名认证，创建应用（应用类型选择“
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
数据分析综合应用 30分钟精通计划 z日火校招学习日记数据分析数据挖掘
数据分析综合应用30分钟精通计划（完整版含输出）⏰时间分配5分钟：数据加载与清洗基础10分钟：探索性数据分析(EDA)10分钟：数据分析实战案例5分钟：分析报告生成第一部分：数据加载与清洗基础(5分钟)1.模拟真实数据集importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportwarningswarnings
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
数据分析的三大框架：底层技术、分析建模、工具选择 YHFHing 数据分析数据分析
有了世界观，我们可以开始搭建自己的知识大厦了。在搭建知识大厦之前，先需要建立知识的框架，然后才能高效的填充知识。所以今天我们先建立框架。数据分析的三大框架数据科学的框架分为三部分：底层技术框架/数据分析框架/工具选择框架，接下来依次给大家介绍：1.底层技术框架底层技术框是数据科学的基础设施，我们有所了解就好，处理框架和处理引擎负责对数据系统中的数据进行计算。流处理系统：流处理系统会对随时进入系统的
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
Python在股票数据分析中的应用，如何通过代码实现精准预测股价走势？股票程序化交易接口量化交易股票API接口 Python股票量化交易数据分析 python 股票数据分析股价走势预测代码实现股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>数据获取与导入在股票数据分析中，首先要获取相关数据。Python有许多库可实现这一功能，比如pandas-datareader。使用它可以轻松从知名数据源如雅虎财经获取股票的历史价格、成交量等数据。只需简单几行代码，就能将特定股票在特
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰电子人工智能
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰【BF-FBSZ】随着全球水资源短缺和水污染问题日益严峻，水质监测技术正迎来前所未有的发展机遇。作为这一领域的创新突破，浮漂式水质监测设备凭借其实时性、智能化和网络化优势，正在重塑水资源管理的新格局。本文将深入探讨这一技术的原理、特点、应用场景及未来发展趋势。一、技术原理与系统架构浮漂式水质监测设备是一种集成了现代传感器技术、物联网和大数据分析的智能
NUS：LLM表格数据建模综述
标题：LanguageModelingonTabularData:ASurveyofFoundations,TechniquesandEvolution来源：arXiv,2408.10548摘要表格数据是一种跨领域的流行数据类型，由于其异构性和复杂的结构关系，带来了独特的挑战。在表格数据分析中实现高预测性能和鲁棒性对许多应用程序具有重大前景。受自然语言处理，特别是转换器架构的最新进展的影响，出现了
套数据分析模板（含 Python 代码和示例数据）女码农的重启开发语言数据清洗 python java 数据分析
一、销售数据分析模板（1-10套）模板1：月度销售趋势分析示例数据（sales_monthly.csv）月份,销售额,销量,客单价2023-01,120000,500,2402023-02,135000,550,245.452023-03,150000,600,250...Python代码importpandasaspdimportmatplotlib.pyplotasplt#设置中文显示plt.
疫情下，我的健康码首次变成了黄码唯我一心
3月中旬，老公在广州白云区接了一单生意，要很久才回来，就在那里租了一间房，带我和孩子一起住。房子在七楼，步梯，因孩子小，自己就很少下楼，都是他买菜回来，4月8号，订单完成，返程回了佛山。过了两天突然接到短信通知，白云区要大规模核酸筛查，又过一天收到短信:通过大数据分析，您近期行程涉及疫情防控重点区域，您的健康码将被赋予2次黄码并需开展2次核酸检测，请注意健康码状态，尽快凭码到附近黄码核酸检测点进行
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交