Bernard.Dong

python数据分析实战：DCM模型设计及实现（以波音公司用户选择为例）

文章目录

- 1.DCM介绍
- 2.项目背景
- 3.数据预处理
- - 3.1变量的分类
  - 3.2长宽数据转换
  - 3.3数据初筛
- 4.模型构建
- - 4.1单因素分析
  - - 卡方分析
    - MNL模型单因素回归分析
    - 结果汇总
  - 4.2共线性检测
  - 4.3哑变量处理
  - 4.4模型训练
- 5.结果

1.DCM介绍

离散选择模型DCM（Discrete Choice Model）是一类模型族，这个名字听起来有些陌生，但其包含的模型却是我们熟知的LR（Logistics Regression，逻辑回归模型），以及其变种MNL（MultiNomial Logit，多项Logit模型）和NL（Nested Logit，嵌套Logit模型）。
DCM可用于经济学中的选择问题，是分析“从有限互斥选项集中进行单项选择”的计量模型。主要包括五个部分：决策者（决策者属性）、备选项集合、备选项属性、决策准则和选择结果，数学表达式如下：
$选择结果 = F (决策者，备选项集合，备选项属性)$
$F$ 是决策准则，即效用最大化准则。模型最终实现的功能是在给定决策者、备选项集合、备选项属性后，基于效用最大化准则，得到选择结果。

消费者内心的满足感可以用经济学中的“效用”来表示，理性消费者面对一系列商品时，会选择效用最大的商品。

2.项目背景

数据集来自于biogeme官网数据集中的Airline Itinerary数据，这里是数据介绍。总结来说，波音公司进行了一个调查，给乘客提供三个备选项：1.直飞，2.中转但同一公司，3.中转但非同一公司。调查涉及各个备选项的飞行时间、价格、空间等备选项属性，以及乘客本身的收入、受教育程度、出行人数等决策者属性。
我们要做的流程：设计DCM效用函数 $\rightarrow$ 用真实数据进行回归 $\rightarrow$ 修改DCM效用函数 $\rightarrow$ 对结果进行解读。

3.数据预处理

3.1变量的分类

原数据信息如下：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3609 entries, 0 to 3608
Data columns (total 56 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   SubjectId                          3609 non-null   int64  
 1   OriginGMT                          3609 non-null   int64  
 2   DestinationGMT                     3609 non-null   int64  
 3   Direction                          3609 non-null   int64  
 4   q02_TripPurpose                    3609 non-null   int64  
 5   q03_WhoPays                        3609 non-null   int64  
 6   q11_DepartureOrArrivalIsImportant  3609 non-null   int64  
 7   q12_IdealDepTime                   3609 non-null   int64  
 8   q13_IdealArrTime                   3609 non-null   int64  
 9   q14_PartySize                      3609 non-null   int64  
 10  q15_Age                            3609 non-null   float64
 11  q16_Income                         3609 non-null   int64  
 12  Cont_Income                        3609 non-null   float64
 13  q17_Gender                         3609 non-null   int64  
 14  q19_Occupation                     3609 non-null   int64  
 15  q20_Education                      3609 non-null   int64  
 16  AirlineFirstFlight_1               3609 non-null   int64  
 17  AirlineFirstFlight_2               3609 non-null   int64  
 18  AirlineFirstFlight_3               3609 non-null   int64  
 19  AirlineSecondFlight_1              3609 non-null   int64  
 20  AirlineSecondFlight_2              3609 non-null   int64  
 21  AirlineSecondFlight_3              3609 non-null   int64  
 22  AirplaneFirstFlight_1              3609 non-null   int64  
 23  AirplaneFirstFlight_2              3609 non-null   int64  
 24  AirplaneFirstFlight_3              3609 non-null   int64  
 25  AirplaneSecondFlight_1             3609 non-null   int64  
 26  AirplaneSecondFlight_2             3609 non-null   int64  
 27  AirplaneSecondFlight_3             3609 non-null   int64  
 28  DepartureTimeHours_1               3609 non-null   float64
 29  DepartureTimeHours_2               3609 non-null   float64
 30  DepartureTimeHours_3               3609 non-null   float64
 31  DepartureTimeMins_1                3609 non-null   int64  
 32  DepartureTimeMins_2                3609 non-null   int64  
 33  DepartureTimeMins_3                3609 non-null   int64  
 34  ArrivalTimeHours_1                 3609 non-null   float64
 35  ArrivalTimeHours_2                 3609 non-null   float64
 36  ArrivalTimeHours_3                 3609 non-null   float64
 37  ArrivalTimeMins_1                  3609 non-null   int64  
 38  ArrivalTimeMins_2                  3609 non-null   int64  
 39  ArrivalTimeMins_3                  3609 non-null   int64  
 40  FlyingTimeHours_1                  3609 non-null   float64
 41  FlyingTimeHours_2                  3609 non-null   float64
 42  FlyingTimeHours_3                  3609 non-null   float64
 43  TripTimeHours_1                    3609 non-null   float64
 44  TripTimeHours_2                    3609 non-null   float64
 45  TripTimeHours_3                    3609 non-null   float64
 46  Legroom_1                          3609 non-null   int64  
 47  Legroom_2                          3609 non-null   int64  
 48  Legroom_3                          3609 non-null   int64  
 49  Fare_1                             3609 non-null   int64  
 50  Fare_2                             3609 non-null   int64  
 51  Fare_3                             3609 non-null   int64  
 52  BestAlternative_1                  3609 non-null   int64  
 53  BestAlternative_2                  3609 non-null   int64  
 54  BestAlternative_3                  3609 non-null   int64  
 55  TripPurpose                        3609 non-null   int64  
dtypes: float64(14), int64(42)
memory usage: 1.5 MB

第0项是id，第1-15包含了决策者的个人信息，为决策者变量；16-51为备选项属性，后面的1、2、3区分三个选项；52-54为0-1型数据，代表是否选择该项。

3.2长宽数据转换

常用的机器学习模型大多使用宽数据，但Logit使用的是长数据，在这里使用pylogit.convert_wide_to_long方法进行宽转长的操作。

#决策者变量
ind_var=['OriginGMT', 'DestinationGMT', 'Direction', 'q02_TripPurpose',
       'q03_WhoPays', 'q11_DepartureOrArrivalIsImportant', 'q12_IdealDepTime',
       'q13_IdealArrTime', 'q14_PartySize', 'q15_Age', 'q16_Income',
       'Cont_Income', 'q17_Gender', 'q19_Occupation', 'q20_Education','TripPurpose']
#备选项属性变量
spv=['AirlineFirstFlight','AirlineSecondFlight','AirplaneFirstFlight','AirplaneSecondFlight',
     'DepartureTimeHours','DepartureTimeMins','ArrivalTimeHours','ArrivalTimeMins','FlyingTimeHours',
    'TripTimeHours','Legroom','Fare']

#备选项对应的字段
alt_varying_var={}
for n in spv:
    dic={}
    for i in 1,2,3:
        dic[i]=n+'_'+str(i)
    alt_varying_var[n]=dic

#选项可用性
avail_var={1:'avil_1',2:'avil_2',3:'avil_3'}

#备选项id
alt_id='ALT_ID'

#观测id
obs_id='OBS_ID'
airline[obs_id]=np.arange(airline.shape[0],dtype=int)+1

#选择结果
choice_id='choice'
long_df=pl.convert_wide_to_long(airline,ind_var,alt_varying_var,avail_var,obs_id,choice_id,new_alt_id_name=alt_id)

3.3数据初筛

当数据特征多且杂时，要在一开始对数据进行初步筛选，这一步要结合数据的信息与个人经验：

删掉空值过多的特征。
信息高度重合的特征只保留一个。
删掉与目标无关联的特征。

除此之外要尽可能保留特征，被删掉的特征也不是被判了“死刑”，后续视情况决定是否恢复。可以用df.info()函数查看数据的格式及空值情况。
最后经过长宽转化、数据清洗及初筛后保留下的结果：

OBS_ID	ALT_ID	Direction	q02_TripPurpose	q03_WhoPays	q11_DepartureOrArrivalIsImportant	q14_PartySize	q15_Age	q16_Income	q20_Education	q17_Gender	q19_Occupation	FlyingTimeHours	DepartureTimeHours	ArrivalTimeHours	TripTimeHours	Legroom	Fare	choice
2	1	1	2	1	2	1	3.5	10	6	1	1	2.53333	7.5	10.0333	2.53333	2	315	0
2	2	1	2	1	2	1	3.5	10	6	1	1	3.03333	15	18.5333	3.53333	2	315	1
2	3	1	2	1	2	1	3.5	10	6	1	1	3.03333	12	16.5333	4.53333	3	350	0
3	1	1	2	1	1	2	3.5	6	6	1	2	2.53333	7.5	10.0333	2.53333	3	195	0
3	2	1	2	1	1	2	3.5	6	6	1	2	3.03333	9	13.5333	4.53333	1	160	1
3	3	1	2	1	1	2	3.5	6	6	1	2	3.03333	12	17.0333	5.03333	4	170	0
4	1	1	2	3	1	2	6	12	6	2	2	0.966667	18	18.9667	0.966667	3	135	0
4	2	1	2	3	1	2	6	12	6	2	2	1.46667	18	21.4667	3.46667	3	125	0
4	3	1	2	3	1	2	6	12	6	2	2	1.46667	12	13.9667	1.96667	1	140	1
6	1	2	4	1	1	1	3.5	7	5	2	5	4.56667	7	14.5667	4.56667	3	400	1
6	2	2	4	1	1	1	3.5	7	5	2	5	5.06667	13	22.0667	6.06667	1	330	0

4.模型构建

4.1单因素分析

简单来说，单因素分析方法就是检验分析一个因素与另外一个因素的关联的分析方法，单因素分析只观察两个因素间的关联，不代表因果关系。这里应用单因素分析对特征进行进一步筛选。

方法	应用数据类型	例子
卡方检验	定类和定类	性别和是否戴眼镜之间的关系
t检验、ANOVA	定类和定量	性别和身高的关系
pearson相关系数	定量和定量	身高和体重的关系

除上述方法外，还可以使用单因素回归分析，不同于单因素分析利用传统统计学手段，单因素回归分析是将单个特征和待拟合项纳入我们的回归模型，其效果作为我们筛选特征的依据。
在我们的例子中，因变量是定类的数据，所以选择卡方检验来分析定类的特征，对定量的特征我们直接代入Logit模型进行单因素回归分析。注意这里使用的是宽数据而非最终带入模型的长数据。

卡方分析

##卡方分析
from scipy.stats import chi2_contingency 
import statsmodels.api as sm
from sklearn import metrics
def Disc_var_test(df,col,target):
    p_value=[]
    for n in col:
        crosstab=pd.crosstab(df[n],df[target])
        p=chi2_contingency(crosstab)[1]
        p_value.append(p)
    df=pd.DataFrame({'features':col,'p_value':p_value})
    return df


col=['Direction','q02_TripPurpose','q03_WhoPays','q11_DepartureOrArrivalIsImportant','q17_Gender','q19_Occupation']
Disc_var_test(df_wide,col,'choice')

MNL模型单因素回归分析

import pandas
import statsmodels.api as st#利用MNL模型单因素回归分析
def Mnl_var_test(df,col,target):
    l1,l2,l3,l4=[],[],[],[]
    for n in col:
        mdl = st.MNLogit(df_wide[target],df_wide[n])
        mdl_fit = mdl.fit()
        mdl_margeff = mdl_fit.get_margeff()
        l=list(mdl_margeff.summary_frame()['Pr(>|z|)'])
        l1.append(l[0])
        l2.append(l[1])
        l3.append(l[2])
        l4.append(mdl_fit.aic)
    df=pd.DataFrame({'features':col,'p_value_1':l1,'p_value_2':l2,'p_value_3':l3,'aic':l4})
    return df

col=['q14_PartySize','q15_Age','q16_Income','q20_Education','FlyingTimeHours_1','FlyingTimeHours_2','FlyingTimeHours_3'
      ,'DepartureTimeHours_1','DepartureTimeHours_2','DepartureTimeHours_3'
      ,'ArrivalTimeHours_1','ArrivalTimeHours_2','ArrivalTimeHours_3'
      ,'TripTimeHours_1','TripTimeHours_2','TripTimeHours_3'
      ,'Legroom_1','Legroom_2','Legroom_3'
      ,'Fare_1','Fare_2','Fare_3']
Mnl_var_test(df_wide,col,'choice')

结果汇总

定类数据结果	定量数据结果

剔除p>0.05的特征，即：
q11_DepartureOrArrivalIsImportant q17_Gender q19_Occupation

4.2共线性检测

由于Logit模型是线性模型，变量间严重的多重共线性会影响参数估计的准确性以及泛化能力，所以要对数值型数据进行线性共线性检测。这里使用variance indlation factor（方差膨胀因子）进行评估：
VIF的一般标准为：

当0
当5
当10
当VIF>100，严重共线性。

在这里处理vif大于10的特征，保留单变量分析中aic最小的变量。

在这里插入代码片from statsmodels.stats.outliers_influence import variance_inflation_factor
X=df_wide[['q14_PartySize','q15_Age','q16_Income','q20_Education','FlyingTimeHours_1','FlyingTimeHours_2','FlyingTimeHours_3'
      ,'DepartureTimeHours_1','DepartureTimeHours_2','DepartureTimeHours_3'
      ,'ArrivalTimeHours_1','ArrivalTimeHours_2','ArrivalTimeHours_3'
      ,'TripTimeHours_1','TripTimeHours_2','TripTimeHours_3'
      ,'Legroom_1','Legroom_2','Legroom_3'
      ,'Fare_1','Fare_2','Fare_3']]
vif=pd.DataFrame()
vif['VIF Factor']=[variance_inflation_factor(X.values,i) for i in range(X.shape[1])]
vif['features']=X.columns
print(vif)

剔除共线性前

      VIF Factor              features
0   4.197024e+00         q14_PartySize
1   1.538147e+01               q15_Age
2   8.150309e+00            q16_Income
3   1.385489e+01         q20_Education
4            inf     FlyingTimeHours_1
5            inf     FlyingTimeHours_2
6            inf     FlyingTimeHours_3
7   6.470689e+12  DepartureTimeHours_1
8   2.144571e+13  DepartureTimeHours_2
9   2.180920e+13  DepartureTimeHours_3
10  1.235555e+13    ArrivalTimeHours_1
11  5.060224e+13    ArrivalTimeHours_2
12  5.146971e+13    ArrivalTimeHours_3
13           inf       TripTimeHours_1
14  4.370305e+12       TripTimeHours_2
15  4.419627e+12       TripTimeHours_3
16  5.904812e+00             Legroom_1
17  5.905125e+00             Legroom_2
18  6.059211e+00             Legroom_3
19  5.584576e+01                Fare_1
20  5.883837e+01                Fare_2
21  5.442192e+01                Fare_3

剔除共线性后

   VIF Factor           features
0    3.900565      q14_PartySize
1    5.741539         q16_Income
2    9.107147  FlyingTimeHours_1
3    5.134774          Legroom_1
4    4.759455          Legroom_2
5    4.844795          Legroom_3
6    7.644040             Fare_1

4.3哑变量处理

对于三值以上的离散变量要进行哑变量处理

from sklearn.preprocessing import OneHotEncoder
col=['Direction','q02_TripPurpose','q03_WhoPays']
col1=['Direction','q02_TripPurpose','q03_WhoPays']
col2=['q14_PartySize','q16_Income']
col3=['OBS_ID','ALT_ID','TripTimeHours','Legroom','Fare','choice']
df_long=clean(long_df,col1,col2,col3)
# #将值作映射
def make_dummy(df,col):
    encode = pd.get_dummies(df[col])
    df=df.drop(col,1)
    df=pd.concat([df,encode],axis=1)
    return df
data=make_dummy(df_long,col)

4.4模型训练

MNL模型需要满足IIA假设，即无关选择独立性假设。具体来说对于任何决策者，选择两个备选项的概率之比与其他选项的存在无关。换句话说，选项之间不能有明显的从属关系，但在我们的例子中，选项二和选项三都有中转行为，明显区别于选项一，所以我们使用NL嵌套Logit模型代替MNL。

from collections import OrderedDict
User=['Direction_1', 'Direction_2', 'q02_TripPurpose_1',
       'q02_TripPurpose_2', 'q02_TripPurpose_3', 'q02_TripPurpose_4',
       'q03_WhoPays_1', 'q03_WhoPays_2', 'q03_WhoPays_3','q14_PartySize', 'q16_Income']
# User=[]
Dicision=['Legroom','Fare']
Features=User+Dicision

nest,basic_spec,basic_name=OrderedDict(),OrderedDict(),OrderedDict()
nest['one_flight']=[1]
nest['two_flight']=[2,3]

basic_spec['intercept']=[1,2,3]
basic_name['intercept']=['ASC_1','ASC_2','ASC_3']

for n in User:
    basic_name[n]=[n]
    basic_spec[n]=[[1,2,3]]

for n in Dicision:
    basic_name[n]=[n+'_'+str(i) for i in range(1,4)]
#     basic_name[n]=[n]
    basic_spec[n]=[1,2,3]
    
mnl=pl.create_choice_model(
    data=data,
    alt_id_col='ALT_ID',
    obs_id_col='OBS_ID',
    choice_col='choice',
    specification=basic_spec,
    model_type='Nested Logit',
    names=basic_name,
    nest_spec=nest
)
mnl.fit_mle(np.zeros(22))
mnl.get_statsmodels_summary()

5.结果

Dep. Variable:	choice	No. Observations:	1,761
Model:	Nested Logit Model	Df Residuals:	1,739
Method:	MLE	Df Model:	22
Date:	Thu, 16 Jun 2022	Pseudo R-squ.:	0.358
Time:	21:18:13	Pseudo R-bar-squ.:	0.346
AIC:	2,260.567	Log-Likelihood:	-1,108.283
BIC:	2,380.987	LL-Null:	-1,727.465

	coef	std err	z	p_value	[0.025	0.975]
one_flight	0	nan	nan	nan	nan	nan
two_flight	0.3720	0.254	1.466	0.143	-0.125	0.869
ASC_1	0.6701	nan	nan	nan	nan	nan
ASC_2	-0.2182	nan	nan	nan	nan	nan
ASC_3	-0.4519	nan	nan	nan	nan	nan
Direction_1	-2.395e-13	4.17e+21	-5.74e-35	1.000	-8.18e+21	8.18e+21
Direction_2	-1.131e-12	4.21e+21	-2.68e-34	1.000	-8.26e+21	8.26e+21
q02_TripPurpose_1	-2.475e-13	nan	nan	nan	nan	nan
q02_TripPurpose_2	-1.024e-12	nan	nan	nan	nan	nan
q02_TripPurpose_3	-1.863e-14	nan	nan	nan	nan	nan
q02_TripPurpose_4	-7.025e-14	nan	nan	nan	nan	nan
q03_WhoPays_1	-1.109e-12	nan	nan	nan	nan	nan
q03_WhoPays_2	-1.833e-13	nan	nan	nan	nan	nan
q03_WhoPays_3	-2.636e-14	nan	nan	nan	nan	nan
q14_PartySize	-2.206e-12	2.09e+14	-1.06e-26	1.000	-4.09e+14	4.09e+14
q16_Income	-1.147e-11	4.32e+13	-2.66e-25	1.000	-8.46e+13	8.46e+13
Legroom_1	0.1991	0.053	3.733	0.000	0.095	0.304
Legroom_2	0.1185	0.053	2.238	0.025	0.015	0.222
Legroom_3	0.1448	0.054	2.692	0.007	0.039	0.250
Fare_1	-0.0177	0.001	-15.623	0.000	-0.020	-0.015
Fare_2	-0.0201	0.001	-14.779	0.000	-0.023	-0.017
Fare_3	-0.0192	0.001	-14.381	0.000	-0.022	-0.017
TripTimeHours_1	-0.4809	0.095	-5.051	0.000	-0.668	-0.294
TripTimeHours_2	-0.2588	0.083	-3.130	0.002	-0.421	-0.097
TripTimeHours_3	-0.3010	0.083	-3.617	0.000	-0.464	-0.138

我们发现虽然前面做了那么多分析，从结果来看真正显著的项只有Legroom Fare TripTime，即座位空间、票价和旅行时间，与选择者本人的属性如收入、旅行人数等都无关联。
从系数来看，其中影响程度最大的为旅行时间，其次是座位空间，票价反倒影响不那么大。其中的缘由可能就是统计学实验中的选择性偏差吧，飞机属于较昂贵的出行方式，购买机票的群体本身对价格并不十分敏感，更看重飞行体验。
完整代码及数据

从传统Cube到现代化指标体系：物化视图驱动的指标平台升级之路镜舟科技 StarRocks 物化视图数据架构 OLAP 数据分析数据库湖仓一体
在高并发、高吞吐量的数据分析场景下，简单的事情往往变得不那么简单。一个业务逻辑简单的指标大盘，在日常情况下可能运行良好，但一旦面临大促或年终数据汇总等高峰期，就会出现卡顿甚至崩溃的情况。为什么在这些特定场景下，原本稳定的系统会变得不稳定？这是因为传统的指标大盘解决方案在设计时，往往没有针对高并发、多维度分析和秒级刷新等特殊需求做好充分准备。一、传统数据架构在指标分析场景下的困境1.指标平台的常见诉
python + selenium通过滑块验证 weixin_51144854 python selenium 爬虫 opencv
1、介绍使用python进行自动化操作或者爬虫过程中，可能会遇到需要进行验证的情况。本文介绍了两种通过滑块验证的方法：轮廓检测通过OpenCV进行轮廓检测，找到滑块背景中缺口的位置，计算缺口到滑块的距离。模板匹配通过OpenCV分析滑块背景图与滑块的相似度，找到滑块背景图中与滑块最相似的区域就是缺口的位置，然后计算缺口到滑块的距离。2、轮廓检测测试地址：https://accounts.douba
Python爬虫实战：研究MarkupSafe库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 MarkupSafe
1.引言1.1研究背景与意义随着互联网数据量的爆炸式增长，网页内容自动提取与分析技术在信息检索、舆情监控、数据挖掘等领域的需求日益凸显。网络爬虫作为获取网页内容的核心工具，能够自动化采集互联网信息。然而，直接渲染爬取的网页内容存在安全隐患，特别是跨站脚本攻击（XSS）风险。攻击者可能通过注入恶意脚本窃取用户信息或破坏网站功能。MarkupSafe作为Python的安全字符串处理库，能够有效处理不可
Python爬虫实战：研究sanitize库相关技术 ylfhpy 爬虫项目实战 python 爬虫网络开发语言安全 sanitize
1.引言1.1研究背景与意义在当今数字化时代，互联网已成为人们获取信息、交流互动的重要平台。随着Web2.0技术的发展，用户生成内容(UGC)、社交媒体嵌入、第三方插件等功能极大丰富了网页的内容和交互性，但也带来了严峻的安全挑战。根据Web应用安全联盟(WAS)的统计数据，2025年全球范围内因网页安全漏洞导致的数据泄露事件超过15万起，造成的经济损失高达250亿美元。其中，跨站脚本攻击(XSS)
Python爬虫实战：研究xmltodict库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 xmltodict
1.引言1.1研究背景与意义气象数据在农业生产、交通规划、灾害预警等多个领域具有重要应用价值。传统的气象数据获取方式主要依赖于气象部门发布的统计信息，存在更新不及时、数据维度有限等问题。随着互联网技术的发展，气象网站提供了丰富的实时气象数据，但这些数据通常以HTML、XML等非结构化或半结构化形式存在，难以直接利用。因此，开发高效的数据采集与解析系统具有重要的现实意义。1.2国内外研究现状网络爬虫
Pthon httpx 使用代理下载文件（qbit）
前言技术栈Python3.11.8httpx0.28.1示例代码#encoding:utf-8#author:qbit#date:2025-06-30#summary:httpx使用代理下载文件importhttpxproxy='http://127.0.0.1:8081'defDownFile(url,file):withopen(file,'wb')asf:withhttpx.stream('
python网络安全实战_基于Python网络爬虫实战 weixin_39907850 python网络安全实战
文件的操作：一般都要使用os模块和os.path模块importos.pathos.path.exists('D:\\Python\\1.txt')#判断文件是否存在abspath(path)#返回path所在的绝对路径dirname(p)#返回目录的路径exists(path)#判断文件是否存在getatime(filename)#返回文件的最后访问时间getctime(filename)#返回
Java流式处理太阳伞下的阿呆 java 生成器迭代器 stream 流式处理
在Java中，没有直接类似Python生成器的语法，但可以通过迭代器（Iterator）和流式处理（如使用Spliterator或ReactiveStreams）来实现类似生成器的功能。此外，也可以通过BlockingQueue和线程的组合实现异步文件解压流。以下是几种实现方式：**方法1：使用****Iterator**实现一个Iterator，在每次调用next()时返回解压完成的下一个文件名
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘numpy’问题
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘numpy’问题摘要在日常Python开发过程中，pipinstall相关的问题频繁困扰着新手和老手。尤其是在PyCharm控制台下执行pipinstallnumpy后，仍然报ModuleNotFoundError:Nomodulenamed'n
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘flask’问题 lyzybbs 全栈Bug解决方案专栏 python pycharm pip sklearn 开发语言 flask pandas
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘flask’问题摘要在进行Python开发时，我们常常会遇到通过pipinstall安装依赖包时出现的各种问题。其中最常见的报错之一是ModuleNotFoundError:Nomodulenamed‘flask’。这个错误通常发生在安装Flas
MCP+A2A：从实验室到生产环境的落地之旅 CarlowZJ AI应用落地+MCP+A2A 数据库 MCP+A2A
目录摘要一、引言二、MCP与A2A概念讲解（一）MCP（ModelContextProtocol）（二）A2A（Application-to-Application）（三）MCP与A2A的融合三、MCP+A2A技术架构图与工作流程图（一）整体架构图（二）工作流程图四、MCP+A2A代码示例（一）基于Python的MCP+A2A通信示例（二）基于Java的MCP+A2A应用集成示例五、MCP+A2A
文心大模型4.5及X1重磅上线，真实测评
2025年3月16日，人工智能领域迎来一场重要盛事——百度文心大模型4.5如期正式发布。与此同时，百度还惊喜推出了另一款全新模型——文心大模型X1。目前，文心大模型4.5和X1已在文心一言官网（https://yiyan.baidu.com/）正式上线，并免费向用户开放。其中，文心大模型4.5面向企业用户和开发者，用户可以通过登录百度智能云千帆大模型平台，轻松调用文心大模型4.5的API接口，快速
Python爬虫实战：研究difflib库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui 开发语言前端 difflib
1.引言1.1研究背景与意义在信息爆炸的数字时代，互联网每天产生海量文本内容。据统计，全球新闻网站日均发布文章超过300万篇，社交媒体平台产生的文本信息量更以亿级单位增长。这种信息过载带来了内容同质化、抄袭剽窃等问题，给新闻媒体行业、学术研究领域和搜索引擎优化等带来了挑战。文本相似度分析作为自然语言处理的重要分支，能够有效识别内容间的相似程度，具有重要的应用价值：新闻媒体行业：通过检测新闻抄袭和重
人工智能-基础篇-10-什么是卷积神经网络CNN（网格状数据处理：输入层，卷积层，激活函数，池化层，全连接层，输出层等） weisian151 人工智能人工智能 cnn 神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频、音频）设计的深度学习模型。它通过模拟生物视觉机制，从原始数据中自动提取多层次的特征，最终实现高效的分类、检测或生成任务。1、核心概念与原理1、生物视觉启发局部感受野：模仿人类视觉皮层神经元仅响应局部区域刺激的特性，每个神经元关注输入数据的局部区域（如图像的一小块区域）。权值共享：同一
3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——2.SimHash算法文本去重实战案例：新闻文章去重场景
SimHash算法文本去重实战案例：新闻文章去重场景一、案例背景与目标二、具体实现步骤与示例1.**待去重文本示例**2.**步骤1：文本预处理与特征提取**3.**步骤2：特征向量化与哈希映射**4.**步骤3：特征向量聚合**5.**步骤4：降维生成SimHash值**6.**步骤5：计算汉明距离与去重判断**三、工程化实现代码（Python简化示例）四、案例总结与优化点一、案例背景与目标假设
python系列教程246——多态人工智能AI技术 python系列教程 python 开发语言
朋友们，如需转载请标明出处：https://blog.csdn.net/jiangjunshow声明：在人工智能技术教学期间，不少学生向我提一些python相关的问题，所以为了让同学们掌握更多扩展知识更好地理解AI技术，我让助理负责分享这套python系列教程，希望能帮到大家！由于这套python教程不是由我所写（有时候有空也会参与编写），所以不如我的人工智能教程风趣幽默，学起来比较枯燥；但它的知
Python 解析 AI 在能源管理与智能电网中的应用头发在线失联 python 人工智能开发语言
```htmlPython解析AI在能源管理与智能电网中的应用Python解析AI在能源管理与智能电网中的应用随着全球对可持续发展的重视和能源需求的不断增长，能源管理与智能电网技术正在成为研究和实践的重要领域。在这个背景下，人工智能（AI）作为一项前沿技术，正被广泛应用于能源管理与智能电网中，以提高效率、优化资源分配并减少环境影响。本文将探讨Python如何在这一领域中发挥作用，并解析其具体应用场
如何实现聊天模型响应流式处理 yunwu12777 langchain
在现代人工智能应用中，流式处理聊天模型的响应成为一种常见需求，特别是在需要实时输出或大规模处理时。本文将详细介绍如何在Python中实现聊天模型的同步和异步流式处理，使用langchain库中提供的ChatAnthropic模型作为示例。技术背景介绍流式处理是指从模型逐步获取输出，而不是等待整个输出完成。这对于处理长文本生成或需要动态响应的应用场景特别有用。langchain库中的聊天模型实现了R
解锁UV工具新玩法：让Python脚本运行更高效的实用技巧 marao python uv 深度学习开发语言人工智能
作为Python开发者，你是否经常被依赖安装的漫长等待、虚拟环境的繁琐管理，或是脚本分享时“环境不一致”的问题困扰？近年来，一款名为UV的工具悄然兴起，它不仅以极速安装依赖著称，更通过一系列创新设计重构了Python脚本的运行逻辑。本文主要介绍UV的三大实用技巧，从“依赖即代码”到“动态环境隔离”，体验真正“即写即跑”的高效开发模式。1.极速启动：1秒搞定依赖安装，告别虚拟环境烦恼传统Python
Centos7.9 使用宝塔部署Python3.12 .0 cceyatao python 宝塔 python3.12 python项目管理器
使用宝塔安装Python3.12运行之后提示ImportError:Nomodulenamed_ssl，因为服务器有python2.7的项目正在运行，所以需要新建python3.12.0因为CentOS7默认的OpenSSL1.0.x较旧,不满足Python3.12的要求（需要1.1.1或更高）1、安装OpenSSL：CentOS7默认OpenSSL可能较旧（1.0.x）。安装OpenSSL1.1
python中解决Chrome中文字体显示为方框的问题张苹果博客 python chrome 开发语言
当您在CentOS或RHEL系统上处理中文内容时，可能会遇到字体显示为方框或乱码的情况。这是因为系统默认没有安装中文字体包。本指南将详细介绍如何正确安装和配置中文字体。原文地址：python中解决Chrome中文字体显示为方框的问题-张苹果博客字体显示问题示例如下：在CentOS/RHEL上安装中文字体的正确方法1.使用yum安装中文字体#安装文泉驿中文字体sudoyuminstall-ywqy-
Python包管理新纪元：极速工具 uv 完全指南（2025最新版） coder_风逝 Python数据挖掘分析 python uv 开发语言
作为Python开发者，你是否还在忍受pip缓慢的依赖解析速度？是否厌倦了在virtualenv、pip-tools和poetry之间来回切换？今天我要向大家介绍一款革命性的工具—uv，它将彻底改变你的Python开发体验！一、uv是什么？uv是由打造了Ruff（Python超速Linter）的Astral团队开发的全新Python包管理工具，基于Rust编写，旨在成为"Python界的Cargo
Python 包管理新选择：全面了解 uv（附 Conda 对比）茫茫人海一粒沙 python uv conda
在Python的世界里，我们常用pip安装依赖，用venv创建虚拟环境，还可能用pip-tools来生成锁文件。这些工具虽然灵活，但组合使用时也容易让人混乱。最近，一个名叫uv的新工具火了起来，目标是统一和简化整个Python包管理流程。uv是什么？uv是由Astral开发的一个超快的Python包管理器，用Rust编写。它旨在作为pip、pip-tools、virtualenv和python-b
AI人工智能助力空间智能领域提升运营效率 AI智能探索者 AI Agent 智能体开发实战人工智能网络 ai
AI人工智能助力空间智能领域提升运营效率关键词：AI人工智能、空间智能领域、运营效率、智能算法、数据驱动摘要：本文聚焦于AI人工智能在空间智能领域的应用，旨在探讨其如何助力该领域提升运营效率。首先介绍了空间智能领域的背景和相关概念，阐述了AI在其中的核心作用和原理。接着详细讲解了相关核心算法，并结合数学模型进行分析。通过项目实战案例展示了AI在空间智能领域的具体应用和实现方式。同时探讨了实际应用场
人工智能的发展历程与未来展望唐骁虎 ai
人工智能的发展历程与未来展望一、人工智能的起源与早期发展1.1人工智能的定义与概念起源人工智能（AI）的定义与概念起源可追溯至20世纪中叶，当时一群具有远见的科学家和工程师开始探索机器是否能够模拟人类智能行为。1956年，在达特茅斯会议上，约翰·麦卡锡首次提出了“人工智能”这一术语，标志着该领域的正式诞生。AI的定义涉及创建能够执行需要人类智能的任务的机器，如视觉感知、语音识别、决策和语言翻译等。
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
如何让人工智能使你的工作效率一日千里南风过闲庭人工智能 ai python
1.自动化重复性任务1.1识别并自动化日常任务提高工作效率的首要步骤是识别日常工作中重复性高且耗时的任务。根据麦肯锡全球研究院的报告，知识工作者大约有40%的时间花费在此类任务上。通过自动化这些任务，员工可以将更多时间投入到需要创造性思维和复杂决策的工作上。数据支持：一项针对500名知识工作者的调查显示，通过自动化日常任务，平均每天可以节省2小时的工作时间。这些任务包括数据录入、文件整理、邮件分类
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
RoomGPT: 人工智能驱动的室内设计革命 m0_56734068 人工智能
RoomGPT:用AI重新定义室内设计在当今数字化时代,人工智能正在改变各个行业的面貌,室内设计领域也不例外。RoomGPT作为一款革命性的AI驱动室内设计工具,正在彻底改变人们对室内空间进行创意和改造的方式。本文将深入探讨RoomGPT的工作原理、使用方法以及它为室内设计行业带来的变革。RoomGPT简介RoomGPT是一个开源项目,由GitHub用户Nutlope开发。它允许用户上传任何房间的
同花顺python_【本地直连】同花顺 Python量化交易接口上线 weixin_39938724 同花顺python
来源：雪球App，作者：私募之家THS，（https://xueqiu.com/5808549553/129022113）导读：同花顺智能交易终端MindGo版已上线2年多，凭借着同花顺深厚的技术底蕴，不断地对终端进行优化。至今，已服务近1000位个人客户，超过200家私募机构，市场份额不断扩大。目前终端已实现：支持股票、指数、基金、期货、外汇、黄金T+D等6个品种日/分钟级策略回测投研策略无缝对
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(