艾醒(AiXing-w)

广告营销用户点击预测分析

零、数据集以及数据集简介以及任务分析
一、数据预处理
- 1、加载检查数据
- - （1）特殊特征
  - （2）特殊特征的处理
  - （3）特殊特征处理后生成的新特征
- 2、数据类型与缺失值处理
- - （1）查看数据信息
  - （2）数据补全以及类型转换
  - （3）补全后的数据
- 3、异常值分析
二、探索性分析与特征工程
- 1、单变量图分析
- - （1）原数据变量分析
  - （2）处理数据
  - - 1.添加新特征
    - 2.id映射
  - （3）数据处理后变量分析
- 2、相关性关系分析
- - （1）计算相关矩阵
  - （2）热力图显示
- 3、特征工程与特征选择
- 4、双变量图分析
- 5、新特征生成
三、机器学习模型交叉验证
- 1、欠采样并划分数据集
- 2、归一化
- 3、不同模型进行交叉验证对比效果
- - （1）决策树
  - （2）贝叶斯
  - （3）随机森林
  - （4）bagging
  - （5）ada boosting
  - （6）逻辑回归
  - （7）深度学习全连接模型
  - （8）随机梯度下降
  - （9）xgboost
  - （10）GradientBoosting
  - （11）投票器
- 4、精度和召回率
- 5、logloss
四、对模型进行超参数调整
- 1、针对最佳模型，进行超参数优化
- 2、评估效果
五、结论
- 得出结论性分析

零、数据集以及数据集简介以及任务分析

项目任务：

根据海量广告投放的用户点击数据，通过机器学习构建预测模型预估用户的是否进行广告点击，即给定某条广告相关的媒体、上下文内容等信息和用户标签的条件下，预测这个用户是否点击此广告。我们的任务就是通过分析数据，对于数据进行

训练数据集
train1.txt和train2.txt
两个数据集可以使用pandas读入

字段	说明
instance_id	样本id
click	是否点击
adid	广告id
advert_id	广告主id
orderid	订单id
advert_industry_inner	广告主行业
advert_name	广告主名称
campaign_id	活动id
creative_id	创意id
creative_type	创意类型
creative_tp_dnf	样式定向id
creative_has_deeplink	响应素材是否有deeplink(Boolean)
creative_is_jump	是否是落页跳转(Boolean)
creative_is_download	是否是落页下载(Boolean)
creative_is_js	是否是js素材(Boolean)
creative_is_voicead	是否是语音广告(Boolean)
creative_width	创意宽
creative_height	创意高
app_cate_id	app分类
f_channel	一级频道
app_id	媒体id
inner_slot_id	媒体广告位
app_paid	app是否付费
user_tags	用户标签信息，以逗号分隔
city	城市
carrier	运营商
time	时间戳
province	省份
nnt	联网类型
devtype	设备类型
os_name	操作系统名称
osv	操作系统版本
os	操作系统
make	品牌(例如:apple)
model	机型(例如:“iphone”)

一、数据预处理

1、加载检查数据

data = pd.read_csv("train1.txt",sep='\t')
data.append(pd.read_csv("train2.txt",sep='\t'))

（1）特殊特征

我们可以看到user_tags这个特征和其他的有很大的区别，他包含了多个特征，并且每个数据所含的user_tags的特征并不相同，所以为了方便后期处理我们先把user_tags特征从data中分离出来单独处理

user_tags = data["user_tags"]
data = data.drop("user_tags", axis=1)

（2）特殊特征的处理

由于user_tags特征较为特殊，并且长度不唯一，所以我们采用以下方式对他进行处理

1.补全空数据，这里默认为空的数据即为没有任何标签，在这里我们规定设为标签‘0’
2.统计每种用户标签在用户中出现的次数
3.取前save_n个在用户中出现的最多作为保留标签
4.假设数据条数为n，建立一个形状为（n，save_n）的二维零矩阵:user_tags_mark
5.如果第i条数据的用户标签中存在保留标签j，我们将user_tags_mark的第i行第j列置为1
6.为了方便之后对新数据进行预测，我们将标签对应的出现次数：tags_dict以及user_tags和user_tags_mark的映射关系tags_map一并保存下来

def get_tags(user_tags, save_n):
    user_tags.fillna('0', inplace=True)
    tags_dict = dict()
    for i in range(len(user_tags)):
        tl = user_tags[i].split(',')
        for t in tl:
            if t in tags_dict.keys():
                tags_dict[t] += 1
            else:
                tags_dict[t] = 1

    tags_dict = sorted(tags_dict.items(), key=lambda x:x[1], reverse=True)[:save_n]
    tags_dict = {key:value for key, value in tags_dict}
    tags_map = {key:value for value, key in enumerate(tags_dict.keys())}

    user_tags_mark = np.zeros((len(user_tags), len(tags_map)))
    for i in range(len(user_tags)):
        tl = user_tags[i].split(',')
        for t in tl:
            if t in tags_map.keys():
                user_tags_mark[i][tags_map[t]] += 1
    return user_tags, tags_dict, tags_map, user_tags_mark
            
user_tags, tags_dict, tags_map, user_tags_mark = get_tags(user_tags, 20)

（3）特殊特征处理后生成的新特征

2、数据类型与缺失值处理

（1）查看数据信息

data.info()

可以看到其中的make, model, osv, os_name, advert_industry_inner, f_channel, inner_slot_id, advert_name,app_cate_id, app_id都有缺失。但他们的补全方式不相同，其中make~advert_name的类型是object，观测数据后发现均是以字符串形式存储的数据、相关信息的缺失可以认为是由于技术手段或者用户不愿意透露导致的，所以这一部分信息的缺失本身也传达着一种信息，所以我们这里将这一类型的数据缺失标记为“NaN”，意为找不到其他数据信息。而app_cate_id, app_id数据类型为float，这里使用中位数来补全以反映大多数的情况。

注：此时的数据已经将user_tags分离出去了

（2）数据补全以及类型转换

由于计算机不能够对字符串格式的数据进行运算，所以我们要将字符串转换为计算机能够理解的标签，我们在数据补全的同时使用OrdinalEncoder将objects_list中的特征转换为标签的格式，并且将字符串和标签的对应关系保存下来（objects_cates）

objects_list = ["make", "model", "osv", "os_name", "advert_industry_inner", "f_channel", "inner_slot_id", "advert_name"]
floats_list = ["app_cate_id", "app_id"]


def Completer(data, bool_list=[], objects_list=[], floats_list=[]):
    from sklearn.preprocessing import OrdinalEncoder
    objects_cates = dict()
    flag = False
    for obj in objects_list:
        flag = True
        data[obj].fillna("NaN", inplace=True)
        
        data_cat = data[[obj]]
        encoder = OrdinalEncoder()
        data_cat = encoder.fit_transform(data_cat)
        cate_dict = dict()
        categories = encoder.categories_[0]
        for i in range(len(categories)):
            cate_dict[categories[i]] = i
        objects_cates[obj] = cate_dict
        data[obj]=data_cat.reshape(-1, 1)[:,0]

    for f in floats_list:
        median = data[f].median()
        data[f].fillna(median, inplace=True)
        
    return data, objects_cates, flag


data, objects_cates, flag = Completer(data, bool_list, objects_list, floats_list)

（3）补全后的数据

3、异常值分析

运用EllipticEnvelope和KNNImputer识别异常值并进行修改

bool_list = ["creative_is_jump", "creative_is_download", "creative_is_js", "creative_is_voicead", "creative_has_deeplink", "app_paid"]

def OutlierHander(data, boll_list):
    from sklearn.covariance import EllipticEnvelope
    from sklearn.impute import KNNImputer
    import numpy as np
    
    for b in bool_list:
        data[b] = data[b].astype(np.float64)
    detector = EllipticEnvelope() # 构造异常值识别器
    detector.fit(data) # 拟合识别器
    idx = detector.predict(data) == -1# 预测异常值
    ls = [i for i in range(len(data))]
    
    data[idx] *= np.nan
    imputer = KNNImputer()
    data = imputer.fit_transform(data)   
    return data

data = OutlierHander(data, bool_list)

注：1.这个函数的运行过程会非常慢；2.要将所有的bool类型转换之后才能进行补全

二、探索性分析与特征工程

众所周知，用户标签（user_tags）可以表明一个一个用户的偏好，从而一定程度上反映用户是否会对广告进行点击。但是这个标签是多维度的数据，尤其是在我们利用用户标签生成新的特征(user_tags_mark)之后，只取一部分用户标签信息来进行分析很明显会引导我们进入一个误区，所以我们在这里保留用户标签这个特征不做分析

1、单变量图分析

（1）原数据变量分析

data.hist(bins=51, figsize=(20, 15))
plt.show()

从图中可以看到：
1.样本id(instance_id)分布比较均匀，并且按照生活常识来讲他对是否点击广告没有什么影响，所以可以去掉这一特征
2.数据的分布的时间(time)呈周期性，说明收集到的数据跟时间相关，在不同时间段中能收集到的数据不同表明不同时间用户看到广告的次数不同，所以我们需要添加新特征，如：周、月特征
3.省份、城市、媒体id、广告id、广告主id、订单id、活动id、创意id、样式定向id由于编码问题会影响作图效果以及后续的训练效果，所以在这里我们做了一个数据映射
4.点击和不点击的数据正负样本不均衡，在训练前应该进行欠采样，即减少对负样本的采样

（2）处理数据

1.添加新特征

data["time"] = pd.to_datetime(df['time'],unit='s',origin=pd.Timestamp('1970-01-01'))
data["month"] = data["time"].dt.month
data["dayofweek"] = data["time"].dt.dayofweek

2.id映射

city_dict = {key:value for value, key in enumerate(set(data["city"]))}

for key, value in city_dict.items():
    tmp = data[data["city"] == key]
    tmp["city"] = value
    data[data["city"] == key] = tmp
    
province_dict = {key:value for value, key in enumerate(set(data["province"]))}

for key, value in province_dict.items():
    tmp = data[data["province"] == key]
    tmp["province"] = value
    data[data["province"] == key] = tmp 
    
campaign_id_dict = {key:value for value, key in enumerate(set(data["campaign_id"]))}

for key, value in campaign_id_dict.items():
    tmp = data[data["campaign_id"] == key]
    tmp["campaign_id"] = value
    data[data["campaign_id"] == key] = tmp 
    
app_id_dict = {key:value for value, key in enumerate(set(data["app_id"]))}

for key, value in app_id_dict.items():
    tmp = data[data["app_id"] == key]
    tmp["app_id"] = value
    data[data["app_id"] == key] = tmp 

adid_dict = {key:value for value, key in enumerate(set(data["adid"]))}

for key, value in adid_dict.items():
    tmp = data[data["adid"] == key]
    tmp["adid"] = value
    data[data["adid"] == key] = tmp 
    
advert_id_dict = {key:value for value, key in enumerate(set(data["advert_id"]))} 

for key, value in advert_id_dict.items():
    tmp = data[data["advert_id"] == key]
    tmp["advert_id"] = value
    data[data["advert_id"] == key] = tmp 
    
orderid_dict = {key:value for value, key in enumerate(set(data["orderid"]))} 

for key, value in orderid_dict.items():
    tmp = data[data["orderid"] == key]
    tmp["orderid"] = value
    data[data["orderid"] == key] = tmp 
    
campaign_id_dict = {key:value for value, key in enumerate(set(data["campaign_id"]))} 

for key, value in campaign_id_dict.items():
    tmp = data[data["campaign_id"] == key]
    tmp["campaign_id"] = value
    data[data["campaign_id"] == key] = tmp 
    
creative_id_dict = {key:value for value, key in enumerate(set(data["creative_id"]))} 

for key, value in creative_id_dict.items():
    tmp = data[data["creative_id"] == key]
    tmp["creative_id"] = value
    data[data["creative_id"] == key] = tmp 
    
creative_tp_dnf_dict ={key:value for value, key in enumerate(set(data["creative_tp_dnf"]))} 

for key, value in creative_tp_dnf_dict.items():
    tmp = data[data["creative_tp_dnf"] == key]
    tmp["creative_tp_dnf"] = value
    data[data["creative_tp_dnf"] == key] = tmp

（3）数据处理后变量分析

2、相关性关系分析

（1）计算相关矩阵

columns = ["tag"+str(i) for i in range(20)]
tags_mark = pd.DataFrame(user_tags_mark, columns=columns)
tags_mark["click"] = data["click"]
data_corr =data.corr()
tags_corr = tags_mark.corr()

（2）热力图显示

data:

plt.matshow(data_corr, cmap=plt.cm.gray)
plt.show()

tags_mark：0

plt.matshow(tags_corr, cmap=plt.cm.gray)
plt.show()

数值越大表明数据相关性越强，在图像中的颜色就越亮，根据data的相关矩阵生成的热力图有几行/列特别亮并不是因为他们的相关性特别强，而是因为相关性过弱导致数值成立NaN。同时可以看到tags_mark整体都比较亮，说明整体tags的相关性较强。但是data和tags的相关性并不大，说明带预测的结果与特征不是线性相关的，需要多个数据共同作用

3、特征工程与特征选择

data_corr["click"].sort_values(ascending=True)

tags_corr["click"].sort_values(ascending=True)

这里我们选用data中相关性较强的特征，而tags_ mark完全保留

4、双变量图分析

from pandas.plotting import scatter_matrix

attributes1 = ["creative_tp_dnf", "campaign_id", "creative_width", "creative_height", "app_id", "advert_name", "creative_type", "click"]

scatter_matrix(data[attributes1], figsize=(12, 8))
plt.show()

可以看到数据之间的联系不大，所以也不存在线性关系

5、新特征生成

在上面的数据分析的过程中已经生成了新特征：dayofweek， month和、user_tags_mask
现在需要将data中相关性较大的特征和tags_mark特征数据合并在一起

new_data = pd.concat([data[attributes1], tags_mark], axis=1)
new_data.tail()

三、机器学习模型交叉验证

1、欠采样并划分数据集

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from random import shuffle

idx = [i for i in range(len(new_data[new_data["click"] == 0]))]
shuffle(idx)
idx = idx[:len(new_data[new_data["click"] == 1])]

data_0 = new_data[new_data["click"] == 0]
data_sample = data_0.sample(n=len(new_data[new_data["click"] == 1]))

new_data = data_sample.append(new_data[new_data["click"] == 1])

x_train, x_test,  y_train, y_test = train_test_split(new_data.drop("click", axis=1), new_data["click"], test_size = 0.3, random_state = 7)

2、归一化

data_std = StandardScaler()
data_std.fit(x_train)
x_train = data_std.transform(x_train)
x_test = data_std.transform(x_test)

3、不同模型进行交叉验证对比效果

由于数据较大，考虑到效率问题首先排除KNN和SVM

（1）决策树

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

tree = DecisionTreeClassifier()
tree.fit(x_train, y_train)
cross_val_score(tree, x_test, y_test)

（2）贝叶斯

from sklearn.naive_bayes import BernoulliNB

nb = BernoulliNB()
nb.fit(x_train, y_train)
cross_val_score(nb, x_test, y_test)

（3）随机森林

from sklearn.ensemble import RandomForestClassifier

rd_tree = RandomForestClassifier()
rd_tree.fit(x_train, y_train)

cross_val_score(rd_tree, x_test, y_test)

（4）bagging

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier(DecisionTreeClassifier(), n_estimators=100)
bag_clf.fit(x_train, y_train)

print("bagging：")
print("交叉验证：", cross_val_score(sgd, x_test, y_test))
print("精度：", precision_score(y_test, bag_clf.predict(x_test)))
print("召回率：", recall_score(y_test, bag_clf.predict(x_test)))

（5）ada boosting

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

ada_clf = AdaBoostClassifier(DecisionTreeClassifier(), n_estimators=100)
ada_clf.fit(x_train, y_train)

print("ada：")
print("交叉验证：", cross_val_score(ada, x_test, y_test))
print("精度：", precision_score(y_test, ada_clf.predict(x_test)))
print("召回率：", recall_score(y_test, ada_clf.predict(x_test)))

（6）逻辑回归

from sklearn.linear_model import LogisticRegression

reg = LogisticRegression()
reg.fit(x_train, y_train)
cross_val_score(reg, x_test, y_test)

（7）深度学习全连接模型

def to_one_hot(y):
    ans = np.zeros((len(y), 2))
    for i in range(len(y)):
        ans[i][y[i]] = 1
    return ans

y_train_hot = to_one_hot(y_train)
y_test_hot =to_one_hot(y_test)

from keras.callbacks import EarlyStopping, ModelCheckpoint
from keras.layers import Dense, Input
from keras.models import Model

early_stopping_cb = EarlyStopping(patience=5, restore_best_weights=True)
checkpoint_cb = ModelCheckpoint("datas.h5", save_best_only=True)

data_input = Input(shape=(27,))
data_layer1 = Dense(128)(data_input)
data_layer2 = Dense(64)(data_layer1)
data_layer3 = Dense(32)(data_layer2)
data_layer4 = Dense(2)(data_layer3)

data_model = Model(data_input, data_layer4)
data_model.compile(optimizer='rmsprop',loss='binary_crossentropy', metrics=['acc'])
data_history = data_model.fit(np.array(list(x_train)), np.array(list(y_train_hot)), epochs=100, validation_split=0.2, batch_size=128, callbacks=[early_stopping_cb, checkpoint_cb])

（8）随机梯度下降

from sklearn.linear_model import SGDClassifier

sgd = SGDClassifier()
sgd.fit(x_train, y_train)
cross_val_score(sgd, x_test, y_test)

（9）xgboost

from xgboost import XGBClassifier
from sklearn.metrics import log_loss

xgb = XGBClassifier()
xgb.fit(x_train, y_train, eval_metric="logloss")

（10）GradientBoosting

由于GradientBoosting属于弱分类器，所以我们这里使用bagging将他集成起来以达到更好的效果

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import BaggingClassifier

gbc = GradientBoostingClassifier()
gbc_bag = BaggingClassifier(gbc, n_estimators=80)
gbc_bag.fit(x_train, y_train)

（11）投票器

from sklearn.ensemble import VotingClassifier

vot_clf = VotingClassifier(estimators=[
    ('xgb_clf', xgb),
    ('gbc_bag_clf', gbc_bag)], voting = 'soft')

vot_clf.fit(x_train, y_train)

cross_val_score(vot_clf, x_test, y_test, cv=5)

4、精度和召回率

	决策树	随机森林	bagging	ada boosting	逻辑回归	深度学习全连接模型	随机梯度下降	贝叶斯
测试数据精度	0.632	0.635	0.634	0.633	0.611	0.501	0.606	0.613
测试数据召回率	0.783	0.816	0.812	0.8095	0.926	0.326	0.951	0.867

5、logloss

	决策树	随机森林	bagging	ada boosting	逻辑回归	深度学习全连接模型	随机梯度下降	贝叶斯	xgboost	GradientBoosting
测试数据logloss	13.29	1.00	0.59	0.74	0.58	11.0	13.57	0.78	0.423	0.429

从上表中可以看到本问题适合使用基于树和集成学习的模型

四、对模型进行超参数调整

1、针对最佳模型，进行超参数优化

根据上述分析我们可以得到这样一张表

	决策树	随机森林	bagging	ada boosting	逻辑回归	深度学习全连接模型	随机梯度下降	贝叶斯	xgboost	GradientBoosting
测试数据准确率	0.664	0.669	0.666	0.664	0.667	0.672	0.666	0.657	-	-
测试数据精度	0.632	0.635	0.634	0.633	0.611	0.501	0.606	0.613	-	-
测试数据召回率	0.783	0.816	0.812	0.8095	0.926	0.326	0.951	0.867	-	-
测试数据logloss	13.29	1.00	0.59	0.74	0.58	11.0	13.57	0.78	0.423	0.429

综合考虑下我们选用xgboost和GradientBoosting进行参数优化

2、评估效果

对xgboost和GradientBoosting模型评估并调参后得到的结果

	xgboost	GradientBoosting
logloss	0.417	0.416

五、结论

得出结论性分析

随机梯度下降模型虽然在精度上表现一般，但是在准确率和召回率上表现很好，尤其是召回率，他的召回率的最高的。逻辑回归的召回率相对较低，logloss较低，但是logloss仍然没达到一个令人满意的程度，xgboost和GradientBoosting的logloss是全体模型中最低的。根据投放广告的实际需求我们可以选择不同的模型，如果苛求每个会点击的用户都能看到广告可以盲目的追求召回率来选择随机梯度下降；如果对logloss有要求，但是要求不高，可以选择逻辑回归；如果侧重于logloss可以选择xgboost和GradientBoosting如果追求更好的效果还可以使用投票器选择最符合评判标准的模型进行投票还可以选择LGBM或者选用对xgboost和GradientBoosting集成学习来获取更好的结果

axios与request的区别懒大王、前端小常识前端 js
axios与request的区别发送数据类型的区别axios会根据要发送的数据来设置合理的Content-type，默认是application/json//data是作为请求主体被发送的数据//只适用于这些请求方法‘PUT’,‘POST’,和‘PATCH’//在没有设置transformRequest时，必须是以下类型之一：//-string,plainobject,ArrayBuffer,Ar
Java实现归并排序算法详解及优化捕风捉你从0开始学算法 java 排序算法算法
引言归并排序（MergeSort）是一种有效、稳定且常用的排序算法，尤其在处理大规模数据时表现良好。本文将详细讲解如何使用Java实现归并排序算法，并结合图解和实例代码，帮助您全面理解这一高级排序算法。同时，我们还将探讨归并排序的优化方法，以进一步提高其性能。归并排序算法的原理归并排序是一种分治算法，它将数组分成两个子数组，分别对两个子数组进行排序，然后将排好序的子数组合并成一个有序数组。算法步骤
spring-boot 整合 shardingsphere-jdbc、mybatis-plus 数据分片（文末有彩蛋）ゞ註﹎錠oo 架构之路 mybatis spring boot spring 数据库
1.什么是ShardingSphere？ApacheShardingSphere是一款分布式的数据库生态系统，可以将任意数据库转换为分布式数据库，并通过数据分片、弹性伸缩、加密等能力对原有数据库进行增强。ApacheShardingSphere设计哲学为DatabasePlus，旨在构建异构数据库上层的标准和生态。它关注如何充分合理地利用数据库的计算和存储能力，而并非实现一个全新的数据库。它站在数
java bean的使用和bean的管理 java初级学习笔记 javaweb java windows linux
bean的使用@Component和其衍生类容器管理(自定义bean对象)@Component//将当前对象交给IOC容器管理,成为IOC容器的beanpublicclassEmpServiceAimplementsEmpService{@Autowired//运行时,从IOC容器中获取该类型对象,赋值给该变量privateEmpDaoempDao;@OverridepublicListlistE
SpringBoot之@Component，@Bean与@Configuration配置编码博客控程序员程序员 JAVA
目前对于Spring帮助我们管理Bean分为两个部分，一个是注册Bean，一个装配Bean。而完成这两个动作有三种方式，一种是使用自动配置的方式、一种是使用JavaConfig的方式，一种就是使用XML配置的方式。接下来我们只是初级的认识它们一.对于XML配置方式如下:<!--使用构造器注入的属性值可以指定参数的类型和参数的位置，以区分重载的构造器如果字面值包含特殊字符
frp配置实现内网穿透（阿里云linux服务器[公网]+内网windows） object_admin centos
Frp配置实现内网穿透一、下载linux和windows环境的安装包注意：server和目标主机下载的frp要同一个版本GitHub下载地址：https://github.com/fatedier/frp/releases可到我的CSDN的下载地址，方便访问不到GitHub的用户下载：https://download.csdn.net/download/object_admin/85170961[
android FragmentTabHost 的简单使用冰糖心158 android 开发
效果图：1、下面是一个简单的Demo,仅供参考packagecom.example.fragmentpageadapter;importjava.util.List;importandroid.os.Bundle;importandroid.support.v4.app.Fragment;importandroid.support.v4.app.FragmentActivity;importand
一文详解大厂数据中台架构 isNotNullX 架构大数据性能优化
在大数据发展的黄金期，几乎所有的高科技企业都在思考一个问题：海量数据作为大多数企业发展不可避免的一个趋势之后，企业该怎么去应用这部分数据资产，会对其商业产生什么影响，如何使数据对企业产生正面的推动而不是成为企业的负担。作为国内的主要大数据玩家，阿里在2015年提出了“大中台、小前台”的战略，奠定了其内部发展数据中台的基础。2018年因为“腾讯数据中台论”，中台再度成为了人们谈论的焦点。至此，关于“
ShardingSphere 功能详细介绍冰糖心158 数据库
ShardingSphere是一个开源的分布式数据库中间件，旨在为数据库提供高可扩展性、可管理性和高可用性，支持数据的分库分表（Sharding）、数据库路由、数据同步等功能。ShardingSphere本质上是一个分布式数据库代理，它提供透明的分布式数据操作，使得应用程序可以像操作单一数据库一样操作分布式数据。ShardingSphere具有以下几个主要功能：1.分库分表（Sharding）Sh
ShardingSphere 注意事项冰糖心158 数据库
在使用ShardingSphere时，需要特别注意一些关键点和最佳实践，以确保系统的稳定性、可扩展性、性能和易维护性。下面列出了在使用ShardingSphere时需要注意的几个重要方面：1.分片规则设计分片策略的选择：ShardingSphere支持多种分片策略，包括哈希分片、范围分片和复合分片。在设计分片规则时，选择合适的分片策略非常重要。哈希分片：适用于分布均匀的数据场景（如订单表的orde
2025/1月植物大战僵尸杂交版V3.1新内容速览与下载 mamahaha2025 游戏机游戏
下载链接点击下载植物大战僵尸杂交版的更新内容包括以下几个方面：1.藏匿战役开放完成主线每章节的第五关可解锁对应的藏匿战役章节。通过藏匿战役关卡可解锁番外植物。藏匿战役后续会不断推出新内容。本次更新后，主线通关将不再额外解锁白卡。藏匿战役第一期提供多达8章的内容，每章节6关，关卡难度较高。2.全新成就系统成就系统开放，并添加35项成就。完成成就可获取限定植物卡牌、限定道具以及金钱奖励。3.新增植物新
一次捋清uniapp小程序微信快速登陆、获取手机号验证、获取用户信息【前端】 m0_74825074 vip1024p uni-app 小程序微信
首先要知道，微信登录和获取手机号、获取用户信息是相互独立的过程，接下来分开讲解这三个东西，内容很干，只用文字描述，认真看、跟着做就行，没有花里胡哨uniapp微信登录流程前端使用uni.login方法获取code（用户的登录凭证）发送给后端后端使用这个code请求code2Session这个接口：https://developers.weixin.qq.com/miniprogram/dev/Op
(1064, “You have an error in your SQL syntax； check the manual that corresponds to your MySQL server m0_74824483 sql 数据库
(1064,“YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyourMySQLserverversionfortherightsyntaxtousenear‘==‘1’’atline1”)这个错误是由于SQL查询语句中使用了错误的语法或者不被MySQL支持的语法所致。在SQL中，条件判断应该使用单个等号=，而不是双等号==
SOA（面向服务架构）全面解析 m0_74823044 架构 java 微服务
1.引言什么是SOA（面向服务架构）SOA（Service-OrientedArchitecture，面向服务架构）是一种将应用程序功能以“服务”的形式进行模块化设计的架构风格。这些服务是独立的功能模块，它们通过定义明确的接口进行通信，并可以跨不同的平台和技术栈相互协作。在SOA中，每个服务通常代表一个独立的业务功能（如客户管理、订单处理等），能够被其他服务独立地调用和复用。SOA的目标是通过服务
解决 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...警告克里斯蒂亚诺罗纳尔多阿维罗 hadoop
这个警告意味着Hadoop在加载本地本机库时遇到了问题。通常情况下，Hadoop会尝试加载本地的本机库以提高性能，但是如果找不到适合你的操作系统和架构的本地库，它会退而使用内置的Java类来模拟所需的功能。虽然这个警告会影响Hadoop的性能，但它并不会导致Hadoop无法正常工作。你仍然可以使用Hadoop，但可能会遇到性能上的损失。解决方法：在Hadoop中，配置'java.library.p
计算机网络（48）P2P应用 IT 青年一研为定计算机网络
前言计算机网络中的P2P（PeertoPeer，点对点）应用是一种去中心化的网络通信模式，它允许设备（或节点）直接连接并共享资源，而无需传统的客户端-服务器模型。一、P2P技术原理去中心化架构：P2P网络不依赖单一的中心服务器，而是由所有参与者共同维护网络和资源。每个节点都可以充当客户端和服务器，可以直接与其他节点通信。资源共享：P2P网络允许参与者共享文件、带宽、计算资源等。这意味着用户可以从其
网络安全，文明上网（2）加强网络安全意识 IT 青年中国好网民阅读
前言在当今这个数据驱动的时代，对网络安全保持高度警觉已经成为每个人的基本要求。网络安全意识：信息时代的必备防御网络已经成为我们生活中不可或缺的一部分，信息技术的快速进步使得我们对网络的依赖性日益增强。然而，网络安全问题也随之日益严重，包括个人信息的泄露、网络诈骗以及黑客攻击等。因此，增强网络安全意识对于保护个人隐私、财产安全乃至国家安全都显得尤为重要。网络安全意识的重要作用网络安全意识是个人在网络
DeepSeek V3：新一代开源 AI 模型，多语言编程能力卓越 that's boy 人工智能 chatgpt openai claude midjourney deepseek-v3
DeepSeekV3横空出世，以其强大的多语言编程能力和先进的技术架构，引发了业界的广泛关注。这款最新的AI模型不仅在性能上实现了质的飞跃，还采用了开源策略，为广大开发者提供了更广阔的探索空间。本文将深入解析DeepSeekV3的技术原理、主要功能、性能表现及应用场景，带您全面了解这款新一代AI模型。DeepSeekV3的核心亮点DeepSeekV3是一款基于混合专家（MoE）架构的大型语言模型，
C++归并排序算法深度解析小小的博客排序算法排序算法算法数据结构 c++开发语言
引言归并排序（MergeSort）是一种常用的排序算法，它采用了分治（DivideandConquer）的策略，将一个待排序的序列分解成若干个小的子序列，分别进行排序，再将这些已经排好序的子序列合并成一个完整的有序序列。归并排序具有很好的稳定性，时间复杂度为O(nlogn)，在实际应用中表现优秀。本文将详细介绍归并排序算法的实现原理、C++代码实现以及在实际应用中的优化策略。归并排序算法原理归并排
深入剖析Spring Cloud源码系列Nacos注册中心原理新手面试考核问题 DNCS高级工程师 spring cloud 面试 spring
前言Nacos（全称为"NamingandConfigurationService"）是一个开源的服务发现和配置管理平台。作为一个注册中心，Nacos提供了服务注册、服务发现、服务心跳和服务健康检测功能，使得微服务架构中的各个服务可以相互发现和通信。本文将深入探讨Nacos注册中心的原理，特别关注CP模式与AP模式的区别与优劣环境版本：Nacos-1.3.0一、Nacos注册中心与SpringCl
Feign的原理及概念 CocoaAndYy java
1.什么是FeignFeign是Netflix开发的声明式、模板化的HTTP客户端，Feign可帮助我们更加便捷、优雅地调用HTTPAPI。Feign可以做到使用HTTP请求远程服务时就像调用本地方法一样的体验，开发者完全感知不到这是远程方法，更感知不到这是个HTTP请求。SpringCloudOpenFeign对Feign进行了增强，使其支持SpringMVC注解，从而使得Feign的使用更加方
Nacos1.4源码-服务注册 CocoaAndYy java
Nacos1.4使用的都是http通信，nacos2.0之后改为使用grpc通信。涉及到的核心方法：异步队列+写时复制（copyOnWrite）1.客户端启动流程1.验证服务实例NacosNamingService（核心类）2.用post调用http请求，注册实例(客户端向服务端发起请求，注册！)/nacos/v1/ns/instance（调用jdkHttpClient发起请求）客户端启动流程：A
在 C# 中的Lambda 表达式艾米理 c#c#linq 开发语言
在C#中，Lambda表达式是用来定义匿名函数的一种简洁方式，通常用于简化代码，尤其是在LINQ查询、事件处理或方法作为参数的场景中。Lambda表达式的语法如下：基本语法(parameters)=>expression_or_statement_blockparameters:参数列表，可以省略类型，编译器会根据上下文推断。=>:Lambda运算符，读作"goesto"。expression_o
【设计模式】依赖注入（Dependency Injection, DI）艾米理设计模式设计模式 c#c++
依赖注入（DependencyInjection,DI）是一种软件设计模式，用于实现对象之间的松耦合，同时提升代码的可测试性和可维护性。它主要用于管理和提供对象的依赖关系，而不需要在代码中手动创建依赖实例。核心概念依赖：一个类需要的服务或对象。例如，类A需要类B提供某些功能，那么B就是A的依赖。注入：将依赖通过外部方式传递给类，而不是让类直接创建或获取这些依赖。在传统编程中，如果类A需要使用类B，
VXLAN 基础教程：VXLAN 协议原理介绍 lingshengxiyou 网络 linux 运维 c++开发语言
VXLAN（VirtualeXtensibleLocalAreaNetwork，虚拟可扩展局域网），是一种虚拟化隧道通信技术。它是一种Overlay（覆盖网络）技术，通过三层的网络来搭建虚拟的二层网络。简单来讲，VXLAN是在底层物理网络（underlay）之上使用隧道技术，借助UDP层构建的Overlay的逻辑网络，使逻辑网络与物理网络解耦，实现灵活的组网需求。它对原有的网络架构几乎没有影响，不
深入探讨JavaScript的弱引用机制：WeakRef、WeakSet与WeakMap的应用潜力 Light60 低代码实战篇技能篇 javascript 开发语言
JavaScript在处理内存管理和对象引用时，弱引用机制在性能优化和内存泄漏防范方面展现了其独特的优势。本文将通过对WeakRef、WeakSet和WeakMap的深入解析，帮助开发者更好地理解并应用这一机制，确保高效和可维护的代码结构。一、WeakRef：掌控弱引用的利器1.定义与用法WeakRef（弱引用）允许您创建一个对对象的弱引用，该引用不会阻止垃圾回收器回收该对象。//创建一个对象，并
Python 归并排序算法详解 licy__ 排序算法算法数据结构
目录Python归并排序算法详解1.归并排序原理2.Python代码实现3.时间复杂度分析4.空间复杂度分析5.实际例子6.归并排序的优势和劣势优势劣势7.总结Python归并排序算法详解归并排序（MergeSort）是一种高效的、基于比较的排序算法，属于分治法的一种。本文将详细介绍归并排序的原理、Python代码实现、时间复杂度分析和实际例子。1.归并排序原理归并排序的基本思想是将待排序的序列分
Java 归并排序算法详解 licy__ 排序算法算法数据结构
Java归并排序算法详解归并排序（MergeSort）是一种高效的、基于比较的排序算法，属于分治法的一种。本文将详细介绍归并排序的原理、Java代码实现、时间复杂度分析和实际例子。1.归并排序原理归并排序的基本思想是将待排序的序列分成若干个小序列，每个小序列单独排序，然后再将这些有序的小序列合并成一个整体有序的序列。具体步骤如下：分解：将序列分成两个子序列。解决：递归地对两个子序列进行归并排序。合
Spring AI系列教程：从工业革命到人工智能的全面探索 king-agic spring 人工智能
在这个信息爆炸的时代，人工智能（AI）已经成为我们生活中不可或缺的一部分。从第一次工业革命的蒸汽机到今天的智能时代，技术的飞速发展不断推动着社会的进步。今天，将分享一套SpringAI教程视频，深入探索人工智能的奥秘。课程概览本系列教程涵盖了从基础的SpringAI课程介绍到复杂的多模态API开发，无论你是AI领域的新手还是有一定基础的开发者，都能在本系列教程中找到适合自己的内容。以下是部分课程的
Web3.0开发路线 king-agic 前沿技术 web3
Web3.0开发是一个不断演进的领域，涉及到区块链技术、去中心化应用（DApps）、智能合约等多个方面。阶段一：Web3基础知识与区块链原理目标：理解Web3与区块链的基本概念、发展历程与价值主张。掌握区块链的核心原理，包括分布式账本、共识机制、加密算法、智能合约等。学习内容：Web3概述：起源、愿景、与Web2的区别。区块链基础：区块、链式结构、哈希、公钥/私钥、UTXO模型、账户模型等。共识机
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

广告营销用户点击预测分析