adamyoungjack

分类算法

1. 简介

1.1 定义

分类算法通过对已知类别训练集的计算和分析，从中发现类别规则并预测新数据的类别。

1.2 应用场景

分类算法是解决分类问题的方法，是数据挖掘、机器学习和模式识别中一个重要的研究领域。
分类的主要用途和场景是“预测”，基于已有的样本预测新样本的所属类别，例如信用评级、风险等级、欺诈预测等。 分类算法也可以用于知识抽取，通过模型找到潜在的规律，帮助业务得到可执行的规则。

1.3 地位

分类和回归是解决实际运营问题中非常重要的两种分析和挖掘方法。

1.4 分类

常用的分类算法包括朴素贝叶斯、逻辑回归、决策树、随机森林、支持向量机等。

2. 应用

2.1 简介

案例电信客户流失预测

AT&T数据，用户个人，通话，上网等信息数据
充分利用数据预测客户的流失情况
帮助挽留用户，保证用户基数和活跃程度

2.2 数据说明

CustomerID 客户ID
Gender 性别
partneratt 配偶是否也为att用户
dependents_att 家人是否也是att用户
landline 是否使用att固话服务
internet_att/internet_other 是否使用att的互联网服务
Paymentbank/creditcard/electroinc 付款方式
MonthlyCharges 每月话费
TotalCharges 累计话费
Contract_month/1year 用户使用月度/年度合约
StreamingTv/streamingMovies 是否使用在线视频或者电影app
Churn 客户转化的flag

2.3 处理流程

分析流程：数据概况分析->单变量分析->相关性分析与可视化->回归模型
数据概况分析
- 数据行/列数量
- 缺失值分布
单变量分析
- 数字型变量的描述指标（平均值，最大最小值，标准差）
- 类别型变量（多少个分类，各自占比）
- 正负样本占比
相关性分析与可视化
- 按类别交叉对比
- 变量之间的相关性分析
- 散点图/热力图
逻辑回归分析
- 模型建立
- 模型评估与优化

2.4 实现

步骤

1 加载数据，查看churn.info()

2 对churn列和gender列进行onehot编码

3 churn的onehot编码中churn_yes作为标签列，churn_no丢弃

gender_yes gender_no都保留

**4 churn.flag.value_counts() churn.flag.value_counts(1)查看正负样本分布** 正负样本是人为定义的，关注哪个类别则定义该类别为正样本

5 按照flag分组，计算平均值，查看相关特征

6 围绕flag变量，分析其他变量与flag的相关关系

7 选择相关性比较高的作为特征

8 构建模型，训练评估

9 如果评估结果不理想，则重新选择特征重新训练

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline 
churn=pd.read_csv('churn.csv')
churn.info()

  RangeIndex: 7043 entries, 0 to 7042
  Data columns (total 16 columns):
  Churn                7043 non-null object
  gender               7043 non-null object
  Partner_att          7043 non-null int64
  Dependents_att       7043 non-null int64
  landline             7043 non-null int64
  internet_att         7043 non-null int64
  internet_other       7043 non-null int64
  StreamingTV          7043 non-null int64
  StreamingMovies      7043 non-null int64
  Contract_Month       7043 non-null int64
  Contract_1YR         7043 non-null int64
  PaymentBank          7043 non-null int64
  PaymentCreditcard    7043 non-null int64
  PaymentElectronic    7043 non-null int64
  MonthlyCharges       7043 non-null float64
  TotalCharges         7043 non-null float64
  dtypes: float64(2), int64(12), object(2)
  memory usage: 880.5+ KB

#预测目标是churn，是类别型变量  gender也是类别型变量 需要对类别型变量进行处理
churn.head()

    Churn  gender  Partner_att  Dependents_att  landline  internet_att  
  0    No  Female            1               0         0             1   
  1    No    Male            0               0         1             1   
  2   Yes    Male            0               0         1             1   
  3    No    Male            0               0         0             1   
  4   Yes  Female            0               0         1             0   

     internet_other  StreamingTV  StreamingMovies  Contract_Month  Contract_1YR  
  0               0            0                0               1             0   
  1               0            0                0               0             1   
  2               0            0                0               1             0   
  3               0            0                0               0             1   
  4               1            0                0               1             0   

     PaymentBank  PaymentCreditcard  PaymentElectronic  MonthlyCharges  
  0            0                  0                  1           29.85   
  1            0                  0                  0           56.95   
  2            0                  0                  0           53.85   
  3            1                  0                  0           42.30   
  4            0                  0                  1           70.70   

     TotalCharges  
  0         29.85  
  1       1889.50  
  2        108.15  
  3       1840.75  
  4        151.65

#需要把churn和gender转变为数字型变量,使用get_dummies
churn=pd.get_dummies(churn)
churn.head()

     Churn_No  Churn_Yes  gender_Female  gender_Male  
  0         1          0              1            0  
  1         1          0              0            1  
  2         0          1              0            1  
  3         1          0              0            1  
  4         0          1              1            0

#数据整理，将churn_yes保留，将female保留,drop不需要的数据
churn.drop(['Churn_No','gender_Male'],axis=1,inplace=True)
#变量大小写不规则，统一变成小写
churn.columns=churn.columns.str.lower()
churn.head()

     churn_yes  gender_female  
  0          0              1  
  1          0              0  
  2          1              0  
  3          0              0  
  4          1              1

#将churn_yes重命名，方便后续的变量编写
churn=churn.rename(columns={'churn_yes':'flag'})
#二分类模型，分析flag 1和0的占比
churn.flag.value_counts()

  0    5174
  1    1869
  Name: flag, dtype: int64

churn.flag.value_counts(1)

  0    0.73463
  1    0.26537
  Name: flag, dtype: float64

summary=churn.groupby('flag')
summary.mean()

        partner_att  dependents_att  landline  internet_att  internet_other  
  flag                                                                        
  0        0.528218        0.344801  0.901044      0.379204        0.347700   
  1        0.357945        0.174425  0.909042      0.245586        0.693954   

        streamingtv  streamingmovies  contract_month  contract_1yr  paymentbank  
  flag                                                                            
  0        0.365868         0.369927        0.429068      0.252609     0.248550   
  1        0.435527         0.437667        0.885500      0.088818     0.138042   

        paymentcreditcard  paymentelectronic  monthlycharges  totalcharges  
  flag                                                                       
  0              0.249324           0.250097       61.265124   2545.918081   
  1              0.124131           0.573034       74.441332   1528.514714   

        gender_female  
  flag                 
  0          0.492656  
  1          0.502408

观察flag在0和1的情况下，所有自变量的差别 internet_other变量，在0的分组中，均值是0.35，在1的分组中，均值是0.69。数据显示如果使用别的公司的互联网，用户流失的概率就越高

sns.countplot(y='contract_month',hue='flag',data=churn)

结论：contract_month为1的客户流失的概率更高，即与非按月付费客户相比，按月付费客户流失比例高
相关性分析

#围绕flag变量，分析其他变量与flag的相关关系
churn.corr()[['flag']].sort_values('flag',ascending=False)

                       flag
flag               1.000000
contract_month     0.405103
internet_other     0.308020
paymentelectronic  0.301919
monthlycharges     0.193356
streamingtv        0.063228
streamingmovies    0.061382
landline           0.011942
gender_female      0.008612
paymentbank       -0.117937
internet_att      -0.124214
paymentcreditcard -0.134302
partner_att       -0.150448
dependents_att    -0.164221
contract_1yr      -0.177820
totalcharges      -0.198175

# contract_month与internet_other与flag相关性高

逻辑回归模型

#设定因变量与自变量， y 是 flag, x 根据刚才的相关分析挑选contract_month,internet_other与streamingtv
#自变量可以分为几类，partner/dependents,internet,streaming，contract,payment,charges，后续大家可以自己挑选进行建模
y=churn['flag']
x=churn[['contract_month','internet_other','streamingtv']]
#模型优化，streamingtv调整为paymentelectronic
y=churn['flag']
x=churn[['contract_month','internet_other','paymentelectronic']]
#调用sklearn模块，随机抽取训练集与测试集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=100)
#模型优化，测试集与训练集对半分,第三次也跑这里
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.5,random_state=100)
#使用sklearn
from sklearn import linear_model
lr=linear_model.LogisticRegression()
lr.fit(x_train,y_train)
"""
  LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
            intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
            penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
            verbose=0, warm_start=False)
"""

模型的截距与系数

#第一次
lr.intercept_
lr.coef_
#array([-3.21761938])
#array([[2.19790192, 1.14360005, 0.23641705]])
#第二次，测试集与训练集对半分
lr.intercept_
array([-3.26144359])
array([[2.23886897, 1.09248895, 0.32579547]])
#第三次，变量调整
array([-3.18770265])
array([[2.0019671 , 1.02830763, 0.62165925]])

模型的评估

y_pred_train=lr.predict(x_train)
y_pred_test=lr.predict(x_test)
import sklearn.metrics as metrics
metrics.accuracy_score(y_train,y_pred_train)
from sklearn.metrics import roc_curve,auc
fpr,tpr,threshold=roc_curve(y_train,y_pred_train)
roc_auc=auc(fpr,tpr)

用分类分析来提炼规则、提取变量、处理缺失值
- 分类分析用于提炼应用规则预测是分类分析的主要应用方向，但将分类用于提炼应用规则，为数据化运营提供规则支持也是其重点应用之一，这种应用相对于其他算法更加具有落地价值。常见的应用场景如下：
  - 要针对沉默会员做会员重新激活，应该挑选具有什么特征的会员？
  - 商品A库存积压严重，现在要通过促销活动清仓，选择哪些类型的促销活动更容易实现该目标？
  - 网站需要大流量广告位来满足VIP商家的精准广告投放，具有哪些特征的广告位更符合VIP商家的客户需求？
从分类算法中提炼特征规则，利用的是在构建算法过程中的分类规则
- 以决策树为例，决策树的分裂节点是表示局部最优值的显著特征值，每个节点下的特征变量以及对应的值的组合构成了规则。
分类分析用于提取变量特征
- 具体实现思路是：获取原始数据集并对数据做预处理，将预处理的数据集放到分类算法中进行训练，然后从算法模型中提取特征权重信息。
- 分类分析用于处理缺失值

3. 聚类和分类算法的区别

学习方式不同聚类是一种非监督式学习算法，而分类是监督式学习算法。
对源数据集要求不同，有无目标值
应用场景不同
- 聚类一般应用于数据探索性分析、数据降维、数据压缩等探索性、过程性分析和处理
- 分类更多地用于预测性分析和使用。
解读结果不同。聚类算法的结果是将不同的数据集按照各自的典型特征分成不同类别，不同人对聚类的结果解读可能不同；而分类的结果却是一个固定值（例如高、中、低、是、否等），不存在不同解读的情况。
模型评估指标不同
- 聚类分析没有所谓的“准确”与否，以及多么准确的相关度量，更多的是基于距离的度量。如果是对带有标签的数据集做聚类则可以做相似度、完整度等方面的评估
- 而分类模型的指标例如准确率、混淆矩阵、提升率等都有明显的好与坏、提升程度等评估指标。例如准确率、混淆矩阵、提升率等都有明显的好与坏、提升程度等评估指标。
假如原始数据集带有类别标签，那么选择分类或聚类算法都可以（标签列数据并不是一定要使用）。假如原始数据集不带有类别标签，那么只能选择使用聚类算法。
有关分类和聚类的应用示例
- 假如现在公司要对某新会员做促销活动，例如推荐商品、提供个性化信息、推荐最感兴趣的热榜等，并尽量提供该用户感兴趣的内容。
- 分类：基于现有的会员及其特定类别标签（可选择有代表性或与实际运营场景最相关的类别标签）做分类模型训练，将该新用户的数据作为新的样本输入模型，预测得到该用户所属的目标类别。接着计算该类别下用户最经常购买的商品、经常浏览的信息等，并给出推荐内容。
- 聚类：将新的会员和现有的会员作为一个整体做聚类分析，然后获得该会员所属的聚类类别，进而提取其所在类别下其他会员的经常购买商品、经常浏览信息等，并给出推荐内容。

4. 分类分析算法选择

文本分类：朴素贝叶斯，例如电子邮件中垃圾邮件的识别。
训练集较小，选择高偏差且低方差的分类算法：朴素贝叶斯、支持向量机（不容易过拟合）
算法模型的计算时间短和模型易用性，不要选支持向量机、人工神经网络
重视算法的准确率：支持向量机或GBDT、XGBoost等基于Boosting的集成方法
注重效果的稳定性或模型鲁棒性，那么应选择随机森林、组合投票模型等基于Bagging的集成方法。
想得到有关预测结果的概率信息，基于预测概率做进一步的应用：逻辑回归
担心离群点或数据不可分并且需要清晰的决策规则：决策树

5. 分类评估

准确率：（对不对）
- (TP+TN)/(TP+TN+FN+FP)
精确率 – 查的准不准
- TP/(TP+FP)
召回率 – 查的全不全
- TP/(TP+FN)
F1-score
- 反映模型的稳健性
不同的场景关注的指标不一样

5…1 混淆矩阵

在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类)

TP True positive

FN False nagative

FP False positive

TN True negative

5.2. 精确率/查准率

精确率(Precision)：预测结果为正例样本中真实为正例的比例
TP/(TP+FP)

5.3. 召回率/查全率

召回率(Recall)：真实为正例的样本中预测结果为正例的比例（查得全，对正样本的区分能力）
TP/(TP+FN)

5.4. F1-score

反映了模型的稳健性

5.5 ROC曲线与AUC指标

1. TPR与FPR

真阳性率
- 所有真实类别为1的样本中，预测类别为1的比例

假阳性率
- 所有真实类别为0的样本中，预测类别为1的比例

2. ROC曲线

多次调整阈值得到若干组TPR FPR的值，把这些值在同一个坐标系中表示出来，就得到了ROC曲线

最极端，FPR=0，TPR=1，

FPR=0时，即FP=0；TPR=1时，即FN=0，就是所有预测错了的样本都为0，也就是所有的样本预测结果都是正确的

此时对应的曲线下面积是1，如果roc曲线和对角线重合，则面积是0.5，此时模型的预测结果和瞎猜是一样的

AUC指标，area under curve

AUC=1，完美分类器

0.5

from sklearn.metrics import roc_auc_score

通过tpr和fpr来进行图形绘制，然后绘制之后，行成一个指标auc
ROC曲线的横轴就是FPRate，纵轴就是TPRate，当二者相等时，表示的意义则是：对于不论真实类别是1还是0的样本，分类器预测为1的概率是相等的，此时AUC为0.5。
在一个二分类模型中，假设采用逻辑回归分类器，其给出针对每个实例为正例的概率。
通过设定一个阈值如0.6，概率大于等于0.6的为正例，小于0.6的为负例。对应的就可以算出一组(FPR,TPR)，在平面中得到对应坐标点。
随着阈值的逐渐减小，越来越多的实例被划分为正例，但是这些正例中同样也掺杂着真正的负实例，即TPR和FPR会同时增大。
阈值最大时，对应坐标点为(0,0)，即把所有样本都预测为负例，TP和FP都为0，对应的TPR和FPR为0；
阈值最小时，对应坐标点(1,1)，即把所有样本都预测为正例，FN和TN都为0，对应的TPR和FPR为1。

3. AUC指标

越接近1，效果越好
越接近0，效果越差
越接近0.5，效果就是胡说
AUC的概率意义是随机取一对正负样本，正样本得分大于负样本得分的概率
AUC的范围在[0, 1]之间，并且越接近1越好，越接近0.5属于随机猜测
AUC=1，完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5

4. API

from sklearn.metrics import roc_auc_score sklearn.metrics.roc_auc_score(y_true, y_score)

计算ROC曲线面积，即AUC值

y_true：每个样本的真实类别，必须为0(反例),1(正例)标记

y_score：预测得分，可以是正例的估计概率、置信值或者分类器方法的返回值

# 0.5~1之间，越接近于1约好 y_test = np.where(y_test > 2.5, 1, 0) print("AUC指标：", roc_auc_score(y_test, y_predict)

AUC只能用来评价二分类

AUC非常适合评价样本不平衡中的分类器性能

6. 分类评估报告api

# y_true：真实目标值 # y_pred：估计器预测目标值 # labels:指定类别对应的数字 # target_names：目标类别名称 # return：每个类别精确率与召回率 sklearn.metrics.classification_report(y_true, y_pred, labels=[], target_names=None )

ret = classification_report(y_test, y_predict, labels=(2,4), target_names=("良性", "恶性")) print(ret)

样本不均衡下的评估问题: 假设这样一个情况，如果99个样本癌症，1个样本非癌症，不管怎样全都预测正例(默认癌症为正例),准确率就为99%但是这样效果并不好

奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
python异步--asyncio HWQlet python python异步编程
在python2.x和python3.x早期版本的时候，协程的主流实现方法是gevent，这个我之前讲过asyncio在python3.4后内置在python中了，在后面还有async/await，更后面有aiohttp，flask实现就有参照aiohttpasync和await分别又来替换早期协程的asyncio.coroutine和yieldfrom。从此以后，协程就是python中一个新的语
【北京迅为】iTOP-RK3568开发板OpenHarmony系统南向驱动开发UART接口运作机制迅为电子 RK3568开发板 RK3568开发板 OpenHarmony
瑞芯微RK3568芯片是一款定位中高端的通用型SOC，采用22nm制程工艺，搭载一颗四核Cortex-A55处理器和MaliG522EE图形处理器。RK3568支持4K解码和1080P编码，支持SATA/PCIE/USB3.0外围接口。RK3568内置独立NPU，可用于轻量级人工智能应用。RK3568支持安卓11和linux系统，主要面向物联网网关、NVR存储、工控平板、工业检测、工控盒、卡拉OK
Python异步编程 - asyncio库孤寒者 Python全栈系列教程 python 异步编程 asyncio yield 协程
目录：每篇前言：异步IOPython中的异步编程实现方式：协程Python传统协程示例：实现生产者-消费者模型消费者：生产者：运行流程：整体流程：传统协程——>现代协程：asyncio库async/await每篇前言：作者介绍：【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者本文已收录于爬虫必备前端技术栈专栏：《爬虫必备前端技术栈
python输出星号等腰三角形_python打印直角三角形与等腰三角形实例代码 weixin_39644139 python输出星号等腰三角形
python打印直角三角形与等腰三角形实例代码前言本文通过示例给大家详细介绍了关于python打印三角形的相关，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧1、直角三角形#i控制行数j控制*的个数foriinrange(5):i+=1forjinrange(i):print('*',end='')#end=‘'输出空格print()/2、等腰三角形row=int(input('p
python绘制等边三角形的代码_Python打印等边三角形 weixin_39621178
示例1:#!/usr/bin/python#-*-coding:UTF-8-*-#根据输入打印rows=int(raw_input('pleaseinputnumber:'))#等边三角形foriinrange(0,rows+1):forjinrange(0,rows-i):print"",j+=1forkinrange(0,2*i-1):ifk==0ork==2*i-2ori==rows:ifi
Python写倒三角森之林 python
4.(程序题)编程显示如下所示的三角形图案。要求程序运行时，输入一个正整数，显示该整数行高度的三角形图案。#############h=int(input("请输入高度："))foriinrange(h):forjinrange(i,h):print("#",end="")forrinrange(0,i):print("",end="")print("")
python+flask计算机毕业设计基于Android平台的景区移动端旅游软件系统（程序+开题+论文） Node.js彤彤程序 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着移动互联网技术的飞速发展，智能手机已成为人们日常生活中不可或缺的一部分，特别是在旅游领域，移动端应用以其便捷性、实时性和个性化服务的特点，极大地改变了人们的旅游体验方式。当前，旅游市场日益繁荣，游客对于旅游信息获取、行程规划、景点导航、票务预订及个性化服务的需
大学期间如何学习利用AI der丸子吱吱吱学习人工智能
一、引言人工智能（AI）是当今世界技术发展的重要方向，它已经渗透到医疗、金融、交通、娱乐等各个领域。随着AI技术的快速发展，它不仅改变了我们的生活，也带来了巨大的职业机会。然而，面对如此广阔的领域，作为大学生，如何在本科阶段有效地学习和利用AI，成了许多同学的困惑。本文将详细介绍大学生在本科阶段如何通过合理的学习路线、方法和工具，逐步掌握AI的核心技术，并为日后进入AI行业打下坚实的基础。通过这篇
ALO蚁狮优化算法：从背景到实战的全面解析 der丸子吱吱吱智能优化算法 ALO算法
目录引言背景2.1蚁狮优化算法的起源2.2自然启发式算法的背景2.3ALO的发展与应用原理3.1蚁狮的生物行为3.2ALO的数学建模3.3算法流程与关键步骤实战应用4.1函数优化问题4.2工程优化案例4.3组合优化与约束优化代码实现与结果分析5.1Python代码实现5.2实验设计与结果分析5.3性能评估与优化建议学习资源6.1工具推荐6.2网站与文献资源6.3ALO与AI结合的方法结论1.引言在
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
Centos7软件包管理(rpm、yum) Bulut0907 Linux centos 软件包管理 rpm yum yum源修改
目录1.rpm2.yum2.1修改yum源1.rpmRPM(RedHatPackageManager)，redhat系列操作系统里面的打包安装工具查询命令：查询安装的所有rpm软件包：rpm-qa查询指定rpm软件包，并显示详细信息：rpm-qipython3卸载命令：卸载软件包，不管是否有其它软件包依赖该软件包：rpm-e--nodeps软件包名称安装命令：安装rpm包，并显示详细信息和进度条(
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
模型上下文协议 (MCP)是什么？Model Context Protocol 需要你了解一下同学小张学习 AIGC AI-native agi gpt 开源协议
大家好，我是同学小张，+v:jasper_8017一起交流，持续学习AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，订阅我的大模型专栏，共同学习和进步。在人工智能领域，ModelContextProtocol（MCP）正逐渐成为连接AI模型与各类数据源及工具的重要标准。MCP究竟为何物？它又将如何改变AI应用的开发与使用？文章目录0.概念1.MCP的总体架构2.为何使用MCP？3.我的理解4
生成式对抗网络在人工智能艺术创作中的应用与创新研究辛迎蕌人工智能
摘要本文深入探究生成式对抗网络（GAN）在人工智能艺术创作领域的应用与创新。通过剖析GAN核心原理，阐述其在图像、音乐、文学等艺术创作中的实践，分析面临的挑战与创新方向，呈现GAN对艺术创作模式的变革，为理解人工智能与艺术融合发展提供全面视角。一、引言在人工智能与艺术深度融合的时代浪潮中，生成式对抗网络（GAN）作为一项突破性技术，为艺术创作带来了全新的可能性。它打破传统创作边界，以独特的对抗学习
知识图谱在人工智能语义理解与推理中的关键作用及发展研究 @王威& 人工智能
摘要本文聚焦知识图谱，深入剖析其在人工智能语义理解与推理中的核心作用。阐述知识图谱的构建原理、表示方法，分析其在自然语言处理、智能问答系统、推荐系统等多领域助力语义理解与推理的应用，探讨面临的挑战并展望未来发展方向，全面呈现知识图谱对人工智能发展的重要价值与深远影响。一、引言在人工智能追求更精准理解和处理人类语言与知识的进程中，知识图谱成为关键技术。它以结构化形式组织海量知识，揭示实体间复杂关系，
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
python中Flask模块的使用 weixin_30315905 python json
1.简介在服务器上运行Flask接口，就能使用requests模块获取该接口的值。先运行接口文件，再运行requests文件，即可获取值。2.示例2.1一个简单的flask接口1importjson2fromflaskimportFlask,request34#python类型5data={6'name':'John',7'age':18,8'location':'nanjing'910}1112
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
AI人工智能 Agent：在赋能传统行业中的应用 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：在赋能传统行业中的应用1.背景介绍1.1人工智能的发展历程1.1.1人工智能的起源与发展1.1.2人工智能的三次浪潮1.1.3人工智能的现状与挑战1.2传统行业面临的困境1.2.1效率低下1.2.2成本高企1.2.3决策滞后1.3人工智能赋能传统行业的必要性1.3.1提高效率1.3.2降低成本1.3.3优化决策2.核心概念与联系2.1人工智能Agent的定义2.1.1Age
python中的静态方法绛洞花主敏明 python
问题：pycharm中建立新的方法，出现如下的警告：在python中建立类一般使用如下的方法：classDog(object):defrun(self):print("running")run方法是类中的普通方法声明和创建静态方法，在方法上加上staticmethod注明一下classDog(object):@staticmethoddefrun(self):print("running")如下的
一文弄懂Python 变量初始化与内存管理宇寒风暖 python编程 python 开发语言笔记学习
在Python中，变量的初始化并不一定会开辟新的内存空间。Python的内存管理机制非常灵活，它会根据变量的值、类型以及Python的内部优化策略来决定是否复用已有的内存空间。1.变量初始化的基本概念在Python中，变量是对象的引用。当你初始化一个变量时，Python会执行以下操作：创建一个对象（如果该对象不存在）。将变量名绑定到该对象。例如：a=10b="hello"a是一个整数对象的引用。b
python静态方法_Python静态方法 cunchi4221 python java 深度学习设计模式 javascript ViewUI
python静态方法Python静态方法(Pythonstaticmethod)Inthisquickpost,wewilllearnhowtocreateanduseaPythonstaticmethod.Wewillalsohavealookatwhatadvantagesanddisadvantagesstaticmethodsofferascomparedtotheinstancemeth
python中的类方法，静态方法，对象方法 a174817529
原文地址：http://blog.chinaunix.net/uid-26602509-id-3087296.htmlclassA:count=100def__init__(self,instancedata):self.instancedata=instancedata@staticmethod#静态方法不能访问类参数和实例参数defsm():print"sm"@classmethod#类方法不
Python 静态方法和类方法 a540366413 Python python
静态方法我们知道在其他语言中静态方法一般使用static修饰，静态方法的主要特点是不需要new出对象，直接通过类名就可以访问，也可以通过对象访问。需要使用staticmethod装饰器装饰方法举例：classA:@staticmethoddefstaticfunc():print("A")A.staticfunc()#A类方法类方法和静态方法类似，也可以直接通过类名访问，不过要使用classmet
Python静态方法 Frank_Yee python
在Python中，静态方法是一种不会自动接收类（cls）或实例（self）作为第一个参数的方法。它可以通过类直接调用，而不需要类的实例。静态方法通常用于实现与当前类的对象状态无关的功能，或者提供一些通用的工具函数。一、使用场景1.工具函数：当方法不需要访问对象属性或类属性时，可以将其定义为静态方法。2.常量类：有时候，你可能需要一个类仅仅作为一个容器，用来存储常量。3.工厂方法：在某些情况下，你可
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
day11 学习笔记豆豆学习笔记 python
文章目录前言一、类方法二、静态方法三、构造方法四、魔术方法前言通过今天的学习，我掌握了更多Python中有关面向对象编程思想中方法的概念与操作，包括类方法，静态方法，构造方法，魔术方法一、类方法类方法是属于类的行为，一般使用类而非对象进行调用类方法需要使用@classmethod装饰器定义类方法至少有一个形参用于绑定类，约定为cls类和该类的实例都可以调用类方法，但一般不用实例进行调用类方法不能访
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，