weightOneMillion

机器学习——sklearn学习

1介绍

主要是一些API的使用，详细可以看机器学习这篇内容，都是我整理的，算是相互对应吧
可以先尝试一下鸢尾花的案例
当然需要先下载库
按照使用的先后顺序

2加载数据集

sklearn内置的一些数据集

3划分测试集训练集

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test =sklearn.model_selection.train_test_split( train_data, train_target, test_size=0.4, random_state=0, stratify=y_train)

train_x, test_x, train_y, test_y = train_test_split(x, y, train_size=0.7, random_state=0)

train_data：所要划分的样本特征集
train_target：所要划分的样本结果
test_size：样本占比，如果是整数的话就是样本的数量
random_state：是随机数的种子。
	随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。

stratify是为了保持split前类的分布。比如有100个数据，80个属于A类，20个属于B类。如果train_test_split(... test_size=0.25, stratify = y_all), 那么split之后数据如下： 
training: 75个数据，其中60个属于A类，15个属于B类。 
testing: 25个数据，其中20个属于A类，5个属于B类。 
用了stratify参数，training集和testing集的类的比例是 A：B= 4：1，等同于split前的比例（80：20）。通常在这种类分布不平衡的情况下会用到stratify。
将stratify=X就是按照X中的比例分配 
将stratify=y就是按照y中的比例分配 
整体总结起来各个参数的设置及其类型如下：

4特征提取

模块 sklearn.feature_extraction 可用于提取符合机器学习算法支持的特征，比如文本和图片。

4.1通用

vectorizer.fit()
vectorizer.transform()

vectorizer.fit_transform(measurements).toarray()
>>>array([[  1.,   0.,   0.,  33.],
			 [  0.,   1.,   0.,  12.],
			 [  0.,   0.,   1.,  18.]])
count_vectorizer.fit_transform()得到的是个稀疏矩阵。如果要得到正常的二维数据稠密表达的矩阵，需要使用x_ctv.toarray()。
注意，稀疏矩阵是不可以进行切片操作，比如x_ctv[1][2]。
注意：使用tfidf_vectorizer.fit_transformer()输入为一个numpy.array，形状是(n_samples, n_features)。
因为2个方法的输入设定不同，对于CountVectorizer和TfidfVectorizer只要是iterable（可迭代）的就可以了。
根据设定，TfidfTransformer是将CountVectorizer的输出作为输入的。

vectorizer.get_feature_names()
返回一个list，所有特征的名字

4.2从字典类型加载特征

from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer()

4.3文本特征提取

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
count_vectorizer= CountVectorizer()

4.3.1CountVectorizer

CountVectorizer是通过统计词汇出现的次数，并用词汇出现的次数的稀疏矩阵来表示文本的特征。它会统计所有出现的词汇，每个词汇出现了多少次，最后得到的稀疏矩阵的列就是词汇的数量（每个词汇就是一个特征/维度）
这里的CountVectorizer使用的是默认的参数，主要是：
（1）ngram_range=(min_num_words,max_num_words)。其中，x,y 为数字，即n元语法。（词的粒度）
（2）stop_words = stop_words。其中，stop_words是从停用词文件中读取的list，每行一个停用词。
（3）max_features = n。其中，n为词汇表的数量。表示根据词频大小降序排列后的TOP n词汇数。（选取的特征值的数量）

4.3.2TfidfVectorizer

和CountVectorizer很像，TfidfVectorizer提取的特征是：在一个文本中各个有效词汇对应的TFIDF值是多少，同时，每个文本特征向量会自动进行normalization（归一化）操作。

tfidf_vectorizer = TfidfVectorizer(analyzer='word', ngram_range=(1,4), max_features=10000)

主要参数和CounterVectorizer类似

5模型训练——分类器classfier

5.1分类器通用

fit(X_train, y_train)训练模型
predict(X_test)预测

    print('\n>>>算法正在进行训练，请稍候...')
    clf.fit(X, y) # X是特征训练集，y是目标训练集（X应该是二维的，y是一维的）
    print(clf)
    
    print('\n>>>算法正在进行预测，请稍候...')
    y_pred_model = clf.predict(X_test) # X_test是特征测试集，根据测试集的特征预测测试集的目标预测值
    print(y_pred_model)

效果如下

也可以像下面这样
注意特征值的处理

5.2朴素贝叶斯

from sklearn.naive_bayes import MultinomialNB, BernoulliNB, ...
mnb = MultinomialNB(alpha = 1) # alpha拉普拉斯平滑系数
mnb.fit(X_train, y_train)
mnb.predict(X_test)

5.3SVM

SVC, NuSVC 和 LinearSVC 能在数据集中实现多元分类.

5.3.1SVC

from sklearn import svm
svc = svm.SVC()

class sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3,coef0=0.0,random_state=None)

C: 惩罚系数，⽤来控制损失函数的惩罚系数，类似于线性回归中的正则化系数。
- C越⼤，相当于惩罚松弛变量，希望松弛变量接近0，即对误分类的惩罚增⼤，趋向于对训练集全分对的情况，这样会出现训练集测试时准确率很⾼，但泛化能⼒弱，容易导致过拟合。
- C值⼩，对误分类的惩罚减⼩，容错能⼒增强，泛化能⼒较强，但也可能⽋拟合。
kernel: 算法中采⽤的核函数类型，核函数是⽤来将⾮线性问题转化为线性问题的⼀种⽅法。
- 参数选择有RBF, Linear, Poly, Sigmoid或者⾃定义⼀个核函数。
- 默认的是"RBF"，即径向基核，也就是⾼斯核函数；⽽Linear指的是线性核函数， Poly指的是多项式核， Sigmoid指的是双曲正切函数tanh核；。
degree: 当指定kernel为’poly’时，表示选择的多项式的最⾼次数，默认为三次多项式；
- 若指定kernel不是’poly’，则忽略，即该参数只对’poly’有⽤。
- 多项式核函数是将低维的输⼊空间映射到⾼维的特征空间。
coef0: 核函数常数值(y=kx+b中的b值)，只有‘poly’和‘sigmoid’核函数有，默认值是0。

5.3.2NuSVC

class sklearn.svm.NuSVC(nu=0.5)

nu：训练误差部分的上限和⽀持向量部分的下限，取值在（0，1）之间，默认是0.5

5.3.3 LinearSVC

class sklearn.svm.LinearSVC(penalty='l2', loss='squared_hinge', dual=True, C=1.0)

penalty:正则化参数， L1和L2两种参数可选，仅LinearSVC有。
loss:损失函数，有hinge和squared_hinge两种可选，前者⼜称L1损失，后者称为L2损失，默认是squared_hinge，其中hinge是SVM的标准损失，squared_hinge是hinge的平⽅
dual:是否转化为对偶问题求解，默认是True。
C:惩罚系数，⽤来控制损失函数的惩罚系数，类似于线性回归中的正则化系数。

5.4随机梯度下降

随机梯度下降（SGD）是一种简单但非常有效的方法，多用用于支持向量机、逻辑回归等凸损失函数下的线性分类器的学习。并且SGD已成功应用于文本分类和自然语言处理中经常遇到的大规模和稀疏机器学习问题。

   SGD既可以用于分类计算，也可以用于回归计算。
1）分类
    a）核心函数
        sklearn.linear_model.SGDClassifier
   b）主要参数（详细参数）
        loss ：指定损失函数。可选值：‘hinge’(默认), ‘log’, ‘modified_huber’, ‘squared_hinge’, ‘perceptron’,
                   "hinge":线性SVM
                   "log":逻辑回归
                   "modified_huber":平滑损失，基于异常值容忍和概率估计
                   "squared_hinge": 带有二次惩罚的线性SVM
                   "perceptron":带有线性损失的感知器
         alpha:惩罚系数

2）回归

     SGDRegressor非常适合回归问题具有大量训练样本（> 10000），对于其他的问题，建议使用的Ridge， Lasso或ElasticNet。
    a）核心函数
         sklearn.linear_model.SGDRegressor
    b）主要参数（详细参数）
         loss：指定损失函数。可选值‘squared_loss’（默认）, ‘huber’, ‘epsilon_insensitive’,  ‘squared_epsilon_insensitive’
                 说明：此参数的翻译不是特别准确，请参考官方文档。
                "squared_loss":采用普通最小二乘法
                "huber": 使用改进的普通最小二乘法，修正异常值
                "epsilon_insensitive": 忽略小于epsilon的错误
                "squared_epsilon_insensitive":
         alpha:惩罚系数

6模型评估

7标签二值化

>>> import numpy as np
>>> from sklearn.preprocessing import LabelBinarizer
>>> y = np.array(['apple', 'pear', 'apple', 'orange'])
>>> y_dense = LabelBinarizer().fit_transform(y)
>>> print(y_dense)
  [[1 0 0] # apple
   [0 0 1] # pear
   [1 0 0] # apple
   [0 1 0]] # orange
>>> from scipy import sparse
>>> y_sparse = sparse.csr_matrix(y_dense)
>>> print(y_sparse)
    (0, 0) 1 # （位置，类别）第0个位置上是类别0（类别0即apple）
    (1, 2) 1 # 同理，
    (2, 0) 1
    (3, 1) 1

多标签二值化MultiLabelBinarizer

# 多标签分类格式。将多分类转换为二分类的格式，类似于one-hot编码
from sklearn.preprocessing import MultiLabelBinarizer
y = [[2, 3, 4], [2], [0, 1, 3], [0, 1, 2, 3, 4], [0, 1, 2]]
y_new = MultiLabelBinarizer().fit_transform(y)
print('新的输出格式：\n',y_new)

根据预测结果，转化成标签

mlb.inverse_transform(predicted)

效果如下：

8多类别分类策略sklearn.multiclass: Multiclass classification

多类别是指多个类别，可以是1对1，也可以是1对多
注意：sklearn的所有分类器都是开箱即用的多类分类。除非您想尝试不同的多类策略，否则不需要使用sklearn.multiclass模块。

from sklearn import multiclass
multiclass.OneVsRestClassifier(estimator, *) # One-vs-the-rest (OvR) multiclass strategy.该策略包括为每个类安装一个分类器。对于每个分类器，该类与所有其他类相匹配。
multiclass.OneVsOneClassifier(estimator, *) # One-vs-one multiclass strategy. 将会为每一对类别构造出一个分类器
multiclass.OutputCodeClassifier(estimator, *) # (Error-Correcting) Output-Code multiclass strategy.

本模块中提供的估计器是元估计器：它们需要在其构造函数中提供一个基估计器。例如，

可以使用这些估计器将二元分类器或回归器转换为多类分类器。
也可以将这些估计器与多类估计器一起使用，以期提高它们的准确性或运行时性能。

scikit学习中的所有分类器都实现了多类分类；如果您想尝试自定义多类策略，只需使用此模块。

one vs the rest元分类器还实现了predict_proba方法，只要这种方法是由基础分类器实现的。此方法返回单标签和多标签情况下的类成员概率。注意，在多标签情况下，概率是给定样本落在给定类中的边际概率。因此，在多标签情况下，给定样本的所有可能标签上的这些概率之和不会像在单标签情况下那样总和为一。

8.2多标签分类MultiLable Classification

多标签分类（与多输出分类密切相关）是一项分类任务，使用n_类可能类中的m个标签标记每个样本，其中m可以是0到n_类（包括）。这可以被认为是预测一个样本的属性，而不是相互排斥的。形式上，对于每个示例，为每个类分配一个二进制输出。正类用1表示，负类用0或-1表示。因此，它相当于运行n_类二进制分类任务，例如使用MultiOutputClassifier。这种方法独立地处理每个标签，而多标签分类器可以同时处理多个类，考虑它们之间的相关行为。
例如，预测与文本文档或视频相关的主题。文件或视频可能是关于“宗教”、“政治”、“金融”或“教育”中的一个，几个主题课或所有主题课。

8.2.1多输出分类器MultiOutputClassifier

可以将多标签分类支持添加到具有MultiOutputClassifier的任何分类器。该策略包括为每个目标装配一个分类器。这允许多个目标变量分类。本课程的目的是扩展估计器，使其能够估计一系列目标函数（f1、f2、f3…、fn），这些目标函数在单个X预测矩阵上进行训练，以预测一系列响应（y1、y2、y3…、yn）。
以下是多标签分类的示例：

from sklearn.datasets import make_classification
from sklearn.multioutput import MultiOutputClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.utils import shuffle
import numpy as np
X, y1 = make_classification(n_samples=10, n_features=100, n_informative=30, n_classes=3, random_state=1)
y2 = shuffle(y1, random_state=1)
y3 = shuffle(y1, random_state=2)
Y = np.vstack((y1, y2, y3)).T
n_samples, n_features = X.shape # 10,100
n_outputs = Y.shape[1] # 3
n_classes = 3
forest = RandomForestClassifier(random_state=1)
multi_target_forest = MultiOutputClassifier(forest, n_jobs=-1)
multi_target_forest.fit(X, Y).predict(X)
》》》
array([[2, 2, 0],
       [1, 2, 1],
       [2, 1, 0],
       [0, 0, 2],
       [0, 2, 1],
       [0, 0, 2],
       [1, 1, 0],
       [1, 1, 1],
       [0, 0, 2],
       [2, 0, 0]])

9多输出sklearn.multioutput: Multioutput regression and classification

multioutput.ClassifierChain(base_estimator, *) # A multi-label model that arranges binary classifiers into a chain.
multioutput.MultiOutputRegressor(estimator, *) # Multi target regression.
multioutput.MultiOutputClassifier(estimator, *) # Multi target classification. 可以看上面的8.2.1
multioutput.RegressorChain(base_estimator, *) # A multi-label model that arranges regressions into a chain.

参考链接：主要基于scikit-learn (sklearn) 官方文档中文版：https://sklearn.apachecn.org/#/ （还有百度翻译）
7种文本特征提取方法：http://blog.sina.com.cn/s/blog_b8effd230102zu8f.html
sklearn的train_test_split()各函数参数含义解释（非常全）:https://www.cnblogs.com/Yanjy-OnlyOne/p/11288098.html
python机器学习库sklearn——多类、多标签、多输出：http://www.jintiankansha.me/t/bytTYiqrRy
机器学习：随机梯度下降法：https://blog.csdn.net/qq_38150441/article/details/80533891

Python快速使用jira模块调用Jira接口小斌哥ge Python/PYPI jira
Python快速使用jira模块调用Jira接口JIRA介绍:JIRA是Atlassian公司出品的项目与事务跟踪工具，被广泛应用于缺陷跟踪、需求收集、流程审批、任务跟踪、项目跟踪和敏捷管理等工作领域.在开发工作中,Jira通常用作BUG管理和任务跟踪管理等,项目经理,测试人员,开发人员等在Jira上进行提交BUG,提交任务,修改任务进度等操作.当项目逐渐多时,Jira上的BUG数量和任务数量也会
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
Python实现SMTP自动发邮件全流程指南福建低调
本文还有配套的精品资源，点击获取简介：SMTP是互联网用于发送电子邮件的标准协议，Python提供便利的库来实现这一功能。本文将介绍如何利用Python的smtplib和email.mime库通过SMTP自动发送邮件，包括设置服务器、登录验证、构建邮件对象、发送邮件，并提供了一个代码示例。文章还强调安全性和常见问题的解决方案，为初学者提供详细步骤和视觉辅助。1.SMTP协议基础在互联网技术飞速发展
AirSim学习（3）AirSim的PythonAPI基本操作——环境配置与VehicleClient类睡觉狂魔er AirSim 虚幻自动驾驶 python
文章内容AirSim学习笔记汇总AirSim的PythonAPI的安装AirSim的坐标系统classVehicleClient1.成员变量2.构造函数3.连接与仿真启停resetpinggetClientVersiongetServerVersiongetMinRequiredServerVersiongetMinRequiredClientVersionenableApiControlisAp
ROS2 细节知识学习儒雅芝士 ROS2系列机器人 c++linux
1.rosidl_generate_interfaces()在ROS2中，rosidl_generate_interfaces是一个关键的构建工具功能。它主要用于从接口定义文件（如.msg消息文件、.srv服务文件和.action动作文件）生成不同编程语言（如C++、Python等）可以使用的接口代码。这些接口是ROS2中节点间通信的基础，确保了数据在不同组件之间能够准确、高效地传递。在构建系统中
Python对jira的调用万公子测试
1：首先要知道基本属性#-*-coding:utf-8-*-importdatetimefromjiraimportJIRAjira_ip="127.0.0.1"jira_user='ceshi1'jira_passwd="1"port=8080jr=JIRA('http://'+jira_ip+':8080/',auth=(jira_user,jira_passwd))#登录all_bug=jr
使用python连接jira，获取issues 坚韧顽强的搬砖小伙 python学习手册 python 开发语言后端
需要自行配置所需的url及auth信息代码如下defget_jira_issues(jqlquery):'''传入jql语句,返回issues的dict:paramjqlquery::return:'''url="https://example.com/rest/api/2/search"auth=HTTPBasicAuth("username","password")headers={"Acce
GFPGAN - 腾讯开源的图形修复算法修复算法小众AI AI开源开源算法人工智能
GFPGAN是腾讯开源的人脸修复算法，它利用预先训练好的面部修复算法，并且封装了各种丰富多样的先验因素进行盲脸(blindface)修复，可以对老照片进行很好的修复。35800Stars5900Forks345Issues11贡献者ApacheLicensePython语言代码:https://github.com/TencentARC/GFPGAN更多AI开源软件：AI开源-小众AI主要功能盲修
ubuntu电脑调用摄像头拍摄照片山山而川_R Drugs opencv 计算机视觉人工智能
一、1、先装环境condacreate-ntextpython==3.8-ycondaactivatetext2、pipinstallopencv-python-ihttps://pypi.tuna.tsinghua.edu.cn/simple1、连接摄像头拍摄收集数据集capture_image5.pyimportcv2ascvimportosimportdatetimeimportnumpya
【AirSim+Python】image API和无人机获取图像退堂鼓选手⑥ python 无人机开发语言
没错！这个还是b站【皮卡丘上大学啦】up主学习的代码。我就是懒！今天下午敲得每一行代码都不能白敲，放在这方便我以后复制！up主原代码分享链接：在这！！！1.imageAPI获取相机图像使用的时候根据自己需求进行注释：importairsimimportnumpyasnpimportcv2#与airsim建立连接client=airsim.MultirotorClient()client.confi
【AirSim+Python】无人机简单API控制-Python代码退堂鼓选手⑥ 无人机 python
1.无人机起飞/下降importairsim#与airsim建立连接client=airsim.MultirotorClient()client.confirmConnection()#确定是否要用API控制client.enableApiControl(True)#解锁无人机转起来client.armDisarm(True)#join()等任务结束再进行下个任务#起飞client.takeoff
使用 Python 和 Tesseract 实现验证码识别一休哥助手 mfc c++
验证码识别是一个常见且实用的技术需求，尤其是在自动化测试和数据采集场景中。通过开源OCR（OpticalCharacterRecognition，光学字符识别）工具Tesseract，结合Python的强大生态，我们可以高效实现验证码识别任务。本篇博客将以详细步骤和代码示例，介绍如何使用Python和Tesseract实现验证码识别，包括原理解析、图像预处理、代码实现以及优化策略。一、验证码识别的
Python知识点：基于Python技术，如何使用AirSim进行无人机模拟超哥同学 Python系列 python 无人机开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用Python和AirSim进行无人机模拟无人机技术的发展为许多行业带来了革命性的变化，尤其是在航拍、物流配送和农业监测等领域。然而，无人机的操作和开发需要一个安全且可控的环境来进行测试和训练。AirSim就是这样一个模拟器，它提供了一个基于UnrealEngine的逼真环境，
AirSim python通信环境配置和无人机控制 fegxg 无人机 python
本人学习课程链接【AirSim】无人机踏上飞行的征途——第三课-AirSim&Python通信环境配置以及无人机起飞降落、位置控制&速度控制_哔哩哔哩_bilibili，本系列文章对其代码做一个总结和解读一、起飞降落importairsim#connecttotheAirsimsimulatorclient=airsim.MultirotorClient()client.confirmConnec
设计模式Python版抽象工厂模式小王子1024 设计模式Python版设计模式 python 抽象工厂模式
文章目录前言一、抽象工厂模式二、抽象工厂模式示例三、抽象工厂模式在Django框架中的应用前言GOF设计模式分三大类：创建型模式：关注对象的创建过程，包括单例模式、简单工厂模式、工厂方法模式、抽象工厂模式、原型模式和建造者模式。结构型模式：关注类和对象之间的组合，包括适配器模式、桥接模式、组合模式、装饰模式、外观模式、享元模式和代理模式。行为型模式：关注对象之间的交互，包括职责链模式、命令模式、解
深入理解Python的@staticmethod和@classmethod装饰器清水白石008 Python题库 python 开发语言 python 开发语言
深入理解Python的@staticmethod和@classmethod装饰器引言在Python的面向对象编程中，类方法和静态方法是除了实例方法之外的两种重要方法类型。它们允许我们在不创建类实例的情况下调用类的方法，或者在调用时直接引用类本身。Python提供了@staticmethod和@classmethod这两个装饰器，用于定义类方法和静态方法。然而，许多初学者可能会对这两种方法感到困惑，
【树莓派入门系列】opencv安装 ^Mark_Zhang^ python opencv 人工智能
树莓派入门之Opencv库安装提示：本文树莓派4B所搭载的系统是Raspi11本教程不需要任何换源，直接用树莓派自带的源就行文章目录一、树莓派版本查看二、Opencv库安装1.扩大系统文件（常规操作）2.安装aptitude软件包3.CMake工具安装4.基础库安装5.opencv-python库5.注意点一、树莓派版本查看代码如下：uanme-a或lsb_release-a二、Opencv库安装
Kmeans与KMedoids聚类对比以及python实现呵呵爱吃菜 kmeans 聚类 python
在机器学习领域，聚类算法是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本尽可能相似，而不同簇之间的样本尽可能不同。K-Means和K-Medoids是两种经典的聚类算法，它们都基于划分的思想，但在具体实现和应用场景上存在一些差异。一、算法原理1.K-Means:中心点选择:K-Means算法通过计算簇内所有样本的均值来确定中心点（centroid）。距离度量:通常
Python staticmethod weixin_30449239 python
1@staticmethod静态方法whenthismethodiscalled,wedon'tpassaninstanceoftheclasstoit(aswenormallydowithmethods).Thismeansyoucanputafunctioninsideaclassbutyoucan'taccesstheinstanceofthatclass(thisisusefulwheny
网络安全态势感知：企业数字化转型的 “安全密钥” 知白守黑V 安全运营网络安全态势感知网络
在数字经济飞速发展的当下，网络安全已经成为企业平稳运营的关键所在。从大型企业的数据泄露事故，到中小企业遭遇的各类网络攻击，网络安全威胁无处不在。而网络安全态势感知产品，作为应对复杂网络威胁的关键技术，正逐渐成为企业守护数字资产的“智慧大脑”。一、态势感知：全景掌控，精准防御你可以把网络安全态势感知想象成企业网络的“超级侦察兵”。它借助大数据分析、机器学习这些先进技术，就像是拥有了超级强大的“洞察力
国内python镜像源 qq_34830229 python pip
1、国内python镜像源地址清华：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：http://mirrors.aliyun.com/pypi/simple/中国科技大学https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学：http://pypi.hustunique.com/山东理工大学：http://pypi.s
Python-静态方法（@staticmethod） lhh_qrsly Python
@staticmethod静态方法只是名义上归属类管理，但是不能使用类变量和实例变量，是类的工具包放在函数前（该函数不传入self或者cls），所以不能访问类属性和实例属性classcal:cal_name='计算器'def__init__(self,x,y):self.x=xself.y=y@property#在cal_add函数前加上@property，使得该函数可直接调用，封装起来defca
python中@staticmethod方法 elie813 python基础
python中@staticmethod方法，类似于C++中的static，方便将外部函数集成到类体中，主要是可以在不实例化类的情况下直接访问该方法，如果你去掉staticmethod,在方法中加self也可以通过实例化访问方法也是可以集成。classTest:def__init__(self,num):self.num=num;defcout_num(self):print(self.num)@
【第四天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-两种常见的递归算法（持续更新） Long_poem python 算法开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Python数据结构与算法的详细介绍1.Python中的常用的搜索算法2.两种常见的递归算法3.两种详细的递归算法代码1）斐波那契数列2）阶乘总结前言提示：这里可以添加本文要记录的大概内容：第一天Python数据结构与算法的详细介绍第二天五种常见的排序算法第三天两种常见的搜索算法第四天两种常见的递归算法第五天一种常见的
Python 装饰器详解：@staticmethod 与 @classmethod 的区别与用法：中英双语阿正的梦工坊 Python python 开发语言
缘由：今天在看Huggingface的源码的时候，https://github.com/huggingface/transformers/blob/v4.47.1/src/transformers/models/auto/configuration_auto.py#L897对几个装饰器有所疑问，学习一下。Python装饰器详解：@staticmethod与@classmethod的区别与用法在Py
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
基于Python的豆瓣电影爬虫数据分析可视化设计与实现计算机软件程序设计 Python爬虫 Python程序设计数据分析 python 爬虫
【1】系统介绍1.研究背景随着互联网的快速发展，电影产业已经成为全球文化产业的重要组成部分。观众对电影的需求和兴趣日益增长，而在线电影平台如豆瓣电影（DoubanMovie）成为了用户获取电影信息、发表评论和评分的主要渠道之一。豆瓣电影不仅提供了丰富的电影资料，还拥有庞大的用户群体，这些用户生成的内容（UGC）为电影市场分析提供了宝贵的数据资源。然而，尽管豆瓣电影平台提供了大量的公开数据，但这些数
Python实现itemCF协同过滤推荐算法并计算召回率、准确率、F1分数和覆盖率计算机软件程序设计机器学习 python 推荐算法开发语言
一个完整的Python实现，包括ItemCF协同过滤算法的实现以及召回率、准确率、F1分数和覆盖率等评估指标的计算。将使用Pandas进行数据处理，Scikit-learn进行相似度计算，并编写函数来生成推荐列表和评估模型性能。1.数据准备首先，需要准备数据。假设有一个用户-物品评分矩阵（可以是显式评分或隐式反馈），表示用户对不同酒店的喜好程度。这里可以使用Pandas来处理数据。importpa
情感分析常见算法与模型及实现步骤计算机软件程序设计知识科普算法情感分析机器学习
【1】常见算法与模型情感分析（SentimentAnalysis）是一种自然语言处理（NLP）技术，用于识别和提取文本中的主观信息，如情绪、态度和意见。常见的算法和模型包括以下几种：传统机器学习方法朴素贝叶斯（NaiveBayes）基于贝叶斯定理，假设特征之间相互独立。计算简单，适用于大规模数据集。常用于文本分类任务。支持向量机（SVM）通过寻找最优超平面来划分不同的类别。在高维空间中表现良好，适
自然语言处理（NLP）-总览图学习汤姆和佩琦 NLP 自然语言处理学习人工智能
文章目录自然语言处理（NLP）-总览图学习1.一张总览图的学习1.语音学（Phonology）2.形态学（Morphology）3.句法学（Syntax）4.语义学（Semantics）5.推理（Reasoning）小结自然语言处理（NLP）-总览图学习转自《Python自然语言处理第二版》1.一张总览图的学习这张图片展示了一个自然语言处理的流程模型，涵盖了从语音分析到应用推理和执行的多个阶段，每
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio