sklearn

文章目录

1. Preprocessing
2. Clustering
3. Classification
- Models
- OVO & OVR
- Ensemble
- XGBoost
4. Performance
- Accuracy
- Confusion Matrix
- ROC
- Cross Validation
- Timing
5. Model Saving

1. Preprocessing

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.datasets import make_blobs
from sklearn.datasets import make_circles
from sklearn.datasets import make_moons

from sklearn.svm import LinearSVC
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.feature_selection import VarianceThreshold
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.feature_selection import SelectFromModel

from sklearn import preprocessing

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
# ===========================================================================================================
# Data Creating
# classification data
X, y = make_classification(n_samples=20, n_features=5, n_classes=2)
for x_, y_ in zip(X, y):
    print(y_, end=': ')
    print(x_)

# clustering data
X, y = make_blobs(n_samples=100, n_features=2, centers=5)
plt.scatter(X[:, 0], X[:, 1], c=y)
plt.show()

# circles data
X, y = make_circles(n_samples=1000, factor=0.5, noise=0.1)
plt.scatter(X[:, 0], X[:, 1], marker='o', c=y)
plt.show()

# moons data
X, y = make_moons(n_samples=1000, noise=0.1)
plt.scatter(X[:, 0], X[:, 1], marker='o', c=y)
plt.show()
# ===========================================================================================================
# Feature Selection
# based on variance threshold
sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
X_new = sel.fit_transform(X)

# based on univariate statistical test
sel = SelectKBest(chi2, k=2)
X_new = sel.fit_transform(X, y)

# based on L1 regularization
LSVC = LinearSVC(C=0.01, penalty="l1", dual=False, max_iter=5000)
LSVC.fit(X, y)
model = SelectFromModel(LSVC, prefit=True)
X_new = model.transform(X)

# based on tree
ET = ExtraTreesClassifier()
ET = ET.fit(X, y)
model = SelectFromModel(ET, prefit=True)
X_new = model.transform(X)
# ===========================================================================================================
# Scaling
# scaling
X_scaled = preprocessing.scale(X)

# same scaling for X_test
scaler = preprocessing.StandardScaler()
scaler.fit(X)
X_scaled = scaler.transform(X)

# min-max scaling
scaler = preprocessing.MinMaxScaler(feature_range=(0, 1))
scaler.fit(X)
X_scaled = scaler.transform(X)

# normalization
X_normalized = preprocessing.normalize(X, norm='l2')

# same normalization for X_test
normalizer = preprocessing.Normalizer()
normalizer.fit(X)
X_normalized = normalizer.transform(X)

# binarization
binarizer = preprocessing.Binarizer(threshold=4)
binarizer.fit(X)
X_binarized = binarizer.transform(X)

# One-Hot Encoder
encoder = preprocessing.OneHotEncoder()
encoder.fit(X)
X_encoded = encoder.transform(X).toarray()
# ===========================================================================================================
# Dimension Reduction
X, y = load_digits(return_X_y=True)
X_train, x_test, y_train, y_test = train_test_split(X, y)

# PCA
pca = PCA(n_components=0.95)
pca.fit(X_train, y_train)
X_train_reduced = pca.transform(X_train)
X_test_reduced = pca.transform(x_test)

# LDA
LDA = LinearDiscriminantAnalysis(n_components=2)
LDA.fit(X_train, y_train)
X_train_reduced = LDA.transform(X_train)
X_test_reduced = LDA.transform(x_test)

2. Clustering

from sklearn import datasets
from sklearn.cluster import KMeans
from sklearn.cluster import DBSCAN
from sklearn.cluster import AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from sklearn.metrics import silhouette_score
# ===========================================================================================================
# Data
iris = datasets.load_iris()
iris_X = iris.data
# ===========================================================================================================
# K-Means
KM_model = KMeans(n_clusters=3)
KM_model.fit(iris_X)
labels = KM_model.labels_

print("K-Means SC = %.4s" % silhouette_score(iris_X, labels, metric='euclidean'))
# ===========================================================================================================
# DBSCAN
DB_model = DBSCAN(eps=0.5, min_samples=5, metric='euclidean', metric_params=None,
                  algorithm='auto', leaf_size=30, p=None, n_jobs=1)
DB_model.fit(iris_X)
labels = DB_model.labels_

print("DBSCAN SC = %.4s" % silhouette_score(iris_X, labels, metric='euclidean'))
# ===========================================================================================================
# Hierarchical Clustering
HC_model = AgglomerativeClustering(n_clusters=3)
HC_model.fit(iris_X)
labels = HC_model.labels_

print("Hierarchical Clustering SC = %.4s" % silhouette_score(iris_X, labels, metric='euclidean'))
# ===========================================================================================================
# Gaussian Mixture
GMM_model = GaussianMixture(n_components=3)
GMM_model.fit(iris_X)
labels = GMM_model.predict(iris_X)

print("GMM SC = %.4s" % silhouette_score(iris_X, labels, metric='euclidean'))

3. Classification

Models

from sklearn import datasets
from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn import naive_bayes
from sklearn import tree
from sklearn.neural_network import MLPClassifier
# ===========================================================================================================
# Data
digits = datasets.load_digits()
digits_X = digits.data
digits_y = digits.target

X_train, X_test, y_train, y_test = train_test_split(digits_X, digits_y, test_size=0.3, random_state=0)
# ===========================================================================================================
# LinearRegression
LinearRegression_model = LinearRegression()
LinearRegression_model.fit(X_train, y_train)

print("LinearRegression acc = %.4s" % LinearRegression_model.score(X_test, y_test))
# ===========================================================================================================
# LogisticRegression
LR_model = LogisticRegression(max_iter=5000)
LR_model.fit(X_train, y_train)

print("LR acc = %.4s" % LR_model.score(X_test, y_test))
# ===========================================================================================================
# SGD
SGD_model = SGDClassifier(loss="hinge", penalty="l2")
SGD_model.fit(X_train, y_train)

print("SGD acc = %.4s" % SGD_model.score(X_test, y_test))
# ===========================================================================================================
# SVM
SVM_model = SVC(C=1.0, kernel='rbf', gamma='auto', decision_function_shape='ovo')
SVM_model.fit(X_train, y_train)

print("SVM acc = %.4s" % SVM_model.score(X_test, y_test))
# ===========================================================================================================
# kNN
kNN_model = KNeighborsClassifier(n_neighbors=5)
kNN_model.fit(X_train, y_train)

print("kNN acc = %.4s" % kNN_model.score(X_test, y_test))
# ===========================================================================================================
# Naive Bayes
NB_model = naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)
NB_model.fit(X_train, y_train)

print("NB acc = %.4s" % NB_model.score(X_test, y_test))
# ===========================================================================================================
# Decision Tree
DT_model = tree.DecisionTreeClassifier()
DT_model.fit(X_train, y_train)

print("DT acc = %.4s" % DT_model.score(X_test, y_test))
# ===========================================================================================================
# MLP
MLP_model = MLPClassifier(activation='relu', solver='adam', alpha=1e-5, hidden_layer_sizes=(5, 2), max_iter=5000)
MLP_model.fit(X_train, y_train)

print("MLP acc = %.4s" % MLP_model.score(X_test, y_test))

OVO & OVR

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.multiclass import OneVsRestClassifier
from sklearn.multiclass import OneVsOneClassifier

# Data
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target

X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=0.3)

# LR model
log_reg = LogisticRegression()
log_reg1 = LogisticRegression(multi_class="multinomial", solver="newton-cg")

# OVR
ovr_model = OneVsRestClassifier(log_reg)
ovr_model.fit(X_train, y_train)
print("OVR acc = %.4s" % ovr_model.score(X_test, y_test))

# OVO
ovo_model = OneVsOneClassifier(log_reg1)
ovo_model.fit(X_train, y_train)
print("OVO acc = %.4s" % ovo_model.score(X_test, y_test))

Ensemble

from sklearn import datasets
from sklearn.model_selection import train_test_split

from sklearn.ensemble import BaggingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import VotingClassifier

from sklearn.model_selection import cross_val_score

from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import GridSearchCV
# ===========================================================================================================
# Data
digits = datasets.load_digits()
digits_X = digits.data
digits_y = digits.target

X_train, X_test, y_train, y_test = train_test_split(digits_X, digits_y, test_size=0.3, random_state=0)
# ===========================================================================================================
# Bagging
bagging = BaggingClassifier(KNeighborsClassifier(), max_samples=0.5, max_features=0.5)
bagging.fit(X_train, y_train)

print("Bagging acc = %.4s" % bagging.score(X_test, y_test))
# ===========================================================================================================
# Random Forest
RF = RandomForestClassifier(n_estimators=10)
RF.fit(X_train, y_train)

print("RF acc = %.4s" % RF.score(X_test, y_test))
# ===========================================================================================================
# Extra Trees
ET = ExtraTreesClassifier(n_estimators=10, max_depth=None, min_samples_split=2)
ET.fit(X_train, y_train)

print("ET acc = %.4s" % ET.score(X_test, y_test))
# ===========================================================================================================
# AdaBoost
AdaBoost = AdaBoostClassifier(n_estimators=1000)
AdaBoost.fit(X_train, y_train)

print("AdaBoost acc = %.4s" % AdaBoost.score(X_test, y_test))
# ===========================================================================================================
# Gradient Tree Boosting
GBDT = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1)
GBDT.fit(X_train, y_train)

print("GBDT acc = %.4s" % GBDT.score(X_test, y_test))
# ===========================================================================================================
# Hard Voting
HardVoting = VotingClassifier(estimators=[('bg', bagging), ('rf', RF), ('et', ET)], voting='hard')
for clf, label in zip([bagging, RF, ET, HardVoting], ['Bagging', 'Random Forest', 'Extra Trees', 'Ensemble']):
    scores = cross_val_score(clf, X_test, y_test, cv=5, scoring='accuracy')
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

# Soft Voting
SoftVoting = VotingClassifier(estimators=[('bg', bagging), ('rf', RF), ('et', ET)], voting='soft', weights=[2, 1, 2])
for clf, label in zip([bagging, RF, ET, SoftVoting], ['Bagging', 'Random Forest', 'Extra Trees', 'Ensemble']):
    scores = cross_val_score(clf, X_test, y_test, cv=5, scoring='accuracy')
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))
# ===========================================================================================================
# Voting + Grid Search
# Data
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=0.3, random_state=0)

# Classifier
clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()
eclf = VotingClassifier(estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)], voting='soft')

# Grid Search
params = {
     'lr__C': [1.0, 100.0], 'rf__n_estimators': [20, 200]}
model = GridSearchCV(eclf, param_grid=params, cv=5)
model = model.fit(X_train, y_train)

print("Best Model: %s" % model.best_estimator_)
print("Best Score: %.4s" % model.best_score_)
print("Best Parameters: %s" % model.best_params_)

XGBoost

from sklearn import datasets
from sklearn.model_selection import train_test_split

from xgboost import XGBClassifier

# data
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target

X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=0.3)

# model
model = XGBClassifier()
eval_set = [(X_test, y_test)]
model.fit(X_train, y_train, early_stopping_rounds=10, eval_metric="mlogloss", eval_set=eval_set, verbose=True)

print(model.score(X_test, y_test))

4. Performance

Accuracy

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Data
digits = datasets.load_digits()
digits_X = digits.data
digits_y = digits.target

X_train, X_test, y_train, y_test = train_test_split(digits_X, digits_y, test_size=0.3, random_state=0)

# LR model
LR_model = LogisticRegression(max_iter=5000)
LR_model.fit(X_train, y_train)

# accuracy 1
print("LR acc = %.4s" % LR_model.score(X_test, y_test))

# accuracy 2
y_pred = LR_model.predict(X_test)

predictions = [round(value) for value in y_pred]

acc = accuracy_score(y_test, predictions)
print("LR acc = %.4s" % acc)

Confusion Matrix

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

from sklearn.metrics import confusion_matrix
import numpy as np
import matplotlib.pyplot as plt


def plot_confusion_matrix(cm, labels_name, title):
    cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
    plt.imshow(cm, interpolation='nearest')
    plt.title(title)
    plt.colorbar()
    num_local = np.array(range(len(labels_name)))
    plt.xticks(num_local, labels_name, rotation=90)
    plt.yticks(num_local, labels_name)
    plt.ylabel('True label')
    plt.xlabel('Predicted label')


# Data
X, y = make_classification(n_samples=500, n_features=10, n_informative=3, n_classes=2)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Model
LR_model = LogisticRegression(max_iter=5000)
LR_model.fit(X_train, y_train)
y_predict = LR_model.predict(X_test)

# Confusion Matrix
cm = confusion_matrix(y_test, y_predict)
print(cm)

plot_confusion_matrix(cm, ['0', '1'], "HAR Confusion Matrix")
plt.show()

# Measures
TP = cm[0, 0]
FP = cm[0, 1]
FN = cm[1, 0]
TN = cm[1, 1]

Accuracy = (TP + TN) / (TP + FP + FN + TN)
Precision = TP / (TP + FP)
Recall = TP / (TP + FN)
Specificity = TN / (TN + FP)
F1_score = 2 * Precision * Recall / (Precision + Recall)
G_mean = Recall * Specificity ** 0.5

print("Accuracy = %.4s" % Accuracy)
print("Precision = %.4s" % Precision)
print("Recall = %s.4" % Recall)
print("Specificity = %.4s" % Specificity)
print("F1_score = %.4s" % F1_score)
print("G_mean = %.4s" % G_mean)

ROC

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
from sklearn.metrics import auc

import matplotlib.pyplot as plt

# Data
X, y = make_classification(n_samples=500, n_features=10, n_informative=3, n_classes=2)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Model
LR_model = LogisticRegression(max_iter=5000)
LR_model.fit(X_train, y_train)
y_predict = LR_model.predict(X_test)
y_score = LR_model.decision_function(X_test)

# AUC
auc_score = roc_auc_score(y_test, y_score)
print("AUC = %.4s" % auc_score)

# ROC
fpr, tpr, thresholds = roc_curve(y_test, y_score, pos_label=1)
auc_score_2 = auc(fpr, tpr)
print("AUC = %.4s" % auc_score_2)

plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % auc_score)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

Cross Validation

from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score

import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV

from sklearn.model_selection import learning_curve
from sklearn.model_selection import validation_curve
# ===========================================================================================================
# Data
iris = load_iris()
X = iris.data
y = iris.target
# ===========================================================================================================
# K-fold Cross Validation
knn = KNeighborsClassifier(n_neighbors=5)
scores = cross_val_score(knn, X, y, scoring='accuracy', cv=5)
print("K-fold acc = %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
# ===========================================================================================================
# Grid Search 1
knn = KNeighborsClassifier()
params = {
     'n_neighbors': [1, 31]}
model = GridSearchCV(knn, param_grid=params, cv=5)
model = model.fit(X, y)
print("Best Model: %s" % model.best_estimator_)
print("Best Score: %.4s" % model.best_score_)
print("Best Parameters: %s" % model.best_params_)

# Grid Search 2
knn = KNeighborsClassifier()
k_range = range(1, 31)
k_scores = []
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X, y, cv=5, scoring='accuracy')
    k_scores.append(scores.mean())

plt.plot(k_range, k_scores)
plt.xlabel("Value of K for kNN")
plt.ylabel("Cross-validated Accuracy")
plt.show()
print("Grid Search acc = %.4s" % max(k_scores))
# ===========================================================================================================
# Learning Curve
knn = KNeighborsClassifier(n_neighbors=3)
train_size, train_score, test_score = learning_curve(knn, X, y, cv=5, scoring='accuracy',
                                                     train_sizes=[0.1, 0.25, 0.5, 0.75, 1])
train_score_mean = train_score.mean(axis=1)
test_score_mean = test_score.mean(axis=1)

plt.plot(train_size, train_score_mean, 'ro-', label="Training")
plt.plot(train_size, test_score_mean, 'gs-', label="Cross-validation")
plt.xlabel("Training examples")
plt.ylabel("Cross-validated Accuracy")
plt.legend(loc="best")
plt.show()
# ===========================================================================================================
# Validation Curve
param_range = [1, 33]

knn = KNeighborsClassifier()
train_score, test_score = validation_curve(knn, X, y, cv=5, scoring='accuracy',
                                           param_name='n_neighbors', param_range=param_range)
train_score_mean = train_score.mean(axis=1)
test_score_mean = test_score.mean(axis=1)

plt.plot(param_range, train_score_mean, 'ro-', label="Training")
plt.plot(param_range, test_score_mean, 'gs-', label="Cross-validation")
plt.xlabel("Value of K for kNN")
plt.ylabel("Cross-validated Accuracy")
plt.legend(loc="best")
plt.show()

Timing

import time

start = time.time()
time.sleep(2)
end = time.time()

time_consumed = end-start

print('Running time: %.5s Seconds' % time_consumed)

5. Model Saving

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import joblib

digits = datasets.load_digits()
digits_X = digits.data
digits_y = digits.target

X_train, X_test, y_train, y_test = train_test_split(digits_X, digits_y, test_size=0.3, random_state=0)

kNN_model = KNeighborsClassifier(n_neighbors=5)
kNN_model.fit(X_train, y_train)

# Model Saving
joblib.dump(kNN_model, 'kNN.pickle')

# Model Loading
model = joblib.load('kNN.pickle')

Python简单的学生管理系统（字典实现） Lill_bin Python 字典学生管理数据操作用户交互
代码：dict1={'小黑':'2020212978','小白':'2020212977','小绿':'2020212966'}print("请输入想要进行的操作:1.插入学生2.查询学生3.删除学生4.查询所有信息5.退出")definsertstudent():#插入学生信息name=input("请输入想要插入的学生姓名")if(nameindict1):print("该学生信息已存在")e
《Python数据分析实战》 johnny233 Python 读书笔记 python
环境搭建定义变量名时要遵循的规则：变量名必须以字母或下画线开始，名字中间只能由字母、数字和下画线组成长度不能超过255个字符变量名在有效范围内必须具有唯一性不能使用保留字（关键字）区分大小写不能对元组中的元素做修改，只能做切片查询。如果元组中只有1个元素，则需要在这个元素的后面加上逗号。数字100正确的表示方法为(100,)列表：a=[1,2,3]，常用列表函数函数用途append()向列表末尾添
Pyecharts 可视化数据大屏设计与实践 jun778895 pyecharts
Pyecharts可视化数据大屏设计与实践在当今数字化转型的大潮中，数据可视化大屏成为了企业展示业务数据、监控运营状态、辅助决策制定的重要工具。Pyecharts，作为一款基于Python的开源数据可视化库，因其丰富的图表类型、灵活的配置选项以及易于集成的特性，成为构建数据大屏的理想选择。本文将详细探讨如何利用Pyecharts设计并实现一个功能全面、视觉效果突出的数据可视化大屏。一、项目概述假设
Django模板语法和ModelForm Q_M_Y_Y django django python
ModelForm或者Form组件的作用:生成HTML标签对POST过来的表单数据进行验证直接将数据保存到数据库获取表单错误信息Django的管道操作模板时间格式化显示{{item.event_start|date:“Y-m-dH:i:s”}}{{bio|truncatewords:“30”}}{{my_list|first|upper}}{{name|lower}}Mysql时间转Python时
【Python】面向对象丕羽 python
面向对象1.概述:编程思想,对象为基础,基于面向过程.三大思想特点:把复杂的事情简单化把人们(程序员)从执行者变成指挥者.更符合人们的思考习惯.总结1.万物皆对象2.概述,特点,举例,总结四个方向描述什么是面向对象2.三大特征:封装,继承,多态封装:隐藏对象的属性和实现细节(方法),仅对外提供公共的访问方式.通过私有化方式隐藏,公共的访问方式操作,因为函数也是封装,所以封装不单指的是私有封装保证了
python csv文件创建时间_更高效的Python CSV文件导出 weixin_39622084 python csv文件创建时间
在上一篇文章，我介绍了CSV是什么？CSV有哪些优点？如何使用等等？并且最后我们用一个例子简单讲解了如何使用Python模块CSV进行导出后缀为.csv的文本文件。其实例子用于异步导出数据文件是够了，但工作中我们可能还需要结合我们Web框架进行更复杂的CSV导出。所以今天我们的目的就是结合PythonDjango框架进行分享CSV导出的另外一种方式。安装依赖这里面我们需要安装一个第三方包djang
python Django +Vue实现多文件异步上传离光头还差半个光头 python vue.js upload post
pythonDjango+Vue实现多文件异步上传刚接触python不久，接到个需求需要多文件上传，在网上找了很多，有讲理论的，有讲实现的，但我花了很长时间，才从这些文章中搞懂这个问题，我们来个直接粗暴的，上代码，部分解释加在代码上html首页letapp=newVue({el:'#app',data:{fileList:[],},methods:{fileChange:function(e){t
火山引擎字节跳动豆包AI对话接口 lytcreate. Python 火山引擎 AI 火山引擎
#pipinstall'volcengine-python-sdk[ark]'fromvolcenginesdkarkruntimeimportArkdefchat_dance(desc):client=Ark(api_key='你的api_key')completion=client.chat.completions.create(model="ep-20240619083846-c4xff",
python 打包docker 风行傲天 python docker 开发语言
python版本3.10使用flask项目打包1、创建requirements.txt列出项目所安装依赖，如：flaskstatsmodels==0.14.2neuralprophet==0.9.0keras==3.4.1scikit-learn==1.5.1tensorflow2、编写Dockerfile#拉取基础镜像FROMpython:3.10#镜像维护者的姓名和邮箱地址MAINTAINER
python sql语句生成_python自动生成sql语句的脚本 weixin_39531183 python sql语句生成
描述：工作中在数据库中创建表时，当字段很多时，比较麻烦，开发一个工具，可在excel中写好字段英文名和中文名，然后通过py生成脚本或直接在库中生成表脚本：importtkinterfromtkinterimport*importtkinter.messageboxfromtkinterimportscrolledtextimportxlrdimportpymysqlimportos#从excel中
python数据库操作批量sql执行_利用Python脚本批量生成SQL语句 weixin_39725154
通过Python脚本批量生成插入数据的SQL语句原始SQL语句：INSERTINTOsystem_user(id,login_name,name,password,salt,code,createtime,email,main_org,positions,status,used,url,invalid,millis,id_card,phone_no,past,end_date,start_date
BeautifulSoup：Python网页解析库详解零度° python beautifulsoup python
BeautifulSoup是一个Python库，用于从HTML或XML文件中提取数据。它能够通过简单的方法处理复杂的HTML文档，并且很容易就能找到你需要的标签和数据。BeautifulSoup的主要特点易于使用：BeautifulSoup提供了简洁的API来提取HTML标签。灵活：可以与lxml、html5lib或html.parser等解析器一起使用。强大：支持导航、搜索、修改解析树等功能。常
Python比C语言到底有什么优势？为什么越来越多人都学python？马大哈（Python） python pycharm 开发语言 AI编程爬虫
Python作为一种高级编程语言，在众多编程语言中脱颖而出，主要得益于其多方面的优势。以下是Python相比于其他语言的一些显著优势：简单易学：Python的语法清晰、简洁，易于阅读和编写，这使得它成为初学者的首选语言。其语法结构接近于自然语言，减少了学习曲线的陡峭度。丰富的库和框架：Python拥有庞大的标准库和第三方库，涵盖了从Web开发、数据科学、机器学习、人工智能、自动化测试到网络编程等各
python批量生成sql用于创建500个用户 weixin_43946945 python sql 数据库
创建500个用户，分别为jmeter001-jmeter500，密码都是123，手动添加不现实，用客户端复制粘贴表数据也要添加很久，因此想批量生成500条插入的sql，如下：start_num=1end_num=500insert_sql="INSERTINTO`sys_user`(`user_id`,`username`,`password`,`email`,`mobile`,`create_t
汇编、C/C++编译过程迷的人 c++
前言最近安装汇编环境的时候了解到代码的执行与编译过程，对自己曾经学习过语言的编译过程无法准确的回答，借此进行一些简单的梳理。一、汇编的编译过程汇编作为我们能够接触到最底层的语言、低级语言，汇编语言的编译方法多是基于对于寄存器的控制，可以直接翻译成机器代码，它同样是其他高级语言的基础，高级语言如Python、C++和Java与汇编语言的关系是一对多。比如，C++的一条语句就会扩展为多条汇编指令。故汇
Python任务调度的几种方式唯余木叶下弦声 python python 开发语言
目录1、通过time.sleep(n)2、通过LinuxCrontab3、通过APScheduler4、通过AirFlow框架1、通过time.sleep(n)例如，写个while(True)循环，每次执行完程序休眠1小时：time.sleep(3600)，以间接达到定时调度的效果。这是最简单也是最笨的方式，会阻塞当前线程，而且无法控制任务准确的执行时间，不推荐用于生产环境中的任务调度。2、通过L
python编写API接口实现数据筛选、查询与分页唯余木叶下弦声 python 开发语言
目录一、背景二、代码一、背景由于系统上需要分页展示数据，并提供按字段筛选数据的功能，于是需要我写个接口，以供前端使用。接口可以通过pythonflask框架实现。Flask是一个轻量级的Web框架，它提供了足够的灵活性来构建定制的RESTfulAPI。开发者可以根据需求轻松地设计和实现接口。数据的查询可以通过pymysql连接MySQL数据库实现。数据的筛选和分页可以通过堆叠where条件、row
BUG解决：postman可以请求成功，但Python requests请求报403 唯余木叶下弦声 bug
目录问题背景问题定位问题解决问题背景使用Python的requests库对接物联数据的接口之前一直正常运行，昨天突然请求不通了，通过进一步验证发现凡是使用代码调用接口就不通，而使用postman就能调通，请求参数啥的都没变。接口返回的结果如下：\n\n\n\n\n403\n\nbody{\nbackground-color:#f3f3f4;\ncolor:#676a6c;\nheight:100%
Python使用pyhive库远程操作hive的配置和使用玩家_名狱 Python学习大数据 python 数据库 hive
请先安装好hive，林子雨老师的配置方法，该配置方法是可以配置成功的，请注意配置hive-site.xml文件的时候，里面添加的信息都是在标签里的尾部添加配置hive环境到hive安装的conf目录下，把hive-env.sh.template复制一份并改名为hive-env.shcd/usr/local/hive/conf/cphive-env.sh.templatehive-env.sh然后配
python模块使用流光影下 python入门教程 python 开发语言
自定义模块以内建的sys模块为例，编写一个hello的模块：#!/usr/bin/envpython3#-*-coding:utf-8-*-'atestmodule'__author__='MichaelLiao'importsysdeftest():args=sys.argviflen(args)==1:print('Hello,world!')eliflen(args)==2:print('H
1.5 编程基础之循环控制 45 金币方法二（python3实现） dllglvzhenfeng CSP-J CSP-S NOIP历年真题计算机考研机试程序猿的数学算法人工智能 python 蓝桥杯 CSP-J
OpenJudge-45:金币信息学奥赛一本通（C++版）在线评测系统[NOIP2015普及组]金币-洛谷1.5编程基础之循环控制_45金币https://blog.csdn.net/dllglvzhenfeng/article/details/1219932361.5编程基础之循环控制45金币（python3实现一）https://blog.csdn.net/dllglvzhenfeng/art
python利用pyhive 连接hive Leonban 《Python基础知识》python hive 大数据
1.下载需求包pipinstallsaslpipinstallthriftpipinstallthrift-saslpipinstallPyHive2.连接hive注意端口默认为10000frompyhiveimporthiveconn=hive.Connection(host='192.168.100.100',port=10000,username='root',database='defau
python连接hive--Pyhive Elvis_hui hive hive python sql
Pyhive安装包pipinstallsaslpipinstallthriftpipinstallthrift-saslpipinstallPyHive#安装对应的包sasl可能会报错#下载sasl文件sasl下载执行语句第一种frompyhiveimporthivedefselect_pyhive(sql):#创建hive连接conn=hive.Connection(host='##',port
pyhton - PyHive 凌不了云 python python hive
简介PyHive是一组PythonDB-API和SQLAlchemy接口，可用于Presto和Hive。它为Python提供了一个与Presto和Hive进行交互的平台，使得数据分析师和工程师可以更方便地进行数据处理和分析。安装在安装PyHive之前，你需要确保已经安装以下软件：PipPythonJDK（JavaDevelopmentKit）Hive或Presto在安装完成上述软件之后，你可以使用
python中格式化输出 2301_76175793 python 开发语言
1、使用%占位符%s将内容转化为字符串，放入占位位置。内容可以是列表，字典等类型，最后会转化成字符串类型。%d将内容转化为整数，放入占位位置%f将内容转化为浮点数，放入占位位置使用占位符按位置传参，如果只传一个参数的话，不用在参数的位置加括号，而要传多个参数的话，要加括号，并且传入的参数与占位符的位置一一对应。输入：print("我的名字是%s。"%"明天")print("我的名字是%s，我的年龄
Python中使用SQLite ch_s_t Python sqlite python 数据库 sql
一、SQLite3增删改查在Python中使用SQLite3进行数据库操作是一种常见的实践，特别是对于小型应用程序或原型开发。以下是使用Python标准库中的`sqlite3`模块进行增删改查（CRUD）操作的基本示例。1.连接数据库首先，需要连接到SQLite数据库。如果数据库文件不存在，`sqlite3.connect()`将会创建一个新的数据库文件。importsqlite3#连接到SQLi
python取消注释代码_python去除注释 weixin_39580041 python取消注释代码
UliPad常用技巧小贴士UliPad常用技巧小贴士Python学了也一段时间了，拥有一款顺手的IDE工具也是写程序必备的。我发现很多人都在用sublime，用起来确实也不错，不过发现了一款国产的工具，是国内大神limodou基于wxPython写的，用起来还蛮顺手的，为了使用更方便还需要一些小技巧，以下就是我遇到的一些...文章科技小能手2017-11-121306浏览量python3与Java
python爬虫心得_python爬虫学习心得 weixin_39941721 python爬虫心得
爬虫新手一枚，因为工作原因需要学习相关的东西。发表下这段时间学习的心得，有说得不对的地方欢迎指指点点。一.什么是爬虫在学习爬虫之前只对爬虫有个概念性的认识。通过向服务器发送请求获取服务器传回信息，再根据其提取所需的信息。原理虽然简单，但是涉及的细节非常多，从一个坑爬出来又掉进另一个坑。二.post和getpost和get是两种向服务器发送请求的方式，有些http基础的同学应该都清楚他们的用处，在写
python网络爬虫的流程图_python爬虫系列（1）- 概述 weixin_39649965 python网络爬虫的流程图
原标题：python爬虫系列（1）-概述事由之前间断地写过一些python爬虫的一些文章，如：工具分享|在线小说一键下载Python帮你定制批量获取智联招聘的信息Python帮你定制批量获取你想要的信息用python定制网页跟踪神器，有信息更新第一时间通知你（附视频演示）把python网页跟踪神器部署到云上，彻底解放你的电脑个人认为学习python语言的话，爬虫是一个非常适合入门的方向。为了把学习
Python爬虫系列总结 qformat python 爬虫开发语言
Python爬虫系列总结包含（Scrapy框架介绍）文章目录Python爬虫系列总结包含（Scrapy框架介绍）一、前言二、Python爬虫的基础三、Python爬虫进阶四、简易爬虫总结五、Python爬虫框架六、爬虫部署一、前言随着WEB2.0时代的到来，网络已经成为了人们获取信息的重要途径，而爬虫技术可以让我们从海量的网络数据中快速地获取我们想要的信息。Python是一种简单易学、功能强大的编
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

sklearn

文章目录

1. Preprocessing

2. Clustering

3. Classification

Models

OVO & OVR

Ensemble

XGBoost

4. Performance

Accuracy

Confusion Matrix

ROC

Cross Validation

Timing

5. Model Saving

你可能感兴趣的:(Python)