小李很执着

【python】在【机器学习】与【数据挖掘】中的应用：从基础到【AI大模型】

一、Python在数据挖掘中的应用

1.1 数据预处理

数据清洗

数据变换

数据归一化

高级预处理技术

1.2 特征工程

特征选择

特征提取

特征构造

二、Python在机器学习中的应用

2.1 监督学习

分类

回归

2.2 非监督学习

聚类

降维

三、Python在深度学习中的应用

3.1 深度学习框架

TensorFlow

PyTorch

四、Python在AI大模型中的应用

4.1 大模型简介

4.2 GPT-4o实例

五、实例验证

5.1 数据集介绍

5.2 模型构建与训练

5.3 模型优化

六.深度扩展与具体实例

1.数据预处理扩展：

缺失值填补

异常值检测与处理

数据增强

2.特征工程扩展：

3.模型选择与评估：

4.深度学习实例：

5.AI大模型应用：

6.进一步实例验证与优化：

总结

在大数据时代，数据挖掘与机器学习成为了各行各业的核心技术。Python作为一种高效、简洁且功能强大的编程语言，得到了广泛的应用。

一、Python在数据挖掘中的应用

1.1 数据预处理

数据预处理是数据挖掘的第一步，是确保数据质量和一致性的关键步骤。良好的数据预处理可以显著提高模型的准确性和鲁棒性。

数据清洗

数据清洗是数据预处理的重要组成部分，主要包括去除缺失值、去除重复值和处理异常值。

import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 数据清洗
data = data.dropna()  # 去除缺失值
data = data.drop_duplicates()  # 去除重复值

数据变换

数据变换包括将数据从一种格式转换为另一种格式，例如将字符串日期转换为日期对象，以便于进一步分析和处理。

data['date'] = pd.to_datetime(data['date'])  # 日期格式转换

数据归一化

数据归一化是将数据缩放到特定范围内，以消除不同特征之间量级的差异，从而提高模型的性能和训练速度。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
data[['feature1', 'feature2']] = scaler.fit_transform(data[['feature1', 'feature2']])

高级预处理技术

除了基本的清洗和归一化外，高级预处理技术还包括缺失值填补、异常值处理和数据增强等。

缺失值填补：利用插值法或KNN方法填补缺失值。

异常值处理：利用Z-score方法检测并处理异常值。

数据增强：通过随机裁剪、翻转、旋转等方法增加数据的多样性。

# 使用插值法填补缺失值
data = data.interpolate()

# 使用KNN方法填补缺失值
from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=3)
data_imputed = imputer.fit_transform(data)

# 使用Z-score方法检测异常值
from scipy import stats
import numpy as np

z_scores = np.abs(stats.zscore(data))
data = data[(z_scores < 3).all(axis=1)]

1.2 特征工程

特征工程是提升模型性能的重要手段。

特征选择

特征选择是从原始数据中选择最具代表性的特征，以减少数据维度，提高模型的性能和训练速度。

from sklearn.feature_selection import SelectKBest, f_classif

# 特征选择
X = data.drop('target', axis=1)
y = data['target']
selector = SelectKBest(score_func=f_classif, k=5)
X_new = selector.fit_transform(X, y)

特征提取

特征提取是从原始数据中提取新的、更具代表性的特征，如通过主成分分析（PCA）进行降维。

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

特征构造

特征构造是通过组合或转换现有特征来创建新的特征，从而提高模型的预测能力。例如，创建交互特征或多项式特征。

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, interaction_only=True)
X_poly = poly.fit_transform(X)

二、Python在机器学习中的应用

2.1 监督学习

监督学习是机器学习的主要方法之一，包括分类和回归。Scikit-learn是Python中常用的机器学习库，提供了丰富的模型和工具。

分类

分类任务的目标是将数据点分配到预定义的类别中。以下示例展示了如何使用随机森林分类器进行分类任务。

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建随机森林分类器
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

回归

回归任务的目标是预测连续值。例如，使用线性回归模型来预测房价。

from sklearn.linear_model import LinearRegression

# 构建线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.2f}')

使用随机森林分类器进行分类任务。首先，将数据集划分为训练集和测试集，然后构建随机森林分类器并进行训练，最后在测试集上进行预测并计算准确率。

2.2 非监督学习

非监督学习主要用于聚类和降维。KMeans和DBSCAN是常用的聚类算法。

聚类

聚类算法将相似的数据点分配到同一组。以下示例展示了如何使用KMeans算法进行聚类，并将结果可视化。

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 构建KMeans模型
kmeans = KMeans(n_clusters=3, random_state=42)
data['cluster'] = kmeans.fit_predict(data)

# 可视化聚类结果
plt.scatter(data['feature1'], data['feature2'], c=data['cluster'])
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('KMeans Clustering')
plt.show()

降维

降维技术可以减少数据的维度，使得数据更易于可视化和分析。例如，使用主成分分析（PCA）进行降维。

from sklearn.decomposition import PCA

# 使用PCA进行降维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# 可视化降维结果
plt.scatter(X_pca[:, 0], X_pca[:, 1])
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA of Dataset')
plt.show()

使用KMeans算法进行聚类，并将结果可视化。首先，构建KMeans模型并进行聚类，然后使用matplotlib库绘制聚类结果的散点图。

三、Python在深度学习中的应用

3.1 深度学习框架

深度学习是机器学习的一个子领域，主要通过人工神经网络来进行复杂的数据处理任务。TensorFlow和PyTorch是Python中最常用的深度学习框架。它们提供了构建和训练神经网络的丰富工具。

TensorFlow

TensorFlow是由谷歌开发的一个开源深度学习框架，广泛应用于各种深度学习任务中。

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 构建神经网络模型
model = Sequential([
    Dense(128, activation='relu', input_shape=(X_train.shape[1],)),
    Dense(64, activation='relu'),
    Dense(1, activation='sigmoid')
])

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_split=0.2)

# 评估模型
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Accuracy: {accuracy:.2f}')

PyTorch

PyTorch是由Facebook开发的一个开源深度学习框架，以其灵活性和易用性受到广泛欢迎。

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

# 构建神经网络模型
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(X_train.shape[1], 128)
        self.fc2 = nn.Linear(128, 64)
        self.fc3 = nn.Linear(64, 1)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = torch.sigmoid(self.fc3(x))
        return x

model = SimpleNN()

# 编译模型
criterion = nn.BCELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 训练模型
train_dataset = TensorDataset(torch.tensor(X_train, dtype=torch.float32), torch.tensor(y_train, dtype=torch.float32))
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)

for epoch in range(10):
    for inputs, labels in train_loader:
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels.unsqueeze(1))
        loss.backward()
        optimizer.step()

# 评估模型
test_dataset = TensorDataset(torch.tensor(X_test, dtype=torch.float32), torch.tensor(y_test, dtype=torch.float32))
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

total = 0
correct = 0
with torch.no_grad():
    for inputs, labels in test_loader:
        outputs = model(inputs)
        predicted = outputs.round()
        total += labels.size(0)
        correct += (predicted.squeeze() == labels).sum().item()

accuracy = correct / total
print(f'Accuracy: {accuracy:.2f}')

四、Python在AI大模型中的应用

4.1 大模型简介

AI大模型如GPT-4o和BERT已经在自然语言处理、图像识别等领域取得了突破性进展。构建和训练这些大模型需要强大的计算资源和先进的算法。

4.2 GPT-4o实例

OpenAI的GPT-4o是目前最先进的自然语言处理模型之一。使用GPT-4o可以进行文本生成、翻译、摘要等任务。

import openai

# 设置API密钥
openai.api_key = 'YOUR_API_KEY'

# 使用GPT-4o生成文本
response = openai.Completion.create(
    engine="gpt-4",
    prompt="Once upon a time in a land far, far away",
    max_tokens=50
)

print(response.choices[0].text.strip())

使用OpenAI的GPT-4o模型进行文本生成。通过设置API密钥并调用GPT-4o的文本生成接口，我们可以生成连续的文本。

五、实例验证

5.1 数据集介绍

使用UCI机器学习库中的Iris数据集来进行分类任务的实例验证。

from sklearn.datasets import load_iris
import pandas as pd

# 加载Iris数据集
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.Series(iris.target, name='target')

# 显示数据集信息
print(X.head())
print(y.head())

Iris数据集是一个经典的数据集，包含三种鸢尾花的特征和类别信息。我们首先加载数据集并将其转换为pandas的DataFrame和Series格式，方便后续处理。

5.2 模型构建与训练

构建一个决策树模型来分类Iris数据集。

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建决策树模型
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

使用决策树分类器进行分类任务。首先，将数据集划分为训练集和测试集，然后构建决策树模型并进行训练，最后在测试集上进行预测并计算准确率。

5.3 模型优化

通过调整模型参数和使用交叉验证来优化模型性能。

from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {
    'max_depth': [3, 5, 7, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# 网格搜索
grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)

# 最优参数和模型
best_params = grid_search.best_params_
best_clf = grid_search.best_estimator_

# 评估最优模型
y_pred = best_clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Optimized Accuracy: {accuracy:.2f}')
print(f'Best Parameters: {best_params}')

使用网格搜索来优化决策树模型的参数。通过定义参数网格并进行交叉验证，找出最优参数组合并训练最优模型，最终在测试集上进行评估。

六.深度扩展与具体实例

1.数据预处理扩展：

数据预处理不仅限于基本的清洗和归一化，还涉及更多高级技术，例如缺失值的填补策略、异常值检测与处理、数据增强等。

缺失值填补

使用插值方法填补缺失值：

# 使用插值法填补缺失值
data = data.interpolate()

或者使用KNN方法填补缺失值：

from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=3)
data_imputed = imputer.fit_transform(data)

异常值检测与处理

使用z-score方法检测异常值：

from scipy import stats
import numpy as np

z_scores = np.abs(stats.zscore(data))
data = data[(z_scores < 3).all(axis=1)]

数据增强

数据增强是通过对现有数据进行随机变换（如裁剪、翻转、旋转等）来生成新的训练样本，从而提高模型的泛化能力。

from tensorflow.keras.preprocessing.image import ImageDataGenerator

# 创建数据增强生成器
datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    horizontal_flip=True
)

# 应用数据增强
datagen.fit(X_train)

2.特征工程扩展：

特征工程不仅包括选择和提取特征，还包括特征构造。通过特征构造，可以从原始特征中生成新的、更有用的特征。创建交互特征或多项式特征：

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, interaction_only=True)
X_poly = poly.fit_transform(X)

3.模型选择与评估：

在选择模型时，通常会尝试多种模型并进行比较，如线性回归、决策树、支持向量机等。使用交叉验证来评估模型性能：

from sklearn.model_selection import cross_val_score

# 线性回归模型
from sklearn.linear_model import LinearRegression
model = LinearRegression()
scores = cross_val_score(model, X, y, cv=5)
print(f'Linear Regression CV Accuracy: {scores.mean():.2f}')

使用更复杂的模型，支持向量机：

from sklearn.svm import SVC

model = SVC(kernel='linear')
scores = cross_val_score(model, X, y, cv=5)
print(f'SVC CV Accuracy: {scores.mean():.2f}')

4.深度学习实例：

使用更复杂的神经网络架构，卷积神经网络（CNN）用于图像分类任务：

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

model = Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(64, 64, 3)),
    MaxPooling2D((2, 2)),
    Flatten(),
    Dense(128, activation='relu'),
    Dense(10, activation='softmax')
])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 假设X_train和y_train是图像数据和标签
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_split=0.2)

或者使用循环神经网络（RNN）处理时间序列数据：

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Dense

model = Sequential([
    SimpleRNN(50, activation='relu', input_shape=(10, 1)),
    Dense(1)
])

model.compile(optimizer='adam', loss='mean_squared_error')

# 假设X_train和y_train是时间序列数据
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_split=0.2)

5.AI大模型应用：

使用BERT进行文本分类任务：

from transformers import BertTokenizer, TFBertForSequenceClassification
from tensorflow.keras.optimizers import Adam

# 加载预训练的BERT模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = TFBertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

# 编码输入数据
inputs = tokenizer('This is a positive example', return_tensors='tf')
labels = tf.constant([1])[None, :]  # Batch size 1

# 编译和训练模型
model.compile(optimizer=Adam(learning_rate=3e-5), loss=model.compute_loss, metrics=['accuracy'])
model.fit(inputs, labels, epochs=3)

6.进一步实例验证与优化：

使用更多的数据集和更复杂的模型进行验证，并应用超参数调优技术，贝叶斯优化：

from skopt import BayesSearchCV

# 定义参数空间
param_space = {
    'max_depth': (1, 10),
    'min_samples_split': (2, 20),
    'min_samples_leaf': (1, 20)
}

# 贝叶斯搜索
opt = BayesSearchCV(estimator=DecisionTreeClassifier(), search_spaces=param_space, n_iter=32, cv=5, n_jobs=-1)
opt.fit(X_train, y_train)

best_params = opt.best_params_
print(f'Optimized Parameters: {best_params}')

总结

Python在数据科学和机器学习中的广泛应用，得益于其强大的库和工具。通过这些库和工具，数据科学家和工程师可以高效地进行数据预处理、特征工程、模型构建、模型评估和优化。无论是传统的机器学习方法还是前沿的深度学习技术，Python都提供了全面的支持。通过不断学习和实践，掌握这些技术可以为数据分析和人工智能应用提供强大的支持。

PYTHON常用指令 Maple丶峰 python 开发语言
安装了PYTHO之后的常用指令，快速配置好环境，自己用的速查手册。python13安装包官网下的慢，放在了资源。先配置好环境变量，把python13根目录，还有scripts目录都放到path环境变量里，cmd才能用python和pip命令。在cmd把pip的镜像设置为清华镜像源，下载速度快。pipconfigsetglobal.index-urlhttps://pypi.tuna.tsinghu
20210411笔记 Maple丶峰 python python
一、数据转换。通过python将一串以Enter间隔的串输出为列表input:abcstopcode:l=[]while(True):a=input()ifa=='stop':breakl.append(a)print(l)output:['a','b','c']二、DataFrame在输出成excel时，给某一列加上特定的格式，例如以%的形式来显示。code:#以下为带格式生成代码writer=
如何用python实现数独游戏【附源码】 helloshili2011 python专栏 java 前端服务器
一、第一次用python实现数独游戏的代码：defprint_board(board):forrowinboard:print("".join(map(str,row)))defis_valid_move(board,row,col,num):#Checkifthenumberisalreadyintherowifnuminboard[row]:returnFalse#Checkifthenumb
Python酷库之旅-第三方库Pandas(041) 神奇夜光杯 python pandas 开发语言人工智能 excel 标准库及第三方库学习与成长
目录一、用法精讲136、pandas.Series.ne方法136-1、语法136-2、参数136-3、功能136-4、返回值136-5、说明136-6、用法136-6-1、数据准备136-6-2、代码示例136-6-3、结果输出137、pandas.Series.eq方法137-1、语法137-2、参数137-3、功能137-4、返回值137-5、说明137-6、用法137-6-1、数据准备13
【智能算法】Dijkstra算法大雨淅淅智能算法算法 python 机器学习大数据图论
目录一、Dijkstra算法概述1.1基本概念1.2算法思想1.3算法步骤1.4算法特点二、Dijkstra算法优缺点和改进2.1Dijkstra算法优点2.2Dijkstra算法缺点2.3Dijkstra算法改进三、Dijkstra算法编程实现3.1Dijkstra算法C语言实现3.2Dijkstra算法JAVA实现3.3Dijkstra算法python实现3.4Dijkstra算法matlab
Agentic：基于DeepSeek V3与R1的智能代理技术深度解析 weixin_40941102 人工智能
引言人工智能的快速发展正在重塑我们的技术世界，而智能代理（Agentic）作为AI领域的新兴分支，正以其自主性、适应性和智能化特性吸引着越来越多的关注。与传统工具不同，Agentic技术赋予系统感知环境、推理决策并主动执行任务的能力，使其成为连接人类与数字世界的“智能助手”。在这一领域，DeepSeek推出了两款强大的模型：生成式文本模型DeepSeekV3和推理生成式文本模型DeepSeekR1
探索智能边界：深度求索（DeepSeek）技术全景解析与实战指南瘸 deepseek ai 人工智能深度学习 agi 开发者工具
引言：智能时代的探路者在人工智能技术持续突破的2023年，一家名为深度求索（DeepSeek）的中国AI公司正在用独特的技术路径重新定义智能边界。这家专注实现AGI的年轻企业，凭借其开源的DeepSeek-R1系列模型和行业解决方案，正在开发者社区掀起新的技术浪潮。一、DeepSeek技术架构解析1.1模型体系全景图MoE架构创新：采用混合专家系统架构，实现135B参数的智能调度多模态融合：支持文
Python 第三方库 selenium kevinstarry Python 标准库第三方库 python selenium 爬虫
Python第三方库selenium初识seleniumselenium原本设计出来的目的是用作自动化测试，但是对于我而言，它是爬虫大杀器。绝大多数的网站，目前就我看到的，基本上没有对selenium做对应反扒策略的。注意：是基本上，我的确遇到过selenium失效的情况。为什么selenium是爬虫大杀器？selenium的原理就是模拟浏览器，与其他的爬虫不同的是，selenium是真的使用浏览
AI学习预备知识-数据操作（5）内存节省羞涩的小吉他 AI开发学习之路人工智能学习
AI学习预备知识-数据操作（5）内存节省提示：本系列持续更新中文章目录AI学习预备知识-数据操作（5）内存节省前言内存节省总结前言随着开始人工智能的学习越来越多，那么再学习过程中，我们应该有一定的基础知识储备，本系列为基础知识储备介绍，本文主要讲解AI学习储备知识–在数据操作过程中所需考虑到的内存节省。内存节省提示：默认使用python，数据操作使用mxnet在数据操作过程中运行一些操作可能会导致
「Selenium+Python自动化从0到1②｜2025浏览器操控7大核心API实战（附高效避坑模板））」俗人咖 selenium python 自动化
Python自动化操作浏览器基础方法在进行Web自动化测试时，操作浏览器是必不可少的环节。Python结合Selenium提供了强大的浏览器操作功能，让我们能够轻松地控制浏览器执行各种任务。本文将详细介绍如何使用Python和Selenium操作浏览器的基本方法，包括打开浏览器、设置休眠时间、页面刷新、设置窗口大小、截屏、退出和关闭浏览器等。一、打开浏览器首先，我们需要导入Selenium的web
Fine-grained Analysis of Stability and Generalization for Stochastic Bilevel Optimization 再给一碗吧已发表论文分享机器学习理论知识泛化理论双层优化
论文《Fine-grainedAnalysisofStabilityandGeneralizationforStochasticBilevelOptimization》IJCAI’2024《随机双层优化的细粒度稳定性和泛化性分析》会议介绍IJCAI（InternationalJointConferenceonArtificialIntelligence，国际人工智能联合会议）是人工智能领域的一个主
从零理解人工智能：技术原理、底层逻辑与手写数字识别实战北辰alk AI 人工智能
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录引言一、人工智能技术体系1.1核心技术栈二、神经网络底层逻辑2.1神经元数学模型2.2前向传播与反向传播三、手写数字识别实战（MNIST）3.1环境配置3.2数据预处理3.3CNN模型构建3.4模型训练与评估四、关键技术解析4.1卷
Dify 开源大语言模型应用开发平台使用（一） _S_Q 语言模型人工智能自然语言处理
文章目录一、创建锂电池专业知识解答应用1.1应用初始化二、核心功能模块详解2.1知识库构建2.2工作流与节点编排节点类型说明工作流设计示例：锂电池选型咨询2.3变量管理三、测试与调试3.1单元测试3.2压力测试3.3安全验证四、部署与优化建议4.1部署配置4.2持续优化结论一、创建锂电池专业知识解答应用1.1应用初始化目标：构建一个基于大模型的问答系统，提供锂电池技术参数、安全规范、生产工艺等专业
深度学习的数学之魂：传统机器学习的超越者洋葱蚯蚓机器学习深度学习机器学习人工智能经验分享个人开发数据挖掘
深度学习的数学之魂：传统机器学习的超越者前言第一部分：神经元的数学语言1.1神经元模型的启示1.2激活函数的非线性魔法第二部分：网络结构的层次之美2.1网络结构的多样性2.2层次结构的力量第三部分：图像的力量与直观理解3.1图表与动图的辅助作用3.2直观理解的桥梁第四部分：深度与专业的对话4.1深度学习与传统机器学习的比较4.2专业性强的技术分析第五部分：数学原理的深度剖析5.1神经网络的数学表达
Agentic Security：开源LLM漏洞扫描器袁立春Spencer
AgenticSecurity：开源LLM漏洞扫描器项目地址:https://gitcode.com/gh_mirrors/ag/agentic_security项目介绍AgenticSecurity是一款开源的大型语言模型（LLM）漏洞扫描器，旨在帮助开发者和安全专家识别和修复LLM中的潜在安全风险。通过集成多种攻击技术和数据集，AgenticSecurity能够对LLM进行全面的模糊测试和压力
Web自动化测试：selenium使用测试杂货铺 python 职场和发展软件测试自动化测试 selenium 测试工具测试用例
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快说到自动化测试，就不得不提大名鼎鼎的Selenium。Selenium是如今最常用的自动化测试工具之一，支持快速开发自动化测试框架，且支持在多种浏览器上执行测试。Selenium学习难度小，开发周期短。对测试人员来说，如果你编程经验不足，python+Selenium是个很好的选择。语法简约，清晰，可以显著减少后期维护难度和工作压力。用P
机器学习与深度学习里生成模型和判别模型的理解程序员羊羊机器学习深度学习人工智能 php 学习 chatgpt 前端
两个模型是啥我们从几句话进入这两个概念：1、机器学习分为有监督的机器学习和无监督的机器学习；2、有监督的机器学习就是已知训练集数据的类别情况来训练分类器，无监督的机器学习就是不知道训练集的类别情况来训练分类器；3、所以说，有监督的机器学习可以抽象为一个分类task，而无监督的基本完成的是聚类；4、有监督的机器学习中，我们可以概述为通过很多有标记的数据，训练出一个模型，然后利用这个，对输入的X进行预
（24-1）DeepSeek中的强化学习：DeepSeek简介码农三叔强化学习从入门到实践 transformer 人工智能大模型架构强化学习 DeepSeek
在人工智能的浩瀚星空中，DeepSeek犹如一座巍峨的科技丰碑，熠熠生辉，引领着大模型时代的风云变幻。DeepSeek以卓越的创新精神和前沿的技术架构，突破常规极限，将海量知识与智能推理完美融合，展现出惊人的计算力与思维深度。4.1DeepSeek简介DeepSeek是一家成立于2023年的中国人工智能初创公司，专注于开发高效且经济的大型语言模型。其核心技术包括多头潜在注意力（Multi-head
selenium库工作原理大多_C selenium microsoft 测试工具
详细介绍selenium及其相关模块你的代码使用了selenium进行CSDN文章的自动发布。为了更深入理解，下面将详细介绍selenium及其相关模块的作用。1.selenium库selenium是一个用于Web自动化测试的Python库，支持与各种浏览器（如Chrome、Firefox）交互，主要用于自动化测试、爬虫等任务。安装Selenium如果你的环境尚未安装selenium，可以使用以下
计算机视觉 vs 机器视觉 | 机器学习 vs 深度学习：核心差异与行业启示程序员Linc 计算机视觉计算机视觉机器学习深度学习机器视觉
一、计算机视觉（CV）与机器视觉（MV）：从学术研究到工业落地的分水岭1.定义与目标差异计算机视觉（CV）目标是赋予计算机类似人类的视觉理解能力，通过算法对图像或视频中的目标进行识别、跟踪和语义理解。其核心是研究如何从二维图像反推三维世界的结构和规律。例如，自动驾驶中通过多摄像头融合实现道路场景理解，属于典型的CV任务。机器视觉（MV）聚焦于工业场景的自动化检测与控制，强调实时性和精准性。MV系统
【人工智能】大模型的Scaling Laws（缩放定律），通过增加模型规模（如参数数量）、训练数据量和计算资源来提升模型性能。本本本添哥 013 -AIGC 人工智能大模型人工智能深度学习机器学习
缩放定律（ScalingLaws）是人工智能领域中关于大模型性能提升的重要理论，其核心思想是通过增加模型规模（如参数数量）、训练数据量和计算资源来提升模型性能。这一理论最早由OpenAI在2020年提出，并在随后的研究中得到了广泛验证和应用。ScalingLaws就像是指导手册一样，告诉我们在构建和训练AI模型时应该注意什么，以最经济有效的方式得到最好的成果。这有助于推动技术进步的同时也促进了可持
Python的那些事第四十篇：Redis的Python客户端Redis-py 暮雨哀尘 Python的那些事 bootstrap 前端 html python redis 开发语言哈希算法
Redis-py:Redis的Python客户端摘要本文档旨在提供一个全面的指南，介绍如何使用redis-py——Redis的Python客户端。Redis是一个高性能的键值存储系统，广泛用于缓存、消息队列、数据库等领域。redis-py提供了丰富的API，使得在Python中操作Redis变得简单高效。本文将涵盖安装、基本操作、高级功能以及实例代码，帮助开发者快速上手并应用到实际项目中。1.引言
Python智慧树学习 MORTY369 python
本文为个人学习使用【新手】代码期号：未完成代码功能：解放双手#智慧树刷课importpyautoguiimporttime'模块'pyautogui.FAILSAFE=Truepyautogui.PAUSE=1#width,height=pyautogui.size()#time.sleep(4);print(pyautogui.position())'主体't=pyautogui.prompt(
一款便捷操作移动设备的PC工具
说明该项目基于【Tinyui】框架开发。为电脑端（Windows/MacOS/Linux）操作移动设备提供便捷操作的工具。项目代码已开源：☞Github☜☞Gitee☜功能运行由于采用Python语言开发，因此需要安装Python运行环境，Python2.x（建议使用最后一个版本：2.7.18），Python3.x（推荐3.9以上版本）命令行运行$pythontools.pyWindows系统，直
使用python Selenium实现智慧树界面化自动刷网课 chromehandless实现智慧树无界面化自动刷网课我所向往的美好 python selenium chrome
最近看到隔壁室友在学习python，再加上那句“爬虫学得好，监狱进的早”，于是有了一个大胆的想法，刷网课。我是通过使用selenium驱动真实的浏览器来实现1.自动点击播放2.自动切换到流畅画质（省流量）3.自动1.5倍速4.自动静音4.自动检查当前播放时间，结束后调到下一集由于是驱动真实的浏览器来实现一系列操作，所以理论上不会有封号危险（祝你好运）#_*_codeingutf-8_*_#@TIM
python智慧树章节测试答案_知到智慧树_Python程序设计基础_答案章节单元测试答案... 五彩夏天 python智慧树章节测试答案
【单选题】下列哪项不是急性龋的特点A.病变进展快B.质地软而湿C.多见于儿童及青年D.去腐必须用高速机钻E.病变组织颜色浅【单选题】危险环境下使用的手持电动工具的安全电压为()A.9VB.12VC.24VD.36V【多选题】供应链合作伙伴之间如何防范合作风险()A.建立信任机制，培养企业间的信任B.动态合同控制C.建立有效地激励和利益分配机制D.构建和谐人才团队【判断题】牙震荡是牙周膜受外力作用后
DeepSeek驱动的敏捷开发新范式：追逐太阳的鱼缸窗口效应——透明化开发与动态优化的生态重构天街小雨润如苏同学敏捷流程重构
引言在数字化浪潮的冲击下，软件系统的复杂性已远超传统管理方法的承载极限。"鱼缸窗口"隐喻所指向的完全透明、动态可视的开发环境，与"追逐太阳"所象征的持续价值追寻，共同勾勒出敏捷开发的新边疆。DeepSeek作为认知增强型人工智能，通过构建光速反馈的信息生态与自适应优化机制，正在将这种隐喻转化为工程实践。本文揭示该技术如何重塑敏捷开发的底层逻辑，创造开发者、系统与环境三者共生的新型态。一、技术架构的
pycharm2018 qq_35581867 安装指南
因公司的需求，需要做一个爬取最近上映的电影、列车号、航班号、机场、车站等信息，所以需要我做一个爬虫项目，当然java也可以做爬虫，但是还是没有python这样方便，所以也开始学习Python啦！！！欲善其事，必先利其器。这里我为大家提供了三种激活方式：授权服务器激活：适合小白，一步到位，但服务器容易被封激活码激活：适合小白，Windows、Mac、Linux都适用且无其他副作用，推荐~破解补丁激活
python免费网课-用Python来自动刷智慧树网站的网课编程大乐趣
fromseleniumimportwebdriverfromselenium.webdriver.support.waitimportWebDriverWaitfromselenium.webdriver.common.byimportByfromselenium.webdriver.supportimportexpected_conditionsasECfromselenium.common.
多独立样本秩检验：Kruskal-Wallis检验木子算法非参数统计非参数检验概率论统计
多独立样本秩检验：Kruskal-Wallis检验的理论与实践一、引言在统计学中，当数据不满足正态分布或方差齐性假设时，传统的参数检验（如方差分析ANOVA）可能失效。此时，非参数检验方法（如秩检验）成为更可靠的选择。本文将详细介绍多独立样本秩检验的核心方法——Kruskal-Wallis检验，包括其理论基础、公式推导、案例分析及Python实现。二、理论基础1.问题定义假设我们有kkk个独立样本
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

【python】在【机器学习】与【数据挖掘】中的应用：从基础到【AI大模型】

一、Python在数据挖掘中的应用

1.1 数据预处理

数据清洗

数据变换

数据归一化

高级预处理技术

1.2 特征工程

特征选择

特征提取

特征构造

二、Python在机器学习中的应用

2.1 监督学习

分类

回归

2.2 非监督学习

聚类

降维

三、Python在深度学习中的应用

3.1 深度学习框架

TensorFlow

PyTorch

四、Python在AI大模型中的应用

4.1 大模型简介

4.2 GPT-4o实例

五、实例验证

5.1 数据集介绍

5.2 模型构建与训练

5.3 模型优化

六.深度扩展与具体实例

1.数据预处理扩展：

缺失值填补

异常值检测与处理

数据增强

2.特征工程扩展：

3.模型选择与评估：

4.深度学习实例：

5.AI大模型应用：

6.进一步实例验证与优化：

总结

你可能感兴趣的:(杂乱无章,机器学习,数据挖掘,python,人工智能,语言模型)