wa1tzy

Machine Learning——sklearn系列（三）——数据预处理

文章目录

一、数据预处理
二、标准化：去均值，方差规模化
- 2.1 规模化特征到一定的范围内
- - 2.1.1 MinMaxScaler
  - 2.1.2 MaxAbsScaler
- 2.2 规模化稀疏数据
- 2.3 规模化有异常值的数据
三、正则化Normalization
四、二值化–特征的二值化
五、OneHotEncoder独热编码
六、弥补缺失数据
六、创建多项式特征
七、自定义特征的转换函数

一、数据预处理

1.首先要明确有多少特征，哪些是连续的，哪些是类别的。
2.检查有没有缺失值，对确实的特征选择恰当方式进行弥补，使数据完整。
3.对连续的数值型特征进行标准化，使得均值为0，方差为1。
4.对类别型的特征进行one-hot编码。
5.将需要转换成类别型数据的连续型数据进行二值化。
6.为防止过拟合或者其他原因，选择是否要将数据进行正则化。
7.在对数据进行初探之后发现效果不佳，可以尝试使用多项式方法，寻找非线性的关系。
8.根据实际问题分析是否需要对特征进行相应的函数转换。

二、标准化：去均值，方差规模化

Standardization标准化:将特征数据的分布调整成标准正太分布，也叫高斯分布，也就是使得数据的均值维0，方差为。

标准化的原因在于如果有些特征的方差过大，则会主导目标函数从而使参数估计器无法正确地去学习其他特征。

标准化的过程为两步：去均值的中心化（均值变为0）；方差的规模化（方差变为1）。

（1）在sklearn.preprocessing中提供了一个scale的方法，可以实现以上功能。
（2）preprocessing这个模块还提供了一个实用类StandarScaler，它可以在训练数据集上做了标准转换操作之后，把相同的转换应用到测试训练集中。

这是相当好的一个功能。可以对训练数据，测试数据应用相同的转换，以后有新的数据进来也可以直接调用，不用再重新把数据放在一起再计算一次了。

from sklearn.model_selection import train_test_split
from sklearn import datasets,preprocessing
import numpy as np

iris = datasets.load_iris()
x, y = iris.data, iris.target
# 标准化
# 将每一列特征标准化为标准正态分布，注意，标准化是针对每一列而言的
x_scale = preprocessing.scale(x)
print(x_scale.mean(),x_scale.std())
print(x_scale.mean(axis=0))# axis=1表示对每一行去做这个操作，axis=0表示对每一列做相同的这个操作

x_scale2 = preprocessing.StandardScaler().fit(x)
x_scale3 = x_scale2.transform(x)
print(x_scale3.mean(),x_scale3.std())

new_x = np.array([[1,1,1,1]])
x_scale4 = x_scale2.transform(new_x)
print(x_scale4.mean())

out:

-1.4684549872375404e-15 1.0
[-1.69031455e-15 -1.84297022e-15 -1.69864123e-15 -1.40924309e-15]
-1.4684549872375404e-15 1.0
-3.1086104294861445

2.1 规模化特征到一定的范围内

也就是使得特征的分布是在一个给定最小值和最大值的范围内的。一般情况下是在[0,1]之间，或者是特征中绝对值最大的那个数为1，其他数以此维标准分布在[[-1，1]之间
以上两者分别可以通过MinMaxScaler 或者 MaxAbsScaler方法来实现。
之所以需要将特征规模化到一定的[0,1]范围内，是为了对付那些标准差相当小的特征并且保留下稀疏数据中的0值。

2.1.1 MinMaxScaler

在MinMaxScaler中是给定了一个明确的最大值与最小值。它的计算公式如下：

X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std / (max - min) + min

以下这个例子是将数据规于[0,1]之间，每个特征中的最小值变成了0，最大值变成了1。

from sklearn import datasets,preprocessing

iris = datasets.load_iris()
x, y = iris.data, iris.target
scaler = preprocessing.MinMaxScaler()
x_scale = scaler.fit_transform(x)
print(x_scale)
print(x_scale.mean(0), x_scale.std(0))

2.1.2 MaxAbsScaler

原理与上面的很像，只是数据会被规模化到[-1,1]之间。也就是特征中，所有数据都会除以最大值。这个方法对那些已经中心化均值维0或者稀疏的数据有意义。

from sklearn import datasets,preprocessing

iris = datasets.load_iris()
x, y = iris.data, iris.target
scaler = preprocessing.MaxAbsScaler()
x_scale = scaler.fit_transform(x)
print(x_scale)
print(x_scale.mean(0), x_scale.std(0))

2.2 规模化稀疏数据

如果对稀疏数据进行去均值的中心化就会破坏稀疏的数据结构。虽然如此，我们也可以找到方法去对稀疏的输入数据进行转换，特别是那些特征之间的数据规模不一样的数据。

MaxAbsScaler 和 maxabs_scale这两个方法是专门为稀疏数据的规模化所设计的。

2.3 规模化有异常值的数据

如果你的数据有许多异常值，那么使用数据的均值与方差去做标准化就不行了。
在这里，你可以使用robust_scale 和 RobustScaler这两个方法。它会根据中位数或者四分位数去中心化数据。

from sklearn import datasets,preprocessing

iris = datasets.load_iris()
x, y = iris.data, iris.target
scaler = preprocessing.RobustScaler()
x_scale = scaler.fit_transform(x)
print(x_scale)
print(x_scale.mean(0), x_scale.std(0))

三、正则化Normalization

正则化是将样本在向量空间模型上的一个转换，经常被使用在分类与聚类中。
函数normalize 提供了一个快速有简单的方式在一个单向量上来实现这正则化的功能。正则化有l1,l2等。

from sklearn.model_selection import train_test_split
from sklearn import datasets,preprocessing
import numpy as np

iris = datasets.load_iris()
x, y = iris.data, iris.target

x_normalized = preprocessing.Normalizer(norm="l2").fit(x)
x_normalized = x_normalized.transform(x)
print(x_normalized.mean(0),x_normalized.std(0))
# 这两段代码都一样
scaler = preprocessing.Normalizer(norm="l2")
x_scale = scaler.fit_transform(x)
print(x_scale.mean(0), x_scale.std(0))

out：

[0.75140029 0.40517418 0.45478362 0.14107142] [0.04421945 0.10527109 0.15945216 0.07771647]
[0.75140029 0.40517418 0.45478362 0.14107142] [0.04421945 0.10527109 0.15945216 0.07771647]

四、二值化–特征的二值化

特征的二值化是指将数值型的特征数据转换成布尔类型的值。可以使用实用类Binarizer。
默认是根据0来二值化，大于0的都标记为1，小于等于0的都标记为0。当然也可以自己设置这个阀值，只需传出参数threshold即可。

from sklearn import datasets,preprocessing

iris = datasets.load_iris()
x, y = iris.data, iris.target
x2 = preprocessing.Binarizer().fit(x)
x3 = x2.transform(x)
print(x3)
# 两段代码一样
scaler = preprocessing.Binarizer(threshold=0)
x_scale = scaler.fit_transform(x)
print(x_scale)

五、OneHotEncoder独热编码

类别特征无法直接进入模型，它们需要被转换成整数来表征。要想使得类别型的变量能最终被模型直接使用，可以使用one-of-k编码或者one-hot编码。这些都可以通过OneHotEncoder实现。

from sklearn import datasets,preprocessing

enc = preprocessing.OneHotEncoder()
a = enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
b = enc.transform([[0,1,3]]).toarray()
print(b)

enc = preprocessing.OneHotEncoder(n_values=[2,3,4])
c = enc.fit([[1, 2, 3], [0, 2, 0]])
d = enc.transform([[1,0,0]]).toarray()
print(d)

enc = preprocessing.OneHotEncoder(n_values=3, sparse=False)
ans = enc.fit_transform([[0], [1], [2],[1]])
print(ans)

out：

[[1. 0. 0. 1. 0. 0. 0. 0. 1.]]
[[0. 1. 1. 0. 0. 1. 0. 0. 0.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]]

六、弥补缺失数据

在scikit-learn的模型中都是假设输入的数据是数值型的，并且都是有意义的，如果有缺失数据是通过NAN，或者空值表示的话，就无法识别与计算了。

要弥补缺失值，可以使用均值，中位数，众数等等。Imputer这个类可以实现。

imp = preprocessing.Imputer(missing_values='NaN', strategy='mean', axis=0)
y_imp = imp.fit_transform([[np.nan, 2], [6, np.nan], [7, 6]])
print(y_imp)
# 通过学习填值
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
y_imp = imp.transform([[np.nan, 2], [6, np.nan], [7, 6]])
print(y_imp)

out：

[[6.5 2. ]
 [6.  4. ]
 [7.  6. ]]
[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]# (1+7+4)/3=4 (2+3+6)/3=11/3

六、创建多项式特征

有的时候线性的特征并不能做出美的模型，于是我们会去尝试非线性。非线性是建立在将特征进行多项式地展开上的。

比如将两个特征 (X_1, X_2)，它的平方展开式便转换成5个特征(1, X_1, X_2, X_1^2, X_1X_2, X_2^2).

from sklearn.preprocessing import PolynomialFeatures
import numpy as np
# 自建一组3*2的样本
x = np.arange(6).reshape(3, 2)
print(x)
# 创建2次方的多项式
poly = PolynomialFeatures(2)

x = poly.fit_transform(x)
print(x)

out:

[[0 1]
 [2 3]
 [4 5]]
[[ 1.  0.  1.  0.  0.  1.]
 [ 1.  2.  3.  4.  6.  9.]
 [ 1.  4.  5. 16. 20. 25.]]# 里面有5个特征，加上第一列的是Bias.

参数说明：

degree：控制多项式的次数；
interaction_only：默认为 False，如果指定为 True，那么就不会有特征自己和自己结合的项，如组合的特征中没有 a² 和 b²；
include_bias：默认为 True 。如果为 True 的话，那么结果中就会有 0 次幂项，即全为 1 这一列。

from sklearn.preprocessing import PolynomialFeatures
import numpy as np

x = np.arange(9).reshape(3, 3)

poly = PolynomialFeatures(degree=3, interaction_only=True)
x = poly.fit_transform(x)
print(x)

out：

[[  1.   0.   1.   2.   0.   0.   2.   0.]
 [  1.   3.   4.   5.  12.  15.  20.  60.]
 [  1.   6.   7.   8.  42.  48.  56. 336.]]

七、自定义特征的转换函数

通俗的讲，就是把原始的特征放进一个函数中做转换，这个函数出来的值作为新的特征。比如说将特征数据做log转换，做倒数转换等等。FunctionTransformer 可以实现这个功能

import numpy as np
from sklearn.preprocessing import FunctionTransformer

transformer = FunctionTransformer(np.log1p)
#log1p 的使用就像是一个数据压缩到了一个区间，与数据的标准类似。其逆运算就是expm1的函数
x = np.array([[0, 1], [2, 3]])
y = transformer.transform(x)
print(y)

out：

[[0.         0.69314718]
 [1.09861229 1.38629436]]

你可能感兴趣的:(AI,数据挖掘,机器学习,机器学习,数据分析,数据挖掘,深度学习,数据处理)

2025年：AI将编写99%的代码？OpenAI高管宣告编程革命的临界点东方佑量子变法人工智能机器学习（深度学习）人工智能
引言：AI编程的「奇点」已至「2025年底，99%的编码将实现AI自动化」——这并非科幻电影的桥段，而是OpenAI首席产品官KevinWeil在近期采访中掷出的惊世预言。他断言，今年将是AI在编程领域永久超越人类的拐点，一场由AI驱动的开发革命正在席卷全球。一、OpenAI的激进预测：AI编程的「军备竞赛」1.1从GPT-3到o1：AI能力的指数级跃升GPT-3时代：仅能完成简单代码（如按钮功能
DeepSeek写的还是人写的？用AI识别AI的底层逻辑与未来博弈 ——从“真假美猴王”到人机共生的技术革命星落无尘人工智能 deep learning AIGC
引言：当AI学会“伪装人类”中国自研大模型DeepSeek其生成的网文被读者评价“文笔至少中上级”，甚至有文学教授惊叹“AI的诗句比我一辈子写的更惊艳”。但随之而来的是一场“身份危机”：当AI文本与人类作品愈发相似，如何分辨文字背后的灵魂？本文将从技术检测原理、人机本质差异、伦理挑战三个维度，揭开AI写作识别的秘密。一、AI检测技术：以AI之矛攻AI之盾1.Fast-DetectGPT：改写比对算
单体架构、微服务组件与解决方案 Forever Nore 分布式 SpringCloud 架构微服务面试
资料：微服务、MQ资料链接:https://pan.baidu.com/s/1nzCJ-hNw854uFJQf6jWobg提取码:yyds单体架构微服务拆分与改进将单体项目拆分成微服务项目1、拆分原则
ChatGPT、DeepSeek、Grok 三者对比：AI 语言模型的博弈与未来一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能技术的飞速发展，AI语言模型已经成为人机交互、内容创作、代码生成、智能问答等领域的重要工具。其中，ChatGPT（OpenAI）、DeepSeek（中国团队研发）和Grok（xAI，ElonMusk旗下公司）是当前三大具有代表性的AI语言模型。它们在技术架构、应用场景、用户体验、生态开放性等多个维度各具特色，并针对不同的用户需
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
【go从入门到精通】探秘struct结构体转json为什么需要首字母大写？前网易架构师-高司机 golang从入门到精通 golang json go 结构体首字母大写 golang从入门到精通 go从入门到精通
目录作者简介：问题抛出分析结论作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业
【动手学深度学习】#1PyTorch基础操作 -一杯为品- 机器学习深度学习人工智能
主要参考学习资料：《动手学深度学习》阿斯顿·张等著【动手学深度学习PyTorch版】哔哩哔哩@跟李牧学AI目录1.1数据操作1.1.1入门1.1.2运算符1.1.3广播机制1.1.4索引和切片1.1.5节省内存1.1.6转换为其他Python对象1.2数据预处理1.2.1读取数据集1.2.2处理缺失值1.2.3转换为张量格式1.3线性代数1.3.1标量1.3.2向量1.3.3矩阵1.3.4张量1.
为什么转行大模型行业？深度解析职业变革与技术红利大模型入门教程大模型学习语言模型人工智能 AI 大模型程序员大模型入门
引言2023年ChatGPT的爆发式发展，标志着AI大模型技术正式进入大众视野。这一技术不仅重塑了人工智能的边界，更催生了全新的职业赛道。从传统算法工程师到互联网从业者，越来越多的人开始将目光投向大模型领域。本文将深入探讨这一现象背后的核心动因，并结合行业现状、技术趋势与职业发展路径，为从业者提供系统性分析。一、行业变革：传统岗位萎缩与大模型崛起传统技术岗位的困境以推荐算法为例，随着移动互联网流量
【go语言】Gin框架介绍和使用加油，旭杏 Go语言 gin
一、简单使用Gin框架搭建一个服务器packagemainimport("github.com/gin-gonic/gin")funcmain(){//创建一个默认的路由引擎r:=gin.Default()//GET请求方法r.GET("/hello",func(c*gin.Context){//c.JSON返回的是JSON格式的数据c.JSON(200,gin.H{"message":"hell
DeepSeek 与云原生后端：AI 赋能现代应用架构一ge科研小菜菜后端人工智能后端
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言在当今快速发展的互联网时代，云原生（CloudNative）架构已成为后端开发的主流趋势。云原生后端的核心目标是利用云计算的弹性、可扩展性和高可用性，为现代应用提供稳定可靠的后端支持。而人工智能（AI）技术的发展，使得智能化成为云原生后端的新趋势。DeepSeek作为新一代AI技术，在云原生后端的自动化运维、智能资源调度、安全增强和高效数
HarmonyOS NEXT开发实战：Navigation页面跳转对象传递案例一晃有一秋鸿蒙实例鸿蒙 harmonyos 华为鸿蒙鸿蒙系统 android
介绍本示例主要介绍在使用Navigation实现页面跳转时，如何在跳转页面得到转入页面传的类对象的方法。实现过程中使用了第三方插件class-transformer，传递对象经过该插件的plainToClass方法转换后可以直接调用对象的方法，效果图预览使用说明从首页进入本页面时，会传递一个类对象UserBookingInfo。点击“换个座位”按钮会调用该类对象的generateRandSeatN
HarmonyOS NEXT开发实战：视频全屏切换案例一晃有一秋鸿蒙鸿蒙实例 harmonyos 华为鸿蒙鸿蒙系统 android 音视频
介绍本示例介绍了@ohos.multimedia.media组件和@ohos.window接口实现媒体全屏的功能。该场景多用于首页瀑布流媒体播放等。效果图预览使用说明：点击全屏按钮，横屏媒体窗口。点击恢复窗口按钮，恢复媒体窗口。实现步骤初始化@ohos.multimedia.media的AVPlayer。asyncInit():Promise{awaitthis.release();constco
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
Storyboard 之segue用法总结月未央 iOS学习总结 iOS
Storyboard的好玩之处在于它可以帮我们省略了很多要手动写的代码，其中segue的功劳功不可没，现总结一下学习心得，若有错误之处，望指正。创建工程，选择SingleViewApplication，给工程起个名字，这里是SegueDemo，注意要把下面的UseStoryboard选项勾选上，我使用ARC，这里可以随意。点选工程文件中的MainStoryboard.storyboard文件，可以
一个简单的语音识别实现---百度在线语音识别REST API SDK（Python）简单使用 DerrickOzil 语音识别 python sdk 语音识别
百度在线语音识别RESTAPISDK（Python）简单使用首先申请开发者权限注册开发者信息完成注册创建新应用下载SDK并查看key在应用管理中，选择查看key，记录AppID、APIKey、SecretKey三个参数值。测试音频链接：http://pan.baidu.com/s/1o8Ue4B4密码：o5r1]注意事项音频格式限制pcm（不压缩）、wav、amr采样频率及位数支持评测8k/16k
人工智能直通车系列24【机器学习基础】（机器学习模型评估指标（回归））浪九天人工智能直通车开发语言 python 机器学习深度学习神经网络人工智能
目录机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）2.均方根误差（RootMeanSquaredError,RMSE）3.平均绝对误差（MeanAbsoluteError,MAE）4.决定系数（CoefficientofDetermination,R2）机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）详细解释均方误差是回归问
python_学习爬虫遇到的第一个问题_urllib获取baidu首页源代码 KJDETL python_爬虫 python 学习爬虫
第一天学习爬虫，学习的是urllib的基本用法，通过urllib.request获取baidu首页源代码。#导入urllib所需要的库importurllib.request#左边自定义名称，右边是要访问的地址url='https://www.baidu.com/Index.htm'#左边自定义名称可以叫做响应，右边是通过urllib.request.urlopen方法向url发出请求respon
docker迁移mysql_Docker迁移Mysql 麟翛 docker迁移mysql
这几天遇到一个数据迁移的需求，要把老服务器的数据迁移到新的服务器上去，因为Mysql是放在Docker里面的，所以只需要迁移配置文件和数据卷即可，但是这过程中并不是一帆风顺的，特此记录一下。从旧的服务器上查看Mysql容器的信息。首先使用dockerps来查看正在运行的容器，如果你的容器尚未运行，那么执行这条命令dockerps-a使用dockerinspectContainName查看Mysql
国央企AI落地：以智能客服系统为突破口的详细实施方案探讨数商云网络 B2B系统数字化电商平台人工智能大数据架构 java 微服务 spring
一、引言随着人工智能（AI）技术的飞速发展和广泛应用，国央企作为国民经济的重要支柱，正积极探索AI技术在企业管理、业务运营等方面的应用。智能客服系统作为AI技术的一个重要应用领域，具有提升服务效率、增强用户体验、降低运营成本等显著优势，成为国央企AI落地的重要突破口。本文将详细探讨国央企如何以智能客服系统为突破口，实施AI技术的落地应用，并结合数商云在智能客服系统领域的实践经验，为国央企提供一套切
从零开始学机器学习——构建一个推荐web应用努力的小雨机器学习机器学习前端人工智能
首先给大家介绍一个很好用的学习地址：https://cloudstudio.net/columns今天，我们终于将分类器这一章节学习完活了，和回归一样，最后一章节用来构建web应用程序，我们会回顾之前所学的知识点，并新增一个web应用用来让模型和用户交互。所以今天的主题是美食推荐。美食推荐Web应用程序首先，请不要担心，本章节并不会涉及过多的前端知识点。我们此次的学习重点在于机器学习本身，因此我们
Hive SQL 精进系列：REGEXP_REPLACE 函数的用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、REGEXP_REPLACE函数基础2.1基本语法参数详解2.2简单示例三、REGEXP_REPLACE函数的应用场景3.1去除特殊字符3.2统一字符串格式四、REGEXP_REPLACE与REPLACE函数的对比4.1功能差异4.2适用场景五、REGEXP_REPLACE与REGEXP函数的对比5.1功能差异5.2适用场景六、总结一、引言字符串处理是数据处理中的常见需求，Hive
Python（1）Python全方位指南：定义、应用与零基础入门实战一个天蝎座白勺程序猿 Python入门到精通 python 开发语言
背景：为什么Python成为开发者必备技能？‌Python自1991年发布以来，凭借‌“简单高效”‌的设计理念，成为全球增长最快的编程语言。根据TIOBE2023年榜单，Python稳居前三，其核心竞争力包括：‌开发效率高‌：代码量仅为Java的1/5，C++的1/10。‌跨领域通吃‌：从Web开发到AI训练，覆盖90%以上技术场景。‌企业级应用‌：YouTube用Python处理视频推荐，NAS
Python 赋能经济趋势与股票研究：数据驱动的投资洞察 Small踢倒coffee_氕氘氚笔记经验分享
在当今数据爆炸的时代，Python凭借其强大的数据处理能力和丰富的开源库，已成为经济趋势分析和股票研究的利器。本文将探讨如何利用Python进行以下方面的研究：**一、数据获取与清洗*****数据来源:*****财经数据API:**Tushare、AKShare、YahooFinance、AlphaVantage等提供丰富的股票、基金、宏观经济等数据。***网络爬虫:**使用BeautifulSo
GitHub一周热门ai项目 2025.3.17 BillyXie23 AI探索 ai 人工智能
项目1：Significant-Gravitas/AutoGPT地址:significant-gravitas.github.com/AutoGPT描述:AutoGPT致力于为所有人提供可访问的AI工具，让用户专注于重要事务。Stars:173,449推荐理由:适合想要探索自动化AI应用的开发者，支持自定义扩展，开源生态强大，适合构建智能助手、自动化流程等场景。项目2：AUTOMATIC1111/
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！大模型教程人工智能大模型训练 LLM 知识库大模型大模型入门大模型学习
什么是AI大模型？AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于
精选一百道备赛蓝桥杯——3.分巧克力六七_Shmily 精选一百道题备赛蓝桥杯蓝桥杯算法职场和发展
二分法#includeusingnamespacestd;intn,k;inta[100005][2];boolcheck(intmid){intnum=0;for(inti=0;i=k)returntrue;}returnfalse;}intmain(){cin>>n>>k;for(inti=0;i>a[i][0]>>a[i][1];intl=0,r=100001;while(l+1!=r){i
突破反爬终极指南：如何用Python实现100%隐形数据抓取（附实战代码）煜bart 机器人人工智能 web3.py
引言：当爬虫遭遇铜墙铁壁2023年Q2最新统计显示，全球Top100网站中89%部署了AI驱动的反爬系统，传统爬虫存活率暴跌至17%。本文将揭秘一套基于深度伪装技术的爬虫方案，在最近三个月实测中保持100%成功率，成功突破Cloudflare、Distil等顶级防护系统。---###一、指纹伪装：让爬虫"隐身"的核心科技####1.1浏览器指纹深度克隆（代码实现）```pythonfromsele
Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例在当今快节奏的金融市场中，自动化交易和预测模型成为了投资者和交易者的重要工具。Python以其强大的数据处理能力和丰富的机器学习库，成为了实现这些模型的首选语言。本文将带你了解如何使用XGBoost和LightGBM这两个流行的机器学习算法来
如何利用 AI 技术快速定位和修复生产环境问题 pytorch人工智能
摘要生产环境的问题往往难以复现，排查成本高，直接影响用户体验。传统的日志分析、异常监控、APM（应用性能监控）等方法已经被广泛使用，但随着AI技术的发展，我们可以进一步自动化问题检测、智能日志分析、异常根因分析，极大提高生产问题的排查效率。本文将探讨如何利用AI技术优化生产环境的排查流程，并提供实际可运行的示例代码，帮助开发者掌握AI赋能下的智能问题诊断方法。引言生产环境的稳定性是衡量一个系统可靠
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他