无视警告继续编译

线性回归与逻辑回归

文章目录

介绍
1 实现简单示例函数
- 1.1 提交解决方案
2 单变量线性回归
- 2.1 绘制数据
- - 接下来需要实现数据可视化的代码，该部分数据绘制出的图像应与如下相同
- 2.2 梯度下降
- - 2.2.2 实现
  - 2.2.3 计算成本J(θ)
  - 2.2.4 梯度下降
  - 2.3 可视化成本函数
- 选做练习
- 3 多变量线性回归
- 3.1 特征标准化
- 3.2 梯度下降
- - - 要点：
- 1 Logistic回归
- - 1.1 数据可视化
  - 1.2 实现
  - - 1.2.1 Sigmoid函数
    - 1.2.2 代价函数和梯度
    - - 1.2.2.1 代价函数
      - 1.2.2.2 梯度下降
    - 1.2.3 寻找最优参数
    - 1.2.4 评估逻辑回归
二、逻辑回归
- 2 正则化逻辑回归
- - 2.1 数据可视化
  - 2.2 特征映射
  - 2.3 代价函数和梯度
  - 2.4 寻找最优参数
  - 2.5 评估正则化逻辑回归

介绍

在本练习中，您将实现线性回归并了解其在数据上的工作原理。

在开始练习前，需要下载如下的文件进行数据上传：

ex1data1.txt -单变量的线性回归数据集
ex1data2.txt -多变量的线性回归数据集
在整个练习中，涉及如下的必做作业，及标号*的选做作业：

实现简单示例函数----------（5分）
实现数据集显示的函数-------（5分）
计算线性回归成本的函数-----（40分）
运行梯度下降的功能函数-----（50分）
数据标准化*
多变量线性回归的梯度下降功能实现*
必做作业为实现单变量的线性回归；选做作业为实现多变量线性回归。

1 实现简单示例函数

在该部分练习中,将通过代码实现返回一个5*5的对角矩阵。输出与如下相同：

1.1 提交解决方案

在以下代码框中进行如上的实现，完成部分练习后，得到如上的相同结果即为通过。

###在这里填入代码###
import numpy as np
A = np.eye(5)
print(A)

[[1. 0. 0. 0. 0.]
[0. 1. 0. 0. 0.]
[0. 0. 1. 0. 0.]
[0. 0. 0. 1. 0.]
[0. 0. 0. 0. 1.]]

2 单变量线性回归

在该部分练习中，将实现单变量线性回归并用来预测餐车的利润。

假设你是一家餐厅的领导，正在考虑在不同的城市开设新的分店。该连锁店已经在不同的城市有了餐车，并且你能够获得每个城市的人口和利润数据。

现在需要使用这些数据来帮助你选择下一个被扩展的城市。

文件ex1data1.txt包含线性回归问题的数据集。第一列数据对应城市人口，第二列数据对应那座城市的餐车的利润。利润为负时表示亏损。

2.1 绘制数据

在开始进入练习之前，对数据进行可视化通常很有用。对于该数据集，可以使用散点图进行可视化，因为它只有两个属性（人口、利润）。

# 引入所需要的库文件
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
 
%matplotlib inline

# 数据存储路径
path = 'ex1data1.txt'
 
# 读入相应的数据文件
data = pd.read_csv(path, header=None,names=['Population','Profit'])
 
#查看数据的前五条
data.head(5)

	Population	Profit
0	6.1101	17.5920
1	5.5277	9.1302
2	8.5186	13.6620
3	7.0032	11.8540
4	5.8598	6.8233

接下来需要实现数据可视化的代码，该部分数据绘制出的图像应与如下相同

要点：

实现散点图可视化
数据分布为红色点
标清横纵坐标名称

###在这里填入代码###
 
data.plot(kind='scatter', x='Population', y='Profit', figsize=(12,8))
plt.show()

2.2 梯度下降

在该部分中，将使用梯度下降来选择合适的线性回归参数θ用以拟合给定数据集。

2.2.1 更新公式

线性回归的目的是最小化成本函数：

假设hθ(X)hθ(X)由以下线性模型给出：

回顾一下，模型的参数是θjθj的值，这些将用来调整以最小化成本J(θ)J(θ)。

其中一种方法是使用批量梯度下降算法，在批量梯度下降中，每次迭代地执行更新，随着梯度下降的每一步计算，参数θjθj越来越接近能够使得成本J(θ)J(θ)达到最低的最佳值。

(同时更新所有的θjθj）

2.2.2 实现

在上一部分的练习中，我们已经将所需要用到的数据加载至变量data中，并为其列分别进行命名。

接下来，我们在数据中添加了一个维度来拟合截距项θ0θ0。并将初始参数值设为0，学习率αα设为0.01。

#在列索引为0处添加数据列，该列值均为1
data.insert(0, 'Ones', 1)
 
#获取数据列数
cols = data.shape[1]
 
#对变量X和y进行初始化,并将其数据类型转换为矩阵
X = data.iloc[:,0:cols-1]
y = data.iloc[:,cols-1:cols]
X = np.matrix(X.values)
y = np.matrix(y.values)
 
#学习率、迭代次数的初始化
alpha = 0.01
iterations = 1500

2.2.3 计算成本J(θ)

在执行梯度下降最小化成本函数J(θ)J(θ)时，通过计算成本来监视收敛状态是有帮助的。

在该部分练习任务中，你需要实现一个计算成本J(θ)J(θ)的函数computeCost，用于检查梯度下降实现的收敛性。

其中，X和y不是标量值，而是矩阵，其行代表训练集中的示例。

要点：完成该函数后，将θθ值初始化为0并进行成本的计算，将得到的成本值打印出来。

如果结果为32.07，则计算通过。

###在这里填入代码###
 
def computeCost(X, y, w):
    inner = np.power(((X * w) - y), 2)
    return np.sum(inner) / (2 * len(X))
 
 
w = np.matrix(np.zeros((2,1)))
computeCost(X, y, w)

2.2.4 梯度下降

接下来，我们将实现梯度下降，给出的代码已经实现了循环结构，你只需要在每次的迭代中提供θ的更新。

在进行代码实现时，请确保你了解要优化的内容，和正在更新的内容。

请记住，成本()J(θ)为参数-被向量θ终止，而不是X和y。也就是说，我们将()J(θ)的值最小化通过改变矢量θ的值，而不是通过改变X或y。

验证梯度下降是否正常工作的一种好方法是查看()J(θ)的值，并检查该值每步是否减小。每次迭代时，代码都会调用computeCost函数并打印成本。假设你实现了梯度下降，正确地计算成本，()J(θ)值永远不会增加，并且应该在算法结束时收敛到稳定值。

要点：

实现梯度下降后，需要使用最终的参数值将线性回归的拟合结果进行可视化，绘图结果需要类似如下图所示。

###在这里填入代码###
def gradientDescent(X, y, w, alpha, iters):
    temp = np.matrix(np.zeros(w.shape))
    parameters = int(w.ravel().shape[1])
    cost = np.zeros(iters)
    for i in range(iters):
        error = (X * w) - y
        for j in range(parameters):
            term = np.multiply(error, X[:,j])
            temp[j,0] = w[j,0] - ((alpha / len(X)) * np.sum(term))
        w = temp
        cost[i]=computeCost(X,y,w)
    return w, cost

# 计算最终的参数所得到的成本值
w_final, cost_final = gradientDescent(X, y, w, alpha, iterations)
# 计算最终的参数所得到的成本值
print('The weight vector:\n',w_final)
computeCost(X, y, w_final)

###在这里填入代码###
#对拟合曲线进行绘制
x = np.linspace(data.Population.min(), data.Population.max(), 100)
f = w_final[0,0] + (w_final[1,0] * x)
 
fig, ax = plt.subplots(figsize=(9,6))
ax.plot(x, f, 'b', label='Prediction')
ax.scatter(data.Population, data.Profit, c='red',label='Traning Data')
ax.legend(loc=2)
ax.set_xlabel('Population')
ax.set_ylabel('Profit')
ax.set_title('Predicted Profit vs. Population Size')

2.3 可视化成本函数

为了更好地理解成本函数的迭代计算，将每一步计算的cost值进行记录并绘制。

选做练习

3 多变量线性回归

在该部分中，将使用多个变量来实现用线性回归预测房屋价格。假设你目前正在出售房屋，想知道什么是好的市场价格。

一种方法是首先收集最近出售房屋的信息，其次是建立房屋价格模型。

文件ex1data2.txt包含俄勒冈州波特兰市的房屋价格及相关信息。第一列是房屋的大小（以平方英尺为单位），第二列是卧室的个数，第三列是房屋的价格。

3.1 特征标准化

以下代码将从文件ex1data2.txt文件中加载并显示该数据集。

通过观察这些数据，可以发现房屋的大小大约是卧室数量的1000倍。而当不同的特征值之间相差几个数量级时，将特征进行缩放可以使梯度下降收敛得更快

path = 'ex1data2.txt'
data2 = pd.read_csv(path, header=None, names=['Size', 'Bedrooms', 'Price'])
data2.head()

在该部分练习中，你的任务是编写代码并实现数据集中的数据标准化。

要点：

从数据集中减去每个特征的平均值。
减去平均值后，再将新的特征值除以各自的“标准差”
标准差是一种衡量特定特征的值的范围内有多大变化的方法（大多数数据点将位于平均值的两个标准差内）；这是取值范围的替代方法。

当标准化特征时，需要存储用于标准化的值——平均值和标准差。从模型中学习参数后，经常需要预测新的房屋的价格。此时给定一个新的x值（房屋面积和卧室数量），必须首先使用先前从训练集中计算的平均值和标准差来对新的数据进行标准化。

###在这里填入代码###
 
data2 = (data2 - data2.mean()) / data2.std()
data2.head()

3.2 梯度下降

在之前的练习中，我们使用单变量线性回归实现了梯度下降的问题。在该部分联系中，唯一的区别是，此时我们的数据变为矩阵X。

假设函数和批次梯度下降的更新规则保持不变，你的任务是代码实现多变量线性回归的成本函数和梯度下降。

要点：

确保你的代码中可以支持任何大小的数据，并且数据均已被向量化。
代码实现成本函数和梯度下降后，最终的成本值应大约为0.13。
请依照单变量线性回归练习中要求，绘制成本的变化曲线。

###在这里填入代码###
 
# set X (training data) and y (target variable)
cols = data2.shape[1]
X2 = data2.iloc[:,0:cols-1]
y2 = data2.iloc[:,cols-1:cols]
 
##====================== 在这里填入代码 ======================= 
 
# convert to matrices and initialize theta
X2 = np.matrix(X2.values)
y2 = np.matrix(y2.values)
w2 = np.matrix(np.array([0,0,0]))
 
# perform linear regression on the data set
w2_final, cost2_final = gradientDescent(X2, y2, w2.T, alpha, iterations)
 
# perform linear regression on the data set
 
##============================================================= 
# get the cost (error) of the model
print('The weight vector:\n',w2_final)
computeCost(X2, y2, w2_final)
 
fig, ax = plt.subplots(figsize=(9,6))
ax.plot(np.arange(iterations), cost2_final, 'r')
ax.set_xlabel('Iterations')
ax.set_ylabel('Cost')
ax.set_title('Error vs. Iterations')

1 Logistic回归

在该部分练习中，将建立一个逻辑回归模型，用以预测学生能否被大学录取。

假设你是大学某个部门的负责人，你要根据两次考试的结果来决定每个申请人的入学机会。目前已经有了以往申请者的历史数据，并且可以用作逻辑回归的训练集。对于每行数据，都包含对应申请者的两次考试分数和最终的录取结果。

在本次练习中，你需要建立一个分类模型，根据这两次的考试分数来预测申请者的录取结果。

1.1 数据可视化

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

path = 'ex2data1.txt'
data = pd.read_csv(path, header=None, names=['Exam 1', 'Exam 2', 'Admitted'])
data.head()

positive = data[data['Admitted'].isin([1])]
negative = data[data['Admitted'].isin([0])]

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(positive['Exam 1'], positive['Exam 2'], s=50, c='b', marker='o', label='Admitted')
ax.scatter(negative['Exam 1'], negative['Exam 2'], s=50, c='r', marker='x', label='Not Admitted')
ax.legend()
ax.set_xlabel('Exam 1 Score')
ax.set_ylabel('Exam 2 Score')
plt.show()

1.2 实现

在前部分练习中所绘制的数据分布图中可以看出，在不同标识的数据点间，有一个较为清晰的决策边界。现在需要实现逻辑回归，并使用逻辑回归来训练模型用以预测分类结果。

1.2.1 Sigmoid函数

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

nums = np.arange(-10, 10, step=1)

fig, ax = plt.subplots(figsize=(12,8))
ax.plot(nums, sigmoid(nums), 'r')
plt.show()

1.2.2 代价函数和梯度

1.2.2.1 代价函数

###在这里填入代码###
def cost(theta,X,y):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    first = np.multiply(-y,np.log(sigmoid(X* theta.T)))
    second = np.multiply((1-y),np.log(1-sigmoid(X*theta.T)))
    return np.sum(first-second)/(len(X))

###请运行并测试你的代码###
#增加一列值为1，这和我们在练习1中的操作很相似
data.insert(0, 'Ones', 1)

# 定义X为训练数据，y为目的变量
cols = data.shape[1]
X = data.iloc[:,0:cols-1]
y = data.iloc[:,cols-1:cols]

# 将X,y转换为numpy数组，并初始化theta值为0
X = np.array(X.values)
y = np.array(y.values)
theta = np.zeros(3)

cost(theta, X, y)

结果：

1.2.2.2 梯度下降

def gradient(theta, X, y):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    
    parameters = int(theta.ravel().shape[1])
    grad = np.zeros(parameters)
    
    error = sigmoid(X * theta.T) - y
    
    for i in range(parameters):
        term = np.multiply(error, X[:,i])
        grad[i] = np.sum(term) / len(X)
    
    return grad

gradient(theta, X, y)

结果：

1.2.3 寻找最优参数

现在可以用SciPy’s truncated newton（TNC）实现寻找最优参数。

1.2.4 评估逻辑回归

def predict(theta, X):
    probability = sigmoid(X * theta.T)
    return [1 if x >= 0.5 else 0 for x in probability]

theta_min = np.matrix(result[0])
predict(theta_min, X)

结果：

predictions = predict(theta_min, X)
correct = [1 if ((a == 1 and b == 1) or (a == 0 and b == 0)) else 0 for (a, b) in zip(predictions, y)]
accuracy = (sum(map(int, correct)) % len(correct))
print ('accuracy = {0}%'.format(accuracy))

结果：

二、逻辑回归

2 正则化逻辑回归

在本部分练习中，我们将要通过加入正则项提升逻辑回归算法。

正则化是成本函数中的一个术语，它使算法更倾向于“更简单”的模型。这个理论助于减少过拟合，提高模型的泛化能力。

设想你是工厂的生产主管，你有一些芯片在两次测试中的测试结果。对于这两次测试，你想决定芯片是要被接受或抛弃。为了帮助你做出艰难的决定，你拥有过去芯片的测试数据集，从其中你可以构建一个逻辑回归模型。

2.1 数据可视化

对于这部分数据，我们可以看出不同类别的数据点之间没有明显的线性决策界限用于划分两类数据。

因此，逻辑回归无法在此数据集上得到较好的效果，因为逻辑回归只能知道线性决策边界。

2.2 特征映射

2.3 代价函数和梯度

def costReg(theta, X, y, learningRate):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    first = np.multiply(-y, np.log(sigmoid(X * theta.T)))
    second = np.multiply((1 - y), np.log(1 - sigmoid(X * theta.T)))
    reg = (learningRate / (2 * len(X))) * np.sum(np.power(theta[:,1:theta.shape[1]], 2))
    return np.sum(first - second) / len(X) + reg

def gradientReg(theta, X, y, learningRate):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    
    parameters = int(theta.ravel().shape[1])
    grad = np.zeros(parameters)
    
    error = sigmoid(X * theta.T) - y
    
    for i in range(parameters):
        term = np.multiply(error, X[:,i])
        
        if (i == 0):
            grad[i] = np.sum(term) / len(X)
        else:
            grad[i] = (np.sum(term) / len(X)) + ((learningRate / len(X)) * theta[:,i])
    
    return grad

接下来，类似于第一部分的练习中，进行变量的初始化。

# 从数据集中取得对应的特征列和标签列
cols = data2.shape[1]
X2 = data2.iloc[:,1:cols]
y2 = data2.iloc[:,0:1]

# 转换为Numpy数组并初始化theta为零矩阵
X2 = np.array(X2.values)
y2 = np.array(y2.values)
theta2 = np.zeros(11)

# 设置初始学习率为1，后续可以修改
learningRate = 1

接下来，使用初始化的变量值来测试你实现的代价函数和梯度函数。

costReg(theta2, X2, y2, learningRate)

gradientReg(theta2, X2, y2, learningRate)

2.4 寻找最优参数

result2 = opt.fmin_tnc(func=costReg, x0=theta2, fprime=gradientReg, args=(X2, y2, learningRate))
result2

2.5 评估正则化逻辑回归

最后，我们可以使用第1部分中的预测函数来查看我们的方案在训练数据上的准确度。

theta_min = np.matrix(result2[0])
predictions = predict(theta_min, X2)
correct = [1 if ((a == 1 and b == 1) or (a == 0 and b == 0)) else 0 for (a, b) in zip(predictions, y2)]
accuracy = (sum(map(int, correct)) % len(correct))
print ('accuracy = {0}%'.format(accuracy))

Python中什么时候需要返回值，什么时候不需要返回值？？？似乎很简单 Python学习日记 python 开发语言
在Python中，函数是否需要返回值取决于它的设计目的和功能需求。需要返回值的情况计算结果需要被后续代码使用当函数的主要目的是计算或生成数据，且调用方需要这些结果时：defadd(a,b):returna+b#结果需要被其他代码使用total=add(3,5)#需要返回值需要传递状态或信息如果函数执行后需要告诉调用方是否成功、返回状态码或错误信息：defvalidate_input(input):
Python中的高阶函数---便捷的语法书写！！！！，可以简化一些函数的书写！！！似乎很简单 Python学习日记 python 开发语言学习笔记
目录1.map()函数示例1：单可迭代对象（平方运算）示例2：多可迭代对象（元素相加）2.mapvs列表推导式什么是列表推导式（ListComprehension）？对比示例列表推导式的优势map的优势5.实际应用场景场景1：批量转换数据类型场景2：多列数据处理场景3：链式操作6.性能与注意事项总结3.sorted()函数1.语法：sorted(iterable,*,key=None,revers
Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南
数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局
scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj