五舍橘橘

Machine Learning with Python Cookbook 学习笔记第3章

前言

本笔记是针对人工智能典型算法的课程中Machine Learning with Python Cookbook的学习笔记
学习的实战代码都放在代码压缩包中
实战代码的运行环境是python3.9 numpy 1.23.1
上一章：(88条消息) Machine Learning with Python Cookbook 学习笔记第2章_五舍橘橘的博客-CSDN博客

Chapter 3 Data Wrangling（数据整理）

3.0 Introduction

Data wrangling is a broad term used, often informally, to describe the process of transforming raw data to a clean and organized format ready for use.

（数据整理（data wrangling)指将数据转换为可供使用的干净且有组织的格式组织）
The most common data structure used to “wrangle” data is the data frame, which can be both intuitive and incredibly versatile. Data frames are tabular, meaning that htey are based on rows and columns like you’d find in a spreadsheet

（用于“整理”数据的最常见数据结构是data frame，它既直观又非常通用。

对于书中的例子：

# Load library
import pandas as pd
# Create URL
url = 'https://tinyurl.com/titanic-csv'
# Load data as a dataframe
dataframe = pd.read_csv(url)
# Show first 5 rows
dataframe.head(5)

需要注意3点：

首先，在data frame中，每一行对应一个观察值（例如，一名乘客），每一列对应一个特征（性别、年龄等）。例如，通过查看第一个observation，我们可以看到 Elisabeth Walton Allen 小姐留在头等舱，29 岁，是女性，并且在灾难中幸存下来。
其次，每列包含一个名称（例如，姓名、PClass、年龄），每行包含一个索引号（例如，幸运的伊丽莎白沃尔顿艾伦小姐为 0）。我们将使用这些来选择和操作观察和特征。
第三，Sex 和 SexCode 两列包含不同格式的相同信息。在 Sex 中，女性用字符串 female 表示，而在 SexCode 中，女性用整数 1 表示。我们希望所有特征都是唯一的，因此我们需要删除其中一列。在本章中，我们将介绍使用 pandas 库操作数据帧的各种技术，目的是创建一个干净、结构良好的观察集以供进一步预处理。

3.1 Creating a Data Frame

Problem

You want to create a new data frame.

Solution

pandas has many methods of creating a new DataFrame object. One easy method is to create an empty data frame using DataFrame and then define each column separately:

pandas拥有许多methods来创建新的DataFrame

emptyDataFrameExample.py

import pandas as pd
# Create DataFrame
dataframe = pd.DataFrame()
# 用字典的方式添加新的一行
dataframe['Name'] = ['Jacky Jackson', 'Steven Stevenson']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]
# 展示dataframe
print(dataframe)

# 创建新的一行
new_person = pd.Series(['Molly Mooney', 40, True], index=['Name', 'Age', 'Driver'])
# 拼接一行
dataframe = dataframe.append(new_person,ignore_index=True)
print(dataframe)

值得注意的是未来append属性要被废除，所以最好还是创建小的dataframe然后用concat拼接到总的Dataframe中

Discussion

pandas库提供无数种创建DataFrame的方法
现实中常常采用从其他来源产生一个DataFrame而不是创建一个新的DataFrame然后填充

3.2 Describing the Data

查看DataFrame的相关信息

DescribeExample.py

import pandas as pd
# 因为无法访问国外的csv文件，使用国内的网站代替
url = 'https://www.gairuo.com/file/data/dataset/GDP-China.csv'
df = pd.read_csv(url)
# show first two rows
print(df.head(2))  # also try tail(2) for last two rows

# show dimensions
print("Dimensions: {}".format(df.shape))

# show statistics
print(df.describe())

Discussion

由于数据量过大，为了能够更好的访问数据，需要了解数据类型和结构，这就需要获取小的切片和获取统计信息
一些数字列往往代表类别或者其他枚举类信息，这样的信息的统计信息往往没有意义，例如性别由0和1表示，而他的方差往往没有统计意义

3.3 Navigating DataFrames

需要选取单个数据或者数据切片

navigateExample.py

# Load library
import pandas as pd
# Create URL
url = 'titanic.csv'
# Load data
dataframe = pd.read_csv(url)
# Select first row
print(dataframe.iloc[0])
print()
# Select three rows
print(dataframe.iloc[1:4])


# Set index
dataframe = dataframe.set_index(dataframe['Lname'])
print(dataframe.loc['Braund'])

Discussion

pandas创建的dataframe都含有索引，默认是一个整数
DataFrame可以设置唯一的字母数字字符串作为索引
loc可以根据自定义的标签来返回对应的元素
iloc通过位置来返回对应的一行
loc和iloc是非常有用的数据清理函数

3.4 Selecting Rows Based on Conditionals

查找某些行元素

selectExample.py

# 引入库
import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)

# 单条件查询

print(dataframe[dataframe['Sex'] == 'female'].head(2))

# 多条件查询
print(dataframe[(dataframe['Sex'] == 'female') & (dataframe['Age'] >= 50)])

Discussion

有效使用条件筛选和过滤是数据清理的重要任务之一

3.5 Replacing Values

目标：替换指定列的值

replaceExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)

# 替换female 为male
print(dataframe['Sex'].replace("female", "Woman").head(2))

# 替换 "female" and "male 为 "Woman" and "Man"
print(dataframe['Sex'].replace(["female", "male"], ["Woman", "Man"]).head(5))

3.6 Renaming Columns

重命名属性

renameExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)

# 替换一列
print(dataframe.rename(columns={'Pclass': 'Passenger Class'}).head(2))


# 同时替换两列
print(dataframe.rename(columns={'Pclass': 'Passenger Class','Lname': 'Last Name'}).head(2))

Discussion

通过字典来重命名是首选方法

可以通过集合来一次性设置所有列，例：

# Load library
import collections
# Create dictionary
column_names = collections.defaultdict(str)
# Create keys
for name in dataframe.columns:
	column_names[name]
# Show dictionary
column_names
defaultdict(str,
{'Age': '',
'Name': '',
'PClass': '',
'Sex': '',
'SexCode': '',
'Survived': ''})

3.7 Finding the Min, Max, Sum, Average, and Count

查找最大最小、和、平均值和出现次数

statisticExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)
# 计算统计属性值
print('Maximum:', dataframe['Age'].max())
print('Minimum:', dataframe['Age'].min())
print('Mean:', dataframe['Age'].mean())
print('Sum:', dataframe['Age'].sum())
print('Count:', dataframe['Age'].count())

Discussion

除了解决方案中使用的统计数据，pandas 还提供方差（var）、标准差（std）、峰度（kurt）、偏度（skew）、均值的标准误差（sem）、众数（mode）、中位数（median )，以及其他一些。

可以直接作用于整个DataFrame

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)
# 计算全部属性的次数

print(dataframe.count())

3.8 Finding Unique Values

查重

uniqueExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)

# 查看所有可能的值，返回一个数组
print(dataframe['Sex'].unique())

# 显示次数
print(dataframe['Sex'].value_counts())

Discussion

unique 和 value_counts 对于操作和探索分类列都很有用。很多时候，在分类列中会有需要在数据整理阶段处理的类。
value_counts会出现问题：当出现某种不合规的“类”时，往往这些类的统计数据是不需要的：(例如该图中的*)

可以使用nunique()来查看有多少种不一样的类别

3.9 Handling Missing Values

处理null的值

nullExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)

## Select missing values, show two rows
print(dataframe[dataframe['Age'].isnull()].head(2))

Discussion

缺失值是数据整理中普遍存在的问题，但许多人低估了处理缺失数据的难度。 pandas 使用 NumPy 的 NaN（“非数字”）值来表示缺失值，但重要的是要注意 NaN 在 pandas 中并没有完全实现。

例如：

# Attempt to replace values with NaN
dataframe['Sex'] = dataframe['Sex'].replace('male', NaN)

结果：

NameError Traceback (most recent call last) in () 1 # Attempt to replace values with NaN ----> 2 dataframe[‘Sex’] = dataframe[‘Sex’].replace(‘male’, NaN) NameError: name ‘NaN’ is not defined

为了拥有 NaN 的全部功能，我们需要首先导入 NumPy 库：

# Load library
import numpy as np
# Replace values with NaN
dataframe['Sex'] = dataframe['Sex'].replace('male', np.nan)

通常，数据集使用特定值来表示缺失的观察值，例如 NONE、-999 或 … pandas 的 read_csv 包含一个参数，允许我们指定用于表示缺失值的值：
```
# Load data, set missing values
dataframe = pd.read_csv(url, na_values=[np.nan, 'NONE', -999])
```

3.10 Deleting a Column

删除1列,

调用函数drop()

deleteColExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)

# 删除age
print(dataframe.drop('Age', axis=1).head(2))

# 删除两列
print(dataframe.drop(['Age', 'Sex'], axis=1).head(2))

# 通过列的description删除
print(dataframe.drop(dataframe.columns[1], axis=1).head(2))

Discussion

不推荐使用del dataframe[‘Age’]方法（因为他的底层实现方式）

查阅资料：(87条消息) #深入分析# pandas中使用 drop 和 del删除列数据的区别_energy_百分百的博客-CSDN博客_tensorflow删除列

1、del是内置函数

2、drop可以同时操作多个项目效率高

3、drop更加灵活。可以在本地操作也可以返回副本
不推荐调用pandas库函数的时候使用inplace=True的参数，这可能会导致更复杂的数据处理管道出现问题，因为我们将 DataFrame 视为可变对象（它们在技术上是可变对象）。应该将DataFrame使用时视为不可变对象
#Create a new DataFrame

dataframe_name_dropped = dataframe.drop(dataframe.columns[0], axis=1)

就是一个例子，如果将DataFrames视为不可变对象，那将减少很多麻烦

3.11 Deleting a Row

删除一行

deleteRowExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)
# 删除female的前两列
print(dataframe[dataframe['Sex'] != 'male'].head(2))

Discussion

可以使用drop函数来实现删除行，但是更实用的方法将条件包装在dataframe[]中
可以通过索引来删除

3.12 Dropping Duplicate Rows

删除重复的行

现在样例中添加重复的行

dropDupRowsExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)

# 去除重复的行
print(dataframe.drop_duplicates().head(2))

#检查行数
print("Number Of Rows In The Original DataFrame:", len(dataframe))
print("Number Of Rows After Deduping:", len(dataframe.drop_duplicates()))

重复的行被删除了

Discussion

该解决方案并没有删除任何行。原因是因为 drop_duplicates 默认只删除在所有列中完全匹配的行。
通常我们想要筛选数据可以通过子集来检查行
```
dataframe.drop_duplicates(subset=['Sex'])
```

可以通过keep参数来保留重复行的第一次出现

# Drop duplicates
dataframe.drop_duplicates(subset=['Sex'], keep='last')

还有一个相关的函数是duplicate可以判断这行是不是重复的，可以完成一些复杂的筛选工作

3.13 Grouping Rows by Values

组操作

groupExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)

# Group rows by the values of the column 'Sex', calculate mean
# of each group
print(dataframe.groupby('Sex').mean())

# 对某列计数
print(dataframe.groupby('Survived')['Name'].count())
# 对某列求平均值
print(dataframe.groupby(['Sex','Survived'])['Age'].mean())

Discussion

groupby是数据清理真正的起始点
groupby往往需要搭配统计类函数
可以通过字典的方式对单一列进行统计

3.14 Grouping Rows by Time

按照日期进行分组

timeGroupExample.py

# Load libraries
import pandas as pd
import numpy as np
# Create date range
time_index = pd.date_range('06/06/2017', periods=100000, freq='30S')
# Create DataFrame
dataframe = pd.DataFrame(index=time_index)
# Create column of random values
dataframe['Sale_Amount'] = np.random.randint(1, 10, 100000)
# Group rows by week, calculate sum per week
print(dataframe.resample('W').sum())

Discussion

resample要求是数据集的索引是一个类似时间属性的值
resample常用的一个参数可以指定时间间隔’W’表示周，‘M’表示月,还可以配置一定的比例例如’2W’
resample默认返回时间组的“右边缘”也就是最小值,例如上述例子2017-06-11为右边缘
详细的讲解可以看python时序分析之重采集（resample） - 知乎 (zhihu.com)

3.15 Looping Over a Column

迭代某一列的所有元素

LoopingColExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)

# Print first two names uppercased
for name in dataframe['Name'][0:2]:
    print(name.upper())
# Show first two names uppercased
print([name.upper() for name in dataframe['Name'][0:2]])

Discussion

可以用列表的方式进行访问
下一节的apply方法更加常用

3.16 Applying a Function Over All Elements in a Column

对某一列元素使用函数

applyExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)

# 大写函数
def uppercase(x):
    return x.upper()
# apply作用后的前两行
print(dataframe['Name'].apply(uppercase)[0:2])

Discussion

作者评价apply是个好函数

3.17 Applying a Function to Groups

对分组后的元素进行apply操作

applyGroupExample.py

import pandas as pd

url = 'titanic.csv'

dataframe = pd.read_csv(url)

# Group rows, apply function to groups
print(dataframe.groupby('Sex').apply(lambda x: x.count()))

Discussion

作者评价apply和group一起很有用

3.18 Concatenating DataFrames

连接两个数据帧

使用pandas.concat函数

concatExample.py

# Load library
import pandas as pd
# Create DataFrame
data_a = {'id': ['1', '2', '3'],
'first': ['Alex', 'Amy', 'Allen'],
'last': ['Anderson', 'Ackerman', 'Ali']}
dataframe_a = pd.DataFrame(data_a, columns = ['id', 'first', 'last'])
# Create DataFrame
data_b = {'id': ['4', '5', '6'],
'first': ['Billy', 'Brian', 'Bran'],
'last': ['Bonder', 'Black', 'Balwner']}
dataframe_b = pd.DataFrame(data_b, columns = ['id', 'first', 'last'])
# 连接行
print(pd.concat([dataframe_a, dataframe_b], axis=0))

此外还可以连接列

print(pd.concat([dataframe_a, dataframe_b], axis=1))

Discussion

concatenating——将两个对象粘合在一起，通过axis来指示方向
可以使用append凭借series(前面资料查阅发现新版本的pandas会废弃append函数)

3.19 Merging DataFrames

合并两个DataFrrames

mergeExample.py

# Load library
import pandas as pd

# Create DataFrame
employee_data = {'employee_id': ['1', '2', '3', '4'],
                 'name': ['Amy Jones', 'Allen Keys', 'Alice Bees',
                          'Tim Horton']}
dataframe_employees = pd.DataFrame(employee_data, columns=['employee_id',
                                                           'name'])
# Create DataFrame
sales_data = {'employee_id': ['3', '4', '5', '6'],
              'total_sales': [23456, 2512, 2345, 1455]}
dataframe_sales = pd.DataFrame(sales_data, columns=['employee_id', 'total_sales'])
# 自然连接
print(pd.merge(dataframe_employees, dataframe_sales, on='employee_id'))

# 外连接
print(pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer'))

# 左连接
print(pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='left'))

# 指定属性链接
print(pd.merge(dataframe_employees,
         dataframe_sales,
         left_on='employee_id',
         right_on='employee_id'))

Discussion

merge与数据库中的join非常相似
支持的几种连接方式
- inner：仅返回在两个 DataFrame 中匹配的行（例如，返回任何行在 dataframe_employees 和 dataframe_sales 中都有一个employee_id 值）。
- outer：返回两个 DataFrame 中的所有行。如果一行存在于一个 DataFrame 中但不存在于另一个 DataFrame 中，则为缺失值填充 NaN 值（例如，返回 employee_id 和 dataframe_sales 中的所有行）。
- left：返回左侧 DataFrame 中的所有行，但仅返回右侧的行与左侧 DataFrame 匹配的 DataFrame。为缺失值填充 NaN 值（例如，返回 dataframe_employees 中的所有行，但仅返回 dataframe_sales 中具有出现在 dataframe_employees 中的employee_id 值的行）。 ‘
- right：返回右侧 DataFrame 中的所有行，但仅返回左侧的行与正确 DataFrame 匹配的 DataFrame。为缺失值填充 NaN 值（例如，返回 dataframe_sales 中的所有行，但仅返回 dataframe_employees 中具有出现在 dataframe_sales 中的employee_id 值的行）。

下一章：(89条消息) Machine Learning with Python Cookbook 学习笔记第4章_五舍橘橘的博客-CSDN博客

你可能感兴趣的:(机器学习与python,python,机器学习,学习)

MYSQL数据备份与恢复（mysqldump）一诚学编程 mysql mysql 数据库 linux adb
MySQL备份之mysqldump表级别备份还原格式：mysqldump[OPTIONS]database[tables]实例：把db_user数据库中的tb_student数据表进行备份备份：#mysqldumpdb_usertb_student>/tmp/sqlbak/tb_student.sql-p还原：#mysql数据库名称/tmp/sqlbak/db_itheima.sql-p还原：#m
Oracle-表空间/用户的创建与使用一诚学编程 oracle
--对象--需要create的都是对象已学的对象：表table--普通用户只能查询user开头的数据字典selecttablespace_namefromuser_tablespaces;--dba用户才能够查询selecttablespace_namefromdba_tablespaces;--创建表空间（需要管理员权限dba用户）--语法解释CREATETABLESPACEts_test--表
Python的Numpy数组np.array()基本用法详解（二）苏雨流丰 Python30Days python 开发语言 numpy array
本节主要讲授array获取元素、转置、重塑等方法"""@Date:2022-01-21@Author:苏雨流丰@lang:Python@summary:访问、获取np.array的元素"""导入numpy包importnumpyasnp初始化工作np_34_list=[[1,3,5,7],[2,4,6,8],[1,2,5,6]]np_44_list=[[1,3,5,7],[2,4,6,8],[1,
CSMA/CD协议原理与例题苏雨流丰考研复习#计算机网络计算机网络
CSMA/CD协议CSMA/CD（CarrierSenseMultipleAccess/collisiondetection，带有冲突检测的载波侦听多路存取）是IEEE802.3使用的一种媒体访问控制方法。从逻辑上可以划分为两大部分：数据链路层的媒体访问控制子层（MAC）和物理层。它严格对应于ISO开放系统互连模式的最低两层。LLC子层和MAC子层在一起完成OSI模式的数据链路层的功能。CSMA/
测试工程师指南：基于需求文档构建本地安全知识库的完整实战 Python测试之道 python 测试提效安全知识库 python
需求文档是测试工程师日常工作的核心工具，如何快速检索需求文档中的关键信息（文本、表格、图片等），并将其转化为可供AI查询的知识库，是提升工作效率的重要手段。本文将通过对需求文档（docx格式）的处理，详细讲解如何构建一个安全的本地知识库，并通过代码实现具体操作，确保每一步都可落地。一、本地知识库的安全性与连接方案在构建本地知识库时，安全性是首要考虑的因素，尤其是对于需求文档这样的敏感数据。以下是本
python-git- GitHub 45度看我 github
python之git-GitHub一：github原文链接二：WhatisGitHub1>创建仓库2>创建分支3>提交修改4>发起PullRequest三：理解GitHub流四：创建你的GitHub主页1>setting-->“Commitchanges”按钮五：典型的项目1>社区（TheCommunity）2>文档（TheDocs）3>Issue创建一个问题单4>PullRequest六：Git
如何使用MATLAB进行高效的GPU加速深度学习模型训练？百态老人 matlab 深度学习开发语言
要使用MATLAB进行高效的GPU加速深度学习模型训练，可以遵循以下步骤和策略：选择合适的GPU硬件：首先，确保您的计算机配备有支持CUDA的NVIDIAGPU，并且其计算能力至少为3.0或以上。可以通过gpuDevice命令检查GPU是否具备加速功能。安装必要的工具箱：确保安装了MATLAB的DeepLearningToolbox和ParallelComputingToolbox，这些工具箱提供
Python基础语法（二）：条件、循环与运算符算法工程师y python 开发语言
本篇Python基础语法（二）将深入讲解编程中至关重要的条件判断、循环结构和运算符，它们是实现复杂逻辑的基石。一、条件语句（if-elif-else）条件语句用于根据不同的条件执行不同的代码块。Python中用if、elif（elseif的缩写）和else实现。1.基本语法age=18ifage（大于）、大于10>5→True=大于等于5>=5→True3)and(2<4)→Trueor任一条件为
Linux losetup循环设备小米人er 我的博客 losetup linux nuttx
好的，以下是命令的中文解释和使用步骤：命令解释：losetup-r/dev/loop0/system/app.bin：losetup是一个用于将文件与循环设备（loopdevice）关联的命令。-r选项表示将循环设备设置为只读模式。/dev/loop0是使用的循环设备。/system/app.bin是要与循环设备关联的文件。这条命令的作用是将/system/app.bin文件的内容通过/dev/l
【CSDN】java使用POI&EasyExcel操作文件学习笔记骑鱼过海的猫123 java 学习笔记
文章目录1.Apachepoi参考CSDNurl:[CSDNPOI文档](https://blog.csdn.net/fgghhfg574/article/details/103343030)参考B站视频:[B站POI视频](https://www.bilibili.com/video/BV1cG411M7ut?p=6&vd_source=31d376c1e57cf8a26a31cd3b47080
【技术解密】本地部署 DeepSeek-V3：完整指南海棠AI实验室 “智元启示录“-AI发展的深度思考与未来展望人工智能深度学习 DeepSeek
目录引言运行环境需求下载与安装推理部署总结参考资源引言随着人工智能的快速发展，开源大模型正逐步改变着技术生态。DeepSeek-V3作为最新的开源大模型之一，不仅提供了强大的推理能力，同时也支持本地部署，使开发者可以灵活地进行自定义优化。本文将详细介绍如何在本地部署DeepSeek-V3，涵盖系统要求、安装步骤、模型转换及不同推理框架的应用。1.运行环境需求1.1硬件要求✅NVIDIAGPU（支持
JavaScript松散比较与严格比较 hzw0510 前端开发 javascript 开发语言 ecmascript
在JavaScript中，==（双等号）和===（三等号）都用于比较两个值，但它们的比较方式有显著区别。以下是它们的详细对比：1.==（双等号）名称:松散相等（LooseEquality）行为:在比较之前会尝试进行类型转换，将两个值转换为相同类型后再比较。示例:console.log(5=="5")
人工智能伦理与可持续发展 CarlowZJ 人工智能
前言人工智能（AI）技术正在深刻地改变我们的生活和工作方式。从自动驾驶汽车到智能医疗系统，从个性化推荐到自动化决策，AI的应用无处不在。然而，随着技术的快速发展，其伦理和社会影响也引发了广泛的关注。人工智能伦理不仅涉及技术本身的公平性、透明性和安全性，还涉及到更广泛的社会、经济和环境影响。本文将探讨人工智能伦理的核心问题，并从可持续发展的角度提出应对策略。一、人工智能伦理的核心问题1.1数据隐私与
JAVA中运算符要注意的地方优雅的落幕 Java java 开发语言
本文章主要突出其与C语言的区别1.增量运算符+=-=*=%=1.a+=1.0a+=1.0;a=(int)(a+1.0);这两个等价而不是单纯的等价于a=a+1.02.a=a++publicstaticvoidmain(String[]args){inta=10;a=a++;System.out.println(a);}在上述代码中，a的结果是什么呢？是不是a=11?但其实不是的a=10其实这样赋值
生成式AI+安全：API防护的“进化革命”——从被动防御到智能对抗的技术跃迁数信云 DCloud 人工智能安全 ai
在生成式AI重塑数字世界的今天，API作为数据流动的“数字血管”，其安全性已成为企业生死存亡的关键。行业数据显示，2025年全球77%的企业将深度整合生成式AI技术，承载着75%互联网流量的API体系，正驱动着超2000亿美元的数字经济浪潮。然而，这场技术革命也催生了新型威胁：攻击者利用生成式AI自动化构造恶意请求，绕过传统规则引擎；大模型API的滥用导致算力耗尽与数据泄露；甚至AI生成的代码漏洞
TRS收益互换系统开发为何敢称“无限拓展”？模块化架构+弹性集群揭秘！ Ashlee_code 架构 python java c++c语言
《【券商震惊】传统询价3小时→TRS黑科技10分钟！盈立证券交易量暴增150%背后秘密》开篇：询价耗时3小时？券商正在被低效“慢性杀死”电话询价、邮件比价、Excel汇总——传统场外交易中，一次询价流程动辄数小时，客户流失率高达40%！TRS收益互换平台，依托DeepSeek动态定价算法与多发行方实时比价引擎，将询价响应时间从3小时压缩至10分钟，助力盈立证券交易量飙升150%，彻底改写行业游戏规
24小时响应+零宕机！TRS收益互换系统售后如何成为券商“救命稻草”？ Ashlee_code 架构 java python c++c语言
《【券商震惊】传统询价3小时→TRS黑科技10分钟！盈立证券交易量暴增150%背后秘密》开篇：询价耗时3小时？券商正在被低效“慢性杀死”电话询价、邮件比价、Excel汇总——传统场外交易中，一次询价流程动辄数小时，客户流失率高达40%！令克软件TRS收益互换平台，依托DeepSeek动态定价算法与多发行方实时比价引擎，将询价响应时间从3小时压缩至10分钟，助力盈立证券交易量飙升150%，彻底改写行
Markdig：强大的 .NET Markdown 解析器详解江沉晚呤时 Net core .netcore net c#asp.net
在现代开发中，Markdown已经成为了一种广泛使用的轻量级标记语言，特别是在文档、博客和内容管理系统中，Markdown为开发者提供了快速、简洁的格式化文本方式。而在.NET生态中，Markdig是一款非常强大的Markdown解析器，它不仅支持标准的Markdown语法，还提供了许多扩展功能，让开发者能够灵活地定制Markdown文本的解析与渲染。本文将详细介绍Markdig的基本用法、扩展功
Matlab GPU加速技术算法工程师y matlab 开发语言
1.GPU加速简介（1）为什么使用GPU加速？CPU擅长处理逻辑复杂的串行任务，而GPU拥有数千个流处理器，专为并行计算设计。对于大规模矩阵运算、深度学习训练或科学计算等任务，GPU加速可将计算速度提升数十至数百倍。（2）Matlab的GPU支持功能依赖：需安装ParallelComputingToolbox（并行计算工具箱）。硬件要求：支持CUDA的NVIDIAGPU（如Tesla、GeForc
证券交易系统核心技术解析：LinkTrader 的毫秒级响应架构与风控实践 Ashlee_code 架构 python java c++
一、行业痛点：为什么传统交易系统正在被淘汰？2024年，证券行业guweng22346的技术竞争已从“功能完备”转向**“速度+智能”的极限博弈**。以下是传统系统的三大致命缺陷：数据延迟：非官方行情源导致套利窗口丢失（实测延迟普遍>0.1秒）；风控低效：依赖人工监控，凌晨时段风险拦截率不足30%；扩展性差：单体架构下订单处理峰值低于10万/秒，极易崩溃。典型案例：某券商因系统延迟0.05秒，单日
音频 Alsa、Framework及Android ‘禹’你一起后端
目录1Alsa、Framework及Android1.1ALSA架构简介图11.2ALSA架构简介图21.3ALSA架构简介图31.4ALSA架构简介图41.5ALSA架构简介图51.6ALSA架构简介图61.8音频代码1Alsa、Framework及Android目前，linux系统常用的音频驱动有两种形式:alsa和oss。Alsa：现在是linux下音频驱动的主要形式，与简单的oss兼容。o
【python爬虫实战】——基于全国各城市快递网点的数据采集小L工程师 python爬虫实战爬虫网络爬虫 python selenium 开发语言数据分析数据可视化
一、项目背景随着电子商务的快速发展，快递行业成为了现代物流的重要组成部分。快递网点的分布和服务质量直接影响到用户的物流体验。为了更好地了解快递网点的分布情况、服务范围以及联系方式等信息，本项目通过爬虫技术从公开的快递信息网站上采集相关数据。‘>本文章中所有内容仅供学习交流使用，不用于其他任何目的，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！二、项目目的和意义本项目的主要目的是通
从零开始学习鸿蒙系统 Ning.L 华为 harmonyos
1.移动通讯技术的发展-1G时代：1980年摩托罗拉开发出了第一部手机，使用的就是1G的技术。只能进行语音通话。就是大哥大。-2G时代：1996年到1997年出现了第二代GSM、CDMA等数字制式手机，增加了接收数据的功能。2G不仅可以通话，还可以数据收发的功能，最开始的速度只有9K/S。如果我想收发一些图片或者音频技术是不可能的，因为速度太慢了。后来随着互联网多媒体的流行，多了图片，视频等，所以
嵌入式开发之STM32学习笔记day06 小程同学>o< 嵌入式学习之STM32 stm32 学习笔记
基于STM32F103C8T6的开发实践——从入门到精通011.引言STM32系列微控制器是STMicroelectronics推出的一款高性能、低功耗的32位微控制器，广泛应用于嵌入式系统中。STM32F103C8T6是其中非常受欢迎的一款，凭借其强大的性能、丰富的外设接口和低廉的价格，成为了开发者的首选之一。本文将通过实例，详细介绍如何基于STM32F103C8T6进行开发，并带领读者完成从简
pytorch中的DataLoader 朋也透william pytorch 人工智能 python
在PyTorch中，DataLoader是一个工具类，用于高效地加载数据并准备数据输入到模型中。它支持数据的批量加载、随机打乱、并行加载和迭代操作，是训练深度学习模型的关键组件之一。1.基本功能DataLoader的主要职责是从数据集中提取样本，并根据设置返回一个批次的数据。它与Dataset类结合使用：Dataset：定义数据集的来源、结构以及如何获取单个数据样本。DataLoader：负责从D
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
基于Gradio实现的增删改查（CRUD）模板系统设计方案大霸王龙 python gradio
基于Gradio实现的增删改查（CRUD）模板系统设计方案，结合了交互界面优化与数据持久化方案，支持本地JSON存储和动态界面更新：一、系统架构设计数据存储层采用JSON文件实现数据持久化（data.json）数据结构示例：{"items":[{"id":1,"name":"示例项目","category":"测试","status":"进行中"}]}界面交互层使用gr.Blocks实现多组件布局
pytorch 天花板级别的知识点你可以不会用但是不能不知道小赖同学啊人工智能 pytorch 人工智能 python
PyTorch的高级知识涵盖了从模型优化到分布式训练的广泛内容，适合已经掌握基础知识的开发者进一步提升技能。以下是PyTorch的高级知识点，详细且全面：1.模型优化与加速1.1混合精度训练定义：使用半精度（FP16）和单精度（FP32）混合训练，减少内存占用并加速计算。实现：使用torch.cuda.amp模块。示例：fromtorch.cuda.ampimportautocast,GradSc
【GPT入门】第24课 langfuse介绍 *星星之火* 大模型 gpt
【GPT入门】第24课langfuse介绍1.langfuse概念与作用2.代码3.页面效果4.设计模式1.装饰器模式2.上下文管理模式1.langfuse概念与作用Langfuse是一款专为大规模语言模型（LLM）应用开发设计的开源平台。其作用主要包括以下几个方面：提升开发效率：通过消除LLM应用构建与运维的复杂性，让开发者、运维团队及产品经理能更专注于核心开发与迭代优化，减少在监控与优化方面的
【GPT入门】第20课 langchain的function calling 初步体验 *星星之火* 大模型 gpt langchain python
【GPT入门】第20课langchain的functioncalling初步体验1.langchain的functioncalling非常简洁2.代码3.执行结果：1.langchain的functioncalling非常简洁在方法名说明方法用途和参数作用增加@tool标签langchain方法自动把@tool转为方法定义，后续方法调用都很简洁下面代码用支持单函数与多函数调用，自己体验一下quer
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

Machine Learning with Python Cookbook 学习笔记 第3章

Machine Learning with Python Cookbook 学习笔记 第3章

前言

Chapter 3 Data Wrangling（数据整理）

3.0 Introduction

3.1 Creating a Data Frame

Problem

Solution

Discussion

3.2 Describing the Data

Discussion

3.3 Navigating DataFrames

Discussion

3.4 Selecting Rows Based on Conditionals

Discussion

3.5 Replacing Values

3.6 Renaming Columns

Discussion

3.7 Finding the Min, Max, Sum, Average, and Count

Discussion

3.8 Finding Unique Values

Discussion

3.9 Handling Missing Values

Discussion

3.10 Deleting a Column

Discussion

3.11 Deleting a Row

Discussion

3.12 Dropping Duplicate Rows

Discussion

3.13 Grouping Rows by Values

Discussion

3.14 Grouping Rows by Time

Discussion

3.15 Looping Over a Column

Discussion

3.16 Applying a Function Over All Elements in a Column

Discussion

3.17 Applying a Function to Groups

Discussion

3.18 Concatenating DataFrames

Discussion

3.19 Merging DataFrames

Discussion

你可能感兴趣的:(机器学习与python,python,机器学习,学习)

Machine Learning with Python Cookbook 学习笔记第3章

Machine Learning with Python Cookbook 学习笔记第3章