永远十八的小仙女~

数据分析 — Pandas 分组聚合

一、函数应用和映射
- 1、apply
- 2、map
二、汇总和描述统计
- 1、计算平均值
- 2、计算中位数
- 3、计算总和
- 4、找到最小值
- 5、找到最大值
- 6、计算标准差
- 7、计算方差
- 8、计算非空值的数量
- 9、生成摘要统计信息
- 10、计算唯一值的频率
三、str 属性
- 1、str.len()
- 2、str.lower() 和 str.upper()
- 3、str.replace()
- 4、str.strip()、str.lstrip() 和 str.rstrip()
- 5、str.split()
- 6、str.startswith() 和 str.endswith()
- 7、str.count()
四、分组聚合
五、透视表

一、函数应用和映射

1、apply

pandas.apply() 是 Pandas 库中的一个函数，用于在 DataFrame 或 Series 上应用自定义函数。这个函数可以沿着指定的轴（行或列）逐行或逐列地应用函数，从而实现对数据的定制化操作。

参数：

func（必需）：这是要应用的函数，可以是一个 Python 函数、lambda 函数或可调用对象。这个函数将应用于 Series 或 DataFrame 的每个元素或行/列，具体取决于 axis 参数的设置。
axis（可选）：指定函数应用的轴方向。有两个选项：
- axis=0（默认值）：将函数应用于每一列，即按列方向操作。
- axis=1：将函数应用于每一行，即按行方向操作。
raw（可选）：一个布尔值，用于控制是否将数据以 NumPy 数组的形式传递给函数。有两个选项：
- raw=False（默认值）：表示将数据以 Series 或 DataFrame 的形式传递给函数。
- raw=True：表示数据以 NumPy 数组形式传递给函数，这在某些情况下可能提高性能。
result_type（可选）：指定函数的返回类型。有两个选项：
- expand（默认值）：如果函数返回的是 Series，则将其扩展为 DataFrame。
- reduce：如果函数返回的是标量（如一个数字），则返回一个标量；如果返回的是 Series，则返回一个 Series。
args（可选）：一个元组，包含传递给函数的额外参数。这可以用来向函数传递额外的参数。
**kwds（可选）：关键字参数，用于传递给函数的额外关键字参数。

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
print("原df\n", df)
# 原df
#     A   B
# 0  1  10
# 1  2  20
# 2  3  30
# 3  4  40
# 4  5  50

# 使用 lambda 函数将每个元素加倍
df['A2'] = df['A'].apply(lambda x: x * 2)
print("A列2倍处理后的df\n", df)
# A列2倍处理后的df
#     A   B  A2
# 0  1  10   2
# 1  2  20   4
# 2  3  30   6
# 3  4  40   8
# 4  5  50  10

# 增加新列 Row_Sum，值为A列和B列对应位置相加的结果
def row_sum(row):
    return row['A'] + row['B']
df['Row_Sum'] = df.apply(row_sum, axis=1)
print("增加AB两列和后的df\n", df)
# 增加AB两列和后的df
#     A   B  A2  Row_Sum
# 0  1  10   2       11
# 1  2  20   4       22
# 2  3  30   6       33
# 3  4  40   8       44
# 4  5  50  10       55

2、map

pandas.map() 是 Pandas 库中的一个方法，主要用于对 Series 中的每个元素应用一个函数或一个字典，将每个元素映射到另一个值上。它可以用于进行元素级的转换，从而创建新的 Series。

参数：

arg（必需）：这是映射函数、字典或其它可映射对象，用于将 Series 中的元素映射到新的值。可以是以下几种类型：
- 一个函数：将应用于 Series 中的每个元素，函数的返回值将作为新的值。
- 一个字典：将 Series 中的值与字典中的键进行匹配，并将对应的值用作新的值。
- 一个 Series 或其它可映射的 Pandas 对象：将 Series 中的值与可映射对象中的索引或标签匹配，并将对应的值用作新的值。
na_action (可选)：指定对于 Series 中的缺失值如何处理。有两个选项：
- ignore（默认值）：忽略缺失值，不进行映射，将缺失值保留不变。
- raise：如果 Series 中存在缺失值，则引发异常。

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 Series
data = {'A': ['apple', 'banana', 'cherry', 'date']}
s = pd.Series(data['A'])
# 使用字典映射元素到新的值
dict1 = {'apple': 'fruit', 'banana': 'fruit', 'cherry': 'fruit'}
s_mapped = s.map(dict1)
print(s_mapped)
# 0    fruit
# 1    fruit
# 2    fruit
# 3      NaN
# dtype: object

# 使用函数映射元素到新的值
def func(x):
    if x in ['apple', 'banana', 'cherry']:
        return 'fruit'
    else:
        return 'other'

s_mapped2= s.map(func)
print(s_mapped2)
# 0    fruit
# 1    fruit
# 2    fruit
# 3    other
# dtype: object

二、汇总和描述统计

1、计算平均值

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 计算平均值
mean_A = df['A'].mean()
mean_B = df['B'].mean()
print(f'A列平均值: {mean_A}')  # A列平均值: 3.0
print(f'B列平均值: {mean_B}')  # B列平均值: 30.0

2、计算中位数

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 计算中位数
median_A = df['A'].median()
median_B = df['B'].median()
print(f'A列中位数: {median_A}')  # A列中位数: 3.0
print(f'B列中位数: {median_B}')  # B列中位数: 30.0

3、计算总和

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 计算总和
sum_A = df['A'].sum()
sum_B = df['B'].sum()
print(f'A列求和: {sum_A}')  # A列求和: 15
print(f'B列求和: {sum_B}')  # B列求和: 150

4、找到最小值

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 找到最小值
min_A = df['A'].min()
min_B = df['B'].min()
print(f'A列最小值: {min_A}')  # A列最小值: 1
print(f'B列最小值: {min_B}')  # B列最小值: 10

5、找到最大值

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 找到最大值
max_A = df['A'].max()
max_B = df['B'].max()
print(f'A列最大值: {max_A}')  # A列最大值: 5
print(f'B列最大值: {max_B}')  # B列最大值: 50

6、计算标准差

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 计算标准差
std_A = df['A'].std()
std_B = df['B'].std()
print(f'A列标准差: {std_A}')  # 标准差A: 1.5811388300841898
print(f'B列标准差: {std_B}')  # 标准差B: 15.811388300841896

7、计算方差

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 计算方差
var_A = df['A'].var()
var_B = df['B'].var()
print(f'A列方差: {var_A}')  # A列方差: 2.5
print(f'B列方差: {var_B}')  # B列方差: 250.0

8、计算非空值的数量

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 计算非空值的数量
count_A = df['A'].count()
count_B = df['B'].count()
print(f'A列非空值数量: {count_A}')  # A列非空值数量: 5
print(f'B列非空值数量: {count_B}')  # B列非空值数量: 5

9、生成摘要统计信息

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 生成摘要统计信息
summary_A = df['A'].describe()
summary_B = df['B'].describe()
print(f'A列概览:\n{summary_A}')
# A列概览:
# count    5.000000
# mean     3.000000
# std      1.581139
# min      1.000000
# 25%      2.000000
# 50%      3.000000
# 75%      4.000000
# max      5.000000
# Name: A, dtype: float64
print(f'B列概览:\n{summary_B}')
# B列概览:
# count     5.000000
# mean     30.000000
# std      15.811388
# min      10.000000
# 25%      20.000000
# 50%      30.000000
# 75%      40.000000
# max      50.000000
# Name: B, dtype: float64

10、计算唯一值的频率

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 计算唯一值的频率
value_counts_A = df['A'].value_counts()
value_counts_B = df['B'].value_counts()
print(f'A列各值计数:\n{value_counts_A}')
# A列各值计数:
# A
# 1    1
# 2    1
# 3    1
# 4    1
# 5    1
# Name: count, dtype: int64
print(f'B列各值计数:\n{value_counts_B}')
# B列各值计数:
# B
# 10    1
# 20    1
# 30    1
# 40    1
# 50    1
# Name: count, dtype: int64

三、str 属性

作用是对元素级的数据（单元格数据）进行处理，能处理的是字符串。

1、str.len()

计算每个字符串的长度

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie']}
df = pd.DataFrame(data)
df['name_length'] = df['name'].str.len()
print(df)
#       name  name_length
# 0    Alice            5
# 1      Bob            3
# 2  Charlie            7

2、str.lower() 和 str.upper()

str.lower()：将字符串转换为小写

str.upper()：将字符串转换为大写

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie']}
df = pd.DataFrame(data)
df['name_lower'] = df['name'].str.lower()
df['name_upper'] = df['name'].str.upper()
print(df)
#       name name_lower name_upper
# 0    Alice      alice      ALICE
# 1      Bob        bob        BOB
# 2  Charlie    charlie    CHARLIE

3、str.replace()

替换字符串中的子字符串

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie']}
df = pd.DataFrame(data)
df['name_replaced'] = df['name'].str.replace('a', 'X')
print(df)
#       name name_replaced
# 0    Alice         Alice
# 1      Bob           Bob
# 2  Charlie       ChXrlie

4、str.strip()、str.lstrip() 和 str.rstrip()

str.strip()：删除字符串两侧的空格

str.lstrip()：删除字符串左侧的空格

str.rstrip()：删除字符串右侧的空格

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'name': ['  Alice  ', '  Bob  ', '  Charlie  ']}
df = pd.DataFrame(data)
df['name_strip'] = df['name'].str.strip()
df['name_lstrip'] = df['name'].str.lstrip()
df['name_rstrip'] = df['name'].str.rstrip()
print(df)
#           name name_strip name_lstrip name_rstrip
# 0      Alice        Alice     Alice         Alice
# 1        Bob          Bob       Bob           Bob
# 2    Charlie      Charlie   Charlie       Charlie

5、str.split()

拆分字符串为列表

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie']}
df = pd.DataFrame(data)
df['name_split'] = df['name'].str.split(' ')
print(df)
#       name name_split
# 0    Alice    [Alice]
# 1      Bob      [Bob]
# 2  Charlie  [Charlie]

6、str.startswith() 和 str.endswith()

str.startswith()：检查字符串是否以特定前缀开头

str.endswith()：检查字符串是否以特定后缀开头

import pandas as pd  # 导入 Pandas 库并使用别名 pd
# 创建一个示例 DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie']}
df = pd.DataFrame(data)
df['name_startswith'] = df['name'].str.startswith('A')
df['name_endswith'] = df['name'].str.endswith('e')
print(df)
#       name  name_startswith  name_endswith
# 0    Alice             True           True
# 1      Bob            False          False
# 2  Charlie            False           True

7、str.count()

用于计算字符串中非空元素的方法

import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个示例 DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie', None, 'David']}
df = pd.DataFrame(data)
count_substring = df['name'].str.count('a')
print(count_substring)
# 0    0.0
# 1    0.0
# 2    1.0
# 3    NaN
# 4    1.0
# Name: name, dtype: float64
print(count_substring.sum())  # 2.0

四、分组聚合

groupby() 是 Pandas 中一个方法，用于将数据按照一个或多个列的值分组，然后对每个分组应用聚合函数。

参数：

by（必需）：指定分组的列名或列名的列表。可以是单个列名的字符串，也可以是列名的列表，以按多列分组。这是 groupby() 方法的关键参数。
axis（可选）：指定分组的轴方向，有两个选项：
- axis=0（默认值）：按行分组。
- axis=1：按列分组。
level（可选）：如果输入 DataFrame 包含多层索引，则可以指定要分组的索引级别。
as_index（可选）：默认情况下，groupby() 结果的分组键会成为结果 DataFrame 的索引。设置 as_index=False 可以防止这种情况发生，分组键将保留为列而不是索引。
sort（可选）：默认情况下，分组键会根据分组键的值进行排序。设置 sort=False 可以禁用排序，可能提高性能。

import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个示例 DataFrame
data = {'Category': ['A', 'B', 'A', 'B', 'A'],'Value': [10, 20, 15, 25, 30]}
df = pd.DataFrame(data)
# 按 Category 列分组，并计算每个分组的平均值
grouped = df.groupby(by='Category')
res1 = grouped.mean()
print(res1)
#               Value
# Category
# A         18.333333
# B         22.500000

# 使用多列进行分组
grouped = df.groupby(by=['Category', 'Value'])
# 聚合求和
res2 = grouped.sum()
print(res2)
# Empty DataFrame
# Columns: []
# Index: [(A, 10), (A, 15), (A, 30), (B, 20), (B, 25)]

# 使用自定义聚合函数
def custom_agg(x):
  return x.max() - x.min()
res3 = df.groupby(by='Category').agg(custom_agg)
print(res3)
#           Value
# Category
# A            20
# B             5

五、透视表

pivot_table() 是 Pandas 中用于创建数据透视表的方法。数据透视表是一种用于总结和聚合数据的强大工具，可以根据一个或多个列对数据进行重新排列，以便更容易进行分析。

参数：

data（必需）：要创建数据透视表的 DataFrame。
values（必需）：要聚合的列名或列名的列表。这是要计算统计量的列。
index（可选）：一个或多个列名，用于作为数据透视表的行索引（行标签）。
columns（可选）：一个或多个列名，用于作为数据透视表的列索引（列标签）。
aggfunc（可选）：要应用于 values 中列的聚合函数，可以是内置聚合函数（例如 ‘sum’、‘mean’、‘count’ 等）或自定义函数。默认情况下，使用 ‘mean’。
fill_value（可选）：替代结果表中的缺失值。
margins（可选）：添加边际汇总，生成汇总统计信息。
dropna（可选）：默认情况下，如果所有条目都是 NaN，则删除相应的行。设置为 False 可以保留包含 NaN 值的行。

import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个示例 DataFrame
data = {'Date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03'],'Category': ['A', 'B', 'A', 'B', 'A'],'Value': [10, 20, 15, 25, 30]}
df = pd.DataFrame(data)
print(df)
#          Date Category  Value
# 0  2023-01-01        A     10
# 1  2023-01-01        B     20
# 2  2023-01-02        A     15
# 3  2023-01-02        B     25
# 4  2023-01-03        A     30

# 创建数据透视表，聚合'Value'列，行索引为'Date'，列索引为'Category'，默认聚合函数为均值
pivot = pd.pivot_table(df, values='Value', index='Date', columns='Category')
print(pivot)
# Category       A     B
# Date
# 2023-01-01  10.0  20.0
# 2023-01-02  15.0  25.0
# 2023-01-03  30.0   NaN

记录学习过程，欢迎讨论交流，尊重原创，转载请注明出处~

【单细胞第二节：单细胞示例数据分析-GSE218208】遗落凡尘的萤火-生信小白单细胞分析数据分析 mysql 数据库
GSE2182081.创建Seurat对象#untar(“GSE218208_RAW.tar”)rm(list=ls())a=data.table::fread("GSM6736629_10x-PBMC-1_ds0.1974_CountMatrix.tsv.gz",data.table=F)a[1:4,1:4]library(tidyverse)a$`alias:gene`=str_split(a
单细胞-第五节多样本数据分析,打分R包AUCell 遗落凡尘的萤火-生信小白单细胞分析数据分析 r语言 windows
文件在单细胞\5_GC_py\1_single_cell\3.AUCell.Rmd1.基因rm(list=ls())load("g.Rdata")2.AUCellhttps://www.ncbi.nlm.nih.gov/pmc/articles/PMC9897923IF:NANANA用这个文章里的方法，将单细胞亚群的marker基因与ros相关基因取交集，用作AUCell的基因集Theinters
大数据组件ClickHouse介绍（场景、优劣势、性能）坚持是一种态度大数据开发 ClickHouse 大数据 clickhouse 数据库列式数据库
大数据组件ClickHouse介绍简介使用场景优势与劣势优势劣势性能单个查询吞吐量处理短查询的延时时间处理大量短查询数据写入性能查询性能简介clickhouse是一个高性能的列式存储分析数据库管理系统，由俄罗斯搜索引擎公司yandex开发。clickhouse具有以下特点高性能：clickhouse优化了查询和数据压缩算法，支持多维度数据分析和快速聚合查询。分布式：clickhouse采用共享无状
（一）单细胞数据分析——单细胞数据预处理 Kevin丶大牛单细胞数据分析数据分析数据挖掘 r语言
由于毕业设计是单细胞数据的处理，所以把整个过程所用到的方法进行一个整理，这是第一个部分，对得到的单细胞数据进行质控、降维、聚类等预处理。下面开始：第一步：导入R包（部分R包可能用不到，因为做课题的时候需要就全部导入了，无伤大雅！）library(scibet)library(Seurat)library(scater)library(scran)library(dplyr)library(Matr
python资本市场财务数据分析_Python对股票财务数据进行可视化分析 weixin_39834984
对股票财务数据进行分析是非常必要，但因股票数据量很大，单凭浏览网页或在软件客户端查看是非常浪费精力的一件事，通过Python进行网页数据提取，将财务数据图表化会更加直观。以下代码在Python3.6环境下通过：注：使用注意，将此代码保存为一个文本文件扩展名为.py，在这个文件同目录下建立二个子目录：数据-分析、数据-下载，也可以更改代码中的路径，否则运行时会报错。importmatplotlib.
MySQL实战教程：从小白到大神的进阶之路！奔跑吧邓邓子项目实战 mysql 数据库
目录一、MySQL概述1、MySQL简介1.1MySQL的历史背景1.2MySQL的特点1.3MySQL的应用场景1.4MySQL的版本2、MySQL发展历程2.1MySQL的起源2.2MySQL的早期发展2.3MySQL的成熟与普及2.4MySQL的商业化与收购2.5MySQL的持续创新3、MySQL应用场景3.1Web应用程序3.2企业级应用3.3大数据分析3.4移动应用3.5云计算3.6物联
Anaconda 虚拟环境和 Python 虚拟环境主要的区别张biubiu python 开发语言
在PyCharm中配置Anaconda虚拟环境和Python虚拟环境主要的区别在于环境的管理方式和用途。下面我会分别解释这两种虚拟环境的特点，并说明它们的差异。1.Anaconda虚拟环境Anaconda是一个针对数据科学、机器学习等应用领域优化的Python发行版，它提供了Python、R和大量的科学计算和数据处理包（如NumPy、Pandas、SciPy、Matplotlib等）的集成，且方便
爬虫实践--爬取学科排名数据青柠小卖部爬虫
简介在当今这个信息爆炸的时代，数据的获取和分析变得越来越重要。作为一名数据分析师，我经常需要从各种网站抓取数据来进行研究。最近，我接手了一个项目，需要抓取上海软科排名的数据。上海软科排名是一个权威的大学排名，包含了全球大学的学术排名信息。本文将详细介绍我如何使用Python编写爬虫程序来自动化抓取这些数据。环境准备在开始编码之前，我们需要准备以下环境和库：Python3.xrequests：用于发
SAP GR/IR在系统AP中收货和校验对会计业务的影响（详细） trassion SAP-FI SAP GRIR 采购
转自：http://www.studa.net/kuaiji/100405/14523268.html【摘要】正确理解和掌握SAP系统采购收货和发票校验的集成性对会计业务的影响,可以为物料数据分析和成本数据分析提供有力工具,保证数据真实、完整、实时和丰富,为企业管理者提供决策支持。【关键词】SAP;采购收货;发票校验;集成;影响mySAPERP系统是一种可以实现跨地区、跨部门、甚至跨公司整合实时信
【python】如何将字符串列表转换为数值列表资源存储库算法强化学习 python 开发语言
目录【python】如何将字符串列表转换为数值列表方法1：使用Python的map()和float()或int()方法2：使用列表推导式(ListComprehension)方法3：使用pandas转换方法4：使用numpy转换总结：【python】如何将字符串列表转换为数值列表要将字符串列表转换为数值列表，可以使用Python的内置方法和pandas或numpy等工具。下面是几种常见的方法来实现
【Pandas】pandas Series describe liuweidong0802 Pandas Series pandas
Pandas2.2SeriesComputationsdescriptivestats方法描述Series.abs()用于计算Series中每个元素的绝对值Series.all()用于检查Series中的所有元素是否都为True或非零值（对于数值型数据）Series.any()用于检查Series中是否至少有一个元素为True或非零值（对于数值型数据）Series.autocorr()用于计算Se
如何寻找好用的GPTs模型？小宝哥Code ChatGPT与AIGC 人工智能
要有效地寻找和使用好用的GPT模型，可以按照以下步骤来选择和应用最合适的模型，尤其是在科研或工作中需要完成特定任务时：1.明确需求和任务在寻找适合的GPT模型之前，首先需要明确你要解决的任务或需求。不同的GPT模型在处理各种任务时表现不一样。常见的任务包括：文本生成：创作文章、生成报告、写作论文等。问答系统：快速解答科研问题、技术问题等。翻译和润色：翻译论文、改进文章语言质量等。数据分析和图表生成
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
企业数字化运营系统总体规划蓝图、企业信息化建设总体规划方案公众号：优享智库数字化转型数据治理主数据数据仓库运维云原生数据分析大数据数据挖掘
一、企业数字化运营系统总体规划蓝图1.数字化建设目标与愿景我们的数字化建设目标是实现企业的全面数字化转型，通过科技的力量提升运营效率、优化客户体验、强化数据分析能力，从而增强企业的核心竞争力。我们的愿景是打造一个高效、智能、安全的数字化运营体系，推动企业向更高层次的发展。2.基础设施升级与改造为实现数字化建设目标，我们将进行基础设施的全面升级与改造。这包括升级现有的硬件设备、构建云计算平台、完善网
Python 爬虫实战：从喜马拉雅爬取有声书播放量，挖掘热门音频内容西攻城狮北 python 爬虫音视频实战案例
目录引言一、项目背景与需求分析1.1喜马拉雅平台的特点1.2数据爬取目标二、技术选型与工具准备2.1技术选型2.2工具准备三、爬取有声书播放量数据3.1获取音频列表3.2获取音频详情四、数据存储五、数据处理与分析5.1数据清洗5.2数据分析六、可视化展示七、总结与展望引言喜马拉雅作为国内知名的音频分享平台，拥有海量的有声书、广播剧、音乐等内容。通过爬取喜马拉雅上的有声书播放量数据，我们可以分析哪些
python与excel整合全教程刘同学Python学习日记 python excel 开发语言
Python与Excel的整合非常强大，尤其适合处理大数据、自动化表格操作以及进行高级数据分析。以下是一个全教程，涵盖常用的Python库及其应用：1.准备工作安装必要的库：使用以下命令安装常用库：pipinstallopenpyxlpandasxlrdxlsxwriterpywin32openpyxl:用于操作Excel的.xlsx文件（推荐）。pandas:强大的数据分析工具，支持读取和写入E
Python 数据分析 - 初识 Pandas 一名技术极客 #Python 进阶爬虫 python 数据分析 pandas
Python数据分析-初识Pandas简介SeriesDataFrame创建基本操作添加删除简介Pandas基于NumPy开发，它提供了快速、灵活、明确的数据结构，旨在简单、直观地处理数据。Pandas适用于处理以下类型的数据：有序和无序的时间序列数据带行列标签的矩阵数据，包括同构或异构型数据与SQL或Excel表类似的，含异构列的表格数据任意其它形式的观测、统计数据集，数据转入Pandas数据结
Python语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Python语言的安全开发引言在信息技术迅速发展的今天，网络安全问题愈发凸显。随着Python语言的广泛应用，尤其是在数据分析、人工智能、Web开发等领域，其安全问题越来越受到重视。Python作为一门高效且易于学习的编程语言，虽然在开发过程中为我们提供了很多便利，但如果忽视了安全性，将可能导致严重的安全漏洞和数据泄露等问题。因此，本文将围绕Python语言的安全开发展开讨论，重点分析常见的安全问
使用scikit-learn中的KNN包实现对鸢尾花数据集或者自定义数据集的的预测。 Jam-Young scikit-learn python 信息可视化
使用scikit-learn中的KNN包实现对鸢尾花数据集或者自定义数据集的的预测。#导入鸢尾花数据集fromsklearn.datasetsimportload_iris,fetch_20newsgroups#数据化可视包importseabornassnsimportmatplotlib.pyplotaspltimportpandasaspdfromsklearn.model_selectio
为什么LabVIEW适合软硬件结合的项目？ LabVIEW开发 LabVIEW开发案例 LabVIEW开发案例
LabVIEW是一种基于图形化编程的开发平台，广泛应用于软硬件结合的项目中。其强大的硬件接口支持、实时数据采集能力、并行处理能力和直观的用户界面，使得它成为工业控制、仪器仪表、自动化测试等领域中软硬件系统集成的理想选择。LabVIEW的设计哲学强调模块化、可视化和易于操作，使开发者能够快速实现复杂的软硬件交互系统，同时提供了强大的数据分析与可视化功能。通过与多种硬件平台的兼容，LabVIEW能够为
APL语言的正则表达式慕璃嫣包罗万象 golang 开发语言后端
APL语言中的正则表达式引言APL（AProgrammingLanguage）是一种高层次的编程语言，以其简洁的符号和强大的数组处理能力著称。虽然其主要用途通常集中在数值计算和数据处理，但APL也提供了对字符串操作的支持。在这方面，正则表达式作为一种强大的字符串处理工具，能够帮助程序员更高效地进行模式匹配和文本处理。因此，了解APL语言中的正则表达式的使用方法，对于从事数据分析、文本处理等工作的程
【Python数据分析】Pandas_Series如何转变为DataFrame Root_Smile 【Python数据分析】python 数据分析 pandas
1.使用pd.DataFrame()构造函数可以使用pd.DataFrame()构造函数将Series转换为DataFrame。在构造函数中，将Series作为一个列传递给DataFrame，并且可以通过指定列名来为DataFrame的列命名。代码示例：importpandasaspddata=[10,20,30,40,50]index=['A','B','C','D','E']series=pd
(6) 深入探索Python-Pandas库的核心数据结构：DataFrame全面解析码界领航 pandas 数据结构 python numpy
目录前言1.DataFrame简介2.DataFrame的特点3.DataFrame的创建3.1使用字典创建DataFrame3.2使用列表的列表（或元组）创建DataFrame3.3使用NumPy数组创建DataFrame3.4使用Series构成的字典创建DataFrame3.5使用字典构成的字典创建DataFrame4.从CSV文件读取5.DataFrame的属性和方法5.1查看DataFr
初始Pandas数据结构(DataFrame和Series) aerfaqi 数据分析 python 数据挖掘
认识PandasPandas是Python语言的一个扩展程序库，用于数据挖掘和数据分析，同时也提供数据清洗功能。pandas（paneldata&dataanalysis），是基于numpy（提供高性能的矩阵运算）专门用于数据分析的工具，是一个强大的分析结构化数据（表格数据）的工具集；Pandas的操作是基于两种结构：DataFrame结构和Series结构DataFrame每一列都为Series
Selenium 结合 Requests 爬取网易云音乐“我喜欢的”及评论数API分析 dreadp selenium python 前端 web安全网络协议爬虫
前言基于selenium和requests，在网易云音乐网页上爬取前1000首“我喜欢的音乐”以供后续数据分析。重点讲解了__init__.py文件的重要性、Cookie的添加和检查方式、Selenium选择器的使用技巧，特别是的处理方法。同时，也分享了我对网易云评论数API接口的探索。提供完整的脚本。项目地址:Github链接文件相对路径:NeteaseCloudMusicGaze/src/AP
Python酷库之旅-第三方库Pandas(005) 神奇夜光杯 python pandas 开发语言标准库及第三方库基础知识学习和成长
目录一、用法精讲7、pandas.read_clipboard函数7-1、语法7-2、参数7-3、功能7-4、返回值7-5、说明7-6、用法7-6-1、代码示例7-6-2、结果输出8、pandas.DataFrame.to_clipboard函数8-1、语法8-2、参数8-3、功能8-4、返回值8-5、说明8-6、用法8-6-1、代码示例8-6-2、结果输出9、pandas.read_excel函
LeetCode题练习与总结：删除重复的电子邮箱--196 一直学习永不止步 LeetCode MySQL 简单算法数据结构 LeetCode 数据库 MySQL 职场和发展
一、题目描述SQLSchema>PandasSchema>表:Person+-------------+---------+|ColumnName|Type|+-------------+---------+|id|int||email|varchar|+-------------+---------+id是该表的主键列(具有唯一值的列)。该表的每一行包含一封电子邮件。电子邮件将不包含大写字母。编
【Pandas】pandas Series cumsum liuweidong0802 Pandas Series pandas
Pandas2.2SeriesComputationsdescriptivestats方法描述Series.abs()用于计算Series中每个元素的绝对值Series.all()用于检查Series中的所有元素是否都为True或非零值（对于数值型数据）Series.any()用于检查Series中是否至少有一个元素为True或非零值（对于数值型数据）Series.autocorr()用于计算Se
Python编程入门指南：从基础到高级编程咕咕gu- python 零基础学习开发语言学习零基础入门
如果你正在学习Python，那么你需要的话可以，点击这里Python重磅福利：入门&进阶全套学习资料、电子书、软件包、项目源码等等免费分享！一、引言1.1Python编程语言简介Python是一种高级编程语言，它具有简单易学、代码简洁、易维护等特点，因此被广泛应用于科学计算、数据分析、人工智能等领域。Python的语法简洁，代码易于阅读和编写，因此它被广大开发者所喜爱。同时，Python还拥有庞大
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$