小狗AI

用python做数据分析案例,python数据分析案例教程

本篇文章给大家谈谈用python做数据分析案例，以及python数据分析案例教程，希望对各位有所帮助，不要忘了收藏本站喔。

Source code download: 本文相关源码

1.MoviesLens 1M数据集

1.1数据简介：

GroupLens实验室提供了一些从MoviesLens用户那里收集的20世纪90年代末到21世纪初的电影评分数据的集合。浙西额数据提供了电影的评分、流派、年份和观众数据（年龄、邮编、性别、职业）用python代码画雪人。
MovisLens1M数据集包含6000个用户对4000部电影的100万个评分。数据分布在三个表格之中：分别包含评分、用户信息和电影信息。

1.2代码（我是anaconda和jupyter两个软件联合进行的编码）

1.2.1python包的引用

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import matplotlib
%matplotlib inline #在jupyter notebook中需要这一行，在pycharm中不需要

这是我在数据分析的过程中所运用到的python包。

1.2.2数据的调入

unames = ["user_id", "gender", "age", "occupation", "zip"]
users = pd.read_table("datasets/movielens/users.dat", sep="::",
header=None, names=unames, engine="python")

rnames = ["user_id", "movie_id", "rating", "timestamp"]
ratings = pd.read_table("datasets/movielens/ratings.dat", sep="::",
header=None, names=rnames, engine="python")

mnames = ["movie_id", "title", "genres"]
movies = pd.read_table("datasets/movielens/movies.dat", sep="::",
header=None, names=mnames, engine="python")

使用pandas库中的pd.read_table()函数从MovieLens数据集的三个文件中读取数据。这些文件包括users.dat、ratings.dat和movies.dat。

1.2.3数据的处理

users.head(5)
ratings.head(5)
movies.head(5)
ratings #jupyter notebook 不用print也能有图像

可以使用head()函数来查看数据框的前几行。

data = pd.merge(pd.merge(ratings, users), movies)
data
data.iloc[0]

这段代码将合并ratings、users和movies三个数据框，并将结果存储在data变量中。通过打印data，您可以查看合并后的数据框的内容。要访问data中的特定行，可以使用.iloc[]方法。

mean_ratings = data.pivot_table("rating", index="title",
columns="gender", aggfunc="mean")
mean_ratings.head(5)

在使用pivot_table()函数计算基于性别的电影评分的平均值，

pivot_table()函数用于创建一个透视表，其中"rating"列作为值，"title"列作为行索引，"gender"列作为列索引，并使用"mean"聚合函数计算平均值。

通过打印mean_ratings.head(5)，您可以查看计算得到的透视表的前5行，其中显示了每个电影标题的不同性别的平均评分。

ratings_by_title = data.groupby("title").size()
ratings_by_title.head()
active_titles = ratings_by_title.index[ratings_by_title >= 250]
active_titles

使用groupby()函数对data数据框按照电影标题("title")进行分组，并使用size()函数计算每个电影标题的出现次数。
使用.head()方法打印出计算得到的分组结果的前几行。
使用ratings_by_title >= 250来创建一个布尔索引，筛选出评分次数至少为250次的电影标题。然后，使用.index属性获取这些电影标题的索引，并将结果存储在active_titles变量中。通过打印active_titles，您可以查看筛选得到的活跃电影标题。

mean_ratings = mean_ratings.loc[active_titles]
mean_ratings

这段代码使用.loc[]索引器根据活跃电影标题的索引，从mean_ratings数据框中选择相应的行。

通过打印mean_ratings，您将得到筛选后的mean_ratings数据框，其中只包含活跃电影标题，并显示了每个电影标题的不同性别的平均评分。

mean_ratings = mean_ratings.rename(index={"Seven Samurai (The Magnificent Seven) (Shichinin no samurai) (1954)":
"Seven Samurai (Shichinin no samurai) (1954)"})

top_female_ratings = mean_ratings.sort_values("F", ascending=False)
top_female_ratings.head()

.rename()方法用于重命名索引，将"Seven Samurai (The Magnificent Seven) (Shichinin no samurai) (1954)"修改为"Seven Samurai (Shichinin no samurai) (1954)"，以便更好地匹配索引值。

然后，使用.sort_values()方法按照女性评分("F")对mean_ratings数据框进行降序排序，并将结果存储在top_female_ratings变量中。

通过打印top_female_ratings.head()，您可以查看按照女性评分排序后的前几行数据，这些行显示了女性对电影的评分情况。

mean_ratings["diff"] = mean_ratings["M"] - mean_ratings["F"]

sorted_by_diff = mean_ratings.sort_values("diff")
sorted_by_diff.head()

通过计算男性评分("M")与女性评分("F")之间的差异，创建了一个新的名为"diff"的列，并将结果存储在mean_ratings数据框中。

然后，使用.sort_values()方法按照"diff"列的值对mean_ratings数据框进行排序，并将结果存储在sorted_by_diff变量中。

通过打印sorted_by_diff.head()，您可以查看按照差异值排序后的前几行数据，这些行显示了男性评分与女性评分之间差异最大的电影。

sorted_by_diff[::-1].head()

在这段代码中，[::-1]用于对sorted_by_diff数据框进行逆序操作，即将数据框的行顺序反转。

通过打印sorted_by_diff[::-1].head()，您将得到逆序后的前几行数据，这些行显示了女性评分高于男性评分的电影。

rating_std_by_title = data.groupby("title")["rating"].std()
rating_std_by_title = rating_std_by_title.loc[active_titles]
rating_std_by_title.head()

，首先使用groupby()函数对data数据框按照电影标题("title")进行分组，并计算每个电影标题的评分("rating")的标准差，将结果存储在rating_std_by_title变量中。

然后，使用.loc[]索引器根据活跃电影标题的索引，从rating_std_by_title中选择相应的行。

通过打印rating_std_by_title.head()，您可以查看计算得到的活跃电影标题的评分标准差的前几行数据。

rating_std_by_title.sort_values(ascending=False)[:10]

.sort_values()方法用于按照评分标准差进行降序排序。

通过打印rating_std_by_title.sort_values(ascending=False)[:10]，您将得到按照评分标准差降序排序的前10个电影，这些电影具有最高的评分标准差。

movies["genres"].head()
movies["genres"].head().str.split("|")
movies["genre"] = movies.pop("genres").str.split("|")
movies.head()

首先通过movies["genres"].head()打印出"genres"列的前几行数据，以便查看原始数据。

接下来，使用.str.split("|")将"genres"列中的每个元素按照"|"进行拆分，返回一个包含拆分后结果的Series对象。

然后，使用movies["genre"] = movies.pop("genres").str.split("|")将拆分后的结果存储到一个新的列"genre"中，并从原始数据框中删除"genres"列。

最后，通过打印movies.head()，您将得到包含新的"genre"列的数据框，显示了每个电影的多个分类。

movies_exploded = movies.explode("genre")
movies_exploded[:10]

使用.explode()方法对"genre"列进行展开操作，将每个电影的每个分类单独显示。展开后的结果存储在新的数据框movies_exploded中。

通过打印movies_exploded[:10]，您将得到展开后的前10行数据，每行显示一个电影的一个分类。

ratings_with_genre = pd.merge(pd.merge(movies_exploded, ratings), users)
ratings_with_genre.iloc[0]
genre_ratings = (ratings_with_genre.groupby(["genre", "age"])
["rating"].mean()
.unstack("age"))
genre_ratings[:10]

使用pd.merge()函数将展开后的movies_exploded、ratings和users数据框进行合并，以创建包含电影分类的评分数据框ratings_with_genre。
使用.iloc[0]索引器来获取ratings_with_genre数据框中的第一行数据。
使用groupby()函数按照分类和年龄进行分组，并计算每个分类和年龄组的平均评分。
使用.unstack("age")将年龄作为列索引重新排列数据框。

2.美国1880-2010年的婴儿名字

2.1数据简介

                美国社会保障局（SSA）提供了从1880年至现在的婴儿姓名频率的数据。可以使用这些数据做很多事情：
                根据给定的名字对婴儿名字随时间的比例进行可视化
                确定一个名字的相对排位
                确定每年最受欢迎的名字，或者流行程度最高或最低的名字

2.2代码

2.2.1数据读入

names1880 = pd.read_csv("datasets/babynames/yob1880.txt",
names=["name", "sex", "births"])
names1880

将读取名为"datasets/babynames/yob1880.txt"的文件，并将列名分别指定为"name"、"sex"和"births"。结果将存储在names1880数据框中。

通过打印names1880，您将获得读取的文件中的数据，其中包含每个名字、性别和出生数。

names1880.groupby("sex")["births"].sum()

使用.groupby()函数按性别("sex")对names1880数据框进行分组，然后通过索引器["births"]选择"births"列，并使用.sum()函数计算每个性别的出生总数。

pieces = []
for year in range(1880, 2011):
path = f"datasets/babynames/yob{year}.txt"
frame = pd.read_csv(path, names=["name", "sex", "births"])

# Add a column for the year
frame["year"] = year
pieces.append(frame)

# Concatenate everything into a single DataFrame
names = pd.concat(pieces, ignore_index=True)

names

循环遍历从1880年到2010年的年份，构建每个年份对应的文件路径，然后使用pd.read_csv()函数读取每个文件，并为各列指定列名为"name"、"sex"和"births"。接着，为每个数据框添加一个名为"year"的列，其值为对应的年份。

最后，使用pd.concat()函数将所有数据框拼接成一个单独的数据框names，并使用ignore_index=True忽略原始数据框的索引，生成一个新的连续索引。

通过运行上述代码，您将得到一个名为names的数据框，其中包含了从1880年到2010年的所有年份的姓名、性别、出生数和年份信。

total_births = names.pivot_table("births", index="year",
columns="sex", aggfunc=sum)
total_births.tail()
total_births.plot(title="Total births by sex and year")

使用pivot_table()函数计算每年每个性别的总出生数。将"births"作为值，"year"作为行索引，"sex"作为列索引，并使用sum聚合函数计算总出生数。结果存储在total_births数据框中。

通过打印total_births.tail()，您将查看total_births数据框的最后几行，显示了每年每个性别的总出生数。

接下来，使用.plot()函数绘制出每年总出生数的图表，标题为"Total births by sex and year"。

def add_prop(group):
group["prop"] = group["births"] / group["births"].sum()
return group
names = names.groupby(["year", "sex"], group_keys=False).apply(add_prop)

names

add_prop函数将每个分组中的"births"列除以该分组中的出生总数，计算每个名字在该年份和性别组合中的比例，并将结果存储在"prop"列中。

接下来，使用groupby()函数对names数据框按年份和性别进行分组，并通过.apply(add_prop)应用add_prop函数，将每个分组应用到函数上，以添加"prop"列。

通过打印names，您将得到已经添加了"prop"列的names数据框，其中包含每个名字在对应年份和性别组合中的比例。

names.groupby(["year", "sex"])["prop"].sum()

使用groupby()函数按照年份("year")和性别("sex")对names数据框进行分组，并选择"prop"列。然后，使用.sum()函数计算每个分组中"prop"列的总和。

def get_top1000(group):
return group.sort_values("births", ascending=False)[:1000]
grouped = names.groupby(["year", "sex"])
top1000 = grouped.apply(get_top1000)
top1000.head()

top1000 = top1000.reset_index(drop=True)

top1000.head()

get_top1000函数接收一个分组，并按照"births"列的值降序排序。然后，使用[:1000]选择排序后的前1000个记录。

接下来，使用groupby()函数对names数据框按年份和性别进行分组，并通过.apply(get_top1000)应用get_top1000函数，将每个分组应用到函数上，以获取每个组合中的前1000个记录。

通过打印top1000.head()，您将得到按年份和性别获取的前1000个记录，这些记录是按照出生数降序排序的。

boys = top1000[top1000["sex"] == "M"]
girls = top1000[top1000["sex"] == "F"]

total_births = top1000.pivot_table("births", index="year",
columns="name",
aggfunc=sum)

total_births.info()
subset = total_births[["John", "Harry", "Mary", "Marilyn"]]
subset.plot(subplots=True, figsize=(12, 10),
title="Number of births per year")

根据"sex"列的值，将top1000数据框拆分为boys和girls两个数据框，分别包含男孩和女孩的记录。

然后，使用pivot_table()函数计算每年每个名字的总出生数。将"births"作为值，"year"作为行索引，"name"作为列索引，并使用sum聚合函数计算总出生数。结果存储在total_births数据框中。

通过打印total_births.info()，您将查看total_births数据框的相关信息，包括列名和非空值的数量。

接下来，选择部分名字的列，包括"John"、"Harry"、"Mary"和"Marilyn"，存储在subset数据框中。

最后，使用.plot()方法绘制subset数据框的子图，设置图形大小为(12, 10)，标题为"Number of births per year"。

plt.figure()

table = top1000.pivot_table("prop", index="year",
columns="sex", aggfunc=sum)
table.plot(title="Sum of table1000.prop by year and sex",
yticks=np.linspace(0, 1.2, 13))

plt.figure()用于创建一个新的图形窗口。

接下来，使用pivot_table()函数对top1000数据框进行透视，计算每年每个性别的"prop"列的总和。将"prop"作为值，"year"作为行索引，"sex"作为列索引，并使用sum聚合函数计算总和。结果存储在table数据框中。

然后，使用.plot()方法绘制透视表的图表。设置标题为"Sum of top1000.prop by year and sex"，设置y轴刻度为0到1.2之间的13个均匀间隔刻度。

df = boys[boys["year"] == 2010]
df

选择了boys数据框中"year"列等于2010的记录，并将结果存储在名为df的新数据框中。

prop_cumsum = df["prop"].sort_values(ascending=False).cumsum()
prop_cumsum[:10]
prop_cumsum.searchsorted(0.5)

df = boys[boys.year == 1900]
in1900 = df.sort_values("prop", ascending=False).prop.cumsum()
in1900.searchsorted(0.5) + 1

def get_quantile_count(group, q=0.5):
group = group.sort_values("prop", ascending=False)
return group.prop.cumsum().searchsorted(q) + 1

diversity = top1000.groupby(["year", "sex"]).apply(get_quantile_count)
diversity = diversity.unstack()

fig = plt.figure()

diversity.head()
diversity.plot(title="Number of popular names in top 50%")

首先计算了df["prop"]列按降序排序后的累积和，并存储在prop_cumsum中。然后，使用prop_cumsum[:10]查看前10个累积和的值，并使用prop_cumsum.searchsorted(0.5)查找累积和大于等于0.5的索引位置。

接下来，选择了年份为1900的男孩名字数据，并按照"prop"列的值降序排序，计算了累积和，并使用in1900.searchsorted(0.5) + 1查找累积和大于等于0.5的索引位置并加1。

然后，定义了一个名为get_quantile_count的函数，用于计算每个分组中累积和大于等于指定分位数的个数。

使用top1000.groupby(["year", "sex"]).apply(get_quantile_count)应用该函数，对top1000数据框按年份和性别进行分组，计算每个分组中累积和大于等于指定分位数的个数。然后，使用.unstack()将结果转换为透视表形式。

创建一个新的图形窗口fig = plt.figure()。

通过打印diversity.head()，您将查看转换后的diversity数据框的前几行数据。

最后，使用.plot()方法绘制diversity数据框的图表，设置标题为"Number of popular names in top 50%"。

def get_last_letter(x):
return x[-1]

last_letters = names["name"].map(get_last_letter)
last_letters.name = "last_letter"

table = names.pivot_table("births", index=last_letters,
columns=["sex", "year"], aggfunc=sum)

subtable = table.reindex(columns=[1910, 1960, 2010], level="year")
subtable.head()

定义了一个名为get_last_letter的函数，用于获取给定字符串的最后一个字母。然后，您将names数据框中的"name"列应用该函数，得到一个包含名字最后一个字母的Series对象，并将其命名为"last_letter"。

接下来，您使用pivot_table()函数计算了根据名字最后一个字母、性别和年份的出生数的透视表，并将结果存储在table中。

然后，使用reindex()方法选择特定的年份列（1910、1960和2010），并重新按照"year"级别对透视表进行索引重排，结果存储在subtable中。

subtable.sum()
letter_prop = subtable / subtable.sum()
letter_prop

调用subtable.sum()，您计算了subtable中每个名字最后一个字母、性别和年份组合的出生数的总和。

接下来，使用除法操作符/，您计算了subtable中每个组合的占比，并将结果存储在letter_prop中。这个操作会将subtable中的每个值除以对应列的总和。

通过打印subtable.sum()，您将查看subtable中每个组合的出生数总和。

通过打印letter_prop，您将查看每个组合的占比情况，其中每个值表示对应组合的出生数占列总和的比例。

import matplotlib.pyplot as plt

fig, axes = plt.subplots(2, 1, figsize=(10, 8))
letter_prop["M"].plot(kind="bar", rot=0, ax=axes[0], title="Male")
letter_prop["F"].plot(kind="bar", rot=0, ax=axes[1], title="Female",
legend=False)

plt.subplots(2, 1, figsize=(10, 8))创建了一个包含两个子图的图形窗口，其中第一个数字2表示行数，第二个数字1表示列数。figsize=(10, 8)指定了图形窗口的大小。

然后，使用.plot(kind="bar", rot=0, ax=axes[0], title="Male")在第一个子图中绘制了男性名字最后一个字母占比的条形图。rot=0设置了x轴标签的旋转角度为0度，ax=axes[0]指定了绘图的目标子图，title="Male"设置了子图的标题为"Male"。

接下来，使用.plot(kind="bar", rot=0, ax=axes[1], title="Female", legend=False)在第二个子图中绘制了女性名字最后一个字母占比的条形图。rot=0设置了x轴标签的旋转角度为0度，ax=axes[1]指定了绘图的目标子图，title="Female"设置了子图的标题为"Female"，legend=False禁用了图例的显示。

通过运行上述代码，您将获得一个包含两个子图的图形窗口，每个子图都显示了男性或女性名字最后一个字母占比的条形图。

plt.subplots_adjust(hspace=0.25)

letter_prop = table / table.sum()

dny_ts = letter_prop.loc[["d", "n", "y"], "M"].T
dny_ts.head()

使用plt.subplots_adjust(hspace=0.25)，您调整了子图之间的垂直间距，使得它们之间的间距为0.25个单位。

然后，更新了letter_prop数据框，将table中每个值除以对应列的总和，以计算名字占比。

接下来，使用.loc[["d", "n", "y"], "M"].T选择了"letter_prop"数据框中名字最后一个字母为"d"、"n"和"y"的男性名字占比，并进行转置操作，以使每个字母成为列。结果存储在dny_ts数据框中。

通过打印dny_ts.head()，您将查看dny_ts数据框的前几行数据，显示了名字最后一个字母为"d"、"n"和"y"的男性名字占比情况。

plt.close("all")

fig = plt.figure()

dny_ts.plot()

通过调用plt.close("all")，关闭了所有的图形窗口，以确保开始一个新的空白图形窗口。

然后，使用plt.figure()创建了一个新的图形窗口fig。

最后，使用dny_ts.plot()绘制了dny_ts数据框的折线图。

all_names = pd.Series(top1000["name"].unique())
lesley_like = all_names[all_names.str.contains("Lesl")]
lesley_like

通过top1000["name"].unique()获取了top1000数据框中所有唯一的名字，并创建了一个名为all_names的Series。

接下来，使用all_names.str.contains("Lesl")筛选出包含"Lesl"的名字，将结果存储在lesley_like中。str.contains("Lesl")表示通过字符串匹配判断是否包含"Lesl"。

通过打印lesley_like，您将得到包含"Lesl"的名字的列表。

filtered = top1000[top1000["name"].isin(lesley_like)]
filtered.groupby("name")["births"].sum()

使用top1000["name"].isin(lesley_like)筛选出top1000数据框中名字包含在lesley_like列表中的记录，将结果存储在filtered中。

然后，使用.groupby("name")["births"].sum()对filtered数据框进行分组，按名字("name")列进行分组，并计算每个名字的总出生数("births")。

通过打印上述代码的结果，您将得到按名字分组的每个名字的总出生数。

table = filtered.pivot_table("births", index="year",
columns="sex", aggfunc="sum")
table = table.div(table.sum(axis="columns"), axis="index")
table.tail()

使用filtered.pivot_table("births", index="year", columns="sex", aggfunc="sum")创建了一个透视表table，计算了每年每个性别的出生数。

接下来，使用.div(table.sum(axis="columns"), axis="index")将透视表的每个值除以对应行的总和，以计算每年每个性别的比例。table.sum(axis="columns")计算了每行的总和，axis="index"表示按行进行除法运算。

通过打印table.tail()，您将查看透视表table的最后几行，显示了每年每个性别的出生数和比例。

fig = plt.figure()

table.plot(style={"M": "k-", "F": "k--"})

使用plt.figure()创建了一个新的图形窗口fig。

然后，使用.plot()方法绘制了table数据框中的男性和女性出生数的折线图。通过style={"M": "k-", "F": "k--"}指定了男性线条的样式为黑色实线("k-")，女性线条的样式为黑色虚线("k--")。

通过运行上述代码，您将获得一个包含男性和女性出生数的折线图的图形窗口。

3.美国农业部视频数据库

3.1数据简介

美国农业部提供了食物营养信息数据库。每种事务都有一些识别属性以及两份营养元素和营养比例的列表。这种形式的数据不适合分析，所以需要做一些工作将数据转换成更好的形式。

3.2.1数据引用

import json
db = json.load(open("datasets/usda_food/database.json"))
len(db)

3.2.2数据处理

db[0].keys()
db[0]["nutrients"][0]
nutrients = pd.DataFrame(db[0]["nutrients"])
nutrients.head(7)

db[0].keys()用于获取db中第一个元素的所有键，即该元素的属性名称。

接下来，db[0]["nutrients"][0]用于获取db中第一个元素的"nutrients"键的第一个元素的值。

然后，使用pd.DataFrame()将db[0]["nutrients"]转换为DataFrame，并将结果存储在名为nutrients的变量中。

最后，使用.head(7)打印nutrients DataFrame的前7行数据。

info_keys = ["deion", "group", "id", "manufacturer"]
info = pd.DataFrame(db, columns=info_keys)
info.head()
info.info()

info_keys是一个列表，包含了要从db中提取的属性名称。

然后，使用pd.DataFrame(db, columns=info_keys)创建了一个DataFrame info，其中db是作为数据源，columns=info_keys指定了要包含的列。这样，info DataFrame将仅包含指定的属性列，并且数据将来自db。

接下来，使用.head()打印info DataFrame的前几行数据。

最后，使用.info()打印info DataFrame的基本信息，包括列名、非空值数量以及每列的数据类型等。

pd.value_counts(info["group"])[:10]

info["group"]选择了info DataFrame中的"group"列。

然后，使用pd.value_counts()对"group"列的值进行计数，返回一个Series对象，其中索引是唯一的"group"值，而值是每个"group"值出现的次数。

通过[:10]选择了计数最高的前10个组，以便查看它们的计数结果。

nutrients = []

for rec in db:
fnuts = pd.DataFrame(rec["nutrients"])
fnuts["id"] = rec["id"]
nutrients.append(fnuts)

nutrients = pd.concat(nutrients, ignore_index=True)

nutrients

首先创建了一个空列表nutrients，用于存储每个食物元素的营养信息。

然后，使用for循环遍历db列表中的每个元素。对于每个元素，使用pd.DataFrame(rec["nutrients"])将其中的"nutrients"信息转换为一个DataFrame，并存储在名为fnuts的临时DataFrame中。

接下来，通过fnuts["id"] = rec["id"]为临时DataFrame添加一个"id"列，该列的值为当前食物元素的"id"。

然后，将临时DataFrame对象fnuts添加到nutrients列表中。

最后，使用pd.concat(nutrients, ignore_index=True)将nutrients列表中的DataFrame对象合并为一个单独的DataFrame，通过ignore_index=True重新生成索引，以确保索引是连续的。

通过打印nutrients，您将获得合并后的DataFrame，其中包含所有食物元素的营养信息。

nutrients.duplicated().sum() # number of duplicates
nutrients = nutrients.drop_duplicates()

col_mapping = {"deion" : "food",
"group" : "fgroup"}
info = info.rename(columns=col_mapping, copy=False)
info.info()
col_mapping = {"deion" : "nutrient",
"group" : "nutgroup"}
nutrients = nutrients.rename(columns=col_mapping, copy=False)
nutrients

nutrients.duplicated().sum()计算了nutrients DataFrame中的重复行数，并返回该数量。

然后，使用.drop_duplicates()方法从nutrients DataFrame中删除重复的行。

接下来，您使用col_mapping字典将info DataFrame中的列名进行重命名。info.rename(columns=col_mapping, copy=False)将"deion"列重命名为"food"，将"group"列重命名为"fgroup"。

然后，通过info.info()查看info DataFrame的基本信息，包括列名、非空值数量以及每列的数据类型等。

接着，您使用col_mapping字典将nutrients DataFrame中的列名进行重命名。nutrients.rename(columns=col_mapping, copy=False)将"deion"列重命名为"nutrient"，将"group"列重命名为"nutgroup"。

通过以上操作，您对nutrients DataFrame进行了重复行的处理，并对info和nutrients DataFrame中的列名进行了重命名。

ndata = pd.merge(nutrients, info, on="id")
ndata.info()
ndata.iloc[30000]

pd.merge(nutrients, info, on="id")将nutrients和info DataFrame根据"id"列进行合并。通过指定on="id"，您告诉pd.merge()函数使用"id"列进行匹配合并。

将合并后的结果存储在名为ndata的新DataFrame中。

接下来，使用.info()查看ndata DataFrame的基本信息，包括列名、非空值数量以及每列的数据类型等。

最后，使用.iloc[30000]访问ndata DataFrame中的第30000行数据。

fig = plt.figure()

result = ndata.groupby(["nutrient", "fgroup"])["value"].quantile(0.5)
result["Zinc, Zn"].sort_values().plot(kind="barh")

plt.figure()创建了一个新的图形窗口fig。

然后，使用ndata.groupby(["nutrient", "fgroup"])["value"].quantile(0.5)对ndata DataFrame进行分组操作。通过指定["nutrient", "fgroup"]作为分组依据，以及["value"]作为要计算中位数的列，使用.quantile(0.5)计算了"value"列的中位数。

接下来，通过result["Zinc, Zn"]选择了"Zinc, Zn"营养成分的中位数结果。

最后，使用.sort_values().plot(kind="barh")对中位数结果进行排序，并绘制了水平条形图。

by_nutrient = ndata.groupby(["nutgroup", "nutrient"])

def get_maximum(x):
return x.loc[x.value.idxmax()]

max_foods = by_nutrient.apply(get_maximum)[["value", "food"]]

# make the food a little smaller
max_foods["food"] = max_foods["food"].str[:50]

max_foods.loc["Amino Acids"]["food"]

ndata.groupby(["nutgroup", "nutrient"])对ndata DataFrame进行分组操作，根据营养成分的分类和具体成分进行分组，将结果存储在by_nutrient中。

然后，定义了一个函数get_maximum(x)，该函数接收一个分组x，并返回该分组中具有最大值的行。通过x.loc[x.value.idxmax()]获取具有最大值的行。

接下来，通过by_nutrient.apply(get_maximum)[["value", "food"]]应用get_maximum函数到每个分组，并选择"value"和"food"列，将结果存储在max_foods中。

通过max_foods["food"].str[:50]将"food"列中的食物名称截取为最多50个字符，以便稍微缩小长度。

最后，通过max_foods.loc["Amino Acids"]["food"]获取"Amino Acids"分类下的食物名称。

4.2012年联邦选举委员会数据库

4.1数据简介

                美国联邦选举委员会公布了有关政治运动贡献的数据。这些数据包括捐赠者姓名、职业和雇主、地址和缴费金额。你可以尝试做一下的分析：
                                                按职业和雇主的捐赠统计
                                                按捐赠金额统计
                                                按州进行统计

4.2数据引用

fec = pd.read_csv("datasets/fec/P00000001-ALL.csv", low_memory=False)
fec.info()

4.3数据处理

fec.iloc[123456]

使用.info()方法打印fec DataFrame的基本信息，包括列名、非空值数量以及每列的数据类型等。

unique_cands = fec["cand_nm"].unique()
unique_cands
unique_cands[2]

fec["cand_nm"]选择了fec DataFrame中的"cand_nm"列，即候选人名称列。

然后，使用.unique()获取候选人名称列的唯一值，将结果存储在名为unique_cands的变量中。

接下来，通过打印unique_cands，您将获得唯一候选人名称的列表。

最后，使用unique_cands[2]选择了索引为2的候选人名称，以获取该候选人的名称。

fec["cand_nm"][123456:123461]
fec["cand_nm"][123456:123461].map(parties)
# Add it as a column
fec["party"] = fec["cand_nm"].map(parties)
fec["party"].value_counts()

fec["cand_nm"][123456:123461]选择了索引从123456到123460的候选人名称。

然后，使用.map(parties)将这些候选人名称通过parties映射函数进行映射。这里假设parties是一个映射函数，用于将候选人名称映射到各自的党派。

接着，通过将映射结果作为新的列添加到fec DataFrame中，使用fec["party"] = fec["cand_nm"].map(parties)的方式。

最后，使用.value_counts()计算"party"列中各个党派的计数，以获取各个党派的出现次数。

(fec["contb_receipt_amt"] > 0).value_counts()

(fec["contb_receipt_amt"] > 0)表示对"contb_receipt_amt"列的每个元素进行条件比较，判断是否大于0。结果将是一个由布尔值组成的Series。

然后，使用.value_counts()计算布尔值Series中每个唯一值的计数。这将返回一个新的Series，其中索引为唯一的布尔值，而值为相应布尔值的计数。

通过以上操作，您可以获得"contb_receipt_amt"列中大于0和不大于0的值的计数。

fec = fec[fec["contb_receipt_amt"] > 0]

fec_mrbo = fec[fec["cand_nm"].isin(["Obama, Barack", "Romney, Mitt"])]

fec["contbr_occupation"].value_counts()[:10]

fec[fec["contb_receipt_amt"] > 0]对fec DataFrame进行了过滤操作，保留了"contb_receipt_amt"列中大于0的行，并将结果重新赋值给fec DataFrame。

接着，fec[fec["cand_nm"].isin(["Obama, Barack", "Romney, Mitt"])]选择了fec DataFrame中"Obama, Barack"和"Romney, Mitt"两位候选人的数据，并将结果赋值给fec_mrbo DataFrame。

最后，使用.value_counts()[:10]计算"contbr_occupation"列中各个职业的计数，并选择了计数最高的前10个职业。

occ_mapping = {
"INFORMATION REQUESTED PER BEST EFFORTS" : "NOT PROVIDED",
"INFORMATION REQUESTED" : "NOT PROVIDED",
"INFORMATION REQUESTED (BEST EFFORTS)" : "NOT PROVIDED",
"C.E.O.": "CEO"
}

def get_occ(x):
# If no mapping provided, return x
return occ_mapping.get(x, x)

fec["contbr_occupation"] = fec["contbr_occupation"].map(get_occ)

emp_mapping = {
"INFORMATION REQUESTED PER BEST EFFORTS" : "NOT PROVIDED",
"INFORMATION REQUESTED" : "NOT PROVIDED",
"SELF" : "SELF-EMPLOYED",
"SELF EMPLOYED" : "SELF-EMPLOYED",
}

def get_emp(x):
# If no mapping provided, return x
return emp_mapping.get(x, x)

fec["contbr_employer"] = fec["contbr_employer"].map(get_emp)

by_occupation = fec.pivot_table("contb_receipt_amt",
index="contbr_occupation",
columns="party", aggfunc="sum")
over_2mm = by_occupation[by_occupation.sum(axis="columns") > 2000000]
over_2mm

occ_mapping和emp_mapping是用于职业和雇主映射的字典。

get_occ函数接收一个职业名称，并返回映射后的职业名称，如果没有提供映射，则返回原始职业名称。

get_emp函数接收一个雇主名称，并返回映射后的雇主名称，如果没有提供映射，则返回原始雇主名称。

通过fec["contbr_occupation"].map(get_occ)和fec["contbr_employer"].map(get_emp)，分别对"contbr_occupation"和"contbr_employer"列应用了映射函数。

接下来，使用pivot_table()方法计算了"contb_receipt_amt"列的总捐款金额，按照"contbr_occupation"和政党("party")进行分组聚合。

然后，通过by_occupation.sum(axis="columns") > 2000000筛选出总捐款金额超过2000000的职业，并将结果存储在名为over_2mm的DataFrame中。

plt.figure()

over_2mm.plot(kind="barh")

plt.figure()创建了一个新的图形窗口。

然后，使用over_2mm.plot(kind="barh")绘制了over_2mm DataFrame的水平条形图。根据DataFrame的结构，将每个职业作为水平条形图的一个条目，并使用条形高度表示捐款金额。

def get_top_amounts(group, key, n=5):
totals = group.groupby(key)["contb_receipt_amt"].sum()
return totals.nlargest(n)

grouped = fec_mrbo.groupby("cand_nm")
grouped.apply(get_top_amounts, "contbr_occupation", n=7)
grouped.apply(get_top_amounts, "contbr_employer", n=10)

get_top_amounts函数接受一个分组group和一个键key，首先使用group.groupby(key)["contb_receipt_amt"].sum()对分组后的DataFrame按键key进行分组，并计算每组的捐款金额总和。然后，使用.nlargest(n)获取捐款金额总和的前n个最大值。

接下来，通过fec_mrbo.groupby("cand_nm")对fec_mrbo DataFrame按照"cand_nm"进行分组，将结果存储在grouped中。

然后，使用.apply(get_top_amounts, "contbr_occupation", n=7)应用get_top_amounts函数到每个分组，传递"contbr_occupation"作为键，并设置n参数为7。这将返回每个候选人的"contbr_occupation"中捐款金额前7个最大值。

接着，使用.apply(get_top_amounts, "contbr_employer", n=10)应用get_top_amounts函数到每个分组，传递"contbr_employer"作为键，并设置n参数为10。这将返回每个候选人的"contbr_employer"中捐款金额前10个最大值。

bins = np.array([0, 1, 10, 100, 1000, 10000,
100_000, 1_000_000, 10_000_000])
labels = pd.cut(fec_mrbo["contb_receipt_amt"], bins)
labels

np.array([0, 1, 10, 100, 1000, 10000, 100_000, 1_000_000, 10_000_000])创建了一个包含分箱边界的数组bins。

然后，使用pd.cut(fec_mrbo["contb_receipt_amt"], bins)将"contb_receipt_amt"列的值划分为不同的区间，并返回一个包含对应区间标签的Series。这些标签表示每个捐款金额所属的区间。

最后，将标签存储在名为labels的变量中。

grouped = fec_mrbo.groupby(["cand_nm", labels])
grouped.size().unstack(level=0)

fec_mrbo.groupby(["cand_nm", labels])对fec_mrbo DataFrame按照候选人名称和之前创建的labels进行分组，并将结果存储在grouped中。

接下来，使用.size()方法计算每个分组的大小，即每个候选人和区间的组合出现的次数。这将返回一个包含候选人和区间组合计数的Series。

最后，使用.unstack(level=0)将候选人名称作为列索引，将Series重塑为以候选人名称为列的DataFrame，其中每个单元格包含候选人和区间组合的计数。

plt.figure()

bucket_sums = grouped["contb_receipt_amt"].sum().unstack(level=0)
normed_sums = bucket_sums.div(bucket_sums.sum(axis="columns"),
axis="index")
normed_sums
normed_sums[:-2].plot(kind="barh")

plt.figure()创建了一个新的图形窗口。

然后，使用grouped["contb_receipt_amt"].sum().unstack(level=0)计算了每个候选人和区间组合的捐款金额总和，并使用.unstack(level=0)将结果重塑为以候选人名称为列的DataFrame，并将结果存储在bucket_sums中。

接下来，使用.div(bucket_sums.sum(axis="columns"), axis="index")将bucket_sums DataFrame的每行值除以该行的总和，计算了每个组合在总捐款金额中的比例，并将结果存储在normed_sums中。

最后，使用.plot(kind="barh")绘制了normed_sums[:-2] DataFrame的水平条形图，表示每个候选人和区间组合的捐款金额比例。注意，这里使用[:-2]是为了排除最后两个组合，因为它们可能会导致图形不够清晰。

grouped = fec_mrbo.groupby(["cand_nm", "contbr_st"])
totals = grouped["contb_receipt_amt"].sum().unstack(level=0).fillna(0)
totals = totals[totals.sum(axis="columns") > 100000]
totals.head(10)

fec_mrbo.groupby(["cand_nm", "contbr_st"])对fec_mrbo DataFrame按照候选人名称和捐款者所在州("contbr_st")进行分组，并将结果存储在grouped中。

接下来，使用grouped["contb_receipt_amt"].sum().unstack(level=0)计算了每个候选人和州的捐款金额总和，并使用.unstack(level=0)将结果重塑为以候选人名称为列的DataFrame，并将结果存储在totals中。

然后，使用.fillna(0)方法将缺失值填充为0。

接着，使用.sum(axis="columns") > 100000筛选出总捐款金额大于100000的行，并将结果存储在totals中。

最后，显示了totals DataFrame的前10行。

percent = totals.div(totals.sum(axis="columns"), axis="index")
percent.head(10)

.div(totals.sum(axis="columns"), axis="index")将totals DataFrame的每行值除以该行的总和，计算了每个候选人和州的捐款金额在总捐款金额中的比例，并将结果存储在percent中。

最后，显示了percent DataFrame的前10行。

你可能感兴趣的:(人工智能)

[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
【人工智能】Spring AI Alibaba，一个面向 Java 开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。本本本添哥 A -AIGC 人工智能大模型人工智能 java spring
一、SpringAIAlibaba介绍SpringAIAlibaba是一个面向Java开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。该项目基于SpringAI构建，并且是阿里云通义系列模型及服务在JavaAI应用开发领域的最佳实践。SpringAIAlibaba的目标是为开发者提供一套高层次的AIAPI抽象以及与云原生基础设施的深度集成方案，从而帮助他们快速构建智能应用
模型融合与人机协同：构建人机共生的智能未来 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在科技日新月异的今天，人工智能（AI）已经成为了我们生活中不可或缺的一部分。从智能手机，到自动驾驶汽车，再到医疗诊断，AI的应用已经渗透到了我们生活的方方面面。然而，尽管AI的发展已经取得了显著的成就，但是我们仍然面临着一个重大的挑战：如何让AI系统更好地理解和适应人类的需求，以实现人机共生的智能未来。为了解决这个问题，越来越多的研究者开始探索模型融合和人机协同的方法。2.核心概念与联
vLLM 优化与调优：提升模型性能的关键策略强哥之神人工智能深度学习计算机视觉 deepseek 智能体 vllm
在当今人工智能领域，大语言模型（LLM）的应用日益广泛，而优化和调优这些模型的性能成为了至关重要的任务。vLLM作为一种高效的推理引擎，提供了多种策略来提升模型的性能。本文将深入探讨vLLMV1的优化与调优策略，帮助读者更好地理解和应用这些技术。抢占式调度（Preemption）由于Transformer架构的自回归特性，有时键值缓存（KVcache）空间不足以处理所有批量请求。在这种情况下，vL
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
ollama v0.9.6版本发布详解：修复启动屏幕样式及新增工具名称参数支持福大大架构师每日一题文心一言vschatgpt ollama
作为近年来备受瞩目的开源对话式人工智能框架之一，ollama持续更新优化其产品，致力于为开发者带来更稳定、高效的使用体验。2025年7月8日，ollama发布了v0.9.6版本，这一版本在用户界面和API的可用性方面做出了重要改进，进一步增强了开发和集成的便捷性。本文将对ollamav0.9.6版本的更新内容进行全面解析，详细介绍新特性、修复的具体问题、应用示例及最佳实践，帮助开发者快速掌握和应用
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
深入解读 Qwen3 技术报告（一）：引言小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理人工智能自然语言处理 python 语言模型深度学习
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展1.引言：迎接大型语言模型的新纪元我们正处在一个由人工智能（AI
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（上） Allen_Lyb 数智化医院2025 人工智能健康医疗算法
引言人工智能技术正以前所未有的速度改变着医疗保健领域，从辅助诊断到个性化治疗，AI应用的广度和深度不断拓展。在这一浪潮中，边缘人工智能（EdgeAI）作为一种新兴技术范式，正成为推动医疗AI创新的关键力量。边缘AI区别于传统的云计算模式，它将数据处理和AI模型部署在数据源头附近，实现快速响应和隐私保护。这种特性使其在医疗保健领域具有独特优势，特别是在实时监测、紧急响应和患者隐私保护等方面。边缘AI
AI人工智能领域中AI作画的技术优势 AI大模型应用之禅人工智能 AI作画 ai
AI人工智能领域中AI作画的技术优势关键词：AI作画、技术优势、人工智能、艺术创作、图像生成摘要：本文深入探讨了AI人工智能领域中AI作画的技术优势。从背景介绍出发，阐述了AI作画的起源与发展，明确了文章的目的、范围、预期读者以及文档结构。接着详细分析了AI作画的核心概念，包括其原理和架构，并通过Mermaid流程图进行直观展示。对核心算法原理进行了深入剖析，结合Python代码示例进行讲解。同时
快速掌握Python编程基础张彦峰ZYF python
干货分享，感谢您的阅读！备注：本博客将自己初步学习Python的总结进行分享，希望大家通过本博客可以在短时间内快速掌握Python的基本程序编码能力，如有错误请留言指正，谢谢！（持续更新）一、快速了解Python和环境准备（一）Python快速介绍Python是一种简洁、强大、易读的编程语言，广泛应用于Web开发、数据分析、人工智能、自动化运维等领域。它由GuidovanRossum在1991年设
人工智能开源的大模型训练微调框架LLaMA-Factory
LLaMA-Factory是一个开源的大模型训练微调框架，具有模块化设计和多种高效的训练方法，能够满足不同用户的需求。用户可以通过命令行或Web界面进行操作，实现个性化的语言模型微调。LLaMA-Factory是一个专注于高效微调LLaMA系列模型的开源框架（GitHub项目地址：https://github.com/hiyouga/LLaMA-Factory）。它以极简配置、低资源消耗和对中文任
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
csdn-AI测评 Right.W 人工智能
一、你平时会使用这类AI工具吗？你对这类型的工具有什么看法？AI工具灵活、多样、能够回答各种问题，大为方便了人们日常学习、工作、生活的需要。目前很流行的chartgpt就是一款超火爆的ai工具，可以写论文、敲代码各种功能十分强大，为各个领域的数字化和智能化进程给予了很大帮助。但是人的智慧和意识是机器无法取代的，人类对人工智能不能过度依赖，人工智能只是改善生活、提高效率的工具而已。二、你可以花几分钟
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
【亲测免费】探索AudioSlicer：智能音频分割工具秦贝仁Lincoln
探索AudioSlicer：智能音频分割工具去发现同类优质开源项目:https://gitcode.com/项目介绍AudioSlicer是一个基于Python的轻量级工具，专门用于切割.wav音频文件。它通过检测静音段将音频拆分成多个独立样本，并生成一个.json文件，详细记录了每个切片的时间范围。该项目灵感源自AndrewPhillipDoss的工作，现在正向着人工智能适应的方向发展，有望实现
人工智能怎么入门？零基础入门指南：从小白到AI实战者的第一步 OpenCV图像识别人工智能人工智能计算机视觉自然语言处理神经网络机器学习
人工智能（AI）是当今最具前景的科技领域之一。从聊天机器人到自动驾驶，从图像识别到语音翻译，AI正在以前所未有的速度改变世界。但对于初学者来说，一个最常见的问题是：“我没有基础，也不是学数学或计算机的，人工智能还能学吗？我该怎么入门？”答案是：可以学，而且你并不孤单。越来越多的人正在以“跨专业、转行、自学”的方式进入AI领域。关键是，你需要一个清晰的入门路径，理解应该先做什么、学什么、避开什么误区
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
从点子到原型只需10分钟：用 Copilot 快速验证产品功能网罗开发 AI 大模型 Python 技术汇总人工智能 copilot
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
阿里开源WebSailor：超越闭源模型的网络智能体新星
WebSailor简介与开源背景在人工智能领域持续创新的浪潮中，阿里通义实验室于2025年7月正式开源了其突破性成果——WebSailor网络智能体。这一开源项目标志着中国企业在复杂推理与检索技术领域的重要突破，其设计初衷直指开源生态中长期存在的关键短板：面对超高不确定性任务时的系统性推理能力缺失。填补开源生态的关键空白WebSailor的诞生源于一个被长期忽视的技术鸿沟。根据斯坦福大学《2025
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
Spring AI：Tool Calling 虾条_花吹雪 Spring AI ai java
工具调用（也称为函数调用）是人工智能应用程序中的一种常见模式，允许模型与一组API或工具交互，以增强其功能。工具主要用于：信息检索。此类工具可用于从外部源（如数据库、web服务、文件系统或web搜索引擎）检索信息。目标是增强模型的知识，使其能够回答否则无法回答的问题。因此，它们可用于检索增强生成（RAG）场景。例如，一个工具可用于检索给定位置的当前天气，检索最新的新闻文章，或查询数据库中的特定记录
AI产品经理技术篇：从传统AI到生成式AI，解密大模型的核心概念让我看看好学吗人工智能产品经理学习深度学习自然语言处理
在人工智能技术飞速发展的今天，AI产品经理不仅需要理解业务逻辑，还需深入技术底层，把握从传统AI到生成式AI的演进脉络。传统AI以分类、预测和规则驱动为核心，而生成式AI则颠覆了这一范式，通过大模型实现内容创作、对话生成等创造性任务。这种转变背后，是参数规模、模型架构和训练方式的根本性革新。作为AI产品经理，理解大模型的核心概念至关重要。从“参数”的意义到“Token”的向量化，从Transfor
大模型与智能体：螺旋共生，绘就智能新蓝图东锋17 人工智能大模型智能体人工智能
大模型与智能体：螺旋共生，绘就智能新蓝图在人工智能的前沿领域，大模型与智能体宛如两颗璀璨的星辰，以一种精妙的螺旋共生关系，重塑着智能世界的格局，深刻影响着我们生活与工作的方方面面。大模型：构筑智能大厦的基石大语言模型，像广为人知的GPT-4、通义千问等，凭借在海量数据中深度学习的锤炼，展现出卓越的语言理解与生成天赋。它们就像知识渊博的学者，能熟练应对各类自然语言任务。无论是洋洋洒洒的文章创作，还是
人工智能-基础篇-18-什么是RAG(检索增强生成：知识库+向量化技术+大语言模型LLM整合的技术框架) weisian151 人工智能人工智能语言模型自然语言处理
RAG（Retrieval-AugmentedGeneration，检索增强生成）是一种结合外部知识检索与大语言模型（LLM）生成能力的技术框架，旨在提升生成式AI在问答、内容创作等任务中的准确性、实时性和领域适应性。1、核心概念大语言模型（LLM）的两大局限性：时效性不足：LLM的训练数据截止于某一时间点，无法获取最新信息（如2025年后的新事件）。知识幻觉：当问题超出模型训练数据范围时，LLM
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu