Rango_lhl

Pandas数据分析练手题（十题）

CSDN广告多，以后都是在博客园写，这边转载： https://www.cnblogs.com/rango-lhl/p/9729334.html

-----------------------------------------------------------------------------------------------------------------------------------------------------

数据集下载地址：https://github.com/Rango-2017/Pandas_exercises

----------------------------------------------------------------------------------------------------------------------

1 - 开始了解你的数据

探索Chipotle快餐数据

-- 将数据集存入一个名为chipo的数据框内
-- 查看前10行内容
-- 数据集中有多少个列(columns)？
-- 打印出全部的列名称
-- 数据集的索引是怎样的？
-- 被下单数最多商品(item)是什么?
-- 在item_name这一列中，一共有多少种商品被下单？
-- 在choice_description中，下单次数最多的商品是什么？
-- 一共有多少商品被下单？
-- 将item_price转换为浮点数
-- 在该数据集对应的时期内，收入(revenue)是多少？
-- 在该数据集对应的时期内，一共有多少订单？
-- 每一单(order)对应的平均总价是多少？

import pandas as pd
#将数据集存入一个名为chipo的数据框内
chipo = pd.read_csv('chipotle.tsv',sep='\t')

#查看前10行内容
chipo.head(10)

#数据集中有多少个列(columns)？
chipo.shape[1]

#打印出全部的列名称
chipo.columns

#数据集的索引是怎样的？
chipo.index

#被下单数最多商品(item)是什么?
chipo[['item_name','quantity']].groupby(by=['item_name']).sum().sort_values(by=['quantity'],ascending=False)

#在item_name这一列中，一共有多少种商品被下单？
chipo.item_name.nunique()

#在choice_description中，下单次数最多的商品是什么？
#chipo[['choice_description','quantity']].groupby(by=['choice_description']).sum().sort_values(by=['quantity'],ascending=False)
chipo['choice_description'].value_counts().head()

#一共有多少商品被下单？
chipo['quantity'].sum()

#将item_price转换为浮点数
#货币符号后取起
chipo['item_price'] = chipo['item_price'].apply(lambda x: float(x[1:]))

#在该数据集对应的时期内，收入(revenue)是多少？
(chipo['quantity'] * chipo['item_price']).sum()

#在该数据集对应的时期内，一共有多少订单？
chipo['order_id'].nunique()

#每一单(order)对应的平均总价是多少？
chipo['item_price_sum'] = chipo['quantity'] * chipo['item_price']
(chipo[['order_id','item_price_sum']].groupby(by=['order_id']).sum()).mean()

2 - 数据过滤与排序

探索2012欧洲杯数据

-- 将数据集命名为euro12
-- 只选取 Goals 这一列
-- 有多少球队参与了2012欧洲杯？
-- 该数据集中一共有多少列(columns)?
-- 将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的数据框
-- 对数据框discipline按照先Red Cards再Yellow Cards进行排序
-- 计算每个球队拿到的黄牌数的平均值
-- 找到进球数Goals超过6的球队数据
-- 选取以字母G开头的球队数据
-- 选取前7列
-- 选取除了最后3列之外的全部列
-- 找到英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(Shooting Accuracy)

import pandas as pd
#将数据集命名为euro12
euro12 = pd.read_csv('C:\\Users\\Administrator\\Desktop\\Euro2012.csv')

#只选取 Goals 这一列
euro12.Goals

#有多少球队参与了2012欧洲杯？
euro12.Team.nunique()

#该数据集中一共有多少列(columns)?
euro12.shape[1]

#将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的数据框
discipline = euro12[['Team','Yellow Cards','Red Cards']]

#对数据框discipline按照先Red Cards再Yellow Cards进行排序
discipline.sort_values(by=['Red Cards','Yellow Cards'],ascending = False)

#计算拿到的黄牌数的平均值
euro12['Yellow Cards'].mean()

#找到进球数Goals超过6的球队数据
euro12[euro12.Goals>6]

#选取以字母G开头的球队数据
euro12[euro12.Team.str.startswith('G')]

#选取前7列
euro12.iloc[:,0:7]

#选取除了最后3列之外的全部列
euro12.iloc[:,0:-3]

#找到英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(Shooting Accuracy)
euro12.loc[euro12['Team'].isin(['England','Italy','Russia']),['Team','Shooting Accuracy']]

#loc：通过行标签索引数据
#iloc：通过行号索引行数据
#ix：通过行标签或行号索引数据（基于loc和iloc的混合）

练习3-数据分组

探索酒类消费数据

-- 将数据框命名为drinks
-- 哪个大陆(continent)平均消耗的啤酒(beer)更多？
-- 打印出每个大陆(continent)的红酒消耗(wine_servings)的描述性统计值
-- 打印出每个大陆每种酒类别的消耗平均值
-- 打印出每个大陆每种酒类别的消耗中位数
-- 打印出每个大陆对spirit饮品消耗的平均值，最大值和最小值

import pandas as pd
#将数据框命名为drinks
drinks = pd.read_csv('C:\\Users\\Administrator\\Desktop\\drinks.csv')

#哪个大陆(continent)平均消耗的啤酒(beer)更多？
(drinks[['continent','beer_servings']].groupby(by=['continent']).mean().sort_values(by=['beer_servings'],ascending =False)).head(1)

#打印出每个大陆(continent)的红酒消耗(wine_servings)的描述性统计值
drinks.groupby('continent').wine_servings.describe()

#打印出每个大陆每种酒类别的消耗平均值
drinks.groupby('continent').mean()

#打印出每个大陆每种酒类别的消耗中位数
drinks.groupby('continent').median()

#打印出每个大陆对spirit饮品消耗的平均值，最大值和最小值
drinks.groupby('continent').spirit_servings.describe()

练习4-Apply函数

探索1960 - 2014 美国犯罪数据

-- 将数据框命名为crime
-- 每一列(column)的数据类型是什么样的？
-- 将Year的数据类型转换为 datetime64
-- 将列Year设置为数据框的索引
-- 删除名为Total的列
-- 按照Year（每十年）对数据框进行分组并求和
-- 何时是美国历史上生存最危险的年代？

import pandas as pd
#将数据框命名为drinks
crime = pd.read_csv('C:\\Users\\Administrator\\Desktop\\US_Crime_Rates_1960_2014.csv',index_col=0)

#每一列(column)的数据类型是什么样的？
crime.info()

#将Year的数据类型转换为 datetime64
crime.Year = pd.to_datetime(crime.Year,format='%Y')

#将列Year设置为数据框的索引
crime = crime.set_index('Year',drop=True)

#删除名为Total的列
del crime['Total']
crime.head()

#按照Year（每十年）对数据框进行分组并求和
crimes = crime.resample('10AS').sum()
population = crime.resample('10AS').max() #人口是累计数，不能直接求和
crimes['Population'] = population

#何时是美国历史上生存最危险的年代？
crime.idxmax(0)#最大值的索引值

练习5-合并¶

探索虚拟姓名数据

-- 创建DataFrame
-- 将上述的DataFrame分别命名为data1, data2, data3
-- 将data1和data2两个数据框按照行的维度进行合并，命名为all_data
-- 将data1和data2两个数据框按照列的维度进行合并，命名为all_data_col
-- 打印data3
-- 按照subject_id的值对all_data和data3作合并
-- 对data1和data2按照subject_id作连接
-- 找到 data1 和 data2 合并之后的所有匹配结果

import pandas as pd
import numpy as np
raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}
#创建DataFrame
#将上述的DataFrame分别命名为data1, data2, data3
data1 = pd.DataFrame(raw_data_1)
data2 = pd.DataFrame(raw_data_2)
data3 = pd.DataFrame(raw_data_3)

#将data1和data2两个数据框按照行的维度进行合并，命名为all_data
all_data = pd.concat([data1,data2],axis=0)

#将data1和data2两个数据框按照列的维度进行合并，命名为all_data_col
all_data_col = pd.concat([data1,data2],axis=1)

#打印data3
data3

#按照subject_id的值对all_data和data3作合并
pd.merge(all_data,data3,on='subject_id')

#对data1和data2按照subject_id作内连接
pd.merge(data1,data2,on='subject_id',how='inner')

#找到 data1 和 data2 合并之后的所有匹配结果
pd.merge(data1,data2,on='subject_id',how='outer')

练习6-统计

探索风速数据

-- 将数据作存储并且设置前三列为合适的索引
-- 2061年？我们真的有这一年的数据？创建一个函数并用它去修复这个bug
-- 将日期设为索引，注意数据类型，应该是datetime64[ns]
-- 对应每一个location，一共有多少数据值缺失
-- 对应每一个location，一共有多少完整的数据值
-- 对于全体数据，计算风速的平均值
-- 创建一个名为loc_stats的数据框去计算并存储每个location的风速最小值，最大值，平均值和标准差
-- 创建一个名为day_stats的数据框去计算并存储所有location的风速最小值，最大值，平均值和标准差
-- 对于每一个location，计算一月份的平均风速
-- 对于数据记录按照年为频率取样
-- 对于数据记录按照月为频率取样

import pandas as pd
import datetime
#将数据作存储并且设置前三列为合适的索引
df = pd.read_csv('C:\\Users\\Administrator\\Desktop\\wind.data',sep='\s+',parse_dates=[[0,1,2]])

#2061年？我们真的有这一年的数据？创建一个函数并用它去修复这个bug
def fix_century(x):
    year = x.year - 100 if x.year>1999 else x.year
    return datetime.date(year,x.month,x.day)

df['Yr_Mo_Dy'] = df['Yr_Mo_Dy'].apply(fix_century)

#将日期设为索引，注意数据类型，应该是datetime64[ns]
df['Yr_Mo_Dy'] = pd.to_datetime(df['Yr_Mo_Dy'])
df = df.set_index('Yr_Mo_Dy')

#对应每一个location，一共有多少数据值缺失
df.isnull().sum()

#对应每一个location，一共有多少完整的数据值
df.shape[1] - df.isnull().sum()

#对于全体数据，计算风速的平均值
df.mean().mean()

#创建一个名为loc_stats的数据框去计算并存储每个location的风速最小值，最大值，平均值和标准差
loc_stats = pd.DataFrame()
loc_stats['min'] = df.min()
loc_stats['max'] = df.max()
loc_stats['mean'] = df.mean()
loc_stats['std'] = df.std()

#创建一个名为day_stats的数据框去计算并存储所有天的风速最小值，最大值，平均值和标准差
day_stats = pd.DataFrame()
day_stats['min'] = df.min(axis=1)
day_stats['max'] = df.max(axis=1)
day_stats['mean'] = df.mean(axis=1)
day_stats['std'] = df.std(axis=1)

#对于每一个location，计算一月份的平均风速
df['date'] = df.index

df['year'] = df['date'].apply(lambda df: df.year)
df['month'] = df['date'].apply(lambda df: df.month)
df['day'] = df['date'].apply(lambda df: df.day)

january_winds = df.query('month ==1')       #query等同于df[df.month==1]
january_winds.loc[:,'RPT':'MAL'].mean()

#对于数据记录按照年为频率取样
df.query('month ==1 and day == 1')

#对于数据记录按照月为频率取样
df.query('day == 1')

练习7-可视化

探索泰坦尼克灾难数据

-- 将数据框命名为titanic
-- 将PassengerId设置为索引
-- 绘制一个展示男女乘客比例的扇形图
-- 绘制一个展示船票Fare, 与乘客年龄和性别的散点图
-- 有多少人生还？
-- 绘制一个展示船票价格的直方图

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

#将数据框命名为titanic
titanic = pd.read_csv('C:\\Users\\Administrator\\Desktop\\train.csv')

#将PassengerId设置为索引
titanic = titanic.set_index('PassengerId')

#绘制一个展示男女乘客比例的扇形图
Male = (titanic.Sex == 'male').sum()
Female = (titanic.Sex == 'female').sum()

proportions = [Male,Female]

plt.pie(proportions, labels=['Male','Female'],shadow=True,
        autopct='%1.1f%%',startangle=90,explode=(0.15,0))
plt.axis('equal')
plt.title('Sex Proportion')
plt.tight_layout()
plt.show()

#绘制一个展示船票Fare, 与乘客年龄和性别的散点图
lm = sns.lmplot(x='Age',y='Fare', data=titanic,hue='Sex',fit_reg=False)
lm.set(title='Fare x Age')

#设置坐标轴取值范围
axes = lm.axes
axes[0,0].set_ylim(-5,)
axes[0,0].set_xlim(-5,85)

#有多少人生还？
titanic.Survived.sum()

#绘制一个展示船票价格的直方图
df = titanic.Fare.sort_values(ascending = False)

plt.hist(df,bins = (np.arange(0,600,10)))
plt.xlabel('Fare')
plt.ylabel('Frequency')
plt.title('Fare Payed Histrogram')
plt.show()

练习8-创建数据框

探索Pokemon数据

-- 创建一个数据字典
-- 将数据字典存为一个名叫pokemon的数据框中
-- 数据框的列排序是字母顺序，请重新修改为name, type, hp, evolution, pokedex这个顺序
-- 添加一个列place['park','street','lake','forest']
-- 查看每个列的数据类型

import pandas as pd
#创建一个数据字典
raw_data = {"name": ['Bulbasaur', 'Charmander','Squirtle','Caterpie'],
            "evolution": ['Ivysaur','Charmeleon','Wartortle','Metapod'],
            "type": ['grass', 'fire', 'water', 'bug'],
            "hp": [45, 39, 44, 45],
            "pokedex": ['yes', 'no','yes','no']                        
            }
#将数据字典存为一个名叫pokemon的数据框中
pokemon =  pd.DataFrame(raw_data)

#数据框的列排序是字母顺序，请重新修改为name, type, hp, evolution, pokedex这个顺序
pokemon = pokemon[['name', 'type', 'hp', 'evolution', 'pokedex']]

#添加一个列place['park','street','lake','forest']
pokemon['place'] = ['park','street','lake','forest']

#看每个列的数据类型
pokemon.dtypes

练习9-时间序列

探索Apple公司股价数据

-- 读取数据并存为一个名叫apple的数据框
-- 查看每一列的数据类型
-- 将Date这个列转换为datetime类型
-- 将Date设置为索引
-- 有重复的日期吗？
-- 将index设置为升序
-- 找到每个月的最后一个交易日(business day)
-- 数据集中最早的日期和最晚的日期相差多少天？
-- 在数据中一共有多少个月？
-- 按照时间顺序可视化Adj Close值

import pandas as pd
#读取数据并存为一个名叫apple的数据框
apple = pd.read_csv('C:\\Users\\Administrator\\Desktop\\appl_1980_2014.csv')

#查看每一列的数据类型
apple.dtypes

#将Date这个列转换为datetime类型
apple.Date = pd.to_datetime(apple.Date)

#将Date设置为索引
apple = apple.set_index('Date')

#有重复的日期吗？
apple.index.is_unique

#将index设置为升序
apple = apple.sort_index(ascending = True)

#找到每个月的最后一个交易日(business day)
apple_month = apple.resample('BM').mean()
apple_month.head()

#数据集中最早的日期和最晚的日期相差多少天？
(apple.index.max() - apple.index.min()).days

#在数据中一共有多少个月？
len(apple_month)

#按照时间顺序可视化Adj Close值
apple['Adj Close'].plot(title = 'Apple Stock').get_figure().set_size_inches(9,5)

练习10-删除数据

探索Iris纸鸢花数据

-- 将数据集存成变量iris
-- 创建数据框的列名称['sepal_length','sepal_width', 'petal_length', 'petal_width', 'class']
-- 数据框中有缺失值吗？
-- 将列petal_length的第10到19行设置为缺失值
-- 将petal_lengt缺失值全部替换为1.0
-- 删除列class
-- 将数据框前三行设置为缺失值
-- 删除有缺失值的行
-- 重新设置索引

import pandas as pd
import numpy as np
#读取数据并存为一个名叫apple的数据框
iris = pd.read_csv('C:\\Users\\Administrator\\Desktop\\iris.data')

#创建数据框的列名称['sepal_length','sepal_width', 'petal_length', 'petal_width', 'class']
iris.columns = ['sepal_length','sepal_width', 'petal_length', 'petal_width', 'class']

#数据框中有缺失值吗？
iris.isnull().sum()

#将列petal_length的第10到19行设置为缺失值
iris['petal_length'].loc[10:19]=np.nan

#将petal_lengt缺失值全部替换为1.0
iris.petal_length.fillna(1 , inplace=True)

#删除列class
del iris['class']

#将数据框前三行设置为缺失值
iris.loc[0:2,:]=np.nan

#删除有缺失值的行
iris = iris.dropna(how='any')

#重新设置索引
iris = iris.reset_index(drop = True)#加上drop参数，原有索引就不会成为新的列

学会了编程才知道店员是“AI机器人” IT-博通哥 Python python 开发语言
根据老罗点咖啡的视频中（"给我来杯中杯"、"这是大杯，中杯是我们最小的杯型"的对话）我用Python代码模拟这个场景：classStarbucks:def__init__(self):self.cup_sizes={"中杯":"Tall","大杯":"Grande","超大杯":"Venti"}deforder_coffee(self,size):ifsize=="中杯":print("店员：这是
小白学习Python的系统化路径 python观点资讯
学好Python需要系统化的学习和持续的实践，尤其对于小白来说，从基础到进阶需要循序渐进。以下是一份清晰的学习路径和建议，帮助你高效掌握Python：1.打好基础核心语法变量与数据类型：整数、浮点数、字符串、布尔值等。运算符：算术、比较、逻辑运算符。流程控制：if-else条件判断、for/while循环。函数：定义函数、参数传递、返回值、作用域。数据结构：列表、元组、字典、集合的常用操作。推荐资
Python发送HTTP请求：http.client vs requests 对比解析华科℡云 apache 负载均衡 http
在Python中，http.client与requests是两种常用的HTTP请求工具，分别适用于不同场景。以下从功能特性、易用性、性能等方面进行对比。1.功能特性http.client：作为Python标准库的一部分，提供底层的HTTP协议支持，支持GET、POST、PUT、DELETE等请求方法。用户需手动管理连接、请求头、响应解析等细节，适合对HTTP协议有深入理解且需要精细化控制的场景。r
Python Arcade库【2D 游戏框架】全面讲解老胖闲聊 Python库大全 python 游戏 pygame
在AI加持下未来1W天内会发生什么?现货【官方旗舰店首刷印签版】2049未来10000天的可能《失控》《必然》作者凯文·凯利全新作品未来25年改变世界的十大科技浪潮思考AI时代与中国的全新可能凯文凯文凯利吴晨著中信出版社让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》不被淘汰，AI赋能从现在开始AI赋能【作者寄语印签版+赠导读手册】领英联合创始人里德·霍夫曼新
短信验证码注册登录的Python实现：http.client与Requests实战仰望尾迹云
本文还有配套的精品资源，点击获取简介：短信验证码是用户注册和登录的常用安全措施。在Python中，http.client和Requests是两个关键模块，分别用于处理HTTP请求。http.client是Python标准库的一部分，适用于低级HTTP操作，而Requests是一个第三方库，提供了更简洁的HTTP请求处理方式。本课程将通过http.client.py和Requests.py两个文件的
http.client.HTTPConnection.POST和requests.post区别抖音运维厨师长 python http chrome python
http.client.HTTPConnection.POST和requests.post是用于在Python中执行HTTPPOST请求的两种方法，但它们在实现和使用上有很大的区别。http.client.HTTPConnection.POSThttp.client是Python标准库中的模块，用于低级别的HTTP协议操作。使用http.client.HTTPConnection，你可以手动构建H
python 月之梦 python 数据库开发语言
实时监控MT5和BITMEXimportMetaTrader5asmt5//用来连接MT5并与其交互importtime//用于时间延迟fromdatetimeimportdatetime#用于处理日期和时间importrequests#用于发送HTTP请求（BitMEXAPI）importjson#用于处理JSON数据（BitMEXAPI）frommultiprocessingimportPro
Python中的运算符解析：新手必看指南
文章目录前言一、Python中的运算符二、Python运算符的类型1.算术运算符2.赋值运算符3.比较运算符4.逻辑运算符5.运算符之间的优先级6.其它运算符位运算符总结前言在Python编程中，运算符是执行各种操作的基本工具。它们可以用于执行算术计算、比较值、逻辑判断等。正确理解运算符的优先级对于编写清晰、高效的代码至关重要。本文将详细介绍Python中的运算符类型及其优先级，并通过代码示例进行
Python连接需要Kerberos认证的Kafka 王大锤V Python python kafka
1.安装Kerberos客户端yuminstall-ykrb5-libskrb5-workstation2.准备配置文件jaas.confkrb5.confuser.keytab(kafka.keytab)3.修改hosts文件将kdc服务器的host->ip映射加入hosts文件中4.执行Kerberos认证kinit-ktkafka.keytabkafka5.安装Python第三方库pip3i
【人工智能】 AI的进化之路：大模型如何重塑技术格局蒙娜丽宁 Python杂谈人工智能人工智能 python
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界本文深入探讨了人工智能大模型的进化历程及其对技术格局的深远影响。从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文
用 Python 绘制独一无二的爱心：创意代码之旅敲代码的苦13 Python PyCharm python 前端开发语言
在Python的奇妙世界里，代码不仅是实现功能的工具，更是艺术创作的画笔。今天，我们将一起踏上一段充满浪漫与创意的旅程——用Python设计独特的爱心代码。无论是向心仪的人表白，还是单纯展示编程的魅力，这些独特的爱心代码都能带来惊喜与感动。接下来，就让我们从基础代码开始，逐步解锁各种创意设计，打造专属于你的Python爱心！一、Python爱心代码基础版首先，我们从最基础的Python爱心代码入手
Python爱心代码创意玩法大揭秘：带你领略 Python 爱心代码的全新魅力，让代码的浪漫指数直线飙升！敲代码的苦13 Python PyCharm pygame python
在编程的浪漫宇宙中，Python爱心代码始终是闪耀的星辰。上次我们一同探索了动态、彩色、3D等多种经典创意爱心代码，这次，我们将突破边界，解锁更多新奇独特的玩法，带你领略Python爱心代码的全新魅力，让代码的浪漫指数直线飙升！一、用Pygame打造互动爱心游戏Pygame是Python中用于开发游戏的强大库，我们可以借助它的力量，将爱心代码升级为有趣的互动游戏，让用户不再只是旁观者，而是能亲身参
环境安装教程万能小贤哥机器学习人工智能网络 python
Python小白入门之环境安装全攻略在数字化浪潮中，Python以其简洁高效、应用广泛的特性，成为众多编程爱好者踏入代码世界的首选语言。对于新手小白而言，成功搭建Python开发环境，是开启编程之旅的关键第一步。下面就为大家详细介绍Python环境的安装与配置过程。一、前期准备1.系统要求：主流操作系统均可支持Python安装，Windows建议使用Windows10及以上版本；macOS需为ma
代码探秘人工智能万能小贤哥人工智能
当你在手机上用语音发送消息，当短视频平台精准推送你感兴趣的内容，当智能音箱陪你聊天解闷，背后都有一位“隐形伙伴”——人工智能。它就像从科幻电影中走出的神奇力量，正悄然改变着我们的生活。今天，就让我们借助简单的Python代码，开启一场探索人工智能奥秘的奇妙之旅！人工智能：计算机的“超能力大脑”想象一下，如果给计算机装上“大脑”，让它学会像人类一样思考、学习和解决问题，会发生什么？这就是人工智能（A
Python 爬虫实战：知乎热榜趋势分析（话题生命周期 + 影响力评估） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言知乎作为国内知名的问答社区，其热榜功能汇聚了当下最受关注的话题。这些话题的热度变化反映了公众兴趣的动态，对于内容创作者、市场营销人员和数据分析师等具有极高的参考价值。本文将详细介绍如何通过Python和Scrapy技术实现知乎热榜数据的自动化爬取，并结合数据分析手段进行话题热度分析和趋势预测。二、目标网站分析（一）知乎热榜页面结构知乎热榜页面（https://www.zhihu.com/h
Python 爬虫实战：网易云音乐登录解密（加密参数逆向 + 音乐数据采集） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、前言网易云音乐作为国内流行的音乐平台，拥有海量的音乐资源和用户数据。通过爬取网易云音乐的数据，我们可以进行音乐推荐、用户行为分析等。本文将详细介绍如何使用Python爬取网易云音乐的数据，包括登录解密和音乐数据采集。二、准备工作1.环境搭建确保已安装Python3.7或以上版本，推荐使用VisualStudioCode作为开发工具。2.安装依赖库在命令行中安装爬虫和数据分析所需的库：pipin
Python 爬虫实战：解析接口爬取搜狐新闻评论（评论情感极性判断） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、项目概述在信息爆炸的时代，新闻评论成为公众表达意见和情感的重要渠道。搜狐新闻作为国内领先的新闻平台，积累了海量的用户评论数据。本项目旨在通过Python爬虫技术解析搜狐新闻评论接口，高效抓取评论数据，并借助情感分析算法判断评论情感极性，洞察公众舆论倾向，为舆情分析、内容优化等提供数据支撑。二、环境搭建与技术选型（一）Python环境配置安装Python：推荐使用Python3.8+版本，确保兼
Python 爬虫实战：爬取掘金平台文章（列表解析 + 技术领域分类统计） Python核芯 Python爬虫实战项目 python 爬虫开发语言
摘要：掘金平台汇聚了大量优质的编程技术和行业资讯文章。本文将深入讲解如何利用Python爬虫抓取掘金平台文章数据，解析文章列表信息，并进行技术领域分类统计，助力开发者了解技术热点和内容分布。一、引言掘金平台作为技术分享社区，专注于数字创业、编程技术和产品设计等领域。平台上的文章由开发者、创业者和设计者撰写，涵盖了从入门教程到前沿技术解析的丰富内容。通过爬取和分析这些文章数据，可以洞察当前技术领域的
使用Python爬虫雪球APP基金数据暖樱爬虫 python
介绍在本篇博客中，我们将介绍如何使用Python编程语言和一些常用库来爬取雪球网站的数据。雪球网站是一个提供股票、基金等金融信息的平台，我们将通过调用其API来获取用户和标题信息，并将数据保存到CSV文件中。爬虫实现流程一、数据来源分析1、明确需求：明确采集的网站以及数据内容（1）网址：雪球网-https://xueqiu.com（2）数据：基金数据2、抓包分析：分析基金数据；打开开发者工具：F1
一文看懂Python协程asyncio模块的演变及高级用法大江狗列表 python 多线程 java 编程语言
网上很多关于Python协程asyncio模块的教程都是基于老版Python的,本文将以对比方式展示新老Python版本下协程的写法有什么不同并总结了asyncio的一些高级用法,包括如何获取协程任务执行结果，gather和wait方法的区别以及如何给任务添加回调函数。Python协程及asyncio基础知识协程(coroutine)也叫微线程，是实现多任务的另一种方式，是比线程更小的执行单元，一
深入探索 Vanna：让数据库交互更智能从零开始学习人工智能数据库交互
深入探索Vanna：让数据库交互更智能在数字化时代，与数据库进行高效交互是许多开发者、数据分析师和企业面临的挑战。传统的SQL查询编写不仅需要对数据库结构有深入的了解，还需要花费大量的时间和精力来调试和优化。Vanna，一个基于Python的开源工具，通过结合检索增强（RetrievalAugmentation）和大型语言模型（LLM），为这一问题提供了一个创新的解决方案。本文将深入探讨Vanna
asyncio基本用法介绍遮天华月 python 算法
目录一、`asyncio`的核心概念二、`asyncio`的常见用法三、`asyncio`中的同步原语四、`asyncio`中的网络操作五、`asyncio`的调试工具总结asyncio是Python标准库中用于异步编程和并发任务管理的核心库。它的基础是事件循环，用来调度协程（coroutines），让它们能够非阻塞地并发执行。这种编程模型在处理大量I/O密集型任务时非常高效，如网络操作、文件读写
python实现数据库两个表之间的更新操作（模糊匹配）示例半吊子的程序狗 python
frompymongoimportMongoClientimportpandasaspd#连接到MongoDB（这里假设MongoDB运行在本地默认端口上）mgclient=MongoClient('localhost',27017)#选择数据库（如果你没有指定数据库，MongoDB会使用默认的'test'数据库）db=mgclient['test']#替换'your_database_name'
嵌套列表与二维列表的遍历方法
在Python的世界中，列表（list）是最为基础而强大的数据结构之一。而当一个列表的元素本身又是列表时，我们便进入了嵌套列表（NestedList）或更通用的二维列表（2DList）的语境中。无论是在软件开发、测试数据构造、数据分析、机器学习、自动化运维还是教育教学场景中，嵌套结构的遍历与处理都是工程能力的一项基本功。本文将系统剖析Python中处理嵌套列表和二维列表的常用遍历方式，从基础语法到
深入理解Python asyncio：从入门到实战，掌握异步编程精髓 Bruce-li__ Python python 网络数据库
文章目录前言一、asyncio基础概念1.1什么是异步编程？1.2asyncio核心组件二、asyncio核心用法详解2.1事件循环管理2.2协程与任务2.3异步上下文管理器三、asyncio高级特性3.1异步生成器3.2异步队列3.3异步锁和信号量四、asyncio实战项目4.1高性能Web爬虫4.2异步Web服务器五、性能对比与最佳实践5.1同步与异步性能对比5.2asyncio最佳实践六、常
Python异步编程：asyncio和aiofiles 人工干智能 Python的高级知识 python 开发语言
asyncioasyncio是Python的标准库之一，用于编写单线程的并发代码。它使用协程（coroutines）和事件循环（eventloop）来实现异步编程。协程是Python中一种特殊的函数，可以使用asyncdef定义，并通过await表达式来挂起和恢复执行。假设我们有两个任务：下载网页内容和计算数字的平方。在异步编程中，我们可以同时启动这两个任务，而不需要等待一个任务完成后再开始另一个
下完安装好python后，想查看python的安装位置的几种方法大模型猫叔 python 开发语言爬虫
查看python的路径基于windows系统，按下win+r（也就是命令提示符），输入cmd，进入查看当前的python的版本的话输入python-V1，查看当前下载的python类型和路径则可以输入py-0(加*的是你使用python的默认版本)2，还可以使用命令wherepython查看路径（这样就不会显示你python默认使用的是哪个）小技巧：如果想清除命令行的话可以输入命令cls然后ent
Python爬虫实战：如何爬取雪球网的股票数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言自动化区块链
引言雪球网（Xueqiu）是中国知名的股票投资社交平台，它提供了丰富的股票数据、投资者的评论和分析，并允许用户进行股票交易的模拟。雪球平台集成了大量的股市数据，包括个股的实时行情、财务数据、投资者分析以及论坛社区内容。许多投资者和金融分析师都在该平台上进行股票研究、讨论和数据挖掘。在本文中，我们将介绍如何通过Python爬虫抓取雪球网的股票数据。通过分析雪球网提供的API和网页结构，获取个股的实时
Python 爬虫实战：爬取雪球股票讨论（投资者情绪分析 + 热点板块追踪） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、前言雪球网作为国内知名的投资者社区，汇聚了海量的股票讨论、行情数据和用户观点。通过爬取雪球股票讨论数据，我们可以挖掘投资者情绪和热点板块，为投资决策提供数据支持。本文将详细讲解如何利用Python爬虫抓取雪球股票讨论数据，并进行投资者情绪分析和热点板块追踪。二、准备工作1.环境搭建确保已安装Python3.7或以上版本，推荐使用VisualStudioCode作为开发工具。2.安装依赖库在命令
Python内置模块之asyncio详细功能介绍及示例
Pythonasyncio模块详解及使用示例asyncio是Python用于编写并发代码的库，使用async/await语法。它是Python异步编程的核心库，特别适合I/O密集型和高并发网络应用。主要方法及功能1.事件循环管理asyncio.run(coro,*,debug=False)-运行异步程序的主入口asyncio.get_event_loop()-获取当前事件循环asyncio.set
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name