爱吃鸡的小鸡

pandas学习笔记

Series结构

Series结构是pandas常用的数据结构之一,由一组数据之和一组标签组成,其中标签和数据之具有对应关系,标签不必是唯一的.
Series可以保存任何数据类型,整形,字符串,浮点型,python对象等,默认值是整数,从0开始递增

引入pandas:import pandas as pd

pd.Series(data=None,index=None,dtype=None,name=None,copy=False)

data 输入的数据
index 指定索引值
dtype 输出的类型
name 定义一个名称
copy 对data进行拷贝

获取下标标签值和属性值

p.index 获取下标值,默认是0到n

list(p.values) 获取所有属性值,可以将转list直接输出

通过标签获取索引和赋值

s1[1] 通过行索引获取第二个数据

s1[0]=50 更改行索引为0的值

s1[-1] 找的是标签值为-1的,不存在从后往前找,但是可以新增,就像添加一行数据

s1["a"]=1 新增不同类型的索引数据,索引类型会发生变化

字典作为数据源创建series

pd.Series({"a":1,"b":1}) 创建之后key会变成索引,也就是行

索引取值

标签如果不存在数值型的数据,我们就可以使用标签取值也可以用索引0-n获取值

如果存在,则不可以使用标签的index获取,只可以用对应的值获取数据

访问多个元素值s1[["a","b"]]

指定索引创建series

如果指定索引,然后用字典构建则只有对应索引的数据会被创建,不存在的补NAN

指定name列名

s1.name 获取列名

s1.name="aa" 指定列名

我们也可以在创建的时候指定name属性

转换成DataFrame之后就会称为列名

切片

s[1:3] 使用python切片

基本方法

s.head() 默认看前5条,可以指定

s.tail() 默认看后五条,可以指定

s.reindex() 重新指定索引

s1 + s2 相同索引的会相加,没有的NaN

s.drop("a",inplace=True) 删除标签为a的值,修改原值

DataFrame数据类型(重要)

DataFrame是pandas的重要数据结构之一
结构有行有多列的.类似表格
每个列可以有不同的数据类型
同列都是相同数据类型
有索引index

pandas.DataFrame(data=None,index=None,columns=None,dtype=None,copy=None)

data 输入的数据
index 行标签
columns 列标签
dtype 只允许指定一个数据类型,一般不指定
copy 是否从输入复制数据

嵌套列表创建:每个元素代表一行数据

列表嵌套字典创建:每个元素的key会作为列名称,值为value

字典嵌套列表创建:每个key作为列名称,值的列表每一个元素作为当前key列的数据

指定需要哪些列:构建DataFrame的时候columns指定想要的列就可以筛选

列操作:

df['列名'] 获取列

df[['列名','列名']] 获取多列

注意:获取列不能用切片操作,也不能用索引获取列

df['新列名']=pd.Series([1,2,3]) 添加新的一列

df['新列名']=df['列名']+df['列名'] 可以进行运算返回新的列

del df['列名'] 删除一列

df.pop('列名') 删除一列并且返回删除数据

行操作:

行操作需要借助loc属性来完成

df.loc['b'] 选取行标签为b的数据

df.loc['b','one'] 获取行标签为b,列名为one列的数据

df.loc['a':'b','one'] 获取行标签a-b(包含尾),列为one的数据

df.loc[['a','b'],['one','two']] 获取多行多列

索引获取数据:

我们需要使用iloc来完成

df.iloc[2] 获取行索引为2的数据

df.iloc[[0,2]] 获取行索引0和2的数据

df.iloc[0,1] 获取行索引0和列索引1的数据

添加行数据:

使用append(other,ignore_index=False,verify_integrity=False,sort=False)

other:DataFrame或series或字典等类对象
ignore_index:如果是True将按照原本自动添加索引
verify_integrity:如果为True,则在创建具有重复项的索引报错
sort:排序

list添加是一维为一行

删除行数据:

使用drop删除某一行数据,如果有重复则一起删除

df.drop('行标签') 默认不会修改原数据,要修改加上inplace=True

设置index列:

#将索引设置为“month”列：

                df.set_index('month')

        # 将month列设置为index之后，并保留原来的列

                df.set_index('month',drop=False)

        # 保留原来的index列

                df.set_index('month', append=True)

        # 使用inplace参数取代原来的对象

                df.set_index('month', inplace=True)

        # 通过新建Series并将其设置为index

                df.set_index(pd.Series(range(4)))

常用属性和方法:

T:转置

axes:返回一个仅以行标签和列标签的列表

dtypes:返回每列数据的类型

empty:判断数据是否长度为0

columns:返回所有列标签

shape:返回一个数组,获取行数和列数

size:元素数量

values:返回所有元素值

head():返回前n条

tail():返回后n条

rename():rename({"old","new"}),修改列名

info():查看基本信息

sort_index():根据行标签对所有行进行排序,或者根据列标签

sort_values():可以根据列数据排序,也可以行数据排序

时间转换:

to_datetime转换时间戳

大部分字符串直接传入即可转换

去重函数:

        # 默认情况下，它会基于所有列删除重复的行,就是删除所有列都相同的保留第一行

                df.drop_duplicates()

        # 删除特定列上的重复项，使用子集,就是删除brand这一列数据相同的数据保留第一行

                df.drop_duplicates(subset=['brand'])

        # 删除重复项并保留最后出现的项，请使用“保留”。就是删除brand和style这两列相同的数据只保留最后一行                 df.drop_duplicates(subset=['brand', 'style'], keep='last')

pandas读取文件

csv文件读取:

pd.read_csv(文件路径,encoding="utf-8",sep="|",header=0,names=["编号", "姓名", "地址", "性别", "出生日期"],index_col="birthday")

encoding:编码
sep:分隔符
header:设置列名第几行
names:添加列名
index_col:指定index

设置编码:

df = pd.read_csv(r"data\students_step.csv", encoding="gbk")

设置分隔符

df = pd.read_csv(r"data\students_step.csv", sep="|")

delim_whitespace:

默认为 False，设置为 True 时，表示分割符为空白字符，可以是空格、"\t"等等。不管分隔符是什么，只要是空白字符，那么可以通过delim_whitespace=True进行读取。

指定表头行:

pd.read_csv(r"data\students.csv", header=1)

设置表行头内容,并且设定第一行是表头覆盖原表头:

pd.read_csv(r"data\students.csv", names=["编号", "姓名", "地址", "性别", "出生日期"], header=0)

指定索引index列:

        df = pd.read_csv(r"data\students.csv", index_col="birthday")

        第二种方式

        df.index=df['birthday']

        del df['birthday']

        df.set_index('Date',inplace=True)

指定多列为index:

df2 = pd.read_csv(r"data\students.csv", index_col=["gender","birthday"])

展示指定列的数据:

pd.read_csv(r"data\students.csv", usecols=["name","birthday"])

指定某一列的数据类型:

df = pd.read_csv(r"data\students_step_001.csv", sep="|", dtype ={"id":str}) #用于保存其原本的格式

读取数据对一列进行运算:

pd.read_csv('data\students.csv', converters={"id": lambda x: int(x) + 10})

指定哪些数据清洗为true或false:

pd.read_csv('data\students.csv', true_values=['男'], false_values=['女'])

过滤指定行:

pd.read_csv('data\students.csv', skiprows=[0,3]) # 先进行跳过0和3行,先跳过才会确定表头

pd.read_csv('data\students.csv', skiprows=lambda x: x > 0 and x % 2 == 0) # 也可以传入一个函数

过滤文件末尾行:

pd.read_csv('data\students.csv', skipfooter=1)

pd.read_csv('data\students.csv', skipfooter=1, engine="python", encoding="utf-8") #报错需要指定

设置一次性读取的行数:

pd.read_csv('data\students.csv', nrows=3)

配置哪些值需要处理成NaN:

pd.read_csv('data\students.csv', na_values=["女", "朱梦雪"])

指定某一列为时间列:

df = pd.read_csv('data\students.csv', parse_dates=["birthday"]) #指定为时间列

df2 = pd.read_csv('data\students_年月日.csv', parse_dates=["birthday"], date_parser=lambda x: datetime.strptime(x, "%Y年%m月%d日")) # 自定义格式解析

分块读取数据:

chunk = pd.read_csv('data\students.csv', iterator=True) # 开启迭代器默认为false分批读取
# 文件还剩下三行，但是我们指定读取100，那么也不会报错，不够指定的行数，那么有多少返回多少
print(chunk.get_chunk(100))
try:
    # 但是在读取完毕之后，再读的话就会报错了
    chunk.get_chunk(5)
except StopIteration as e:
    print("读取完毕")
# 读取完毕



chunk = pd.read_csv('data\students.csv', chunksize=2)
# 还是返回一个类似于迭代器的对象
print(chunk)  
# 

# 调用get_chunk，如果不指定行数，那么就是默认的chunksize

# 也可以指定
print(chunk.get_chunk(100))

try:
    chunk.get_chunk(5)
except StopIteration as e:
    print("读取完毕")
# 读取完毕

缺失值处理

df.info() 查看基本信息可以可以看出是否有缺失值的列

df.isnull() 返回对应原数据的boolean是否是空

df.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)

axis:0或index,1或columns,默认为0表示删除包含学是指的行
how:any,all 默认是any,删除至少有一个na的行或者所有na的列
thresh:输入int,保留至少有几个非空的行
subset:定义在那些列找缺少的值
inplace:是否更改原数据

df.fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=None)

value:用于填充的值
method:两个选择ffill->用空值上面有值的值填充,bfill->用空值下面有值的值填充
axis:用于填充缺失值的轴
inplace:是否需改原数据
limit:设置填充最大几个连续NaN的值

#    删除缺失值
# 删除至少缺少一个元素的行。
df.dropna()
# 删除至少缺少一个元素的列。 
df.dropna(axis='1')
# 删除缺少所有元素的行
df.dropna(how='all')
# 仅保留至少有2个非NA值的行
df.dropna(thresh=2)
# 定义在哪些列中查找缺少的值
df.dropna(subset=['toy'])
# 在同一个变量中保留操作数据,修改原本数据
df.dropna(inplace=True)

#  填充缺失值
# 将所有NaN元素替换为0
df.fillna(0)
# 我们还可以向前或向后传播非空值,最近一个值是什么后面的就是什么
df.fillna(method="ffill")
df.fillna(method="bfill")
# 将列“A”、“B”、“C”和“D”中的所有NaN元素分别替换为0、1、2和3。
values = {"A": 0, "B": 1, "C": 2, "D": 3}

df.fillna(value=values)
# 只替换第一个NaN元素
df.fillna(0, limit=1)
# 当使用数据填充时，替换会沿着相同的列名和索引进行
df2 = pd.DataFrame(np.random.rand(4,4), columns=list("ABCE"))
df.fillna(value=df2)

分组聚合

根据数据进行分组,然后应用过滤转换统计函数

拆分:对数据进行分组
应用:对分组数据应用聚合函数,进行计算
合并:最后汇总计算结果

groupby分组:

df.groupby('列名') 根据列的数据进行分组

agg聚合:

data.groupby("company").agg('mean') #求均值 data.groupby('company').agg({'salary':'median','age':'mean'}) #对不同列求不同的值 data.groupby('company').agg({'salary':['median',np.max],'age':'mean'}) # 执行多种操作 data.groupby('company').agg({'salary':lambda x:x**2}) # 可以传入自定义函数

1.0之后得groupby('岗位')[['工资']].agg([('工资','max')])

transform转换

和agg的区别在于,agg聚合之后如果新增一列不能直接添加

                第一种方式:

                        # to_dict将表格中的数据转换成字典格式

                        avg_salary_dict= data.groupby('company')['salary'].mean().to_dict()

                        # map()函数可以用于Series对象或DataFrame对象的一列，接收函数作为或字典对象作为参数，返回经过函数或字典映射处理后的值。

                        data['avg_salary'] = data['company'].map(avg_salary_dict) #对company列和要映射的数据一一对应

                第二种方式:

                        data['avg_salary1'] = data.groupby('company')['salary'].transform('mean') #分组之后统计的均值映射一一对应并且返回那一列

apply操作:

apply比agg和transform更加灵活,能够传入任意自定义的函数,实现复杂的数据操作

案例:

# 假设我现在需要获取各个公司年龄最大的员工的数据 def get_oldest_staff(x): # 输入的数据按照age字段进行排序 df = x.sort_values(by = 'age',ascending=True) # 返回最后一条数据 return df.iloc[-1,:]

oldest_staff = data.groupby('company',as_index=False).apply(get_oldest_staff) #传入函数的时候不需要括号

# '地区'作为索引分组，'年份'与分组列'地区'聚合
# 第一种方法
df_1.groupby(by=['地区'], as_index=True).agg({'年份': ['max', 'min', 'median']}).head()
# 第二种方法，两种方法是等效的
df_1.groupby(by=['地区'], as_index=True).年份.agg(['max', 'min', 'median']).head()
# 指定多列列是聚合列，如：年份、国内生产总值
df_1.groupby(by=['地区'], as_index=True).agg({'年份': 'max', '国内生产总值': 'describe'}).head()
# 返回所有列中的最大值
df_1.groupby(by=['地区'], as_index=True).max().head()
# 获取分组之后的当前索引
df.groupby('item_name').agg({'qu':'sum'}).idxmax()

数据合并

# 取交集
    df_1.merge(df_2,on='userid')     #两种方式inner
    pd.merge(df_1, df_2, on='userid')
    
# 左连接和右连接,如果没有对应的数据就填空值
    pd.merge(df_1, df_2,how='left', on="userid") # 左连接,on指的是根据哪个来连接
    pd.merge(df_1, df_2,how='right', on="userid") # 右连接
    
# 取并集
    pd.merge(df_1, df_2,how='outer',on='userid') # 把所有的都展示

#通常用来连接DataFrame对象。默认情况下是对两个DataFrame对象进行纵向连接， 
# 当然通过设置参数，也可以通过它实现DataFrame对象的横向连接
    df_1 = pd.concat(objs=[df1, df2, df3])  # 合并数据，以行的维度合并
    df_1.sample(n=7, replace=False)  # 随机不放回抽样 7 个数据
    
    
    
# 横向纵向表堆叠
    pd.concat([df1,df2]) # 纵向堆叠
    pd.concat([df1,df2],axis=1) # 横向堆叠
    pd.concat([df1,df2],join="outer") # 在拼接的时候取两张表的并集,没有的nan填充
    pd.concat([df1,df2],join="inner") # 在拼接的时候取两张表的交集,有一边没有的就不拼接

字符串操作

pandas中.str方法,之后就可以使用,会自动忽略缺失值

三板斧map-apply-applymap

apply应用在DataFrame的行或列中
applymap应用在DataFrame的每个元素中
map应用在单独一列（Series）的每个元素中

# 默认是一列一列也就是axis=0
    df.apply(np.sum)
# 1或“列”：将函数应用于每一行一行一行的进行求和
    df.apply(np.sum, axis=1)
# 传入匿名函数进行操作,axis默认等于0则是通过一列一列的数据传入进行操作
    df.apply(lambda x: x + 1)
# 当然我们也可以自定义传入多个参数
    def cal_result(df, x, y):
        df['C'] = (df['A'] + df['B']) * x
        df['D'] = (df['A'] + df['B']) * y
        return df
    有三种方式传参:            
    df.apply(cal_result, x=3, y=8, axis=1)
    df.apply(cal_result, args=(3, 8), axis=1) 
    df.apply(cal_result, **{'x': 3, 'y': 8}, axis=1)

# 保留两位小数
    df.apply(lambda x : format(x,'.2%'))

# 保留两位小数
    df.applymap(lambda x: '%.2f'%x)
#取列,注意一个[]获取的是series数据,[[]]获取的是dataframe数据,而且这个只能操作dataframe数据不能操作series数据
    df[['A']].applymap(lambda x: '%.2f'%x)

#map是操作series数据的
        df['A'].map(lambda x: '%.2f'%x)
# 替换操作
        df['Sex'] = df['Sex'].map({"male":1, "female":0})

pandas绘图

# 默认绘图就是线型图,我们只需要数据.plot()即可
# index会作为y轴坐标,列名则会作为图例名称作为展示
# df里没有自带的show()方法,我们想要使用则需要导入matplotlib来使用,可以消除第一行显示的东西
    from matplotlib import pyplot as plt
# 设置中文:
# 设置中文字体
    plt.rcParams['font.sans-serif'] = ['SimHei']
# 中文负号
    plt.rcParams['axes.unicode_minus'] = False
    df.plot(title="我的图形")
# 设置x轴xticks旋转
    df["A"].plot(rot=70)   或者
    plt.xticks(rotation=70)
# 我们可以单独设置索引和数据
    plt.plot(df["A"].index,df["A"])
# 柱状图
    df.plot.bar()  或者
    df.plot(kind="bar")
    # 柱状堆叠图
    df.plot(kind="bar",stacked=True) 或者
    df.plot.bar(stacked="True")
    # 横向水平图
    df.plot.barh(stacked=True) 或者
    df.plot(kind="barh", stacked=True)
# 直方图
    #指定箱数为15
    df.plot.hist(bins=15)
    #使用diff绘制,给每一列都绘制直方图
    df.diff().hist(color="r",alpha=0.5,bins=15)
# 箱线图
    df.plot.box()
# 区域图,类似与线型图,但是他把其他空位填充了
    df.plot.area()
# 散点图,x和y是散点图的点的坐标,但是x和y只能是列名
    df.plot.scatter(x="a",y='b')
# 饼状图
    # 饼状图需要添加subplots
    df.plot.pie(subplots=True)

常用操作

df.head(2) # 显示前面两行
df.tail(2) # 显示最后两行
df.info # 相关信息预览
df.describe() #快速综合统计结果

异常值处理

# 通过绘制一列的箱线图可以看出异常值
    plt.boxplot(data['a']) # 超出上边线的和下边线的点就是有异常值
# 我们定义一个函数来将异常值转换为空值
    def replace(x):
        import numpy as np
        QU = x.quantile(0.75)
        QL = x.quantile(0.25)
        IQR = QU - QL
        x[(x > (QU + 1.5*IQR)) | (x < (QL - 1.5*IQR))] = np.nan
        return x
# 我们把有异常值的数据传入进去即可将缺失值转换为空值

转换成列表数据:

df.index.tolist() #转换索引为数组
list(df['brand']) #转换brand这一列为数组
dict(df['brand']) #转换brand这一列为字典
df['brand'].to_dict() #转换brand这一列为字典

去重操作

chipo['item_name'].unique() # 返回的是去重之后的数据
chipo['item_name'].nunique() # 返回的是去重之后的数量

统计个数并且排序

# value_counts() 函数可以对Series里面的每个值进行计数并且排序
chipo['choice_description'].value_counts().head()

判断字符串存在这一列?

# 接受一个列表，判断该列中元素是否在列表中
euro12.loc[euro12.Team.isin(['England', 'Italy', 'Russia'])][["Team","Shooting Accuracy"]]

描述性统计describe

drinks.groupby('continent').wine_servings.describe() # 返回各种统计之后的均值平均值等信息

迭代器循环

for (columnName, columnData) in df.iteritems(): 
    print('行 Name : ', columnName) 
    print('列 Contents : ', columnData.values) 
    print("===============")

数据抽样

# replace允许或不允许对同一行进行多次采样,默认就是False
data = df.sample(n=5, replace=False)  # 不放回随机抽样 5 个数据

重置索引

# 注意在取消索引操作时，inplace=True 设置为 True，以便后面可以查看到取消后的情况
d.reset_index(inplace=True)

重复值处理

# 查找重复值,subset参数指定列
    print('>>>\n', df_1.duplicated(subset=['年份'], keep='first').head())  
# 删除重复值,keep是删除第一次出现的重复值
    print('>>>\n', df_1.drop_duplicates(subset=['年份'], keep='first', inplace=False).iloc[:, :4])
# 查找重复索引
    print('\n>>>', df_1.index.duplicated())

query函数(类似where)

df.query('列名   判断   值'),如df.query('column1 > 2 and column 2<1')
等于
df[df[列名] 判断 值],如 df[df[column1]>2 & df[column2]<1]

filter函数

# DataFrame.filter(items=None, like=None, regex=None, axis=None)
#items对列进行筛选#regex表示用正则进行匹配#like进行筛选#axis=0表示对行操作，axis=1表示对列操作
# 选择指定的列，类似于 df[['某列', '某列']]
df_1.filter(items=['地区', '年份'])  # 选择指定的列
df_1.filter(like='产业', axis=1)  # 选择(含有) "产业" 的列

数据透视表

# 第一个参数data表示我们要传入的数据,index表示索引,columns表示行名称,aggfunc表示要进行的操作
pd.pivot_table(detail[['订单id','菜品名称','下单数量']],index='订单id',colomns='菜品名称',aggfunc='sum')
# aggfunc默认是均值mean
pd.pivot_table(detail[['订单id','菜品名称','下单数量']],index='订单id',colomns='菜品名称',values='counts',fill_value=0)

创建交叉表

# index指定索引,columns指定行名称,values指定数据,aggfunc指定进行什么操作,因为没有fill_value参数
pd.crosstab(idnex=detail['订单id'],columns=detail['菜品名称'],values=detail['下单数量'],aggfunc='sum').fillna(0)

使用unstack和pivot实现数据二维透视

# 分组之后的数据df_group
df_group.unstack()
# 执行上面操作之后还原原来格式
df_group.stack()
# 参数x,y,数据
df_reset.pivot("pdate","Rating","pv")

cut分组等级

pd.cut(fh_data['总无机养分百分比'],bins=10,labels=group_names)

你可能感兴趣的:(学习,pandas,学习,python)

Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
transformer模型构建 AI耽误的大厨自然语言处理nlp transformer 算法人工智能神经网络 word2vec
2.6模型构建学习目标掌握编码器-解码器结构的实现过程.掌握Transformer模型的构建过程.通过上面的小节,我们已经完成了所有组成部分的实现,接下来就来实现完整的编码器-解码器结构.Transformer总体架构图:编码器-解码器结构的代码实现#使用EncoderDecoder类来实现编码器-解码器结构classEncoderDecoder(nn.Module):def__init__(se
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
34、深度学习-自学之路-深入理解-NLP自然语言处理-RNN一个简单的程序，可以从程序中理解RNN的基本思想。小宇爱深度学习-自学之路深度学习自然语言处理 rnn
importsys,random,mathfromcollectionsimportCounterimportnumpyasnpf=open('tasks_1-20_v1/en/qa1_single-supporting-fact_train.txt','r')raw=f.readlines()f.close()tokens=list()forlineinraw[0:1000]:tokens.ap
DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清... 雪停时偶遇一叶春流程图
合集-人工智能(5)1.如何改进AI模型在特定环境中的知识检索2024-09-242.深度学习与统计学中的时间序列预测2024-10-033.《使用coze搭建一个会搜索、写ppt、思维导图的Agent》2024-10-294.深入浅出：Agent如何调用工具——从OpenAIFunctionCall到CrewAI框架01-145.DeepSeek-R1技术全景解析：从原理到实践的“炼金术配方”—
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
侯捷 C++ 课程学习笔记：C++ 面向对象开发的艺术孤寂大仙v c++c++学习笔记
在侯捷老师的C++系列课程中，《C++面向对象开发》这门课程让我对面向对象编程有了更深入的理解。面向对象编程（OOP）是现代软件开发中最重要的编程范式之一，而C++作为支持OOP的语言，提供了强大的工具和特性。侯捷老师通过系统的讲解和实战案例，帮助我掌握了如何在C++中高效地使用面向对象技术。以下是我对这门课程的学习笔记和心得体会。一、课程核心内容：C++面向对象开发的关键特性![侯捷老师的课程详
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
DeepSeek如何重塑我的编程学习：计算机新生的AI实践 EnigmaCoder DeepSeek 学习人工智能
目录前言邂逅DeepSeek：从困惑到惊喜初学编程的困境DeepSeek的优势️DeepSeek在编程学习中的运用注释算法逐步分析调试帮助跨语言迁移学习AI时代学习方法论革新知识获取方式转变新型学习能力培养反思与展望反思展望总结前言大家好！我是EnigmaCoder，本文我将介绍我的AI编程学习之旅。春节期间，DeepSeek横空出世，迅速登顶热榜。它功能强大，精准答疑、高效创作，瞬间点燃大众热情
【自然语言处理|迁移学习-08】：中文语料完型填空爱学习不掉头发深度学习自然语言处理（NLP）自然语言处理迁移学习人工智能
文章目录1中文语料完型填空任务介绍2数据集加载及处理3定义下游任务模型4模型训练5.模型测试1中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析：使用迁移学习方式完成使用预训练模型bert模型提取文特征，后面添加全连接层和softmax进行单标签多分类2数据集加载及处理数据介绍：数据文件有三个train.csv，test
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
鸢尾花分类项目 GUI 编织幻境的妖分类数据挖掘人工智能
1.机器学习的定义机器学习是一门人工智能的分支，专注于开发算法和统计模型，使计算机能够在没有明确编程的情况下从数据中自动学习和改进。通过识别数据中的模式和规律，机器学习系统可以做出预测或决策。常见的应用包括图像识别、语音识别、推荐系统等。2.为什么使用鸢尾花数据集（Irisdataset）鸢尾花数据集是一个经典的多类分类问题数据集，由英国统计学家和遗传学家RonaldFisher在1936年引入。
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】 code_stream #机器学习神经网络
第1章绪论基本概念：介绍了人工智能的发展历程及不同阶段的特点，如符号主义、连接主义、行为主义等。还阐述了深度学习在人工智能领域的重要地位和发展现状，以及其在图像、语音、自然语言处理等多个领域的成功应用。术语解释人工智能：旨在让机器模拟人类智能的技术和科学。深度学习：一种基于对数据进行表征学习的方法，通过构建具有很多层的神经网络模型，自动从大量数据中学习复杂的模式和特征。第2章机器学习概述基本概念：
使用python计算等比数列求和的方法 HAMYHF windows
在python中，计算Sum=m+mm+mmm+mmmm+.....+mmmmm.....,输入两个数m,n。m的位数累加到n的值，列出算式并计算出结果：#为了打印出算式，并计算出结果，将m,mm这些放入到列表中#定义列表中的m初始值为0,用Ele来代表m,mm....Ele=0#定义总和为0Sum=0#定义一个空列表List=[]#输入两个值n=int(input("inputadigit：")
Python+Playwright常用元素定位方法 HAMYHF python 功能测试
CSSselector选择器在CSS中，定位元素主要通过选择器完成，以下是几种常见的CSS选择器定位方法：标签选择器(element):直接使用HTML元素名称来定位，例如p会选择所有段落元素。属性选择器(attribute):选择所有具有指定属性的元素，无论该属性的值是什么。例如，[title]会选择所有包含title属性的元素。选择具有指定属性，并且该属性值完全等于给定值的元素。例如，[typ
图像识别与应用狂踹瘸子那条好脚 python
图像识别作为人工智能领域的重要分支，近年来取得了显著进展，其中卷积神经网络（CNN）功不可没。CNN凭借其强大的特征提取能力，在图像分类、目标检测、人脸识别等任务中表现出色，成为图像识别领域的核心技术。一、卷积神经网络：图像识别的利器CNN是一种专门处理网格状数据的深度学习模型，其结构设计灵感来源于生物视觉系统。与全连接神经网络不同，CNN通过卷积层、池化层等结构，能够有效提取图像的局部特征，并逐
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc