Python不吃辣

Python数据分析与可视化(数据分析)

数据分析。（全套教程文末领取哈）

数据统计与计算

本节讨论使用Pandas来对数据进行处理和分析，主要包括以下内容

获取数据的统计信息
显示数据类型
转换数据类型
去除数据的重复值
对数据进行分组
寻找数据间的关系
计算百分比
在上一节“数据读取”中，我们用到了Pandas。现在我们将更深入了解Pandas在处理数据方面的应用。
首先先复习一下上节课中用Pandas读取CSV文件的代码：

import pandas as pd

# 创建列名列表
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
# 利用定义好的列名来读取数据
df = pd.read_csv("data/adult.data", header=None, names=names)
                      
print(df.head())

获取数据的统计信息
首先我们使用Pandas的函数来查看数据，以更好地了解数据可能存在的问题。Describe()函数将为我们提供计数和一些连续变量的统计信息。

import pandas as pd
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)
print(train_df.describe())

在得到的结果中，有mean，std，min，max，和一些不同百分比。
注意：请记住，异常值比中值对平均值的影响更大。另外，我们可以对标准差进行平方以获得方差。
我们可以发现结果中并没有包含所有列，那是因为describe()函数只对数值型的列进行统计。

显示数据类型
我们可以用info()函数来查看数据的类型

import pandas as pd

# 读取数据
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)
                      
print(train_df.info())  # 使用inf()函数

结果如图所示，在dataframe中有两种数据类型object和int64。我们可以把object类型当作字符串类型，把int64当作正数类型。
转换数据类型
如果说某一列数据的类型错误，我们可以用下面的函数进行转换：

to_numeric()
to_datetime()
to_string(）

例如：

df['numeric_column'] = pd.to_numeric(df['string_column'])

我们还可以从i上面使用info()函数获取的结果中查看每列非空值的计数以及数据的内存使用情况。

去除数据的重复值
另一个有用的步骤是查看列的都有哪些不重复的值。这是relationship列的示例：

import pandas as pd
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)
print(train_df['relationship'].unique())

输出：

[' Not-in-family' ' Husband' ' Wife' ' Own-child' ' Unmarried'
 ' Other-relative']

上面显示了relationship列都有哪些取值，并且我们可以统计每个值出现的次数：

import pandas as pd
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)
print(train_df['relationship'].value_counts())

输出：

 Husband           13193
 Not-in-family      8305
 Own-child          5068
 Unmarried          3446
 Wife               1568
 Other-relative      981
Name: relationship, dtype: int64

从输出结果可以看出，relationship列的所有取值，并且统计出了每个取值出现的次数。Husband出现的次数最多，Other-relative出现的次数最少。

对数据进行分组
python中groupby()函数主要的作用是进行数据的分组以及分组后的组内运算。groupby()需要传入要分组的列，然后再传入计算列，最后该函数会按组返回计算结果。如下示例：

import pandas as pd
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)

# 按relationship进行分组，然后对label列的统计值进行归一化 处理                   
print(train_df.groupby('relationship')['label'].value_counts(normalize=True))

输出:

relationship     label 
 Husband          <=50K    0.551429
                  >50K     0.448571
 Not-in-family    <=50K    0.896930
                  >50K     0.103070
 Other-relative   <=50K    0.962283
                  >50K     0.037717
 Own-child        <=50K    0.986780
                  >50K     0.013220
 Unmarried        <=50K    0.936738
                  >50K     0.063262
 Wife             <=50K    0.524872
                  >50K     0.475128
Name: label, dtype: float64

上面我们所做的是按relationship变量分组，然后对label变量值计数。对于这些数据，label是收入是否大于50k。我们可以从上面看到55％的丈夫年收入超过5万。因为使用了normalize=True参数，所以我们收到了百分比。
我们还可以使用Pandas对组进行多种类型的计算。例如，在这里通过workclass字段我们可以看到的不同的workclass每周平均工作时间

import pandas as pd
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)
print(train_df.groupby(['workclass'])['hoursperweek'].mean())

输出：

workclass
 ?                   31.919390
 Federal-gov         41.379167
 Local-gov           40.982800
 Never-worked        28.428571
 Private             40.267096
 Self-emp-inc        48.818100
 Self-emp-not-inc    44.421881
 State-gov           39.031587
 Without-pay         32.714286
Name: hoursperweek, dtype: float64

从输出结果可以看出，Federal-gov 平均 Local-gov 工作更多。Never-worked 工作的平均时间约为28小时。

寻找数据间的关系
另一个有用的统计方法是相关性。如果需要复习相关性，请查阅Wikipedia。我们可以使用该corr函数计算dataFrame的所有成对相关性。

import pandas as pd
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)

# 计算相关性                   
print(train_df.corr())

输出：

                   age    fnlwgt  educationnum  capitalgain  capitalloss  \
age           1.000000 -0.076646      0.036527     0.077674     0.057775   
fnlwgt       -0.076646  1.000000     -0.043195     0.000432    -0.010252   
educationnum  0.036527 -0.043195      1.000000     0.122630     0.079923   
capitalgain   0.077674  0.000432      0.122630     1.000000    -0.031615   
capitalloss   0.057775 -0.010252      0.079923    -0.031615     1.000000   
hoursperweek  0.068756 -0.018768      0.148123     0.078409     0.054256   

              hoursperweek  
age               0.068756  
fnlwgt           -0.018768  
educationnum      0.148123  
capitalgain       0.078409  
capitalloss       0.054256  
hoursperweek      1.000000

我们可以很快地发现，与其他所有相关性相比，“hoursperweek”与“educationnum”之间具有更高的相关性，但并不是很高。我们可以发现，结果中没有包含label这列。了解各变量与label之间的关系将很有用，因此我们来考虑一下：

import pandas as pd
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)

# 将字符串列label转换为数值型，当>=50时为1，其他情况为0
train_df['label_int'] = train_df.label.apply(lambda x: ">" in x)
print(train_df.corr())

输出：

                   age    fnlwgt  educationnum  capitalgain  capitalloss  \
age           1.000000 -0.076646      0.036527     0.077674     0.057775   
fnlwgt       -0.076646  1.000000     -0.043195     0.000432    -0.010252   
educationnum  0.036527 -0.043195      1.000000     0.122630     0.079923   
capitalgain   0.077674  0.000432      0.122630     1.000000    -0.031615   
capitalloss   0.057775 -0.010252      0.079923    -0.031615     1.000000   
hoursperweek  0.068756 -0.018768      0.148123     0.078409     0.054256   
label_int     0.234037 -0.009463      0.335154     0.223329     0.150526   

              hoursperweek  label_int  
age               0.068756   0.234037  
fnlwgt           -0.018768  -0.009463  
educationnum      0.148123   0.335154  
capitalgain       0.078409   0.223329  
capitalloss       0.054256   0.150526  
hoursperweek      1.000000   0.229689  
label_int         0.229689   1.000000

label和educationnum似乎有一些良好的相关性。不过要注意的一件事是，label是分类的，因此计算相关性实际上并没有应用，采用分组频率可能是一种更好的方法。
注意：分类变量是类别没有内在顺序的变量。例如性别。
另外，请记住，这些只是单变量相关性（在一个变量之间），并不考虑多变量效应（在多个变量之间）。我们还可以使用scipy具有p值优势的软件包来计算相关性。在“ Scipy”章节中对此进行了讨论。

计算百分比
最后让我们来看看Pandas提供的percentiles函数

import pandas as pd
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)

# Use the describe function to calculate the percentiles specified                     
print(train_df.describe(percentiles=[.01,.05,.95,.99]))

输出：

                age        fnlwgt  educationnum   capitalgain   capitalloss  \
count  32561.000000  3.256100e+04  32561.000000  32561.000000  32561.000000   
mean      38.581647  1.897784e+05     10.080679   1077.648844     87.303830   
std       13.640433  1.055500e+05      2.572720   7385.292085    402.960219   
min       17.000000  1.228500e+04      1.000000      0.000000      0.000000   
1%        17.000000  2.718580e+04      3.000000      0.000000      0.000000   
5%        19.000000  3.946000e+04      5.000000      0.000000      0.000000   
50%       37.000000  1.783560e+05     10.000000      0.000000      0.000000   
95%       63.000000  3.796820e+05     14.000000   5013.000000      0.000000   
99%       74.000000  5.100720e+05     16.000000  15024.000000   1980.000000   
max       90.000000  1.484705e+06     16.000000  99999.000000   4356.000000   

       hoursperweek  
count  32561.000000  
mean      40.437456  
std       12.347429  
min        1.000000  
1%         8.000000  
5%        18.000000  
50%       40.000000  
95%       60.000000  
99%       80.000000  
max       99.000000

重塑数据
本节说明了使用Pandas重塑和整理数据的方法。
包括以下内容：

数据透视表
交叉表
重塑
长到宽格式
宽到长格式
数据透视表
像Excel一样，我们可以使用pandas pivot_table功能来透视数据。为此，我们将使用该pivot_table()函数。
values参数是用于计算的列，index参数用于创建多个行的索引值，columns参数用于要在其上创建多个列的值。
您还可以使用aggfunc参数传递用于汇总数据透视表的函数
让我们看一个例子：

import numpy as np
import pandas as pd
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)

# 按label，relationship,workclass计算每周平均工作时间.
print(pd.pivot_table(train_df, values='hoursperweek', index=['relationship','workclass'], 
               columns=['label'], aggfunc=np.mean).round(2))

输出：

label                               <=50K   >50K
relationship    workclass                       
 Husband         ?                  30.72  37.33
                 Federal-gov        42.34  43.05
                 Local-gov          41.40  44.56
                 Private            42.50  46.18
                 Self-emp-inc       48.29  50.49
                 Self-emp-not-inc   46.01  48.07
                 State-gov          38.67  45.17
                 Without-pay        34.25    NaN
 Not-in-family   ?                  31.29  39.44
                 Federal-gov        40.60  47.54
                 Local-gov          40.38  45.01
                 Never-worked       35.00    NaN
                 Private            40.20  47.03
                 Self-emp-inc       49.06  53.58
                 Self-emp-not-inc   41.53  45.02
                 State-gov          38.87  44.19
 Other-relative  ?                  29.10  40.00
                 Federal-gov        38.40  45.00
                 Local-gov          35.92  48.00
                 Private            37.44  40.74
                 Self-emp-inc       40.00  41.67
                 Self-emp-not-inc   36.16  49.29
                 State-gov          36.40  29.00
 Own-child       ?                  32.39  50.00
                 Federal-gov        35.11    NaN
                 Local-gov          35.59  41.25
                 Never-worked       24.80    NaN
                 Private            32.84  43.09
                 Self-emp-inc       39.60  43.75
                 Self-emp-not-inc   40.33  49.38
                 State-gov          30.10  38.33
                 Without-pay        35.00    NaN
 Unmarried       ?                  32.75  50.00
                 Federal-gov        39.30  43.65
                 Local-gov          40.09  45.79
                 Private            38.64  45.70
                 Self-emp-inc       45.74  58.11
                 Self-emp-not-inc   40.62  47.81
                 State-gov          38.15  44.56
                 Without-pay        37.50    NaN
 Wife            ?                  28.29  29.72
                 Federal-gov        38.93  39.74
                 Local-gov          37.87  40.38
                 Never-worked       40.00    NaN
                 Private            36.56  38.31
                 Self-emp-inc       44.67  38.14
                 Self-emp-not-inc   36.53  34.61
                 State-gov          36.50  39.10
                 Without-pay        23.67    NaN

对于给定的relationship，workclass和label，现在我们有每周的平均工作小时表。

交叉表
Crosstab是获取频数表的好方法。我们要做的是将两列传递给函数，您将获得这两个变量的所有成对组合的频数。
让我们看一个使用标签和关系作为我们的列的示例：

import numpy as np
import pandas as pd
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)

# 计算label and relationship之间的频数
print(pd.crosstab(train_df['label'], train_df.relationship))

输出：

relationship   Husband   Not-in-family   Other-relative   Own-child  \
label                                                                 
 <=50K            7275            7449              944        5001   
 >50K             5918             856               37          67   

relationship   Unmarried   Wife  
label                            
 <=50K              3228    823  
 >50K                218    745

现在，我们已按label和relationship细分计数。第一个参数用于行，第二个参数用于列。我们还可以使用normalize=True参数对结果进行归一化。

import numpy as np
import pandas as pd
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
train_df = pd.read_csv("adult.data", header=None, names=names)

# 具有标准化的表
print(pd.crosstab(train_df['label'], train_df.relationship, normalize=True))

输出：

relationship   Husband   Not-in-family   Other-relative   Own-child  \
label                                                                 
 <=50K        0.223427        0.228771         0.028992    0.153589   
 >50K         0.181751        0.026289         0.001136    0.002058   

relationship   Unmarried      Wife  
label                               
 <=50K          0.099137  0.025276  
 >50K           0.006695  0.022880

重塑
借助Pandas，我们可以pivot()用来重塑数据。为了说明这个概念，我将使用来自个帖子代码以长格式创建一个dataframe。

import pandas.util.testing as tm; tm.N = 3
import numpy as np
import pandas as pd 

def unpivot(frame):
    N, K = frame.shape
    data = {'value' : frame.values.ravel('F'),
            'variable' : np.asarray(frame.columns).repeat(N),
            'date' : np.tile(np.asarray(frame.index), K)}
    return pd.DataFrame(data, columns=['date', 'variable', 'value'])
df = unpivot(tm.makeTimeDataFrame())
print(df)

输出：

         date variable     value
0  2000-01-03        A  1.762265
1  2000-01-04        A -1.836282
2  2000-01-05        A  1.341377
3  2000-01-03        B -2.010261
4  2000-01-04        B -1.457658
5  2000-01-05        B  0.960505
6  2000-01-03        C  1.579438
7  2000-01-04        C  0.723217
8  2000-01-05        C -1.458282
9  2000-01-03        D -0.026408
10 2000-01-04        D  0.272848
11 2000-01-05        D -0.224588

在此示例中，variable的有A，B，Ç,这是一个长格式。为了使其具有更宽的格式，我们将创建列A，B和C并删除variable列
长格式到宽格式
这是我们将这种长格式转换为宽格式的方法：

import pandas.util.testing as tm; tm.N = 3
import numpy as np
import pandas as pd 

def unpivot(frame):
    N, K = frame.shape
    data = {'value' : frame.values.ravel('F'),
            'variable' : np.asarray(frame.columns).repeat(N),
            'date' : np.tile(np.asarray(frame.index), K)}
    return pd.DataFrame(data, columns=['date', 'variable', 'value'])
df = unpivot(tm.makeTimeDataFrame())

# Use pivot to keep date as the index and value as the values, but use the vaiable column to create new columns
df_pivot = df.pivot(index='date', columns='variable', values='value')
print(df_pivot)

输出：

variable           A         B         C         D
date                                              
2000-01-03 -0.579241  1.007006 -0.384546  0.491940
2000-01-04  0.470201 -0.645394 -0.564861 -0.395214
2000-01-05 -0.817290  0.554533  1.004388  1.702254

宽格式到长格式
为了将格式从宽转换为长，Pandas为我们提供了unstack()函数。

import pandas.util.testing as tm; tm.N = 3
import numpy as np
import pandas as pd 

# 创建长格式数据
def unpivot(frame):
    N, K = frame.shape
    data = {'value' : frame.values.ravel('F'),
            'variable' : np.asarray(frame.columns).repeat(N),
            'date' : np.tile(np.asarray(frame.index), K)}
    return pd.DataFrame(data, columns=['date', 'variable', 'value'])
df = unpivot(tm.makeTimeDataFrame())

# 转为宽格式
df_pivot = df.pivot(index='date', columns='variable', values='value')

# 回到长格式
print(df_pivot.unstack())

输出：

variable  date      
A         2000-01-03   -0.124403
          2000-01-04   -0.314589
          2000-01-05   -0.699477
B         2000-01-03   -0.896259
          2000-01-04   -0.301238
          2000-01-05    0.135009
C         2000-01-03   -1.981508
          2000-01-04   -0.119111
          2000-01-05   -3.041723
D         2000-01-03    0.348741
          2000-01-04   -0.937233
          2000-01-05    0.328904
dtype: float64

读者福利：知道你对Python感兴趣，便准备了这套python学习资料
对于0基础小白入门：

如果你是零基础小白，想快速入门Python是可以考虑的。
一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、机器学习等习教程。带你从零基础系统性的学好Python！

零基础Python学习资源介绍

① Python所有方向的学习路线图，清楚各个方向要学什么东西
② 600多节Python课程视频，涵盖必备基础、爬虫和数据分析
③ 100多个Python实战案例，含50个超大型项目详解，学习不再是只会理论
④ 20款主流手游迫解爬虫手游逆行迫解教程包
⑤ 爬虫与反爬虫攻防教程包，含15个大型网站迫解
⑥ 爬虫APP逆向实战教程包，含45项绝密技术详解
⑦ 超300本Python电子好书，从入门到高阶应有尽有
⑧ 华为出品独家Python漫画教程，手机也能学习
⑨ 历年互联网企业Python面试真题,复习时非常方便

Python学习路线汇总

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取哈）

Python必备开发工具

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

Python学习视频600合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

100道Python练习题

检查学习结果。

面试刷题

python副业兼职与全职路线

上述这份完整版的Python全套学习资料已经上传CSDN官方，朋友们如果需要可以微信扫描下方CSDN官方认证二维码即可领取↓↓↓

你可能感兴趣的:(程序员,学习路线,Python,python,数据分析,pandas,Python入门,开发语言)

Python 基础-循环赔罪 Python 系统学习 python windows 服务器
目录简介breakcontinue小结简介要计算1+2+3，我们可以直接写表达式：>>>1+2+36要计算1+2+3+...+10，勉强也能写出来。但是，要计算1+2+3+...+10000，直接写表达式就不可能了。为了让计算机能计算成千上万次的重复运算，我们就需要循环语句。Python的循环有两种，一种是for...in循环，依次把list或tuple中的每个元素迭代出来，看例子：names=[
【FastAPI 】FastAPI 模板：提供静态文件 iFakeCoder Flask fastapi python 开发语言
FastAPI是一个现代、快速（高性能）的Web框架，用于基于标准Python类型提示使用Python3.7+构建API。虽然它的主要用例是构建API，但FastAPI还可以轻松提供静态文件和HTML模板，从而让您可以构建全栈Web应用程序。在此博客中，我们将探讨如何使用FastAPI提供静态文件。我们将介绍基础知识并提供演示以帮助您入门。为什么要提供静态文件？静态文件是不经常更改的资产，并按原样
DeepSeek 爆火：初级程序员的饭碗要丢？别慌，这是进阶的号角！清水白石008 人工智能职业生涯提升学习人工智能深度学习自然语言处理
DeepSeek爆火：初级程序员的饭碗要丢？别慌，这是进阶的号角！前言最近，一款名为DeepSeek的AI编程工具火遍了程序员圈。其强大的代码生成能力、智能的代码理解，让不少初级程序员感到一丝焦虑：AI都这么厉害了，我们这些写基础代码的，饭碗还能保得住吗？作为一名在程序软件领域摸爬滚打多年的老兵，我深知技术变革带来的冲击，也理解初级程序员们心中的担忧。但我想说的是，DeepSeek的爆火，非但不是
深入解析：Tableau在数据可视化中的高级应用 Echo_Wish 实战高阶大数据信息可视化数据分析数据挖掘
深入解析：Tableau在数据可视化中的高级应用引言在大数据时代，数据可视化已成为数据分析中不可或缺的一部分。作为一款广受欢迎的数据可视化工具，Tableau以其强大的功能和灵活性，赢得了众多数据分析师的青睐。然而，许多人在使用Tableau时，仅停留在基本操作层面，未能充分发挥其潜力。本文将深入探讨Tableau的高级应用，展示其在复杂数据分析中的强大能力，并以具体实例说明其实际应用效果。数据预
深度学习在医疗影像分析中的革命性应用 Echo_Wish 人工智能前沿技术深度学习人工智能
深度学习在医疗影像分析中的革命性应用引言医疗影像分析是现代医学中不可或缺的一部分，特别是在疾病诊断和治疗过程中发挥了至关重要的作用。随着深度学习技术的发展，医疗影像分析的效率和准确性得到了显著提升。本文将探讨如何利用深度学习技术，特别是Python编程语言，来优化医疗影像分析，展示具体的代码实例，并举例说明其实际应用效果。深度学习与医疗影像分析深度学习（DeepLearning）是一种基于人工神经
DeepSeek使用中的问题及解决方案（部分） WeiLai1112 DeepSeek 人工智能
1.模型部署与配置问题问题1：环境依赖冲突现象：安装模型依赖库时出现版本不兼容（如Python、PyTorch版本冲突）。解决方案：使用虚拟环境（如conda或venv）隔离依赖。严格按照官方文档的版本要求安装依赖，例如：condacreate-ndeepseekpython=3.9condaactivatedeepseekpipinstalltorch==2.0.1transformers==4
python whoosh clisy python 开源搜索
原文地址：http://whoosh.ca/wikiWhoosh:高效的纯python全文搜索组件Whoosh是一个纯python实现的全文搜索组件。Whoosh不但功能完善，还非常的快。Whoosh的作者是MattChaput，由SideEffectsSoftware公司开发。项目的最初用于Houdini（SideEffectsSoftware公司开发的3D动画软件）的在线帮助系统。SideEf
一人能顶一个公司：AI编程神器Trae诞生了！ AI生成曾小健 AI编程科技人工智能
一人能顶一个公司：AI编程神器Trae诞生了！原创李至安夕小瑶科技说2025年01月20日23:20北京2024年开始，AI编程工具在国外卷疯了——Cursor、Copilot、Windsurf、Devin、Bolt.new等一系列AI编程神器经常刷屏程序员圈。可惜，普遍对中文开发者不太友好，我把他们装好后，第一件事儿就是先折腾下汉化。而且时不时因为未知原因就被封号了。终于今天，字节跳动洞察到了这
Python性能优化：懒加载与其他高级技巧车载testing pytest数据驱动框架开发 python python 数据库开发语言
Python性能优化：懒加载与其他高级技巧在软件开发中，我们经常会遇到一些需要大量资源或时间来初始化的对象。如果这些对象在程序的整个生命周期中只被使用一次或很少使用，那么在程序启动时就立即初始化它们将是一种资源浪费。什么是懒加载？懒加载是一种设计模式，它推迟了对象的初始化直到其被实际需要的时候。这种方式可以提高程序的启动速度，减少内存消耗，并在某些情况下提高性能。实现懒加载的步骤定义类和属性：首先
Click：构建Python命令行界面的利器车载testing python python linux 开发语言
Click：构建Python命令行界面的利器Click是一个Python包，它允许开发者以最少的代码创建出美观、功能丰富的命令行界面（CLI）。它以其高度的可配置性、合理的默认设置以及简洁的API而受到广泛欢迎。本文将详细介绍Click的核心API组件，并提供示例代码，帮助你快速掌握Click的基本用法。1.Decorators（装饰器）装饰器是Click中用于定义命令和参数的强大工具。click
Python 队列的使用：掌握先进先出的数据结构车载testing python
Python队列的使用：掌握先进先出的数据结构队列是一种先进先出（FIFO）的数据结构，它在多种编程场景中都非常有用，比如任务调度、事件处理等。在Python中，我们可以通过标准库中的queue模块来实现队列。本文将详细介绍如何使用Python的queue模块来创建和操作队列。导入Queue模块使用queue模块之前，我们需要先导入它：fromqueueimportQueue创建队列创建一个队列实
Whoosh: 一个功能强大的纯Python全文搜索引擎富珂祯
Whoosh:一个功能强大的纯Python全文搜索引擎whooshWhooshisafast,featurefulfull-textindexingandsearchinglibraryimplementedinpurePython.项目地址:https://gitcode.com/gh_mirrors/wh/whooshWhoosh是一个快速且功能丰富的全文索引和搜索库，完全使用Python实现
pycdc 安装和配置指南左洋蔷Rory
pycdc安装和配置指南pycdcC++pythonbytecodedisassembleranddecompiler项目地址:https://gitcode.com/gh_mirrors/py/pycdc1.项目基础介绍和主要的编程语言项目名称:pycdc项目简介:pycdc是一个用C++编写的Python字节码反编译器和反汇编器。它的目标是帮助开发者将编译后的Python字节码（.pyc文件）
Whoosh：一款优秀的纯Python全文搜索库沈书苹Peter
Whoosh：一款优秀的纯Python全文搜索库whooshPure-Pythonfull-textsearchlibrary项目地址:https://gitcode.com/gh_mirrors/who/whooshWhoosh是一个快速、功能丰富的全文索引和搜索库，完全使用Python编写。它允许程序员轻松地将搜索功能添加到他们的应用程序和网站中。项目基础介绍Whoosh是一个纯Python项
deepseek_各个版本django特性终是蝶衣梦晓楼 django 数据库 python
以下是Django2.0至5.0的主要区别总结，按版本特性分类说明：1.Django2.0的主要变化Python支持仅支持Python3.4+，不再兼容Python2.x。路由系统弃用url()，引入path()和re_path()替代，path()默认不支持正则表达式，但提供内置转换器（如）进行参数类型匹配。支持更简洁的URL配置语法（例如path('articles//',views.year
一个Python的轻量级搜索工具--Whose Ai_绘画小南 python 开发语言
本文将简单介绍Python中的一个轻量级搜索工具Whoosh，并给出相应的使用示例代码。Whoosh简介Whoosh由MattChaput创建，它一开始是一个为Houdini3D动画软件包的在线文档提供简单、快速的搜索服务工具，之后便慢慢成为一个成熟的搜索解决工具并已开源。Whoosh纯由Python编写而成，是一个灵活的，方便的，轻量级的搜索引擎工具，现在同时支持Python2、3，其优点如下：
Selenium使用指南程序员杰哥 selenium 测试工具 python 测试用例职场和发展程序人生功能测试
概述selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera等支持多语言，包括Java，C，python，c#等主流
基于Python的搜索引擎的设计与实现 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
搜索引擎,Python,爬虫,自然语言处理,信息检索,索引,算法,数据库1.背景介绍在信息爆炸的时代，海量数据无处不在，高效地获取所需信息变得至关重要。搜索引擎作为信息获取的桥梁，扮演着不可或缺的角色。传统的搜索引擎往往依赖于庞大的服务器集群和复杂的算法，对资源消耗较大，且难以满足个性化搜索需求。基于Python的搜索引擎设计，则凭借Python语言的易学易用、丰富的第三方库和强大的社区支持，为开
【Python】email：发送纯文本邮件 T0uken python linux github
在这篇教程中，我们将一步步解析如何使用Python发送电子邮件。我们将用到Python中的smtplib和email库，它们为我们提供了与邮件服务器互动的功能。我们将逐步解释代码的每个部分，帮助你理解如何通过Python发送邮件。导入必要的库首先，我们需要导入一些Python库来处理邮件的发送过程。importsmtplibfromemail.mime.multipartimportMIMEMul
Python Web开发新选择：FastAPI框架详细教程车载testing python python 前端 fastapi
PythonWeb开发新选择：FastAPI框架详细教程简介FastAPI是一个用于构建API的现代、快速（高性能）的Web框架，它基于Python3.6+的类型提示。本文将通过具体的示例，详细介绍如何使用FastAPI进行Web开发。一、FastAPI简介1.FastAPI能做什么？FastAPI适用于构建：Web站点WebAPI测试平台持续集成工具自动生成API文档2.为什么要学习FastAP
《从编程小白到人工智能大神：大学新生Python入门攻略》千帆过尽. python 人工智能
前言在如今这个技术飞速发展的时代，编程已经成为许多大学生不可或缺的技能，尤其是对于人工智能方向的学生来说，编程更是必不可少的一部分。作为一名大三学生，并且专注于Python和人工智能方向，我深知刚开始学习编程时的挑战与迷茫。希望本文能帮助作为大学新生的你们在编程入门的过程中少走弯路，提供一条清晰有效的学习路径。一、编程语言选择作为编程新手，选择一门适合自己的编程语言至关重要。对于希望进入人工智能领
python进程数上限_python 多进程数量对爬虫程序的影响 weixin_39759995 python进程数上限
1.首先看一下python多进程的优点和缺点多进程优点：1.稳定性好：多进程的优点是稳定性好，一个子进程崩溃了，不会影响主进程以及其余进程。基于这个特性，常常会用多进程来实现守护服务器的功能。然而多线程不足之处在于，任何一个线程崩溃都可能造成整个进程的崩溃，因为它们共享了进程的内存资源池。2.能充分利用多核cpu：由于python设计之初，没预料到多核cpu能够得到现在的发展，只考虑到了单核cpu
探索Vearch：高效的深度学习向量相似度搜索系统 scaFHIO 深度学习人工智能 python
Vearch是一个可扩展的分布式系统，用于高效搜索深度学习向量的相似度。在本文中，我们将介绍Vearch的技术背景及其核心原理，演示如何使用VearchPythonSDK进行安装和设置，并分析一些实际应用场景，最后提供一些实战建议。技术背景介绍随着深度学习技术的发展，向量相似度搜索在各类应用中变得越来越重要。从图像识别、推荐系统到自然语言处理，向量搜索可以极大地提升系统的性能。然而，随着数据量的增
如何在Python中使用Etherscan API进行以太坊数据查询 scaFHIO python 开发语言
Etherscan是领先的区块链浏览器、搜索、API和分析平台，专注于以太坊——一个去中心化的智能合约平台。在本篇文章中，我们将介绍如何在Python中使用EtherscanAPI进行以太坊数据查询，并提供详细的代码示例。1.技术背景介绍Etherscan提供了丰富的API接口，允许开发者查询以太坊网络上的各种数据，包括交易、账户、合约等信息。使用这些API接口，开发者可以方便地集成以太坊数据到自
Anaconda 配置镜像源猿代码_xiao python pytorch python 深度学习
Anaconda镜像使用帮助Anaconda是一个用于科学计算的Python发行版，支持Linux,Mac,Windows,包含了众多流行的科学计算、数据分析的Python包。Anaconda安装包可以到https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/下载。TUNA还提供了Anaconda仓库与第三方源（conda-forge、msys2
如何将python脚本生成exe 和猫妹学Python python
一、简介py2exe是一个将python脚本转换成windows上的可独立执行的可执行程序(*.exe)的工具，这样，你就可以不用装python而在windows系统上运行这个可执行程序。py2exe已经被用于创建wxPython,Tkinter,Pmw,PyGTK,pygame,win32comclient和server,和其它的独立程序。py2exe是发布在开源许可证下的。二、安装py2exe
AScript自动化脚本游戏辅助系列教程 jinglong.zha 自动化脚本自动化运维 ascript 懒人精灵 easyclick python 游戏辅助开发
Python自动化脚本开发，AScript零基础从入门到精通，游戏脚本，自动化脚本，python核心与进阶实战教程AScript基础-python核心与进阶课程简介_哔哩哔哩_bilibiliAScript基础-python核心与进阶课程简介是Python自动化脚本开发，AScript零基础从入门到精通，游戏脚本，自动化脚本，python核心与进阶实战教程的第1集视频，该合集共计35集，视频收藏或
python爬虫--安装XPath Helper S903784597 python 爬虫开发语言
给chrome浏览器安装xpath插件。-从网盘下载xpath的插件文件链接：https://pan.baidu.com/s/1B85d5cLDyAz1xUQqmL3uug?pwd=3306提取码：3306-在chrome中输入chrome://extensions/打开扩展程序。-将从百度网盘中下载的xpath.zip文件直接拖到浏览器的扩展程序页面中-得到chrome插件，将插件开关开启，并且
使用LM Studio在WordPress基于大模型原创文章上稿进行SEO优化 Mr数据杨 Python 自然语言技术 wordpress 大模型 seo 1024程序员节
在进行自动化文章生成与发布的流程中，首先需要确保基础配置的完善性和数据的准确性。通过手动设置分类和标签，文章能够在发布时被准确归类，从而提升SEO的效果。通过Excel表格的方式管理这些分类与标签，结合Python脚本，可以高效地实现自动化文章的生成和发布。该流程依赖于对WordPress数据库的操作，包括标签的批量导入、分类和标签的映射，以及通过AI生成内容的自动发布。全面的配置不仅节省了手动处
linux安装python开发环境燃冰结晶 linux python linux install python jupyter python web开发环境
安装Anaconda下载Anacondawgethttps://repo.anaconda.com/archive/Anaconda3-5.3.0-Linux-x86_64.sh安装AnacondabashAnaconda3-5.3.0-Linux-x86_64.sh会选择安装路径会选择是否需要安装vscode,国内安装不上,所以不要安装了刷新环境配置source~/.bashrc验证是否安装成功
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f