李啸林

pandas.read_csv学习笔记

pandas.read_csv功能很简单，就是读取csv文本文件到DataFrame变量中。就是参数比较多。

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=None, compact_ints=None, use_unsigned=None, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)[source]

参数详解：

filepath_or_buffer : 字符串，文件路径，或者文件句柄，或者字符串IO

字符串可能是一个URL。有效的URL方案包括http、ftp、s3和file。对于文件URL，需要主机名。例如，本地文件可以是://localhost/path/to/table.csv

sep : 字符串，分割符，默认值为‘，’

分割符的使用。如果sep为None，则C引擎无法自动检测分隔符，但Python解析引擎可以检测，这意味着将使用后者，并通过Python的内置嗅探器csves.niffer自动检测分隔符。此外，长度大于1个字符的分隔符将被解释为正则表达式,并强制使用Python解析引擎。注意，that regexdelimiters are prone to ignoring quoted data。正则表达式示例：'\r\t'

delimiter : 字符串,分割符，默认值为 none

seq分割符参数的替代名称

delim_whitespace : 布尔，默认值为 False

是否指定使用空格隔离符，(列如： ' '或 ' ') ，等价于 sep='\s+'. 如果此参数为True，隔离符参数将不发生效力

header :整数，或整数列表，缺省值 ‘infer’

数据开始前的列名所占用的行数，缺省值‘infer’将第一行视作列名，如果names参数有值，且header=0将使用names参数作为列名。如果skip_blank_lines=True，则header=0表示数据开始的第一行。header可以是一个整数的列表，如[0,1,3]。未指定的中间行将被删除(例如，跳过此示例中的2行)。注意，thisparameter参数忽略了注释。

实验：

多行列的实验：

In [21]: a = pd.read_csv('t.txt',header=[1,2])

     a     b     c     d     e
     dd    oo    hh    ll    cc
0  1226  1240  1245  1237  1241
1  1227  1246  1247  1233  1239

In [23]: a = pd.read_csv('t.txt',header=[0,1])

      d  open     h     l     c
      a     b     c     d     e
0    dd    oo    hh    ll    cc
1  1226  1240  1245  1237  1241
2  1227  1246  1247  1233  1239

In [25]: a = pd.read_csv('t.txt',header=[0,2])

In [26]: a
Out[26]:
      d  open     h     l     c
     dd    oo    hh    ll    cc
0  1226  1240  1245  1237  1241
1  1227  1246  1247  1233  1239

In [27]: a = pd.read_csv('t.txt',header=[0,1,2])

In [28]: a
Out[28]:
      d  open     h     l     c
      a     b     c     d     e
     dd    oo    hh    ll    cc
0  1226  1240  1245  1237  1241
1  1227  1246  1247  1233  1239

In [29]: a = pd.read_csv('t.txt',header=[3])

In [30]: a
Out[30]:
Empty DataFrame
Columns: [1226, 1240, 1245, 1237, 1241]
Index: []

In [31]: a = pd.read_csv('t.txt',header=[2])

In [32]: a
Out[32]:
Empty DataFrame
Columns: [dd, oo, hh, ll, cc]
Index: []

In [33]: a = pd.read_csv('t.txt',header=[1,2])

In [34]: a
Out[34]:
      a     b     c     d     e
     dd    oo    hh    ll    cc
0  1226  1240  1245  1237  1241
1  1227  1246  1247  1233  1239

In [35]: a = pd.read_csv('t.txt',header=[2])

In [36]: a
Out[36]:
Empty DataFrame
Columns: [dd, oo, hh, ll, cc]
Index: []

In [37]: a = pd.read_csv('t.txt',header=2)

In [38]: a
Out[38]:
     dd    oo    hh    ll    cc
0  1226  1240  1245  1237  1241
1  1227  1246  1247  1233  1239

In [40]: a = pd.read_csv('t.txt',header=1)

In [41]: a
Out[41]:
      a     b     c     d     e
0    dd    oo    hh    ll    cc
1  1226  1240  1245  1237  1241
2  1227  1246  1247  1233  1239

In [42]: a = pd.read_csv('t.txt',header=1,names=['date','open','heigh','low','close'])

In [43]: a
Out[43]:
   date  open heigh   low close
0    dd    oo    hh    ll    cc
1  1226  1240  1245  1237  1241
2  1227  1246  1247  1233  1239

多行列实验总结：
列可以是多行，但是[2]或[1]会返回空DataFrame，另外只有单行的列才可以使用names参数。

names : 列名数组，缺省值 None

当header=None时，将使用 names作为列名，如果heander指定特定行，则使用names作为替代
index_col : int or sequence or False, default None

作为DataFrame的行标签使用的列。如果给定一个序列，则使用aMultiIndex。如果在每一行的末尾都有一个带有分隔符的格式错误的文件，那么可以考虑使用index_col=False来强迫pandas使用默认序列作为行名称

从实验中可以看到，如果行的末尾有','分割符时，如果不使用index_col=False，则DataFrame第一列为行索引，“，”后面作为空值列。

usecols : array-like or callable, default None

返回列的一个子集。如果是数组，所有元素都必须是位置（即，整数索引到文档列中），或者是与列名称相对应的字符串，这些列名要么由用户输入，要么从文档头部行（s）中推断出来。例如，一个有效的数组参数use-cols参数将是[0,1,2]或[' foo '， ' bar '， ' baz ']。

下面这句不懂

If callable, the callable function will be evaluated against the columnnames, returning names where the callable function evaluates to True. Anexample of a valid callable argument would belambda x: x.upper() in['AAA','BBB', 'DDD']. Using this parameter results in much fasterparsing time and lower memory usage.

as_recarray : boolean, default False

从版本0.19.0开始就不建议使用:请调用read_csv(…).to_records()。

在解析数据之后返回一个NumPy recarray而不是DataFrame。如果设置为True，此选项将优先于这些参数。此外，由于行索引在这种格式中不可用，所以index_col参数将被忽略。
squeeze : boolean, default False

如果解析后的数据只包含一个列，那么返回一个 Series

prefix : str, default None

自动生成的列名编号的前缀，如： ‘X’ for X0, X1, ...

In [11]: b = pd.read_csv('t.txt',prefix='x')

In [12]: b
Out[12]:
     dd    oo    hh    ll    cc
0  1226  1240  1245  1237  1241
1  1227  1246  1247  1233  1239

In [13]: b = pd.read_csv('t.txt',header=None,prefix='x')

In [14]: b
Out[14]:
     x0    x1    x2    x3    x4
0    dd    oo    hh    ll    cc
1  1226  1240  1245  1237  1241
2  1227  1246  1247  1233  1239

mangle_dupe_cols : boolean, default True

重复的列将被指定为' X.0 '…' X。N’,而不是'X”…“X”。如果列中有重复的名称，传递False将导致数据被覆盖

dtype : Type name or dict of column -> type, default None

指定列的数据类型，如：{‘a’: np.float64, ‘b’: np.int32} ，如果指定转换器，它们将被应用于dtype转换

engine : {‘c’, ‘python’}, optional

解析器引擎使用。C引擎的速度更快，而python引擎的功能则更完善。

converters : dict, default None

设置指定列的处理函数，可以用"序号"也可以使用“列名”进行列的指定

实验：

In [20]: b=pd.read_csv('t.txt')

In [21]: b
Out[21]:
    dd    oo    hh    ll    cc
0  1226  1240  1245  1237  1241
1  1227  1246  1247  1233  1239

In [23]: def fun(x):
    ....:     x = int(x) - 1000
    ....:     return x
    ....:


In [30]: b = pd.read_csv('t.txt',converters={1:fun})

In [31]: b
Out[31]:
    dd   oo    hh    ll    cc
0  1226  240  1245  1237  1241
1  1227  246  1247  1233  1239

In [32]: b = pd.read_csv('t.txt',converters={'dd':fun})

In [33]: b
Out[33]:
    dd    oo    hh    ll    cc
0  226  1240  1245  1237  1241
1  227  1246  1247  1233  1239

In [34]: b = pd.read_csv('t.txt',converters={'dd':fun,'ll':fun})

In [35]: b
Out[35]:
    dd    oo    hh   ll    cc
0  226  1240  1245  237  1241
1  227  1246  1247  233  1239

In [36]:

true_values : list, default None （不懂）

Values to consider as True

false_values : list, default None （不懂）

Values to consider as False

skipinitialspace : boolean, default False

忽略分割符后面的空格

skiprows : list-like or integer or callable, default None

从文件开始处跳过的行数

If callable, the callable function will be evaluated against the rowindices, returning True if the row should be skipped and False otherwise.An example of a valid callable argument would belambda x: x in [0, 2]. （不懂）

skipfooter : int, default 0

忽略文件末尾处的函数，当 engine = 'c' 时此功能无效

skip_footer : int, default 0

已经废弃

Deprecated since version 0.19.0: Use the skipfooter parameter instead, as they are identical

nrows : int, default None

从文件中只读取多少数据行，常用户读取大文件的一部分

na_values : scalar, str, list-like, or dict, default None

空值定义

Additional strings to recognize as NA/NaN. If dict passed, specificper-column NA values. By default the following values are interpreted asNaN: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’,‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’,‘null’.

keep_default_na : bool, default True

Number of rows of file to read. Useful for reading pieces of large files

na_filter : boolean, default True

检测空值，此参数设置为 Falsek可以提供大文件的读取性能

Detect missing value markers (empty strings and the value of na_values). Indata without any NAs, passing na_filter=False can improve the performanceof reading a large file

verbose : boolean, default False

Indicate number of NA values placed in non-numeric columns

skip_blank_lines : boolean, default True

如果是真的，跳过空白行，而不是解释为NaN值

以下部分转载自：

https://www.cnblogs.com/datablog/p/6127000.html

parse_dates : boolean or list of ints or names or list of lists or dict, default False

boolean. True -> 解析索引
list of ints or names. e.g. If [1, 2, 3] -> 解析1,2,3列的值作为独立的日期列；
list of lists. e.g. If [[1, 3]] -> 合并1,3列作为一个日期列使用
dict, e.g. {‘foo’ : [1, 3]} -> 将1,3列合并，并给合并后的列起名为"foo"

infer_datetime_format : boolean, default False

如果设定为True并且parse_dates 可用，那么pandas将尝试转换为日期类型，如果可以转换，转换方法并解析。在某些情况下会快5~10倍。

keep_date_col : boolean, default False

如果连接多列解析日期，则保持参与连接的列。默认为False。

date_parser : function, default None

用于解析日期的函数，默认使用dateutil.parser.parser来做转换。Pandas尝试使用三种不同的方式解析，如果遇到问题则使用下一种方式。

1.使用一个或者多个arrays（由parse_dates指定）作为参数；

2.连接指定多列字符串作为一个列作为参数；

3.每行调用一次date_parser函数来解析一个或者多个字符串（由parse_dates指定）作为参数。

dayfirst : boolean, default False

DD/MM格式的日期类型

iterator : boolean, default False

返回一个TextFileReader 对象，以便逐块处理文件。

chunksize : int, default None

文件块的大小， See IO Tools docs for more informationon iterator and chunksize.

compression : {‘infer’, ‘gzip’, ‘bz2’, ‘zip’, ‘xz’, None}, default ‘infer’

直接使用磁盘上的压缩文件。如果使用infer参数，则使用 gzip, bz2, zip或者解压文件名中以‘.gz’, ‘.bz2’, ‘.zip’, or ‘xz’这些为后缀的文件，否则不解压。如果使用zip，那么ZIP包中国必须只包含一个文件。设置为None则不解压。

新版本0.18.1版本支持zip和xz解压

thousands : str, default None

千分位分割符，如“，”或者“."

decimal : str, default ‘.’

字符中的小数点 (例如：欧洲数据使用’，‘).

float_precision : string, default None

Specifies which converter the C engine should use for floating-point values. The options are None for the ordinary converter, high for the high-precision converter, and round_trip for the round-trip converter.

指定

lineterminator : str (length 1), default None

行分割符，只在C解析器下使用。

quotechar : str (length 1), optional

引号，用作标识开始和解释的字符，引号内的分割符将被忽略。

quoting : int or csv.QUOTE_* instance, default 0

控制csv中的引号常量。可选 QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3)

doublequote : boolean, default True

双引号，当单引号已经被定义，并且quoting 参数不是QUOTE_NONE的时候，使用双引号表示引号内的元素作为一个元素使用。

escapechar : str (length 1), default None

当quoting 为QUOTE_NONE时，指定一个字符使的不受分隔符限值。

comment : str, default None

标识着多余的行不被解析。如果该字符出现在行首，这一行将被全部忽略。这个参数只能是一个字符，空行（就像skip_blank_lines=True）注释行被header和skiprows忽略一样。例如如果指定comment='#' 解析‘#empty\na,b,c\n1,2,3’ 以header=0 那么返回结果将是以’a,b,c'作为header。

encoding : str, default None

指定字符集类型，通常指定为'utf-8'. List of Python standard encodings

dialect : str or csv.Dialect instance, default None

如果没有指定特定的语言，如果sep大于一个字符则忽略。具体查看csv.Dialect 文档

tupleize_cols : boolean, default False

Leave a list of tuples on columns as is (default is to convert to a Multi Index on the columns)

error_bad_lines : boolean, default True

如果一行包含太多的列，那么默认不会返回DataFrame ，如果设置成false，那么会将改行剔除（只能在C解析器下使用）。

warn_bad_lines : boolean, default True

如果error_bad_lines =False，并且warn_bad_lines =True 那么所有的“bad lines”将会被输出（只能在C解析器下使用）。

low_memory : boolean, default True

分块加载到内存，再低内存消耗中解析。但是可能出现类型混淆。确保类型不被混淆需要设置为False。或者使用dtype 参数指定类型。注意使用chunksize 或者iterator 参数分块读入会将整个文件读入到一个Dataframe，而忽略类型（只能在C解析器中有效）

buffer_lines : int, default None

不推荐使用，这个参数将会在未来版本移除，因为他的值在解析器中不推荐使用

compact_ints : boolean, default False

不推荐使用，这个参数将会在未来版本移除

如果设置compact_ints=True ，那么任何有整数类型构成的列将被按照最小的整数类型存储，是否有符号将取决于use_unsigned 参数

use_unsigned : boolean, default False

不推荐使用：这个参数将会在未来版本移除

如果整数列被压缩(i.e. compact_ints=True)，指定被压缩的列是有符号还是无符号的。

memory_map : boolean, default False

如果使用的文件在内存内，那么直接map文件使用。使用这种方式可以避免文件再次进行IO操作。

GFPGAN - 腾讯开源的图形修复算法修复算法小众AI AI开源开源算法人工智能
GFPGAN是腾讯开源的人脸修复算法，它利用预先训练好的面部修复算法，并且封装了各种丰富多样的先验因素进行盲脸(blindface)修复，可以对老照片进行很好的修复。35800Stars5900Forks345Issues11贡献者ApacheLicensePython语言代码:https://github.com/TencentARC/GFPGAN更多AI开源软件：AI开源-小众AI主要功能盲修
ubuntu电脑调用摄像头拍摄照片山山而川_R Drugs opencv 计算机视觉人工智能
一、1、先装环境condacreate-ntextpython==3.8-ycondaactivatetext2、pipinstallopencv-python-ihttps://pypi.tuna.tsinghua.edu.cn/simple1、连接摄像头拍摄收集数据集capture_image5.pyimportcv2ascvimportosimportdatetimeimportnumpya
【AirSim+Python】image API和无人机获取图像退堂鼓选手⑥ python 无人机开发语言
没错！这个还是b站【皮卡丘上大学啦】up主学习的代码。我就是懒！今天下午敲得每一行代码都不能白敲，放在这方便我以后复制！up主原代码分享链接：在这！！！1.imageAPI获取相机图像使用的时候根据自己需求进行注释：importairsimimportnumpyasnpimportcv2#与airsim建立连接client=airsim.MultirotorClient()client.confi
【AirSim+Python】无人机简单API控制-Python代码退堂鼓选手⑥ 无人机 python
1.无人机起飞/下降importairsim#与airsim建立连接client=airsim.MultirotorClient()client.confirmConnection()#确定是否要用API控制client.enableApiControl(True)#解锁无人机转起来client.armDisarm(True)#join()等任务结束再进行下个任务#起飞client.takeoff
使用 Python 和 Tesseract 实现验证码识别一休哥助手 mfc c++
验证码识别是一个常见且实用的技术需求，尤其是在自动化测试和数据采集场景中。通过开源OCR（OpticalCharacterRecognition，光学字符识别）工具Tesseract，结合Python的强大生态，我们可以高效实现验证码识别任务。本篇博客将以详细步骤和代码示例，介绍如何使用Python和Tesseract实现验证码识别，包括原理解析、图像预处理、代码实现以及优化策略。一、验证码识别的
Python知识点：基于Python技术，如何使用AirSim进行无人机模拟超哥同学 Python系列 python 无人机开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用Python和AirSim进行无人机模拟无人机技术的发展为许多行业带来了革命性的变化，尤其是在航拍、物流配送和农业监测等领域。然而，无人机的操作和开发需要一个安全且可控的环境来进行测试和训练。AirSim就是这样一个模拟器，它提供了一个基于UnrealEngine的逼真环境，
AirSim python通信环境配置和无人机控制 fegxg 无人机 python
本人学习课程链接【AirSim】无人机踏上飞行的征途——第三课-AirSim&Python通信环境配置以及无人机起飞降落、位置控制&速度控制_哔哩哔哩_bilibili，本系列文章对其代码做一个总结和解读一、起飞降落importairsim#connecttotheAirsimsimulatorclient=airsim.MultirotorClient()client.confirmConnec
设计模式Python版抽象工厂模式小王子1024 设计模式Python版设计模式 python 抽象工厂模式
文章目录前言一、抽象工厂模式二、抽象工厂模式示例三、抽象工厂模式在Django框架中的应用前言GOF设计模式分三大类：创建型模式：关注对象的创建过程，包括单例模式、简单工厂模式、工厂方法模式、抽象工厂模式、原型模式和建造者模式。结构型模式：关注类和对象之间的组合，包括适配器模式、桥接模式、组合模式、装饰模式、外观模式、享元模式和代理模式。行为型模式：关注对象之间的交互，包括职责链模式、命令模式、解
深入理解Python的@staticmethod和@classmethod装饰器清水白石008 Python题库 python 开发语言 python 开发语言
深入理解Python的@staticmethod和@classmethod装饰器引言在Python的面向对象编程中，类方法和静态方法是除了实例方法之外的两种重要方法类型。它们允许我们在不创建类实例的情况下调用类的方法，或者在调用时直接引用类本身。Python提供了@staticmethod和@classmethod这两个装饰器，用于定义类方法和静态方法。然而，许多初学者可能会对这两种方法感到困惑，
【树莓派入门系列】opencv安装 ^Mark_Zhang^ python opencv 人工智能
树莓派入门之Opencv库安装提示：本文树莓派4B所搭载的系统是Raspi11本教程不需要任何换源，直接用树莓派自带的源就行文章目录一、树莓派版本查看二、Opencv库安装1.扩大系统文件（常规操作）2.安装aptitude软件包3.CMake工具安装4.基础库安装5.opencv-python库5.注意点一、树莓派版本查看代码如下：uanme-a或lsb_release-a二、Opencv库安装
Kmeans与KMedoids聚类对比以及python实现呵呵爱吃菜 kmeans 聚类 python
在机器学习领域，聚类算法是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本尽可能相似，而不同簇之间的样本尽可能不同。K-Means和K-Medoids是两种经典的聚类算法，它们都基于划分的思想，但在具体实现和应用场景上存在一些差异。一、算法原理1.K-Means:中心点选择:K-Means算法通过计算簇内所有样本的均值来确定中心点（centroid）。距离度量:通常
Python staticmethod weixin_30449239 python
1@staticmethod静态方法whenthismethodiscalled,wedon'tpassaninstanceoftheclasstoit(aswenormallydowithmethods).Thismeansyoucanputafunctioninsideaclassbutyoucan'taccesstheinstanceofthatclass(thisisusefulwheny
国内python镜像源 qq_34830229 python pip
1、国内python镜像源地址清华：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：http://mirrors.aliyun.com/pypi/simple/中国科技大学https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学：http://pypi.hustunique.com/山东理工大学：http://pypi.s
Python-静态方法（@staticmethod） lhh_qrsly Python
@staticmethod静态方法只是名义上归属类管理，但是不能使用类变量和实例变量，是类的工具包放在函数前（该函数不传入self或者cls），所以不能访问类属性和实例属性classcal:cal_name='计算器'def__init__(self,x,y):self.x=xself.y=y@property#在cal_add函数前加上@property，使得该函数可直接调用，封装起来defca
python中@staticmethod方法 elie813 python基础
python中@staticmethod方法，类似于C++中的static，方便将外部函数集成到类体中，主要是可以在不实例化类的情况下直接访问该方法，如果你去掉staticmethod,在方法中加self也可以通过实例化访问方法也是可以集成。classTest:def__init__(self,num):self.num=num;defcout_num(self):print(self.num)@
【第四天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-两种常见的递归算法（持续更新） Long_poem python 算法开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Python数据结构与算法的详细介绍1.Python中的常用的搜索算法2.两种常见的递归算法3.两种详细的递归算法代码1）斐波那契数列2）阶乘总结前言提示：这里可以添加本文要记录的大概内容：第一天Python数据结构与算法的详细介绍第二天五种常见的排序算法第三天两种常见的搜索算法第四天两种常见的递归算法第五天一种常见的
Python 装饰器详解：@staticmethod 与 @classmethod 的区别与用法：中英双语阿正的梦工坊 Python python 开发语言
缘由：今天在看Huggingface的源码的时候，https://github.com/huggingface/transformers/blob/v4.47.1/src/transformers/models/auto/configuration_auto.py#L897对几个装饰器有所疑问，学习一下。Python装饰器详解：@staticmethod与@classmethod的区别与用法在Py
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
基于Python的豆瓣电影爬虫数据分析可视化设计与实现计算机软件程序设计 Python爬虫 Python程序设计数据分析 python 爬虫
【1】系统介绍1.研究背景随着互联网的快速发展，电影产业已经成为全球文化产业的重要组成部分。观众对电影的需求和兴趣日益增长，而在线电影平台如豆瓣电影（DoubanMovie）成为了用户获取电影信息、发表评论和评分的主要渠道之一。豆瓣电影不仅提供了丰富的电影资料，还拥有庞大的用户群体，这些用户生成的内容（UGC）为电影市场分析提供了宝贵的数据资源。然而，尽管豆瓣电影平台提供了大量的公开数据，但这些数
Python实现itemCF协同过滤推荐算法并计算召回率、准确率、F1分数和覆盖率计算机软件程序设计机器学习 python 推荐算法开发语言
一个完整的Python实现，包括ItemCF协同过滤算法的实现以及召回率、准确率、F1分数和覆盖率等评估指标的计算。将使用Pandas进行数据处理，Scikit-learn进行相似度计算，并编写函数来生成推荐列表和评估模型性能。1.数据准备首先，需要准备数据。假设有一个用户-物品评分矩阵（可以是显式评分或隐式反馈），表示用户对不同酒店的喜好程度。这里可以使用Pandas来处理数据。importpa
自然语言处理（NLP）-总览图学习汤姆和佩琦 NLP 自然语言处理学习人工智能
文章目录自然语言处理（NLP）-总览图学习1.一张总览图的学习1.语音学（Phonology）2.形态学（Morphology）3.句法学（Syntax）4.语义学（Semantics）5.推理（Reasoning）小结自然语言处理（NLP）-总览图学习转自《Python自然语言处理第二版》1.一张总览图的学习这张图片展示了一个自然语言处理的流程模型，涵盖了从语音分析到应用推理和执行的多个阶段，每
panda3d python_Panda3D weixin_39994949 panda3d python
Panda3DPanda3Disagameengine,aframeworkfor3DrenderingandgamedevelopmentforPythonandC++programs.Panda3Disopen-sourceandfreeforanypurpose,includingcommercialventures,thankstoitsliberallicense.Tolearnmore
Python Web应用开发进阶：集成数据库与SQLAlchemy Evaporator Core Python开发经验 python 前端数据库
引言在上一篇《PythonWeb应用开发入门：从零搭建一个简单的Web应用》中，我们学习了如何使用Flask框架搭建一个简单的Web应用。然而，大多数Web应用都需要与数据库进行交互，以存储和检索数据。本文将深入探讨如何在Flask应用中集成数据库，并使用SQLAlchemy进行数据操作。一、数据库选择与安装1.1选择数据库在PythonWeb开发中，常用的数据库有SQLite、MySQL、Pos
震惊！996加班写教程？OUT了！我用Python+AI，一键自动生成，效率提升100倍！ lizhijianwill 人工智能 python 开发语言改行学it java javascript
导语：你是否还在为了撰写技术教程而苦苦挣扎？是否还在996的工位上，熬夜爆肝，只为输出一篇高质量的技术文档？醒醒吧！这个时代变了！今天，我就要告诉你一个颠覆传统的秘密武器，让你彻底告别低效的手工教程编写模式，拥抱AI，解放生产力，让效率飞起来！时代焦虑：AI浪潮来袭，你还在用“石器时代”的方法写教程？2024年，AI技术已经渗透到我们生活的方方面面。“AI智能体”、“思维链”、“生产力革命”这些词
基于Python的自然语言处理系列（2）：Word2Vec（负采样）会飞的Anthony 自然语言处理人工智能信息系统自然语言处理 word2vec 人工智能
在本系列的第二篇文章中，我们将继续探讨Word2Vec模型，这次重点介绍负采样（NegativeSampling）技术。负采样是一种优化Skip-gram模型训练效率的技术，它能在大规模语料库中显著减少计算复杂度。接下来，我们将通过详细的代码实现和理论讲解，帮助你理解负采样的工作原理及其在Word2Vec中的应用。1.Word2Vec（负采样）原理1.1负采样的背景在Word2Vec的Skip-g
如何运用python爬虫获取大型资讯类网站文章，并同时导出pdf或word格式文本？大懒猫软件深度学习 python 网络爬虫自然语言处理
这里，我们以比较知名的商业新知网站https://www.shangyexinzhi.com/为例进行代码编写，下面进行代码应用思路。第一部分，分析网站结构首先，我们来分析，要使用Python技术分析一个网站的结构，通常可以通过以下步骤实现：获取网站的HTML内容：使用requests库来获取网站的HTML源代码。解析HTML内容：使用BeautifulSoup库来解析HTML，提取网站的结构信息
Python知识点：基于Python工具和技术，如何使用Truffle进行智能合约开发与部署杰哥在此 Python系列 python 智能合约开发语言编程面试
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用Truffle与Python进行智能合约开发与部署Truffle是一个强大的开发框架，它为以太坊智能合约的开发、测试和部署提供了一整套工具。虽然Truffle主要使用JavaScript和Solidity，但是它也可以与Python工具和技术配合使用，以实现更灵活的开发流程。
leetcode_字符串 14.最长公共前缀函数 MiyamiKK57 leetcode 算法 python
14.编写一个函数来查找字符串数组中的最长公共前缀如果不存在公共前缀，返回空字符串“”1.startswith()方法调用Python内置的startwith()方法，用于检查字符串是否以指定的子字符串开头语法：str.startswith(prefix[,start[,end]])prefix：指定要检查的开头子字符串，可以是一个字符串或包含多个字符串的元组。start（可选）：起始检查的位置（
25.1.6 python基础程序练习 MiyamiKK57 python
23.暂停后输出暂停一段时间后输出importtimetime.sleep(2)#停顿2秒后输出print('helloworld')24.成绩if语句利用条件运算符的嵌套来完成此题；学习成绩>=90分的同学用A表示，60-89分的用B表示，60以下用C表示a=int(input('请输入成绩：'))ifa>=90:print('A')elif60<=a<90:print('B')else:pri
使用Python进行3D游戏开发 2301_79366332 python 3d pygame Python
Python是一种功能强大且易于学习的编程语言，它也可以用于开发3D游戏。虽然Python在游戏开发方面可能不如其他专门的游戏引擎和语言，但它仍然提供了许多库和工具，可以帮助您构建简单的3D游戏。在本文中，我们将探讨如何使用Python进行基本的3D游戏开发。安装所需的库要开始使用Python进行3D游戏开发，您需要安装一些必要的库。其中，最重要的是Pygame库和PyOpenGL库。Pygame
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

pandas.read_csv学习笔记

你可能感兴趣的:(python)