能思想的苇草2

利用python进行数据分析学习笔记1(数据加载，存储与文件格式)

读写文本格式的数据

将工作目录下的一个csv文件读入一个DataFrame中

df = pd.read_csv('examples/ex1.csv')

也可以是哟个read_table方法，并指定分隔符

pd.read_table('examples/ex1.csv',sep=',')

有些数据文件没有标题行，如果直接读取，会将第一行默认设置为标题行，传入header=None参数可以避免。

pd.read_csv('examples/ex2.csv')    #将第一行设置为标题行
pd.read_csv('examples/ex2.csv',header=None)

也可以通过name参数手动设定标题行。

pd.read_csv('examples/ex2.csv',names=['a','b','c','d','message'])

通过index_col参数可以将源数据的某列设置为行索引列。

names = ['a','b','c','d','message']
pd.read_csv('examples/ex2.csv',names=names,index_col = 'message')

将names列表设置为标题行，index_col参数将message列设置为行索引列。

可以设置多个列为行索引列，做成层次化索引。

parsed = pd.read_csv('examples/csv_mindex.csv',index_col=['key1','key2'])

设置key1和key2两层索引

有些表格可能不是用固定的分隔符来分隔字段的。

list(open('examples/ex3.txt'))

上面的文件中的数据使用数量不同的空白字符间隔开的，可以传入一个正则表达式作为分隔符。

result = pd.read_table('examples/ex3.txt',sep='\s+')

有时数据文件中不一定全都是数据。

比如这个数据文间的0、2、3行都是注释

通过skiprows参数可以跳过数据文件的指定行。

pd.read_csv('examples/ex4.csv',skiprows=[0,2,3])

读取的数据文件中可能会存在缺失值。

result = pd.read_csv('examples/ex5.csv')

使用isnull方法可以返回一个布尔型DataFrame，缺失值会显示为True。

据说na_values参数可以设置不同的标记值来表示缺失值

result = pd.read_csv('examples/ex5.csv', na_values=['test'])

实际好像没什么卵用。

将各列的缺失值用不同的NA标记值。

sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
pd.read_csv('examples/ex5.csv', na_values=sentinels)

read_csv/read_table的一些参数介绍。

逐块读取文本文件

看大文件之前可以设置最大显示行数为10行。

pd.options.display.max_rows = 10
result = pd.read_csv('examples/ex6.csv')

显示头五行和尾五行。

read_csv方法中可以设置nrows参数控制读取行数。

pd.read_csv('examples/ex6.csv',nrows=5)    #只读五行

要逐块读取文件，设置chunksize参数。

chunker = pd.read_csv('examples/ex6.csv',chunksize=1000)    #将10000行的数据文件拆分成10个1000行。
tot = pd.Series([])    #创建一个空Series
for piece in chunker:    #迭代10个数据块
    tot = tot.add(piece['key'].value_counts(),fill_value=0)
#对每个数据块进行分类求和，key列中有字母也有数字，求出它们的数量
tot = tot.sort_values(ascending=False)    #降序排序

通过sort_index方法可以对索引进行排序

将数据写出到文本格式

通过to_csv方法，可以将数据写到一个用逗号分隔的文件中。

data = pd.read_csv('examples/ex5.csv')    #读取文件数据
data.to_csv('examples/test.csv')    #将文件数据转存到另外一个文件中

test = pd.read_csv('examples/test.csv')

默认是逗号分隔，可以选择其他分隔符。

缺失值会用空字符串来表示，可以通过na_rep参数设置为其他标记值。

data.to_csv(sys.stdout,na_rep='test')

设置index和header参数可以不保存行索引或者列索引

data.to_csv(sys.stdout,index=False,header=False)

还可以设置columns参数选择写入部分数据。

data.to_csv(sys.stdout,index=False,columns=['a','b','c'])

Series也有to_csv方法

dates = pd.date_range('1/1/2000',periods=7)    #创建一个日期序列
ts = pd.Series(np.arange(7),index=dates)    #将日期序列作为Series的索引
ts.to_csv('examples/tseries.csv')

处理分隔符格式

有一个数据文件如下

对任何单字符分隔符文件，可直接用python内置的csv模块，将任意已打开的文件或文件型的对象传给csv.reader

import csv 
f = open('examples/ex7.csv')
reader = csv.reader(f)

打开指定文件，通过csv模块的reader方法将数据读取至一个变量中。

for line in reader:
    print(line)

为得到一个格式合理的数据，先进行整理

with open('examples/ex7.csv') as f:
    lines = list(csv.reader(f))        #读取文件到一个多行列表

header,values = lines[0],lines[1:]    #分标题行和数据行

构造字典

data_dic = {h:v for h,v in zip(header,zip(*values))}

JSON数据

JSON数据示例

通过json.loads将str类型的数据转成dict。

通过json.dumps函数将dict转为str

将JSON对象转为DataFrame最简单的方法是向DataFrame构造器传入一个字典的列表，选取数据字段的子集。

siblings = pd.DataFrame(result['siblings'],columns=['name','age'])

将字典result中的siblings键对应的数据取出，并选择性地只取name和age列数据。

pd.read_json可以自动将json数据转换为Series或DataFrame

源文件是一个含有三个dict的list。

data = pd.read_json('examples/example.json')

利用python进行数据分析学习笔记1(数据加载，存储与文件格式)_第26张图片

将数据从pandas输出到JSON，可以用to_json方法

默认返回一个dict的字符串，以列索引为键，值是行索引和数值组成dict。

XML和HTML：Web信息收集

pandas.read_html默认条件下会搜索，解析

标签内的表格数据，结果是一个列表的DataFrame对象。

tables = pd.read_html('examples/fdic_failed_bank_list.html')

只有一个表格。

是列表的形式

通过切片即可转为DataFrame。

取前五行。

通过pandas.to_datetime()方法可以获取时间

close_timestamps = pd.to_datetime(failures['Closing Date'])

获取DataFrame的Closing Date列的日期，返回一个Series。

对日期的年进行描述统计

close_timestamps.dt.year.value_counts()

利用lxml.objectify解析XML

一个xml文件中的一条记录示例

用lxml.objectify解析xml文件，在用getroot得到xml文件的根节点的引用。

from lxml import objectify
path = 'datasets/mta_perf/Performance_MNR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()

root.INDICATOR返回一个用于产生各个INDICATOR的生成器。

data = []
skip_fields = ['PARENT_SEQ','INDICATOR_SEQ','DESIRED_CHANGE','DECIMAL_PLACES']

for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)

上面代码的意思是迭代每条INDICATOR记录，跳过排除列表中的几个节点，将其他节点信息导入到一个dict中，再汇总到list中。

最后将这组字典转为DataFrame

perf = pd.DataFrame(data)
perf.head()

二进制数据格式

通过pandas.to_pickle方法，可以将数据以pickle格式保存到磁盘上

frame = pd.read_csv('examples/ex1.csv')    #读取一个数据文件
frame.to_pickle('examples/frame_pickle')    #通过to_pickle保存

通过pandas.read_pickle可以读取pickle化的数据。

使用HDF5格式

这是一种存储大规模科学数组数据的文件格式。

frame = pd.DataFrame({'a':np.random.randn(100)})
store = pd.HDFStore('mydata.h5')    #在工作目录下创建一个h5文件存储数据
store['obj1'] = frame    #将新建的DataFrame保存到h5文件中，命名为obj1
store['obj1_col'] = frame['a']

获取HDF5文件中DataFrame

HDFStore支持两种存储模式，'fixed'和'table'，后者更慢，但支持特殊语法查询。

store.put('obj2',frame,format='table')
store.select('obj2',where=['index >= 10 and index <= 15'])

通过DataFrame的to_hdf方法可以将DataFrame保存至新建的h5文件中。

通过pd.read_hdf可以读取h5文件的指定DataFrame中的符合某条件的数据。

frame.to_hdf('mydata2.h5','obj3',format='table')
pd.read_hdf('mydata2.h5','obj3',where=['index < 5'])

HDF5不是数据库，适合一次写多次读的数据集，虽然数据可以任何时候添加到文件中，如果同时发生多个写操作，文件可能被破坏。

读取Microsoft Excel文件

通过pd.ExcelFile方法创建一个实例

xlsx = pd.ExcelFile('examples/ex1.xlsx')

再用read_excel方法读取具体工作表。

也可以直接将文件路径传到pd.read_excel方法中。

frame = pd.read_excel('examples/ex1.xlsx','Sheet1')

若要将数据写入Excel中，先用pd.ExcelWriter创建一个实例，再通过DataFrame的to_excel方法将数据写入文件的指定工作表中。

writer = pd.ExcelWriter('examples/ex2.xlsx')
frame.to_excel(writer,'Sheet1')
writer.save()

利用python进行数据分析学习笔记1(数据加载，存储与文件格式)_第40张图片

也可以不创建实例，直接将路径传入到to_excel方法中。

frame.to_excel('examples/ex2.xlsx')

Web APIs交互

许多网站有一些通过JSON格式或其他格式提供数据的公共API，可以通过request包来访问。

import requests
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)

通过request模块的get方法获取网站返回的信息。

通过返回对象的json方法可以得到一个被解析过的JSON字典。

data = resp.json()    #data的类型是list
data[0]['title']

根据data创建DataFrame

issues = pd.DataFrame(data,columns=['number','title','labels','state'])
issues.head()

数据库交互

将数据从SQL加载到DataFrame中。

import sqlite3
query = """
CREATE TABLE test1
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""
con = sqlite3.connect('mydata.sqlite')    #连接到指定数据库
con.execute(query)    #执行SQL语句，此语句用于创建表格
con.commit()    #提交

插入几行数据

data = [('Atlanta', 'Georgia', 1.25, 6),
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test1 VALUES(?, ?, ?, ?)"
con.executemany(stmt,data)    #将data中的数据通过stmt的sql语句插入到test1表中

通过sql语句到SQL中选取数据，返回一个元组列表。

cursor = con.execute('select * from test1')    #选择表1中的全部数据
rows = cursor.fetchall()

cursor.description方法返回一个元组组成的列表。

cursor.description

可以根据这个结果得到列索引。

根据上面得到的数据和索引，可以从SQL中获取数据创建DataFrame。

pd.DataFrame(rows,columns=[x[0] for x in cursor.description])

通过sqlalchemy模块的create_engine方法可以连接python和数据库，结合pd.read_sql方法，传入查询语句和连接变量可以获取数据。

import sqlalchemy as sqla
db = sqla.create_engine('sqlite:///mydata.sqlite')
pd.read_sql('select * from test1',db)

测试不知道为什么没有数据。

本学习笔记主要内容来自：https://www.jianshu.com/p/ac7bec000dad

你可能感兴趣的:(python)

华为od 机试 2025 B卷 - 数值同化 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机试2025B卷华为OD机考2025B卷
数值同化华为OD机试真题目录:点击去查看华为OD2025B卷100分题型题目描述存在一个m*n的二维数组，其成员取值范围为0，1，2。其中值为1的元素具备同化特性，每经过1S，将上下左右值为0的元素同化为1，而值为2的元素，免疫同化。将数组所有成员随机初始化为0或2，再将矩阵的[0,0]元素修改为1，在经过足够长的时间后，求矩阵中有多少个元素是0或2（即0和2数量之和）。输入描述输入的前两个数字是
使用Python调用C++：简单易学的方法程序员杨弋 Python全栈工程师学习指南 python c++开发语言
Python是一种易于学习和理解的编程语言，而C++是强大的编程语言。Python代码可以在很短的时间内编写出来，但如果涉及到大量的计算或需要高性能，则需要使用更快、更高效的编程语言。在这种情况下，Python调用C++是一种常见的方法，因为它可以提供C++的高速性能和Python的便捷性。在本文中，我们将介绍如何使用Python调用C++。首先，需要创建C++函数库（DLL），并确保该库包含需要
python之vars函数使用介绍 yueguang8 python python 开发语言
在Python中,vars()是一个内置函数,它可以用来获取对象的属性字典。1.vars()函数的用法无参数调用vars()：当不带参数调用vars()时,它会返回当前本地作用域中的变量名和值组成的字典。带参数调用vars()：当传递一个对象作为参数时,vars()会返回该对象的属性字典。这等价于object.__dict__。下面是一些示例:#无参数调用x=10y=20print(vars())
python中vars()的作用 m0_45093979 python 开发语言
在Python中，vars()是一个内置函数，用于返回对象的属性和属性值的字典。它可以用于获取一个对象的命名空间中的所有变量和属性，然后以字典的形式返回这些变量和属性的名称及其对应的值。如果没有提供参数给vars()，它会返回当前作用域（scope）的变量和属性。通常在函数内部调用vars()，它将返回函数的局部命名空间中的所有变量和属性。在模块级别调用vars()，它将返回当前模块的全局命名空间
C++调用python的方法
一、C++中调用python接口在线手册：https://docs.python.org/3/c-api/intro.htmlWindows环境下python安装时提供了给C++调用的头文件及库文件。C++中引用头文件include，放在所有标准引用之前。将头文件目录、库文件目录添加到工程属性。调用python提供的API，传入模块名、函数名、函数参数（封装成PyObject的形式）获取返回值并解
在Windows系统中配置Python 3.11环境安装教程俊星学长 windows python3.11
在Windows系统中配置Python3.11环境安装教程是一个相对直接且简单的过程，但为了确保所有步骤都被详细覆盖，我将分步介绍，并提供必要的背景信息和注意事项。以下是详细的安装教程：一、下载Python3.11首先，需要从Python的官方网站下载Python3.11的安装包。请按照以下步骤操作：访问Python官方网站：打开浏览器，访问Python的官方网站。在网站首页，找到并点击“Down
python vars的作用 jjw_zyfx python python 开发语言后端
classMyDict:name="jjw"age=14result=vars(MyDict)print(result)print("*"*30)print(MyDict.__dict__)#说明vars的一个做用就是其等价于调用类的__dict__属性print(result==MyDict.__dict__)print('-'*30)print(vars())print('#'*30)#函数会
项目篇：加入Python程序之如何在Python中使用C++？ guangcheng0312q python c++windows 开发语言
项目篇：加速Python程序之如何在Python中使用C++？通常像一些耗时的操作，我们期望在C++中去实现，然后使用Python去调用对应的接口，或者因为底层库的原因，需要支持对外的PythonAPI，那么我们通常需要支持在Python中访问C++，如何实现呢？方法比较多，本节以pybind11为例，引入一个完整的项目工程模版，如果你后续有这种需求，可以基于模版去修改。注：(懒人版)本节的所有代
Python与c++互相调用（pybind11）欢迎下辈子光临 CPP Python python c++开发语言
1.安装pybind11看网上使用pipinstallpybind11,没有弄明白，因此下载源码编译。1.1下载pybind11gitclonehttps://github.com/pybind/pybind11.git1.2源码编译cd/pybind11mkdirbuildcdbuildcmake..make编译完成2.cpp样例//example.cpp#include#include"Abs
Python vars() 函数：探索对象的内部程序员喵哥 Python python 开发语言
更多Python学习内容：ipengtao.comPython是一门具有强大而灵活的编程语言，可以访问和探索对象的内部属性。vars()函数是Python标准库中的一个强大工具，它可以获取对象的属性和属性值，并以字典的形式返回它们。在本文中，将深入研究vars()函数，探讨它的用途、示例和适用场景。前言在Python中，对象是一切。对象可以是数字、字符串、列表、字典、函数、类实例等等。每个对象都可
python和C++相互调用使用妄想出头的工业炼药师 c++开发语言
结论：首选PyBind11：综合性能、易用性最佳（GitHub⭐48k+）优先考虑Cython：涉及大量科学计算或已有Cython代码避免Boost.Python（历史包袱重）和SWIG（配置复杂），除非维护旧项目。python调用C++接口C++调用python接口在C++中使用Python库，特别是使用pybind11，是一个非常强大的方法，可以让你在C++项目中轻松地利用Python的强大功
华为OD机试 2025B卷 - 士兵过河 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机考2025A卷华为OD2025B卷华为OD机试2025B卷华为OD机考2025B卷
士兵过河2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD2025B卷200分题型题目描述一支N个士兵的军队正在趁夜色逃亡，途中遇到一条湍急的大河。敌军在T的时长后到达河面，没到过对岸的士兵都会被消灭。现在军队只找到了1只小船，这船最多能同时坐上2个士兵。当1个士兵划船过河，用时为a[i]；0<=i
【无标题】Python ---Day2 复合类型之序列类型、映射类型和集合类型的学习！！！
系列文章目录文章目录系列文章目录前言一、复合类型初识1.1列表类型1.1.1列表创建1.1.2列表运算1.1.3列表访问1.1.3.1索引1.1.3.2反向索引1.1.3.3切片1.1.4列表操作1.1.4.1添加数据1.1.4.2修改数据1.1.4.3删除数据1.2元组类型1.2.1元组创建1.2.2元组操作1.2.2.2查看元组1.2.2.3解包技能1.2.3元组运算1.2.4元组不可变二、映
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
Python中字符串的操作方法幻鸩605 python java 开发语言
字符串拼接使用+运算符将多个字符串连接起来。例如：s1="Hello"s2="World"result=s1+""+s2print(result)#输出：HelloWorld字符串重复使用*运算符重复字符串。例如：s="abc"result=s*3print(result)#输出：abcabcabc字符串长度使用len()函数获取字符串长度。例如：s="Python"length=len(s)pr
【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 华为OD机试 2025B卷
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
后端领域的自然语言处理技术应用大厂资深架构师 Spring Boot 开发实战自然语言处理 easyui 人工智能 ai
后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语
【图像处理基石】如何检测到画面中的ppt并对其进行增强？
1.入门版ppt检测增强工具我们介绍一个使用Python进行PPT检测并校正画面的实现方案。这个方案主要利用OpenCV进行图像处理，通过边缘检测和透视变换技术来识别并校正PPT画面。importcv2importnumpyasnpfromPILimportImageimportmatplotlib.pyplotaspltclassPPTDetector:def__init__(self):#初始
Python中什么时候需要返回值，什么时候不需要返回值？？？似乎很简单 Python学习日记 python 开发语言
在Python中，函数是否需要返回值取决于它的设计目的和功能需求。需要返回值的情况计算结果需要被后续代码使用当函数的主要目的是计算或生成数据，且调用方需要这些结果时：defadd(a,b):returna+b#结果需要被其他代码使用total=add(3,5)#需要返回值需要传递状态或信息如果函数执行后需要告诉调用方是否成功、返回状态码或错误信息：defvalidate_input(input):
Python中的高阶函数---便捷的语法书写！！！！，可以简化一些函数的书写！！！似乎很简单 Python学习日记 python 开发语言学习笔记
目录1.map()函数示例1：单可迭代对象（平方运算）示例2：多可迭代对象（元素相加）2.mapvs列表推导式什么是列表推导式（ListComprehension）？对比示例列表推导式的优势map的优势5.实际应用场景场景1：批量转换数据类型场景2：多列数据处理场景3：链式操作6.性能与注意事项总结3.sorted()函数1.语法：sorted(iterable,*,key=None,revers
Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南
数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局
scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他