laforet

python数据读取和分析_Python数据分析(四)：数据的获取与处理

在python的学习过程中，我们会经常遇到各种格式的数据加载、处理与存储。今天我们来总结一下常见格式数据的读取与处理。

一、各种各样的文本数据

1.1 CSV与TXT读取

1、csv

csv 文件格式的本质是一种以文本存储的表格数据(使用 Excel 工具即可读写 csv 文件)。csv 文件的每行代表一行数据，每行数据中每个单元格内的数据以逗号隔开。首先我们先来看一下数据长什么样子，这里使用的是jupyter notebook编辑器。

!cat '/opt/jupyter_file/dataset/数据获取与分析/data1.csv'

a,b,c,d,message

1,2,3,4,hello

5,6,7,8,world

9,10,11,12,foo

接下来我们看一下数据的读取：

df=pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data1.csv')

或者下面一种：

#需要知道分隔符

pd.read_table('/opt/jupyter_file/dataset/数据获取与分析/data1.csv',sep=',')

我们也可以设置一下参数：

#read_csv读取时会自动识别表头，

#数据有表头时不能设置header为空(默认读取第一行，即header=0)；

#数据无表头时，若不设置header，第一行数据会被视为表头，应传入names参数设置表头名称或设置header=None。

pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data1.csv',header=None)

pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data1.csv',names=['a','b','c','d','e'])

还可以设置一下索引列：

names=['a','b','c','d','e']

pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data1.csv',names=names,index_col='e')#制定索引列

相对复杂的索引列：

pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/csv_mindex.csv',index_col=['key1','key2'])

!cat '/opt/jupyter_file/dataset/数据获取与分析/data4.csv'

# hey!

a,b,c,d,message

# just wanted to make things more difficult for you

# who reads CSV files with computers, anyway?

1,2,3,4,hello

5,6,7,8,world

9,10,11,12,foo

pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data4.csv',skiprows=[0,2,3])#跳过索引为0，2，3的行

result=pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data5.csv')

result

pd.isnull(result)

result=pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data5.csv',na_values=['null'])

result

sentinels={'message':['foo','NA'],'something':['two']}

pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data5.csv',na_values=sentinels)#设置为0

这里我总结一下read_csv()常用到的参数

类型

说明

sep

指定分隔符。如果不指定参数，则会尝试使用逗号分隔。

delimiter

定界符，备选分隔符(如果指定该参数，则sep参数失效)

delim_whitespace

指定空格(例如’ ‘或者’ ‘)是否作为分隔符使用，等效于设定sep='\s+'。如果这个参数设定为Ture那么delimiter 参数失效。

header

指定行数用来作为列名，数据开始行数

names

用于结果的列名列表，如果数据文件中没有列标题行，就需要执行header=None。

index_col

用作行索引的列编号或者列名，如果给定一个序列则有多个行索引。

dtype

每列数据的数据类型。

skiprows

需要忽略的行数(从文件开始处算起)，或需要跳过的行号列表(从0开始)。

skipfooter

从文件尾部开始忽略。 (c引擎不支持)

nrows

需要读取的行数(从文件头开始算起)。

na_values

一组用于替换NA/NaN的值。如果传参，需要制定特定列的空值。默认为‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘nan’`.

na_filter

是否检查丢失值(空字符串或者是空值)。对于大文件来说数据集中没有空值，设定na_filter=False可以提升读取速度。

skip_blank_lines

如果为True，则跳过空行；否则记为NaN。

encoding

指定字符集类型，通常指定为'utf-8'.

2、txt

第一种：适合文本类型的读取，编排没有格式要求

f=open('/opt/jupyter_file/dataset/数据获取与分析/data3.txt')

f.read()

第二种：有一定的格式，这时可以通过指定分隔符来解决

list(open('/opt/jupyter_file/dataset/数据获取与分析/data3.txt'))#提前看一下内容

[' A B C\n',

'aaa -0.264438 -1.026059 -0.619500\n',

'bbb 0.927272 0.302904 -0.032399\n',

'ccc -0.264273 -0.386314 -0.217601\n',

'ddd -0.871858 -0.348382 1.100491\n']

#或者另一种方式

!cat '/opt/jupyter_file/dataset/数据获取与分析/data3.txt'

A B C

aaa -0.264438 -1.026059 -0.619500

bbb 0.927272 0.302904 -0.032399

ccc -0.264273 -0.386314 -0.217601

ddd -0.871858 -0.348382 1.100491

pd.read_table('/opt/jupyter_file/dataset/数据获取与分析/data3.txt',sep='\s+')#分隔符，正则表达式(规则)，至少有一个空格

1.2 分片/块读取文本数据

result=pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data6.csv')

result

pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data6.csv',nrows=5)#读取前5行

chunker=pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data6.csv',chunksize=100)#分块读取，表明每100行为1个chunk。

#返回的reader是TextFileReader类型，它指向若干个chunk位置，只在访问数据的时候才真正把数据读入到内存。

#这是一个可迭代的类型，采用for in的形式，即可逐个访问chunk。

#每个chunk都是dataframe类型的。

chunker

tot=Series([])

for piece in chunker:

#取并集，value求和

#fill_value参数使a中value的NaN=fill_value，然后与b中相同索引的value相加

tot=tot.add(piece['key'].value_counts(),fill_value=0)#取序列中value的交集，并统计每个value出现的次数。value作为index，次数作为序列值。

tot=tot.sort_values(ascending=False)

tot[:10]

1.3、把数据写入文本格式

data=pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data5.csv')

data

data.to_csv('/opt/jupyter_file/dataset/数据获取与分析/out.csv')

!cat '/opt/jupyter_file/dataset/数据获取与分析/out.csv'

#输出结果

,something,a,b,c,d,message

0,one,1,2,3.0,4,

1,two,5,6,,8,world

2,three,9,10,11.0,12,foo

data.to_csv(sys.stdout,sep='|')

#输出结果

|something|a|b|c|d|message

0|one|1|2|3.0|4|

1|two|5|6||8|world

2|three|9|10|11.0|12|foo

result=data.to_csv(sys.stdout,na_rep='null')

result

#输出结果

,something,a,b,c,d,message

0,one,1,2,3.0,4,null

1,two,5,6,null,8,world

2,three,9,10,11.0,12,foo

data.to_csv(sys.stdout,index=False,header=False)#不要index和header

#输出结果

one,1,2,3.0,4,

two,5,6,,8,world

three,9,10,11.0,12,foo

data.to_csv(sys.stdout,index=False,columns=['a','b','c'])

#输出结果

a,b,c

1,2,3.0

5,6,

9,10,11.0

dates=pd.date_range('1/1/2000',periods=7)#长度为7

ts=Series(np.arange(7),index=dates)

ts.to_csv('/opt/jupyter_file/dataset/数据获取与分析/tseries.csv')

!cat tseries.csv

#输出结果

2000-01-01,0

2000-01-02,1

2000-01-03,2

2000-01-04,3

2000-01-05,4

2000-01-06,5

2000-01-07,6

1.4 手动读写数据(按要求)

!cat '/opt/jupyter_file/dataset/数据获取与分析/data7.csv'

#输出结果

"a","b","c"

"1","2","3"

"1","2","3","4"

import csv

f=open('/opt/jupyter_file/dataset/数据获取与分析/data7.csv')

reader=csv.reader(f)

for line in reader:

print(line)

#输出结果

['a', 'b', 'c']

['1', '2', '3']

['1', '2', '3', '4']

lines=list(csv.reader(open('/opt/jupyter_file/dataset/数据获取与分析/data7.csv')))

lines[0]

#输出结果

['a', 'b', 'c']

header,values=lines[0],lines[1:]

#参数为可迭代的对象，并且可以有多个参数。该函数返回一个以元组为元素的列表，其中第 i 个元组包含每个参数序列的第 i 个元素。返回的列表长度被截断为最短的参数序列的长度。只有一个序列参数时，它返回一个1元组的列表。没有参数时，它返回一个空的列表。

data_dict={h: v for h,v in zip(header,zip(*values))}

data_dict

#输出结果

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

a=[1,2,3,4]

b=[1,2,3]

c=[1,2,3,4,5]

zz=zip(a,b,c)

for line in zz:

print(line)

#输出结果

(1, 1, 1)

(2, 2, 2)

(3, 3, 3)

#csv的文件的形式有很多，只需定义csv.dialect的一个子类即可定义出新格式(如专门的分隔符、字符串引用约定、行结束符等)

#第一行是继承(my_dialect继承自csv.Dialect)后面四行是赋值

class my_dialect(csv.Dialect):

lineterminator='\n'

delimiter='|'

quotechar='"'

quoting=csv.QUOTE_MINIMAL

with open('/opt/jupyter_file/dataset/数据获取与分析/mydata.csv','w') as f:

writer=csv.writer(f,dialect=my_dialect)

writer.writerow(('one','two','three'))

writer.writerow(('1','2','3'))

writer.writerow(('4','5','6'))

writer.writerow(('7','8','9'))

!cat '/opt/jupyter_file/dataset/数据获取与分析/mydata.csv'

#输出结果

one|two|three

1|2|3

4|5|6

7|8|9

1.5JSON格式的数据

obj=\

"""

{"姓名":"张三",

"住处":["天朝","挖煤国","万恶的资本主义日不落帝国"],

"宠物":null,

"兄弟":[{"姓名":"李四","年龄":"25","宠物":"汪星人"},

{"姓名":"王五","年龄":"23","宠物":"喵星人"}]

}

"""

import json

result=json.loads(obj)

result

#输出结果

{'姓名': '张三',

'住处': ['天朝', '挖煤国', '万恶的资本主义日不落帝国'],

'宠物': None,

'兄弟': [{'姓名': '李四', '年龄': '25', '宠物': '汪星人'},

{'姓名': '王五', '年龄': '23', '宠物': '喵星人'}]}

result["兄弟"][0]

#输出结果

{'姓名': '李四', '年龄': '25', '宠物': '汪星人'}

result["兄弟"][1]

#输出结果

{'姓名': '王五', '年龄': '23', '宠物': '喵星人'}

brothers=DataFrame(result["兄弟"],columns=['姓名','年龄'])

brothers

#输出结果

image.png

1.6 解析HTML

from lxml.html import parse#专门用于处理html的模块

import urllib.request#打开和浏览url中内容

parsed=parse(urllib.request.urlopen('https://ask.julyedu.com/explore/'))#解析url

doc=parsed.getroot()#获取根元素

doc

#输出结果

links=doc.findall('.//a')#正则表达式

links[15:20]

#输出结果

]

lnk=links[19]

lnk

lnk.get('href')

print(lnk.text_content())#文本内容

#输出结果

全部问题

urls=[lnk.get('href') for lnk in doc.findall('.//a')]

urls[-10:]

#输出结果

['https://www.cnzz.com/stat/website.php?web_id=1259748782',

'https://www.julyedu.com',

'https://www.julyedu.com/help/index/about',

'https://www.julyedu.com/help/index/join',

'http://weibo.com/askjulyedu',

'javascript:',

'https://tianchi.aliyun.com',

'https://cloud.tencent.com/developer/edu',

'https://www.aidaxue.com/?ch=qyzx',

'https://www.epubit.com']

spans=doc.findall('.//span')

len(spans)

#输出结果

132

def _unpack(spans):

return [val.text_content() for val in spans]

contents=_unpack(spans)

for content in contents:

print(content)

questions=doc.findall('.//h4')#问题标签

len(questions)

#输出结果

contents=_unpack(questions)

for content in contents:

print(content)

1.7 解析XML

XML是一种结构化、层级化的数据格式，最适合体现XML的数据结构就是树

!cat '/opt/jupyter_file/dataset/数据获取与分析/Performance_MNR.xml'

from lxml import objectify#lxml.objectify主要用于处理以数据为中心的文档，可以根据叶子节点所含的内容自动推断数据类型。

path='/opt/jupyter_file/dataset/数据获取与分析/Performance_MNR.xml'

parsed=objectify.parse(open(path))

root=parsed.getroot()

data=[]

skip_fields=['PARENT_SEQ','INDICATOR_SEQ','DESIRED_CHANGE','DECIMAL_PLACES']

for elt in root.INDICATOR:#返回一个用于产生各个XML元素的生成器

el_data={}

for child in elt.getchildren():

if child.tag in skip_fields:

continue

el_data[child.tag]=child.pyval#pyval获取内容也可以用text

data.append(el_data)

perf=DataFrame(data)

perf

二、其他格式的数据

1、二进制格式的数据

#存储速度快、文件小

#pandas库pd.read_pickle操作读取pickle数据与.to_pickle()永久储存数据

frame=pd.read_csv('/opt/jupyter_file/dataset/数据获取与分析/data1.csv')

frame

frame.to_pickle('/opt/jupyter_file/dataset/数据获取与分析/frame_pickle')

pd.read_pickle('/opt/jupyter_file/dataset/数据获取与分析/frame_pickle')

2、使用HDF5格式

一个HDF5文件是一种存放两类对象的容器：dataset和group. Dataset是类似于数组的数据集，而group是类似文件夹一样的容器，存放dataset和其他group。在使用h5py的时候需要牢记一句话：groups类比词典，dataset类比Numpy中的数组。

store=pd.HDFStore('/opt/jupyter_file/dataset/数据获取与分析/mydata.h5')

store['obj1']=frame

store['obj1_col']=frame['a']

store

#输出结果

File path: /opt/jupyter_file/dataset/数据获取与分析/mydata.h5

store['obj1']

3、HTML与API交互

import requests

url='https://api.github.com/repos/pydata/pandas/milestones/28/labels'

resp=requests.get(url)

resp

#输出结果

data[:5]

issue_labels=DataFrame(data)

issue_labels

三、数据库相关操作

3.1 sqlite数据库

import sqlite3

query="""

CREATE TABLE test(a varchar(20),

b varchar(20),

c real,

d integer);

"""

con=sqlite3.connect(':memory:')#连接服务

con.execute(query)#确认执行

con.commit()#提交

data=[('zhangsan','China',1.25,6),

('lisi','America',2.6,3),

('wangwu','Japan',1.7,5)]

stmt="INSERT INTO test values(?,?,?,?)"

con.executemany(stmt,data)#执行多条记录

con.commit()

cursor=con.execute('select * from test')

rows=cursor.fetchall()#游标，fetchall查询所有

rows

#输出结果

[('zhangsan', 'China', 1.25, 6),

('lisi', 'America', 2.6, 3),

('wangwu', 'Japan', 1.7, 5)]

cursor.description

#输出结果

(('a', None, None, None, None, None, None),

('b', None, None, None, None, None, None),

('c', None, None, None, None, None, None),

('d', None, None, None, None, None, None))

DataFrame(rows,columns=list(zip(*cursor.description))[0])#为了方便看

import pandas.io.sql as sql

sql.read_sql('select * from test',con)

3.2 MYSQL数据库

#coding=utf-8

import pymysql

conn=pymysql.connect(host='localhost',

port=3306,

user='root',

passwd='123456',

db='test')

cur=conn.cursor()

#创建数据表

# cur.execute("create table student(id int,name varchar(20),class varchar(20),age varchar(10))")

#插入一条数据

# cur.execute("insert into student values('2','Tom','3 year 2 class ',13)")

#修改查询条件的数据

# cur.execute("update student set class='3 year 1 class' where name='Tom'")

#查询所有数据

cur.execute("select * from test.student")

#删除查询条件的数据

# cur.execute("delete from student where age='9'")

cur.close()

conn.commit()

conn.close()

不小心执行了三遍插入操作

关于python对数据的获取与处理就讲到这里，下一篇我们讲解一下数据的可视化！

你可能感兴趣的:(python数据读取和分析)

高精度相机：工业自动化的“慧眼”，驱动智能制造新未来 lingling009 数码相机
在当今工业4.0时代，自动化技术的飞速发展正重塑制造业格局。作为工业视觉系统的核心组件，高精度相机扮演着“智慧之眼”的角色，帮助企业在复杂环境中实现精准识别与高效操作。迁移科技，自2017年成立以来，已成长为行业领先的3D工业相机和3D视觉系统供应商。凭借在硬件、算法及软件领域的技术积累，我们打造了稳定、易用、高回报的AI+3D视觉解决方案，服务于新能源、汽车、化工、家电、金属制造等行业。本文将聚
2.setuptools使用行循自然-kimi 深度学习 python
setuptools使用安装pippipinstallsetuptoolsapt源安装apt-getinstallpython-setuptools使用模块安装easy_installpackage-name模块卸载easy_install-mpackage-name使用setuptools来配置工程在工程目录下面新建setup.py.增加内容fromsetuptoolsimportsetup,f
《捞女游戏/Lao Nu You Xi》 Build.18925720简体中文版下载解压就能运行 2501_92499299 游戏
最近这个国产游戏炸了——《捞女游戏》！上线不到24小时就冲上销量榜前五，好评率96%，评论区直接炸锅【PC】《捞女游戏/LaoNuYouXi》Build.18925720简体中文版下载链接「捞女游戏」，复制整段内容，打开最新版「夸克APP」即可获取。畅享原画，免费5倍速播放，支持AI字幕和投屏，更有网盘TV版。链接：https://pan.quark.cn/s/d3b4296b548d最新版，解压
Python每日一库：setuptools - 现代Python包分发工具 Aerkui Python库学习 python 开发语言
1.库简介setuptools是Python生态系统中最重要的包分发工具之一，它是distutils的增强版，提供了更多功能和更好的用户体验。setuptools不仅支持基本的包分发功能，还提供了依赖管理、入口点、开发模式等高级特性，是现代Python包开发的标准工具。2.安装方法pipinstallsetuptools3.核心功能详解3.1创建setup.py文件fromsetuptoolsim
Codeforces Round 1034 (Div. 3) G解题思路拉长时间线数据结构与算法算法数据结构 c++
链接Problem-G-Codeforces题目大意给定n,m,q分别为数组大小，数组的每个数非负且小于m，要进行q次操作操作分为两种：1.令a[i]=x(永久性)2.输入一个k，对于每个a[i]都可进行任意次操作a[i]=(a[i]+k)%m，对数组进行操作，判断能否增厚变成一个非严格递增数组题目思路对样例进行分析可以发现对于每个a[i]可以分为g=gcd（m，k）类，可以为每一类标号，号码为a
入门pytorch-联邦学习四代机您发多少 pytorch 人工智能 python
本文联邦学习的代码引用于https://github.com/shaoxiongji/federated-learning本篇文章相当于带大家读一遍联邦学习的代码，同时加深了大家对联邦学习和Pytorch框架的理解。这里想简单介绍一下联邦学习。联邦学习说白了，就是假如有NNN个数据拥有者F1,...,FN{F_1,...,F_N}F1,...,FN，他们希望使用这些数据来训练机器学习模型，但是又各
Swift 小技巧：用单边区间优雅处理模糊范围狼_夏天 Swift Tips swift 开发语言 ios
进入正题之前先科普一下Swift区间的知识。Swift中的区间有两种类型：闭区间和半开区间。闭区间：用a...b表示，包含a和b。半开区间：用a..=0&&number=2.0&&score=3.5&&score<=5.0{print("好评")}else{print("评分超出范围")}3.用单边区间优雅处理letscore=4.2guard(0.0...5.0).contains(score)
FPGA FMC 接口 LEEE@FPGA FPGA高速接口开发 fpga开发 FMC
1FMC介绍FMC接口即FPGAMezzanineCard接口，中文名为FPGA中间层板卡接口。以下是对它的详细介绍：标准起源：2008年7月，美国国家标准协会（ANSI）批准和发布了VITA57FMC标准。该标准由从FPGA供应商到最终用户的公司联盟开发，旨在为位于基板（载卡）上的FPGA提供标准的扩展卡外形、连接器和模块化接口。接口构成：整个FMC模块由子板模块、载卡两部分构成。子板模块和载卡
探索Gemini Balance：Google Gemini API的代理与负载均衡解决方案几道之旅人工智能智能体及数字员工负载均衡运维人工智能
引言在人工智能领域，API的高效使用和管理至关重要。尤其是当涉及到Google的GeminiAPI时，为了实现更稳定、更高效的服务，我们需要一个强大的代理和负载均衡工具。今天，我们就来深入了解一下GeminiBalance这个开源项目，它为GeminiAPI的使用提供了全面而灵活的解决方案。项目概述GeminiBalance是一个基于PythonFastAPI构建的应用程序，主要用于提供Googl
一文搞懂 XR 立体渲染模式三叔 Tuncle xr 图形渲染
更好的阅读体验，可查看XR立体渲染模式在XR中物体通常需要以立体（insterro）的方式被渲染，即一个内容需要被绘制到左眼和右眼的纹理中，这种渲染方式被称为立体渲染（Stereo-Rendering），本文将介绍几种立体渲染的方式，包括：Multi-Pass：左眼和右眼画面由两张纹理构成，并分别绘制左眼和右眼画面。这是最原始，兼容性最好的渲染方式，但拥有较差的性能。Single-Pass：左眼和
数据结构day5——队列和树 LZA185 数据结构数据结构
目录一、队列：先进先出的数据缓冲区队列的核心概念队列的典型应用场景队列的基本操作队列的两种C语言实现方式1.顺序队列（基于数组的实现）2.循环队列（解决假溢出问题）二、树：一对多的层次结构树的基本概念树的存储方式二叉树：最常用的树结构二叉树的定义二叉树的特点特殊的二叉树二叉树的重要特性二叉树的C语言实现与遍历三、总结在数据结构的世界里，队列和树是两种截然不同却又同样重要的结构。队列以其"先进先出"
Go语言中的defer关键字
在Go语言中，defer关键字是一个独特而强大的特性，它可以将代码块推迟到函数返回之前执行。这种机制可以用于资源的释放、错误处理、性能优化等多种场景。本文将详细介绍defer的用法和工作原理，并通过实际示例来展示其在不同情况下的应用。defer的基本用法在Go语言中，使用defer关键字可以将一个函数调用推迟到当前函数执行结束前执行。defer语句由关键字defer和一个函数在上述代码中，当函数d
提名 Apache ShardingSphere Committer，说说方法
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统文章首发在公众号（龙台的技术笔记），之后同步到博客园和个人网站：xiaomage.info就在前几天，收到了ApacheS
报告下载丨北京大学：2025年DeepSeek在教育和学术领域的应用场景与案例（上）报告下载丨德勤：2025年生成式AI档案报告下载丨SuperCLUE 中文大模型基准测评 2025 智能计算研究中心人工智能
该报告全面探讨了DeepSeek在教育和学术领域的应用。DeepSeek在2024-2025年推出的模型引发国际关注，其通过提升推理能力、全量开源、降低成本及国产自主研发等优势，在教育行业推动了范式革命。报告涵盖了从学前教育到特殊教育的各个阶段，列举了高校如北京大学的学科专业问答工具、北大青鸟的实训平台等应用案例。为教育工作者提供了系统指导，有助于推动教育创新，培养适应AI时代的各类人才。
折线图多数据处理 lifelalala 后端 java
前言：skline1有年份和新申请单位数，skline2有年份和有效期内单位数，我想要把1和2的年份放在一起从小到大放，没有重复的，新申请单位数和有效期内单位数和年份的排列顺序一致实现：//获取原始数据List>skLine1=bmzgConfidentQualifyManageService.getSkLine1();List>skLine2=bmzgConfidentQualifyManage
在股市中寻找志同道合的朋友 niuniu15816888 财经社交大数据
作为一名普通的股票投资者，我在这条路上已经走了五年。从最初的懵懂无知到现在能独立分析行情，我深深体会到：**投资不是一个人的战斗，找到志同道合的伙伴能让这条路走得更远**。今天，我想和大家分享一些我在投资社交中的真实感悟。一、为什么我们需要投资社交？记得刚开始炒股时，我总是一个人盯着K线图发呆。直到有一天，我在一个股票论坛上认识了几位同样喜欢研究新能源板块的朋友，我们组建了一个小群组。每周五晚上，
Apache Seata ＜ 2.3.0 raft反序列化漏洞墨菲安全 Apache Seata 反序列化漏洞 CVE-2025-32897
【高危】ApacheSeata<2.3.0raft反序列化漏洞漏洞描述ApacheSeata(incubating)是一款开源的分布式事务解决方案，用于在微服务架构下提供高性能和简单易用的分布式事务服务。受影响版本中，SeataServer的Raft模块的CustomDeserializer直接通过Class.forName()加载用户可控的类名，未做安全校验，攻击者可借此利用服务端已有的恶意链实
大模型学习（Datawhale_Happy-LLM）笔记7: Encoder-Decoder PLM lxltom 学习笔记 language model 自然语言处理神经网络人工智能深度学习
大模型学习（Datawhale_Happy-LLM）笔记7:Encoder-DecoderPLM1.Encoder-Decoder架构概述1.1架构基础Encoder-DecoderPLM是基于原始Transformer架构的完整实现，它同时保留了编码器（Encoder）和解码器（Decoder）两个核心组件。这种设计使得模型能够兼具文本理解和生成的双重能力，特别适合处理序列到序列（Seq2Seq
Java开发的智能新时代——如何利用AI工具提升编程效率 inscode_055
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：Java开发的智能新时代——如何利用AI工具提升编程效率引言在当今快速发展的科技时代，Java作为一门广泛应用的编程语言，在企业级应用、Web开发、移动应用等领域占据着重要地位。然而，随着项目复杂度的增加和开发周期的缩短，传统的开发方式已难以满足现代开发的需求。幸运的是，智能化的工具软件如InsCodeAIIDE正逐
Java 开发的智能化革命——如何借助最新工具提升编程效率 inscode_014
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：Java开发的智能化革命——如何借助最新工具提升编程效率在当今快速发展的科技时代，Java作为一门广泛应用的编程语言，依然保持着其强大的生命力和广泛的影响力。无论是企业级应用、Web开发还是移动应用开发，Java都扮演着不可或缺的角色。然而，随着项目复杂度的增加和技术更新换代的速度加快，Java开发者们面临着前所未有
SpringSSM hqxstudying ssm mvc java mybatis
SpringSSM是Java企业级开发中常用的一套框架组合，由Spring、SpringMVC和MyBatis三个框架组成，它们分别负责不同的功能模块，协同工作以简化企业级应用的开发流程。以下是对这三个框架的详细解析及它们的协同关系：一、Spring框架核心定位：提供企业级应用的基础架构支持，核心是IoC（控制反转）和AOP（面向切面编程）。1.核心功能IoC（InversionofControl
《UNIX环境高级编程》笔记第三章——文件IO（2) day_day_hard_up Linux系统编程笔记 linux c语言 unix
1.简介本文是上一篇笔记文件IO（1）的续写，接下来继续补充一些文件IO特性以及介绍剩下的一些函数。文件IO的读写效率与调用时传入的buf大小有关，也与打开的文件描述标志有关（O_SYNC和O_DSYNC），影响效率IO效率的相关函数有sync、fsync和fdatasync。理解dup、dup2和fcntl函数的预前知识:（1）每个进在进程表中都有一个记录项，记录项包含一张打开的文件描述符表，每
IP5219全集成Type-C移动电源SOC！2.1A快充+2.4A放电，极简BOM方案 Hailey深力科 IP5219 电池管理芯片集成TYPE_C协议移动电源SOC
产品概述：IP5219是一款集成升压转换器、锂电池充电管理、电池电量指示和TYPE_C协议的多功能电源管理SOC，为移动电源提供完整的电源解决方案。IP5219的高集成度与丰富功能，使其在应用时仅需极少的外围器件，并有效减小整体方案的尺寸，降低BOM成本。IP5219只需一个电感实现降压与升压功能，可以支持低成本电感和电容。IP5219的同步升压系统提供全程2.4A输出电流，转换效率高至93%。空
[AI笔记]-LLM中的3种架构:Encoder-Only、Decoder-Only、Encoder-Decoder Micheal超 AI笔记人工智能笔记架构
一、概述架构描述特点案例Encoder-Only仅包含编码器部分这类模型主要专注输入数据中提取特征或上下文信息，通常不需要生成新内容、只需要理解输入的任务，如：分类(文本分类、情感分析等)、信息抽取、序列标注等。在这种架构中，所有的注意力机制和网络层都集中在编码输入数据上，其输出通常是关于输入的复杂语义表示。谷歌的BERT、智谱AI发布的第四代基座大语言模型GLM4Decoder-Only也被称为
从性能优化赛到社区Committer，走进赵宇捷在Apache Fory的成长之路
ApacheFory是一个基于JIT和零拷贝的高性能多语言序列化框架，实现了高效紧凑的序列化协议，提供极致的性能、压缩率和易用性。在多语言序列化框架技术领域取得了重大突破，推动序列化技术步入高性能易用新篇章！这一切，都源自全球开发者对开源的热忱。今天，一起走近这些用代码编织跨语言数据之网的Committer～一、自我介绍您的全名：赵宇捷当前职位/角色：后端开发工程师主要领域/方向：金融加入社区/项
设计模式之上下文对象设计模式 Code Monkey’s Lab 设计模式设计模式
目录一、模式介绍二、架构设计三、Demo示例四、总结一、模式介绍上下文对象（ContextObject）模式最早由《CoreJ2EEPatterns》第二版提出，其核心目标是在多层或多组件间共享与当前作用域（如一次请求、一次会话、一次业务流程）相关的所有状态和服务，消除各组件对底层环境细节（如协议、线程、本地存储等）的直接依赖，从而提高系统的可复用性、可维护性和可测试性。ContextObject
手车互联基本介绍车载开发手车互联手车互联车载应用
目前常用的手车互联功能有CarPlay，AndroidAuto，CarLife，HiCar，Carlink等，其中AndrodiAuto在国外用得比较多，国内目前是CarPlay和CarLife比较多，HiCar和Carlink是最近几年才有的，势头也很猛；本人从事车载开发10余年，参与过这些功能的开发和认证，以下从认证的角度给出难易程度，五星最难，CarPlay：☆☆☆☆☆AndroidAuto
长尾形分布论文速览三十篇【60-89】木木阳 Long-tailed 人工智能
长尾形分布速览（60-89）这些研究展示了LLMs在长尾数据分布、持续学习、异常检测、联邦学习、对比学习、知识图谱、推荐系统、多目标跟踪、标签修复、对象检测、医疗生物医学以及其他应用中的广泛应用。通过优化和创新，LLMs在这些领域展现了卓越的性能，并为解决长尾问题提供了有效的工具和方法。1.长尾持续学习与对抗学习长尾持续学习(Paper60):通过优化器状态重用来减少遗忘，提高在长尾任务中的持续学
长尾形分布论文速览【80-119】木木阳 Long-tailed 人工智能
为便于理解和应用，以下将30篇关于长尾分布的研究文献按主题进行分类整理。每一大类包含相应的工作，帮助我们从整体上把握各方向的研究进展。1.长尾半监督学习与伪标签优化Paper90:Uncertainty-awareSamplingforLong-tailedSemi-supervisedLearning提出了一种动态阈值选择方法（UDTS），能有效改善尾部分类性能，适用于不平衡类别的半监督学习。P
CVPR2024无监督Unsupervised论文17篇速览木木阳 CVPR 无监督 unsupervised
Paper1GuidedSlotAttentionforUnsupervisedVideoObjectSegmentation摘要小结:这段话的中文翻译如下：无监督视频对象分割旨在分割视频序列中最突出的对象。然而，复杂的背景和多个前景对象的存在使这项任务变得具有挑战性。为了解决这一问题，我们提出了一种引导式槽注意力网络，以加强空间结构信息并获得更好的前景-背景分离。初始化时带有查询引导的前景和背景
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite