莫迟_

jupyter notebook 之 pandas_2

In [1]:

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

多级索引

多级索引主要是用来给excel进行操作的

In [2]:

#多级行索引 +  多级列索引

df = pd.DataFrame(np.random.randint(0,150,(8,10)),

            index=pd.MultiIndex.from_product([['初中','高中'],['一次月考','期中','二次月考','期末']]),

            columns=pd.MultiIndex.from_product([['上学期','下学期'],['体育','音乐','计算机','历史','生物']]))

In [3]:

df.to_excel('df.xlsx',sheet_name='Sheet2')

In [4]:

#多级索引如何取值

# 高中上学期体育的期末考试

df

Out[4]:

		上学期					下学期
		体育	音乐	计算机	历史	生物	体育	音乐	计算机	历史	生物
初中	一次月考	141	148	72	100	111	24	66	80	91	42
	期中	25	89	138	125	14	148	20	21	86	34
	二次月考	78	141	110	60	41	90	47	48	96	4
	期末	37	0	111	122	84	81	38	142	83	33
高中	一次月考	12	27	28	81	62	33	36	132	83	21
	期中	50	142	84	130	1	44	121	20	9	80
	二次月考	120	16	64	64	80	136	140	105	57	22
	期末	100	11	134	95	109	95	23	59	92	86

In [5]:

#如果要是取行，那么先把行条去完整了

df.loc['高中','期末']['上学期','体育']

Out[5]:

In [6]:

df.loc['高中','上学期'].loc['期末','体育']

Out[6]:

In [7]:

df['上学期','体育']['高中','期末']

Out[7]:

索引的堆操作

主要的作用是把Series和DataFrame进行互相转换的

stack() 把列索引变为行索引
unstack() 把行索引变为列索引
stack : 堆

level=-1 表示的是最内存的索引

dropna=True 删除空数据行

In [8]:

#把series转变成dataframe

df.loc['高中','期末'].unstack()

Out[8]:

	体育	历史	生物	计算机	音乐
上学期	100	95	109	134	11
下学期	95	92	86	59	23

In [9]:

df.loc['高中','期末']

Out[9]:

上学期  体育     100
     音乐      11
     计算机    134
     历史      95
     生物     109
下学期  体育      95
     音乐      23
     计算机     59
     历史      92
     生物      86
Name: (高中, 期末), dtype: int64

In [10]:

df.loc['高中','期末'].unstack().stack()

Out[10]:

上学期  体育     100
     历史      95
     生物     109
     计算机    134
     音乐      11
下学期  体育      95
     历史      92
     生物      86
     计算机     59
     音乐      23
dtype: int64

一层索引的Series转变成DataFrame

In [11]:

S = pd.Series(data=np.random.randint(0,10,6),index=list('abcdef'))

In [12]:

pd.DataFrame(S)

Out[12]:

	0
a	0
b	4
c	8
d	6
e	3
f	4

聚合函数

In [13]:

df1 = df.loc['高中','期末'].unstack()

In [14]:

df1

Out[14]:

	体育	历史	生物	计算机	音乐
上学期	100	95	109	134	11
下学期	95	92	86	59	23

In [15]:

df1.sum()

Out[15]:

体育     195
历史     187
生物     195
计算机    193
音乐      34
dtype: int64

In [16]:

df1.max()

Out[16]:

体育     100
历史      95
生物     109
计算机    134
音乐      23
dtype: int64

In [17]:

df1.min()

Out[17]:

体育     95
历史     92
生物     86
计算机    59
音乐     11
dtype: int64

In [18]:

df1.mean()

Out[18]:

体育     97.5
历史     93.5
生物     97.5
计算机    96.5
音乐     17.0
dtype: float64

方差：

∑ni=1(xi−mean)2n∑i=1n(xi−mean)2n

样本方差：

方差：

∑ni=1(xi−mean)2n−1∑i=1n(xi−mean)2n−1

In [19]:

#方差

df2=df1.T

df2

Out[19]:

	上学期	下学期
体育	100	95
历史	95	92
生物	109	86
计算机	134	59
音乐	11	23

In [20]:

df3=df2.iloc[1:]

df3

Out[20]:

	上学期	下学期
历史	95	92
生物	109	86
计算机	134	59
音乐	11	23

In [21]:

#在代数中方差除以样本的数量

#pandas中的方差叫做  统计学 中的 样本方差 ， 无损计算  n-1

#会让差异膨胀

df3.var()

Out[21]:

上学期    2844.25
下学期     990.00
dtype: float64

In [22]:

mean_ = df3.iloc[:,0].mean()

sum_ = 0

for v in df3.iloc[:,0]:

    sum_ += (v-mean_)**2

In [23]:

sum_ / 3

Out[23]:

2844.25

In [24]:

np.var(df3.iloc[:,0])

Out[24]:

2133.1875

标准差：

∑ni=1(xi−mean)2n⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯√∑i=1n(xi−mean)2n

样本标准差：

∑ni=1(xi−mean)2n−1⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯√∑i=1n(xi−mean)2n−1

In [25]:

#标准差  在方差的基础上开根

#样本标准差

#一堆数的平均差异

df3.std()

Out[25]:

上学期    53.331510
下学期    31.464265
dtype: float64

In [26]:

(sum_ / 3)**0.5

Out[26]:

53.33151038551224

DataFrame的合并

select * from a union select * from  b;

#联合查询 ：查询的字段名可以不一致，数据类型可以不一致,但是字段的数量必须一一致

concat()

级联合并

objs 要求值是一个序列类型
axis=0 连接的方向
join='outer' 连接的方式

In [41]:

from sqlalchemy import create_engine

import warnings

warnings.filterwarnings('ignore')

In [31]:

dbinfo = dict(

    host = 'localhost',

    port = 3306,

    username = 'root',

    password = '123456',

    database = 'python',

    charset = 'utf8'

engine=create_engine("mysql+pymysql://{username}:{password}@{host}:{port}/{database}?charset={charset}".format(**dbinfo))

In [45]:

user = pd.read_sql('userinfo1',engine)

user

Out[45]:

	id	name	pwd
0	1	张三	123456
1	2	赵四	123456
2	3	王五	123456
3	4	赵六	123456
4	5	鬼脚七	123456

In [46]:

score = pd.read_sql('score',engine)

score

Out[46]:

	id	python	java
0	1	120.0	13.0
1	2	220.0	23.0
2	3	330.0	34.0
3	4	100.0	0.0
4	1	100.0	0.0
5	2	33.0	0.0
6	2	55.0	0.0
7	3	100.0	0.0

In [55]:

#联合 全外连接

#行合并

pd.concat((user,score),axis=0,join='outer')

. . .

In [57]:

#列合并

pd.concat((user,score),axis=1,join='inner')

Out[57]:

	id	name	pwd	id	python	java
0	1	张三	123456	1	120.0	13.0
1	2	赵四	123456	2	220.0	23.0
2	3	王五	123456	3	330.0	34.0
3	4	赵六	123456	4	100.0	0.0
4	5	鬼脚七	123456	1	100.0	0.0

ignore_index

忽略原来的索引，从新定义新的索引

(解决两表合并是出现行号重复的问题)

In [61]:

pd.concat((user,score),axis=0,join='outer',ignore_index=True)

. . .

keys

设定多层索引的

In [65]:

k=pd.concat((user,score),axis=0,join='outer',keys=['user','score'])

Out[65]:

		id	java	name	pwd	python
user	0	1	NaN	张三	123456	NaN
	1	2	NaN	赵四	123456	NaN
	2	3	NaN	王五	123456	NaN
	3	4	NaN	赵六	123456	NaN
	4	5	NaN	鬼脚七	123456	NaN
score	0	1	13.0	NaN	NaN	120.0
	1	2	23.0	NaN	NaN	220.0
	2	3	34.0	NaN	NaN	330.0
	3	4	0.0	NaN	NaN	100.0
	4	1	0.0	NaN	NaN	100.0
	5	2	0.0	NaN	NaN	33.0
	6	2	0.0	NaN	NaN	55.0
	7	3	0.0	NaN	NaN	100.0

In [70]:

k.iloc[0:2]

Out[70]:

		id	java	name	pwd	python
user	0	1	NaN	张三	123456	NaN
user	1	2	NaN	赵四	123456	NaN

join_axes

axes : axis 的复数 (轴)

使用谁的列名，值是一个序列类型

In [78]:

pd.concat((user,score),axis=0,join='outer',join_axes=[user.columns])

Out[78]:

	id	name	pwd
0	1	张三	123456
1	2	赵四	123456
2	3	王五	123456
3	4	赵六	123456
4	5	鬼脚七	123456
0	1	NaN	NaN
1	2	NaN	NaN
2	3	NaN	NaN
3	4	NaN	NaN
4	1	NaN	NaN
5	2	NaN	NaN
6	2	NaN	NaN
7	3	NaN	NaN

换一种思路

In [79]:

user.columns

Out[79]:

Index(['id', 'name', 'pwd'], dtype='object')

In [80]:

user.values

Out[80]:

array([[1, '张三', '123456'],
       [2, '赵四', '123456'],
       [3, '王五', '123456'],
       [4, '赵六', '123456'],
       [5, '鬼脚七', '123456']], dtype=object)

In [81]:

score.values

Out[81]:

array([[  1., 120.,  13.],
       [  2., 220.,  23.],
       [  3., 330.,  34.],
       [  4., 100.,   0.],
       [  1., 100.,   0.],
       [  2.,  33.,   0.],
       [  2.,  55.,   0.],
       [  3., 100.,   0.]])

In [84]:

pd.DataFrame(np.concatenate([user.values,score.values]),columns=user.columns)

Out[84]:

	id	name	pwd
0	1	张三	123456
1	2	赵四	123456
2	3	王五	123456
3	4	赵六	123456
4	5	鬼脚七	123456
5	1	120	13
6	2	220	23
7	3	330	34
8	4	100	0
9	1	100	0
10	2	33	0
11	2	55	0
12	3	100	0

'联表查询',左右合并

pd.merge()

默认识别两边的同名列

left : DataFrame
right : DataFrame
how : {'left', 'right', 'outer', 'inner'}, default 'inner'
left_index=True 使用左边DataFrame的行索引作为关联合并的条件
right_index=True 使用右边DataFrame的行索引作为关联合并的条件

In [96]:

score.loc[score.shape[0]] = [6,20,200]

In [107]:

score.columns = ['sid','python','java']

In [108]:

display(user,score)

	id	name	pwd
0	1	张三	123456
1	2	赵四	123456
2	3	王五	123456
3	4	赵六	123456
4	5	鬼脚七	123456

	sid	python	java
0	1	120.0	13.0
1	2	220.0	23.0
2	3	330.0	34.0
3	4	100.0	0.0
4	1	100.0	0.0
5	2	33.0	0.0
6	2	55.0	0.0
7	3	100.0	0.0
8	6	20.0	200.0

In [110]:

pd.merge(user,score,how='outer',left_on='id',right_on='sid')

. . .

指定行号

set_index() 当某一列被设置为行号以后，不参与计算

keys 指定那一列作为行号
inplace

merge : 合并

In [111]:

user

Out[111]:

	id	name	pwd
0	1	张三	123456
1	2	赵四	123456
2	3	王五	123456
3	4	赵六	123456
4	5	鬼脚七	123456

In [113]:

user.set_index(keys='id',inplace=True)

In [115]:

score.set_index(keys='sid',inplace=True)

In [124]:

pd.merge(user,score,how='outer',left_index=True,right_index=True)

Out[124]:

	name	pwd	python	java
1	张三	123456	120.0	13.0
1	张三	123456	100.0	0.0
2	赵四	123456	220.0	23.0
2	赵四	123456	33.0	0.0
2	赵四	123456	55.0	0.0
3	王五	123456	330.0	34.0
3	王五	123456	100.0	0.0
4	赵六	123456	100.0	0.0
5	鬼脚七	123456	NaN	NaN
6	NaN	NaN	20.0	200.0

reset_index()

将原先制定的行索引恢复成列

In [126]:

user.reset_index(inplace=True)

In [132]:

r = pd.merge(user,score,how='outer',left_on='id',right_index=True)

In [138]:

r.index = range(r.shape[0])

In [139]:

Out[139]:

	id	name	pwd	python	java
0	1	张三	123456	120.0	13.0
1	1	张三	123456	100.0	0.0
2	2	赵四	123456	220.0	23.0
3	2	赵四	123456	33.0	0.0
4	2	赵四	123456	55.0	0.0
5	3	王五	123456	330.0	34.0
6	3	王五	123456	100.0	0.0
7	4	赵六	123456	100.0	0.0
8	5	鬼脚七	123456	NaN	NaN
9	6	NaN	NaN	20.0	200.0

suffixes

suffies : 后缀
防止非关联列，列名冲突

In [140]:

user

. . .

In [145]:

score

. . .

In [158]:

#select user.name uname,user.pwd upwd,score.name sname,score.pwd spwd from user join  score on user.id = score.id

z = pd.merge(user,score,how='outer',left_on='id',right_on='id',suffixes=('_user', '_score'))

z.head()

Out[158]:

	id	name_user	pwd_user	name_score	pwd_score
0	1	张三	123456	120.0	13.0
1	1	张三	123456	100.0	0.0
2	2	赵四	123456	220.0	23.0
3	2	赵四	123456	33.0	0.0
4	2	赵四	123456	55.0	0.0

简单数据分析

In [272]:

abb = pd.read_csv('./data/state-abbrevs.csv')

are = pd.read_csv('./data/state-areas.csv')

pop = pd.read_csv('./data/state-population.csv')

In [273]:

abb.info(),are.info(),pop.info()


RangeIndex: 51 entries, 0 to 50
Data columns (total 2 columns):
state           51 non-null object
abbreviation    51 non-null object
dtypes: object(2)
memory usage: 896.0+ bytes

RangeIndex: 52 entries, 0 to 51
Data columns (total 2 columns):
state            52 non-null object
area (sq. mi)    52 non-null int64
dtypes: int64(1), object(1)
memory usage: 912.0+ bytes

RangeIndex: 2544 entries, 0 to 2543
Data columns (total 4 columns):
state/region    2544 non-null object
ages            2544 non-null object
year            2544 non-null int64
population      2524 non-null float64
dtypes: float64(1), int64(1), object(2)
memory usage: 79.6+ KB

Out[273]:

(None, None, None)

In [274]:

abb.head()

Out[274]:

	state	abbreviation
0	Alabama	AL
1	Alaska	AK
2	Arizona	AZ
3	Arkansas	AR
4	California	CA

In [275]:

are.head()

Out[275]:

	state	area (sq. mi)
0	Alabama	52423
1	Alaska	656425
2	Arizona	114006
3	Arkansas	53182
4	California	163707

In [276]:

pop.head()

Out[276]:

	state/region	ages	year	population
0	AL	under18	2012	1117489.0
1	AL	total	2012	4817528.0
2	AL	under18	2010	1130966.0
3	AL	total	2010	4785570.0
4	AL	under18	2011	1125763.0

合并

In [277]:

abb_pop = pd.merge(pop,abb,left_on='state/region',right_on='abbreviation',how='outer')

删除重复的列

In [278]:

abb_pop.drop(labels='abbreviation',axis=1,inplace=True)

检查空缺数据

In [279]:

abb_pop.isnull().sum()

Out[279]:

state/region     0
ages             0
year             0
population      20
state           96
dtype: int64

填充州名

In [280]:

abb_pop.columns = ['state_region', 'ages', 'year', 'population', 'state']

In [281]:

#获取州名为空的行号

state_indexs = abb_pop['state'].isnull()

df.unique() 显示唯一值

In [282]:

#查找空缺州的州名缩写

abb_pop['state_region'][state_indexs].unique()

Out[282]:

array(['PR', 'USA'], dtype=object)

In [283]:

#PR 波多黎各   Puerto Rico

#USA  美利坚   the United States of America

pr_index = abb_pop.query("state_region == 'PR'").index

pr = abb_pop.loc[pr_index]

pr['state'] = 'Puerto Rico'

abb_pop.loc[pr_index] = pr

usa_index = abb_pop.query("state_region == 'USA'").index

usa = abb_pop.loc[usa_index]

usa['state'] = 'the United States of America'

abb_pop.loc[usa_index] = usa

In [284]:

abb_pop.isnull().sum()

Out[284]:

state_region     0
ages             0
year             0
population      20
state            0
dtype: int64

填充人口数据

In [285]:

#查看哪个州的人口为空

pop_indexs = abb_pop['population'].isnull()

In [286]:

abb_pop['state'][pop_indexs].unique()

Out[286]:

array(['Puerto Rico'], dtype=object)

In [296]:

#填补未满18岁

under18_ind = abb_pop.query("state=='Puerto Rico' & ages=='under18' & year<2000").index

under18 = abb_pop.loc[under18_ind]

under18['population'] = 1080000

abb_pop.loc[under18_ind] = under18

total_ind = abb_pop.query("state=='Puerto Rico' & ages=='total' & year<2000").index

total = abb_pop.loc[total_ind]

total['population'] = 3810000

abb_pop.loc[total_ind] = total

合并面积

In [300]:

abb_pop_are = pd.merge(abb_pop,are,how='outer')

检查空值

In [301]:

abb_pop_are.isnull().sum()

Out[301]:

state_region      0
ages              0
year              0
population        0
state             0
area (sq. mi)    48
dtype: int64

In [302]:

abb_pop_are.columns

Out[302]:

Index(['state_region', 'ages', 'year', 'population', 'state', 'area (sq. mi)'], dtype='object')

In [303]:

area_indexs = abb_pop_are['area (sq. mi)'].isnull()

In [306]:

#那个州的面积为空

abb_pop_are['state'][area_indexs].unique()

Out[306]:

array(['the United States of America'], dtype=object)

In [309]:

#获取空缺值的年份

years = abb_pop_are.query("state_region=='USA'")['year'].unique()

In [310]:

years

Out[310]:

array([1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000,
       2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2013, 2009, 2010,
       2011, 2012])

In [317]:

for y in years:

    display(abb_pop_are.query("year==%s  & ages=='total' & state_region != 'USA'"%y)['area (sq. mi)'].sum())

. . .

In [327]:

#填补面积空缺

usa_are_index = abb_pop_are.query('state_region == "USA"').index

usa_are = abb_pop_are.loc[usa_are_index]

usa_are['area (sq. mi)'] = 3790399.0

abb_pop_are.loc[usa_are_index] = usa_are

找到2012年美国人口的数据信息

In [ ]:

找出美国人口最少的3个州&人口最多的三个州

In [ ]:

人口密度最高的3个州

In [ ]:

你可能感兴趣的:(数据)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag