猫司令XD

周学习笔记（2021.7.12-2021.7.18）

文章目录

周学习笔记（2021.7.12-2021.7.18）
- 7.12
- - 1. typedef
  - 2. python 列表
  - 3. pandas 操作
  - 4. python 其他
  - 5. malloc() & new()
  - 6. 二叉搜索树
- 7.13
- - 1. Colab
  - 2. github 访问慢可以加速
  - 3. 算力租赁
  - 4. python eval()
  - 5. jupyter notebook 快捷键
  - 6.lambda()
- 7.14
- - 1. word2vec
  - 2. embedding
  - 3. Gensim
  - 4. python 面向对象
  - 5. np.mean()
  - 6. sklearn 库
  - 7. python 相关 import
  - 8. type()&dtype()&astype()
  - 9. 竞赛常用代码积累
  - 10. StratifiedKFold & Kfold
  - 11. pandas操作
  - 12. LightGBM
  - 13. python print()换行输出
  - 14. LabelEncoder
  - 15. 特征重要性（1）
- 7.15
- - 1. sns.heatmap热力图
  - 2. 训练集和测试集分布不一致（检验+解决）
  - 3. 验证集（开发集）
  - 4. 目标属性与非目标属性相关性
  - 5. 数据竞赛ＡＢ榜
  - 6. shuffle 数据
  - 7. df.dropna()
  - 8. 键盘快捷键
  - 9. MAE &RMSE & MSE
  - 10. np.random.uniform()
  - 11. 随机种子
- 7.16
- - 1. python range()
- 7.17
- - 1. matplotlib.pyplot
  - 2. 数据分析常用语句
  - 3. groupby()
- 7.18
- - 1. 直方图vs柱状图
  - 2. 变异系数
  - 3. 监督学习的假设
  - 4. iloc & loc
  - 5. Gini系数
  - 6. 对抗验证
  - 7. np.argsort() & np.sort()
  - 8. 结构化、非结构化、半结构化数据
  - 3. 监督学习的假设
  - 4. iloc & loc
  - 5. Gini系数
  - 6. 对抗验证
  - 7. np.argsort() & np.sort()
  - 8. 结构化、非结构化、半结构化数据

7.12

1. typedef

用途：声明新的类型名，来代替原有类型名，但不生成新的类型

（1）C

typedef struct node{
   int a; 
}Node;

表示Node可以替代 struct node 声明变量

Node node1 <=> struct node node1

也可以不写 node

typedef struct{
    int a;
}Node;

声明变量只能是Node node1

（2）C++

结构体定义

struct Student{
    int a;
};

声明变量 Student stu1

如果使用typedef

struct Student{
    int a;
}stu1;//结构体变量

typedef struct Student{
    int a;
}stu2;//结构体类型，即别名

2. python 列表

1.列表去重可直接变成集合，但是集合变成列表不能直接list()

list_unique=set(list)

2.添加元素

拿新元素类型为列表举例

list.append() #直接添加
list.expend() #扩展列表

3.列表生成式

先写新列表中元素的格式

然后写for循环对元素施加限制

也可以有if 或者双层循环，先写的是外循环，后写的是内循环

list2 = [x for x in list1 if x != []] #删除列表中的空列表元素

4.其他

生成指定个数的全零列表

values=[0]*len(keys)

两个列表生成字典

dic=dict(zip(keys,values))

拓：zip()的用法

参考博客

参数iterable为可迭代的对象，并且可以有多个参数。该函数返回一个以元组为元素的列表，其中第 i 个元组包含每个参数序列的第 i 个元素。返回的列表长度被截断为最短的参数序列的长度。只有一个序列参数时，它返回一个1元组的列表。没有参数时，它返回一个空的列表。

import numpy as np
a=[1,2,3,4,5]
b=(1,2,3,4,5)
c=np.arange(5)
d="zhang"
zz=zip(a,b,c,d)
print(list(zz))

输出：
[(1, 1, 0, 'z'), (2, 2, 1, 'h'), (3, 3, 2, 'a'), (4, 4, 3, 'n'), (5, 5, 4, 'g')]

import numpy as np
zz=zip()
print(list(zz))

输出：[]

import numpy as np
a=[1,2,3]
zz=zip(a)
print(list(zz))

输出：[(1,), (2,), (3,)]

import numpy as np
a=[1,2,3]
b=[1,2,3,4]
c=[1,2,3,4,5]
zz=zip(a,b,c)
print(lits(zz))

输出：[(1, 1, 1), (2, 2, 2), (3, 3, 3)]

5.删除元素

参考博客

del 按下标删除

li = [1, 2, 3, 4]
del li[3]
print(li)
# Output [1, 2, 3]

list.pop()按值删除，无参数则默认删除最后一个值

li = [1, 2, 3, 4]
li.pop(2)
print(li)
# Output [1, 2, 4]

切片删除

li = [1, 2, 3, 4]
li = li[:2] + li[3:]
print(li)
# Output [1, 2, 4]

删除首个出现的数字

li = [3,1, 2, 3, 4]
li.remove(3)
print(li)
# Output [1, 2, 3,4]

3. pandas 操作

pd.describe()时会出现科学计数法，加一行

pd.set_option('display.float_format', lambda x: '%.2f' % x) #保留两位小数，直观显示数字

读写文件

df=pd.read_csv('test.csv','r',encoding=utf-8) #.txt文件也可
df.to_csv('文件名')

涉及 dataframe

a=pd.Series(len_list)
b=pd.Series(count_para)
c=pd.DataFrame({'各段句数':a,'各段词数':b})

iloc 和 loc
df.info() 中当没有明确指定类型的话，所有的数据都可以是object类型，object类型也可看作是catogory类型

series变为list

sentences = data['tagid'].values.tolist()

读入无表头的文件，并自定义表头

headers=['','','','','']
df=pd.read_csv('.csv',header=None,names=headers)

“如果只关注category 类型的数据，其实根本没有必要拿到这些全部数据，只需要将object类型的数据取出，然后进行后续分析即可”
```
obj_df = df.select_dtypes(include=['object']).copy()
```
感慨怎么这么多封装好的API，方便但是记不住呀（抱头
```
DataFrame.select_dtypes(include=None, exclude=None)
```

4. python 其他

变量命名规则

数字、字母、下划线，不能以数字开头

驼峰式
.copy()

参考博客

在python中，对象赋值实际上是对象的引用。当创建一个对象，然后把它赋给另一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。若对初始变量进行改变，普通的等号会让关联的变量发生相同的改变，所以要使用.copy()
无 ++ 和 – 符号

参考博客

C++中的自增自减操作本质是改变的对象本身
但是，在python中规定数值对象是不可改变的

也就是说在进行 i = i + 1 操作时，相当于创建了一个新的 i , 而不是改变 i 中的值。

5. malloc() & new()

(1)malloc() C

头文件 malloc.h

用途：动态内存分配

申请一块连续的指定大小的内存块区域以void*类型返回分配内存区域地址

任何指针都可以赋值给void指针，但void指针赋值给其他类型的指针时都要进行转换

申请的内存需要free，否则会造成内存泄漏

malloc 只管分配内存，并不能对所得的内存进行初始化，所以得到的一片新内存中，其值将是随机的

typedef struct LNode *List;
struct LNode {
    ElementType Data[MAXSIZE];
    Position Last; /* 保存线性表中最后一个元素的位置 */
};
p = (List)malloc(sizeof(struct LNode));
//同 p=(struct LNode*)malloc(sizeof(struct LNode));

补充 sizeof() 不是函数

#include
int main(){
    int a = 10; //4
	char b = 'b'; //1
	short c = 2;  //2
	long d = 9;  //4
	float e = 6.29f;  //4
	double f = 95.0629;  //8
	int arr[] = { 1,2,3 };  //12 (3x4)
	char str[] = "hello";  //6（包括换行符）
	double *p=&f;  //8 
	int *i=&a;  //8
	//分别对各个变量使用sizeof运算
	printf("a=%d,b=%d,c=%d,d=%d,e=%d,f=%d,arr=%d,str=%d point_p=%d,point_i=%d\n",
		sizeof(a), sizeof(b), sizeof(c), sizeof(d), sizeof(e), sizeof(f),
		sizeof(arr), sizeof(str), sizeof(p), sizeof(i));
	return 0;	
}

指针变量，本身存储大小，32位环境4位，64位则8位，与指针类型无关

（2）new() C++

无需头函数，需要delete()

找到一篇很好的博客，感谢！

包括评论区的一些点

“malloc是面向内存的，你要开多大，就给你开多大，开了就不管了。new是面向对象的，根据你指定的数据类型来申请对应的空间，并且能够直接内部调用构造函数生成对象。”

“有了malloc，为什么还要有new？设计者设计new的原因是为什么？——因为对于非内部数据类型而言，malloc/free无法满足动态对象的要求。对象在创建时需要自动执行构造函数，在消亡之前需要自动执行析构函数。由于malloc/free是库函数而不是操作符，不在编译器控制权限之内，不能把执行的构造函数和析构函数强加于malloc/free，所以有了new/delete。”

“堆是一个实际的区域，而自由存储区是一个更上层的概念。通常new确实是在堆上申请内存，但是程序员可以自己重载new操作符，使用其他内存来实现自由存储（这并不常见）。另外，c++ primer plus这本书上有提到布局new，可以为对象在栈上分配内存。总的来说，自由存储区是new申请的区间的概念。”

这篇也好棒！感谢感谢！

6. 二叉搜索树

左结点的值<根结点的值<右结点的值

可以关联到二分查找

7.13

1. Colab

参考博客1

参考博客2

为啥会有两只柯基乱入==

为了保证计算资源的自动分配，Colab 中的可用 GPU 类型是动态变化的，通常包括 Nvidia K80（3.7）、T4（7.5）、P4 （6.1）和 P100（6.0）。

查看显卡驱动信息

! nvidia-smi

科普

显卡接在电脑主板上，它将电脑的数字信号转换成模拟信号让显示器显示出来。

Nvidia 是一家人工智能计算公司

CPU适合串行计算，擅长逻辑控制

GPU擅长并行高强度并行计算，适用于AI算法的训练学习
CUDA 是NVIDIA专门负责管理分配运算单元的框架

cuDNN是用于深层神经网络的gpu加速库

重点

不要直接上传文件

将数据文件上传到Google Drive中，使用如下代码挂载Google Drive读取数据，这样不会存在数据丢失的情况。

from google.colab import drive
drive.mount('/content/gdrive')
!ls

代码运行后在下方会出现链接，点击链接登录会出现验证码，复制粘贴到方框内便能在文件目录下挂载Google Drive文件夹，读取数据。

以下from 机器之心

2. github 访问慢可以加速

添加插件解决——github加速

3. 算力租赁

发现一个可以租算力的网站https://featurize.cn/?s=727e6c813a9c44dfb8fd8db7981c373a，有需要再说吧

4. python eval()

将字符串对象转换为具体对象,也可以进行计算

a = "[[1, 2], [3, 4], [5, 6]]"
b = eval(a)
print(b) #[[1,2],[3,4],[5,6]]
type(b) #list

a = "{1: 'a', 2: 'b'}"
b = eval(a)
print(b) #{1:'a',2:'b'}
type(b) #dict

a = "11 + 12"
b = eval(a) #23
print(b)

5. jupyter notebook 快捷键

参考：Jupyter Notebook 快捷键 - 朱卫军的文章 - 知乎 https://zhuanlan.zhihu.com/p/72845636

命令模式，键盘输入运行程序命令；这时的单元框线是灰色。

esc 转命令模式

YM互相转化，Y代码模式，M注释模式

ctrl+enter运行代码框

enter 转编辑模式

shift+K 扩大选中上方单元

shift+J 扩大选中下方单元

A 在上方插入新单元

B 在下方插入新单元

D 删除选中的单元

编辑模式，允许你往单元中键入代码或文本；这时的单元框线是绿色的。

附：anaconda &jupyter notebook 科普

6.lambda()

参考博客

lambda 是python 中预留的关键字

lambda[arg1[,arg2,…argn]]:expression 参数列表和参数表达式

输入是传入到参数列表argument_list的值，输出是根据表达式expression计算得到的值

拥有自己的命名空间

7.14

1. word2vec

参考博客

将某个单词用特定的向量来表示，词向量主要有两种形式，稀疏向量和密集向量

（1）稀疏向量one-hot representation

用一个很长的向量来表示一个词，向量的长度为词典的大小N，向量的分量只有一个1，其他全为0，1的位置对应该词在词典中的索引

优点：不需要繁琐的计算，简单易得

缺点：长度过长，会引发维数灾难；无法表示出近义词之间的关系（任意向量正交结果为0）

博客中提到“用这种稀疏向量求和来表示文档向量效果还不错，清华的长文本分类工具THUCTC使用的就是此种表示方法”

THUCTC(THU Chinese Text
Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包，能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。文本分类通常包括特征选取、特征降维、分类模型学习三个步骤。如何选取合适的文本特征并进行降维，是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验，在THUCTC中选取二字串bigram作为特征单元，特征降维方法为Chi-square，权重计算方法为tfidf，分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普适性，不依赖于任何中文分词工具的性能，具有准确率高、测试速度快的优点。

（2）密集向量distributed representation

即分布式表示。最早由Hinton提出，可以克服one-hot representation的上述缺点，基本思路是通过训练将每个词映射成一个固定长度的短向量，所有这些向量就构成一个词向量空间，每一个向量可视为该空间上的一个点**[1]**。此时向量长度可以自由选择，与词典规模无关。

可表示近义词之间的关系（正交结果不一定为0）

参考博客

用到了hs参数，不太懂，了解了一下

找到两篇博客，晚点消化

参考博客1

参考博客2

hierarchica softmax

nagative sampling

这篇博客讲的是使用word2vec

2. embedding

参考博客1

参考博客2

归纳：矩阵降维升维，利用共同特征构建两句话之间的关系

3. Gensim

Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。

使用gensim训练word2vec

from gensim.models.word2vec import Word2Vec
model = Word2Vec(sentences, workers=num_workers, size=num_features)

word2vec的实现是位于gensim包中gensim\models\word2vec.py文件里面的Word2Vec类中

4. python 面向对象

内部类相当于外部类的属性

使用内部类定义实例对象的时候，都必须在内部类的类名前加一个外部类的实例名

5. np.mean()

np.mean(a,axis)

axis 不设置值，对 m*n 个数求均值，返回一个实数
axis = 0：压缩行，对各列求均值，返回 1* n 矩阵
axis =1 ：压缩列，对各行求均值，返回 m *1 矩阵

6. sklearn 库

参考博客

(1) classification

SGD Classifier
Linear SVC
kernel approximation
KNeighbors Classifier
SVC
Ensemble Classifiers
Naive Bayes

(2)clustering

KMeans
Spectral Clustering
GMM
MiniBatch KMeans
MeanShift
VBGMM

(3)regression

SGD Regressor
Lasso ElasticNet
SVR(kernel=‘rbf’)
RidgeRegression
SVR(kernel=‘linear’)

(4)dimensionality reduction

Randomized
Isomap
Spectral Embedding
LLE
kernel approximation

7. python 相关 import

(1)Tqdm 是一个快速，可扩展的Python进度条，可以在 Python 长循环中添加一个进度提示信息，用户只需要封装任意的迭代器 tqdm(iterator)。

from tqdm import tqdm

(2)

import warnings
warnings.filterwarnings("ignore")

8. type()&dtype()&astype()

参考博客

9. 竞赛常用代码积累

填充缺失值、特征处理等操作时train和test放在一起，

data = pd.concat([train, test])

处理完后再根据标签是否为空分开

X_train = data[~data['label'].isna()]
X_test = data[data['label'].isna()]

isna()/isnull()

返回布尔值，检测元素值是否为NAN

两个baseline提交代码

test['pre'] = pre
test['pre'] = test['pre'].apply(lambda x:1 if x>0.5 else 0)
sub = test[['pid','pre']] 
sub = sub.rename(columns=({'pid':'user_id','pre':'category_id'}))  #dataframe.rename()
sub.to_csv('sub.csv',index=False)

X_test['category_id'] = [1 if i >= 2.5 else 0 for i in predictions_lgb]
X_test['user_id'] = X_test['pid']
X_test[['user_id', 'category_id']].to_csv('base_sub.csv', index=False)

10. StratifiedKFold & Kfold

StratifiedKFold用法类似Kfold，但是他是分层采样，确保训练集，测试集中各类别样本的比例与原始数据集中相同

11. pandas操作

（1）用pandas读写csv文件的index和columns细节问题

参考博客

dataframe 这个类型的对象就是一个有行index和列name的数据结构，写入时默认是保存的

参数index=False 表示不写入序列

pandas在读取csv文件时，不会去管原来的csv中是否存在index，而在于在读取的时候是否有设置index。如果读取的时候不设置index，那么系统会默认生成自然序列的index

（2）只写入几列

df.to_csv(‘文件名’,columns=[])

只读入几列

data=pd.read_csv(‘文件名’,usecols=[])

（3）读取csv后转为list

import pandas as pd
 
data_df = pd.read_csv("test.csv", names=["a", "b", "c", "d"], encoding="utf-8-sig")
print(data_df)
 
data = data_df.values.tolist()
print(data)
 
结果：
   a  b   c    d
0  1  2   3  NaN
1  4  5   6  7.0
2  8  9  10  NaN
[[1.0, 2.0, 3.0, nan], [4.0, 5.0, 6.0, 7.0], [8.0, 9.0, 10.0, nan]]

12. LightGBM

import lightgbm as lgb

LightGBM是个快速的，分布式的，高性能的基于决策树算法的梯度提升框架。可用于排序，分类，回归以及很多其他的机器学习任务中。

参考博客

13. python print()换行输出

print()函数中参数end=’ ‘默认为\n，所以会自动换行

如果不想换行，可以修改end里面的值

14. LabelEncoder

参考博客

from sklearn.preprocessing import LabelEncoder
data = pd.read_csv(pathUtils.train_path,engine='python')
encoder= LabelEncoder().fit(data["job"])
data["job"] = encoder.transform(data["job"])

参考博客

15. 特征重要性（1）

理论参考博客

用在树模型上，筛选特征

代码参考博客

利用matplotlib 对特征重要性进行了可视化处理

feature_importance = clf.feature_importances_
def plot_feature_importances(feature_importances, title, feature_names):
feature_importances = 100 * (feature_importances / max(feature_importances))
#按特征重要性进行排序
index_sorted = np.flipud(np.argsort(feature_importances))
pos = np.arange(index_sorted.shape[0]) + 0.8
 
plt.figure()
plt.bar(pos, feature_importances[index_sorted], align = 'center')
plt.xticks(pos, np.array(feature_names)[index_sorted])
plt.ylabel('Relative Importance')
plt.title(title)
plt.show()
 
plot_feature_importances(feature_importance, 'Feature importances', feature_names)

7.15

1. sns.heatmap热力图

参考博客

热力图，又名相关系数图。根据热力图中不同方块颜色对应的相关系数的大小，可以判断出变量之间相关性的大小。

sns.heatmap(df2.corr(),annot=True,vmax=1,square=True,cmap='Reds')

df2.corr() # 你的df2数据集的相关系数矩阵

annot=True # 绘制的热力图中每个单元格标记对应的相关系数值（显示数值）

vmax=1 # vmax指代颜色最深表示的最大相关系数值，超过这个相关系数值的色块表现为同一颜色

square=True # 参数为True确保绘制的热力图每个小色块为方形，False不做限制

cmap=‘Reds’ # 整体色系为红色系，也可以替换为Blues Greens

data=df2.corr()

如果是numpy二维数组，用行标标记；如果是DataFrame，就用列名标记

2. 训练集和测试集分布不一致（检验+解决）

参考博客

（1）检验

通过绘制概率密度图（kdeplot）来查看特征的分布，也可以通过对抗验证的方法进行特征的筛选

（2）解决

利用可视化查看训练集和测试集该特征的的分布情况，总之要用符合测试集分布的数据训练模型

参考博客

3. 验证集（开发集）

测试集是没有参与模型训练和参数调整的，只是用来测试模型泛化能力

随机采样适合于大量数据集和目标值分布均匀的情况，但如果正负样例分布不均匀，则需要分层采样划分数据集

“在训练模型时参数可以分为两种，一种是普通的模型参数，一种是需要人工调参的超参数，我们都知道普通参数的训练使用的是训练集的数据，验证集的数据并没有参与，因此可以用来进行评估。但实际上，我们在人工选择超参数，并使用验证集来决定最终使用哪组超参数的过程，也可以看作验证集参与了超参数的训练过程，因此我们还需要一个完全没有参与过所有参数训练的测试集来作为最终的结果评估。” from 知乎陈阿土

最后，竞赛中会提供测试集，训练集只分成训练集和验证集就行，不太需要额外划分测试集，因为在同一个训练集中数据分布大致相同

4. 目标属性与非目标属性相关性

参考博客

在分析特征间相关性时，常使用的方法是 pandas.DataFrame.corr ：

DataFrame.corr(self, method=’pearson’, min_periods=1)

参数说明：（其值范围-1到+1）

pearson：Pearson相关系数
kendall：Kendall秩相关系数
Spearman：Spearman等级相关系数

参考博客

使用皮尔森相关系数的缺点

判断的是两个特征的线性关系
没法同时适用于类别变量和数值变量的关系计算
相关性系数矩阵是对称的，而在许多问题中我们特征变量之间的关系并不一定是对称的

解决方法——预测能力得分

PPS使用实例(纵对横的关系)

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import ppscore as pps 

df = pd.read_excel("data/train.xlsx") 
plt.figure(figsize=(15, 13))
matrix_df = pps.matrix(df)[['x', 'y', 'ppscore']].pivot(columns='y', index='x', values='ppscore')
sns.heatmap(matrix_df, annot=True, vmin=0, vmax=1, cmap='Blues', fmt=".2f") # fmt表示规范数值，当前保留两位
plt.title("Predictive Power Score")
plt.savefig('corr_pps.png')

PPS可能不准确，但其目的不是给出准确的分数，而是给出两个变量之间的依存关系和快速结果的一般概念。

5. 数据竞赛ＡＢ榜

国内数据竞赛ＡＢ榜，提交到比赛评测口显示的是A榜成绩，当比赛结束后展示的是B榜成绩

如果A榜分数很高，但B榜分数很低，则是由于过拟合

B榜也相当于复赛

6. shuffle 数据

在训练之前，一般均会对训练集做shuffle，打乱数据之间的顺序，让数据随机化，这样可以避免过拟合。

7. df.dropna()

参考博客

DataFrame.dropna(axis=0,how=’any’,thresh=None,subset=None,inplace=False)

#等同于df.dropna()

axis 默认为0，即按行删除；axis=1 即按列删除

how=any 删除含有NAN 的行/列，how=all 删除全为NAN的行/列

inplace表示是在原df上修改，还是拷贝一份

subset 删除特定列中含有缺失值的行/列

8. 键盘快捷键

home 全屏减少干扰，退出全屏再按一次

9. MAE &RMSE & MSE

回归算法的一些评价指标

参考博客

MAE 平均绝对误差（mean absolute error）

MSE 均方误差（mean squared errror）——指参数估计值与参数真值之差平方的期望值;
RMSE 均方根误差（ root mean squared error） 对异常值敏感——是均方误差的算术平方根

10. np.random.uniform()

参考博客

函数原型： numpy.random.uniform(low,high,size)

功能：从一个均匀分布[low,high)中随机采样，注意定义域是左闭右开，即包含low，不包含high.

参数：

low: 采样下界，float类型，默认值为0；
high: 采样上界，float类型，默认值为1；
size: 输出样本数目，为int或元组(tuple)类型，例如，size=(m,n,k), 则输出mnk个样本，缺省时输出1个值。

返回值：ndarray类型，其形状和参数size中描述一致。

11. 随机种子

随机种子就是随机数的初始值，可用于保证结果的可重复性

np.random.seed(0)

7.16

1. python range()

不写左端默认从零开始

左闭右开

函数原型：range（start， end， scan):

最后一个参数表示间隔

7.17

1. matplotlib.pyplot

导入matplotlib是导入_init_.py 文件，而导入matplotlib.pyplot是导入matplotlib包下的pyplot.py文件

考察单个变量的均值、中位数、众数、分位数、方差、变异系数等

参考博客

plt.scatter() 散点图

# 绘制各学科成绩散点图
plt.figure(figsize=(6,4)) #设计画布大小
plt.scatter(data1["总分"],data1["语文"],marker='v')
plt.scatter(data1["总分"],data1["数学"],marker='o')
plt.scatter(data1["总分"],data1["英语"],marker='*')
plt.title("各学校成绩散点图",fontsize = 14)
plt.xlabel("总成绩")
plt.ylabel("各学科成绩")
plt.legend(["语文","数学","英语"]);

plt.plot() 折线图

plt.figure(figsize=(10,4))
plt.plot(range(21),data1.iloc[:,1],'-*') #选取语文成绩数据
plt.plot(range(21),data1.iloc[:,2],'-o') #选取数学成绩数据
plt.plot(range(21),data1.iloc[:,3],'-v') #选取英语成绩数据
plt.title('各学科成绩变化走势图')
plt.xlabel('各学校')
plt.ylabel('学科成绩')
plt.xticks(range(21),data1["学校"],rotation=30)  #rotation=30控制文字倾斜角度
plt.legend(['语文','数学','英语']);

plt.bar() 直方图

直方图包含更多关于分布形状的信息——是高斯分布、均匀分布还是多模态分布

yw = data1.loc[:,"学校":"语文"]  #提取数据绘制直方图,直方图原理,每个需要被画图的标签对应一个数值
yw = yw.T

yw.columns = yw.iloc[0]  #将学校字段转换成列索引
yw1 = yw.drop("学校",axis=0)  #删多余的行信息

# 每个学校语文平均成绩的直方图
plt.figure(figsize=(12,4))
plt.bar(range(21),yw.loc["语文",:],width=0.5)

plt.title("语文成绩直方图",fontsize = 14)
plt.ylabel("语文成绩",fontsize = 14)
plt.xticks(range(21),yw.iloc[0],rotation=30,fontsize = 12); #x轴刻度为各学校名称

# 将多个学科成绩画到一张图中  #截取前十
data2.plot.bar(x = '学校',y = ['语文','数学','英语'],figsize=(16,6),width=0.7,rot = 30,title = "各学科成绩直方图"); #rot空值标签倾斜程度

plt.pie() 饼图
plt.boxplot() 箱型图

几大要素

内限、中位数、上四分位数、下四分位数、异常值

下四分位数：一般使用(n+1)/4，即四分之一分位数即第(n+1)/4个数

上四分位数：一般使用(n+1)/4*3，即四分之三分位数即第(n+1)/4*3个数

内限：上面的T形线段所延伸到的极远处，是Q3+1.5IQR(其中，IQR=Q3-Q1)，下面的T形线段所延伸到的极远处，是Q1-1.5IQR。

小提琴图

2. 数据分析常用语句

data.isnull().sum()  #查看缺失值情况

3. groupby()

参考博客1

参考博客2

data1=data.groupby('性别')['身高'].内置函数 # 按照性别分组，统计身高信息

7.18

1. 直方图vs柱状图

参考博客

(1)直方图纵轴是频数，有助于我们知道数据的分布情况，诸如众数、中位数的大致位置、数据是否存在缺口或者异常值，可以和密度图相互转化;柱状图纵轴是大小

直方图展示的是一组数据中，在你划分的区间里，这些数据的分布情况，但是我们不知道在一个区间里，单个数据的具体大小。下图展现了游客在博物馆的游览时间，其中，将近40％的游客仅逗留了0-10分钟。但是我们无法知道这些游客中，每个人具体的游览时间是多少。

而在柱状图里，我们能看到的是每个数据的大小，并且进行比较。下图就比较了在12次展览中，参观者参观时间的中位数，我们能够知道参观的具体用时。

(2)直方图X轴为定量数据，柱状图X轴为分类数据。

在直方图中，X轴上的变量是一个个连续的区间，这些区间通常表现为数字，例如代表苹果重量的“0-10g，10-20g……”，代表时间长度的“0-10min，10-20min……”。而在柱状图中，X轴上的变量是一个个分类数据，例如不同的国家名称、不同的游戏类型。

直方图上的每根柱子都是不可移动的，X轴上的区间是连续的、固定的。而柱状图上的每根柱子是可以随意排序的，有的情况下需要按照分类数据的名称排列，有的则需要按照数值的大小排列。

(3)直方图柱子无间隔，柱状图柱子有间隔

因为直方图中的区间是连续的，因此柱子之间不存在间隙。而柱状图的柱子之间是存在间隔。

(4)直方图柱子宽度可不一，柱状图柱子宽度须一致

柱状图柱子的宽度因为没有数值含义，所以宽度必须一致。但是在直方图中，柱子的宽度代表了区间的长度，根据区间的不同，柱子的宽度可以不同，但理论上应为单位长度的倍数。

2. 变异系数

参考博客

3. 监督学习的假设

正负样本要平衡且训练集和测试集样本是独立同分布的

4. iloc & loc

5. Gini系数

Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率（二分类）

因此，Gini(D)越小，则数据集D的纯度越高

在选择划分属性时，选择那个使划分后Gini系数最小的属性作为最优划分属性

6. 对抗验证

对抗验证中，哪个特征重要性越高，则该特征在训练集和测试集分布不一致

对抗验证中，增设一列判断是否为测试集，然后训练集和测试集合并作为训练数据喂给模型，用训练集作为预测数据，概率高的可以在后续作为验证集，而不要交叉验证，另外对于单拿出来的验证集可以赋予一定的权重

7. np.argsort() & np.sort()

（1） np.sort()[::-1] 降序排列

（2）np.sort()[::1] 升序排列

（3）np.argsort()[::-1] 降序排序后返回索引值

（4）np.argsort()[::1] 升序排序后返回索引值

8. 结构化、非结构化、半结构化数据

参考博客

3. 监督学习的假设

正负样本要平衡且训练集和测试集样本是独立同分布的

4. iloc & loc

5. Gini系数

Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率（二分类）

因此，Gini(D)越小，则数据集D的纯度越高

在选择划分属性时，选择那个使划分后Gini系数最小的属性作为最优划分属性

6. 对抗验证

对抗验证中，哪个特征重要性越高，则该特征在训练集和测试集分布不一致

7. np.argsort() & np.sort()

（1） np.sort()[::-1] 降序排列

（2）np.sort()[::1] 升序排列

（3）np.argsort()[::-1] 降序排序后返回索引值

（4）np.argsort()[::1] 升序排序后返回索引值

8. 结构化、非结构化、半结构化数据

参考博客

你可能感兴趣的:(周学习笔记)

AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
Golang后端学习笔记 — 6. Golang操作数据库事务的方法宝码 Golang后端学习笔记 golang 数据库事务 postgresql
之前，学习了对数据库的每个表执行CRUD操作。真实的场景中，我们经常需要执行一个事务，它组合了多个表的相关操作。本节学习如何在Golang中实现它。在开始之前，先聊一下事务。什么是数据库事务？它是一个单一的工作单元，通常由多个表操作组成。比如：在我们的小银行项目中，我们要从张三的账户中向李四的账户中转账10元。该交易就包括5个操作，涉及到accounts表、entries表和transfers表：
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
GO语言学习笔记螺旋式上升abc golang 学习笔记
一、viper笔记【七米】https://liwenzhou.com/posts/Go/viper/二、优雅关机和平滑重启https://liwenzhou.com/posts/Go/graceful-shutdown/三、gin使用zaphttps://liwenzhou.com/posts/Go/zap-in-gin/四、flag用于命令行传参https://liwenzhou.com/pos
Oracle创建表空间、删除、状态、重命名、修改、增加、移动水煮白菜王 Oracle oracle 数据库
目录Oracle基本学习笔记创建表空间1.表空间创建格式3.表空间状态属性4.重命名表空间5.修改表空间数据文件的大小6.删除表空间的数据文件7.修改表空间中数据文件的状态8.表空间中数据文件的移动Oracle基本学习笔记创建表空间需要使用CREATETABLESPACE语句。其基本语法如下:CREATE[TEMPORARYIUNDO]TABLESPACEtablespacename[DATAFI
学习笔记09——并发编程之线程基础码代码的小仙女高级开发必备技能学习笔记 python
线程基础1.1进程与线程的区别，Java中线程的实现（用户线程与内核线程）进程是操作系统分配资源的基本单位，而线程是CPU调度的基本单位。每个进程有独立的内存空间，而同一进程内的线程共享内存.可以从资源分配、切换开销、通信方式和独立性四个方面来比较两者的区别资源分配进程：操作系统分配资源（如内存、文件句柄等）的基本单位，拥有独立的地址空间。线程：隶属于进程，共享进程的资源（如内存、文件等），是CP
学习笔记10——并发编程2线程安全问题与同步机制码代码的小仙女高级开发必备技能 java知识学习笔记
线程安全问题与同步机制线程安全的本质问题线程安全问题源于多线程环境下对共享资源（数据或状态）的非原子性、非可见性、非有序性访问，导致程序行为不符合预期。主要表现如下：竞态条件（RaceCondition）：多个线程对同一资源进行非原子操作，导致结果依赖线程执行顺序。示例：两个线程同时执行count++（非原子操作，实际包含读-改-写三步）。内存可见性问题：线程修改共享变量后，其他线程无法立即看到最
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
Java学习笔记——并发编程（三） __________习惯 java java
一、wait和notifywait和notify原理Owner线程发现条件不满足，调用wait方法，即可进入WaitSet变为WAITING状态BLOCKED和WAITING的线程都处于阻塞状态，不占用CPU时间片BLOCKED线程会在Owner线程释放锁时唤醒WAITING线程会在Owner线程调用notify或notifyAll时唤醒，但唤醒后并不意味着立刻获得锁，仍需进入EntryList重
学习笔记12——并发编程之线程之间协作方式码代码的小仙女高级开发必备技能 java jvm 开发语言
线程之间协作有哪些方式当多个线程可以一起工作去解决某个问题时，如果某些部分必须在其他部分之前完成，那么就需要对线程进行协调。共享变量和轮询方式实现：定义一个共享变量（如volatile修饰的布尔标志）。线程通过检查共享变量的状态来决定是否继续执行。publicclassTest{ privatestaticvolatilebooleanflag=false; publicstaticvoi
第五周作业——第十章动手试一试 hongsqi
10-1Python学习笔记学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行
一周学会Flask3 Python Web开发-使用SQLAlchemy动态创建数据库表 java1234_小锋 Flask3视频教程 python 数据库开发语言 flask3 flask
锋哥原创的Flask3PythonWeb开发Flask3视频教程：2025版Flask3Pythonweb开发视频教程(无废话版)玩命更新中~_哔哩哔哩_bilibili前面我们定义了模型，我们可以通过sqlalchemy对象提供的create_all()方法来映射和动态创建数据库表。因为我们用到了模块化蓝图blueprint，这个sqlalchemy对象会在app.py和蓝图模块之间互相调用，导
【C++基础学习笔记】C++的输入输出流及缺省参数大家好我叫张同学深入浅出学习C++c++
我要做一个好奇宝宝，带着疑问来阅读，哼~C++如何进行输入输出？和C语言何有区别？C++的缺省参数是什么？如何理解和掌握？文章目录C++的输入&输出缺省参数缺省参数的概念缺省参数的分类1.全缺省参数2.半缺省参数：C++的输入&输出婴儿降生到这个世界上时，会以自己独特的方式向这个崭新的世界打招呼。跟新生婴儿类似，C++语言刚出来后，也算是一个新事物，作为一门新的编程语言也会有自己问候这个美好世界的
快速从C过度C++（一）：namespace，C++的输入和输出，缺省参数，函数重载愚润泽 C++学习笔记 c++开发语言 c语言
前言：本文章适合有一定C语言编程基础的读者浏览，主要介绍从C语言到C++过度，我们首先要掌握的一些基础知识，以便于我们快速进入C++的学习，为后面的学习打下基础。这篇文章的主要内容有：1，命名空间namespace2，C++的输入和输出3，缺省参数4，函数重载个人简介：努力学习ing个人专栏：C++学习笔记CSDN主页愚润求学其他专栏：C语言入门基础，python入门基础，python刷题专栏快速
学习计划：第四阶段（第十周）狐凄学习学习 python 开发语言
目录第四阶段：特殊方法与高级特性第10周：综合复习与实践周一周二周三周四周五总结一、项目设计与实现二、问题与解决三、学习成果四、后续展望第四阶段：特殊方法与高级特性第10周：综合复习与实践周一上午项目构思结合之前学习的继承、多态、特殊方法和属性装饰器等知识，思考一个综合的面向对象编程项目。考虑项目的实用性和复杂度，最终确定项目主题为“宠物管理系统”。分析项目需求，明确系统应具备的主要功能，如添加宠
LLM Weekly（2025.02.17-02.23） UnknownBody LLM Daily LLM Weekly 人工智能自然语言处理
本文是LLM系列文章，主要是针对2025.02.17-02.23这一周的LLM相关新闻与文章、GitHub资源分享。网络新闻Grok3Beta——推理代理的时代。Grok发布了Grok3Beta，通过强化学习、扩展计算和多模态理解提供卓越的推理能力。Grok3和Grok3mini在学术基准上取得了高分，其中Grok3在AIME’25上获得了93.3%的分数。Grok3的推理可通过“思考”按钮访问，
学习笔记11——并发编程之并发关键字码代码的小仙女高级开发必备技能开发语言 java
并发关键字synchronized关键字在应用Sychronized关键字时需要把握如下注意点：1.一把锁只能同时被一个线程获取，没有获得锁的线程只能等待；2.每个实例都对应有自己的一把锁(this),不同实例之间互不影响；例外：锁对象是*.class以及synchronized修饰的是static方法的时候，所有对象公用同一把锁3.synchronized修饰的方法，无论方法正常执行完毕还是抛出
Excel如何制作轮班表-周六周日不去排班 cheese-liang Word Excel PPT小技巧 excel
Excel如何制作轮班表-周六周日不去排班1.概念讲解2.例子3.详细讲解3.1前期准备3.2人员依次编号3.3填入日期，和日期编号`此轮班表中得日期编号可以省略`3.4填入星期数3.4函数组合-填充值班人员编号3.4.1函数理解3.5进行查找填充人员3.5.1函数理解4.操作文档5.其他文章6.联系方式快来试试吧☺️1.概念讲解轮班是指一种工作安排系统，员工每天、每周或每月在不同班次（早上、下午
2024年HarmonyOS鸿蒙最全HarmonyOS Next 自定义路由栈管理_navpathstack，2024年最新销售应届毕业生的面试题 2401_84870988 程序员鸿蒙面试学习
深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上鸿蒙开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化的资料的朋
python数据分析一周速成2.连表查询【含数据库实战项目】噼里啪啦噼酷啪Q 数据分析数据分析 CDA python
连表查询结合数据库实战（sql和hive跨库取数）数据准备#前面省略数据库连接，提示：可以用pymysql和pyhive模块pre_sql="""selectap,timefrombiaoyiawherea.time>20250101"""sql_df=run_mysql(pre_sql)pre_hive="""selectapplication_number,activation_dtefrom
第N4周：NLP中的文本嵌入 OreoCC 自然语言处理人工智能
本人往期文章可查阅：深度学习总结词嵌入是一种用于自然语言处理（NLP）的技术，用于将单词表示为数字，以便计算机可以处理它们。通俗的讲就是，一种把文本转为数值输入到计算机中的方法。之前文章中提到的将文本转换为字典序列、one-hot编码就是最早期的词嵌入方法。Embedding和EmbeddingBag则是PyTorch中的用来处理文本数据中词嵌入（wordembedding）的工具，它们将离散的词
旅游淡季？这3招让旅行社轻松拓客！无代码开发平台二维码
在旅游业季节性波动规律面前，真正考验经营者智慧的并非旺季的流量收割，而是淡季的精准蓄水。当传统营销手段遭遇获客成本攀升、需求碎片化、服务响应滞后的三重困局时，一张小小的二维码正在重塑旅行社的客户运营逻辑——它不仅是一把打开精准营销大门的钥匙，更是构建客户忠诚度的数字桥梁。一、淡季经营的本质重构：从流量焦虑到价值深耕春节黄金周的热潮褪去后，旅行社经营者往往面临三重现实挑战：客户到店率呈现断崖式下滑，
从前端程序员到大模型工程师的转型攻略七七Seven～前端语言模型人工智能学习 chatgpt 算法
在科技日新月异的今天，人工智能（AI）特别是大规模预训练模型（大模型）的发展正引领着新一轮的技术革命。对于一位有志于从专注于用户界面设计和开发的前端程序员转向这个充满潜力领域的专业人士来说，这不仅是一次技术栈的转换，更是一个思维方式和个人职业发展的重大转变。本文将提供一个详尽的指南，帮助你顺利地完成这一过渡。第一阶段：打牢基础（第1-4周）深入了解AI与机器学习概念理解：阅读相关书籍、在线课程或观
蓝桥杯刷题周计划（第二周） EnigmaCoder 蓝桥杯刷题周计划蓝桥杯算法学习
目录前言题目一题目代码题解分析题目二题目代码题解分析题目三题目代码题解分析题目四题目代码题解分析题目五题目代码题解分析题目六题目代码题解分析题目七题目代码题解分析题目八题目题解分析题目九题目代码题解分析题目十题目代码题解分析题目十一题目代码题解分析题目十二题目代码题解分析题目十三题目代码题解分析题目十四题目代码题解分析题目十五题目代码题解分析题目十六题目代码题解分析题目十七题目代码题解分析题目十八
深度学习笔记——Resnet和迁移学习肆—— 深度学习深度学习笔记迁移学习
1.ResNet的提出深度学习与网络深度的挑战：在深度学习中，网络的“深度”(即层数)通常与模型的能力成正比。然而，随着网络深度的增加，一些问题也随之出现，最突出的是梯度消失/爆炸问题。这使得深层网络难以训练。梯度消失：梯度消失是指在训练深度神经网络时，通过多层传递的梯度(误差)变得非常小，接近于零。这导致网络中较早层的权重更新非常缓慢，甚至几乎不更新。梯度爆炸：梯度爆炸是指在训练深度神经网络时，
ts学习笔记江小年 go 笔记
TypeScript本文引用枫枫知道不做商用，仅用于学习枫枫知道可以购买枫枫知道的课程安装node建议下载长期维护版安装之后把node加入环境变量命令行输入node-vnpm-vnpm就是node里面安装第三方包的工具，相当于pip安装tsc它的作用就是将ts文件编译为js文件//.ts=>.jsnpmitypescript-gtsc-vtsc--init//生成一个json文件tsc//会编译项
Gin学习笔记江小年 go gin 学习笔记
RESTfulAPI以前写网站get/userpost/create_userpost/update_userpost/delete_userRESTfulAPIget/user获取post/user新建put/user更新patch/user更新部分delete/user删除REST与技术无关，代表的是一种软件架构风格，只要API程序遵循了REST风格，那就可以称其为RESTfulAPIREST
Unity入门学习笔记（Day01） Alika-snowr unity学习 unity 学习笔记
一.认识unity工作面板1.1.projectwindow（项目面板）显示当前项目中的所有文件和目录，包含了项目里面所有的资源文件1.2.consolewindow（输出面板）显示当前游戏开发中生成的警告错误1.3.hierarchywindow（层次面板）也称为场景面板，显示当前的场景中所有游戏游戏对象，并显示父子级关系；我们说开发的游戏是由一个一个的场景组成的（类型与拍戏的场次场景）游戏物体
Etcd学习笔记江小年 etcd 学习笔记
etcd的介绍与安装主要用于微服务的配置中心和服务发现，数据可靠性比redis更强在对外api的应用中，如何知道order服务的rpc地址？如果服务的ip地址变化了怎么办？在传统的配置文件模式，修改配置文件，应用程序是需要重启才能解决的，所以引入etcdwindows安装etcd-v3.5.16-windows-amd64.zipdocker安装dockerrun--nameetcd-d-p237
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end