云端FFF

【sklearn】dataset模块（1）—— 玩具数据集、远程数据集

本文介绍sklearn.datasets模块
本文是从jupyter文档转换来的，某个代码块不一定能直接复制运行，代码输出结果统一以注释形式添加在代码最后

文章目录

0. 前置
- 0.1 关于Sklearn
- 0.2 Bunch类型
1. sklearn.datasets模块
- 1.1 玩具数据集
- - 1.1.1 波士顿房价数据集（回归）
  - 1.1.2 乳癌数据集（二分类）
  - 1.1.3 糖尿病数据集（回归）
  - 1.1.4 手写字体数据集（多分类）
  - 1.1.5 鸢尾花数据集（多分类）
  - 1.1.6 红酒数据集（多分类）
  - 1.1.7 健身数据集（回归）
- 1.2 远程加载数据集

0. 前置

0.1 关于Sklearn

Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具。建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上，是一个优秀且常用的传统机器学习方法框架。与之相比，PyTorch、TensorFlow等属于深度学习框架。
Sklearn自带的官方文档非常优秀，API 设计良好，适合新手上路
Sklearn 包含有六大任务模块：分别是分类、回归、聚类、降维、模型选择和预处理。

0.2 Bunch类型

Bunch是sklearn.datasets.base中的数据类型

Bunch类似字典，也是由键值对组成，和字典区别在于其键值可以被实例对象当作属性使用

from sklearn import datasets
buch = datasets.base.Bunch(A=1,B=2,C=3)

print(type(buch))   # bunch类型
print(buch)         # 和字典类似
print(buch['A'])    # 和字典类似
print(buch.A)       # 和字典不同

'''

{'A': 1, 'B': 2, 'C': 3}
1
1
'''

加载sklearn中的数据集时，它们并不是直接转换成ndarray数组。而是转换为一个Bunch对象，通常用其中的.data成员和.target成员分别表示样本集和标签集，他们是ndarray数组

from sklearn import datasets
boston_data = datasets.load_boston()       
print(type(boston_data))
print(type(boston_data.data))
print(type(boston_data.target))

print(type(boston_data['data']))
print(type(boston_data['target']))

'''





'''

1. sklearn.datasets模块

进行机器学习时，我们需要一些训练数据。 sklearn.dataset 模块就是Scikit-Learn框架自带的数据集模块，可以方便快速地获取训练数据，测试算法性能

sklearn 的数据集可以分为以下几种，常用的是前三种

数据集类型	加载函数
自带的小数据集（packaged dataset）	`sklearn.datasets.load_`
可在线下载并加载的大型数据集（Downloaded Dataset）	`sklearn.datasets.fetch_`
生成的数据集（Generated Dataset）	`sklearn.datasets.make_`
`svmlight`/`libsvm`格式的数据集	`sklearn.datasets.load_svmlight_file(...)`
从data.org购买并在线下载获取的数据集	`sklearn.datasets.fetch_mldata(...)`

第一类 packaged dataset 和第二类 Downloaded Dataset 的所有加载函数都返回一个Bunch对象，里面至少包含以下两项
1. key为data的成员（20news groups数据集除外），这是尺寸为(n_samples,n_features)的ndarray数组，存储样本数据
2. key为target的成员，这是尺寸为(n_samples,)的ndarray数组，存储每个样本对应的标签数据。
通过将加载函数的传入参数设置为return_X_y = True，几乎所有这些函数都可以将输出约束为元组(data,target)
第三类 Generated Dataset 的加载函数返回一个元组(X,y)，形式和前两类设置参数return_X_y=True时返回的(data,target)一致

1.1 玩具数据集

这是sklearn自带的小型标准数据集，这些数据集有助于快速在scikit中测试各种算法。然而，它们数据规模往往太小，无法代表真实世界的机器学习任务。
加载方式：dataset = sklearn.datasets.load_()

常用的小数据集：

名字	导入方法	介绍	任务	数据规模
波士顿房价	load_boston(return_X_y=False)	加载和返回一个boston房屋价格的数据集	回归	506 x 13
乳腺癌	load_breast_cancer(return_X_y=False)	加载和返回一个乳腺癌“恶性/良性”（1/0）类别型数据集	二分类	569 x 30
糖尿病	load_diabetes(return_X_y=False)	加载和返回一个糖尿病数据集	回归	442 x 10
手写数据	load_digits(return_X_y=False)	加载和返回一个手写图片数据集	多分类	1797 x 64
鸢尾花	load_iris(return_X_y=False)	加载和返回一个鸢尾花数据集	多分类	150 x 4
红酒	load_wine(return_X_y=False)	加载和返回一个红酒数据集	多分类	178 x 13
体能训练	load_linnerud(return_X_y=False)	加载和返回健身数据集	回归	20 x 3

1.1.1 波士顿房价数据集（回归）

用于回归

这个数据集包含了506处波士顿不同地理位置的房产的房价数据（因变量），和与之对应的包含房屋以及房屋周围的详细信息（自变量），其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等13个维度的数据，因此，波士顿房价数据集能够应用到回归问题上。使用.load_boston(return_X_y=False)方法来导出数据，其中参数return_X_y控制输出数据的结构，若选为True，则将因变量和自变量独立导出，否则默认为整体导出

from sklearn import datasets
boston_data = datasets.load_boston()           # 整体导出
X,y = datasets.load_boston(return_X_y = True)  # 独立导出

#print(boston_data.DESCR)    			# 描述文档
print(dir(boston_data),'\n')            # 数据集对象所含的成员 
print(boston_data.data.shape,'\n')      # 样本集形状
print(boston_data.target.shape,'\n')    # 标签集形状
print(boston_data.data[:1],'\n')        # 前3个样本
print(boston_data.target[:1],'\n')      # 前3个标签
print(boston_data.feature_names,'\n')   # 特征名
print(boston_data.filename,'\n')        # 数据库文件路径

print(X.shape)        # 独立导出的样本集
print(y.shape)        # 独立导出的标签集

'''
['DESCR', 'data', 'feature_names', 'filename', 'target'] 
    
(506, 13) 

(506,) 

[[6.320e-03 1.800e+01 2.310e+00 0.000e+00 5.380e-01 6.575e+00 6.520e+01
  4.090e+00 1.000e+00 2.960e+02 1.530e+01 3.969e+02 4.980e+00]] 

[24.] 

['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT'] 

D:\programmer\Anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\boston_house_prices.csv 

(506, 13)
(506,)

'''

1.1.2 乳癌数据集（二分类）

用于二分类，良性和恶性

这个数据集包含了威斯康辛州记录的569个病人的乳腺癌“恶性/良性”（1/0）类别型数据（训练目标），以及与之对应的30个维度的生理指标数据；因此这是个非常标准的二类判别数据集，在这里使用.load_breast_cancer(return_X_y)来导出数据

from sklearn import datasets
breast_data = datasets.load_breast_cancer()           # 整体导出
X,y = datasets.load_breast_cancer(return_X_y = True)  # 独立导出

#print(breast_data.DESCR)    			# 描述
print(dir(breast_data),'\n')            # 数据集对象所含的成员 
print(breast_data.data.shape,'\n')      # 样本集形状
print(breast_data.target.shape,'\n')    # 标签集形状
print(breast_data.data[:1],'\n')        # 第一个样本
print(breast_data.target[:1],'\n')      # 第一个标签
print(breast_data.feature_names,'\n')   # 特征名
print(breast_data.target_names,'\n')    # 标签名
print(breast_data.filename,'\n')        # 数据库文件路径  

print(X.shape)        # 独立导出的样本集
print(y.shape)        # 独立导出的标签集

'''
 ['DESCR', 'data', 'feature_names', 'filename', 'frame', 'target', 'target_names'] 

(569, 30) 

(569,) 

[[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
  1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
  6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
  1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
  4.601e-01 1.189e-01]] 

[0] 

['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension'] 

['malignant' 'benign'] 

D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\breast_cancer.csv 

(569, 30)
(569,)
'''

1.1.3 糖尿病数据集（回归）

用于回归

这是一个糖尿病的数据集，主要包括442行数据，10个属性值，分别是：Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标。Target为一年后患疾病的定量指标，因此适合与回归任务；这里使用.load_diabetes(return_X_y)来导出数据

from sklearn import datasets
dbt_data = datasets.load_diabetes()              # 整体导出
X,y = datasets.load_diabetes(return_X_y = True)  # 独立导出

#print(dbt_data.DESCR)    			 # 描述
print(dir(dbt_data),'\n')            # 数据集对象所含的成员 
print(dbt_data.data.shape,'\n')      # 样本集形状
print(dbt_data.target.shape,'\n')    # 标签集形状
print(dbt_data.data[:1],'\n')        # 第一个数据
print(dbt_data.target[:1],'\n')      # 第一个标签
print(dbt_data.feature_names,'\n')   # 特征名
print(dbt_data.data_filename,'\n')   # 样本文件路径
print(dbt_data.target_filename,'\n') # 标签文件路径  

print(X.shape)        # 独立导出的样本集
print(y.shape)        # 独立导出的标签集

'''
['DESCR', 'data', 'data_filename', 'feature_names', 'frame', 'target', 'target_filename'] 

(442, 10) 

(442,) 

[[ 0.03807591  0.05068012  0.06169621  0.02187235 -0.0442235  -0.03482076
  -0.04340085 -0.00259226  0.01990842 -0.01764613]] 

[151.] 

['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6'] 

D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\diabetes_data.csv.gz 

D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\diabetes_target.csv.gz 

(442, 10)
(442,)
'''

1.1.4 手写字体数据集（多分类）

用于多分类，0到9，图片大小8x8

这个数据集是经典的结构化数据，共有1797个样本，每个样本有64的元素，对应到一个8x8像素点组成的矩阵，每一个值是其灰度值，我们都知道图片在计算机的底层实际是矩阵，每个位置对应一个像素点，有二值图，灰度图，1600万色图等类型，在这个样本中对应的是灰度图，控制每一个像素的黑白浓淡，所以每个样本还原到矩阵后代表一个手写体数字，这与我们之前接触的数据有很大区别；在这里我们使用load_digits(return_X_y)来导出数据：

from sklearn import datasets
digits_data = datasets.load_digits()
X,y = datasets.load_digits(return_X_y = True)  # 独立导出

#print(digits_data.DESCR)    			# 描述
print(dir(digits_data),'\n')            # 数据集对象所含的成员 
print(digits_data.data.shape,'\n')      # 样本集形状
print(digits_data.target.shape,'\n')    # 标签集形状
print(digits_data.data[:1],'\n')        # 第一个数据
print(digits_data.target[:1],'\n')      # 第一个标签
print(digits_data.feature_names,'\n')   # 特征名
print(digits_data.target_names,'\n')    # 标签名
print(digits_data.images[:1],'\n')      # 以8x8形式显示图片数据，其实就是带格式的data

print(X.shape)        # 独立导出的样本集
print(y.shape)        # 独立导出的标签集

'''
 ['DESCR', 'data', 'feature_names', 'frame', 'images', 'target', 'target_names'] 

(1797, 64) 

(1797,) 

[[ 0.  0.  5. 13.  9.  1.  0.  0.  0.  0. 13. 15. 10. 15.  5.  0.  0.  3.
  15.  2.  0. 11.  8.  0.  0.  4. 12.  0.  0.  8.  8.  0.  0.  5.  8.  0.
   0.  9.  8.  0.  0.  4. 11.  0.  1. 12.  7.  0.  0.  2. 14.  5. 10. 12.
   0.  0.  0.  0.  6. 13. 10.  0.  0.  0.]] 

[0] 

['pixel_0_0', 'pixel_0_1', 'pixel_0_2', 'pixel_0_3', 'pixel_0_4', 'pixel_0_5', 'pixel_0_6', 'pixel_0_7', 'pixel_1_0', 'pixel_1_1', 'pixel_1_2', 'pixel_1_3', 'pixel_1_4', 'pixel_1_5', 'pixel_1_6', 'pixel_1_7', 'pixel_2_0', 'pixel_2_1', 'pixel_2_2', 'pixel_2_3', 'pixel_2_4', 'pixel_2_5', 'pixel_2_6', 'pixel_2_7', 'pixel_3_0', 'pixel_3_1', 'pixel_3_2', 'pixel_3_3', 'pixel_3_4', 'pixel_3_5', 'pixel_3_6', 'pixel_3_7', 'pixel_4_0', 'pixel_4_1', 'pixel_4_2', 'pixel_4_3', 'pixel_4_4', 'pixel_4_5', 'pixel_4_6', 'pixel_4_7', 'pixel_5_0', 'pixel_5_1', 'pixel_5_2', 'pixel_5_3', 'pixel_5_4', 'pixel_5_5', 'pixel_5_6', 'pixel_5_7', 'pixel_6_0', 'pixel_6_1', 'pixel_6_2', 'pixel_6_3', 'pixel_6_4', 'pixel_6_5', 'pixel_6_6', 'pixel_6_7', 'pixel_7_0', 'pixel_7_1', 'pixel_7_2', 'pixel_7_3', 'pixel_7_4', 'pixel_7_5', 'pixel_7_6', 'pixel_7_7'] 

[0 1 2 3 4 5 6 7 8 9] 

[[[ 0.  0.  5. 13.  9.  1.  0.  0.]
  [ 0.  0. 13. 15. 10. 15.  5.  0.]
  [ 0.  3. 15.  2.  0. 11.  8.  0.]
  [ 0.  4. 12.  0.  0.  8.  8.  0.]
  [ 0.  5.  8.  0.  0.  9.  8.  0.]
  [ 0.  4. 11.  0.  1. 12.  7.  0.]
  [ 0.  2. 14.  5. 10. 12.  0.  0.]
  [ 0.  0.  6. 13. 10.  0.  0.  0.]]] 

(1797, 64)
(1797,)

'''

不妨绘制一下此数据集

from sklearn.datasets import load_digits
import matplotlib.pyplot as plt
import numpy as np

digits = load_digits()
plt.gray()                     # 灰度显示
plt.matshow(digits.images[0])  # 在一个图形窗口中将数组作为矩阵展示
plt.show()                   

n_samples,n_features=digits.data.shape
fig = plt.figure(figsize=(6,6))
fig.subplots_adjust(left=0,right=1,bottom=0,top=1,hspace=0.05,wspace=0.05)

#绘制数字：每张图像8*8像素点
for i in range(64):
    ax = fig.add_subplot(8,8,i+1,xticks=[],yticks=[])
    ax.imshow(digits.images[i],cmap=plt.cm.binary,interpolation='nearest')
    #用目标值标记图像
    ax.text(0,7,str(digits.target[i]))
plt.show()

1.1.5 鸢尾花数据集（多分类）

简单的用于多分类任务的数据集

著名的统计学家Fisher在研究判别分析问题时收集了关于鸢尾花的一些数据，这是个非常经典的数据集，datasets中自然也带有这个数据集；这个数据集包含了150个鸢尾花样本，对应3种鸢尾花，各50个样本（target），以及它们各自对应的4种关于花外形的数据（自变量）；这里我们使用.load_iris(return_X_y)来导出数据

from sklearn import datasets
iris_data = datasets.load_iris()

#print(iris_data.DESCR)    			  # 描述
print(dir(iris_data),'\n')            # 数据集对象所含的成员 
print(iris_data.data.shape,'\n')      # 样本集形状
print(iris_data.target.shape,'\n')    # 标签集形状
print(iris_data.data[:1],'\n')        # 第一个样本
print(iris_data.target[:1],'\n')      # 第一个标签
print(iris_data.feature_names,'\n')   # 特征名
print(iris_data.target_names,'\n')    # 标签名
print(iris_data.filename,'\n')        # 标签文件路径  

'''
 ['DESCR', 'data', 'feature_names', 'filename', 'frame', 'target', 'target_names'] 

(150, 4) 

(150,) 

[[5.1 3.5 1.4 0.2]] 

[0] 

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] 

['setosa' 'versicolor' 'virginica'] 

D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\iris.csv 
'''

不妨绘制一下此数据集

from sklearn.datasets import load_iris
import numpy as np
import matplotlib.pyplot as plt 

plt.figure(figsize=(12,6))
iris = load_iris()

# 绘制第3维数据直方图
plt.subplot(121)
x_index = 3    # x轴为 feature_names[3]
color=['blue','red','green']
for label,color in zip(range(len(iris.target_names)),color):
    plt.hist(iris.data[iris.target==label,x_index],label=iris.target_names[label],color=color)

plt.xlabel(iris.feature_names[x_index])
plt.legend(loc="upper right")

#画散点图，第一维的数据作为x轴和第二维的数据作为y轴
plt.subplot(122)
x_index=0     # x轴为 feature_names[0]
y_index=1     # y轴为 feature_names[1]
colors=['blue','red','green']
for label,color in zip(range(len(iris.target_names)),colors):
    plt.scatter(iris.data[iris.target==label,x_index],
                iris.data[iris.target==label,y_index],
                label=iris.target_names[label],
                c=color)
plt.xlabel(iris.feature_names[x_index])
plt.ylabel(iris.feature_names[y_index])
plt.legend(loc='upper right')
plt.show()

1.1.6 红酒数据集（多分类）

用于多分类问题

这是一个共178个样本，代表了红酒的三个档次（分别有59,71,48个样本），以及与之对应的13维的属性数据，非常适合用来练习各种分类算法；在这里我们使用.load_wine(return_X_y)来导出数据

from sklearn import datasets
wine_data = datasets.load_wine()

#print(wine_data.DESCR)    			  # 描述
print(dir(wine_data),'\n')            # 数据集对象所含的成员 
print(wine_data.data.shape,'\n')      # 样本集形状
print(wine_data.target.shape,'\n')    # 标签集形状
print(wine_data.data[:1],'\n')        # 第一个样本
print(wine_data.target[:1],'\n')      # 第一个标签
print(wine_data.feature_names,'\n')   # 特征名
print(wine_data.target_names,'\n')    # 标签名

'''
 ['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names'] 

(178, 13) 

(178,) 

[[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
  2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]] 

[0] 

['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline'] 

['class_0' 'class_1' 'class_2'] 
'''

1.1.7 健身数据集（回归）

用于回归

Linnerud数据集是一个多输出回归数据集。它包括三个运动数据（样本）和三个生理指标变量（标签），收集自20名中年男性在健身俱乐部

from sklearn import datasets
linnerud_data = datasets.load_linnerud()

#print(linnerud_data.DESCR)    			  # 描述
print(dir(linnerud_data),'\n')            # 数据集对象所含的成员 
print(linnerud_data.data.shape,'\n')      # 样本集形状
print(linnerud_data.target.shape,'\n')    # 标签集形状
print(linnerud_data.data[:1],'\n')        # 第一个样本
print(linnerud_data.target[:1],'\n')      # 第一个标签
print(linnerud_data.feature_names,'\n')   # 特征名
print(linnerud_data.target_names,'\n')    # 标签名
print(linnerud_data.data_filename,'\n')   # 样本文件路径
print(linnerud_data.target_filename,'\n') # 标签文件路径

'''
['DESCR', 'data', 'data_filename', 'feature_names', 'frame', 'target', 'target_filename', 'target_names'] 

(20, 3) 

(20, 3) 

[[  5. 162.  60.]] 

[[191.  36.  50.]] 

['Chins', 'Situps', 'Jumps'] 

['Weight', 'Waist', 'Pulse'] 

D:\programmer\Anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data/linnerud_exercise.csv 

D:\programmer\Anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data/linnerud_physiological.csv 
'''

1.2 远程加载数据集

Downloaded Dataset 都是比较大的数据集，主要用于测试解决实际问题，支持在线下载，下载数据集默认保存在当前文件夹的~/scikit_learn_data路径下，可以通过两种方式进行配置
1. 设置环境变量SCIKIT_LEARN_DATA指定下载路径
2. .fetch_*?方法的第一个参数是data_home，可以设置下载位置
通过datasets.get_data_home()获取下载路径。

全部加载方法

datasets.fetch_20newsgroups  
datasets.fetch_20newsgroups_vectorized  
datasets.fetch_california_housing  
datasets.fetch_covtype  
datasets.fetch_kddcup99  
datasets.fetch_lfw_pairs  
datasets.fetch_lfw_people  
datasets.fetch_mldata  
datasets.fetch_olivetti_faces  
datasets.fetch_rcv1  
datasets.fetch_species_distributions

基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
R+VIC 模型融合实践技术应用及未来气候变化模型预测 weixin_贾水文模型集合水文水资源防洪评价风险评估滑坡泥石流数学建模经验分享
目前，无论是工程实践或是科学研究中都存在很多著名的水文模型如SWAT/HSPF/HEC-HMS等。虽然，这些软件有各自的优点；但是，由于适用的尺度主要的是中小流域，所以在预测气候变化对水文过程影响等方面都有所不足。VIC模型是一个大尺度的半分布式水文模型，其设计之初就是为了模拟大流域的水文过程；它能够计算陆地－大气的能量通量，考虑土壤性质和土地利用的影响，自带有简化的湖泊/湿地模块，也能够将植被状
目标检测项目 sho_re 神经网络人工智能 pytorch 目标检测
·识别图片中有哪些物体并且找到物体的存在位置多任务：位置+类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰VOC数据集：PASCALVOC挑战赛(ThePASCALVisualObjectClasses)是一个世界级的计算机视觉挑战赛。4大类，20小类VOC2007：9963图片/24640目标VOC2012：23080图片/54900目标·COCO数据集：起源于微软2014
数据分享｜1961-2017年中国0.25°×0.25° 逐日地表水文数据集(VIC-CN05.1) JGiser GIS数据未分类（气象等等）arcgis
缺乏长期高精度的地表观测给我国水文气象研究带来了很大的不确定性。本数据基于陆面水文模式（VICv4.2.d,VariableInfiltrationCapacitymodel）模拟构建了中国1961~2017年0.25°×0.25°逐日地表水文数据集（VIC-CN05.1）。大气驱动场（降水、温度和风速）来自基于中国2400多个站点观测资料插值而成的0.25°×0.25°逐日气象数据集（CN05.
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
python中常用的内置模块举例（入门级整理） qq_恰同学少年 python
python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
“大语言模型微调”（Fine-tuning）与“大语言模型应用”（LLM Applications）之间的区别 AI Echoes 人工智能机器学习深度学习
1.概念与定义大语言模型微调微调指的是在一个经过大规模预训练的通用语言模型基础上，利用针对性较强的小规模数据集对模型进行进一步训练，从而使模型在特定领域或任务上表现得更优秀。目标：使模型更好地适应特定任务（如医疗问答、法律咨询、编程辅助等），提高准确性和专业性。方法：可以是全参数微调，也可以采用参数高效微调（如LoRA、Adapter、PrefixTuning等），后者只调整部分参数而保持原有权重
聚类分析|k-means聚类方法及其Python实现皖山文武数据挖掘商务智能 kmeans 聚类 python 数据挖掘机器学习
k-means聚类方法及其Python实现0.k-means算法简介1.k-means算法工作原理2.k-means算法流程3.k–means算法的Python实现0.k-means算法简介k-means算法由MacQueen在1967年提出。是一种经典的基于划分的聚类方法。划分方法（PartitioningMethod）是基于距离判断样本相似度，通过不断迭代将含有多个样本的数据集划分成若干个簇，
【漫话机器学习系列】130.主成分（Principal Components） IT古董漫话机器学习系列专辑机器学习人工智能 python
主成分（PrincipalComponents）详解1.什么是主成分？主成分（PrincipalComponents，PCs）是数据集中方差最大的线性组合，它是主成分分析（PrincipalComponentAnalysis，PCA）中的核心概念。主成分可以看作是对原始特征的新表述方式，它通过数学变换找到一组新的正交坐标轴，使得数据的主要变化方向与这些轴对齐。简单来说：主成分是数据集中信息量（方差
YOLOv8制作自己的实例分割数据集保姆级教程（包含json转txt） Sir小珂 YOLO python 深度学习人工智能
1.数据准备首先对原始数据集进行整理，将标注好的图像和标签分别放在两个文件夹中，同时额外新建两个文件夹，用于存放转换完的标签与划分后的数据集。1.1将json格式文件转换为txt格式新建json2txt.py文件，将代码中的文件路径修改为自己的路径。❗❗❗代码中第43行的classes中存放的是自己数据集的分类标签，记得修改成自己的。importjsonimportosfromtqdmimport
领域大模型之微调技术和最佳实践程序员莫玛人工智能深度学习语言模型金融
BERT和GPT-3等语言模型针对语言任务进行了预训练。微调使它们适应特定领域，如营销、医疗保健、金融。在本指南中，您将了解LLM架构、微调过程以及如何为NLP任务微调自己的预训练模型。-介绍-大型语言模型（LLM）的特别之处可以概括为两个关键词——大型和通用。“大”是指它们训练的海量数据集及其参数的大小，即模型在训练过程中学习的记忆和知识;“通用”意味着他们具有广泛的语言任务能力。更明确地说，L
基于PyTorch的深度学习6——数据处理工具箱2 Wis4e 深度学习 pytorch 人工智能
torchvision有4个功能模块：model、datasets、transforms和utils。主要介绍如何使用datasets的ImageFolder处理自定义数据集，以及如何使用transforms对源数据进行预处理、增强等。下面将重点介绍transforms及ImageFolder。transforms提供了对PILImage对象和Tensor对象的常用操作。1)对PILImage的常
【5分钟背八股】redis主从复制的原理？持久化RDB和AOF？熬夜加班写代码 Java 面试程序员 redis java 后端面试
面试官：Redis主从复制的原理？主从复制机制当一个master实例和一个slave实例连接正常时，master会发送一连串的命令流来保持对slave的更新，以便于将自身数据集的改变复制给slave，：包括客户端的写入、key的过期或被逐出等等。当master和slave之间的连接断开之后，因为网络问题、或者是主从意识到连接超时，slave重新连接上master并会尝试进行部分重同步：这意味着它会
redis的两种持久化方式 kse_music #DB redis 数据库缓存
目录一、RDB模式二、AOF模式三、缓存穿透雪崩穿透四、接口幂等性一、RDB模式RDB机制的优势和略施RDB持久化是指在指定的时间间隔内将内存中的数据集快照写入磁盘。也是默认的持久化方式，这种方式是就是将内存中数据以快照的方式写入到二进制文件中,默认的文件名为dump.rdb。可以通过配置设置自动做快照持久化的方式。我们可以配置redis在n秒内如果超过m个key被修改就自动做快照，下面是默认的快
基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-Attention)的单变量时序预测机器学习和优化算法多头注意力机制深度学习神经网络人工智能机器学习单变量时序预测 BiLSTM 多头注意力机制
目录1、代码简介2、代码运行结果展示3、代码获取1、代码简介基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-Attention)的单变量时序预测(单输入单输出)1.程序已经调试好，无需更改代码替换数据集即可运行！！！数据格式为excel！2.需要其他算法的都可以定制！注：1️⃣、运行环境要求MATLAB版本为2023b及其以上。【没有我赠送】2️⃣、评价指标包括:R
鸢尾花数据集的四个特征具体是什么？学术乙方 Python 人工智能
鸢尾花数据集（IrisDataset）是机器学习领域中最经典的数据集之一，它包含150个样本，每个样本有4个特征，分别是：1.花萼长度（SepalLength）描述：花萼（花的外部绿色部分）的长度，单位为厘米。取值范围：通常为4.3cm到7.9cm。2.花萼宽度（SepalWidth）描述：花萼的宽度，单位为厘米。取值范围：通常为2.0cm到4.4cm。3.花瓣长度（PetalLength）描述：
数据结构的基本概念和术语的一些介绍王哈哈嘻嘻噜噜数据结构
数据：是客观事物的符号表示，包括两种：数值型（整数，实数）和非数值型（文字，图形，声音数据元素：是数据的基本单位，通常作为一个整体进行表示。与数据的关系：是数据集合的个体数据项：组成数据元素的不可分割的最小单位。以上三者的关系：数据>数据元素>数据项例如：学生表>个人记录>学生的单个年龄，姓名数据对象：是性质相同的数据元素的集合与数据的关系：是数据集合的一个子集例如：整数数据对象是集合N{0，+-
3.10 项目总结不要不开心了 pyqt 深度学习机器学习数据挖掘人工智能
今天的项目是一个使用PyTorch框架构建和训练神经网络的实例，旨在实现手写数字识别。以下是项目的总结、内容分析以及优化建议：项目总结1.目标：使用神经网络对MNIST数据集中的手写数字进行分类。2.步骤：-数据加载和预处理。-构建神经网络模型。-定义损失函数和优化器。-训练模型并评估其性能。-可视化训练结果。内容分析1.数据加载和预处理：-使用`torchvision.datasets`加载MN
人脸属性分析：年龄估计_（7）.数据集构建与标注 zhubeibei168 人脸识别系统架构人工智能机器学习人脸识别计算机视觉
数据集构建与标注在人脸属性分析中，数据集的构建与标注是至关重要的一步。高质量的数据集能够显著提升模型的性能和泛化能力。本节将详细介绍如何构建和标注用于年龄估计的数据集，包括数据收集、预处理、标注工具的选择以及标注标准的设定。数据收集数据收集是构建数据集的第一步。为了确保模型能够学习到不同年龄、种族、性别等因素的特征，需要从多个来源收集数据。常见的数据来源包括：1.公开数据集公开数据集是数据收集的便
点云语义分割：PointNet++在S3DIS数据集上的训练完美代码 3d neo4j 点云
点云语义分割：PointNet++在S3DIS数据集上的训练点云语义分割是计算机视觉领域的一个重要任务，旨在将点云数据中的每个点分配给其对应的语义类别。PointNet++是一种流行的深度学习方法，可用于处理点云数据，并在各种任务中取得了良好的性能。在本文中，我们将探讨如何使用PointNet++模型在S3DIS数据集上进行训练，并提供相应的源代码。数据集介绍S3DIS数据集是一个常用的用于室内场
基于YOLOv5的烟雾检测系统：从数据集准备到UI界面实现深度学习&目标检测实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言烟雾是火灾发生的一个重要早期信号。烟雾检测能够在火灾初期及时识别并报警，为火灾的扑灭争取宝贵的时间。因此，烟雾检测的研究一直是计算机视觉领域中的一个热点问题。近年来，随着深度学习技术的发展，目标检测算法被广泛应用于烟雾检测，尤其是基于YOLOv5的目标检测模型，由于其较高的精度和较低的计算开销，已经成为许多实时检测系统的首选模型。在这篇博客中，我们将介绍如何使用YOLOv5模型进行烟雾检测
qt中可以显示像excel表的控件一只小小汤圆 qt qt 开发语言
在Qt中，虽然没有完全与Excel功能完全一致的官方控件，但可以通过以下方式实现类似Excel表格的显示和交互：1.使用Qt自带的表格控件Qt提供了基础的表格组件，适合基本的数据展示和编辑：QTableWidget支持单元格编辑、数据填充和简单格式设置（如字体、颜色）。示例代码：QTableWidget*table=newQTableWidget(10,5);//10行5列table->setHo
机器学习算法（2）—— 线性回归算法疯狂的石头。算法机器学习线性回归
‘’‘构造数据集’‘’x=[[80,86],[82,80],[85,78],[90,90],[86,82],[82,90],[78,80],[92,94]]y=[84.2,80.6,80.1,90,83.2,87.6,79.4,93.4]‘’‘模型训练’‘’实例化一个估计器estimator=LinearRegression()使用fit方法进行训练estimator.fit(x,y)查看回归系数
FairyGUI 投影图片，文本，组件王王王渣渣 Unity FairyGUI 投影图片 Unity
FairyGUI中，文本控件自带了投影的功能，我们可以在设置中设置投影的偏移以及颜色。但是我们的UI同学想给图片等也添加投影的效果，就无从实现了。然后就丢给我们程序帮忙解决=。=需求可以给组件，图片等添加投影，文字投影需要可以设置透明度（目前不行）。思路首先自己莫得水平去改FairyGUIEditor编辑器，那就得从unity那下手。如何让unity知道哪些组件我们是想设置投影的，并且获得投影的相
Python3的安装 Ladeng_uncle python python 后端
环境信息操作系统：CentOSLinuxrelease7.6.1810Python：3.6.5现状说明当前CentOS系统自带了python2.7.5，因为yum会用到python2，所以不能删除，此次安装了python3之后就保持两个版本长期共存吧。本次安装采用的是下载python源码再编译的方式；操作步骤以root身份登录CentOS，以下操作都在默认的~目录下：1、yum更新：yumupda
解密DeepSeek-R1模型微调实战：VIP专属技巧助你轻松掌握行业核心技术竹木有心人工智能
引言大模型微调已成为AI工程师的核心竞争力，但90%的学习者卡在以下痛点：❌开源数据集质量参差不齐❌实验环境搭建耗时易出错❌行业级调优方案闭源难获取CSDN大模型VIP专项计划针对上述问题，提供：✅金融/医疗/法律三大领域高质量微调数据集✅云端GPU实验环境即开即用✅行业头部企业实战案例库（附完整代码）一、基础篇：快速搭建微调环境（免费技巧）1.1使用HuggingFace标准流程fromtran
benchmark和baseline的联系与区别 Lntano__y 人工智能深度学习机器学习
在深度学习算法中，benchmark（基准）和baseline（基线）是两个常用的概念，用于评估算法的性能和进行比较。尽管它们有一些相似之处，但它们在定义和使用上有一些区别。Benchmark（基准）：基准是指作为参考标准的一组算法或数据集，通常是在特定任务或领域中广泛接受的准则。基准的目标是提供一个衡量算法性能的标准，以便其他算法可以与之进行比较。基准可以是一种算法、一个数据集或者是两者的结合。
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号