Bayesian小孙

机器学习基础（三）——KNN/朴素贝叶斯/交叉验证/网格搜索

文章目录

- 3. K近邻算法（KNN）
- - 3.1 读取数据信息
  - 3.2 处理数据
  - - 3.2.1 缩小数据,查询数据筛选
    - 3.2.2 处理时间的数据
    - 3.2.3 取出目标值和特征值
  - 3.3 划分训练集和测试集
  - 3.4 特征工程（标准化）
  - 3.5 计算predict和Score
  - 3.6 KNN算法总结
- 4. 分类模型评估（精确率与召回率）
- 5. 交叉验证与网格搜索
- 6. 朴素贝叶斯算法
- - 6.1 拉普拉斯平滑
  - 6.2 sklearn朴素贝叶斯实现API
  - 6.3 朴素贝叶斯算法案例

3. K近邻算法（KNN）

（1）KNN概念：k个最近的邻居，即每个样本都可以用它最接近的k个邻居来代表。（K Near Neighbor）

（2）算法思想：一个样本与数据集中的k个样本最相似，如果这k个样本中的大多数属于某一个类别，则该样本也属于这个类别。

（3）距离度量：一般是用欧式距离，L2范数即可。

（4）K值的选择：如果选择较小的K值，相当于在较小的邻域中进行预测，学习的近似误差会减小;缺点是学习的估计误差会

增大。如果邻近点恰巧是噪声，预测就会出错。K值减小就意味着整体模型变复杂,容易发生过拟合。

如果选择较大K值，就相当于用较大邻域中进行预测；优点是可以减少学习的估计误差，但近似误差会增大，K值得增大就意味着整

体模型变的简单。

一般算法实例流程：

1、数据集的处理

2、分割数据集

3、对数据集进行标准化

4、estimator流程进行分类预测

3.1 读取数据信息

import pandas as pd
# 读取数据
data = pd.read_csv("./KNN_al/train.csv")
data.head(10)

	row_id	x	y	accuracy	time	place_id
0	0	0.7941	9.0809	54	470702	8523065625
1	1	5.9567	4.7968	13	186555	1757726713
2	2	8.3078	7.0407	74	322648	1137537235
3	3	7.3665	2.5165	65	704587	6567393236
4	4	4.0961	1.1307	31	472130	7440663949
5	5	3.8099	1.9586	75	178065	6289802927
6	6	6.3336	4.3720	13	666829	9931249544
7	7	5.7409	6.7697	85	369002	5662813655
8	8	4.3114	6.9410	3	166384	8471780938
9	9	6.3414	0.0758	65	400060	1253803156

data.info()


RangeIndex: 29118021 entries, 0 to 29118020
Data columns (total 6 columns):
 #   Column    Dtype  
---  ------    -----  
 0   row_id    int64  
 1   x         float64
 2   y         float64
 3   accuracy  int64  
 4   time      int64  
 5   place_id  int64  
dtypes: float64(2), int64(4)
memory usage: 1.3 GB

3.2 处理数据

这个数据太大了，接近三千万条，我们需要对数据进行筛选。

3.2.1 缩小数据,查询数据筛选

data = data.query("x > 1.0 &  x < 1.25 & y > 2.5 & y < 2.75")

data.head(10)

	row_id	x	y	accuracy	time	place_id
600	600	1.2214	2.7023	17	65380	6683426742
957	957	1.1832	2.6891	58	785470	6683426742
4345	4345	1.1935	2.6550	11	400082	6889790653
4735	4735	1.1452	2.6074	49	514983	6822359752
5580	5580	1.0089	2.7287	19	732410	1527921905
6090	6090	1.1140	2.6262	11	145507	4000153867
6234	6234	1.1449	2.5003	34	316377	3741484405
6350	6350	1.0844	2.7436	65	36816	5963693798
7468	7468	1.0058	2.5096	66	746766	9076695703
8478	8478	1.2015	2.5187	72	690722	3992589015

3.2.2 处理时间的数据

time_value = pd.to_datetime(data['time'], unit='s')
time_value.head()

600    1970-01-01 18:09:40
957    1970-01-10 02:11:10
4345   1970-01-05 15:08:02
4735   1970-01-06 23:03:03
5580   1970-01-09 11:26:50
Name: time, dtype: datetime64[ns]

# 把日期格式转换成 字典格式
time_value = pd.DatetimeIndex(time_value)
time_value

DatetimeIndex(['1970-01-01 18:09:40', '1970-01-10 02:11:10',
               '1970-01-05 15:08:02', '1970-01-06 23:03:03',
               '1970-01-09 11:26:50', '1970-01-02 16:25:07',
               '1970-01-04 15:52:57', '1970-01-01 10:13:36',
               '1970-01-09 15:26:06', '1970-01-08 23:52:02',
               ...
               '1970-01-07 10:03:36', '1970-01-09 11:44:34',
               '1970-01-04 08:07:44', '1970-01-04 15:47:47',
               '1970-01-08 01:24:11', '1970-01-01 10:33:56',
               '1970-01-07 23:22:04', '1970-01-08 15:03:14',
               '1970-01-04 00:53:41', '1970-01-08 23:01:07'],
              dtype='datetime64[ns]', name='time', length=17710, freq=None)

# 构造一些特征
data['day'] = time_value.day
data['hour'] = time_value.hour
data['weekday'] = time_value.weekday
data.head()

	row_id	x	y	accuracy	time	place_id	day	hour	weekday
600	600	1.2214	2.7023	17	65380	6683426742	1	18	3
957	957	1.1832	2.6891	58	785470	6683426742	10	2	5
4345	4345	1.1935	2.6550	11	400082	6889790653	5	15	0
4735	4735	1.1452	2.6074	49	514983	6822359752	6	23	1
5580	5580	1.0089	2.7287	19	732410	1527921905	9	11	4

# 把时间戳特征删除
data = data.drop(['time'], axis=1)
data.head()

	row_id	x	y	accuracy	place_id	day	hour	weekday
600	600	1.2214	2.7023	17	6683426742	1	18	3
957	957	1.1832	2.6891	58	6683426742	10	2	5
4345	4345	1.1935	2.6550	11	6889790653	5	15	0
4735	4735	1.1452	2.6074	49	6822359752	6	23	1
5580	5580	1.0089	2.7287	19	1527921905	9	11	4

# 把签到数量少于n个目标位置删除
place_count = data.groupby('place_id').count()
place_count
# 以某个特征进行分组，该特征就成了索引index

	row_id	x	y	accuracy	day	hour	weekday
place_id
1012023972	1	1	1	1	1	1	1
1057182134	1	1	1	1	1	1	1
1059958036	3	3	3	3	3	3	3
1085266789	1	1	1	1	1	1	1
1097200869	1044	1044	1044	1044	1044	1044	1044
...	...	...	...	...	...	...	...
9904182060	1	1	1	1	1	1	1
9915093501	1	1	1	1	1	1	1
9946198589	1	1	1	1	1	1	1
9950190890	1	1	1	1	1	1	1
9980711012	5	5	5	5	5	5	5

805 rows × 7 columns

# tf里面保留了row_id>3的数据
tf = place_count[place_count.row_id > 3]
tf

	row_id	x	y	accuracy	day	hour	weekday
place_id
1097200869	1044	1044	1044	1044	1044	1044	1044
1228935308	120	120	120	120	120	120	120
1267801529	58	58	58	58	58	58	58
1278040507	15	15	15	15	15	15	15
1285051622	21	21	21	21	21	21	21
...	...	...	...	...	...	...	...
9741307878	5	5	5	5	5	5	5
9753855529	21	21	21	21	21	21	21
9806043737	6	6	6	6	6	6	6
9809476069	23	23	23	23	23	23	23
9980711012	5	5	5	5	5	5	5

239 rows × 7 columns

# 然后把索引重新设置一下，让place_id回到数据特征里面
tf = tf.reset_index()
tf

	place_id	row_id	x	y	accuracy	day	hour	weekday
0	1097200869	1044	1044	1044	1044	1044	1044	1044
1	1228935308	120	120	120	120	120	120	120
2	1267801529	58	58	58	58	58	58	58
3	1278040507	15	15	15	15	15	15	15
4	1285051622	21	21	21	21	21	21	21
...	...	...	...	...	...	...	...	...
234	9741307878	5	5	5	5	5	5	5
235	9753855529	21	21	21	21	21	21	21
236	9806043737	6	6	6	6	6	6	6
237	9809476069	23	23	23	23	23	23	23
238	9980711012	5	5	5	5	5	5	5

239 rows × 8 columns

# 把data里面的id是不是在tf.place_id里面，有就保存下来。
data = data[data['place_id'].isin(tf.place_id)]
data

	row_id	x	y	accuracy	place_id	day	hour	weekday
600	600	1.2214	2.7023	17	6683426742	1	18	3
957	957	1.1832	2.6891	58	6683426742	10	2	5
4345	4345	1.1935	2.6550	11	6889790653	5	15	0
4735	4735	1.1452	2.6074	49	6822359752	6	23	1
5580	5580	1.0089	2.7287	19	1527921905	9	11	4
...	...	...	...	...	...	...	...	...
29100203	29100203	1.0129	2.6775	12	3312463746	1	10	3
29108443	29108443	1.1474	2.6840	36	3533177779	7	23	2
29109993	29109993	1.0240	2.7238	62	6424972551	8	15	3
29111539	29111539	1.2032	2.6796	87	3533177779	4	0	6
29112154	29112154	1.1070	2.5419	178	4932578245	8	23	3

16918 rows × 8 columns

3.2.3 取出目标值和特征值

y = data["place_id"]
x = data.drop(["place_id"],axis = 1) # 沿着列的方向删除目标值即可

3.3 划分训练集和测试集

from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier
import pandas as pd

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.25)
data

	row_id	x	y	accuracy	place_id	day	hour	weekday
600	600	1.2214	2.7023	17	6683426742	1	18	3
957	957	1.1832	2.6891	58	6683426742	10	2	5
4345	4345	1.1935	2.6550	11	6889790653	5	15	0
4735	4735	1.1452	2.6074	49	6822359752	6	23	1
5580	5580	1.0089	2.7287	19	1527921905	9	11	4
...	...	...	...	...	...	...	...	...
29100203	29100203	1.0129	2.6775	12	3312463746	1	10	3
29108443	29108443	1.1474	2.6840	36	3533177779	7	23	2
29109993	29109993	1.0240	2.7238	62	6424972551	8	15	3
29111539	29111539	1.2032	2.6796	87	3533177779	4	0	6
29112154	29112154	1.1070	2.5419	178	4932578245	8	23	3

16918 rows × 8 columns

# 这个时候我们先不做数据的标准化处理，直接调用KNN算法来试一试预测效果如何。
def knn_al():
    knn = KNeighborsClassifier(n_neighbors = 5)
    # fit,predict ,score
    knn.fit(x_train,y_train)
    # 得出预测结果
    y_predict = knn.predict(x_test)
    print("预测目标签到位置为：",y_predict)
    # 得出准确率
    print("预测的准确率：",knn.score(x_test,y_test))
if __name__ == "__main__":
    knn_al()

预测目标签到位置为： [1479000473 2584530303 2946102544 ... 5606572086 1602053545 1097200869]
预测的准确率： 0.029787234042553193

# 我们尝试着提高下算法的准确率试试，先删除data中的row_id的特征。

data_del_row_id = data.drop(['row_id'],axis =1)
data_del_row_id

	x	y	accuracy	place_id	day	hour	weekday
600	1.2214	2.7023	17	6683426742	1	18	3
957	1.1832	2.6891	58	6683426742	10	2	5
4345	1.1935	2.6550	11	6889790653	5	15	0
4735	1.1452	2.6074	49	6822359752	6	23	1
5580	1.0089	2.7287	19	1527921905	9	11	4
...	...	...	...	...	...	...	...
29100203	1.0129	2.6775	12	3312463746	1	10	3
29108443	1.1474	2.6840	36	3533177779	7	23	2
29109993	1.0240	2.7238	62	6424972551	8	15	3
29111539	1.2032	2.6796	87	3533177779	4	0	6
29112154	1.1070	2.5419	178	4932578245	8	23	3

16918 rows × 7 columns

y = data_del_row_id["place_id"]
x = data_del_row_id.drop(["place_id"],axis = 1) # 沿着列的方向删除目标值即可
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.25)
if __name__ == "__main__":
    knn_al()

预测目标签到位置为： [1097200869 3312463746 9632980559 ... 3533177779 4932578245 1913341282]
预测的准确率： 0.0806146572104019

我们删除了row_id之后，发现预测的准确率从0.0319提高到了0.0806

# 接下来删除day试试
y = data_del_row_id["day"]
x = data_del_row_id.drop(["place_id"],axis = 1) # 沿着列的方向删除目标值即可
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.25)
if __name__ == "__main__":
    knn_al()

预测目标签到位置为： [2 9 4 ... 6 5 9]
预测的准确率： 0.810401891252955

我们删除了day特征之后，发现预测的准确率从0.0763提高到了0.8104

3.4 特征工程（标准化）

我们先回到处理好的数据，即data，然后对特征值进行标准化操作。

3.5 计算predict和Score

 # 取出数据当中的特征值和目标值
y = data['place_id']

x = data.drop(['place_id'], axis=1)

# 进行数据的分割训练集合测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

# 特征工程（标准化）
std = StandardScaler()
 # 对测试集和训练集的特征值进行标准化
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)
if __name__ == "__main__":
    knn_al()

预测目标签到位置为： [6683426742 1435128522 2327054745 ... 2460093296 1435128522 1097200869]
预测的准确率： 0.41631205673758864

我们标准化之后，发现预测的准确率从0.0763提高到了0.41631205673758864。

接着我们drop一下"row_id"的特征，再试试。

 # 取出数据当中的特征值和目标值
x = data.drop("place_id",axis = 1)
x

	row_id	x	y	accuracy	day	hour	weekday
600	600	1.2214	2.7023	17	1	18	3
957	957	1.1832	2.6891	58	10	2	5
4345	4345	1.1935	2.6550	11	5	15	0
4735	4735	1.1452	2.6074	49	6	23	1
5580	5580	1.0089	2.7287	19	9	11	4
...	...	...	...	...	...	...	...
29100203	29100203	1.0129	2.6775	12	1	10	3
29108443	29108443	1.1474	2.6840	36	7	23	2
29109993	29109993	1.0240	2.7238	62	8	15	3
29111539	29111539	1.2032	2.6796	87	4	0	6
29112154	29112154	1.1070	2.5419	178	8	23	3

16918 rows × 7 columns

# 进行数据的分割训练集合测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)
# 特征工程（标准化）
std = StandardScaler()
 # 对测试集和训练集的特征值进行标准化
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)
if __name__ == "__main__":
    knn_al()

预测目标签到位置为： [5270522918 1097200869 3312463746 ... 1097200869 5606572086 1097200869]
预测的准确率： 0.40803782505910163

# 我们再drop特征：“day”
#
x_no_row_id = x.drop(["row_id"],axis =1)
x_no_row_id_and_no_day = x_no_row_id.drop(["day"],axis =1)
x_no_row_id_and_no_day

	x	y	accuracy	hour	weekday
600	1.2214	2.7023	17	18	3
957	1.1832	2.6891	58	2	5
4345	1.1935	2.6550	11	15	0
4735	1.1452	2.6074	49	23	1
5580	1.0089	2.7287	19	11	4
...	...	...	...	...	...
29100203	1.0129	2.6775	12	10	3
29108443	1.1474	2.6840	36	23	2
29109993	1.0240	2.7238	62	15	3
29111539	1.2032	2.6796	87	0	6
29112154	1.1070	2.5419	178	23	3

16918 rows × 5 columns

600         6683426742
957         6683426742
4345        6889790653
4735        6822359752
5580        1527921905
               ...    
29100203    3312463746
29108443    3533177779
29109993    6424972551
29111539    3533177779
29112154    4932578245
Name: place_id, Length: 16918, dtype: int64

## 3.5

# 进行数据的分割训练集合测试集
x_train, x_test, y_train, y_test = train_test_split(x_no_row_id_and_no_day, y, test_size=0.25)
# 特征工程（标准化）
std = StandardScaler()
 # 对测试集和训练集的特征值进行标准化
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)

knn = KNeighborsClassifier(n_neighbors = 5)
    # fit,predict ,score
knn.fit(x_train,y_train)
    # 得出预测结果
y_predict = knn.predict(x_test)
print("预测目标签到位置为：",y_predict)
    # 得出准确率
print("预测的准确率：",knn.score(x_test,y_test))

预测目标签到位置为： [6399991653 3533177779 1097200869 ... 2327054745 3992589015 6683426742]
预测的准确率： 0.48699763593380613

3.6 KNN算法总结

k值取很小，容易受异常点影响。
k值取很大，容易受k值数量（类别）的影响。

4. 分类模型评估（精确率与召回率）

estimator.score()

一般最常见使用的是准确率，即预测结果正确的百分比:

$\frac{TP+TN}{TP+FP+FN+TN}$

混淆矩阵：分类任务中，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kZbQHN9e-1656744456611)(attachment:image-2.png)]

精确率(Precision)与召回率(Recall)

精确率：预测结果为正例样本中真实为正例的比例（查得准）
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mL6R4695-1656744456612)(attachment:image.png)]

$\frac{TP}{TP+FP}$

召回率：真实为正例的样本中预测结果为正例的比例（查的全，对正样本的区分能力）
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1ST5eaks-1656744456613)(attachment:image-3.png)]

$\frac{TP}{TP+FN}$

其他分类标准，F1-score，反映了模型的稳健型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zfkzyqJe-1656744456613)(attachment:image-3.png)]

分类模型评估API

sklearn.metrics.classification_report

sklearn.metrics.classification_report(y_true, y_pred, target_names=None)

y_true：真实目标值

y_pred：估计器预测目标值

target_names：目标类别名称

return：每个类别精确率与召回率

5. 交叉验证与网格搜索

在上面，我们将数据分为训练集和测试集。现在我们抛开测试集不看，将训练集进行划分。

将训练集分为训练集和验证集。

通常情况下，有很多参数是需要手动指定的（如k-近邻算法中的K值），这种叫超参数。但是手动过程繁杂，所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。

超参数搜索-网格搜索API: sklearn.model_selection.GridSearchCV

sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)

estimator：估计器对象

param_grid：估计器参数(dict){“n_neighbors”:[1,3,5]}

cv：指定几折交叉验证

fit：输入训练数据

score：准确率

结果分析：

best_score_:在交叉验证中测试的最好结果

best_estimator_：最好的参数模型

cv_results_:每次交叉验证后的测试集准确率结果和训练集准确率结果

from sklearn.model_selection import train_test_split, GridSearchCV

# 构造一些参数的值进行搜索
param = {"n_neighbors": [1,3,5,7,10]}

# 进行网格搜索
gc = GridSearchCV(knn, param_grid=param, cv=2)

gc.fit(x_train, y_train)

# 预测准确率
print("在测试集上准确率：", gc.score(x_test, y_test))

print("在交叉验证当中最好的结果：", gc.best_score_)

print("选择最好的模型是：", gc.best_estimator_)
print("*"*100)
print("每个超参数每次交叉验证的结果：", gc.cv_results_)

在测试集上准确率： 0.4955082742316785
在交叉验证当中最好的结果： 0.45917402269861285
选择最好的模型是： KNeighborsClassifier(n_neighbors=10)
****************************************************************************************************
每个超参数每次交叉验证的结果： {'mean_fit_time': array([0.00385594, 0.00366092, 0.00310779, 0.00316703, 0.003443  ]), 'std_fit_time': array([4.26769257e-04, 5.06877899e-04, 7.70092010e-05, 4.99486923e-05,
       2.91109085e-04]), 'mean_score_time': array([0.19389665, 0.20236516, 0.21587265, 0.22173393, 0.23718596]), 'std_score_time': array([0.00897849, 0.00262308, 0.00137246, 0.00043309, 0.00201011]), 'param_n_neighbors': masked_array(data=[1, 3, 5, 7, 10],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'params': [{'n_neighbors': 1}, {'n_neighbors': 3}, {'n_neighbors': 5}, {'n_neighbors': 7}, {'n_neighbors': 10}], 'split0_test_score': array([0.41456494, 0.42307692, 0.44435687, 0.44656368, 0.45176545]), 'split1_test_score': array([0.4186633 , 0.43332282, 0.45412989, 0.4612232 , 0.4665826 ]), 'mean_test_score': array([0.41661412, 0.42819987, 0.44924338, 0.45389344, 0.45917402]), 'std_test_score': array([0.00204918, 0.00512295, 0.00488651, 0.00732976, 0.00740858]), 'rank_test_score': array([5, 4, 3, 2, 1], dtype=int32)}

6. 朴素贝叶斯算法

$P(C|W)=\frac{P(W|C)P(C)}{P(W)}$

注：w为给定文档的特征值(频数统计,预测文档提供)，c为文档类别

()：每个文档类别的概率(某文档类别词数／总文档词数)

(│)：给定类别下特征（被预测文档中出现的词）的概率

计算方法：(1│)=/ （训练文档中去计算）

为该1词在C类别所有文档中出现的次数

为所属类别C下的文档所有词出现的次数和

6.1 拉普拉斯平滑

为指定的系数一般为1，m为训练文档中统计出的特征词个数

$P(F1|C)=\frac{N_i+\alpha}{N+\alpha m}$

6.2 sklearn朴素贝叶斯实现API

sklearn.naive_bayes.MultinomialNB

sklearn.naive_bayes.MultinomialNB(alpha = 1.0)

朴素贝叶斯分类

$\alpha$ ：拉普拉斯平滑系数

6.3 朴素贝叶斯算法案例

问题描述：

（1）sklearn20类新闻分类；

（2）20个新闻组数据集包含20个主题的18000个新闻组帖子

朴素贝叶斯案例流程

1、加载20类新闻数据，并进行分割

2、生成文章特征词

3、朴素贝叶斯estimator流程进行预估

def naviebayes():
    """
    朴素贝叶斯进行文本分类
    :return: None
    """
    news = fetch_20newsgroups(subset='all')

    # 进行数据分割
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)

    # 对数据集进行特征抽取
    tf = TfidfVectorizer()

    # 以训练集当中的词的列表进行每篇文章重要性统计['a','b','c','d']
    x_train = tf.fit_transform(x_train)

    print(tf.get_feature_names_out())
    print("*"*50)
    x_test = tf.transform(x_test)

    # 进行朴素贝叶斯算法的预测
    mlt = MultinomialNB(alpha=1.0)
    
    print(x_train.toarray())
    print("*"*50)
    mlt.fit(x_train, y_train)

    y_predict = mlt.predict(x_test)

    print("预测的文章类别为：", y_predict)
    print("*"*50)
    # 得出准确率
    print("准确率为：", mlt.score(x_test, y_test))
    print("*"*50)
    print("每个类别的精确率和召回率：", classification_report(y_test, y_predict, target_names=news.target_names))
    print("*"*50)
    return None
if __name__ =="__main__":
    naviebayes()

['00' '000' '0000' ... 'óáíïìåô' 'ýé' 'ÿhooked']
**************************************************
[[0.         0.02654538 0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]]
**************************************************
预测的文章类别为： [ 5  2 17 ...  1 13  7]
**************************************************
准确率为： 0.8612054329371817
**************************************************
每个类别的精确率和召回率：                           precision    recall  f1-score   support

             alt.atheism       0.88      0.80      0.84       200
           comp.graphics       0.88      0.79      0.83       241
 comp.os.ms-windows.misc       0.89      0.78      0.83       254
comp.sys.ibm.pc.hardware       0.76      0.87      0.81       245
   comp.sys.mac.hardware       0.84      0.90      0.86       229
          comp.windows.x       0.90      0.85      0.88       245
            misc.forsale       0.93      0.67      0.78       241
               rec.autos       0.91      0.92      0.92       263
         rec.motorcycles       0.94      0.95      0.94       265
      rec.sport.baseball       0.94      0.95      0.95       237
        rec.sport.hockey       0.91      0.98      0.94       238
               sci.crypt       0.79      0.98      0.88       259
         sci.electronics       0.91      0.82      0.86       238
                 sci.med       0.98      0.90      0.94       239
               sci.space       0.87      0.97      0.92       249
  soc.religion.christian       0.62      0.98      0.76       260
      talk.politics.guns       0.80      0.95      0.87       230
   talk.politics.mideast       0.92      0.98      0.95       230
      talk.politics.misc       1.00      0.65      0.79       196
      talk.religion.misc       0.97      0.23      0.37       153

                accuracy                           0.86      4712
               macro avg       0.88      0.85      0.85      4712
            weighted avg       0.88      0.86      0.86      4712

**************************************************

你可能感兴趣的:(机器学习基础,机器学习,python,人工智能)

Python_计算两个省市之间的直线距离_2506 夏天里的肥宅水 PYTHON python spring 开发语言
更新代码上一版链接importpandasaspdimporttimeimportpickleimportosimportsysfromgeopy.geocodersimportNominatimfromgeopy.distanceimportgeodesicfromtqdmimporttqdm#ConfigurationINPUT_FILE=r"距离.xlsx"#输入文件路径OUTPUT_FIL
python中的*args 和 **kwargs Hi_kenyon python python
简单来说，它们允许一个函数接收不定数量的参数。这在我们预先不知道会传递多少个参数给函数时非常有用。*args(任意数量的位置参数)*args用于在一个函数中接收任意数量的位置参数(positionalarguments)。当你在函数定义中使用*args时，Python会将所有传入的多余的位置参数收集到一个元组(tuple)中。这个名字args只是一个约定俗成的惯例(arguments的缩写)，你也
用 Python 开发文字冒险游戏：从零开始的教程晓天天天向上 python microsoft 开发语言
文字冒险游戏(Text-basedAdventureGame)是一种经典的游戏类型，玩家通过输入文字指令与游戏世界互动。这种游戏不依赖复杂的图形界面，非常适合初学者学习编程逻辑和用户交互。在本篇博客中，我们将用Python开发一个简单的文字冒险游戏，体验游戏开发的乐趣。1.游戏设计思路游戏背景玩家醒来发现自己身处一个神秘的地下城，需要探索房间、收集物品、战胜敌人并找到出口。核心机制房间导航：玩家可
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
Python的一点基础教程------文件读写卡提西亚 python 开发语言
最近在看大佬写的Python教程自学,但是感觉有点头痛,因为大佬讲了一些底层的结构和原理,但是又没那么详细,然后作为一个初学者自学的情况下,看的很费劲.看完就有感而发,想写一篇更基础的教程,教会大家怎么去用它,尽量少的去讲原理.但是当然,你也需要有一定的编程语言基础,了解基本的语法和函数等功能.正所谓师傅领进门,修行在个人,有时候我们学了一个东西,如果觉得很有趣,自然就会去了解关于它的更多信息,但
1.2 Python 的特点与优势 Utopia Reverie python python 开发语言
1.语法简洁易读Python以简洁的语法著称，代码可读性强，减少了不必要的符号和冗余代码。例如，使用缩进来表示代码块，而非传统的大括号。这使得代码更易于理解和维护，尤其适合初学者。示例：python运行【#计算斐波那契数列的前10项n=10a,b=0,1for_inrange(n);print(a,end='')a,b=b,a+b#输出:0112358132134】2.开源与社区支持Python是
动手学Python：从零开始构建一个“文字冒险游戏” network爬虫 python python 开发语言
动手学Python：从零开始构建一个“文字冒险游戏”大家好，我是你的技术向导。今天，我们不聊高深的框架，也不谈复杂的算法，我们来做一点“复古”又极具趣味性的事情——用Python亲手打造一个属于自己的文字冒险游戏（TextAdventureGame）。你是否还记得那些在早期计算机上，通过一行行文字描述和简单指令来探索未知世界的日子？这种游戏的魅力在于它能激发我们最原始的想象力。而对于我们程序员来说
python 脚本遍历目录，并把目录下的非utf-8文件改成utf8 还债大湿兄 python 开发语言数据库
从网上下载的qt项目我本地编译里面经常包含中文，提示编译不过，实际上以前经常手动转，发觉还是用脚本不，毕竟这次下的有点大，我只改.h.cpp#pythonD:\python\filetoUtf.pyE:\EasyCanvas-master\EasyCanvas-masterimportosimportcodecsimportargparseimportsysdefconvert_to_utf8_b
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
树莓派中 Python+opencv打开摄像头 68lizi 光电设计 python
树莓派中Python+opencv打开摄像头注意不要使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)，我在树莓派使用这个的时候会报错，在windows不会报错，具体原因不清楚cap=cv2.VideoCapture(0)#使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)会报错whileTrue:status,img=cap.read()i
python实现读取文件的指定某行内容 Fitz1318 Python3学习 python
python实现读取文件的指定某行内容最近有一个需求就是读取一个文件中的指定某行的内容，现将方法记录如下importlinecache#这里填写你自己的文件位置和行号text=linecache.getline("../TestFile/test_C1.json",2)print(text)
[Python] 使用 dataclass 简化数据结构：定义、功能与实战踏雪无痕老爷子 Python python 开发语言
在经典面向对象编程中，为了保存和操作数据往往需要定义多个类，手写__init__()、__repr__()、__eq__()等方法。Python3.7引入了@dataclass装饰器，它能自动生成这些常见方法，大幅减少样板代码。本文将介绍dataclass的定义与参数、比较与普通类的差别、实战示例，以及常见注意事项。一、什么是dataclass@dataclass是一种类装饰器，它通过类成员的类型
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛
程序化交易系统中如何精准获取MACD、KDJ、BOLL等基础指标的值？股票程序化交易接口量化交易股票API接口 Python股票量化交易程序化交易系统 macd指标 kdj指标 boll指标股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>基础指标在程序化交易系统中的重要性基础指标对交易决策的指导意义MACD、KDJ、BOLL等基础指标在程序化交易系统中扮演着重要角色。MACD可以帮助判断市场的趋势和买卖信号，通过分析其快线和慢线的交叉情况，能为投资者提供入场和出场的参
股票程序化交易软件如何选择？这些要点你知道吗股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链股票程序化交易软件功能特性稳定性成本股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>了解软件功能特性基础交易功能基础交易功能是股票程序化交易软件的核心。它应具备快速下单、撤单等基础操作能力。比如在行情快速变化时，能让投资者迅速抓住机会下单，或者及时撤单避免损失。软件的交易界面要简洁明了，方便投资者操作。还应支持多种交
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python实战：自动在知乎回答点赞并采集内容的高阶爬虫教程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 okhttp 学习
✨写在前面：为什么做知乎自动化操作？知乎作为中国领先的知识问答平台，拥有大量结构化内容。对于研究舆情分析、情绪识别、用户画像，甚至产品舆情反馈采集的用户来说，如何自动获取知乎内容并进行交互行为（如点赞、回答），是一个非常实用的能力。本文将手把手带你用Python完成以下目标：✅自动登录知乎✅自动搜索某个关键词下的热门问题✅自动点赞高质量回答✅自动采集回答内容（文本、点赞数、评论数等）✅自动保存为本
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
python实战项目79：采集知乎话题下的所有回答 wp_tao Python副业接单实战项目 python 开发语言
python实战项目79：采集知乎话题下的所有回答一、项目介绍二、代码使用方法三、drissionpage的优缺点四、完整代码五、注意事项一、项目介绍需求是采集知乎某话题下的所有回答，这里以话题“大学宿舍相处之间遇到莫名其妙的冷落怎么办呢？”为例，网页链接为https://www.zhihu.com/question/1898156781215146265，其中189815678121514626
使用 pip 命令下载 whl离线安装包、安装三希 pip
使用pip命令直接从线上下载whl离线安装包并转存到离线环境的过程实际上是分两步进行的：第一步：在线环境下载whl包bash#在具有网络连接的环境中pipdownload--only-binary=:all:--wheel--platform--python-version这里的参数说明：：需要下载的Python包名称。--only-binary=:all:：只下载二进制包（即whl文件）。--w
【Python】如何使用.whl文件安装Python包？ civilpy python 开发语言
基本原理在Python的世界中，.whl文件是一种分发格式，它代表“Wheel”。Wheel是一种Python包格式，旨在提供一种快速、可靠且兼容的方式，用于安装Python库。与源代码包相比，Wheel文件是预编译的，这意味着它们已经包含了编译后的扩展模块，这使得安装过程更快，更简单。代码示例以下是使用.whl文件安装Python包的示例步骤：示例1：基本安装假设你已经下载了一个名为exampl
如何安装 `.whl` 文件（Python Wheel 包）喝醉酒的小白 Liunx Python模块 python 开发语言
目录标题如何安装`.whl`文件（PythonWheel包）安装前提安装方法（3种）方法1：直接使用pip安装（推荐）方法2：先进入文件目录再安装方法3：使用绝对路径（适合脚本中调用）⚠️常见问题解决问题1：版本不兼容错误问题2：缺少依赖问题3：权限不足验证安装进阶技巧如何安装.whl文件（PythonWheel包）.whl文件是Python的二进制分发格式（Wheel格式），用于快速安装Pyth
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
PyWavelets shangjg3 PyTorch pytorch 人工智能 python
PyWavelets（pywt）是Python中用于小波变换的核心库，提供了丰富的信号处理和图像处理功能。以下是其核心功能的详细介绍：1.小波变换基础（1）离散小波变换（DWT）将信号分解为近似系数（Approximation）和细节系数（Detail）。importpywtimportnumpyasnp#示例信号signal=np.array([1
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
Anaconda插件开发 lyh1344 数据库开发
开发环境准备安装Anaconda或Miniconda，确保conda命令可用。推荐使用Python3.7及以上版本。创建独立的开发环境以避免依赖冲突：condacreate-nplugin_devpython=3.8condaactivateplugin_dev插件结构设计Anaconda插件通常采用Python包的标准结构。核心文件包括__init__.py和setup.py。典型目录结构如下：
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S