lovecencen1893

谷歌机器学习速成课程学习笔记

谷歌机器学习速成课程学习笔记
- 1 framing
- 2 深入了解
- 3 tensorflow
- 4 pandas
- 5 tensorFlow基本步骤
- 6 泛化
- 7 数据集划分
- 8 特征工程
  - 良好的特征：
  - 清理数据
    - 特征缩放
    - 处理极端离群值
    - 分箱
    - 清查
    - 熟悉数据
  - 编程训练
- 9 特征组合
  - 组合one hot矢量
  - 编程练习
    - one hot编码
    - 分桶（分箱）
    - 特征组合：
- 10 L2 正则化
- 11 逻辑回归
- 12 分类
  - 各种指标
  - 编程练习
- 13 正则化：稀疏性
- 14 神经网络
- 15 机器学习工程
  - 离线训练和在线训练
  - 离线推理在线推理
  - 数据依赖关系
- 16 现实应用
- 17 机器学习准则

1 framing

标签：我们要预测的真实事物：y
- 基本线性回归中的y变量
特征：描述数据的输入变量： xi
- 基本线性回归中的 {x1、x2、x3} 变量
样本：数据的特定实例： x
有标签样本：<特征，标签>；（x, y）
- 用于训练模型
无标签样本 <特征，？>：（x，？）
- 用于对新数据做出预测
模型：可以将样本映射到预测标签： y′
- 预测由模型内部参数定义，这些内部参数是通过学习得到的

合适的特征应该是具体且可以量化的。漂不漂亮等无法量化，太主观，能否转化为其他具体特征。比如鞋子的颜色、样式等具体的方面。

2 深入了解

b (bias)在有的机器学习教材中也写做 w0
损失函数：
均方误差MSE：
$M S E = 1 N \sum (x, y \in D) (y - p r e d i c t i o n (x)) 2$
除了MSE作为损失函数，也有其他损失函数，MSE不是唯一的，也不是适用于所有情形的最佳损失函数
神经网络非凸，落到哪个最小值很大程度上取决于初始值
小批量随机梯度下降法

3 tensorflow

结构：

分为：
图协议缓冲区
执行（分布式）图的运行时
前者类似于java编译器，后者类似于JVM
学习高级API：tensorflow.estimators

4 pandas

# coding:utf-8
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])
cities = pd.DataFrame({'City name': city_names, 'Population': population})

print()
print(cities.head())

print()
print(type(cities['City name']))

print()
print(cities['City name'])

cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
cities['Population density'] = cities['Population'] / cities['Area square miles']

cities['is wide and has saint name'] = (cities['Area square miles'] > 50) & cities['City name'].apply(
    lambda name: name.startswith('San'))

print()
print(cities)

cities_1 = cities.reindex([2, 0, 1])  # 索引不变，位置发生变化

print()
print(cities_1.head())  # cities 不变，生成新的DataFrame

# 一般情况下，在开始创建Series和DataFrame的时候，会按照源数据的顺序添加索引
# 索引一旦生成，就永远不会变，索引是稳定的
# 即使数据的排列顺序发生了变化，也不会改变

cities_2 = cities.reindex(np.random.permutation(cities.index))
# pd.set_option('max_columns', 5)

print()
print(cities_2.head())

cities_3 = cities.reindex([2, 3, 4])  # 允许在reinde中添加新的索引，并填充NaN

print()
print(cities_3.head())

#输出：
/Users/tu/PycharmProjects/myFirstPythonDir/venv/bin/python /Users/tu/PycharmProjects/myFirstPythonDir/mytest/numpyDemo/googlepandas.py

       City name  Population
0  San Francisco      852469
1       San Jose     1015785
2     Sacramento      485199

<class 'pandas.core.series.Series'>

0    San Francisco
1         San Jose
2       Sacramento
Name: City name, dtype: object

       City name             ...              is wide and has saint name
0  San Francisco             ...                                   False
1       San Jose             ...                                    True
2     Sacramento             ...                                   False

[3 rows x 5 columns]

       City name             ...              is wide and has saint name
2     Sacramento             ...                                   False
0  San Francisco             ...                                   False
1       San Jose             ...                                    True

[3 rows x 5 columns]

       City name             ...              is wide and has saint name
0  San Francisco             ...                                   False
2     Sacramento             ...                                   False
1       San Jose             ...                                    True

[3 rows x 5 columns]

    City name             ...              is wide and has saint name
2  Sacramento             ...                                   False
3         NaN             ...                                     NaN
4         NaN             ...                                     NaN

[3 rows x 5 columns]

Process finished with exit code 0

5 tensorFlow基本步骤

使用tensorflow estimator训练一个预测房价的线性回归模型

6 泛化

过拟合：
模型在训练集数据上损失很低，在测试集数据上很高。因为模型拟合的过于复杂。
为此，机器学习必须有奥卡姆剃刀原则
监督学习数据要求：
独立同分布
分布不会发生变化
从同一个分布中抽取样本

7 数据集划分

将数据集分为训练集和测试集，用训练集训练，测试集评估，根据评估的结果调整超参数，再次用训练集训练，如此反复下去，模型会在测试集上过拟合，测试集也丧失了测试拟合程度的意义。

所以需要再划分：训练集，交叉验证集，测试集

不断用验证集和测试集会导致效果降低。
即，不断地依靠验证集以及之后的测试集的次数越多，最后对于数据是否能泛化到没见过的新数据的信息就越低。
所以需要更多的数据来更新测试集和验证集。
机器学习的调试：
很多时候都是在对数据调试，而不是代码。
- 不随机数据，划分数据集：

- 随机后划分：

测试集、训练集和交叉验证集的分布一定要大致一致。

误差在三个数据集上的表现。
测试数据集链接
代码如下：

import math

from IPython import display
from matplotlib import cm
from matplotlib import gridspec
from matplotlib import pyplot as plt
import os
import numpy as np
import pandas as pd
from sklearn import metrics
import tensorflow as tf
from tensorflow.python.data import Dataset

os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

tf.logging.set_verbosity(tf.logging.ERROR)  # DEBUG INFO WARN ERROR FATAL

pd.options.display.max_rows = 10
pd.options.display.max_columns = 9
pd.options.display.float_format = '{:.1f}'.format

# 加载数据集
california_housing_dataframe = pd.read_csv("california_housing_train.csv", sep=',')
california_housing_test_dataframe = pd.read_csv("california_housing_test.csv", sep=',')

# 随机数据，很重要的一步
california_housing_dataframe = california_housing_dataframe.reindex(
    np.random.permutation(california_housing_dataframe.index))


def process_feature(california_housing_dataframe):
    selected_feature = california_housing_dataframe[
        ["longitude", "latitude", "housing_median_age", "total_rooms", "total_bedrooms", "population", "households",
         "median_income"]]
    processed_feature = selected_feature.copy()
    processed_feature['rooms_per_population'] = processed_feature['total_rooms'] / processed_feature['population']
    return processed_feature


def process_target(california_housing_dataframe):
    output_target = pd.DataFrame()
    output_target['median_house_value'] = california_housing_dataframe['median_house_value'] / 1000.0
    return output_target


# 数据被分为训练集、验证集
train_examples = process_feature(california_housing_dataframe.head(12000))
train_targets = process_target(california_housing_dataframe.head(12000))
# print("\n训练集：")
# print(train_examples.describe())
# print(train_targets.describe())

validation_examples = process_feature(california_housing_dataframe.tail(5000))
validation_targets = process_target(california_housing_dataframe.tail(5000))

# print('\n交叉验证集：')
# print(validation_examples.describe())
# print(validation_targets.describe())
#
# print('\n没有测试集')


# 检查数据，绘制经纬度图
# plt.figure(figsize=(13, 8))
#
# ax = plt.subplot(1, 2, 1)
# ax.set_title('Valication Data')
# ax.set_autoscaley_on(False)
# ax.set_ylim([32, 43])
# ax.set_autoscalex_on(False)
# ax.set_xlim([-126, -112])
# plt.scatter(validation_examples['longitude'], validation_examples['latitude'], cmap='coolwarm',
#             c=validation_targets['median_house_value'] / validation_targets['median_house_value'].max())
#
# ax = plt.subplot(1, 2, 2)
# ax.set_title('Train Data')
# ax.set_autoscaley_on(False)
# ax.set_ylim([32, 43])
# ax.set_autoscalex_on(False)
# ax.set_xlim(-126, -112)
# plt.scatter(train_examples['longitude'], train_examples['latitude'], cmap='coolwarm',
#             c=train_targets['median_house_value'] / train_targets['median_house_value'].max())

test_examples = process_feature(california_housing_test_dataframe)
test_targets = process_target(california_housing_test_dataframe)


# 4.定义输入函数
def my_input_fn(features, targets, batch_size=1, shuffle=True, num_epochs=None):
    """
    输入函数
    :param features: 输入特征
    :param targets: 数据标签
    :param batch_size: 输出数据的大小
    :param shuffle: 随机抽取数据
    :param num_epochs:重复的次数
    :return:数据和标签
    """
    features = {key: np.array(value) for key, value in dict(features).items()}

    ds = Dataset.from_tensor_slices((features, targets))  # 2GB限制
    ds = ds.batch(batch_size).repeat(num_epochs)

    if shuffle:
        ds = ds.shuffle(buffer_size=10000)

    features, labels = ds.make_one_shot_iterator().get_next()
    return features, labels


def construct_feature_columns(input_features):
    return set([tf.feature_column.numeric_column(my_feature) for my_feature in input_features])


def train_model(learning_rate, steps, batch_size, train_examples, train_targets, validation_examples,
                validation_targets, test_examples, test_targets, periods=10):
    steps_per_periods = steps / periods  # 每次报告时所走的步长

    # 最优化函数
    my_optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
    my_optimizer = tf.contrib.estimator.clip_gradients_by_norm(my_optimizer, 5.0)  # 梯度裁剪

    # 模型
    linear_regressor = tf.estimator.LinearRegressor(feature_columns=construct_feature_columns(train_examples),
                                                    optimizer=my_optimizer)

    # 定义输入函数
    training_input_fn = lambda: my_input_fn(train_examples, train_targets['median_house_value'], batch_size=batch_size)
    prediction_training_input_fn = lambda: my_input_fn(train_examples, train_targets['median_house_value'],
                                                       num_epochs=1, shuffle=False)
    prediction_validation_input_fn = lambda: my_input_fn(validation_examples, validation_targets['median_house_value'],
                                                         num_epochs=1,
                                                         shuffle=False)
    prediction_test_input_fn = lambda: my_input_fn(test_examples, test_targets['median_house_value'],
                                                   num_epochs=1,
                                                   shuffle=False)

    print('Training model ...')
    print('RMSE:')
    training_rmse = []
    validation_rmse = []
    test_rmse = []
    for period in range(0, periods):
        linear_regressor.train(input_fn=training_input_fn, steps=steps_per_periods)
        training_predictions = linear_regressor.predict(input_fn=prediction_training_input_fn)
        training_predictions = np.array([item['predictions'][0] for item in training_predictions])
        # item是这样的：{'predictions': array([0.015675], dtype=float32)}
        validation_predictions = linear_regressor.predict(input_fn=prediction_validation_input_fn)
        validation_predictions = np.array([item['predictions'][0] for item in validation_predictions])
        test_predictions = linear_regressor.predict(input_fn=prediction_test_input_fn)
        test_predictions = np.array([item['predictions'][0] for item in test_predictions])

        # 误差
        training_root_mean_squared_error = math.sqrt(metrics.mean_squared_error(training_predictions, train_targets))
        validation_root_mean_squared_error = math.sqrt(
            metrics.mean_squared_error(validation_predictions, validation_targets))
        test_root_mean_squared_error = math.sqrt(metrics.mean_squared_error(test_predictions, test_targets))
        print('period %02d : %.2f' % (period, training_root_mean_squared_error))
        training_rmse.append(training_root_mean_squared_error)
        validation_rmse.append(validation_root_mean_squared_error)
        test_rmse.append(test_root_mean_squared_error)
    print('Model training finished.')

    plt.figure()
    plt.ylabel('RMSE')
    plt.xlabel('Periods')
    plt.title('Root mean squared error vs. periods')
    plt.tight_layout()
    plt.plot(training_rmse, label='training')
    plt.plot(validation_rmse, label='validation')
    plt.plot(test_rmse, label='test')
    plt.legend()
    plt.show()

    return linear_regressor


train_model(learning_rate=0.00003, steps=5000, batch_size=5, train_examples=train_examples, train_targets=train_targets,
            validation_examples=validation_examples, validation_targets=validation_targets, test_examples=test_examples,
            test_targets=test_targets, periods=100)

8 特征工程

将原始数据转换成特征矢量，叫特征工程。
- 数值型特征直接照搬
- 字符串one hot编码：
- 先对字符串数据整理词汇表，同时有一个词汇表中没有的其他类
- 对词汇表进行one hot编码

类别数据：布尔类型

良好的特征：

避免使用特征值出现频率很少的那种特征，很离散的特征值。比如预测人的时候用身份证号码作为特征，根本就没有重复的身份证号。不适合。
含义清晰，人人能懂
将异常值从实际的数据中剔除
考虑到不稳定性，数据最好是稳定的。

清理数据

即使是少量的异常数据也会破坏掉一个大规模数据集。

特征缩放

改善梯度下降速度
避免NaN陷阱
节省模型精力

处理极端离群值

对数缩放，尾巴减小
限制数据的范围，尾巴消失，边界出现小峰值

分箱

将浮点数特征分成离散特征（一个矢量），可以均分，也可以按照分位数分；

清查

把不可靠样本干掉：
遗漏值：某个样本的一个特征没有特征值
重复样本
错误的标签
错误的特征值

这样的样本都从数据集中筛除
- 检查出不良的数据，用直方图、最大值最小值、均值、中位数、标准差。
- 检查离散特征最常见特征值的列表，看是否符合预期。

熟悉数据

知道预期的数据状态，并检查手上的数据是否满足预期，或者解释为什么不满足预期，检查训练数据和其他来源的数据是否一致。

编程训练

9 特征组合

用特征组合+大数据是学习复杂模型的有效策略
神经网络是另外一种策略
组合特征在这里可以理解为就是多项式回归的一些项。区别于线性回归的项。

组合one hot矢量

叫做逻辑连接
特征组合本质上可以表达更加丰富准确的信息。
特征组合可以使得线性回归模型可以拟合非线性数据。

编程练习

FTRL优化算法
my_optimizer = tf.train.FtrlOptimizer(learning_rate=learning_rate)

one hot编码

将离散特征（字符串、枚举、整数）进行one hot 编码

分桶（分箱）

可以将连续特征分桶，进而one hot编码
对全部特征进行分桶的结果：

# 基于分位数的分桶
def get_quantile_based_boundaries(feature_values, num_buckets):
    boundaries = np.arange(1.0, num_buckets) / num_buckets
    quantile = feature_values.quantile(boundaries)  # Series
    return [quantile[q] for q in quantile.keys()]  # list


def construct_feature_columns():
    households = tf.feature_column.numeric_column('households')
    longitude = tf.feature_column.numeric_column('longitude')
    latitude = tf.feature_column.numeric_column('latitude')
    housing_median_age = tf.feature_column.numeric_column('housing_median_age')
    total_rooms = tf.feature_column.numeric_column('total_rooms')
    total_bedrooms = tf.feature_column.numeric_column('total_bedrooms')
    population = tf.feature_column.numeric_column('population')
    median_income = tf.feature_column.numeric_column('median_income')
    rooms_per_population = tf.feature_column.numeric_column('rooms_per_population')

    bucketized_households = tf.feature_column.bucketized_column(households, get_quantile_based_boundaries(
        train_examples["households"], 7))  # households分为7个桶
    bucketized_longitude = tf.feature_column.bucketized_column(longitude, get_quantile_based_boundaries(
        train_examples['longitude'], 10))  # longitude分为10个桶
    bucketized_latitude = tf.feature_column.bucketized_column(latitude, get_quantile_based_boundaries(
        train_examples["latitude"], 10))
    bucketized_housing_median_age = tf.feature_column.bucketized_column(housing_median_age,
                                                                        get_quantile_based_boundaries(
                                                                            california_housing_dataframe[
                                                                                "housing_median_age"], 10))
    bucketized_total_rooms = tf.feature_column.bucketized_column(total_rooms, get_quantile_based_boundaries(
        train_examples["total_rooms"], 10))
    bucketized_total_bedrooms = tf.feature_column.bucketized_column(total_bedrooms, get_quantile_based_boundaries(
        train_examples["total_bedrooms"], 10))
    bucketized_population = tf.feature_column.bucketized_column(population, get_quantile_based_boundaries(
        train_examples["population"], 10))
    bucketized_median_income = tf.feature_column.bucketized_column(median_income, get_quantile_based_boundaries(
        train_examples["median_income"], 10))
    bucketized_rooms_per_population = tf.feature_column.bucketized_column(rooms_per_population,
                                                                          get_quantile_based_boundaries(
                                                                              train_examples["rooms_per_population"],
                                                                              10))

    feature_columns = {bucketized_households,
                       bucketized_longitude,
                       bucketized_latitude,
                       bucketized_housing_median_age,
                       bucketized_total_rooms,
                       bucketized_total_bedrooms,
                       bucketized_population,
                       bucketized_median_income,
                       bucketized_rooms_per_population}
    return feature_columns

特征组合：

又叫特征交叉
对连续数据离散化（分桶），之后进行特征组合。
在特征组合之后，对模型仍需要提供原始特征，原始特征可以帮助模型区分包含不同特征交叉的hash存储区域内容

long_x_lat = tf.feature_column.crossed_column(keys=[bucketized_longitude, bucketized_latitude],
                                                  hash_bucket_size=1000)

    feature_columns = {bucketized_households,
                       bucketized_longitude,
                       bucketized_latitude,
                       bucketized_housing_median_age,
                       bucketized_total_rooms,
                       bucketized_total_bedrooms,
                       bucketized_population,
                       bucketized_median_income,
                       bucketized_rooms_per_population,
                       long_x_lat}

与单纯的分桶相比，特征组合降低了误差。

10 L2 正则化

正则化用来解决过拟合问题，过拟合如下所示：

为了防止过拟合，不光要考虑模型的损失，也要考虑模型的复杂度。
L2正则化项和正则化率 λ
λ 小，容易过拟合
λ 大，容易欠拟合
L2正则化对模型的影响：
- 使得权重接近于0
- 使得权重平均值接近于0
- 使得权重呈正态分布

11 逻辑回归

逻辑回归会不断的促使损失趋近于0；所以必须进行：
L2正则化
早停法，限制训练的步数或学习速率
逻辑回归输出的是概率。

12 分类

所以要设置阈值进行分类。
分类会涉及到一些指标：

各种指标

混淆矩阵

	实	际
	真正例	假正例
预	预测狼要来——>狼来了	预测狼要来——>狼没来
测	假负例	真负例
	没预警，结果狼来了	没预警，狼也没来

即：

TP	FP
FN	TN

准确率
准确率具有误导性：
- 不同类型的错误具有不同的代价
- 分类不平衡，正类别或者负类别很少
  $a c c u r a c y = T P + T N T P + F P + F N + T N$
  所有样本中，识别正确的比例
精确率：
$p r e c i s i o n = T P T P + F P$
预测狼要来，狼来了的比例
在被识别为正例的样本中，确实是正例的比例
召回率：
$r e c a l l = T P T P + F N$
狼来了，预测出狼要来的比例
也就是看预测漏掉了多少正例
在所有正类别中，被正确识别为正例的比例

精确率和召回率是一对矛盾，随着分类阈值的变化，此消彼长。

F1 score是精确率和召回率的 harmonic mean （调和平均数）
$F 1 = 2 1 r e c a l l + 1 p r e c i s i o n = 2 p r e c i s i o n \times r e c a l l p r e c i s i o n + r e c a l l$
进一步：
$F β = (1 + β) p r e c i s i o n \times r e c a l l ( β 2 \times p r e c i s i o n ) + r e c a l l$
即可以对精确率和召回率附上不同的权重。
ROC
receiver operating characteristic：接受者操作特征
$真正例率 T P R = T P T P + F N$
$假正例率 F P R = F P F P + T N$
一个分类的阈值对应一对TPR和FPR，将所有的阈值下的TPR和FPR计算出来，绘制到一张图上，就是ROC：

其中，横轴为假正例率；纵轴为真正例率；
我们常用ROC曲线下面积AUC
AUC
Area under curve：曲线下面积

ROC曲线下面积表示随机正例样本位于随机负例右侧的概率

即，随机的给出一个正样本，一个负样本，分类器将正样本识别为正样本的概率大于将负样本识别为正样本的概率的概率；
AUC越大，分类的效果越好；
如果AUC达到了1，很有可能不是你的模型无敌，而是你错了，检查一下是否过拟合、是否将label作为feature等情况。
预测偏差
预测偏差 = 预测平均值 - 数据集的标签的实际平均值
比如，我们知道垃圾邮件在邮件中出现的概率是1%，如果模型预测的结果是垃圾邮件在邮件中出现的概率是30%，那么这个模型存在较大的预测偏差。
造成的原因可能有：
- 特征集不完整
- 训练集样本有偏差
- 数据集混乱
- 造模型的某一步出了问题
- 正则化的过多了

一种办法是给已经训练好的模型加校准层，但：
（1）校准层治标不治本，还是不知道出问题的原因
（2）使得系统更加复杂，也更加脆弱。

分桶偏差
我们希望预测偏差尽可能的小，但是统计偏差不是一两个点的事，需要一大堆点来计算，所以可以对整个数据集进行分桶，每一个桶的有一个（预测平均值，实际平均均值），将这些桶的值绘制

希望这些点都位于误差限内；
上边的这个模型一部分预测的很糟糕，可能的原因有：
训练集代表不了整个数据空间，无法表达出数据空间的某个子集
数据集的某个子集比较混乱
正则化太严重

编程练习

逻辑回归
linear_classifier=tf.estimator.LinearClassifier(feature_columns=construct_feature_columns(training_examples), optimizer=my_optimizer)

13 正则化：稀疏性

正则化有L0正则化，L1正则化，L2正则化。
L2正则化解决过拟合的问题。
L1正则化解决稀疏特征的问题。

如果模型包含大量的稀疏矢量，同时这些稀疏特征进行特征组合，会耗费很大的计算资源。如果能将高维度稀疏特征的权重降为0，就可以节省资源。
L2正则化可以降低权重。
L1正则化可以使得模型中信息缺失的权重正好为0。

14 神经网络

梯度消失
- 训练过程中，较低层网络的梯度逐渐消失到0，导致训练速度非常缓慢甚至不再训练
- ReLU有助于防止梯度消失
梯度爆炸
- 网络权重过大，导致梯度涉及到很多大项乘积，进而导致梯度爆炸; 导致网络难以收敛
- 批处理化可以降低学习速率，有助于防止梯度爆炸
ReLU单元消失
- 加权低于0，对网络输出无贡献。反向传播也被切断。
- 降低学习速率，有助于防止 ReLU单元消失
丢弃正则化
- 名为丢弃的正则化，在梯度下降的时候随机丢一些网络单元。丢的越多，正则化效果越强。

15 机器学习工程

机器学习代码就是自己构建的模型，在整个工程中仅占一部分。

离线训练和在线训练

离线训练	在线训练
容易构建、测试：可批量训练、批量测试，不断迭代可以达到很好的效果	可以随着时间的推移不断的为训练数据添加新的数据，可以定期同步更新到最新版本；使用渐进式验证，不是批量训练和批量测试
模型容易过时	可以根据变化进行调整，不会过时
也需要对输入进行监控	需要监控、模型回滚、数据隔离功能

离线推理在线推理

离线推理和在线推理都是在线下用数据进行训练，只不过在对新数据进行预测的时候，离线推理是攒一波数据用模型一次预测完存储到表里边，之后线上来的数据直接通过表查询预测的结果，所以如果表里边没有这个数据，那就没有办法预测，但是它对资源的需求低。
在线预测就是来一个线上的数据，我就预测一次，再给线上返回结果。即把训练好的模型放到服务器。所以避免了线上数据没有预测结果的情况。但是耗费资源。
现在流行的是在线学习。模型的训练过程也搬到了线上，线上学习，线上预测。
离线推理：
- 优点：
- 推理成本低
- 可以使用批量方法
- 可以在推送之前对预测进行后期验证
- 缺点：
- 只能对知道的数据进行预测，不适用于存在长尾的情况
- 更新会延迟数小时或者数天

在线推理：
- 优点：
- 适合长尾
- 缺点：
- 计算量大，对延迟敏感，故而限制模型的复杂度
- 监控需求多

现在都是用在线学习
离线推理和在线推理都有不可避免的缺点，但在线学习的实现难度最大。

数据依赖关系

数据对我们的重要性就是传统软件开发中代码对程序员的重要性。
但没有对于数据的单元测试。
模型的好坏取决于输入特征的数据。数据变了，模型也会跟着变。
要不断的测试数据、验证数据、监控数据。
比如：需要移除掉不用或者很少使用的特征。如果一个特征对模型帮助很小，这个特征的输入数据发生了巨变，那么可能会影响到模型。
- 可靠性：
- 数据一直都可以用吗？来源可靠不？（某些数据是不是来自于崩溃的服务器）

版本控制
- 模型是否发生了变化？
- 多久变一次？
- 怎么知道模型发生变化的时间？
必要性
- 这个特征真的值得添加吗？
  有时候添加的可以使得模型准确度上升一点的模型除了带来维护负担，添加的特征还可能会意外的失去作用，故而需要监控。
  添加有短期收益的特征要慎重。
相关性
- 特征之间有时候会有相关性，看是否有的特征密不可分，需要采取额外措施。
反馈环
- 模型的结果影响模型的训练数据。
  有时候模型的预测结果又会变成自己的训练数据。
  有时候一个模型的预测结果会影响另一个模型。

16 现实应用

癌症预测
在癌症预测模型的特征中，含有医院名称，而医院名称和是否患有癌症具有微妙的关系。比如一家肿瘤医院的患者有很大的概率患有癌症。所以模型对这个特征有了很大的权重。
但是在预测新的病人是否患有癌症的时候，缺无法利用此特征。这是很失败的。
了解数据所代表的意义，对数据进行合理的拆分


最后A比B的结果好，为什么？

17 机器学习准则

确保第一个模型简单易用
着重确保数据管道的正确性
使用简单、可观测的指标进行训练和验证
拥有并监控输入特征
将模型配置视为代码，进行审核记录在案
记录所有的结果，尤其是失败的结果

你可能感兴趣的:(机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

谷歌机器学习速成课程学习笔记

谷歌机器学习速成课程学习笔记

1 framing

2 深入了解

3 tensorflow

4 pandas

5 tensorFlow基本步骤

6 泛化

7 数据集划分

8 特征工程

良好的特征：

清理数据

特征缩放

处理极端离群值

分箱

清查

熟悉数据

编程训练

9 特征组合

组合one hot矢量

编程练习

one hot编码

分桶（分箱）

特征组合：

10 L2 正则化

11 逻辑回归

12 分类

各种指标

编程练习

13 正则化：稀疏性

14 神经网络

15 机器学习工程

离线训练 和 在线训练

离线推理 在线推理

数据依赖关系

16 现实应用

17 机器学习准则

你可能感兴趣的:(机器学习)

离线训练和在线训练

离线推理在线推理