weixin_30394333

一个完整的机器学习项目

下载数据

import os
import tarfile  # 用于压缩和解压文件
import urllib

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = "datasets/housing"
HOUSING_URL = DOWNLOAD_ROOT + HOUSING_PATH + "/housing.tgz"


# 下载数据
def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    # urlretrieve()方法直接将远程数据下载到本地
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)  # 解压文件到指定路径，不指定就是解压到当前路径
    housing_tgz.close()
fetch_housing_data()

加载数据

import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH + "/"):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

housing = load_housing_data()
housing.head()

查看数据结构

info()

info()方法可以快速查看数据的描述，特别是总行数、每个属性的类型和非空值的数量

housing.describe()

housing.info() 
# 分析：数据集中共有 20640 个实例，按照机器学习的标准这个数据量很小，但是非常适合入门。
# 我们注意到总卧室数只有 20433 个非空值，这意味着有 207 个街区缺少这个值。我们将在后面对它进行处理。

value_counts()

所有的属性都是数值的，除了离大海距离这项。它的类型是对象，因此可以包含任意 Python 对象，但是因为该项是从 CSV 文件加载的，所以必然是文本类型。在刚才查看数据前五项时，你可能注意到那一列的值是重复的，意味着它可能是一项表示类别的属性。可以使用value_counts()方法查看该项中都有哪些类别，每个类别中都包含有多少个街区：

housing["ocean_proximity"].value_counts()

describe()

describe()方法展示了数值属性的概括

housing.describe()

图形描述

使用matplotlib的hist()将属性值画成柱状图，更直观

import matplotlib.pyplot as plt
housing.hist(bins=50, figsize=(10,10))
plt.show() # 不是必要的

房屋年龄中位数和房屋价值中位数也被设了上限，因此图中末尾为一条直线。这种情况解决办法有两种
- 1是对于被设置了上线的数据重新收集
- 2是将这些数据从训练集中移除
有些柱状图尾巴很长，离中位数过远。这会使得检测规律变难，因此会后面后尝试变换属性使其变为正太分布。

创建测试集

在这个阶段就要分割数据。如果你查看了测试集，就会不经意地按照测试集中的规律来选择某个特定的机器学习模型。再当你使用测试集来评估误差率时，就会导致评估过于乐观，而实际部署的系统表现就会差。这称为数据透视偏差。

下面3种切分方法：

1.下面的方法，再次运行程序，就会产生一个不同的测试集。解决的办法之一是保存第一次运行得到的测试集，并在随后的过程加载。另一种方法是在调用np.random.permutation()之前，设置随机数生成器的种子（比如np.random.seed(42)），以产生总是相同的洗牌指数（shuffled indices）
但是仍旧不完美

import numpy as np

def split_train_test(data, test_ratio):
    shuffled_indices = np.random.permutation(len(data)) # permutation中文排列，输入数字x，将x以内的数字随机打散
    test_set_size = int(len(data)*test_ratio)
    test_indices = shuffled_indices[:test_set_size]
    train_indices = shuffled_indices[test_set_size:]
    return data.iloc[train_indices], data.iloc[test_indices]
  
train_set, test_set = split_train_test(housing, 0.2)
print(len(train_set), "train +", len(test_set), "test")

2.通过实例的哈希值切分

import hashlib

def test_set_check(identifier, test_ratio, hash):
  return hash(np.int64(identifier)).digest()[-1] < 256 * test_ratio
def split_train_test_by_id(data, test_ratio, id_column, hash=hashlib.md5):
  ids = data[id_column]
  in_test_set = ids.apply(lambda id_: test_set_check(id_, test_ratio, hash))
  return data.loc[~in_test_set], data.loc[in_test_set]

housing_with_id = housing.reset_index() # adds an `index` column
train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "index")

housing_with_id["id"] = housing["longitude"] * 1000 + housing["latitude"]
train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "id")
print(len(train_set), "train +", len(test_set), "test")

3.sklearn切分函数

Scikit-Learn 提供了一些函数，可以用多种方式将数据集分割成多个子集。最简单的函数是`train_test_split`，它的作用和之前的函数`split_train_test`很像，并带有其它一些功能。比如它有一个`random_state`参数，可以设定前面讲过的随机生成器种子。

from sklearn.model_selection import train_test_split

train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)
print(len(train_set), "train +", len(test_set), "test")

sklearn切分函数2

train_test_split属于纯随机采样，样本数量大时很适合。但是如果数据集不大，就会出现采样偏差的风险。进行分层采样。可以使用 Scikit-Learn 的StratifiedShuffleSplit类

housing["income_cat"] = np.ceil(housing["median_income"] / 1.5) # ceil对值舍入（以产生离散的分类）除以1.5是为了限制收入分类的数量
housing["income_cat"].where(housing["income_cat"] < 5, 5.0, inplace=True) # 将所有大于 5的分类归入到分类 5

from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)

for train_index, test_index in split.split(housing, housing["income_cat"]):
  strat_train_set = housing.loc[train_index]
  strat_test_set = housing.loc[test_index]
  
# 记得剔除`income_cat`属性
for set in (strat_train_set, strat_test_set):
  set.drop(["income_cat"], axis=1, inplace=True)

数据探索和可视化、发现规律

查看过数据了，现在需要对数据进行了解。
只研究训练集，如果训练集非常大的时候还需要再弄一个探索集用来加快运行速度。（本例子不需要）
创建一个副本，以免损伤训练集

housing = strat_train_set.copy()

地理数据可视化

housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4, s=housing["population"]/100, label="population",
 c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True,)
# 每个圈的半径表示街区的人口（选项`s`），颜色代表价格（选项`c`）
plt.legend()

查找关联

属性组合实验

某些属性本身没有用，与其它属性结合起来就有用了。比如下面房间数与房主数本身没有用，相除得出的每户的房间数更有用。所以实际操作中需要各种属性组合，然后比较相关系数。

housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
housing["population_per_household"]=housing["population"]/housing["households"]

corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

为机器学习算法准备数据

不要手工来做，需要一些函数。原因：

函数可以在任何数据集上方便重复地数据转换
慢慢建立一个函数库，在未来的项目中重复使用
可以方便尝试多种数据转换

第一步，将特征和标签分开

housing = strat_train_set.drop("median_house_value", axis=1)
housing_labels = strat_train_set["median_house_value"]

数据清洗

缺失值（本例使用total_bedrooms）：

去掉对应的街区 dropna()
去掉整个属性 drop()
进行赋值（0，平均值，中位数等）fillna() 使用该方法时记得保存平均值或者中位值等，后面测试集也要填充

housing.dropna(subset=["total_bedrooms"])  # 选项1
housing.drop("total_bedrooms", axis=1) # 选项2
median = housing["total_bedrooms"].median()
housing["total_bedrooms"].fillna(median) # 选项3

scikit-learn提供了一个类来处理缺失值：Imputer

from sklearn.preprocessing import Imputer

imputer = Imputer(strategy="median")

# 因为只有数值属性才能算出中位数，我们需要创建一份不包括文本属性`ocean_proximity`的数据副本
housing_num = housing.drop("ocean_proximity", axis=1)

# 用`fit()`方法将`imputer`实例拟合到训练数据
imputer.fit(housing_num)

X = imputer.transform(housing_num)
housing_tr = pd.DataFrame(X, columns=housing_num.columns)

Scikit-Learn 设计

Scikit-Learn 设计的 API 设计的非常好。它的主要设计原则是：

一致性：所有对象的接口一致且简单：
- 估计器（estimator）。任何可以基于数据集对一些参数进行估计的对象都被称为估计器（比如，imputer就是个估计器）。估计本身是通过fit()方法，只需要一个数据集作为参数（对于监督学习算法，需要两个数据集；第二个数据集包含标签）。任何其它用来指导估计过程的参数都被当做超参数（比如imputer的strategy），并且超参数要被设置成实例变量（通常通过构造器参数设置）。
- 转换器（transformer）。一些估计器（比如imputer）也可以转换数据集，这些估计器被称为转换器。API也是相当简单：转换是通过transform()方法，被转换的数据集作为参数。返回的是经过转换的数据集。转换过程依赖学习到的参数，比如imputer的例子。所有的转换都有一个便捷的方法fit_transform()，等同于调用fit()再transform()（但有时fit_transform()经过优化，运行的更快）。
- 预测器（predictor）。最后，一些估计器可以根据给出的数据集做预测，这些估计器称为预测器。例如，上一章的LinearRegression模型就是一个预测器：它根据一个国家的人均 GDP 预测生活满意度。预测器有一个predict()方法，可以用新实例的数据集做出相应的预测。预测器还有一个score()方法，可用于评估测试集（如果是监督学习算法的话，还要给出相应的标签）的预测质量。
可检验。所有估计器的超参数都可以通过实例的public变量直接访问（比如，imputer.strategy），并且所有估计器学习到的参数也可以通过在实例变量名后加下划线来访问（比如，imputer.statistics_）。
类不可扩散。数据集被表示成 NumPy 数组或 SciPy 稀疏矩阵，而不是自制的类。超参数只是普通的 Python 字符串或数字。
可组合。尽可能使用现存的模块。例如，用任意的转换器序列加上一个估计器，就可以做成一个流水线，后面会看到例子。
合理的默认值。Scikit-Learn 给大多数参数提供了合理的默认值，很容易就能创建一个系统。

处理文本和类别属性

LabelEncoder(不完美)

Scikit-Learn 为文本标签转为数字提供了一个转换器LabelEncoder
它会把标签映射为0,1,2,3,4等，算法会认为0和1更接近，显然是不对的。所以就有另外一种转换器，one-hot转换器

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
housing_cat = housing["ocean_proximity"]
housing_cat_encoded = encoder.fit_transform(housing_cat)
housing_cat_encoded

OneHotEncoder

原理是创建一个二元属性，当分类是<1H OCEAN，该属性为 1（否则为 0），当分类是INLAND，另一个属性等于 1（否则为 0），以此类推。这称作独热编码（One-Hot Encoding），因为只有一个属性会等于 1（热），其余会是 0（冷）

注意：fit_transform()用于 2D 数组，而housing_cat_encoded`是一个 1D 数组，所以需要将其变形

from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder()
housing_cat_1hot = encoder.fit_transform(housing_cat_encoded.reshape(-1,1))
# housing_cat_1hot结果是一个稀疏矩阵，即只存储非零项。这是为了当分类很多时节省内存。 将其转换成numpy数组需要用到toarray函数
housing_cat_1hot.toarray()

LabelBinarizer

使用类LabelBinarizer，可以用一步执行这两个转换（从文本分类到整数分类，再从整数分类到独热向量）

from sklearn.preprocessing import LabelBinarizer

encoder = LabelBinarizer()
housing_cat_1hot = encoder.fit_transform(housing_cat)
housing_cat_1hot

注意默认返回的结果是一个密集 NumPy 数组。向构造器LabelBinarizer传递sparse_output=True，就可以得到一个稀疏矩阵。

自定义转换器

尽管 Scikit-Learn 提供了许多有用的转换器，你还是需要自己动手写转换器执行任务，比如自定义的清理操作，或属性组合。你需要让自制的转换器与 Scikit-Learn 组件（比如流水线）无缝衔接工作，因为 Scikit-Learn 是依赖鸭子类型的（而不是继承），你所需要做的是创建一个类并执行三个方法：fit()（返回self），transform()，和fit_transform()。通过添加TransformerMixin作为基类，可以很容易地得到最后一个。另外，如果你添加BaseEstimator作为基类（且构造器中避免使用*args和**kargs），你就能得到两个额外的方法（get_params()和set_params()），二者可以方便地进行超参数自动微调。例如，一个小转换器类添加了上面讨论的属性：

from sklearn.base import BaseEstimator, TransformerMixin
rooms_ix, bedrooms_ix, population_ix, household_ix = 3, 4, 5, 6

class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
  def __init__(self, add_bedrooms_per_room = True): # no *args or **kargs
    self.add_bedrooms_per_room = add_bedrooms_per_room
  def fit(self, X, y=None):
    return self # nothing else to do
  def transform(self, X, y=None):
    rooms_per_household = X[:, rooms_ix] / X[:, household_ix]
    population_per_household = X[:, population_ix] / X[:, household_ix]
    if self.add_bedrooms_per_room:
      bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
      return np.c_[X, rooms_per_household, population_per_household,
  bedrooms_per_room]
    else:
      return np.c_[X, rooms_per_household, population_per_household]
    
attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attribs = attr_adder.transform(housing.values)

特征缩放

属性的量度相差很大时，模型性能会很差。比如某个属性范围是0-1，另外一个属性的值是10000-50000.这种情况就需要进行特征缩放。有两种方法：

线性函数归一化：cikit-Learn 提供了一个转换器MinMaxScaler来实现这个功能。
标准化：Scikit-Learn 提供了一个转换器StandardScaler来进行标准化。

警告：缩放器只用于训练集拟合。

转换流水线

由上可以看出，很多转换步骤需要按照一定的数据。Scikit-Learn 提供了类Pipeline，来进行这一系列的转换。

只对数值的流水线

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
 ('imputer', Imputer(strategy="median")),
 ('attribs_adder', CombinedAttributesAdder()),
 ('std_scaler', StandardScaler()),
 ])
housing_num_tr = num_pipeline.fit_transform(housing_num)

scikit-learn中没有工具来处理Pandas的DataFrame，所以我们需要来写一个简单的自定义转换器来做这项工作

from sklearn.base import BaseEstimator, TransformerMixin

class DataFrameSelector(BaseEstimator, TransformerMixin):
  def __init__(self, attribute_names):
    self.attribute_names = attribute_names
  def fit(self, X, y=None):
    return self
  def transform(self, X):
    return X[self.attribute_names].values

一个完整的处理数值以及类别属性的流水线

# 由于sklearn更新使得LabelBinarizer的fit_transform只能接受两个参数，直接运行的话会报错，所以重写一个转化器，增加一个参数。
from sklearn.base import TransformerMixin #gives fit_transform method for free
class MyLabelBinarizer(TransformerMixin):
    def __init__(self, *args, **kwargs):
        self.encoder = LabelBinarizer(*args, **kwargs)
    def fit(self, x, y=0):
        self.encoder.fit(x)
        return self
    def transform(self, x, y=0):
        return self.encoder.transform(x)

from sklearn.pipeline import FeatureUnion

num_attribs = list(housing_num)
cat_attribs = ["ocean_proximity"]

num_pipeline = Pipeline([
 ('selector', DataFrameSelector(num_attribs)),
 ('imputer', Imputer(strategy="median")),
 ('attribs_adder', CombinedAttributesAdder()),
 ('std_scaler', StandardScaler()),
 ])

cat_pipeline = Pipeline([
 ('selector', DataFrameSelector(cat_attribs)),
 ('Mylabel_binarizer', MyLabelBinarizer()),
 ])

full_pipeline = FeatureUnion(transformer_list=[
 ("num_pipeline", num_pipeline),
 ("cat_pipeline", cat_pipeline),
 ])

housing_prepared = full_pipeline.fit_transform(housing)
housing_prepared[0]

选择并训练模型

线性模型使用与评估

from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(housing_prepared, housing_labels)

#结果0.6558010255907188

评估方式1：RMSE

用mean_squared_error`函数计算一下RMSE（欧几里得范数的平方根的和的根）
结果68628万美元的误差显然不能让人满意，欠拟合

from sklearn.metrics import mean_squared_error 

housing_predictions = lin_reg.predict(housing_prepared)
lin_mse = mean_squared_error(housing_labels, housing_predictions)
lin_rmse = np.sqrt(lin_mse)
lin_rmse

评估方式2：交叉验证法

将数据集分成k个大小相似的互斥子集，每个子集保持数据分布的一致。然后，每次用k-1个子集的并集作为训练集，剩下的一个作为测试集，最终返回k个测试结果的均值。k最长用的取值是10，另外5和20也比较常用。

from sklearn.model_selection import cross_val_score

lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels,scoring="neg_mean_squared_error", cv=10)
lin_rmse_scores = np.sqrt(-lin_scores)

# lin_scores越大越好，取负值开方后的lin_rmse_scores越小越好

def display_scores(scores):
    print("Scores:", scores)
    print("Mean:", scores.mean())
    print("Standard deviation:", scores.std())

display_scores(lin_rmse_scores)
# Mean就是RMSE

决策树

也可以换其它的模型试试，下面换DecisionTreeRegressor模型

from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor()
tree_reg.fit(housing_prepared, housing_labels)

评估方式1：RMSE

housing_predictions = tree_reg.predict(housing_prepared)
tree_mse = mean_squared_error(housing_labels, housing_predictions)
tree_rmse = np.sqrt(tree_mse)
tree_rmse
#结果 0.0

评估方式2：交叉验证

scores = cross_val_score(tree_reg, housing_prepared, housing_labels, scoring="neg_mean_squared_error", cv=10)
tree_rmse_scores = np.sqrt(-scores)

display_scores(tree_rmse_scores)

随机森林

RandomForestRegressor

from sklearn.ensemble import RandomForestRegressor

forest_reg = RandomForestRegressor()
forest_reg.fit(housing_prepared, housing_labels)

评估方式1：RMSE

housing_predictions = forest_reg.predict(housing_prepared)
forest_mse = mean_squared_error(housing_labels, housing_predictions)
forest_rmse = np.sqrt(forest_mse)
forest_rmse
#22088.901578494966

评估方式2：交叉验证

scores = cross_val_score(forest_reg, housing_prepared, housing_labels, scoring="neg_mean_squared_error", cv=10)
forest_rmse_scores = np.sqrt(-scores)

display_scores(forest_rmse_scores)

比较下来，随机森林的评分52779.8955803107最小，性能最好，但是仍旧不够好。还需要给模型加一些限制，或者更多地训练数据来提高准确率。

模型微调

找到三五个还不错的模型，列成一个列表，然后对它们进行微调

网格搜索

微调就是手动调整超参数，但是做起来会非常繁杂。应该用Scikit-Learn 的GridSearchCV来做这项搜索工作
你所需要做的是告诉GridSearchCV要试验有哪些超参数，要试验什么值，GridSearchCV就能用交叉验证试验所有可能超参数值的组合。

from sklearn.model_selection import GridSearchCV

param_grid = [
 {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},
 {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},
 ]

forest_reg = RandomForestRegressor()

grid_search = GridSearchCV(forest_reg, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(housing_prepared, housing_labels)

grid_search.best_params_

提示：因为 30 是n_estimators的最大值，你也应该估计更高的值，因为评估的分数可能会随n_estimators的增大而持续提升。

你还能直接得到最佳的估计器：

grid_search.best_estimator_

# 得到评估得分
cvres = grid_search.cv_results_
for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(np.sqrt(-mean_score), params)

通过网格搜索，找到'max_features': 8, 'n_estimators': 30下的RMSE为49897，低于全部默认值时的52779。微调成功

随机搜索

搜索组合较多时，网格搜索就不太适用了。这时最好使用RandomizedSearchCV
它不是尝试所有可能的组合，而是通过选择每个超参数的一个随机值的特定数量的随机组合。

集成方法

另一种微调系统的方法是将表现最好的模型组合起来。组合（集成）之后的性能通常要比单独的模型要好

分析最佳模型和它们的误差

可以指出每个属性对于做出准确预测的相对重要性

feature_importances = grid_search.best_estimator_.feature_importances_
feature_importances

将重要性分数和属性名放到一起

extra_attribs = ["rooms_per_hhold", "pop_per_hhold", "bedrooms_per_room"]

cat_one_hot_attribs = list(encoder.classes_)
attributes = num_attribs + extra_attribs + cat_one_hot_attribs

sorted(zip(feature_importances,attributes), reverse=True)

由上可以看出，字段中ISLAND最重要，其它的几个可以删掉

用测试集评估系统

final_model = grid_search.best_estimator_

X_test = strat_test_set.drop("median_house_value", axis=1)
y_test = strat_test_set["median_house_value"].copy()
X_test_prepared = full_pipeline.transform(X_test)

final_predictions = final_model.predict(X_test_prepared)

final_mse = mean_squared_error(y_test, final_predictions)
final_rmse = np.sqrt(final_mse)

display_scores(final_rmse)

启动、监控、维护系统

你还需要编写监控代码，以固定间隔检测系统的实时表现，当发生下降时触发报警。这对于捕获突然的系统崩溃和性能下降十分重要。做监控很常见，是因为模型会随着数据的演化而性能下降，除非模型用新数据定期训练。

评估系统的表现需要对预测值采样并进行评估。这通常需要人来分析。分析者可能是领域专家，或者是众包平台（比如 Amazon Mechanical Turk 或 CrowdFlower）的工人。不管采用哪种方法，你都需要将人工评估的流水线植入系统。

你还要评估系统输入数据的质量。有时因为低质量的信号（比如失灵的传感器发送随机值，或另一个团队的输出停滞），系统的表现会逐渐变差，但可能需要一段时间，系统的表现才能下降到一定程度，触发警报。如果监测了系统的输入，你就可能尽量早的发现问题。对于线上学习系统，监测输入数据是非常重要的。

最后，你可能想定期用新数据训练模型。你应该尽可能自动化这个过程。如果不这么做，非常有可能你需要每隔至少六个月更新模型，系统的表现就会产生严重波动。如果你的系统是一个线上学习系统，你需要定期保存系统状态快照，好能方便地回滚到之前的工作状态。

转载于:https://www.cnblogs.com/qiuyuyu/p/11286304.html

你可能感兴趣的:(一个完整的机器学习项目)

STM32 HAL库ADC+DMA采集详解 taptaptap.jic stm32 嵌入式硬件单片机算法 mcu
一、简介最近在用ADC采集电压时发现一个问题，就是一个adc如果开启多个通道，无法直接对指定通道利用HAL库函数对它进行采集。本文详细介绍STM32HAL库下ADC多通道采集的几种实现方式，包括基础配置、DMA传输以及实际应用示例。二、DMA工作模式对比2.1循环模式（CircularMode）特点：DMA传输完成后自动重新开始不需要软件干预，持续传输适合连续采样场景应用场景：ADC连续采样串口接
Shell 编程：生成随机数与字符串的高效技巧 vortex5 Shell编程 linux shell bash
在Shell编程中，生成随机数与随机字母是一项非常常见的操作，尤其是在涉及到密码生成、令牌生成或者测试中。下面，我们将介绍几种常见的生成随机数和随机字符串的方式，并且逐步解析每一种方法的原理和应用场景。1.使用$RANDOM生成简单的随机数echo$(($RANDOM%10))解释：$RANDOM是Bash中的一个内置变量，用于返回一个0到32767之间的随机整数。$(($RANDOM%10))是
WebGPT: 基于浏览器辅助的问答系统，结合人类反馈优化答案质量土豆.exe 人工智能AI 人工智能算法机器学习
【摘要】本论文介绍了WebGPT，这是一种通过浏览器辅助问答系统来使用人类反馈进行训练和优化的模型。具体来说，该系统通过与基于文本的网络浏览环境互动，使模型能够搜索和导航网络，从而提高其回答长文本问题的能力。通过将任务设计为人类可以完成的任务，研究人员能够利用模仿学习和人类反馈来训练和优化模型。主要贡献包括：创建了一个基于文本的网络浏览环境，使得模型可以互动，从而改进了检索和合成。生成带有参考文献
MapReduce：分布式计算的基石 Earth explosion mapreduce 大数据
MapReduce是一种用于处理和生成大数据集的编程模型，以及一个用于执行该模型的关联实现。它使得在大型商用硬件集群（数千台机器）上进行并行处理海量数据成为可能。本文将深入探讨MapReduce的核心概念、工作原理、应用场景以及一些高级主题。核心概念：分而治之MapReduce的核心思想是“分而治之”。它将复杂的计算任务分解成两个主要阶段：Map阶段和Reduce阶段。Map阶段:输入数据被分割成
文档进行embedding，Faiss向量检索被编程为难的小娃娃 embedding faiss
这里采用Langchain的HuggingFaceEmbeddings参照博主，改了一些东西，因为Langchain0.3在0.2的基础上进行了一定的修改fromlangchain.text_splitterimportRecursiveCharacterTextSplitterfromlangchain_huggingfaceimportHuggingFaceEmbeddingsfromlang
《DeepSeek-V3：动态温度调节算法，开启推理新境界！》人工智能深度学习
在人工智能领域不断探索的征程中，DeepSeek-V3以其卓越的创新技术，尤其是动态温度调节算法，成为了备受瞩目的焦点。这项算法犹如一把神奇的钥匙，巧妙地开启了推理速度与精度动态平衡的大门，为大语言模型的发展开辟了新的道路。温度，在大语言模型的世界里，是一个极为关键的参数，它掌控着模型输出的随机性。这一概念，脱胎于热力学，却在人工智能的领域中被赋予了全新的使命。当温度较低时，模型倾向于选择高概率词
C++ 多线程操作 static 对象安全吗？一篇文章带你秒懂！ c++
大家好，我是小康。在上篇文章中，我们讲了static成员变量和函数的用法，这次我们来聊聊更实用的内容—多线程中的static变量线程安全问题。多线程环境下，static变量可能遇到两个方面的线程安全挑战：初始化是否线程安全：当static变量第一次使用时，多个线程是否会同时尝试初始化，导致冲突？后续修改是否线程安全：变量初始化后，如果多个线程同时修改，会不会发生数据竞争？接下来，我会通过几个经典的
你还在用裸指针？C++ 智能指针早就吊打它了！ c++
前言大家好，我是小康。在上一篇文章中，我们聊了聊RAII的魔力，如何通过简单的类设计解决了资源泄漏问题，比如自动管理数据库连接、网络连接等。RAII就像一个贴心的小助手，帮你在构造时搞定资源分配，在析构时自动清理资源，让你轻松避免手动管理资源的“坑”。不过，讲到这，有的朋友可能会问：“这些例子很好，但每次都得手写一个类，岂不是很麻烦？有没有一种现成的解决方案，可以更方便地管理像内存这样的资源？”这
颠覆认知！C++ RAII 竟然是这样实现资源自动管理的！ c++后端
大家好，我是小康。今天我们来聊下C++的一个神器魔法—RAII。前言：如果你刚刚学完C++的内存管理，可能已经对new和delete有了点了解。你一定已经意识到，内存管理就像一场没有规则的游戏，你得时刻警惕，不然就可能掉进内存泄漏的陷阱里。那么，问题来了，能不能有一种方法，让资源管理变得简单又安全？答案是：RAII！它就像是C++的“魔法钥匙”，一旦掌握，你的代码将变得又干净又优雅。但别急，这不是
安装 apk 和 obb 文件（qbit） apk
前言apk和obb文件可以打包到一起成为xapk文件xapk文件可以用google商店的XAPKInstaller安装xapk文件也可以用APKPure安装案例以Englishgrammarinuse的安装为例下载地址：https://seatracker.ru/viewtopic.php?t=49675下载后有2个文件English_Grammar_in_Use_v1.11.40.apkorg.
基于PySide6的CATIA零件自动化着色工具开发实践 Python×CATIA工业智造自动化运维 python pycharm
引言在汽车及航空制造领域，CATIA作为核心的CAD设计软件，其二次开发能力对提升设计效率具有重要意义。本文介绍一种基于Python的CATIA零件着色工具开发方案，通过PySide6实现GUI交互，结合COM接口操作实现零件着色自动化。该方案成功解决了传统手动操作效率低下等问题，可提升90%以上的色彩管理效率。一、工具实现原理1.1技术架构本工具采用分层架构设计，包含：交互层：基于PySide6
智能工厂MES系统架构：引领制造业迈向智能制造的未来邓嫣绮
智能工厂MES系统架构：引领制造业迈向智能制造的未来【下载地址】智能工厂MES系统架构智能工厂MES系统架构项目地址:https://gitcode.com/Open-source-documentation-tutorial/0091c项目介绍在当前《中国制造2025》战略的推动下，智能制造已成为提升制造业核心竞争力的关键。智能工厂MES（ManufacturingExecutionSystem
【Hadoop】如何理解MapReduce？ 2302_79952574 hadoop mapreduce 数据库
MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它的核心思想是将复杂的计算任务分解为两个简单的阶段：Map（映射）和Reduce（归约）。通过这种方式，MapReduce可以高效地并行处理海量数据。一.MapReduce的核心概念1.Map（映射）：将输入数据分割成小块，并对每个小块进行初步处理。输出键值对（key-valuepairs），例如。2.Shuffle和Sort（洗牌
不懂 TCP 三次握手、四次挥手？面试官：回去等通知吧 c++
抛开术语，用最通俗易懂的方式，让你彻底理解TCP的握手与挥手！开篇：你以为你懂TCP？其实……来，问几个简单的问题：1️⃣为什么是"三次"握手？两次不行吗？四次多余吗？2️⃣为什么是"四次"挥手？两次不行吗？3️⃣你知道TCP握手和挥手的整个流程吗？每一步到底是在干嘛吗？如果这些问题你还不能完全确定，那你一定要继续往下看。今天用最直白、最好玩的方式，带你彻底搞懂TCP的握手与挥手！微信搜索【跟着小
Cache在嵌入式处理器中的使用问题 zhtek Operating System cache 嵌入式存储嵌入式操作系统出版工作
Cache在嵌入式处理器中的使用问题作者：西北工业大学王艳吴旭光赵勋峰随着嵌入式计算机应用的发展，嵌入式CPU的主频不断提高，这就造成了慢速系统存储器不能匹配高速CPU处理能力的情况。为了解决这个问题，许多高性能的嵌入式处理器内部集成了高速缓存Cache。其中，三星公司的S3C44B0X内部就集成了8KB空间统一的指令和数据Cache。Cache即高速缓冲存储器，是位于CPU与主存之间一种容量较小
测试中，哪些地方可以有效的利用deepseek 海姐软件测试测试工具
在软件测试全生命周期中，以下10个关键环节可高效利用DeepSeek实现智能化升级，每个场景均附带典型应用示例：---###一、需求分析阶段1.**需求漏洞挖掘**```python#输入PRD文档检测逻辑漏洞vulnerabilities=deepseek.detect_ambiguity(prd_text)#输出：发现未定义密码复杂度规则、缺少登录会话超时说明```2.**测试点自动提取**`
Python绘制表白代码，又是一个表白神器（赠源码，文章内有效果展示）「已注销」 python python 开发语言
前言嗨呀，又是我，又给你们带来了表白的代码之前发了那些照片里面加文字的…还有烟花…还有跳动爱心…emm你们也可以去看看哦今天带来的这个，也是很不错哦只不过它出来的有些慢，我这里先给你们看看这个效果图吧效果展示这里事先声明一下这里的文字数字还有那个Python都是可以自己改的数字的画，你们是可以改成自己想说的五句话爱心内的就可以是两个人的名字咯代码实现okok。话不多说马上开始导入模块所有源码点击此
数字识别项目不要天天开心机器学习人工智能深度学习算法
集成算法·Bagging·随机森林构造树模型：由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样。集成算法·Stacking·堆叠：很暴力，拿来一堆直接上（各种分类器都来了）·可以堆叠各种各样的分类器（KNN,SVM,RF等等）·分阶段：第一阶段得出各自结果，第二阶段再用前一阶段结果训练实现神经网络实例利用PyTorch内置函数mnist下载数据。·利用torchvision对数据进
TCP为什么需要三次握手，两次不行吗？ xxxmine tcp/ip 网络协议网络
TCP三次握手的大至流程第一次握手：客户端发送网络包，服务端收到了。这样服务端就能得出结论：客户端的发送能力、服务端的接收能力是正常的。第二次握手：服务端发包，客户端收到了。这样客户端就能得出结论：服务端的接收、发送能力，客户端的接收、发送能力是正常的。不过此时服务器并不能确认客户端的接收能力是否正常。第三次握手：客户端发包，服务端收到了。这样服务端就能得出结论：客户端的接收、发送能力正常，服务器
Abp框架科学的发展-只不过是读大自然写的代码 c#
基于DDD的现代ASP.NET开发框架–ABP系列文章总目录什么是ASP.NETBoilerplateProject（ABP）框架【DDD】领域驱动设计实践——框架实现DDD分层架构的三种模式【DDD】领域驱动设计实践——Domain层实现ABP框架-会话https://cn.abp.io领域驱动设计https://www.jianshu.com/p/89dfcd672d43https://blo
多线程案例二 ------阻塞队列 wuyunhang123456 java 中间件缓存
阻塞队列定义在普通队列先进先出的基础上做了扩展：1）线程安全的。2）具有阻塞的特性：a.如果针对一个已经满了的队列进行入队列，此时入队列操作就会阻塞，一直阻塞到队列有空位。b.如果针对一个已经空了的队列进行出队列，此时出队操作就会阻塞，一直阻塞到队列不空之后。阻塞队列应用基于阻塞队列的特性，可以实现“生产者消费者模型”，生产者消费者模型的作用：1）引入生产者消费者模型，就可以更好的做的“解耦合"(
后端面试八股文骚套路之Redis CS指南 java redis
本期推出八股文骚套路之Redis，目前Redis也是后端技术栈中的一员大将，后端面试过程中对Redis的考察也越来越多。不过在后端面试过程中对Redis的要求没有像MySQL那么高（就是面试官问你Redis，你直接否定三连，这是啥？没听说过！我不会！问题也不是太大）。不过还是我在之前面试八股文系列的文章中所提到的，大家在准备后端面试时，后端技术栈中除了Java基础外至少还要有两到三项做到熟悉，作为
Java Stream reduce()详解 Ben_F java
reduce()是JavaStreamAPI中的一个终端操作，它用于将流中的元素逐个结合起来，生成一个值。换句话说，reduce()通过对流中的元素应用二元运算（一个接收两个输入参数并返回一个结果的操作），将多个元素“归约”成一个值。1.reduce()方法的作用reduce()用于从流中生成单一结果，常见的用途有：计算总和、乘积计算最大值、最小值将字符串、对象等组合成一个结果reduce()操作
白盒测试基础知识-辅助理解 Ben_F 系统架构功能测试
类别详细内容定义白盒测试（WhiteBoxTesting）是一种基于代码内部结构和逻辑的测试方法，测试人员需要了解程序的内部实现细节。别名结构测试、透明盒测试、玻璃盒测试、逻辑驱动测试测试对象程序的源代码、内部结构、逻辑路径、控制流、数据流等测试目标验证代码的正确性、逻辑覆盖、路径覆盖、边界条件等主要技术-语句覆盖：确保每条语句至少执行一次。-分支覆盖：确保每个分支（如if-else）至少执行一次
Python 中自动打开网页并点击[自动化脚本],Selenium Ben_F Python python 自动化 selenium
要在Python中自动打开网页并点击第一个标签，你需要使用Selenium，它可以控制浏览器并执行像点击这样的操作。requests和BeautifulSoup只能获取并解析网页内容，但不能进行网页交互操作。步骤：安装Selenium安装WebDriver（例如ChromeDriver）编写代码来自动点击网页的第一个标签1.安装Selenium使用pip安装Selenium：pipinstalls
元数据存储与网络日志详解（小白版）漠月瑾-西安数据分析网络安全
元数据存储与网络日志详解（小白版）一、元数据存储：网络的「快递单管理系统」1.1核心概念元数据是描述数据特征的==‌结构化标签‌==，类似于：快递单（记录包裹重量、发件人，但‌‌不含包裹内的物品‌‌）‌照片属性（拍摄时间、GPS坐标*，但‌‌不含图像内容‌‌）‌图书馆索引卡（书名、ISBN号，但‌‌不含书中文字‌‌）‌*注：GPS坐标等元数据可能涉及位置隐私，需谨慎授权‌1.2工作原理系统通过协议
正则表达式捕获组详解：从入门到掌握漠月瑾-西安前端小问题点记录正则表达式 javascript 前端
正则表达式捕获组详解：从入门到掌握1.什么是捕获组（CaptureGroup）？捕获组是正则表达式中用于==‌捕获子匹配内容‌==的语法，通过()包裹的部分会被单独记录。它是处理复杂文本匹配时最常用的功能之一。关键特性‌提取子内容‌：从完整匹配中分离出特定部分‌索引编号‌：从左到右按(出现的顺序分配编号（从1开始）‌复用匹配‌：可在同个正则表达式中反向引用2.基础语法与示例2.1简单捕获组cons
cefsharp 加载完成_WinFrom 的 WebBrowser 替换为 CefSharp weixin_39672296 cefsharp 加载完成 cefsharp 加载网页慢 delphi webbrowser 对象不支持 python winform 类似 webbrowser 显示控件
一、WebBrowser是什么？WebBrowser是一种放在winform中的控件，控件可以实现相当于浏览器的功能，最终实现winform窗口中嵌套着一个网页，这样的效果。二、为什么放弃微软默认提供的WebBrowser呢？内核是IE7不支持HTML5新特性2.对触控支持不够好3.不稳定，据说容易闪退三、CefSharp是什么？CefSharp是一个使用谷歌浏览器/chrome内核的WebBro
ABP框架综合示例代码及消息队列(MQ)集成教程 KX-EZ
本文还有配套的精品资源，点击获取简介：ABP框架是一个基于.NET的企业级应用程序开发框架，它集成了领域驱动设计、模块化、分层架构、依赖注入、CQRS、事件溯源等最佳实践。本教程包含所有ABP核心功能和模块的示例代码，展示如何利用ABP开发不同类型的项目，并详细讲解了ABP支持的消息队列（如RabbitMQ）的集成方法。开发者可以利用这些示例深入学习ABP的使用和扩展，从而在构建企业级应用程序时提
Redisson：Redis界的变形金刚，会变身还会唱跳Rap！五行星辰业务系统应用技术 redis 数据库缓存 java
各位被Java折磨的秃头少年们！今天带你们解锁Redis的究极形态——Redisson！这货不是普通的客户端，是自带机甲还能合体的高达！（00后请自行替换为"量子计算机"理解）准备好见证从单车变飞船的魔法了吗？第一幕：连接姿势の哲学Configconfig=newConfig();config.useSingleServer().setAddress("redis://127.0.0.1:6379
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

一个完整的机器学习项目

下载数据

加载数据

查看数据结构

info()

info()方法可以快速查看数据的描述，特别是总行数、每个属性的类型和非空值的数量

value_counts()

describe()

图形描述

创建测试集

数据探索和可视化、发现规律

地理数据可视化

查找关联

相关系数1

相关系数2

属性组合实验

为机器学习算法准备数据

数据清洗

处理文本和类别属性

LabelEncoder(不完美)

OneHotEncoder

LabelBinarizer

自定义转换器

特征缩放

转换流水线

只对数值的流水线

一个完整的处理数值以及类别属性的流水线

选择并训练模型

线性模型使用与评估

评估方式1：RMSE

评估方式2：交叉验证法

决策树

评估方式1：RMSE

评估方式2：交叉验证

随机森林

评估方式1：RMSE

评估方式2：交叉验证

模型微调

网格搜索

随机搜索

集成方法

分析最佳模型和它们的误差

用测试集评估系统

启动、监控、维护系统

你可能感兴趣的:(一个完整的机器学习项目)