JasonYuJX

第二章端对端的机器学习项目 Part II

这篇文章是本人学习《Hands-On-Machine-Learning-with-Scikit-Learn-and-TensorFlow》的读书笔记第二篇。整理出来是希望在巩固自己的学习效果的同时，希望能够帮助到同样想学习的人。本人也是小白，可能很多地方理解和翻译不是很到位，希望大家多多谅解和提意见。

4. 为机器学习算法准备数据

把特征和目标值分开，方便后续做特征转换。

housing = strat_train_set.drop('median_house_value',axis=1) #删除目标值
housing_labels = strat_train_set['median_house_value'].copy()

数据清洗

total_bedrooms 属性中存在缺失值，缺失值的处理：

删除有缺失值的数据点
删除整个 total_bedrooms 属性
用值来填充缺失值（0，平均数，中位数等）

housing.dropna(subset['total_bedrooms']) #option1
housing.drop('total_bedrooms',axis=1) #option2
median = housing['total_bedrooms'].median()
housing['total_bedrooms'].fillna(median) #option3

使用第三种方法来填充缺失值时，在测试集上也应该使用同样的中位数值填充缺失值。使用 Scikit-Learn 的 Imputer来实现缺失值的填充。

try:
    from sklearn.impute import SimpleImputer # Scikit-Learn 0.20+
except ImportError:
    from sklearn.preprocessing import Imputer as SimpleImputer
    #create an imputer instances
imputer = SimpleImputer(strategy='median') #specify median method

housing_num = housing.drop("ocean_proximity", axis=1) #drop non-numerical attribute
imputer.fit(housing_num) #fit the imputer instance to the training data
X = imputer.transform(housing_num) #replacing missing values with learned medians
housing_tr = pd.DataFrame(X, columns=housing_num.columns,index=housing.index) #convert Numpy arrays into pandas dataframe

文本和类别数据的处理

使用 Scikit-Learn 的 LabelEncoder 将文本数据转变为数值型数据。

try:
    from sklearn.preprocessing import OrdinalEncoder
except ImportError:
    from future_encoders import OrdinalEncoder # Scikit-Learn < 0.20

ordinal_encoder = OrdinalEncoder()
housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat)

ordinal_encoder.categories_
[array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'],
       dtype=object)]

Scikit-Learn 中提供 OneHotEncoder 编码可以将字符型的类别变量转换成独热编码的向量。

try:
    from sklearn.preprocessing import OrdinalEncoder # just to raise an ImportError if Scikit-Learn < 0.20
    from sklearn.preprocessing import OneHotEncoder
except ImportError:
    from future_encoders import OneHotEncoder # Scikit-Learn < 0.20

cat_encoder = OneHotEncoder()
housing_cat_1hot = cat_encoder.fit_transform(housing_cat)
housing_cat_1hot
<16512x5 sparse matrix of type ''
	with 16512 stored elements in Compressed Sparse Row format>

得到的 housing_cat_1hot 是一个SciPy格式的稀疏矩阵而不是一个 NumPy的数组，可以使用 toarray()的方法将它转换为稠密的 Numpy 数组。

housing_cat_1hot.toarray()

自定义转换器

使用 Scikit-Learn的 FunctionTransformer类可以基于转换函数构建转换器。

from sklearn.preprocessing import FunctionTransformer

def add_extra_features(X, add_bedrooms_per_room=True):
    rooms_per_household = X[:, rooms_ix] / X[:, household_ix]
    population_per_household = X[:, population_ix] / X[:, household_ix]
    if add_bedrooms_per_room:
        bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
        return np.c_[X, rooms_per_household, population_per_household,
                     bedrooms_per_room]
    else:
        return np.c_[X, rooms_per_household, population_per_household]

attr_adder = FunctionTransformer(add_extra_features, validate=False,
                                kw_args={'add_bedrooms_per_room':False}) 
housing_extra_attribs = attr_adder.fit_transform(housing.values)

特征缩放

机器学习算法的效果不会太好，当各特征的取值在不同范围时，我们的数据集中total_rooms 的特征取值为[6,39320]，median_income的取值为[0,15]。注意，一般目标值是不需要做特征缩放的。常见的特征缩放的方法有最小-最大值缩放，标准化。

Min-max Scaling：（num - min）/ （max - min），使数据缩放到（0,1）。Scikit-Learn 中提供了 MinMaxScaler可实现该功能。
Standardization：（num - mean）/ variance。不像 Min-max Scaling把数据缩放到0-1的范围，标准化将数据缩放到0均值，单位方差。这对于像神经网络这种希望收入范围在0-1之间的模型来说，标准化可能不是最佳。但是标准化对异常值不敏感，假如median_income中有个错误值为100，则 min-max scaling会将数据缩放到（0,0.15）的范围，而影响数据整体的分布。Scikit-Learn 中提供了StandardScaler实现标准化缩放。

Transformation Pipelines

Scikit-Learn 中提供了 Pipeline类来完成转换序列，使得程序能够按顺序执行每个转换。

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
        ('imputer',Imputer(strategy='median')),
        ('attribs_adder', CombinedAttributesAdder()),
        ('std_scaler', StandardScaler()),
    ])

housing_num_tr = num_pipeline.fit_transform(housing_num)

同样，我们也可以为类别型的变量设置 transformer pipeline。Scikit-Learn 中提供了ColumnTransformer 类整合数值型和类别型的转换器。传入一个转换器的列表，当需要用到 fit()或者transform()的方法时，它并行地运行各个转换器的 fit()或者transform()方法，然后等待他们的结果并最终把他们合并到一起输出。

try:
    from sklearn.compose import ColumnTransformer
except ImportError:
    from future_encoders import ColumnTransformer

num_attribs = list(housing_num)
cat_attribs = ['ocean_proximity']

full_pipeline = ColumnTransformer([
        ('num', num_pipeline, num_attribs),
        ('cat', OneHotEncoder(), cat_attribs),
    ])

housing_prepared = full_pipeline.fit_transform(housing)

5 在训练集上进行训练和验证

from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(housing_prepared, housing_labels)

在部分数据上查看预测效果

# try it out on some training instances
some_data = housing.iloc[:5]
some_labels = housing_labels.iloc[:5]
some_data_prepared = full_pipeline.transform(some_data) #data transformation
print('Predictions:\t\t', lin_reg.predict(some_data_prepared))

使用 Scikit-Learn 中的 mean_squared_error函数，计算 RMSE。

# calculate the mean_squared_error
from sklearn.metrics import mean_squared_error
housing_predictions = lin_reg.predict(housing_prepared)
lin_mse = mean_squared_error(housing_labels,housing_predictions)
lin_rmse = np.sqrt(lin_mse)

使用 Scikit-Learn 中的 mean_absolute_error函数，计算 MAE。

# calculate the mean_absolute_error
from sklearn.metrics import mean_absolute_error
lin_mae = mean_absolute_error(housing_labels, housing_predictions)

计算后发现 RMSE和 MAE都很多，考虑可能是模型欠拟合，使用决策树算法对数据进行拟合。

from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor(random_state=42)
tree_reg.fit(housing_prepared, housing_labels)

housing_predictions = tree_reg.predict(housing_prepared)
tree_mse = mean_squared_error(housing_labels, housing_predictions)
tree_mse = np.sqrt(tree_mse)

此时计算出来的 tree_mse 为 0。很明显，决策树算法过拟合了。

6 微调模型

计算交叉验证的得分

from sklearn.model_selection import cross_val_score

scores = cross_val_score(tree_reg, housing_prepared, housing_labels,
                        scoring='neg_mean_squared_error', cv=10)
tree_rmse_scores = np.sqrt(-scores)

计算线性回归的交叉验证得分。

# cross validation scores for linear regression
lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels,
                             scoring="neg_mean_squared_error", cv=10)
lin_rmse_scores = np.sqrt(-lin_scores)
display_scores(lin_rmse_scores)

使用随机森林来作预测，同时计算其交叉验证得分。

# choose Random Forest as a regressor
from sklearn.ensemble import RandomForestRegressor

forest_reg = RandomForestRegressor(n_estimators=10, random_state=42)
forest_reg.fit(housing_prepared, housing_labels)

# calculate the mean_squared_error for Random Forest Regressor
housing_predictions = forest_reg.predict(housing_prepared)
forest_mse = mean_squared_error(housing_labels, housing_predictions)
forest_rmse = np.sqrt(forest_mse)

forest_scores = cross_val_score(forest_reg, housing_prepared,housing_labels,
                               scoring='neg_mean_squared_error',cv=10)
forest_rmse_scores = np.sqrt(-forest_scores)
display_scores(forest_rmse_scores)

使用线性核的SVM作为分类器，并计算其 RMSE。

from sklearn.svm import SVR

svm_reg = SVR(kernel='linear')
svm_reg.fit(housing_prepared, housing_labels)
housing_predictions = svm_reg.predict(housing_prepared)
svm_mse = mean_squared_error(housing_labels, housing_predictions)
svm_rmse = np.sqrt(svm_mse)

使用 Scikit-Learn 的 GridSearchCV来帮助选择参数

from sklearn.model_selection import GridSearchCV

param_grid = [
   # try 12 (3×4) combinations of hyperparameters
    {'n_estimators':[3,10,30],'max_features':[2,4,6,8]},
    # then try 6 (2×3) combinations with bootstrap set as False
    {'bootstrap':[False],'n_estimators':[3,10],'max_features':[2,3,4]},
]

forest_reg = RandomForestRegressor(random_state=42)
# train across 5 folds, that's a total of (12+6)*5=90 rounds of training 
grid_search = GridSearchCV(forest_reg, param_grid, cv=5,
                          scoring='neg_mean_squared_error', return_train_score=True)
grid_search.fit(housing_prepared, housing_labels)

输出最佳的参数组合和最优的估计参数。

# look at the score of each hyperparameter combination tested during the grid search
cvres = grid_search.cv_results_
for mean_score, params in zip(cvres['mean_test_score'],cvres['params']):
    print(np.sqrt(-mean_score),params)

# 以 dataframe 的方式显示结果
pd.DataFrame(grid_search.cv_results_)

使用随机搜索来进行参数选择。

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

param_distribs = {
    'n_estimators': randint(low=1, high=200),
    'max_features': randint(low=1, high=8),
}

forest_reg = RandomForestRegressor(random_state=42)
rnd_search = RandomizedSearchCV(forest_reg, param_distributions=param_distribs,
                               n_iter=10, cv=5, scoring='neg_mean_squared_error',
                               random_state=42)
rnd_search.fit(housing_prepared, housing_labels)

输出每个属性值对于正确预测的相对重要程度。

feature_importances = grid_search.best_estimator_.feature_importances_

extra_attribs = ['rooms_per_hhold','pop_per_hhold', 'bedrooms_per_room']
cat_encoder = full_pipeline.named_transformers_['cat']
cat_one_hot_attribs = list(cat_encoder.categories_[0])
attributes = num_attribs + extra_attribs + cat_one_hot_attribs
sorted(zip(feature_importances, attributes), reverse=True)

有了这个信息，可以考虑删除点一些不是很重要的变量。

在测试集上评估系统性能

final_model = grid_search.best_estimator_

X_test = strat_test_set.drop('median_house_value', axis=1)
y_test = strat_test_set['median_house_value'].copy()

X_test_prepared = full_pipeline.transform(X_test)
final_predictions = final_model.predict(X_test_prepared)

final_mse = mean_squared_error(y_test, final_predictions)
final_rmse = np.sqrt(final_mse)

计算测试集的 RMSE 95%的置信区间。

# we can compute a 95% confidence interval for the test RMSE
from scipy import stats
confidence = 0.95
squared_errors = (final_predictions - y_test) ** 2
mean = squared_errors.mean()
m = len(squared_errors)

np.sqrt(stats.t.interval(confidence, m-1,loc=np.mean(squared_errors),
                        scale=stats.sem(squared_errors)))

# we could also compute the interval manually like this
tscore = stats.t.ppf((1 + confidence)/2, df=m-1)
tmargin = tscore * squared_errors.std(ddof=1) / np.sqrt(m)
np.sqrt(mean - tmargin), np.sqrt(mean + tmargin)

# Alternatively, we could use a z-scores rather than t-scores
zscore = stats.norm.ppf((1 + confidence) / 2)
zmargin = zscore * squared_errors.std(ddof=1) / np.sqrt(m)
np.sqrt(mean - zmargin), np.sqrt(mean + zmargin)

整合数据准备和预测的Pipeline

full_pipeline_with_predictor = Pipeline([
    ('preparation', full_pipeline),
    ('linear', LinearRegression())
])

full_pipeline_with_predictor.fit(housing, housing_labels)
full_pipeline_with_predictor.predict(some_data)

使用 joblib保存模型

my_model = full_pipeline_with_predictor

from sklearn.externals import joblib
joblib.dump(my_model, 'my_model.pkl') #save model

my_model_loaded = joblib.load('my_model.pkl') #load model

7 上线、监督、维护你的系统

需要编写程序监督你的系统运行，当性能出问题时应及时预警。
评估系统性能时需要对系统的预测进行抽样，评估是否准确，可能需要人为的分析。
时常评估系统输入的数据质量。
定期使用新数据重新训练模型。

8 练习题的解答

Question: 构建一个SVM回归算法，尝试使用多种参数，比如 kernel=‘linear’（C有多种值）或者 kernel=‘rbf’（C和gamma有多种值）。

from sklearn.model_selection import GridSearchCV

param_grid = [
        {'kernel': ['linear'], 'C': [10., 30., 100., 300., 1000., 3000., 10000., 30000.0]},
        {'kernel': ['rbf'], 'C': [1.0, 3.0, 10., 30., 100., 300., 1000.0],
         'gamma': [0.01, 0.03, 0.1, 0.3, 1.0, 3.0]},
    ]

svm_reg = SVR()
grid_search = GridSearchCV(svm_reg, param_grid, cv=5, scoring='neg_mean_squared_error', verbose=2, n_jobs=4)
grid_search.fit(housing_prepared, housing_labels)

negative_mse = grid_search.best_score_
rmse = np.sqrt(-negative_mse)

Question: 使用RandomizedSearchCV代替GridSearchCV 。

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import expon, reciprocal

param_distribs = {
        'kernel': ['linear', 'rbf'],
        'C': reciprocal(20, 200000),
        'gamma': expon(scale=1.0),
    }

svm_reg = SVR()
rnd_search = RandomizedSearchCV(svm_reg, param_distributions=param_distribs,
                                n_iter=50, cv=5, scoring='neg_mean_squared_error',
                                verbose=2, n_jobs=4, random_state=42)
rnd_search.fit(housing_prepared, housing_labels)

negative_mse = rnd_search.best_score_
rmse = np.sqrt(-negative_mse)

Question：在数据处理的Pipeline中加入转换器用来选择最重要的特征

from sklearn.base import BaseEstimator, TransformerMixin

# np.argpartition(arr,k) 将数组arr中所有元素（包括重复元素）从小到大排列，比第k大的元素
# 小的放在前面，大的放在后面，输出新数组索引
def indices_of_top_k(arr, k):  
    return np.sort(np.argpartition(np.array(arr),-k)[-k:])

class TopFeatureSelector(BaseEstimator, TransformerMixin):
    def __init__(self, feature_importances, k):
        self.feature_importances = feature_importances
        self.k = k
        
    def fit(self, X, y=None):
        self.feature_indices = indices_of_top_k(self.feature_importances, self.k)
        return self
    
    def transform(self,X):
        return X[:, self.feature_indices]

找到最大的 k 个特征对应的序号

k = 5
top_k_feature_indices = indices_of_top_k(feature_importances, k)
top_k_feature_indices

preparation_and_feature_selection_pipeline = Pipeline([
    ('preparation', full_pipeline),
    ('feature_selection', TopFeatureSelector(feature_importances, k))
])

housing_prepared_top_k_features = preparation_and_feature_selection_pipeline.fit_transform(housing)

4. Question：创建一个Pipeline完成所有的数据处理过程和最后的预测。

prepare_select_and_predict_pipeline = Pipeline([
    ('preparation', full_pipeline),
    ('feature_selection', TopFeatureSelector(feature_importances, k)),
    ('svm_reg', SVR(**rnd_search.best_params_))
])

prepare_select_and_predict_pipeline.fit(housing, housing_labels)

5. Question：使用GridSearchCV自动发现一些数据处理的方法。

param_grid = [{
    'preparation__num__imputer__strategy': ['mean', 'median', 'most_frequent'],
    'feature_selection__k': list(range(1, len(feature_importances) + 1))
}]

grid_search_prep = GridSearchCV(prepare_select_and_predict_pipeline, param_grid, cv=5,
                                scoring='neg_mean_squared_error', verbose=2, n_jobs=4)

grid_search_prep.fit(housing, housing_labels)

程序

我把书中的程序都用 Python 3运行了一遍，确保没有Bug并且都加了注释，方便大家理解。原书的数据集和代码在这个网站上，我自己运行的程序在我的GitHub上。

美嫺读书笔记美嫺
家长希望孩子快人一步，固有提前训练，欲揠苗助长。其实，从能力发展的过程来看，不必让孩子提前"预习"，顺其自然是最好的法则之一。人类有许多与生俱来的能力，每个年龄阶段自然就会掌握那个技能，就如走路一样。支配儿童心理发展的因素有两个:一个是成熟，另一个是学习。美国著名儿童心理学家格塞尔著名的——双胞胎爬梯实验表明:儿童的心理主要是一个自然成熟的过程，孩子的成长是受到生理和心理成熟机制制约的，教育并不能
1.14读书笔记《义务教育英语课程标准（2022年版）解读》望亭陆曙良
第二阶段义务教育英语课程改革的主要问题有哪些？1.《课程标准（2011）》的课程目标与《高中课程标准（2017）》不一致。《课程标准（2011）》提出的英语课程总目标是培养学生的综合语言运用能力，《高中课程标准（2017）》提出的英语课程目标是培养学生的学科核心素养。2.部分教学理念与当前世界课程改革理念对接不够。在当前共建人类命运共同体的时代理念下，《课程标准（2011）》缺少前瞻性，学科育人价
《小狗钱钱2》读书笔记慧妍0010
文|慧妍图片发自App如果说《小狗钱钱》第一部侧重培养孩子的财商，那么第二部则侧重培养孩子的品格。《小狗钱钱2》提出了“甜甜圈理论”，即：甜甜圈外面的圈象征了金钱和一切可以消费的东西，而里面那个无形的圆孔就代表了人的内心，象征了我们无法看到却又必须具备的品格。没有金钱只有内心，生活都无法保证，幸福从何而来？只有金钱，失了内心的人，拥有的却不是真幸福。如何培养优秀的品格，书中给出了7条准则。每一条准
读书笔记06‖《时间管理，如何充分利用你的24小时》 Gemini_565d
54分钟，你没有听错，我读完了这本妙趣横生的书！总共128页，平均每分钟2页的阅读速度，我能行，你可以做到！作者用幽默诙谐的语言向我们讲述了时间管理的有效方法，字数不多，风格独特，没有废话！实际上并不单单指你24小时的内容！且来看看这本不占用你时间，但给你提出时间管理的技巧！01.主要结构与内容1.篇章结构上半部分:如何利用时间？下半部分:是否正在使用时间发挥最大效用？2.主要概念（1）意识是时间
读书笔记：德鲁克《管理的实践》17 李唐星辰
1、【企业对员工的要求】这个版块中提到：企业期望员工不只是被动接受劳动力工作，而必须主动承担达成经营绩效的责任。……要求越高，表现越好，是人的特性，因此员工能发挥多大的生产力，很大部分取决于企业对他们的要求有多高。星辰感悟：人的潜力是无限的。说这句话的时候，不仅肯定了自己，也肯定了所有奋斗的人。很多时候，认知会限制我们的想法。这跟小马过河是一个道理。松鼠小觉得小溪就是一条河，但是对于马儿来说根本不
《陪伴成长》读书笔记(一) 姬磨小学李会巧
今天，我读了《陪伴成长》中的“家庭教育不能盲从”这一章节，感受颇深。的确，在这个重视教育的年代，怎么样才能把自己的孩子教育成功呢？我们的孩子到底需要什么样的教育呢？当今社会，很多人都在渴望自己的孩子成为优秀，但他们很多人都忽视了优秀人才成长的基础；众多人都在关心孩子的教育，但他们很多人都把目光投向了分数；众多人都在以孩子成绩为荣，但他们很多人都淡忘了心理健康与道德修养；众多人都在给予爱，但他们很多
D065+8组煎果子+《高效能人士的7个习惯》读书笔记煎果子
习惯一：积极主动时下盛行的社会观点认为，环境与条件对我们起着决定性的作用。我们不否认条件作用的影响巨大，但并不等于承认它凌驾于一切之上，甚至可以决定我们的命运。在外界的刺激与最后的回应之间，人拥有选择的自由，这也是人与动物之间最大的不同。史蒂芬•柯维指出，看一个人的时间和精力集中于哪些事物，就可以大致判断出他是否积极主动。作者将我们关注的问题分成两类：关注圈和影响圈。关注圈，是指我们关注的问题，包
人的行为读书笔记，2-7 夕颜剑主
第二章人的行为科学在认识论层次的一些问题第七节历史的范畴和专门的研究方法1.历史的研究范畴与历史家如何进行真正的历史工作历史的范畴是研究所有关于人的行为的经验资料。历史学家收集、批判、筛选所有可以取得的文件，以这种证据为基础，着手进行真正的历史工作。2.错误的历史研究方法有人说，历史的任务是揭露一些事件实际上是如何发生的，不允许有所遐想，亦不许有价值判断（也即，对于一切价值判断保持中立）。他们认为
《我和你》读书笔记（六）相信，遇见心理咨询师卜彬
如何才能在一个生命的里面让早被掩埋的联系能量复活呢？如何才能让一个一直生活在任性之中的人觉到自由呢？自由同命运如影随形，任性与灾难也是如影随形。但自由同命运有誓约，任性与灾难、灵魂魔魅与世界鬼魇，则不过是一团和气地住在一起，而且很小心不想伤害和气，哪有什么结合可言，也谈不上有摩擦，完全无意义可言——直到在某一刻，眼神一不小心对上了，终于意识到原来并没有得到救赎！自由人是那种并非由于任性而有所想要的
【读书笔记】《做高效能父母》之接纳：关系是一切管教的基础端端妈
一、没有人比我更爱孩子，但我真的接纳他吗？三个孩子的宝妈，由于居住环境的改变，发现原本听话的3个孩子，每个人都发生了变化，都在变得不听话了，于是妈妈开始反省自己的过失，给我们分享了正面管教的四个有效管教标准和6A课程。正面管教的四个有效管教标准1.是否和善与坚定并行？2.是否有助于孩子感受到归属感和价值感？3.是否长期有效？4.是否能教给孩子有价值的社会技能和人生技能，培养孩子的良好品格？6A课程
读书笔记一年顶十年怎样才能常遇贵人一幻花韵马
学:改圈子，你才更有可能实现突破。走出去，你才更有可能遇到贵人。如果你想常遇贵人，那就一定不要宅着，不要封闭地活着，而要走出去，去认识更多优秀的人。思:贵人在什么地方？贵人对你有什么意义，他能带给怎样的价值？如何认识更多的贵人并得到贵人的帮助？行:我要主动走出去，往有贵人的圈子发展，改变自己的人际关系，想办法多遇贵人。
无论身处何种境地，我们能决定自己的生活姿态极昼之光明
11月23日读书打卡《你想活出怎样的人生》读书笔记（一）“你想活出怎样的人生”,这个灵魂一问，是对生命本真的思考和质问，听起来像是沉重的哲学命题，给读者的感觉，以为全书应该是深奥枯燥的哲学探讨。没想到，吉野源三郎写的这本书是以小说形式，围绕小哥白尼等几个少年成长这条主线，通过他们日常生活中几个浅显易懂的小故事，把生而为人应该具备的道德品质，轻松形象地呈现给了读者。这本书曾经影响了宫歧骏的一生，古稀
王阳明问答语录《传习录》读书笔记摘录【读书笔记18】爱玲姐说说
王阳明问答语录《传习录》读书笔记摘录【读书笔记18】1、惟学功夫有深浅，初时若不着实用意去好善恶恶。如何能为善去恶？这着实用意便是诚意，然不知心之本体原无一物，一向着意去好善恶恶，便又多了这分意思，便不是廓然大公。《书》所谓“无有作好作恶”，方是本体？所以说“有所愤懥好乐，则不得其正”。正心只是诚意功夫里面体当自家心体，常要鉴空衡平，这便是未发之中。【关键词注释】①着实用意：真正切实②着意：执着③
读书 | 你拖延的原因有可能藏在这里晨长进行时
哈喽，大家好。最近在分享《稀缺》的读书笔记，上次分享了第1章。在第1章的结尾提到，稀缺在让我们收获专注红利的同时，也会使得我们产生管窥之见，并由此带来沉重的负担。上一章并没有对管窥负担做过多解释，你可能会在想，稀缺到底给自己造成了什么负担呢？别急，第2章来详细讲讲。1/什么是带宽在介绍之前，先来了解一些基础概念。带宽，指的是我们心智的容量，它主要包含两种能力，分别是认知能力和执行控制力。2/认知能
2020-03-23读书笔记《小狗钱钱》的第十三课分散风险无00
今晚新闻美联储开启无限量、无底线QE……光放水，不救人的蜜汁操作。16/21【15/88】第十六章俱乐部的投资行动陶穆太太宣布首次投资行动，具有分散风险的基金。然后科普了下挑选基金时的注意事项，以及72定理（也是本章钱钱语录）：挑选基金时的注意事项：1.基金应该至少有十年历史。假如它在这么长时间内一直有丰厚的盈利，那我们可以认为，它在未来也会运作良好。2.应该选择大型的跨国股票基金，这种基金在世界
No.4读书笔记《爱晚亭》小裙儿
作为一个土生土长的湖南人，说到爱晚亭，首先想到的是湘江，是美丽的星城长沙。因为爱晚亭、岳麓山似乎是长沙的标志性建筑，如果有幸去长沙旅游，没到爱晚亭，那简直是一种遗憾。爱晚亭究竟有多美，我想那是一种来自自然纯天然的美，古风古韵的亭子，搭上萧索的微风，被风吹得沙沙作响的树叶，想想就很美。金句:1.我乘着风起时大声呼啸，有时也蓬头乱发地跳跃着。哦哦，多么有趣哟！当我左手提着绸逡，右臂举起轻舞时，那一副天
探索名门望族背后的秘密期待遇见最好的自己
20200824读书笔记（十七）朱熹家族186节朱熹家族。一个人是如何成人，成才，成事的？想搞懂自己与他人。有一天，我发现搞懂自己与他人还是不够的，还要搞懂人生，当我去探索人生的时候，我是否进入了一个全新的世界，不是为了学习历史，而是需要探索东方智慧。不是为了探索东方智慧，而是为了寻找人生答案。朱熹是一个从天理之人，从小想搞懂天下万物。把道和理都要研究透。因此成为了我要重点研究的对象之一。带着朱熹
沟通圣经读书笔记敏佳读书
听的技巧1.准备好去听。我们应该多思考对方要说的是什么，少想自己要说什么。2.感兴趣。3.心胸开阔。4.听出重点。5.批判性倾听。6.避免分心。7.做笔记。8.协助说话者。（轻轻点头，专心看着说话者，说了解，真的，嗯？重复对方刚说过的最后几个字。表示你理解对方的意思了）9.回应。10.不插话。
读书笔记煙花笑
穿越人海拥抱你苑子文苑子豪60个笔记插图千万不要停下脚步，否则世界就会忘了你。这世界是很美好，但也足够忍。一直咬牙不放弃的你，真是太辛苦了。前言：一切看似末日的，终将被证明只是过程一切看似末日的，终将被证明只是过程灯火通明，车辆川流不息，纵横的高架桥两侧有高耸的大厦，华丽的商场里陈列着琳琅满目的奢侈品。巨大的车流声在耳边倏忽而过，青春年少时的那些小勇敢和小执着带着轰隆的响声，从心底往外翻涌。我想每
人该怎样活着呢11？ gjf05_05 笔记
人该怎样活着呢？/*人为了开心而活着。（20200524）*/【0】人一定是自由的，不自由的人只是一个宠物而已。【比如学生，花钱还被动】（20200520）（a学生是花钱打工，毕业后打工还钱20200523b尽信老师不如无师（20200523））一、我的世界观：实践出真知二、我的人生观（我的信仰）知识改变命运！（20200507）三、我的价值观身心健康和读书笔记还有和平！【1】关于身体健康方面：a
2018年3月20日，《赡养人类》读书笔记兔兔是淑女
这个读书笔记具体到天，是因为一天内就读完刘慈欣的《赡养人类》了，很短。昨天刚读完《围城》，今天内就读完了《赡养人类》。据推荐人翔哥说，这是一部比郝景芳的《北京折叠》更有味道的反映社会贫富差距的作品。刘慈欣写文章那种一本正经的理工科腔调让人觉得很可爱，那种理工科典型的有板有眼的萌感，就像东野圭吾的温吞感，王小波的俏皮感，渡边淳一的清冽感，莫言的绵密感。刘慈欣的科幻，看起来是写科写幻，其实写的都是人，
《父母的语言》读书笔记艾利斯顿教育
通过麻醉(所解决的事情能被看得到——解决了患者疼痛的痛苦)和消毒(所解决的事情看不到，视觉里没有——表面上看不到取得的效果)两件事情被重视的程度，引出不可见的东西，被人忽略的，叫做思想的停滞。父母的语言，就是免费的，被忽略店的重要的资源！实际上在3岁以前，父母传递给孩子的语言信息量，就已经拉开了孩子与孩子之间的距离！对孩子最大的教养差距不是在于态度，物质条件，而在乎父母的词汇量！如果能意识到父母的
D064+1组宁静致远+《高效能人士的七个习惯》读书笔记宁静致远_dcc6
本周阅读书目《高效能人士的七个习惯》，作者史蒂芬.柯维。史蒂芬・柯维（StephenR.Covey）哈佛大学企业管理硕士，杨百翰大学博士。柯维博士曾被《时代》杂志誉为“人类潜能的导师”，并入选为全美二十五位最有影响力的人物之一。在领导理论，家庭与人际关系，个人管理等领域久负盛名。本书自出书以来，高居美国畅销书排行榜长达七年，在全球七十个国家以二十八种语言发行共超过一亿册。最喜欢的也是作者在家庭与人
2022年4月15日读书笔记龙套哥萨克海龙
今日阅读1小时，总计1917小时，第1858日阅读《在国家与社会之间》通过前面的讨论，我们知道，经过相当长时期的一系列改革，新的财政赋税体制在清代中期最终确立起来。这种与明初所定的赋役制度有根本性差别的财政赋税体制的确立，意味着政府赖以作为征收赋税基础的户籍制度，也必然随之发生根本性的改变。图甲的编制，已经不是一种以家庭和人口为中心的组织，而变成一种以田地赋税为中心的系统。这种人在此里、田在彼里的
【日记星球第561篇】——《怦然心动的人生整理魔法--实践解惑篇》读书笔记12：打造一个快乐厨房神秘园的简书
2021年11月28日星期日上周末读了《怦然心动的人生整理魔法--实践解惑篇》的第四章《厨房应该这样整理》的前5个小节，因为没有整理实践，先没发感悟。读书概要：厨房收纳的目标是“容易清理”，而不能以“随手可取”作为厨房收纳的理想状态。要实现便于清理，最基本的是做到在水槽和灶台四周不放置任何物品。以此为前提思考厨房的收纳方法，就能打造一个令人惊喜的实用厨房。把之前一直在用的赠品餐具想法子处理掉，然后
春艳读书笔记：《读懂一本书——樊登读书法》第一章春艳读书
日期：2020.9.21书名：《读懂一本书——樊登读书法》章节：第一章《会读书，更要会讲书》1.阅读是大众反脆弱的武器。大学教授们以为是自己把学生教育成了精英，其实不是，这些人本来就是精英。大学里真正能给你带来帮助的东西，不是你上的那些课，而是你从图书馆里借来的书。2.阅读有两个特点：主动性和针对性。主动性：你所读的一定是你所需要的。针对性：读书能恰到好处地解决具体问题。3.阅读使我们从“单向度的
《语文课程目标分析框架的破与立》读书笔记苔花如米筱
《语文科课程论基础》的第三章中王教授认为语文课程与教学目标的“工具性”与“人文性”不该分裂开来，而是互相包含、互相叠加的层叠蕴涵关系。修订后的课程标准坚持原实验稿也提出来的关于语文课程基本性质的认识，坚持语文课程的工具性和人文性的统一。“课改”以来有人在强调人文性的时候，不恰当地“将孩子和洗澡水一起泼掉”。“孩子”即语文本体。这样做又陷入了片面性，必然造成工具性与人文性两败俱伤。工具性是语文课程的
D022+《天长地久给美君的信》读书笔记天空很蓝_4262
人生的曲折路看不到尽头，也猜不到下一个弯向左向右。路面上画着跳格子的游戏，你一格一格往前跳。当你跳到42岁的那一个，为女儿做主的时候，前面的路你看了有多远，你有没有看见自己的衰老？你有没有闪过念头，要为自己打算，为自己不甘，为自己怨叹，至少宠爱一下自己？没读到这之前有点迷糊，只知道“为我好”。为什么父母要你好好读书，为什么要有自己的一技之长。因为他们之前就是因为没有书读，没有自己的一技之长，一生操
《后现代课程观》读书笔记3 还是笑容
今天读书读得又有点小兴奋。第四章“普利高津与混沌的秩序”。两小节“混沌的概念”，“普利高津、自组织与耗散结构”。西方世界三种混沌观。前现代范式，在古代宇宙学中的创造神话里，混沌是所有存在和组织产生的原始本源。现代范式，混沌被视为秩序的对立面：充斥着混乱。后现代范式，混沌和秩序彼此联系成为一体从而形成更为复杂的、综合的、有时甚至是“奇特”的新秩序的过程。当代混沌论，复杂的秩序化、非预测性、非线性。混
2019-10-21 李明妤
《人类简史》读书笔记DAY8宗教：神祗只是为自己国家服务传统宗教在现代社会发挥着怎样的作用？神职人员曾经扮演着祈雨者，医生，与神沟通等角色，但在现代科技社会，人类开始求助于科学，医学，经济学，宗教在大多数时候变成了现代科学的理论副手。在身份认同问题上，宗教的作用依然不可低估。人类需要群众合作，合作又需要打造身份认同，宗教则可以判断谁是我们，谁是他们。日本是现代化工业和宗教传统结合最为成功的国家之一
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

第二章 端对端的机器学习项目 Part II