X.AI666

【解决（几乎）任何机器学习问题】：超参数优化篇（超详细）

这篇文章相当长，您可以添加至收藏夹，以便在后续有空时候悠闲地阅读。

有了优秀的模型，就有了优化超参数以获得最佳得分模型的难题。那么，什么是超参数优化呢？假设您的机器学习项⽬有⼀个简单的流程。有⼀个数据集，你直接应⽤⼀个模型，然后得到结果。模型在这⾥的参数被称为超参数，即控制模型训练/拟合过程的参数。如果我们⽤ SGD 训练线性回归，模型的参数是斜率和偏差，超参数是学习率。你会发现我在本章和本书中交替使⽤这些术语。假设模型中有三个参数 a、b、c，所有这些参数都可以是 1 到 10 之间的整数。这些参数的 "正确 "组合将为您提供最佳结果。因此，这就有点像⼀个装有三拨密码锁的⼿提箱。不过，三拨密码锁只有⼀个正确答案。⽽模型有很多正确答案。那么，如何找到最佳参数呢？⼀种⽅法是对所有组合进⾏评估，看哪种组合能提⾼指标。让我们看看如何做到这⼀点。

best_accuracy = 0
best_parameters = {"a": 0, "b": 0, "c": 0}
for a in range(1, 11):
    for b in range(1, 11):
        for c in range(1, 11):
            model = MODEL(a, b, c)
            model.fit(training_data)
            preds = model.predict(validation_data)
            accuracy = metrics.accuracy_score(targets, preds)
            if accuracy > best_accuracy:
                best_accuracy = accuracy
                best_parameters["a"] = a
                best_parameters["b"] = b
                best_parameters["c"] = c

在上述代码中，我们从 1 到 10 对所有参数进⾏了拟合。因此，我们总共要对模型进⾏ 1000 次（10 x 10 x 10）拟合。这可能会很昂贵，因为模型的训练需要很⻓时间。不过，在这种情况下应该没问题，但在现实世界中，并不是只有三个参数，每个参数也不是只有⼗个值。⼤多数模型参数都是实数，不同参数的组合可以是⽆限的。

让我们看看 scikit-learn 的随机森林模型。

RandomForestClassifier(
    n_estimators=100,
    criterion='gini',
    max_depth=None,
    min_samples_split=2,
    min_samples_leaf=1,
    min_weight_fraction_leaf=0.0,
    max_features='auto',
    max_leaf_nodes=None,
    min_impurity_decrease=0.0,
    min_impurity_split=None,
    bootstrap=True,
    oob_score=False,
    n_jobs=None,
    random_state=None,
    verbose=0,
    warm_start=False,
    class_weight=None,
    ccp_alpha=0.0,
    max_samples=None,
    )

有 19 个参数，⽽所有这些参数的所有组合，以及它们可以承担的所有值，都将是⽆穷⽆尽的。通常情况下，我们没有⾜够的资源和时间来做这件事。因此，我们指定了⼀个参数⽹格。在这个⽹格上寻找最佳参数组合的搜索称为⽹格搜索。我们可以说，n_estimators 可以是 100、200、250、300、400、500；max_depth 可以是 1、2、5、7、11、15；criterion 可以是 gini 或 entropy。这些参数看起来并不多，但如果数据集过⼤，计算起来会耗费⼤量时间。我们可以像之前⼀样创建三个 for 循环，并在验证集上计算得分，这样就能实现⽹格搜索。还必须注意的是，如果要进⾏ k 折交叉验证，则需要更多的循环，这意味着需要更多的时间来找到完美的参数。因此，⽹格搜索并不流⾏。让我们以根据⼿机配置预测⼿机价格范围数据集为例，看看它是如何实现的。

图 1 ：⼿机配置预测⼿机价格范围数据集展⽰

训练集中只有 2000 个样本。我们可以轻松地使⽤分层 kfold 和准确率作为评估指标。我们将使⽤具有上述参数范围的随机森林模型，并在下⾯的⽰例中了解如何进⾏⽹格搜索。

# rf_grid_search.py
import numpy as np
import pandas as pd
from sklearn import ensemble
from sklearn import metrics
from sklearn import model_selection

if __name__ == "__main__":
    df = pd.read_csv("./input/mobile_train.csv")
    X = df.drop("price_range", axis=1).values
    y = df.price_range.values

    classifier = ensemble.RandomForestClassifier(n_jobs=-1)
    param_grid = {
        "n_estimators": [100, 200, 250, 300, 400, 500],
        "max_depth": [1, 2, 5, 7, 11, 15],
        "criterion": ["gini", "entropy"]
    }

    model = model_selection.GridSearchCV(
        estimator=classifier,
        param_grid=param_grid,
        scoring="accuracy",
        verbose=10,
        n_jobs=1,
        cv=5
    )

    model.fit(X, y)
    print(f"Best score: {model.best_score_}")
    print("Best parameters set:")
    best_parameters = model.best_estimator_.get_params()
    for param_name in sorted(param_grid.keys()):
        print(f"\t{param_name}: {best_parameters[param_name]}")

这⾥打印了很多内容，让我们看看最后⼏⾏。

[ CV ] criterion = entropy , max_depth = 15 , n_estimators = 500 , score = 0.895 ,

total = 1.0 s

[ CV ] criterion = entropy , max_depth = 15 , n_estimators = 500 ...............

[ CV ] criterion = entropy , max_depth = 15 , n_estimators = 500 , score = 0.890 ,

total = 1.1 s

[ CV ] criterion = entropy , max_depth = 15 , n_estimators = 500 ...............

[ CV ] criterion = entropy , max_depth = 15 , n_estimators = 500 , score = 0.910 ,

total = 1.1 s

[ CV ] criterion = entropy , max_depth = 15 , n_estimators = 500 ...............

[ CV ] criterion = entropy , max_depth = 15 , n_estimators = 500 , score = 0.880 ,

total = 1.1 s

[ CV ] criterion = entropy , max_depth = 15 , n_estimators = 500 ...............

[ CV ] criterion = entropy , max_depth = 15 , n_estimators = 500 , score = 0.870 , total = 1.1 s

[ Parallel ( n_jobs = 1 )]: Done 360 out of 360 | elapsed : 3.7 min finished

Best score : 0.889

Best parameters set :

criterion : 'entropy'

max_depth : 15

n_estimators : 500

最后，我们可以看到，5折交叉检验最佳得分是 0.889，我们的⽹格搜索得到了最佳参数。我们可以使⽤的下⼀个最佳⽅法是随机搜索。在随机搜索中，我们随机选择⼀个参数组合，然后计算交叉验证得分。这⾥消耗的时间⽐⽹格搜索少，因为我们不对所有不同的参数组合进⾏评估。我们选择要对模型进⾏多少次评估，这就决定了搜索所需的时间。代码与上⾯的差别不⼤。除了GridSearchCV 外，我们使⽤ RandomizedSearchCV。

if __name__ == "__main__":
    classifier = ensemble.RandomForestClassifier(n_jobs=-1)
    param_grid = {
        "n_estimators": np.arange(100, 1500, 100),
        "max_depth": np.arange(1, 31),
        "criterion": ["gini", "entropy"]
    }
    model = model_selection.RandomizedSearchCV(
        estimator=classifier,
        param_distributions=param_grid,
        n_iter=20,
        scoring="accuracy",
        verbose=10,
        n_jobs=1,
        cv=5
    )
    model.fit(X, y)
    print(f"Best score: {model.best_score_}")
    print("Best parameters set:")
    best_parameters = model.best_estimator_.get_params()
    for param_name in sorted(param_grid.keys()):
        print(f"\t{param_name}: {best_parameters[param_name]}")

我们更改了随机搜索的参数⽹格，结果似乎有了些许改进。

Best score : 0.8905

Best parameters set :

criterion : entropy

max_depth : 25

n_estimators : 300

如果迭代次数较少，随机搜索⽐⽹格搜索更快。使⽤这两种⽅法，你可以为各种模型找到最优参数，只要它们有拟合和预测功能，这也是 scikit-learn 的标准。有时，你可能想使⽤管道。例如假设我们正在处理⼀个多类分类问题。在这个问题中，训练数据由两列⽂本组成，你需要建⽴⼀个模型来预测类别。让我们假设你选择的管道是⾸先以半监督的⽅式应⽤ tf-idf，然后使⽤SVD 和SVM 分类器。现在的问题是，我们必须选择 SVD 的成分，还需要调整 SVM 的参数。下⾯的代段展⽰了如何做到这⼀点。

import numpy as np
import pandas as pd
from sklearn import metrics
from sklearn import model_selection
from sklearn import pipeline
from sklearn.decomposition import TruncatedSVD
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

def quadratic_weighted_kappa(y_true, y_pred):
    return metrics.cohen_kappa_score(y_true, y_pred, weights="quadratic")

if __name__ == '__main__':
    train = pd.read_csv('./input/train.csv')
    idx = test.id.values.astype(int)
    train = train.drop('id', axis=1)
    test = test.drop('id', axis=1)

    y = train.relevance.values
    traindata = list(train.apply(lambda x:'%s %s' % (x['text1'], x['text2']), axis=1))
    testdata = list(test.apply(lambda x:'%s %s' % (x['text1'], x['text2']), axis=1))

    tfv = TfidfVectorizer(
        min_df=3,
        max_features=None,
        strip_accents='unicode',
        analyzer='word',
        token_pattern=r'\w{1,}',
        ngram_range=(1, 3),
        use_idf=1,
        smooth_idf=1,
        sublinear_tf=1,
        stop_words='english'
    )

    tfv.fit(traindata)
    X = tfv.transform(traindata)
    X_test = tfv.transform(testdata)

    svd = TruncatedSVD()
    scl = StandardScaler()
    svm_model = SVC()

    clf = pipeline.Pipeline([
        ('svd', svd),
        ('scl', scl),
        ('svm', svm_model)
    ])

    param_grid = {
        'svd__n_components': [200, 300],
        'svm__C': [10, 12]
    }

    kappa_scorer = metrics.make_scorer(
        quadratic_weighted_kappa,
        greater_is_better=True
    )

    model = model_selection.GridSearchCV(
        estimator=clf,
        param_grid=param_grid,
        scoring=kappa_scorer,
        verbose=10,
        n_jobs=-1,
        refit=True,
        cv=5
    )

    model.fit(X, y)
    print("Best score: %0.3f" % model.best_score_)
    print("Best parameters set:")
    best_parameters = model.best_estimator_.get_params()
    for param_name in sorted(param_grid.keys()):
        print("\t%s: %r" % (param_name, best_parameters[param_name]))

    best_model = model.best_estimator_
    best_model.fit(X, y)
    preds = best_model.predict(X_test)

这⾥显⽰的管道包括 SVD（奇异值分解）、标准缩放和 SVM（⽀持向量机）模型。请注意，由于没有训练数据，您⽆法按原样运⾏上述代码。当我们进⼊⾼级超参数优化技术时，我们可以使⽤不同类型的最⼩化算法来研究函数的最⼩化。这可以通过使⽤多种最⼩化函数来实现，如下坡单纯形算法、内尔德-梅德优化算法、使⽤⻉叶斯技术和⾼斯过程寻找最优参数或使⽤遗传算法。我将在 "集合与堆叠（ensembling and stacking） "⼀章中详细介绍下坡单纯形算法和 NelderMead 算法的应⽤。⾸先，让我们看看⾼斯过程如何⽤于超参数优化。这类算法需要⼀个可以优化的函数。⼤多数情况下，都是最⼩化这个函数，就像我们最⼩化损失⼀样。因此，⽐⽅说，你想找到最佳参数以获得最佳准确度，显然，准确度越⾼越好。现在，我们不能最⼩化精确度，但我们可以将精确度乘以-1。这样，我们是在最⼩化精确度的负值，但事实上，我们是在最⼤化精确度。在⾼斯过程中使⽤⻉叶斯优化，可以使⽤ scikit-optimize (skopt) 库中的 gp_minimize 函数。让我们看看如何使⽤该函数调整随机森林模型的参数。

# rf_gp_minimize.py
import numpy as np
import pandas as pd
from functools import partial
from sklearn import ensemble
from sklearn import metrics
from sklearn import model_selection
from skopt import gp_minimize
from skopt import space

def optimize(params, param_names, x, y):
    params = dict(zip(param_names, params))
    model = ensemble.RandomForestClassifier(**params)
    kf = model_selection.StratifiedKFold(n_splits=5)
    accuracies = []

    for idx in kf.split(X=x, y=y):
        train_idx, test_idx = idx[0], idx[1]
        xtrain = x[train_idx]
        ytrain = y[train_idx]
        xtest = x[test_idx]
        ytest = y[test_idx]

        model.fit(xtrain, ytrain)
        preds = model.predict(xtest)
        fold_accuracy = metrics.accuracy_score(ytest, preds)
        accuracies.append(fold_accuracy)

    return -1 * np.mean(accuracies)

if __name__ == "__main__":
    df = pd.read_csv("./input/mobile_train.csv")
    X = df.drop("price_range", axis=1).values
    y = df.price_range.values

    param_space = [
        space.Integer(3, 15, name="max_depth"),
        space.Integer(100, 1500, name="n_estimators"),
        space.Categorical(["gini", "entropy"], name="criterion"),
        space.Real(0.01, 1, prior="uniform", name="max_features")
    ]

    param_names = [
        "max_depth",
        "n_estimators",
        "criterion",
        "max_features"
    ]

    optimization_function = partial(
        optimize,
        param_names=param_names,
        x=X,
        y=y
    )

    result = gp_minimize(
        optimization_function,
        dimensions=param_space,
        n_calls=15,
        n_random_starts=10,
        verbose=10
    )

    best_params = dict(
        zip(
            param_names,
            result.x
        )
    )
    print(best_params)

这同样会产⽣⼤量输出，最后⼀部分如下所⽰。

Iteration No : 14 started . Searching for the next optimal point .

Iteration No : 14 ended . Search finished for the next optimal point .

Time taken : 4.7793

Function value obtained : - 0.9075

Current minimum : - 0.9075

Iteration No : 15 started . Searching for the next optimal point .

Iteration No : 15 ended . Search finished for the next optimal point .

Time taken : 49.4186

Function value obtained : - 0.9075

Current minimum : - 0.9075

{ 'max_depth' : 12 , 'n_estimators' : 100 , 'criterion' : 'entropy' ,

'max_features' : 1.0 }

看来我们已经成功突破了 0.90的准确率。这真是太神奇了！

我们还可以通过以下代码段查看（绘制）我们是如何实现收敛的。

from skopt . plots import plot_convergence

plot_convergence ( result )

收敛图如图 2 所⽰。

图 2：随机森林参数优化的收敛图

Scikit- optimize 就是这样⼀个库。 hyperopt 使⽤树状结构帕岑估计器（TPE）来找到最优参数。请看下⾯的代码⽚段，我在使⽤ hyperopt 时对之前的代码做了最⼩的改动。

import numpy as np
import pandas as pd
from functools import partial
from sklearn import ensemble
from sklearn import metrics
from sklearn import model_selection
from hyperopt import hp, fmin, tpe, Trials
from hyperopt.pyll.base import scope

def optimize(params, x, y):
    model = ensemble.RandomForestClassifier(**params)
    kf = model_selection.StratifiedKFold(n_splits=5)
    accuracies = []

    for idx in kf.split(X=x, y=y):
        train_idx, test_idx = idx[0], idx[1]
        xtrain = x[train_idx]
        ytrain = y[train_idx]
        xtest = x[test_idx]
        ytest = y[test_idx]

        model.fit(xtrain, ytrain)
        preds = model.predict(xtest)
        fold_accuracy = metrics.accuracy_score(ytest, preds)
        accuracies.append(fold_accuracy)

    return -1 * np.mean(accuracies)

if __name__ == "__main__":
    df = pd.read_csv("./input/mobile_train.csv")
    X = df.drop("price_range", axis=1).values
    y = df.price_range.values

    param_space = {
        "max_depth": scope.int(hp.quniform("max_depth", 1, 15, 1)),
        "n_estimators": scope.int(hp.quniform("n_estimators", 100, 1500, 1)),
        "criterion": hp.choice("criterion", ["gini", "entropy"]),
        "max_features": hp.uniform("max_features", 0, 1)
    }

    optimization_function = partial(
        optimize,
        x=X,
        y=y
    )

    trials = Trials()
    hopt = fmin(
        fn=optimization_function,
        space=param_space,
        algo=tpe.suggest,
        max_evals=15,
        trials=trials
    )

    print(hopt)

正如你所看到的，这与之前的代码并⽆太⼤区别。你必须以不同的格式定义参数空间，还需要改

变实际优化部分，⽤ hyperopt 代替 gp_minimize。结果相当不错！

❯ python rf_hyperopt . py

100 %| ██████████████████ | 15 / 15 [ 0 4 : 38 < 0 0 : 0 0 , 18.57 s / trial , best loss : -

0.9095000000000001 ]

{ 'criterion' : 1 , 'max_depth' : 11.0 , 'max_features' : 0.821163568049807 ,

'n_estimators' : 806.0 }

我们得到了⽐以前更好的准确度和⼀组可以使⽤的参数。请注意，最终结果中的标准是 1。这意味着选择了 1，即熵。上述调整超参数的⽅法是最常⻅的，⼏乎适⽤于所有模型：线性回归、逻辑回归、基于树的⽅法、梯度提升模型（如 xgboost、lightgbm），甚⾄神经⽹络！

虽然这些⽅法已经存在，但学习时必须从⼿动调整超参数开始，即⼿⼯调整。⼿动调整可以帮助你学习基础知识，例如，在梯度提升中，当你增加深度时，你应该降低学习率。如果使⽤⾃动⼯具，就⽆法学习到这⼀点。请参考下表，了解应如何调整。RS* 表⽰随机搜索应该更好.

⼀旦你能更好地⼿动调整参数，你甚⾄可能不需要任何⾃动超参数调整。创建⼤型模型或引⼊⼤量特征时，也容易造成训练数据的过度拟合。为避免过度拟合，需要在训练数据特征中引⼊噪声或对代价函数进⾏惩罚。这种惩罚称为正则化，有助于泛化模型。在线性模型中，最常⻅的正则化类型是 L1 和 L2。L1 也称为 Lasso 回归，L2 称为 Ridge 回归。说到神经⽹络，我们会使⽤ dropout、添加增强、噪声等⽅法对模型进⾏正则化。利⽤超参数优化，还可以找到正确的惩罚⽅法。

JavaScript设计模式之状态模式 27亿光年中的小小尘埃
什么是状态模式？状态模式是一种非同寻常的优秀模式，它也许是解决某些需求场景的最好方法。虽然状态模式并不是一种简单到一目了然的模式（它往往还会带来代码量的增加），但你一旦明白了状态模式的精髓，以后一定会感谢它带给你的无与伦比的好处。状态模式的关键是区分事物内部的状态，事物内部状态的改变往往会带来事物的行为改变。初识状态模式我们来想象这样一个场景：有一个电灯，电灯上面只有一个开关。当电灯开着的时候，此
家排群分析婚姻梦想写作者
0.被包容呵护，不用做任何改变，就真的是所谓的“好命”吗？我记得老师说过一句话：经历过严寒风雨的生命格外坚强，更有生命力。1.@ 我刚分析过你老公的童年，他就是缺爱的，重点看0-7岁！不看成年后的！很多丁克的人，都是童年过的很惨，所以觉得带孩子到世界上来，让他孩子很痛苦！特别奇怪的想法，哪怕他已经非常富有，但是潜意识童年那份痛苦，不被爱，深深影响他们。@年年有余估计你是比较强势，比较控制的，但是
Python 线程与进程在实际项目中的问题及应对策略女码农的重启 python java 线程进程
一、引言在Python编程里，线程（Thread）和进程（Process）是实现并发与并行计算的关键工具，能有效提升程序执行效率与资源利用率。然而，实际项目应用中，因二者特性及Python运行环境（如GIL，全局解释器锁）等因素，会遭遇诸多问题。本文深入剖析这些问题，并给出应对方案。二、Python线程的问题与解决（一）GIL引发的性能瓶颈Python的全局解释器锁，限制了同一进程内多个线程并行执
cx_Oracle.DatabaseError: Error while trying to retrieve text for error ORA-01804 智海观潮 Oracle oracle python
问题：使用cx_Oracle连接oracle时报错cx_Oracle.DatabaseError:ErrorwhiletryingtoretrievetextforerrorORA-01804samplecode:importcx_Oracleconn=cx_Oracle.connect(user,pwd,self.ois_tns)解决：排查服务器执行该代码的Linux用户下的.bash_prof
PDF表格信息提取 StataPython数据分析
本文作者：王碧琪文字编辑：钱梦璇技术总编：张邯在《提取PDF文本信息：入门》中，我们介绍了使用pdfminer提取PDF中的信息，其中提取的是文本内容，而对于表格内容，使用pdfminer会输出无格式的文本，不能保留表格格式，而pdfplumber就能很好的解决问题。本文将比较两个方法的差异。待处理的PDF文档中的表格如下：image一、pdfminer我们用以下程序使用pdfminer进行提取(
【c++】提升用户体验：问答系统的交互优化实践——关于我用AI编写了一个聊天机器人……（12） gfdhy 算法数据结构 c++c语言人工智能 tf-idf
本期依旧使用豆包辅助完成代码。从功能到体验的转变上个版本已经实现了问答系统的核心功能：基于TF-IDF算法的问题匹配和回答。它能够读取训练数据，处理用户输入，并返回最相关的答案。但在用户体验方面还有很大提升空间。让我们看看改进版做了哪些关键优化：1.引导系统上个版本仅在启动时显示简单的"Hello!输入'exit'结束对话。"提示，对于初次使用的用户来说不够友好。改进版增加了：详细的欢迎信息和功能
一个人住，千万要注意空心白竹
1林子大了，什么鸟都有，出门在外，安全最重要。女孩子一个人住一定要注意自身安全，学会保护好自己。昨天看到一个视频，看完很鄙视这种男人；男的一直在租房门口蹲点，看到隔壁女孩出门路过强行抱进自己房里，后面的可想而知........看到这样的人渣真的不知道说什么好，不仅毁了别人也同样害了自己。如果真的那么饥渴完全可以外出花钱就能解决的事，非得犯法，只能说这类人脑子有问题。一个人住一定要留个心眼，更不要引
事缓则圆--05-13 季中
很多的事，只有留给时间来解决小时候，记得我父亲给我讲一句话：事缓则圆。很多的事，如果不是缓一下，先思考一些，则永远都做不圆，甚至完全做不成。很多的事，世界上的万事与万物，都有成住坏空这几个阶段，就象台风一样，从空空的海面上升起来，以极大的能量带着强烈的降水，横扫着沿路上的一切。似乎不可一世，但是要不了多久，就会慢慢衰弱，到了最后，消失在某一个地方，除了一些雨水，什么也不会剩下。还有一些事，象是20
元宇宙：中国数字经济的新赛道——基于游戏生态、AI与区块链的创新实践 boyedu 元宇宙域名游戏人工智能区块链元宇宙
引言：数字经济时代的“新大陆”在数字技术的浪潮中，元宇宙正从科幻概念跃升为全球科技竞争的焦点。中国，作为全球数字经济规模第二大的经济体，正以独特的路径探索元宇宙的发展——以游戏生态为起点，融合人工智能（AI）与区块链技术，构建一个虚实融合的数字新世界。这一路径不仅契合中国在5G、AI、区块链等领域的技术积累，更与“数字经济”“新质生产力”等国家战略形成共振。本文将从技术融合、经济价值、社会影响三个
以太坊应用开发基础：从理论到实战的完整指南 boyedu 区块链区块链以太坊
一、引言：以太坊的愿景与生态地位以太坊自2015年诞生以来，凭借其图灵完备的智能合约功能和去中心化应用（DApp）生态，已成为区块链领域的核心平台。相较于比特币的单一支付功能，以太坊通过EVM（以太坊虚拟机）和Solidity语言，支持开发者构建复杂的金融协议、游戏、供应链管理等应用。2025年，以太坊通过TheMerge升级转向PoS共识，并持续推进分片技术，解决扩展性问题。本文旨在为开发者提供
Matlab打开慢、加载慢的解决办法 RickyWasYoung matlab windows 开发语言
安装完毕后直接打开会非常慢，而且打开了之后还得加载很久才能运行解决办法如下：1.找到路径“D:\ProgramFiles\Polyspace\R2020a\licenses”（我是把matlab安装在D盘了，如果是其他盘修改路径即可），该路径记为A2.复制该路径下的lic文件的名称“license_LAPTOP-XXXXXXXX_123456_R2020a.lic”（名称不同，找到这个文件就ok）
Flink cdc同步增量数据timestamp字段相差八小时（分析｜解决）不是粘贴复制的！ BUG FIXER 大数据 flink android 大数据
问题我使用flinkcdc同步mysql到mysql遇到了timestamp字段缺少八小时的问题。很少无语，flink,cdc,debezium时区都设置了，没有任何效果！分析问题出现在mysqlbinlog身上！！！因为默认mysql会使用UTC来存储binlog,你可以使用下方的sql验证：mysqlbinlog--base64-output=DECODE-ROWS-v--start-date
数据中台过时了?为什么现在都在说数据飞轮九.九大数据
数据中台作为一种集中式的数据管理与服务平台，在解决企业数据管理困境中发挥着重要作用，如数据孤岛、数据标准化、数据共享与复用等问题。通过统一的数据采集、处理、存储和服务，数据中台构建了一个全局性的数据枢纽，满足各业务部门的数据需求。对于业务场景相对稳定、数据主要用于历史分析和跨部门协作的大型企业而言，数据中台依然是不可替代的工具。然而，随着市场环境的快速变化和技术的不断进步，数据飞轮的概念逐渐兴起。
AI（day08）类和对象的基本概念及属性和方法的常见分类和使用场景旭日东升的xu. AI（基础补习）python 开发语言
类创建&对象创建**类概念：类是对一类对象的抽象，是对象的模板或蓝图。它定义了对象的属性（特征）和方法（功能）。****对象概念：对象是类的实例化，是类的实际数据存储，具有类所定义的属性和方法。**示例一：#类，抽象小汽车classCar:#创建'Car'类def__init__(self,pinpai,color,price):#初始化属性：类内部的全局变量，在类内部任何实例化对象方法里都可以使
如何解决Flink CDC同步时间类型字段8小时时间差的问题，以MySQL为例智海观潮 Flink flink flink cdc 大数据实时数据同步
在使用FlinkCDC进行数据同步时，默认情况下经常会遇到时间类型的字段与实际值相差8个小时的问题。本文以MySQL为例提供解决方案，其他数据源也可以参考这类实现。原文链接：https://mp.weixin.qq.com/s/_f41ES8UquM-kj3Ie8JU_g1.设置server时区比如MySQL服务的时区为UTC时间，可以参考以下code设置时区。MySqlSourcemySqlSo
NLP中情感分析如何结合知识图谱在跨文化领域提升观念分析和价值判断的准确性？
情感分析结合知识图谱，能够显著提升观念分析和价值判断的准确性。这一融合的核心在于利用知识图谱的结构化语义网络，为情感分析提供深层语境、实体关联和领域知识支撑。以下是具体机制和应用场景的分析：一、知识图谱如何提升情感分析的语义理解1.解决歧义与上下文依赖问题：情感词（如“冷”）在不同语境中含义不同（“服务态度冷”表负面，“冷静分析”表中性）。方案：知识图谱通过实体链接识别文本中的对象（如“服务态度”
【设计模式&C#】状态模式（用于解决解耦多种状态之间的交互）
一种行为设计模式。特点是用类的方式去管理状态。优点：对每个状态进行了封装，提高了代码的可维护性；减少了条件判断语句的使用，降低维护成本；易于扩展，每次新增状态都无需大规模修改其他类，符合开闭原则；缺点：会导致类的增加，每个状态都会是一个单独的类；增加了性能的开销，状态的实例化会导致性能消耗增加。用途：设计游戏中人物的状态设计网络连接时的状态设计订单的状态主要组成部分：状态的接口：它定义了每个状态的
2023-06-16焦虑易小天
生产前莫名其妙的焦虑包裹着我，几乎喘不过气来，我真的很累很疲惫。晚上也是可以完全睡着的，因为身体太疲惫了。我希望的是好好休息一下奈何实在是心里很空很烦躁。真是令人身心俱疲。未知的事情才令人恐慌。我不知道足月之后什么时候会生小孩，也不知道什么时候会发作，是否会痛的我难以忍受，我本身就是非常怕疼的人。我很不喜欢这种未知的感觉。我希望我的小宝宝顺顺利利，平平安安，健健康康，快快乐乐出生。如果能像我那就更
如何起诉离婚最快成功?女方应该怎样起诉离婚? 影子爱学习
如何起诉离婚最快成功?女方应该怎样起诉离婚?如果遇到难以解决的法律问题，我们可以匹配专业律师。例如：婚姻家庭（离婚纠纷）、刑事辩护、合同纠纷、债权债务、房产（继承）纠纷、交通事故、劳动争议、人身损害、公司相关法律事务（法律顾问）等咨询推荐手机/微信:15633770876【全国案件皆可】相关搜索：热点!起诉离婚条件符合哪些条件可以离婚☆起诉离婚诉前调解流程曝光!女方起诉离婚吃亏在哪☆男方坐牢起诉离
火绒规则禁止所有软件的安装_火绒阻止流氓全家桶规则莱财一哥火绒规则禁止所有软件的安装
火绒阻止流氓全家桶规则能够有效的阻止各种全家桶的安装，并且还能够对各种常见的广告进行全面的屏蔽，对于各种全家桶类型的软件这款软件几乎能够做到屏蔽，能够极为有效的帮助用户减少在电脑上面的乱七八糟的内容，感兴趣话就快来下载这款火绒阻止流氓全家桶规则！火绒阻止流氓全家桶规则介绍防不胜防的流氓软件，一不小心就帮你装上全家桶，导致电脑卡成PPT。没有电脑知识的用户，尤其是父母的电脑，通过某个搜索引擎搜索软件
python 安装PyV8 和 lxml
近来在玩python爬虫，需要使用PyV8模块和lxml模块。但是执行pipinstallxx或者easy_installxx指令都会提示一些错误。这些错误有些是提示pip版本过低或者缺少vc++9.0环境，再或者一些头文件无法引用等等。我也懒得找错误解决方法。就直接下载Pyv8模块的安装包和lxml的安装包。Pyv8的安装包链接：1.针对win32+python2.7的安装包PyV8-1.0-p
MySQL高可用集群架构：主从复制、MGR与读写分离实战软考和人工智能学堂 PHP和MySQL php程序设计 MySQL经验与技巧数据库 mysql 架构
1.MySQL高可用架构概述MySQL高可用性(HighAvailability)解决方案旨在确保数据库服务在硬件故障、网络问题等异常情况下仍能持续提供服务。以下是主流的高可用方案对比：方案原理优点缺点适用场景主从复制基于binlog的异步复制简单易用，对性能影响小数据一致性弱，故障切换复杂读写分离、备份MHA监控主库并自动故障转移自动切换，减少停机时间需要VIP管理，配置复杂中小规模业务系统MG
你的孩子听你吗？2022-02-18 雪中小溪_2d38
焦点解决网络初级17中级19讲师12期坚持分享第922天20220218周五本周约练0次总258次读书打卡第485+125天讲师微课练习第263天当你看到“沟通”这个词时，首先想到的是什么？是“说话”。如果你像大多数十几岁孩子的父母一样，你或许已经说得太多了。当家长开始“说话”（说教、提醒、唠叨、哄劝等）时，看着你的十几岁孩子，看看他们是否在翻白眼、给朋友发短信，或者看电视。他们或许会直视着你，但
解决docker端口映射失败问题带翅膀的小码蚁 docker
https://cloud.tencent.com/developer/article/1768097
Kamaji项目中的Datastore：多租户Kubernetes控制平面数据存储方案解析胡易黎Nicole
Kamaji项目中的Datastore：多租户Kubernetes控制平面数据存储方案解析引言在现代Kubernetes管理架构中，数据存储层是控制平面的核心组件。Kamaji项目通过创新的数据存储设计，为多租户Kubernetes环境提供了灵活高效的解决方案。本文将深入解析Kamaji中Datastore的工作原理、技术特性以及最佳实践。数据存储架构设计Kamaji采用控制平面与数据存储解耦的架
<深度好文>这3种人留在公司很危险！ xp就是我
桥水基金创始人瑞·达利欧（RayDalio）你必须在适合你的文化环境中工作，这是你保持心情愉快、工作高效的基础。桥水的做法是创意择优，通过极度求真和极度透明，努力从事有意义的工作，建立有意义的人际关系。在大多数公司，人们都在从事两个工作：一个是他们自己实际的工作，另一个是努力给别人留下自己如何工作的良好印象。对任何事（包括错误和缺点）都保持完全透明，有助于加强理解、不断改进。了解一手信息及其原因，
智能体架构设计的五大核心原则：构建下一代AI系统的工程基石一休哥助手人工智能
引言：智能体架构的范式演进人工智能领域正经历从孤立模型向自主智能体的范式转变。2025年，全球AI智能体市场规模突破200亿美元，在金融、医疗、制造等领域的渗透率超40%。然而，智能体开发仍面临协作效率低（多智能体任务重叠率达30%）、安全风险高（工具调用错误率18%）和系统僵化（需求变更迭代周期超2周）三大痛点。本文基于产业实践提炼五大核心设计原则，为构建下一代智能体系统提供架构指南。传统LLM
家校合育之沟通杨小芹
家校合育之沟通《高手父母》看到了后面，告诉我们如何跟孩子的老师沟通。我有一些认同，又有一些不赞同。家校沟通的目的在于解决问题，让孩子更好地成长。在现实社会中，家长却很难做到。尤其是一年级的家长，动不动就打12345来投诉老师，投诉学校。我们的学校工作也因此进入被动的局面。我们学校的操场正在建设中，我们也根据家长解释好了，现有操场场地小，也不大符合规格。等操场建好了，我们的所有活动都会搞起来。以我们
Python机器学习教程
Python机器学习教程(MachineLearningwithPythonTutorial)PDFVersionQuickGuideResourcesJobSearchDiscussionPDF版本快速指南资源资源求职讨论区MachineLearning(ML)isbasicallythatfieldofcomputersciencewiththehelpofwhichcomputersyste
38、未来展望：C数据库编程的发展趋势与挑战 dog123 C#数据库编程：从入门到精通 C#数据库编程云原生数据库
未来展望：C#数据库编程的发展趋势与挑战1.引言随着信息技术的快速发展，数据库编程已经成为现代软件开发中不可或缺的一部分。C#作为一种强大的编程语言，在数据库编程领域展现出卓越的表现。本文将探讨C#数据库编程的未来发展趋势，分析当前面临的主要挑战，并提出相应的解决方案。通过这些讨论，我们希望能够为开发者提供有价值的见解，帮助他们在未来的项目中更好地应对变化和技术进步。2.数据库编程的新趋势2.1云
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

【解决（几乎）任何机器学习问题】：超参数优化篇（超详细）

你可能感兴趣的:(解决（几乎）任何机器学习问题,机器学习,人工智能)