Daniel李_

数据挖掘#特征工程（一）总结

1. Overview:

2. 特征选择

主要凭借对业务本身的理解和建模来定的。

1 向前贪心选择

特征子集X从空集开始，只要特征使得交叉验证之后的auc提升，就加入这个特征，直到剩下的特征都不能使auc提高为止，缺点是只加不减。

def cv_loop(X, y, model, N):
    mean_auc = 0.
    for i in range(N):
        X_train, X_cv, y_train, y_cv = cross_validation.train_test_split(
                                       X, y, test_size=.20,
                                       random_state = i*SEED)
        model.fit(X_train, y_train)
        preds = model.predict_proba(X_cv)[:,1]
        auc = metrics.auc_score(y_cv, preds)
        print "AUC (fold %d/%d): %f" % (i + 1, N, auc)
        mean_auc += auc
    return mean_auc/N
  
score_hist = []
N = 10
good_features = set([])
# Greedy feature selection loop
while len(score_hist) < 2 or score_hist[-1][0] > score_hist[-2][0]:
    scores = []
    for f in range(len(Xts)):
        if f not in good_features:
            feats = list(good_features) + [f]
            Xt = sparse.hstack([Xts[j] for j in feats]).tocsr()
            score = cv_loop(Xt, y, model, N)
            scores.append((score, f))
            print "Feature: %i Mean AUC: %f" % (f, score)
    good_features.add(sorted(scores)[-1][1])
    score_hist.append(sorted(scores)[-1])
    print "Current features: %s" % sorted(list(good_features))
     
# Remove last added feature from good_features
good_features.remove(score_hist[-1][1])

2 遗传算法

首先随机产生一批特征子集，并用适应度函数给这些特征子集评分，然后通过交叉、突变等操作繁殖出下一代的特征子集，并且适应度越高的特征子集被选中参加繁殖的概率越高。这样经过N代的繁殖和优胜劣汰后，种群中就产生了适应度函数值最高的特征子集。适应度函数可以用cv score来定义。

# Encode the data and keep it in a list for easy access during feature selection
OHs = [OneHotEncoder(X[:,[i]]) for i in range(X.shape[1])]
Xts = [o[0] for o in OHs]
getX = lambda gne: sparse.hstack([Xts[i] for i in find(gne)]).tocsr()
  
def mutate(gene, mutation_rate=1e-2):
    """
    Mutation method. Randomly flips the bit of a gene segment at a rate of
    mutation rate
    """
    sel = random.rand(len(gene)) <= mutation_rate
    gene[sel] = -gene[sel]
    return gene
     
class Gene(Individual):
    """
    Gene class used for feature selection
    Implements a fitness function and reproduce function as required by the
    Individual base class
    """
    def fitness(self):
        """
        The fitness of an group of features is equal to 1 - mean(cross val scores)
        """
        cv_args = {'X': getX(self.gene),
                   'y': y,
                   'score_func': metrics.auc_score,
                   'cv': cv,
                   'n_jobs': N_JOBS}
        cv_scores = cross_validation.cross_val_score(model, **cv_args)
        return 1 - mean(cv_scores)
         
    def reproduce(self, other, n_times=1, mutation_rate=mutation_rate):
        """
        Takes another Gene and randomly swaps the genetic material between
        this gene and other gene at some cut point n_times. Afterwords, it
        mutates the resulting genetic information and creates two new Gene
        objects as children
         
        The high level description:
            copy the genes from self and other as g1, g2
            do n_times:
                randomly generate integer j along the length of the gene
                set g1 to g1[:j] + g2[j:]
                set g2 to g2[:j] + g1[j:]
            mutate g1 and g2
            return [Gene(g1), Gene(g2)]
        """
        lg = len(self.gene)
        g1 = copy(self.gene)
        g2 = copy(other.gene)
        for i in xrange(n_times):
            j = random.randint(lg)
            g1 = hstack((g1[:j], g2[j:]))
            g2 = hstack((g2[:j], g1[j:]))
        g1 = mutate(g1, mutation_rate)
        g2 = mutate(g2, mutation_rate)
        return [Gene(g1), Gene(g2)]
 
# Do the feature selection
print "Creating the initial gene pool... be patient"
n_genes = ga_args['population_size']
start_genes = (random.rand(n_genes, len(Xts)) > 0.5).astype(bool)
start_genes = sorted([Gene(g) for g in start_genes])
print 'Running the genetic algorithm...'
gene_pool = ga.evolve(start_genes, n_generations)

3 dropout

深度学习中常用的正则化方法，随机丢掉一些特征，防止过拟合。

ind = [ i for i in self._indices(x)] # x: feature, a list of indices
if dropout == 1:
    dropped = None
else:
    dropped = [random.random() > dropout for i in xrange(0,len(ind))]
#######predict stage######## 
for j, i in enumerate(self._indices(x)):           
    if dropped != None and dropped[j]:
        continue          
    wTx += w[i]       
 
if dropped != None: 
    wTx /= dropout #keep rate
  
#######update parameters######
if dropped != None and dropped[j]: 
    continue #不更新参数

3. 特征分析

构建好的特征由于主要是brainstorming的结果，我们很难准确衡量在现实中哪些特征比较重要，哪些特征不那么重要，

比较重要的特征往往含有更加丰富的信息，需要想办法把这些信息暴露出来让模型，特别是线性的模型，能够更好的学习到。

找到这些更加重要的信息：

如果数据量不太大的话Python的scikit-learn包提供了不错的工具计算feature_importance_：

http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn-ensemble-extratreesclassifier

我们开脑洞想出来的特征可能也有一些是作用不那么明显的，冗余的特征可能会降低模型预测的能力。

但是一般来说这个步骤对结果的提升是很有限的，主要还是不断的通过不同的角度和方法弄清楚特征的重要性和特征之间的关系，帮助你理清楚整个问题的物理图像。

sklearn.feature_selection里面有很多方法可供参考

RFECV方法比较暴力，可以试试，但是计算量较大，数据量大的时候慎用。

它的基本思想是，对于一个数量为d的feature的集合，他的所有的子集的个数是2的d次方减1（包含空集）。指定一个外部的学习算法,通过该算法计算所有子集的validation error。选择error最小的那个子集作为所挑选的特征。

4. 特征离散化

主要是暴露重要特征中的信息：

针对feature importance比较高的feature做离散化，通过增加feature的数量来逼近可能本身是非线性的模型。

DNN，GBDT等模型在提取非线性特征方面有一定优势

However, according to deep learning theories, when a function can be compactly represented by a deep architecture, it might need a very large architecture to be represented by an insufficiently deep one. So it's still worthwhile to pay attention to these deep learning models.

1.Hashing Trick

具体做法：

用Hash函数对特征值(v)进行哈希得到h(v)，再对h(v)取模，i = h(v) mod d，其中d表示想要的特征维度，取模之后的结果 i 表示某一个维度，特征 i 的取值就是哈希并取模之后落到这个维度的次数。
对于单特征，v = str( f : v)，其中f是feature name，v是feature value
对于组合特征，v = str( f1_f2 : v1_v2)

用Hash函数把feature都hash到一个定长的hash table，再进行one-hot，这样feature的维度就是固定的了。这中间会有collision，但是有些时候collision可以看作某种程度上的降维，还可以提升效果。

hash trick的特点：

可以保持原有特征的稀疏性
可以添加新的原始特征而保持哈希转换后的特征长度不变
缺点是哈希后学习到的模型很难检验，无法对模型参数做解释
把连续特征当成类别特征进行hash其实是binning的一个极端
可以只哈希转换其中的一部分原始特征，而保留另一部分原始特征（如那些出现collision就会很影响精度的重要特征）

# for simplicity, we treat both integer and categorical features as categorical
# INPUT:
#     csv_row: a csv dictionary, ex: {'Lable': '1', 'I1': '357', 'I2': '', ...}
#     D: the max index that we can hash to
# OUTPUT:
#     x: a list of indices that its value is 1
def get_x(csv_row, D):
    fullind = []
    for key, value in csv_row.items():
        s = key + '=' + value
        fullind.append(hash(s) % D)
    if interaction == True:
        indlist2 = []
        for i in range(len(fullind)):
            for j in range(i+1,len(fullind)):
                indlist2.append(fullind[i] ^ fullind[j]) # Creating interactions using XOR
        fullind = fullind + indlist2
    x = {}
    x[0] = 1  # 0 is the index of the bias term
    for index in fullind:
        if(not x.has_key(index)):
            x[index] = 0
        x[index] += 1
     
    return x  # x contains indices of features that have a value as number of occurences

可以将哈希前的特征ID和哈希后的特征ID的对应关系保存在一个列表里，比如

with_hash = lambda x, D: (x, hash(x, D))
l = [with_hash("%s=%s" % (i,x[i]), D) for i in x]
  
if self.interactions:
    k = x.keys()
    v = x.values()
    L = len(k)
    for i in xrange(0, L):
        l.extend([with_hash("%s=%s+%s=%s" % (k[i], v[i], k[j], v[j]), D) for j in xrange(i+1, L)])

特征哈希后续优化：

类别特征：出现次数较小的类别统一编码为其他类别
连续特征：截断在(min, max)之间，或者对于特征值大于2的进行如下转换：v <- floor(log(v)^2)
可以先用fealib做离散化（区间划分细一点），不需要人工组合，然后再哈希
直接用fealib离散组合之后的做哈希，可以请教特征模型组的王志龙
连续特征用fealib离散，类别特征用哈希
正则化：除以L2范数

5. 特征组合，加新特征

包括对离散feature做笛卡尔积，或者对连续feature使用联合分段（joint binning），比如使用k-d tree。

1 哈希法：将多个特征的值放到一个元组里，再用一个哈希函数计算其值

def group_data(data, degree=3, hash=hash):
    """
    numpy.array -> numpy.array
     
    Groups all columns of data into all combinations of triples
    """
    new_data = []
    m,n = data.shape
    for indicies in combinations(range(n), degree):
        new_data.append([hash(tuple(v)) for v in data[:,indicies]])
    return array(new_data).T

2 groupby：将数据按照组合的特征id进行分组，使用组的ids作为新特征的值

def group_data(data, degree=3):
  new_data = []
  m,n = data.shape
  for indices in combinations(range(n), degree):
    group_ids = all_data.groupby( \
      list(all_data.columns[list(indices)])) \
      .grouper.group_info[0]
    new_data.append(group_ids)
  return array(new_data).T

3 引入率的概念，如差评数/订单数

进行到这一步可能模型的进化已经到了一个瓶颈，当然你对整个问题的物理图像也应该有更深刻的认识了，已经结合feature importance等加深了对业务和数据的理解，

个人认为尝试对已有的feature进行分类是个不错的方法，不同的分类维度可以帮你理清思路，帮助你发现有些信息可能在之前的feature中是没有充分暴露出来的，或者feature本身的表示是不准确的。

对着feature一个一个的问自己这个代表的是什么意思，是怎么计算得到的，这个计算的方法是否合理，对结果的影响可能是怎么样的，可以怎样分类，可能跟其他feature有什么关系

不同的feature可以组合成为新的特征，但是这同样依赖于特征分析和很多的实验

如果发现某些信息在现有的特征组合中没有很好的体现出来，那就需要增加新的相关特征。

6. 换模型

就特征工程来说这是另外一个话题，事实上任何模型都依赖很好的特征组合来表示整个物理图像。

7. 查bad case

查case的作用在于因为各种各样内部外部的原因，我们得到的用于训练的数据很可能跟我们想象的或者想要的是不太一样的

重要的事情说三遍！

数据清洗！数据清洗！数据清洗！

除了对特征本身的挖掘，数据清洗的作用往往是非常惊人，但是又容易被忽略的。

当然数据清洗也是结合对业务和feature的理解来进行的

8.其他trick

◆ 分析特征变量的分布

◇ 特征变量为连续值：如果为长尾分布并且考虑使用线性模型，可以对变量进行幂变换或者对数变换。

◇ 特征变量为离散值：观察每个离散值的频率分布，对于频次较低的特征，可以考虑统一编码为“其他”类别。

1、将不频繁的特征映射为一个特殊的标签，因为这些特征只包含了非常少的信息，模型提取这些信息很困难，事实上这些特征非常有扰动性。

2、如果直接将数值特征转换为类别特征，生成的维数太大，为了降低生成特征维度，对于特征值大于2的进行如下转换：v <- floor(log(v)^2)。

3、正则化。对每个样本计算其l2-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的l2-norm等于1。

4、基于Sparse的特征(静态特征)建模，还是Dense的特征(动态特征)建模。

简单说就是当某个特征被触发时，不再用1，而是用这个特征历史上一段时间(或者多个时间窗口)的点击率作为其特征取值。当特征动起来以后，通过特征侧捕捉动态信号，模型就不用快速更新了，可以说dense建模的方案相对更加简单优雅。曾经做过这样的实验，当采用动态特征加Offline模型，和静态特征加Online模型，两者收益是相当的。

5、时间是连续值，很多时候也要进行分段，有时候会有一定语义的分法，比如早上，中午，晚上这样的切分。实际上对切分本身来说也可以做成有重叠的，比如说5点到9点是early morning，8点到11点是morning,这样8点到9点就同时属于两个bin，这也是可以的。

6、高势集类别（High Categorical）进行经验贝叶斯转换成数值feature
什么是High Categorical的特征呢？一个简单的例子就是邮编，有100个城市就会有好几百个邮编，有些房子坐落在同一个邮编下面。很显然随着邮编的数量增多，如果用简单的one-hot编码显然效果不太好，因此有人就用一些统计学思想（经验贝叶斯）将这些类别数据进行一个map，得到的结果是数值数据。在这场比赛中有人分享了一篇paper里面就提到了具体的算法。详细就不仔细讲了，用了这个encoding之后，的确效果提升了很多。那么这场比赛中哪些数据可以进行这样的encoding呢，只要满足下面几点：1. 会重复，2. 根据相同的值分组会分出超过一定数量（比如100）的组。也就是说building_id, manager_id, street_address, display_address都能进行这样的encoding，而取舍就由最后的实验来决定了。

7、参考 word2vec 的方式，将每个类别特征的取值映射到一个连续的向量，对这个向量进行初始化，跟模型一起训练。训练结束后，可以同时得到每个ID的Embedding。具体的使用方式，可以参考 Rossmann 销量预估竞赛第三名的获奖方案，https://github.com/entron/entity-embedding-rossmann。这是在神经网络中常见的做法，就是把分类变量转换为嵌入式变量，做Embedding。比如说你有十万个不同sites，把它投影到64维或者128维的vector上面，相当于原来需要十万个Free parameters，现在只需要64维或128维。之所以能这样做，原来的十万维空间是非常稀疏的，64维或者128维是更稠密的表达，所以还是有非常强的表达意义，好处就是内存需求会更少，相对来说精度也会更高。

Hash和Embedding的区别，Embedding本身是需要学习出来的，比如说id1它投影到怎样的Embedding空间，通过学习来获得。而哈希是通过预定义的哈希函数，直接投影过去，本身的哈希函数是不需要学习的。这里它最基础的逻辑是不一样的，Hash Encoding也就是说你这两维特征可以share相同的weight。比如说巴西和智利放在同一列中，他们有相同的权重，而Embedding实际上是一种distributional的表达方式。它的意思是说巴西可能使用64维上不同取值来代表，智利也是同样用这64维，所以这64维，每一列都参与表达不同的国家，每一个国家都由这64维来表达。它们两个的基本思路上是有所区别的。

大话特征工程：2.特征组合与描述 nnerddboy 白话机器学习机器人
公元2147年，人类文明站在科技的巅峰，所有决策、发展甚至感知都被“全维计算网络”所掌控。这套系统以高维空间中的数据为基础，试图预测并塑造未来。然而，这场辉煌的技术革命却在悄无声息之间酿成了人类最大的危机——维数灾难。系统的高维特征空间本应为复杂世界提供精确的洞察，但却因维度的无限膨胀开始背离现实。全球天气失控、医疗系统陷入混乱、社会资源分配崩溃，这些技术上的崩坏正在逐步渗透进人类的感知之中。建筑
数据挖掘r语言和python知乎_同时用R语言和Python爬取知乎美图 weixin_39932344
作者:杜雨，EasyCharts团队成员，R语言中文社区专栏作者，兴趣方向为：Excel商务图表，R语言数据可视化，地理信息数据可视化。学习Python已有两月有余，是时候检验下学习效果了，之前练习了不少R语言数据爬取，Python的爬虫模块还没有来得及认真入门，乱拼乱凑就匆忙的开始了，今天就尝试着使用R+Python来进行图片爬取，完成一个简单得小爬虫。目标网址在这里：https://www.z
大数据平台建设整体架构设计方案 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《大数据平台建设整体架构设计方案》关键词：大数据平台、分布式存储、分布式计算、数据仓库、数据湖、数据安全、数据质量管理、数据治理、数据挖掘、机器学习、图计算、自然语言处理、Hadoop、Spark、Flink、项目规划、运维管理、最佳实践。摘要：本文将深入探讨大数据平台建设整体架构设计方案，从概述与核心概念、技术栈、建设实践、运维管理以及经验展望等多个方面进行详细阐述。通过梳理大数据平台的核心组成
简要说一下关于实现整个深度学习项目的流程懒大王12138 机器学习深度学习神经网络人工智能算法
我们以识别生物信号为例子，其他类似与图像、文本和目标/故障检测的同样适用1.信号预处理；首先要将得到的生物信号进去噪音去除，另外所有的生物信号由于采样时间不同可能长度并不一样，这时候你需要统一长度。2.特征工程；你需要对所有的经过预处理并且将要输入神经网络的信号提取特征，比如信号的频谱图、时间-频率图或者是一些非线性的动力学特征，比如相空间这些。最重要的是提取的特征数据形状必须一致。3.搭建深度学
深度强化学习在高频交易中的动态策略优化与收益提升二进制独立开发非纯粹GenAI GenAI与Python python 人工智能神经网络自然语言处理生成对抗网络金融数据挖掘
文章目录1.高频交易的核心挑战与强化学习的适应性1.1高频交易中的核心问题1.2强化学习的适配性分析2.基于深度Q网络（DQN）的高频交易策略设计2.1状态空间构建：从LOB到特征工程2.2动作空间与奖励函数设计2.3DQN模型架构与训练优化3.业务视角下的策略优化与风险管理3.1策略有效性验证3.2实时部署与延迟优化3.3合规与伦理考量4.实验：基于NASDAQLOB数据的策略对比4.1数据集与
数据挖掘中的关联规则--面向频繁项集的A-Priori算法绒绒毛毛雨大数据挖掘算法数据挖掘 python
文章目录一、频繁项集与关联规则学习1.实体与关系2.支持度与频繁项集3.关联规则二、寻找频繁项集1.频繁项集发现的挑战三角矩阵项对计数值的三元组存储方法2.频繁项集的单调性3.面向项对的A-Priori算法4.PCY算法哈希表创建第二遍扫描5、多阶段算法6、多哈希算法7、随机化算法8、SON算法9、Toivonen算法三、频繁项集小实践：消费者购买记录模拟数据示例具体问题分析一、频繁项集与关联规则
“大模型横扫千军”背后的大数据挖掘--浅谈MapReduce 绒绒毛毛雨大数据挖掘数据挖掘 mapreduce 人工智能
文章目录O背景知识1数据挖掘2邦费罗尼原则3TF.IDF4哈希函数5分布式文件系统一、MapReduce基本介绍1.Map任务2.按键分组3.Reduce任务4.节点失效处理5.小测验：在一个大型语料库上有100个map任务和若干reduce任务：二、基于MapReduce的基本运算1.选择（Selection）2.交（Intersection）3.并（Union）4.补（Difference）5
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
如何修改Chromium内核|浏览器指纹伪装|Puppeteer指纹|Playwright指纹- Chromium内核修改与浏览器指纹伪装方法-anti-fingerprint指纹浏览器如何搭建环境药尘韩立前端 javascript 开发语言 python 自动化 ai
Chromium内核是许多现代浏览器的基础，如Chrome和Edge。在进行网络爬取、自动化测试或数据挖掘等任务时，使用Puppeteer或Playwright等工具时，浏览器指纹的重要性不言而喻。本文将介绍如何修改Chromium内核以及浏览器指纹伪装的方法，以构建一个抗指纹的浏览环境。首先，了解如何修改Chromium内核是至关重要的。您可以从Chromium源代码仓库中获取最新的代码，并根据
航空客户价值的数据挖掘与分析（numpy+pandas+matplotlib+scikit-learn） Want595 Python数据分析数据挖掘 numpy pandas
文章目录航空客户价值的数据挖掘与分析（numpy+pandas+matplotlib+scikit-learn）写在前面背景与挖掘目标1.1需求背景1.2挖掘目标1.3项目概述项目分析方法规划2.1RFM模型2.2LRFMC模型指标2.3分析总体流程图数据抽取探索及预处理3.1数据抽取3.2数据探索分析3.3数据预处理3.3.1数据清洗3.3.2属性规约3.3.3数据变换数据建模&应用4.1模型构
【机器学习】使用scikit-learn中的KNN包实现对鸢尾花数据集或者自定义数据集的的预测加德霍克机器学习人工智能 python 学习作业
一、KNN算法概念K最近邻(K-NearestNeighbor,KNN)分类算法是数据挖掘分类技术中最简单的方法之一，是著名的模式识别统计学方法，在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一，也是基于实例的学习方法中最基本的，又是最好的文本分类算法之一。二、对鸢尾花数据集进行预测1、代码示例：fromsklearn.datasetsimportl
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶人工智能机器学习深度学习
摘要随着系统规模的扩大和复杂性增加，传统基于规则的日志分析方法难以识别隐藏的复杂异常模式。本文将介绍基于机器学习的日志异常检测技术，包括模型选择、特征工程及实现步骤。通过具体的代码示例与图表，展示如何高效检测异常日志，并提供应用场景与优化策略。引言日志是系统运行状态的关键数据来源，但面对海量日志数据，传统规则式分析显得力不从心。机器学习能够根据日志的历史数据和行为模式，通过训练模型检测异常情况，不
数据挖掘：定义、挑战与应用黑色叉腰丶大魔王数据挖掘人工智能
一、数据挖掘的定义（一）概念阐述数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它融合了数据库技术、统计学、机器学习、人工智能等多学科的理论和方法，旨在通过对数据的深入分析和处理，发现有价值的模式、关联、趋势等，从而为决策提供支持。（二）与相关概念的区别与联系数据库管理：数据库管理侧重于数据的存储、组织、检索和维护
AI产品经理还不会数据挖掘❓看完这篇就够了脱泥不tony 人工智能产品经理数据挖掘 python tensorflow 开发语言 llama
前言在数字化时代的浪潮中，AI产品经理正成为推动科技与商业融合的重要力量。然而，面对海量的数据，如何从中挖掘出有价值的信息，为AI产品的开发提供有力支持？这已成为AI产品经理必须面对的挑战。今天，我们就来探讨一下数据挖掘在AI产品经理工作中的重要性，以及如何通过掌握数据挖掘方法论，打造卓越的AI产品。一、数据挖掘：AI产品经理的必备技能在AI产品的世界中，大数据是构建一切的基础。无论是算法组件、知
信息流广告预估技术在美团外卖的实践思维导图-java架构用心去追梦 java 架构开发语言
创建一个关于“信息流广告预估技术在美团外卖的实践”的思维导图，并且专注于Java架构下的实现，可以按照以下结构来组织内容。这个思维导图将涵盖从数据收集、特征工程、模型选择与训练、系统架构设计到性能优化和效果评估的关键领域。思维导图结构1.项目背景美团外卖平台简介用户群体与市场定位信息流广告的意义提升用户体验增加广告收益2.用户及上下文数据收集数据来源用户行为（点击、浏览、下单等）广告主提供的创意素
批量作业调度、数据挖掘，这几款应该是今年 “最值得推荐” 的ETL工具了加菲盐008 taskctl Kettle kettle etl 批量作业调度数据挖掘 taskctl
工具传送门：Taskctl商业付费版(付费)TaskctlWeb商业免费版（永久免费）Kettle（开源免费）Datastage(付费)ETL是数据仓库中的非常重要的一环，是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。下面给大家介绍一下什么是ETL以及
【开源免费】kettle作业调度—自动化运维—数据挖掘—informatica-批量作业工具taskctl 加菲盐008 Kettle ETL作业调度工具 taskctl 运维数据库 linux 大数据数据挖掘
关注公众号"taskctl"，关键字回复"领取"即可获权产品简介taskctl是一款由成都塔斯克信息技术公司历经10年研发的etl作业集群调度工具，该产品概念新颖，体系完整、功能全面、使用简单、操作流畅，它不仅有完整的调度核心、灵活的扩展，同时具备完整的应用体系。目前已获得金融，政府，制造，零售，健康，互联网等领域1000多家头部客户认可。图片来自网络2020年疫情席卷全球，更是对整个市场经济造成
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
逆袭之路（11）——python网络爬虫：原理、应用、风险与应对策略凋零的蓝色玫瑰逆袭之路 php 开发语言 python
困厄铸剑心，逆袭展锋芒。寒苦凝壮志，腾跃绘华章。我要逆袭。目录一、引言二、网络爬虫的基本原理（一）网络请求与响应（二）网页解析（三）爬行策略三、网络爬虫的应用领域（一）搜索引擎（二）数据挖掘与分析（三）金融领域（四）学术研究（五）社交媒体监测四、网络爬虫带来的风险（一）法律风险（二）隐私风险（三）安全风险五、网络爬虫风险的应对策略（一）遵守法律法规（二）加强技术防护（三）提高道德意识六、结论一、引
机器学习特征重要性之feature_importances_属性与permutation_importance方法一叶_障目机器学习 python 数据挖掘
一、feature_importances_属性在机器学习中，分类和回归算法的feature_importances_属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过feature_importances_属性，您可以了解哪些特征对模型的预测最为重要，从而可以进行特征选择或特征工程，以提高模型的性能和解释性。1、决策树1.1.sklearn.tree.Decision
Python人工智能在气象中的应用，包括：天气预测、气候模拟、降雨量和降水预测、气象数据分析、气象预警系统 xiao5kou4chang6kai4 气象气候预报天气预测气候模拟.降雨量和降水预测气象数据分析气象预警系统 python
Python人工智能在气象中有多种应用，包括：天气预测、气候模拟、降雨量和降水预测、气象数据分析、气象预警系统Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为的主流编程语言之一。人工智
机器学习02-发展历史补充坐吃山猪机器学习机器学习人工智能
机器学习02-发展历史补充文章目录机器学习02-发展历史补充1-机器学习个人理解1-初始阶段：统计学习和模式识别（20世纪50年代至80年代）2-第二阶段【集成时代】+【核方法】（20世纪90年代至2000年代初期）3-第三阶段【特征工程】+【模型优化】（2000年代中期至2010年代初期）4-大规模数据和分布式计算（2010年代中后期）5-自动化机器学习和特征选择（2010年代末至今）2-神经网
Python编程与在线医疗平台数据挖掘与数据应用交互性研究 Allen_LVyingbo 数智化医院2025 python 数据挖掘
一、引言1.1研究背景与意义在互联网技术飞速发展的当下，在线医疗平台如雨后春笋般涌现，为人们的就医方式带来了重大变革。这些平台打破了传统医疗服务在时间和空间上的限制，使患者能够更加便捷地获取医疗资源。据相关报告显示，中国基于互联网的医疗保健行业已进入新的发展阶段，2023年中国在线医疗服务增长显著，高质量医院和在线医疗平台取得了长足进步，在线医疗的用户规模也在持续扩大，其中在线咨询服务的用户占比较
气象海洋水文领域Python机器学习及深度学习实践应用能力提升 AAIshangyanxiu 农林生态遥感编程算法统计语言大气科学 python 机器学习深度学习
Python是功能强大、免费、开源，实现面向对象的编程语言，能够在不同操作系统和平台使用，简洁的语法和解释性语言使其成为理想的脚本语言。除了标准库，还有丰富的第三方库，Python在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能。上述优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为气象、海洋和水文
Python人工智能气象岁月如歌，青春不败气象学 python 人工智能开发语言
Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为的主流编程语言之一。一：Python和科学计算基础1.1Python安装1.1.1Python在气象中的应用1.1.2Anaconda解
国产替代 | 星环科技Sophon替代SAS，助力大型国有银行智能化营销数据挖掘
分布式架构的｜国产智能分析工具在银行交易中，20%的头部优质客户会给银行贡献80%的利润，而赢得一个新客户的成本是保留一个老客户的5至6倍。某大型国有银行在面临此类数据挖掘的业务时，使用的是SAS产品。由于SAS是集中式的，对单台服务器要求太高，算力无法支撑需求，且无法支持可视化的机器学习，对于业务人员来说使用门槛过高。在经过产品选型后，决定采用星环科技的智能分析工具Sophon替换原有SAS，用
KDD 2024 | 美团技术团队精选论文解读 & 论文分享会预告美团机器学习深度学习
ACMSIGKDD（KnowledgeDiscoveryandDataMining，简称KDD）是数据挖掘领域的国际顶级会议。KDDCup比赛是由SIGKDD主办的数据挖掘研究领域的国际顶级赛事，从1997年开始，每年举办一次，是目前数据挖掘领域最有影响力的赛事。本文精选了美团技术团队被KDD2024收录的5篇长文进行解读，覆盖了用户意图感知、机器学习&运筹优化、在线控制实验、联合广告模型、实时调
MDX语言的数据库交互 Linux520小飞鱼包罗万象 golang 开发语言后端
使用MDX语言进行数据库交互的深入探讨引言在当今数据驱动的时代，数据分析和数据挖掘的需求不断增加。多维数据分析工具和语言应运而生，其中MDX（多维表达式，MultidimensionalExpressions）便是一种非常重要的工具。MDX主要用于查询多维数据集（如OLAP数据立方体），在商业智能和数据仓库领域得到了广泛应用。本文将深入探讨MDX的基本概念、语法、应用场景以及与其他数据库交互的方式
C++：实现聚类算法（附带源码） Katie。 c c++实现算法算法聚类支持向量机
项目介绍聚类是无监督学习中一种常用的算法，用于将数据集中的对象分组（称为簇），使得同一簇中的对象相似度较高，而不同簇之间的对象相似度较低。在许多领域，如数据挖掘、图像处理和模式识别等，聚类算法都有广泛应用。在本项目中，我们将实现最常见的聚类算法之一——K均值聚类（K-MeansClustering）。该算法的目标是通过迭代的方式将数据集划分为K个簇，每个簇由其中心（均值）表示。项目实现思路输入参数
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p