AI科技大本营

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条

作者 | 王树义

来源 | 玉树芝兰（ID：nkwangshuyi）

以客户流失数据为例，看 Tensorflow 2.0 版本如何帮助我们快速构建表格（结构化）数据的神经网络分类模型。

变化

表格数据，你应该并不陌生。毕竟， Excel 这东西在咱们平时的工作和学习中，还是挺常见的。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第1张图片

在之前的教程里，我为你分享过，如何利用深度神经网络，锁定即将流失的客户。里面用到的，就是这样的表格数据。

时间过得真快，距离写作那篇教程，已经一年半了。

这段时间里，出现了2个重要的变化，使我觉得有必要重新来跟你谈谈这个话题。

这两个变化分别是：

首先，tflearn 框架的开发已经不再活跃。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第2张图片

tflearn 是当时教程中我们使用的高阶深度学习框架，它基于 Tensorflow 之上，包裹了大量的细节，让用户可以非常方便地搭建自己的模型。

但是，由于 Tensorflow 选择拥抱了它的竞争者 Keras ，导致后者的竞争优势凸显。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第3张图片

对比二者获得的星数，已经不在同一量级。

观察更新时间，tflearn 已经几个月没有动静；而 Keras 几个小时之前，还有更新。

我们选择免费开源框架，一定要使用开发活跃、社区支持完善的。只有这样，遇到问题才能更低成本、高效率地解决。

看过我的《Python编程遇问题，文科生怎么办？》一文之后，你对上述结论，应该不陌生。

另一项新变化，是 Tensorflow 发布了 2.0 版本。

相对 1.X 版本，这个大版本的变化，我在《如何用 Python 和 BERT 做中文文本二元分类？》一文中，已经粗略地为你介绍过了。简要提炼一下，就是：

之前的版本，以计算图为中心。开发者需要为这张图服务。因此，引入了大量的不必要术语。新版本以人为中心，用户撰写高阶的简洁语句，框架自动将其转化为对应的计算图。

之前的版本，缺少目前竞争框架（如 PyTorch 等）包含的新特性。例如计算图动态化、运行中调试功能等。

但对普通开发者来说，最为重要的是，官方文档和教程变得对用户友好许多。不仅写得清晰简明，更靠着 Google Colab 的支持，全都能一键运行。我尝试了 2.0 版本的一些教程样例，确实感觉大不一样了。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第4张图片

其实你可能会觉得奇怪—— Tensorflow 大张旗鼓宣传的大版本改进，其实也无非就是向着 PyTorch 早就有的功能靠拢而已嘛。那我干脆去学 PyTorch 好了！

如果我们只说道理，这其实没错。然而，还是前面那个论断，一个框架好不好，主要看是否开发活跃、社区支持完善。这就是一个自证预言。一旦人们都觉得 Tensorflow 好用，那么 Tensorflow 就会更好用。因为会有更多的人参与进来，帮助反馈和改进。

看看现在 PyTorch 的 Github 页面。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第5张图片

受关注度，确实已经很高了。

然而你再看看 Tensorflow 的。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第6张图片

至少在目前，二者根本不在一个数量级。

Tensorflow 的威力，不只在于本身构建和训练模型是不是好用。那其实只是深度学习中，非常小的一个环节。不信？你在下图里找找看。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第7张图片

真正的问题，在于是否有完整的生态环境支持。其中的逻辑，我在《学 Python ，能提升你的竞争力吗？》一文中，已经为你详细分析过了。

而 Tensorflow ，早就通过一系列的布局，使得其训练模型可以直接快速部署，最快速度铺开，帮助开发者占领市场先机。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第8张图片

如果你使用 PyTorch ，那么这样的系统，是相对不完善的。当然你可以在 PyTorch 中训练，然后转换并且部署到 Tensorflow 里面。毕竟三巨头达成了协议，标准开放，这样做从技术上并不困难。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第9张图片

但是，人的认知带宽，是非常有限的。大部分人，是不会选择在两个框架甚至生态系统之间折腾的。这就是路径依赖。

所以，别左顾右盼了，认认真真学 Tensorflow 2.0 吧。

这篇文章里面，我给你介绍，如何用 Tensorflow 2.0 ，来训练神经网络，对用户流失数据建立分类模型，从而可以帮你见微知著，洞察风险，提前做好干预和防范。

数据

你手里拥有的，是一份银行欧洲区客户的数据，共有10000条记录。客户主要分布在法国、德国和西班牙。

数据来自于匿名化处理后的真实数据集，下载自 superdatascience 官网。

从表格中，可以读取的信息，包括客户们的年龄、性别、信用分数、办卡信息等。客户是否已流失的信息在最后一列（Exited）。

这份数据，我已经上传到了这个地址，你可以下载，并且用 Excel 查看。

环境

本文的配套源代码，我放在了这个 Github 项目中。请你点击这个链接（http://t.cn/EXffmgX）访问。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第11张图片

如果你对我的教程满意，欢迎在页面右上方的 Star 上点击一下，帮我加一颗星。谢谢！

注意这个页面的中央，有个按钮，写着“在 Colab 打开” (Open in Colab)。请你点击它。

然后，Google Colab 就会自动开启。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第12张图片

我建议你点一下上图中红色圈出的 “COPY TO DRIVE” 按钮。这样就可以先把它在你自己的 Google Drive 中存好，以便使用和回顾。

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第13张图片

Colab 为你提供了全套的运行环境。你只需要依次执行代码，就可以复现本教程的运行结果了。

如果你对 Google Colab 不熟悉，没关系。我这里有一篇教程，专门讲解 Google Colab 的特点与使用方式。

为了你能够更为深入地学习与了解代码，我建议你在 Google Colab 中开启一个全新的 Notebook ，并且根据下文，依次输入代码并运行。在此过程中，充分理解代码的含义。

这种看似笨拙的方式，其实是学习的有效路径。

代码

首先，我们下载客户流失数据集。

!wget https://raw.githubusercontent.com/wshuyi/demo-customer-churn-ann/master/customer_churn.csv

载入 Pandas 数据分析包。

import pandas as pd

利用 read_csv 函数，读取 csv 格式数据到 Pandas 数据框。

df = pd.read_csv('customer_churn.csv')

我们来看看前几行显示结果：

df.head()

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第14张图片

显示正常。下面看看一共都有哪些列。

df.columns

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第15张图片

我们对所有列，一一甄别。

RowNumber：行号，这个对于模型没用，忽略
CustomerID：用户编号，这个是顺序发放的，忽略
Surname：用户姓名，对流失没有影响，忽略
CreditScore：信用分数，这个很重要，保留
Geography：用户所在国家/地区，这个有影响，保留
Gender：用户性别，可能有影响，保留
Age：年龄，影响很大，年轻人更容易切换银行，保留
Tenure：当了本银行多少年用户，很重要，保留
Balance：存贷款情况，很重要，保留
NumOfProducts：使用产品数量，很重要，保留
HasCrCard：是否有本行信用卡，很重要，保留
IsActiveMember：是否活跃用户，很重要，保留
EstimatedSalary：估计收入，很重要，保留
Exited：是否已流失，这将作为我们的标签数据

确定了不同列的含义和价值，下面我们处理起来，就得心应手了。

数据有了，我们来调入深度学习框架。

因为本次我们需要使用 Tensorflow 2.0 ，而写作本文时，该框架版本尚处于 Alpha 阶段，因此 Google Colab 默认使用的，还是 Tensorflow 1.X 版本。要用 2.0 版，便需要显式安装。

!pip install -q tensorflow==2.0.0-alpha0

安装框架后，我们载入下述模块和函数，后文会用到。

import numpy as np
import tensorflow as tf
from tensorflow import keras
from sklearn.model_selection import train_test_split
from tensorflow import feature_column

这里，我们设定一些随机种子值。这主要是为了保证结果可复现，也就是在你那边的运行结果，和我这里尽量保持一致。这样我们观察和讨论问题，会更方便。

首先是 Tensorflow 中的随机种子取值，设定为 1 。

tf.random.set_seed(1)

然后我们来分割数据。这里使用的是 Scikit-learn 中的 train_test_split 函数。指定分割比例即可。

我们先按照 80:20 的比例，把总体数据分成训练集和测试集。

train, test = train_test_split(df, test_size=0.2, random_state=1)

然后，再把现有训练集的数据，按照 80:20 的比例，分成最终的训练集，以及验证集。

train, valid = train_test_split(train, test_size=0.2, random_state=1)

这里，我们都指定了 random_state ，为的是保证咱们随机分割的结果一致。

我们看看几个不同集合的长度。

print(len(train))
print(len(valid))
print(len(test))

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第16张图片

验证无误。下面我们来做特征工程（feature engineering）。

因为我们使用的是表格数据（tabular data），属于结构化数据。因此特征工程相对简单一些。

先初始化一个空的特征列表。

feature_columns = []

然后，我们指定，哪些列是数值型数据（numeric data）。

numeric_columns = ['CreditScore', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'EstimatedSalary']

可见，包含了以下列：

CreditScore：信用分数
Age：年龄
Tenure：当了本银行多少年用户
Balance：存贷款情况
NumOfProducts：使用产品数量
EstimatedSalary：估计收入

对于这些列，只需要直接指定类型，加入咱们的特征列表就好。

for header in numeric_columns:
  feature_columns.append(feature_column.numeric_column(header))

下面是比较讲究技巧的部分了，就是类别数据。

先看看都有哪些列：

categorical_columns = ['Geography', 'Gender', 'HasCrCard', 'IsActiveMember']

Geography：用户所在国家/地区
Gender：用户性别
HasCrCard：是否有本行信用卡
IsActiveMember：是否活跃用户

类别数据的特点，在于不能直接用数字描述。例如 Geography 包含了国家/地区名称。如果你把法国指定为1，德国指定为2，电脑可能自作聪明，认为“德国”是“法国”的2倍，或者，“德国”等于“法国”加1。这显然不是我们想要表达的。

所以我这里编了一个函数，把一个类别列名输入进去，让 Tensorflow 帮我们将其转换成它可以识别的类别形式。例如把法国按照 [0, 0, 1]，德国按照 [0, 1, 0] 来表示。这样就不会有数值意义上的歧义了。

def get_one_hot_from_categorical(colname):
  categorical = feature_column.categorical_column_with_vocabulary_list(colname, train[colname].unique().tolist())
  return feature_column.indicator_column(categorical)

我们尝试输入 Geography 一项，测试一下函数工作是否正常。

geography = get_one_hot_from_categorical('Geography'); geography

观察结果，测试通过。

下面我们放心大胆地把所有类别数据列都在函数里面跑一遍，并且把结果加入到特征列表中。

for col in categorical_columns:
  feature_columns.append(get_one_hot_from_categorical(col))

看看此时的特征列表内容：

feature_columns

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第17张图片

6个数值类型，4个类别类型，都没问题了。

下面该构造模型了。

我们直接采用 Tensorflow 2.0 鼓励开发者使用的 Keras 高级 API 来拼搭一个简单的深度神经网络模型。

from tensorflow.keras import layers

我们把刚刚整理好的特征列表，利用 DenseFeatures 层来表示。把这样的一个初始层，作为模型的整体输入层。

feature_layer = layers.DenseFeatures(feature_columns); feature_layer

下面，我们顺序叠放两个中间层，分别包含200个，以及100个神经元。这两层的激活函数，我们都采用 relu 。

relu 函数大概长这个样子：

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第18张图片

model = keras.Sequential([
  feature_layer,
  layers.Dense(200, activation='relu'),
  layers.Dense(100, activation='relu'),
  layers.Dense(1, activation='sigmoid')
])

我们希望输出结果是0或者1，所以这一层只需要1个神经元，而且采用的是 sigmoid 作为激活函数。

sigmoid 函数的长相是这样的：

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第19张图片

模型搭建好了，下面我们指定3个重要参数，编译模型。

model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

这里，我们选择优化器为 adam 。

因为评判二元分类效果，所以损失函数选的是 binary_crossentropy。

至于效果指标，我们使用的是准确率（accuracy）。

模型编译好之后。万事俱备，只差数据了。

你可能纳闷，一上来不就已经把训练、验证和测试集分好了吗？

没错，但那只是原始数据。我们模型需要接收的，是数据流。

在训练和验证过程中，数据都不是一次性灌入模型的。而是一批次一批次分别载入。每一个批次，称作一个 batch；相应地，批次大小，叫做 batch_size 。

为了方便咱们把 Pandas 数据框中的原始数据转换成数据流。我这里编写了一个函数。

def df_to_tfdata(df, shuffle=True, bs=32):
  df = df.copy()
  labels = df.pop('Exited')
  ds = tf.data.Dataset.from_tensor_slices((dict(df), labels))
  if shuffle:
    ds = ds.shuffle(buffer_size=len(df), seed=1)
  ds = ds.batch(bs)
  return ds

这里首先是把数据中的标记拆分出来。然后根据把数据读入到 ds 中。根据是否是训练集，我们指定要不要需要打乱数据顺序。然后，依据 batch_size 的大小，设定批次。这样，数据框就变成了神经网络模型喜闻乐见的数据流。

train_ds = df_to_tfdata(train)
valid_ds = df_to_tfdata(valid, shuffle=False)
test_ds = df_to_tfdata(test, shuffle=False)

这里，只有训练集打乱顺序。因为我们希望验证和测试集一直保持一致。只有这样，不同参数下，对比的结果才有显著意义。

有了模型架构，也有了数据，我们把训练集和验证集扔进去，让模型尝试拟合。这里指定了，跑5个完整轮次（epochs）。

model.fit(train_ds,
          validation_data=valid_ds,
          epochs=5)

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第20张图片

你会看到，最终的验证集准确率接近80%。

我们打印一下模型结构：

model.summary()

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第21张图片

虽然我们的模型非常简单，却也依然包含了23401个参数。

下面，我们把测试集放入模型中，看看模型效果如何。

model.evaluate(test_ds)

依然，准确率接近80%。

还不错吧？

……

真的吗？

疑惑

如果你观察很仔细，可能刚才已经注意到了一个很奇特的现象：

怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条_第22张图片

训练的过程中，除了第一个轮次外，其余4个轮次的这几项重要指标居然都没变！

它们包括：

训练集损失
训练集准确率
验证集损失
验证集准确率

所谓机器学习，就是不断迭代改进啊。如果每一轮下来，结果都一模一样，这难道不奇怪吗？难道没问题吗？

我希望你，能够像侦探一样，揪住这个可疑的线索，深入挖掘进去。

这里，我给你个提示。

看一个分类模型的好坏，不能只看准确率（accuracy）。对于二元分类问题，你可以关注一下 f1 score，以及混淆矩阵（confusion matrix）。

如果你验证了上述两个指标，那么你应该会发现真正的问题是什么。

下一步要穷究的，是问题产生的原因。

回顾一下咱们的整个儿过程，好像都很清晰明了，符合逻辑啊。究竟哪里出了问题呢？

如果你一眼就看出了问题。恭喜你，你对深度学习已经有感觉了。那么我继续追问你，该怎么解决这个问题呢？

欢迎你把思考后的答案在留言区告诉我。

对于第一名全部回答正确上述问题的读者，我会邀请你作为嘉宾，免费（原价199元）加入我本年度的知识星球。当然，前提是你愿意。

小结

希望通过本文的学习，你已掌握了以下知识点：

Tensorflow 2.0 的安装与使用；
表格式数据的神经网络分类模型构建；
特征工程的基本流程；
数据集合的随机分割与利用种子数值保持一致；
数值型数据列与类别型数据列的分别处理方式；
Keras 高阶 API 的模型搭建与训练；
数据框转化为 Tensorflow 数据流；
模型效果的验证；
缺失的一环，也即本文疑点产生的原因，以及正确处理方法。

希望本教程对于你处理表格型数据分类任务，能有帮助。

祝深度学习愉快！

（本文为AI科技大本营转载文章，转载请联系原作者）

长三角开发者联盟

代码就是力量，长三角的开发者联合起来！

加入「长三角开发者联盟」将获得以下权益

长三角地区明星企业内推岗位
CSDN独家技术与行业报告
CSDN线下活动优先参与权
CSDN线上分享活动优先参与权

扫码添加联盟小助手，回复关键词“长三角2”，加入「长三角开发者联盟」。

推荐阅读：

机器学习萌新必备的三种优化算法 | 选型指南
A* 算法之父、人工智能先驱Nils Nilsson逝世 | 缅怀
Python程序员Debug的利器，和Print说再见 | 技术头条
入门AI第一步，从安装环境Ubuntu+Anaconda开始教！
小程序的侵权“生死局”
@996 程序员，ICU 你真的去不起！
Elastic Jeff Yoshimura：开源正在开启新一轮的创新 | 人物志
19岁当老板, 20岁ICO失败, 21岁将项目挂到了eBay, 为何初创公司如此艰难?
她说：为啥程序员都特想要机械键盘？这答案我服！

点击阅读原文，了解「CTA核心技术及应用峰会」。

你可能感兴趣的:(怎样搞定分类表格数据？有人用TF2.0构建了一套神经网络 | 技术头条)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
怎么起诉借钱不还的人？怎样起诉欠款不还的人？影子爱学习
怎么起诉借钱不还的人？怎样起诉欠款不还的人？如果遇到难以解决的法律问题，我们可以匹配专业律师。例如：婚姻家庭（离婚纠纷）、刑事辩护、合同纠纷、债权债务、房产（继承）纠纷、交通事故、劳动争议、人身损害、公司相关法律事务（法律顾问）等咨询推荐手机/微信:15633770876【全国案件皆可】借钱不还起诉对方需要哪些资料起诉欠钱不还的，一般需要的材料包括以下这些：借据、收据、欠条、付款凭证等证据，以及向
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
今又重阳芮峻
今又重阳图片发自App白露成霜菊花黄，岁岁重阳，今又重阳。登高远望，君不见，那来时路上少年，青丝已染雪霜。落日一点一点西坠，谁有力量，托住使其回往。转眼缺了大半，又能怎样？江天两茫茫。给我一壶烈酒，我要敬那斜阳，看谁先醉？笑指西天红了一片，借点酒力，老夫聊发一次少年狂。老严.2019年重阳节.杭州
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。