PythonstartL

用sklearn做一个完整的机器学习工程——以波士顿房价预测为例。（一、用自定义转换器、Pipeline Feature_Union做特征工程）

想要一直做一个完整的机器学习工程已经好久了，这篇博客呢，我会用到决策树，随机森林，svm，xgboost，投票法等方法。对波士顿的房价进行预测。本篇博客不会对相关原理进行解释，如果想要了解各个算法的原理，请阅读李航的统计机器学习，周志华的机器学习，以及陈天奇的XGBoost: A Scalable Tree Boosting System 和相关博客

部分代码参考利用python进行数据分析

其实在研一上数据挖掘课程的时候，老师就强烈推荐了sklearn这个包，当时数理知识还不是很强，学的算法也不是很明白，面对着1000多页的sklearn文档实在是令人望而生畏。这几天重新捡起来看了一点，发现sklearn的设计者们实在是太牛了！！不过还是期待市面上早日出现一本关于sklearn的书，如果能像利用python进行数据那本书写的一样好就可以了。

建议如果大家学了传统的机器学习算法之后，强烈推荐看看sklearn的文档，还有一些相关的重要参数。即使调包我们也要调的漂亮。嘿嘿。。。

在个人对 sklearn 的api的学习过程中，我觉得很有意义也是最漂亮的就是sklearn中的就是他的estimator，predictor，transform这三个接口了，结合pipeline 还有featureUnion 简直无敌。进行数据预处理的时候，管道设计实在是太人性化了。

sklearn 关于pipeline的应用的官方实例是给了一个20新闻集团语料库的例子，这个源代码对于初学者肯定特别不友好，所以我另外找了一个关于波士顿房价数据集的作为说明。我这也相当于又复习了一遍。（声明：这个完整机器学习项目并非我的原创，是我从github上下载的一个英文实例项目，但它做的比较浅，所以数据预处理部分的转换器我又重新设计了一下，而且没有进行调参和用集成学习的方法去做，我准备在后面加一些关于自己的esemble的东西，并顺变做一些ROC，F1-score，调参方法的测试等内容）

做这个的时候不由想到之前京东金融的面试，问我会选取哪些特征变量作为双十一预测客户是否会购买很多的特征变量。当时是在是太紧张了，就答了一个消费等级、消费金额。也有一部分原因是特征工程做的太少的原因，不管怎样，要一直练习下去呀。

突然悟到：

在找特征的过程中我们应该从时间特征（时间段、时间点）、地域特征（是否市区，人口密度）、身份（是否学生，消费能力等级，年龄层次）等等。

数据的获取（如何从某个链接网页上获取数据）

首先二话不说先送上下载数据的代码：

import os
import tarfile
from six.moves import urllib
DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"
def fetch_data(housing_url = HOUSING_URL,housing_path = HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path = os.path.join(housing_path,"housing_tgz")
    urllib.request.urlretrieve(housing_url,tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()

os，tarfile的含义很容易理解。urllib其实也是做爬虫的时候经常用到的一个库。含义很容易理解在此就不做额外说明了。

Step2 读取数据

fetch_housing_data()

import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

housing = load_housing_data()
housing.head()

我们由此可以得到一些关于数据集前6行的信息，有一些经度纬度,人口，房屋总数的数据，收入中位数的数据，我们要预测的是房价中位数。

首先我们要划分测试集和训练集

这里提供了俩种方法，一种是用numpy的permutation方法

import numpy as np

# For illustration only. Sklearn has train_test_split()
def split_train_test(data, test_ratio):
    shuffled_indices = np.random.permutation(len(data))
    test_set_size = int(len(data) * test_ratio)
    test_indices = shuffled_indices[:test_set_size]
    train_indices = shuffled_indices[test_set_size:]
    return data.iloc[train_indices], data.iloc[test_indices]

通常我们用来做batch 批量训练的时候也用到这个方法，如下

def batch_data(X,y,batchsize):
    rnd_idx = np.random.permutation(len(X))
    n_batches = len(X)//batchsize
    for batch_idx in np.array_split(rnd_idx,n_batches):
        yield X[batch_idx],y[batch_idx]

另一个直接调用sklearn的包

#注意！请体会下面俩个train_test_split 切分结果的不同

from sklearn.model_selection import train_test_split

X_train, X_test = train_test_split(housing, test_size=0.2, random_state=42)

X_train,y_train,X_text,y_test = train_test_split(data,target,test_size= 0.2,random_state=44)

分层采样数据

当然我们有时候用这样的采样方式是不合理的，比如对于1000个样本中 1 类的数据有500个占了50%，2类 3类的数据各有250个占据25%那么我们这个时候不能随便选20%个数据，应该采用分层采样的方式，去选数据sklearn就提供了这样的一个方法

from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

这里的n_splits非常重要！n_split =1表示只划分出一个train 和一个test

.1其产生指定数量的独立的train/test数据集划分数据集划分成n组。
2.首先将样本随机打乱，然后根据设置参数划分出train/test对。
3.其创建的每一组划分将保证每组类比比例相同。即第一组训练数据类别比例为2:1，则后面每组类别都满足这个比例

光靠api 调用肯定不行！我自己也写了一个，如果是dataframe 类型大概就用series的value_count方法吧，写的好丑。。。

import pandas as pd
x_train = np.array([])
x_test = np.array([])
counts = housing['income'].value_counts()
nums = counts.values
for i in counts.columns:
    x_init = housing[housing['income'].isin([i])].values
    x1,x2 = split_train_test(x_init,test_size = 0.2)
    x_train = np.vstack(x_train,x1)
    x_test = np.vstack(x_test,x2)
columnlist = housing.columns.values

X_train= pd.DataFrame(x_train,columns=columnlist)

描述性统计分析

我们直接调用housing.hist()方法可以看到各个变量的直方图，用Series 的value_count 来进行统计分析

特征工程

现在呢，假设有专家告诉你房屋的价格和房主的收入有很大关系，那么你就不妨调用housing["median_income"].hist()的方法

看一些收入的分布情况

如图大多数房主的收入中位数的值聚集在 2-5（万美元），但是一些收入中位数会超过 6。数据集中的每个分层都要有足够的实例位于你的数据中，这点很重要。否则，对分层重要性的评估就会有偏差。这意味着，你不能有过多的分层，且每个分层都要足够大。后面的代码通过将收入中位数除以 1.5（以限制收入分类的数量），创建了一个收入类别属性，用ceil对值舍入（以产生离散的分类），然后将所有大于 5的分类归入到分类 5：代码如下

housing["incat"] = np.ceil(housing['median_income']/1.5)

housing['incat'].where(housing['incat']>5,5,inplace =True)

现在，就可以根据收入分类，进行分层采样。你可以使用之前我提到的 Scikit-Learn 的StratifiedShuffleSplit类：

#进行分层采样
from sklearn.model_selection import StratifiedShuffleSplit
split = StratifiedShuffleSplit(n_splits=1,test_size=0.2,random_state=42)
for trainidx ,testidx in split.split(housing,housing['income_cat']):
    strat_train_set = housing.loc[trainidx]
    strat_test_set = housing.loc[testidx]
strat_train_set['income_cat'].value_counts()/len(strat_train_set)

左图是总体类别，右图是分层抽样的结果可以看出，分层抽样还是有效的

Sklearn 中到底有几种model_selection呢？

我查了一下官方文档，大概有交叉验证等好几种分离器，这些东西，一时半会也记不住，得等用到的时候现查，或者自己写函数也可以了。

数据可视化、寻找规律

在我们做特征工程的过程中，数据的地理信息、时间信息往往都特别重要。那么怎样来绘制合适图表来发现数据的内在联系呢?

首先根据经度纬度画一画散点图

housing = strat_train_set.copy()
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)

啊哈！好像看不出来啥尴尬，那我们再结合人口看一看？

housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
    s=housing["population"]/100, label="population",
    c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True,
)
plt.legend()
plt.show()

如上图，每个圈的半径表示街区的人口（选项s），颜色代表价格（选项c）。我们用预先定义的名为jet的颜色图（选项cmap），它的范围是从蓝色（低价）到红色（高价）这张图说明房价和位置（比如，靠海）和人口密度联系密切，这点你可能早就知道。可以使用聚类算法来检测主要的聚集，用一个新的特征值测量聚集中心的距离。

各个特征之间的相关性

可以直接调用

corr_matrix = housing.corr()
corr_matrix
corr_matrix['median_house_value'].sort_values(ascending=False)

可以看到返回的还是一个dataframe类型如果需要对一个特定变量进行排序，那么我们可以使用sort_values 方法

#根据我们的直觉，可能觉得房价和房屋的平均人口，平均卧室数目，平均房间数目有关
housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
housing["population_per_household"]=housing["population"]/housing["households"]

数据清洗数据预处理

首先查看数据有没有缺失值

sample_incompletedata = housing[housing.isnull().any(axis=1)]
sample_incompletedata.head()

可以发现total_bedroom存在缺失值，我们可以用fillna 方法进行填充，也可以用sklearn 中的Imputer 方法进行填充

方法一：

median_housing_value = housing['total_bedrooms'].median()
sample_incompletedata['total_bedrooms'].fillna(median_housing_value,inplace=True)

方法二：用sklearn中的imputer方法，对数据进行填充这个方法的好处是，可以对所有的数值型数据进行填充，除此之外还可以用到最后的Pipeline方法

from sklearn.preprocessing import Imputer
imputer = Imputer(strategy="median")
housing_num = housing.drop(['ocean_proximity'],axis=1)
imputer.fit(housing_num)
X = imputer.transform(housing_num)
housing_tr = pd.DataFrame(X,columns=housing_num.columns,index=housing_num.index)

更多关于数据预处理的部分，可以通过查询sklearn的preprocessing模块比如如何标准化，如何自定义转换器

链接为http://sklearn.apachecn.org/cn/0.19.0/modules/preprocessing.html#imputation

对类别数据进行编码

对于一些特征值是字符串的数据可以用label_encode 的方式，但是我不建议变量X用这种方式，因为X当中有很多变量，这种编码的顺序可能和原先的index不太一样，对于y可以直接这样

from sklearn.preprocessing import LabelEncoder
ord_encode =LabelEncoder()
housing_cat_encoded= ord_encode.fit_transform(housing_cat)
housing_cat_encoded

一般我都是自己写一个字典建立一一映射的关系，一般是在数据比较小的情况下，如果数据量大，占内存较大，可以试试用apply方法，用生成器一个个生成

cat_counts = housing_cat['ocean_proximity'].value_counts()
listcat = list(cat_counts.index)
dictcat ={}
for  index,value in enumerate(listcat):
    dictcat[value] = index
housing_cat['encode'] = housing_cat['ocean_proximity'].map(dictcat)

#当然这样进行数据预处理，没有fit_transform方法就很难用管道Pipeline了

在此我们可以自定义一个转换器，来进行，这里就是要继承我们刚开始前面所说的fit transformation类了，还是添加3个特征变量

from  sklearn.base import BaseEstimator,TransformerMixin
room_ix,bedrooms_ix,populaton_ix,households_ix = 3,4,5,6
class CombineAttr(BaseEstimator,TransformerMixin):
    def __init__(self,add_bedroom_per_room):
        self.add_bedroom_per_room = add_bedroom_per_room
    def fit(self，X,y=None):
        return self
    def transform(self,X,y=None):
        room_per_household = X[:,room_ix]/X[:,households_ix]
        populaton_per_household = X[:,populaton_ix]/X[:,households_ix]
        if self.add_bedroom_per_room:
            bedrooms_per_room = X[:,bedrooms_ix]/X[:,room_ix]
            return np.c_[X,room_per_household,populaton_per_household,bedrooms_per_room]
        else:
            return np.c_[X,room_per_household,populaton_per_household]
attr_addr = CombineAttr(add_bedroom_per_room=False)
housing_extra_attribs = attr_addr.transform(housing.values)
housing_extra_attribs = pd.DataFrame(housing_extra_attribs,columns=list(housing.columns)+["room_per_household","population_per_household"])
housing_extra_attribs.head()

调用Pipeline 结果

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
        ('imputer', Imputer(strategy="median")),
        ('attribs_adder', CombineAttr()),
        ('std_scaler', StandardScaler()),
    ])
housing_num_tr = num_pipeline.fit_transform(housing_num)

对类别变量也进行pipeline 然后进行featureunlion

#1.建立选择变量的转换器

from sklearn.base import BaseEstimator, TransformerMixin

class DataFrameSelector(BaseEstimator, TransformerMixin):
    def __init__(self, attribute_names):
        self.attribute_names = attribute_names
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X[self.attribute_names].values

from sklearn.pipeline import FeatureUnion
from sklearn.preprocessing import  LabelBinarizer
num_attribs = list(housing_num)
cat_attribs = ["ocean_proximity"]
#建立类别变量的转换器

class Onehot(BaseEstimator, TransformerMixin):

    def fit(self,X,y=None):
        return self
    def transform(self,X,y=None):
        X =X.reshape(-1)
        catnums = len(set(X))
        catlist =list(set(X))
        zero_mat = np.zeros((len(X),catnums))
        dummies = pd.DataFrame(zero_mat,columns=np.array(catlist))
        def get_indice(label):
            return catlist.index(label)
        for i, label in enumerate(list(X)):
            indices =get_indice(label)
            dummies.iloc[i,indices] =1
        return dummies.values

num_pipeline = Pipeline([
        ('selector', DataFrameSelector(num_attribs)),
        ('imputer', Imputer(strategy="median")),
        ('attribs_adder', CombineAttr()),
        ('std_scaler', StandardScaler()),
    ])

cat_pipeline = Pipeline([
        ('selector', DataFrameSelector(cat_attribs)),
        ('cat_encoder', Onehot()),
    ])

full_pipeline = FeatureUnion(transformer_list=[
        ("num_pipeline", num_pipeline),
        ("cat_pipeline", cat_pipeline),
    ])

# 这样我们的数据预处理部分就全部结束了！

下一篇就是我们正式调用算法的步骤了

【Redis】golang操作Redis基础入门 m0_74825360 面试学习路线阿里巴巴 redis golang 数据库
【Redis】golang操作Redis基础入门大家好我是寸铁??总结了一篇【Redis】golang操作Redis基础入门sparkles:喜欢的小伙伴可以点点关注??Redis的作用Redis（RemoteDictionaryServer）是一个开源的内存数据库，它主要用于存储键值对，并提供多种数据结构的支持。Redis的主要作用包括：1.缓存:Redis可以作为缓存系统，将常用的数据缓存在内
【route】route add命令详解 m0_74825360 面试学习路线阿里巴巴 php 网络开发语言
routeadd命令的主要作用是添加静态路由，通常的格式是：routeADD157.0.0.0MASK255.0.0.0157.55.80.1METRIC3IF2参数含义：^destination^mask^gatewaymetric^^interfacedestination【网段地址】mask【子网掩码】gateway【网关地址】metric【路由跳数】if【端口号】一般情况下，不涉及本机地址
Element-plus封装表格Validate 努力搬砖的宣 vue.js 前端 javascript elementui
Element-plus实现表格内的表单验证：useAttrValidateHook在Vue.js项目中，表单验证是一个常见的需求，尤其在处理复杂表格编辑场景时。本文将详细介绍一个基于Vue3的自定义Hook——useAttrValidate，它提供了一种便捷的方式来处理表格组件中的字段校验。效果如下：1.导入与初始化Javascriptimport{reactive,nextTick}from"
软件测试工具——Junit单元测试衣衣困 junit 单元测试
什么是单元测试定义：单元测试是对软件中的最小可测试单元（通常是一个函数或方法）进行的验证性测试，旨在确保其按预期工作。目的：通过测试单元代码来发现并修复错误，提高代码的可靠性和维护性。“单元”的大小或范围，并没有一个明确的标准，“单元”可以是一个函数、方法、类、功能模块或者子系统。单元测试一般是有开发人员或测试人员来做。单元测试通常和白盒测试联系到一起，如果单从概念上来讲两者是有区别的，不过我们通
大腾智能CAD：基于云原生架构，融合AI技术的高效三维设计解决方案大腾智能 cad 工业软件信创国产化工业数字化
CAD（计算机辅助设计）技术自诞生以来，在工业设计中经历了从二维到三维、从单一功能到集成化、智能化的飞跃式发展。这一技术不仅极大地提高了设计效率，还使得设计精度和创新能力得到了前所未有的提升，已成为现代工业设计不可或缺的重要工具。随着“中国制造2025”等战略的实施，国产CAD软件迎来了前所未有的市场机遇。大腾智能公司紧跟时代步伐，推出了一款完全基于云原生架构的国产三维CAD设计软件，它集三维建模
微信小程序开发工具介绍及安装（上）计算机萍萍学姐小程序开发微信小程序小程序微信
本章主要介绍微信小程序开发工具的介绍小程序开发工具的安装方法开发工具的基本功能介绍微信小程序开发工具的介绍微信小程序开发工具是一款由微信官方提供的集成开发环境（IDE），旨在帮助开发者更便捷地创建、调试和发布微信小程序。该开发工具具备丰富的功能和工具集，可以极大地提高小程序开发的效率和质量。以下是对微信小程序开发工具的介绍：一、简介微信小程序开发工具是微信官方推出的一款跨平台开发工具，适用于开发者
Copilot 概述计算机萍萍学姐 copilot copilot 人工智能机器学习
Copilot是什么？它有什么用途？Copilot是由人工智能公司和GitHub合作开发的一个基于人工智能的代码提示工具，它可以利用机器学习技术和大量训练数据生成高质量的代码。Copilot的目标是在保持代码质量和可读性的前提下，提高开发者的编码效率，使得编码工作更为高效和便捷。Copilot的出现是解决编程过程中可能遇到的一些难点和瓶颈问题，特别是在快速迭代的敏捷开发场景中，提高编码效率和减少编
Python模拟发送SOME/IP消息（Scapy模块）李星星BruceL 车载总线及以太网 python tcp/ip 网络协议车载系统服务发现
Python模拟服务端或客户端发送SOME/IP消息1说明2依赖3服务端3.1导包3.2参数定义3.3提供服务（OfferService）3.4订阅ACK/NACK（SubscribeACK/NACK）3.5通知（Notifier）3.6请求/响应ACK（ResponseACK）1说明主要介绍如何使用Python+scapy模块进行SOME/IP以及SOME/IP-SD消息的发送和解析；关于SOM
JS通过ASCII码值实现随机字符串的生成（可指定长度以及解决首位不出现数值）觉醒法师 JavaScript javascript 前端开发语言 typescript
在之前写过一篇“JS实现随机生成字符串（可指定长度）”，当时写的过于简单和传统，比较粗放。此次针对此问题，对随机生成字符串的功能进行优化处理，对随机取到的字符都通过程序自动来完成。在写之前，我们先了解下String.charCodeAt、Array.from()、String.fromCharCode等方法，以及随机获取指定范围中的值，这些在此次功能优化中起到关键作用。一、String.charC
Spring Boot快速接入Prometheus监控|写给Java开发运维 ikyrxbxfas Spring Java Java编程 java spring boot 运维 mysql 分布式
不想听我废话的，直接看代码就行：https://github.com/strictnerd/spring-petclinic-compose最近跟几个粉丝聊天吹水，说最近公司裁员严重，不仅裁掉了大部分的人，也裁掉了大部分的业务；之前公司有钱赚，什么产品都愿意做，无论行不行都会试一试，一堆没有什么流量的系统都在线上跑着，但是没有上级发话，一个也不敢停掉。站着资源不说，关键还得保证活着，基本就是运维人
uniapp小程序项目从0到1开发扶园 uni-app 小程序
一、在HBuilderX新建项目,然后可以先把可能用到的文件夹建好二、引入UI框架,根据npm方式配置文档uView2地址:https://uviewui.com/components/install.htmlcmd执行[email protected]引入并使用uView的JS库，注意这两行要放在importVue之后。//main.jsimportuViewfrom"uview
固件测试工具选型需要考察的功能点汇总 daopuyun 安全测试测试工具固件测试
通过专业的固件测试工具可以帮助我们提高测试效率、提升测试的覆盖度、确保测试的准确性，保障产品的安全和质量。本文我们讲固件测试工具的功能点进行梳理和汇总，方便大家在采购固件测试工具时进行选型比对。一、固件测试工具·漏洞扫描功能：使用自动化固件测试工具最基本的功能就是针对固件进行扫描，找到固件中的安全漏洞，如缓冲区溢出、权限提升、格式字符串等。在固件测试领域，基于二进制的自动化扫描工具能够更好地对代码
Ceisum无人机巡检直播视频投射白嫖叫上我 Cesium 无人机 cesium webgis
接上次的视频投影，Leader告诉我这个视频投影要用在两个地方，一个是我原先写的轨迹回放那里，另一个在无人机起飞后的地图回显，要实时播放无人机拍摄的视频，还要能转镜头，让我把这个也接一下。我的天！告诉我的时候人都傻了，这是一个功能嘛？一个是拿到了全部的轨迹数据进行回显，播放的视频也是完整的资源，视频要求投射在地面上。另一个是接收实时的轨迹数据进行回显，播放的是实时的直播，视频居然还要求跟着镜头一起
Cesium 无人机航线规划（航点航线）白嫖叫上我 Cesium 无人机 cesium
航线规划实现定制航线，一键巡检功能小镜头模拟的是此方向的拍照效果，觉得合适可以打个拍照印记设置里可调控参数------------------------------------------------------2025-01-10--------------------------------------------------------改进了一下，加入多个动作组，可设置每个航点的动作动作组
mockito+junit 单元测试测试私有方法利用反射去调用提升覆盖率反射调用时传入参数为 null aq_money junit 单元测试 java
今天公司安排我写单元测试因为要通过三级认证公司要求是覆盖率必须达到100%而在写单元测试的时候对于是否要测试私有方法一直是一个争议公司规范对私有方法也进行测试代码如下：privatevoidpostGpInfo(GpAlertInfoDOgpAlertInfoDO){if(JudgeUtils.isNull(gpAlertInfoDO)){BusinessException.throwBusine
【dbt】数据加工大师浅谈一盘胡椒鱼 dbt 数据库数据仓库 etl 数据分析 sql
dbt是dbtlabs公司在2016年推出的一款基于Python的开源数据加工工具。从2019年开始，dbt的用户数量增涨十分迅速。dbtlabs凭借此工具，在2022年估值达到了42亿美金。dbt的价值dbt是面向分析工程师提供服务。【分析工程师】是dbt新定义的岗位，是基于DataOps思想，综合了数据工程师和数据分析师两者。即分析师也应该会代码开发（实际上，现在很多的数据分析师就是在做sql
Vue+Element-plus搭建 a3337779 vue.js 前端 javascript
一.下载node看这篇博客：http://t.csdn.cn/kTeRL二.安装vue的脚手架(vue-cli)如果没有切换node的下载镜像，使用这条命令切换淘宝镜像：npmconfigsetregistryhttps://registry.npm.taobao.org然后直接下载npminstallvue-cli-g//（vue-lcli2)npminstall-g@vue/cli//(vue
uniapp 小程序目录搭建以及 pages.json 配置 YZRHANYU uniapp+微信小程序 json uni-app 小程序
uniapp小程序目录搭建1.分包结构├──api各个模块接口文件夹├──login.js登录模块接口文件├──common公共模块，包含公共基础css等├──base.css公共基础css├──components主包当中使用的组件或者复用率较高的组件作为全局组件├──node_modulesnodejs相关依赖包文件目录├──pages主包:业务页面文件存放的目录├──common├──sys
webrtc 源码阅读 make_ref_counted模板函数用法 wu_qz webrtc 笔记
目录1.模板参数解析1.1typenameT1.2typename...Args1.3typenamestd::enable_if::value,T>::type*=nullptr2.scoped_refptr3.newRefCountedObject(std::forward(args)...);4.综合说明5.在webrtc中的用法5.1peerConnectionFactory对象的构建过程
h264之多视点mvc编码及解码过程(JMVC平台举例） wu_qz 视频编解码 mvc
h264标准参考平台JMVC是针对MVC标准的，JMVC支持多视点编码、合流、多视点解码操作。可以利用JMVC生成h264mvc码流和解码。JMVC的下载地址是：jvet/JMVC·GitLabH.264/AVCmulti-viewcoding(MVC)extensionJMVCreferencesoftwarehttps://vcgit.hhi.fraunhofer.de/jvet/jmvcwi
webrtc代码走读之rtc::ArrayView＜const uint8_t＞ wu_qz webrtc
rtc::ArrayView是WebRTC（或其他基于rtc命名空间的库）中常见的一个类型，它通常用于表示一块只读的内存区域，该内存区域由一系列uint8_t类型（无符号8位整数）元素组成。1.rtc::ArrayView的含义rtc::ArrayView是一种轻量级的容器，主要用于包装一个已知大小的数组或内存区域，以便能够安全地访问其中的元素。它不像std::vector那样拥有自己的内存管理功
读后感：《The Missing README: A Guide for the New Software Engineer》 rongqing2019 读后感软件工程
最近在读一本书，中文版的书名叫《程序员的README》，我觉得非常有收获，但是觉得标题翻译的不好，原名就见名知意，这本书是在阿里云开发者公众号上看到了一篇读书笔记让我觉得这本书的内容真好（读书笔记｜程序员的README），自己正在实习，这个“README文档”帮助我慢慢解开了一直以来的疑惑，完整的介绍了现代软件工程的细节，边工作边看，具象了许多。先简单介绍一下作者ChrisRiccomini（详细
代码工艺：实践《修改代码的艺术》中如何安全地在现有代码库中修改代码的方法 rongqing2019 代码工艺代码规范
《修改代码的艺术》一书中，对如何安全地在现有代码库中修改代码提出了以下步骤：1.定义变更点；2.寻找测试点；3.打破依赖关系；4.编写测试；5.进行修改和重构。场景描述已有一段代码逻辑更新用户信息，但它的代码存在以下问题：缺乏单元测试，无法验证修改是否正确。存在硬编码和强耦合，导致难以扩展和测试。方法过于复杂，多个逻辑混在一起，影响可读性。原始代码（待修改）以下是现有的代码逻辑：@Servicep
代码工艺：Spring Boot 防御式编程实践 rongqing2019 代码工艺 spring boot 后端
防御式编程是一种编程实践，其核心理念是编写代码时要假设可能会发生错误、异常或非法输入，并通过各种手段防止这些问题引发系统崩溃、错误行为或安全漏洞。该编程方法的目的是让程序在面对不可预测的情况（如输入数据异常、硬件故障、意外的用户行为等）时仍然能够安全、稳定地运行。防御式编程特别强调在开发阶段尽可能地考虑各种边界情况、异常处理和系统的健壮性。在使用SpringBoot开发Java后端时，结合《代码大
代码工艺：写代码的好习惯 rongqing2019 代码工艺个人开发
1.充分校验入参有一句话叫“Allinputisevil”，即一切的输入都可能是恶意的。因此，经验丰富的工程师会对接口的入参进行严格的校验，从最基础的非空、长度校验，到复杂的业务逻辑校验都不应忽略。例如，在典型的电商下单场景中，我们需要校验用户状态是否正常、商品是否上架、库存是否充足、优惠券是否可用等。请记住，入参校验是防止低级错误的第一道防线，养成这个习惯至关重要。2.完整记录日志我们总希望自己
代码工艺：高并发解决方案介绍 rongqing2019 代码工艺 1024程序员节
扩容方案：横向扩展“横向扩展”就是增加更多的服务器来解决性能瓶颈问题。例如，如果应用服务器是瓶颈，就添加更多应用服务器；如果数据库服务器是瓶颈，就添加更多的从库。这种做法虽然看似简单粗暴，但在50%以上的场景中，尤其是读多写少的场景下，这种方案非常有效。举例：当系统处理1000QPS时，使用三台应用服务器和一台数据库服务器就足够了；当处理2000QPS时，则增加到六台应用服务器和两台数据库服务器（
LNMP——搭建论坛（Linux、Nginx、Mysql、PHP） ML908 Web服务器群集 LNMP discuz
LNMP指的是一个基于CentOS/Debian编写的Nginx、Linux、MySQL、PHP,可以在独立主机上轻松的安装LNMP生产环境。此次我们使用LNMP框架部署Discuz!社区论坛应用。Nginx安装Nginx作为Web服务器。相比Apache,Nginx使用更少的资源，支持更多的并发连接，体现更高的效率。Nginx作为负载均衡服务器:Nginx既可以在内部直接支持Rails和PHP,
HAProxy集群与常见的Web集群软件调度器对比 EsDeath_99 java 服务器 linux
一、Web集群调度器1.常见的Web集群调度器常用的Web集群调度器分为软件和硬件,负载均衡性能（硬件负载均衡器F5>LVS>Haproxy>Nginx）软件调度器（开源）1.LVS：性能最好，搭建复杂2.Nginx：性能较好，但集群节点健康检查功能不强，高并发性能较弱3.Haproxy：高并发性能好硬件调度器1.F52.梭子鱼、绿盟、F5、Array等2.常见集群调度器的优缺点（LVS、Ngin
Spring Boot编程训练系统：测试驱动开发（TDD）实践原机小子 spring boot tdd 后端
摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了编程训练系统的开发全过程。通过分析编程训练系统管理的不足，创建了一个计算机管理编程训练系统的方案。文章介绍了编程训练系统的系统分析部分，包括可行性分析等，系统设计部分主要介绍了系统功能设计和数据库设计。本编程训练系统管理员功能有管理员和用户。管理员功能有个人中心，用户管理，题库资源管理，用户交流，试卷管
【超详细】深入解析Kali Linux：常见指令大全，助你成为安全专家 wit_@ chrome 前端 linux kail 网络安全
深入解析KaliLinux：常见指令大全，助你成为安全专家KaliLinux是网络安全领域最受欢迎的操作系统之一，专为渗透测试、数字取证和网络安全研究而设计。无论你是网络安全新手，还是经验丰富的安全专家，掌握KaliLinux的常见指令都是必不可少的。本文将详细介绍KaliLinux中的一些常见指令，帮助你更好地利用这个强大的工具。1.基本系统指令1.1apt-get包管理KaliLinux基于D
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin