AllEmpty

机器学习（06）——K近邻算法实战

学习机器学习算法，最难的不是算法及公式推导的学习，因为这些很多都是成熟的现成的，有代码例子可以直接使用。最难的是将算法应用到实际的项目当中。

1. 算法概念

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：在特征空间中，如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别，则该样本也属于这个类别。

使用KNN算法进行分析预测，K值的选择、距离度量和分类决策规则是该算法的三个基本要素，直接影响预测的准确率。

在运用KNN算法时，我们通常需要将相关的特征值转换为数值型，而该数值的大小、与其他特征的关联度或数值间隔关系的设计（也就是分类决策规则），都会直接影响各数据之间的距离，而最终预测计算时，所选择样本的数量（K值大小），都会直接影响最终结果的准确率。

比如下图中的例子，当K=3时，答案为红色三角形，而K=5时，结果却变为蓝色正方形。

2. KNN实现公司电脑开关机预测

1)项目说明

我们的电脑里安装了各种软件，这些软件会时不时访问外网，通过防火墙日志记录，我们可以从中分析出公司电脑的开关机情况，查看哪些电脑正常开机关机，哪些没有一直没有关机，哪些没有开机。

使用KNN算法，实现对公司电脑开关机状态的预测功能。

2)日志信息

通过查看防火墙日志，可以看到日志中有日期、防火墙设备名称、源ip地址（局域网ip）、网卡mac地址等信息

date=2020-01-10 time=00:13:08 devname="AW-B1-901" devid="FG100ETK18038642" logid="0000000020" type="traffic" subtype="forward" level="notice" vd="root" eventtime=1578586388984224524 tz="+0800" srcip=192.168.10.13 srcport=16701 srcintf="Local-Office" srcintfrole="lan" dstip=220.175.160.92 dstport=17048 dstintf="wan1" dstintfrole="wan" poluuid="0f219964-b02c-51e9-b295-bc4f936d8f3c" sessionid=59239552 proto=17 action="accept" policyid=1 policytype="policy" service="udp/17048" dstcountry="China" srccountry="Reserved" trandisp="snat" transip=113.108.110.48 transport=16701 appcat="unknown" applist="default" duration=166 sentbyte=30 rcvdbyte=0 sentpkt=1 rcvdpkt=0 shapingpolicyid=9 shaperperipname="Limit-Wan1-15M" shaperperipdropbyte=0 sentdelta=30 rcvddelta=0 mastersrcmac="1c:ab:34:9f:a9:fb" srcmac="1c:ab:34:9f:a9:fb" srcserver=0

3)设计思路

在使用KNN算法预测之前，我们首先要解决的是，如何使用这些日志数据来判别电脑的开关机情况？

业务流程思考

通过分析我们日常对电脑的操作，可以得出这些操作流程：

早上上班 =》打开电脑 =》电脑软件请求网络访问 =》防火墙记录请求日志 =》晚上下班 =》关闭电脑 =》防火墙不再有这台电脑的请求日志记录

业务问题思考

需要思考的问题有：

有时请假半天，只有半天的记录
请假一天，当天没有记录
电脑一直开着，没有关机
ip变更，有新机器加入网络或原ip改变了
节假日与工作日，电脑开机情况有很大差别
移动设备连接wifi如何区分
虚拟机如何处理

对于这些问题，我们可以做如下处理：

一天当中，挑选出4个时间段，查看是否有这些ip日志记录存在，有的则表示该时间段电脑处于开机状态，没有的则表示处于关机状态
4个时间段可以选早上10点到11点、下午15点到16点、凌晨2点到3点、4点到5点，白天只要有一条记录，则表示电脑开机了，凌晨只要有一条记录，则表示电脑没关机，而对于白天没有记录凌晨才有的，则记录为没关机状态
经查看日志数据分析，srcmac记录的并非是电脑网卡的mac，所以当前只能用ip地址来判断绑定电脑（如果防火墙能准确获取mac地址，则用mac判断指定电脑状态会更加准确）
需要设计ip表与状态表两个数据表，从日志中获取到未记录ip，需要先在ip表中进行添加，然后再更新状态表
每天需要为ip表记录在状态表里创建一条对应的绑定记录，因为员工请假后，当天没开机是没有记录的，除非不预测关机状态，只预测正常开关机与没关机两种状态
节假日与工作日的数据会有很大差别，需要作节假日判断，进行区分
移动设备如果在防火墙日志中区分不了，可使用独立的交换机与网段进行区分
虚拟机无法区分，也当作正常电脑来处理

基于KNN算法，数据结构的设计思考

针对KNN算法采用的是通过计算预测目标与学习数据集每个数据的差值，找出K个差值最小的数据，通过统计这些数据所属类别哪一个占比较大，来决定预测目标的类别方法。在做数据设计时，我们需要将ip、节假日和工作日转换为数值，这样才能通过计算学习，来判别指定ip在指定日期里，它的开关机状态可能是哪一种。

也就是说：我们需要将ip与节假日转化为可以进行加减运行的数值，方便和预测目标求差值，从而找出距离时最小的记录。

例如：我们将ip：192.168.10.10切分为4个数值，然后将它们分别乘于不同的256，计算得出一个唯一的数值，如：

192 * 256 * 256 * 256 + 168 * 256 * 256 + 10 * 256 + 10 = 3232238090

由于我们判断的是局域网的电脑，而这些电脑的网段都是以192.168开头的，所以我们只需要计算后面的差值即可：

10 * 256 + 10 = 2570

对于IP计算出来的值，为了区分每一个IP的变化状态，需要将结果再乘于500（到底乘多少需要根据其他参数值而定，只要能达到数据与数据的分隔就可以了），扩大数值的差距（因为每个人的操作习性不一样，IP差值太小时，很容易在预测计算时，发生越界，所求出差值最小的数据可能是多个不同ip的记录。比如192.168.10.10与192.168.10.11之间，相差1，预测时它们分别与其他参数相加，有可能筛选出来的结果就会混杂在一块）

(10 * 256 + 10) * 500 = 1285000

节假日与工作日，也可以转换为0至6（即周一到周日）来进行区分，对于周六、日等节假日，为了与工作日拉开距离，提升分析的准确率，值都设置为7。

而法定假期中，公历假期可以直接通过日期进行判断，农历假期则可以调用相关插件，获取农历日期来进行判断处理。对于节假日调休等情况，由于有更多的变数很难通过计算得知，对预测影响不大可以不作考虑。

通过上面转换，我们可以得出以下结果：

# 日期      IP           状态
2020-01-01 192.168.10.10 没开机 （周三，元旦） 2020-01-02 192.168.10.10 没关机 （周四） 2020-01-03 192.168.10.10 正常 （周五） 2020-01-04 192.168.10.10 没开机 （周六） 2020-01-05 192.168.10.10 没开机 （周日） 2020-01-06 192.168.10.10 正常 （周一） 2020-01-05 192.168.10.14 没开机 （周日） 2020-01-06 192.168.10.14 正常 （周一） # 转换结果为 # 日期 IP值 周数 2020-01-01 1285000 7 2020-01-02 1285000 3 2020-01-03 1285000 4 2020-01-04 1285000 7 2020-01-05 1285000 7 2020-01-06 1285000 0 2020-01-06 1287000 7 2020-01-06 1287000 0

当我们要预测日期为2020-01-10，IP为192.168.10.10的开关机状态时，就可以先将预测参数先转为对应的数值，即2020-01-10是周五，即值为4，IP值为1285000，这两个值做为参数代入KNN算法中进行计算。

# 计算结果（将学习数据集中每一条数据都与预测目标相减，并将数据中的值求平方后相加————主要是为了去除负数）

相减后IP值 相减后周数值 相减后两参数平方之和
0          3           9
0          -1 1 0 0 0 0 3 9 0 3 9 0 -4 16 2000 3 4000009 2000 -4 4000016

通过从小到大排序，如果K值取1，则可以得出与目标值最近的数据为2020-01-03 192.168.10.10 正常（周五）这一条数据，预测结果为“正常开关机”状态。

在做KNN预测时，数据量越大预测结果越准确，比如如果周五员工有8次正常开关机，2次没关机，预测结果肯定为正常开关机状态，在概率上更靠近真实结果。

而K的取值也是一样，通过使用大量数据进行测试，就可以找出预测成功率最高的区间，从而能更精确的进行预测。

在特征转数值时，有时候会遇到无法直接用数值代替的特征，可以使用索引或根据主观判断打分等方式进行转换，转换后需要使用大量数据对预测模型进行测试，然后根据预测结果的准确度进行微调，最终找到最优的数值模型。

ip表与状态表设计

ip表数据字典

表名	字段名称	字段类型	主键	默认值	字段说明
pc_info	id	serial	PK	0	主键Id
pc_info	label	text			电脑标签，标注是谁的电脑
pc_info	ip	text	IX		局域网内部ip
pc_info	ip_num	int		0	ip地址转int值

主要用来记录当前内网所使用的ip，绑定使用人信息，以及按前面要求，将ip转为数值，方便knn算法的计算使用

状态表数据字典

表名	字段名称	字段类型	主键	默认值	字段说明
pc_info	id	serial	PK	0	主键Id
pc_info	date	timestamp	IX		日期
pc_info	pc_info_id	int	IX	0	ip表id
pc_info	weekdays	int		0	周工作日标识：0~4=工作日（周一到周五）；7=休息日
pc_info	ten_points_state	int		0	10点开机状态
pc_info	fifteen_points_state	int		0	15点开机状态
pc_info	two_points_state	int		0	第二天凌晨2点开机状态
pc_info	four_points_state	int		0	第二天凌晨4点开机状态
pc_info	calculate	text			预测结果：normal=正常开关机;on=未关机;no_boot=没开机
pc_info	state	text		no_boot	电脑实际状态：normal=正常开关机;on=未关机;no_boot=没开机

状态表记录每天内部电脑的通讯情况记录，并根据这些记录所判别的电脑状态结果。同时也会记录使用KNN算法进行的预测结果，用于判断预测成功率。

3. 编码实现

编写代码实现前面设想的功能，需要分几个步骤处理，首先要做的是数据清洗，从日志中将我们需要的数据提取出来；然后对这些数据进行加工处理，转化为可能提供给机器学习算法使用的数据；然后再是编码算法代码，实现预测操作。

1)数据清洗

日志每五分钟会自动进行切割，生成新的日志文件，可以定时（前面所指定的检查时间）对日志文件进行批量检查处理。

本文主要是介绍根据KNN算法实现项目功能，所以略过数据清洗等功能实现。

针对我们想要实现的功能，我们只需要在固定时间段从日志中提取该时间内请求的所有ip即可。可以直接从日志文件中提取，也可以使用Flume+Kafka+HBase方式，将日志数据从各系统中收集整理好，再从HBase中获取。

# 10点防火墙请求ip集
192.168.10.38,192.168.20.30,192.168.20.23...192.168.20.34,192.168.20.41 # 15点防火墙请求ip集 192.168.10.28,192.168.10.23,192.168.10.26...192.168.20.9,192.168.20.15 # 第二天凌晨2点防火墙请求ip集 193.192.168.10.104,192.168.10.97,192.168.10.93...192.168.10.95,192.168.10.90 # 第二天凌晨4点防火墙请求ip集 192.168.10.96,192.168.10.66,192.168.20.89...192.168.10.57,192.168.10.73

2)数据加工

ip前面虽然已经提取出来了，但还需要将它们更新到数据库中，方便后续KNN算法的调用。所以需要实现一个状态更新服务，将清洗好的数据，更新到ip表与状态表中。

主要思路是：

开发一个pc状态定时更新服务，该服务在指定时间启动，读取清洗好的数据（ip列表），将这些ip记录更新到ip表中存储起来（已存在则不操作，不存在则添加）
在状态表为每一个ip创建一条对应的记录，日期为当天的时间。这主要是为了防止有些人请假或节假日关机，对应的ip没有请求日志，会被忽略掉。创建记录时，默认电脑实际状态为关机状态。
获取ip对应的id值，然后根据执行的时间，如果是白天则直接更新状态表中对应字段的状态值，表示该电脑已启动。如果是凌晨有记录，则表示该电脑一直未关机，将电脑状态更新为没关机状态。

"""
每天定时更新pc开关机状态服务
"""
import logging
import os
import sys
import json
import datetime
import zhdate
from common import log_helper, datetime_helper, hbase_helper, convert_helper
from common.string_helper import string
from config import const
from logic import pc_info_logic, pc_on_off_state_logic


# 获取本脚本所在的路径
pro_path = os.path.split(os.path.realpath(__file__))[0]
sys.path.append(pro_path)

# 定义日志输出格式
logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',
                    filename=const.SERVICE_LOG_FILE_PATH + "/pc_on_off_state_update_service.log",
                    filemode='a')

# 定义数据表名称
table = 'firewall'

def update_state(update_date, check_time):
    """
    更新pc开关机状态
    :param update_date: 更新状态的日期时间。需要判断是否是凌晨时间，凌晨是否开关机状态，需要同步的是昨天电脑状态数据，即下班后电脑开关机状态
    :param check_time: 状态检查时间为：早上10点，下午的15点和第二天凌晨2点与4点
    :return:
    """
    # 记录服务启动时间
    start_time = datetime.datetime.now()
    run_time_log = '\n-----------------------------------\n'
    run_time_log = run_time_log + '开始：' + str(start_time) + '\n'

    with hbase_helper.Hbase() as hbase:
        # 从hbase中读取指定时间已处理好（已清洗）的分析汇总信息
        result = hbase.get(table, 'summary:hour,{},60'.format(check_time))
        if not result:
            log_helper.info('summary:hour,{},60 数据不存在'.format(check_time), True)
            return
        # 获取各防火墙ip访问统计数据，并转为json格式
        data = json.loads(result['log_analysis:data'])
        # 提取研发部该时间段内所有记录在防火墙日志中的ip数据，并过滤掉非研发部的其他ip数据
        # ['192.168.10.38','192.168.20.30','192.168.20.23'...'192.168.20.34','192.168.20.41']
        ips = [ip for dev in data for ip in data[dev] if '192.168.10.' in ip or '192.168.20.' in ip]
        # 对ip数据进行去重操作
        ips = set(ips)
        # 判断日期是否是工作日，并返回对应日期的值
        weekdays = get_weekdays(update_date)
        # 初始化状态表逻辑类
        _pc_on_off_state_logic = pc_on_off_state_logic.PcOnOffStateLogic()
        # 检查当天的状态数据是否已生成，未生成则进行批量添加操作
        if not _pc_on_off_state_logic.exists('date=\'{}\''.format(update_date)):
            _pc_on_off_state_logic.execute('insert into pc_on_off_state(date, pc_info_id, weekdays) select \'{}\', id, {} from pc_info'.format(update_date, weekdays))
        # 初始化ip表逻辑类
        _pc_info_logic = pc_info_logic.PcInfoLogic()
        # 遍历所有ip，并对这些ip进行相关的处理操作
        for ip in ips:
            # 检查当前ip是否已添加到ip表，不存在的则进行添加操作
            model = _pc_info_logic.get_model_for_cache_of_where('ip=\'{}\''.format(ip))
            if not model:
                # 将ip转为数值
                _ip = ip.split('.')
                ip_num = (convert_helper.to_int0(_ip[2]) * 256 + convert_helper.to_int0(_ip[3])) * 500
                # 组合ip表更新数据
                fields = {
                    'ip': string(ip),
                    'ip_num': ip_num
                }
                # 添加新ip记录
                model = _pc_info_logic.add_model(fields, returning='*')
                # 状态表也添加一条新的ip记录
                _pc_on_off_state_logic.add_model({'date': string(update_date), 'pc_info_id': model.get('id')})

            # 组合状态表更新数据
            fields = {
                'date': string(update_date),
                'pc_info_id': model.get('id'),
                'weekdays': weekdays,
                'state': string('normal')   # 只要有ip请求，即表示该电脑当开已开机，设置它的默认值为正常开关机状态
            }
            # 通过判断当前检查时间，来同步更新各时间段的状态
            if check_time.hour == 10:
                fields['ten_points_state'] = 1
            elif check_time.hour == 15:
                fields['fifteen_points_state'] = 1
            # 凌晨只要有一条请求记录，就表示这台电脑没有关机
            elif check_time.hour == 2:
                fields['two_points_state'] = 1
                fields['state'] = string('on')  # 设置为没关机状态
            elif check_time.hour == 4:
                fields['four_points_state'] = 1
                fields['state'] = string('on')
            # 更新状态表数据
            _pc_on_off_state_logic.edit(fields, 'date=\'{}\' and pc_info_id={}'.format(update_date, model.get('id')))

    # 记录程序运行结束时间
    run_time_end = datetime.datetime.now()
    run_time_log = run_time_log + '服务执行结束：' + str(run_time_end) + '\n'
    run_time_log = run_time_log + '总用时：' + str(run_time_end - start_time) + '\n'
    run_time_log = run_time_log + '-----------------------------------\n'
    print(run_time_log)

def get_weekdays(date):
    """判断日期是否是工作日，并返回对应标识"""
    if is_holidays(date):
        return 7
    elif date.weekday() >= 5:
        return 7
    return date.weekday()


def is_holidays(date):
    """
    判断是否为节假日
    :param date: 需要检测的日期
    :return: 返回True或False
    """
    # 判断是否是阳历的节假日（元旦、五一、十一）
    if (date.month == 1 and date.day == 1) or (date.month == 5 and date.day == 1) or \
            (date.month == 10 and (date.day >= 1 or date.day <=7)):
        return True
    # 使用zhdate包，将阳历日期转换成农历日期对象
    lunar_calendar = zhdate.ZhDate.from_datetime(datetime.datetime(date.year, date.month, date.day))
    # 检查是否是过年、端午节和中秋节，清明暂时无法计算出来，不做判断
    lunar_calendar = lunar_calendar.chinese()
    if '腊月二十八' in lunar_calendar or '腊月二十九' in lunar_calendar or '腊月三十' in lunar_calendar or \
            '正月初一' in lunar_calendar or '正月初二' in lunar_calendar or '正月初三' in lunar_calendar or \
            '正月初四' in lunar_calendar or '正月初五' in lunar_calendar or '正月初六' in lunar_calendar or \
            '五月初五' in lunar_calendar or '八月十五' in lunar_calendar:
        return True
    return False


if __name__ == '__main__':
    ### 接收参数 ###
    if len(sys.argv) < 2:
        # 检查时间为10点、15点和第二天凌晨2点与4点，日志数据的清洗，也需要等该时间过后日志记录全部生成才能进行，
        # 所以运行本服务需要延后一小时，而更新处理时间得减1，调整回指定的时间
        now = datetime_helper.timedelta('h', datetime.datetime.now(), -1)
    else:
        log_helper.info('接收参数：' + sys.argv, True)
        # 接收命令行参数，设置日志分析起始时间
        now = convert_helper.to_datetime(sys.argv[1])

    if not now:
        log_helper.info('日期参数格式必须为：2019-11-11 11:00:00', True)
        sys.exit()

    # 设置更新数据的日期
    update_date = now.date()
    # 设置检查时间
    check_time = datetime.datetime(now.year, now.month, now.day, now.hour)

    # 检查是否是凌晨，凌晨的开关机状态同步的是昨天电脑状态数据，即下班后电脑开关机状态
    if now.hour < 6:
        # 设置日期为昨天
        update_date = datetime_helper.timedelta('d', now, -1).date()

    # 执行状态更新操作
    update_state(update_date, check_time)

    log_helper.info('任务提交完毕', True)

更新后数据表结果

3)使用KNN算法实现预测功能

从数据表中获取机器学习数据

    # 初始化ip表与状态表逻辑类
    _pc_info_logic = pc_info_logic.PcInfoLogic()
    _pc_on_off_state_logic = pc_on_off_state_logic.PcOnOffStateLogic()
    # 组合sql查询语句，获取最近2个月的分析数据作为机器学习数据
    # select pc_info.id,ip,ip_num,weekdays,state from pc_info left join pc_on_off_state on pc_info.id=pc_on_off_state.pc_info_id where '2019-11-12'<=date and date<'2020-01-11'
    sql = """
        select pc_info.id,ip,ip_num,weekdays,state
        from pc_info left join pc_on_off_state on pc_info.id=pc_on_off_state.pc_info_id
        where '{}'<=date and date<'{}'
    """.format(datetime_helper.timedelta('d', date, -60), datetime_helper.to_today())
    # 提交查询，获取列表数据
    # [{'id': 101, 'ip': '192.168.10.19', 'ip_num': 1289500, 'weekdays': 2, 'state': 'on'}, {'id': 100, 'ip': '192.168.20.2', 'ip_num': 2561000, 'weekdays': 2, 'state': 'on'}, ...]
    result = _pc_info_logic.select(sql)
    
    # 从查询结果列表中，提取ip_num与weekdays两个字段值，并组成list
    # [[1289500, 2], [2561000, 2], ...]
    ml_data = [[item['ip_num'], item['weekdays']] for item in result]
    # 将最后一列值存储到标签集中（特征所对应的答案）
    # ['on', 'on', 'on', 'normal', ... ]
    ml_label = [item['state'] for item in result]
    
    # 将数组转换为numpy数组，得到机器学习数据矩阵ml_data
    # [[1289500, 2]
    #  [2561000, 2]
    #  [1355000, 2]
    #  ...]
    ml_data = numpy.array(ml_data)
    # 将数组中的值由字符串转为浮点型（int型数值如果不进行归一化处理，当数比较大时执行平方操作，会让值溢出越界，正数值变成负数值，产生错误）
    # [[1.2895e+06, 2.0000e+00]
    #  [2.5610e+06, 2.0000e+00]
    #  [1.3550e+06, 2.0000e+00]
    #  ...]
    ml_data = ml_data.astype(float)
    
    # 到此，我们已获得机器学习需要使用到的数据矩阵ml_label以及对应的标签（答案）ml_label

对每个ip分别进行预测操作

从ip表中读取全部ip数据，对每个ip分别进行预测，将预测结果更新到状态表中

    # 获取当前日期
    date = datetime.datetime.now().date()
    # 检查当前时间是否为节假日
    weekdays = get_weekdays(date)
    # 添加当天需要预测与记录的数据
    if not _pc_on_off_state_logic.exists('date=\'{}\''.format(date)):
        _pc_on_off_state_logic.execute('insert into pc_on_off_state(date, pc_info_id, weekdays) select \'{}\', id, {} from pc_info'.format(date, weekdays))

    # 从ip表中读取全部ip数据
    result = _pc_info_logic.get_list(is_return_list=True)
    # 对每个ip分别进行预测
    for item in result:
        # 获取id、ip和ip值参数
        id = item.get('id')
        ip = item.get('ip')
        ip_num = item.get('ip_num')
        # 组合成预测参数
        # [1.299e+06, 7.000e+00]
        check_data = numpy.array([ip_num, weekdays])
        check_data = check_data.astype(float)
        # 进行预测操作
        label = knn_helper.knn_classify(ml_data, ml_label, check_data, 9)

        # 组合更新字段，更新预测结果
        fields = {
            'calculate': string(label)
        }
        _pc_on_off_state_logic.edit(fields, 'date=\'{}\' and pc_info_id={}'.format(date, id))

KNN算法实现

下面有两种完成KNN算法的代码，方法一利用python的特性简化的代码，方法二是对算法进行拆解说明的方法，代码实现主要参考： https://github.com/apachecn/AiLearning/blob/master/docs/ml/2.k-近邻算法.md 文档

# 实现方法一
def knn_classify(ml_data, ml_label, test_data, k):
    """
    kNN分类算法函数
    :param ml_data: 训练数据特征集（features）
    :param ml_label: 训练数据特征标签集（labels————特征集答案）
    :param test_data: 用于knn分类测试的数据
    :param k: 选择最近邻的数目
    :return: 返回knn算法预测的结果（所对应的标签值————分类值label）
    """
    # 让预测参数矩阵（test_data）对每一个训练集矩阵（ml_data）相减，并求平方值（将负数转为正数），
    # 然后对矩阵中的值执行求和运算，得出每个训练集矩阵数据与预测参数矩阵的距离值
    distances = numpy.sum((test_data - ml_data) ** 2, axis=1)
    # 将矩阵距离值（distances）从小到大排序，并提取其对应的index（索引），然后用索引值生成新的矩阵
    # 只取出排在前k位的索引值，用于ml_label提取对应的标签
    labels = [ml_label[index] for index in distances.argsort()[0: k]]
    # 使用Counter函数统计列表（labels）中，各标签出现的次数，并按从大到小排列，
    # 然后返回标签数最多的元素，将这个元素的标签返回给调用程序
    return Counter(labels).most_common(1)[0][0]

# 实现方法二
def knn_classify2(ml_data, ml_label, test_data, k):
    """
    kNN分类算法函数
    :param ml_data: 训练数据特征集（features）
    :param ml_label: 训练数据特征标签集（labels————特征集答案）
    :param test_data: 用于knn分类测试的数据
    :param k: 选择最近邻的数目
    :return: 返回knn算法预测的结果（所对应的标签值————分类值label）
    """
    ### 1. 距离计算
    # 获取训练集数据大小
    data_size = ml_data.shape[0]

    # 使用numpy的tile函数，生成和训练样本对应的矩阵，并与训练样本求差
    """
    tile会将第一参数中的数组复制成指定数量的矩阵
    比如：numpy.tile(test_data, (10, 1))
        test_data = [1.299e+06, 7.000e+00]
        当第二个参数为(5, 1)时，则表示会将创建一个行数为10的1维数组集，每一行等于test_data值的矩阵
        即：
        result = [[1.299e+06, 7.000e+00],
                  [1.299e+06, 7.000e+00],
                  [1.299e+06, 7.000e+00],
                  [1.299e+06, 7.000e+00],
                  [1.299e+06, 7.000e+00]]

    numpy.tile(test_data, (data_size, 1))
    则会用test_data数据生成一个与ml_data一样大小的一个矩阵，用于与ml_data进行运算
    """
    data_tile = numpy.tile(test_data, (data_size, 1))

    # 将测试数据test_data生成的矩阵与训练数据特征集数据ml_data相减，求两者的不同点
    """
    比如训练集矩阵
    ml_data = [[1.2895e+06, 2.0000e+00]
               [2.5610e+06, 2.0000e+00]
               [1.3550e+06, 2.0000e+00]
               [1.3615e+06, 2.0000e+00]
               [2.5720e+06, 2.0000e+00]
               [1.2815e+06, 2.0000e+00]
               ...]
    data_tile - ml_data = [[ 9.5000e+03, 5.0000e+00]
                           [-1.2620e+06, 5.0000e+00]
                           [-5.6000e+04, 5.0000e+00]
                           [-6.2500e+04, 5.0000e+00]
                           [-1.2730e+06, 5.0000e+00]
                           [ 1.7500e+04, 5.0000e+00]
                           ...]
    """
    diff_mat = data_tile - ml_data

    # 矩阵相减计算出的结果求平方值
    # 通过前面两个矩阵求差值后，得出的矩阵中的值有可能为负数，求平方是让结果全都变为正数，方便后面对结果进行比较与排序
    """
    # 对矩阵里的每个值都求平方，这些值可能会有点大，可以在前面做归一化处理，让这些值变小
    diff_mat_square = [[9.02500000e+07, 2.50000000e+01]
                       [1.59264400e+12, 2.50000000e+01]
                       [3.13600000e+09, 2.50000000e+01]
                       [3.90625000e+09, 2.50000000e+01]
                       [1.62052900e+12, 2.50000000e+01]
                       [3.06250000e+08, 2.50000000e+01]
                       ...]
    """
    diff_mat_square = numpy.square(diff_mat)

    # 将矩阵的每一行相加
    """
    将预测参数矩阵与训练集矩阵求差求平方后，得出的结果再相加，这样就可以计算出预测参数与训练集中每个数据的距离（差距）值了，差距值越小，就表示与预测结果越相似
    distances = [9.02500250e+07, 1.59264400e+12, 3.13600002e+09 ...]
    """
    distances = diff_mat_square.sum(axis=1)

    # 根据距离排序从小到大的排序，返回对应的索引位置
    """
    argsort() 会将矩阵（distances）中的值从小到大排列，并提取其对应的index（索引），然后用索引值生成新的矩阵
    例如：
        y = numpy.array([8,0,52,7,66,21,36])
        矩阵y使用argsort函数进行排序后，值为其值的索引组成的矩阵
        y.argsort() = numpy.array([1,3,0,5,6,2,4])
        表示的是y[1] < y[3] < y[0] < y[5] < y[6] < y[2] < y[4]
              即：0 < 7 < 8 < 21 < 36 < 52 < 66

    使用distances.argsort()即表示，通过以上的计算，根据前面计算结果的相似度，生成了最相似的排序，排在最前面的验证码与测试验证码最相似
    distances_sort = [4172, 3896, 4160, 388, 4048, 3038, 3097, 1035, 3141 ...]
    """
    distances_sort = distances.argsort()

    ### 2. 从排序中，选取距离最小的k个点（选取与测试验证码最相似的k个训练数据）
    class_count = {}
    for i in range(k):
        # 从学习标签集（答案集）中提取最相似的标签值
        label = ml_label[distances_sort[i]]
        # 通过字典累加的方式，统计最相似的各个标签数量
        # class_count = {'no_boot': 3, 'on': 5, 'normal': 1}  表示经过相似度计算，与测试相似的值中，no_boot有3个，on有5个，normal有1个
        class_count[label] = class_count.get(label, 0) + 1

    # 3. 将相似度统计结果从大到小进行排序
    # class_count_sorted = [('on', 5), ('no_boot', 3), ('normal', 1)]
    class_count_sorted = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)

    # 返回第一个（数量最多）的标签
    return class_count_sorted[0][0]

预测后数据表结果

3. KNN算法参数调优

完成开发以后，预测的准确率并不一定是最高的，需要调整算法的K值参数，以及对数据进行优化调整，才可能提升预测成功率。

K值的调整比较简单，只需要写一个脚本，通过调整K值的大小，对历史数据进行预测，并将预测结果与实际结果进行比较，计算出预测的准确率，然后汇总所有预测准确率计算其平均值，得出不同K值情况下，使用不同数量机器训练数据所预测出来的准确率，从中找出最优预测结果的参数，数据项与K值参数来使用。

对于数据，需要对加工后的数据（KNN训练数据集）进行检查，查看里面的数据是否准确，是否存在问题，算法与规则是否符合要求。

比如这个例子中，weekdays值的变化，对预测结果有什么样的影响？对于节假日调休，对长期的预测准确率会有什么影响？ip转为int值后是否需要将ip之间拉开距离？拉开ip值与值距离的参数怎么设置？用10、50、100等值，会造成什么样的影响？为什么要用500？如果预测参数由两个变为更多时，这个值应该怎么设置？训练数据混杂在一块，对测试结果有什么影响？是否需要故意混杂这些数据，用于计算最近距离的数据有更多的可能性？在代码运行过程中，也需要通过debug或打印结果的方式进行查看分析，比如不使用浮点类型和归一化矩阵数据时，会有什么样的影响？对预测准确率有什么影响？如果一个ip使用很长时间后，不再使用或者某种习惯改变了，对于预测结果有什么样的影响？应该如何优化？参数应该如何设置才更加合理？

在算法参数调优时，需要多开动脑筋，多观察多思考多问为什么，这样才能及时发现问题，并对问题进行修正，多动手测试数据，才能找出最优的参数设置。

4. 其他例子

验证码识别与约会数据学习例子代码：

Knn算法例子

5. 参考资料

https://github.com/apachecn/AiLearning/blob/master/docs/ml/2.k-近邻算法.md

https://baike.baidu.com/item/k近邻算法/9512781?fr=aladdin

你可能感兴趣的:(机器学习（06）——K近邻算法实战)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
2018-12-07 旅一06丁琪琪
旅管一班6组学号链接06丁琪琪16家国鑫26孟令慧30王思宁36温红丽46朱赵筱楠
#开始记日记#1235 胃口不好吃饺子董克平日记
2020/06/24星期三北京吃个醋拌茄子消暑珠珠送了一个父亲节礼物，要我陪她一起去体检。这些年身上多了许多毛病，血压、血脂、血糖都需要吃药维持了，上一次体检知道血糖已经到了临界点，可是也没有予以重视，继续大吃大喝少锻炼，结果可想而知，现在是每一餐都离不开二甲双胍了。不过我还是不愿意去体检，总觉得体检没什么用，身体有毛病就去看医生，体检又不治病。我对体检的看法是“小病不用治，大病治不了”，通过体检
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
2023-06-19【感恩日记】第246篇 o泡沫o
思想日记：坚持下去，相信自己一定可以的【感恩日记】第246篇1.我真是太幸福啦！感恩孩子早起阅读，放学到学生之家完成作业，平安度过美好的一天。感恩！感恩！感恩！❤️2.我真是太幸福啦！感恩自己早起给孩子煮早餐，完成计划的工作，晚上学习。感恩！感恩！感恩！❤️3.我真是太幸福啦！感恩为我设计效果图的老师。感恩！感恩！感恩！❤️4.我真是太幸福啦！感恩父母养育了我，有妈的孩子真幸福。感恩！感恩！感恩！
06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
淘陶居老袁藏品东海堂
【造像艺术】文化遗产•汉地木造像的区域特征、古代精品造像欣赏。。。。。。（来源：蠢牛/颜旭茂）原创2016-06-12作者：作者：蠢牛（颜旭茂）木造像的地位一直挺尴尬的。国外大型博物馆的木造像基本都是宋元以前的，明代只藏极品。国内也就故宫、国博和上博有能力弄几尊宋木，山西省博貌似只有一尊顶级的明代菩萨能拿得出手，其他木雕大省的博物馆再怎么也应当展示些明清木雕吧，总比同时代那什么坛坛罐罐更有艺术性。
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
今天是总结薛帅
今天来个最后一天的总结。为什么要学习写作技巧呢？就如同建房子，如果想要住的安全、舒服，我们要先打地基，建房子的框架，这样才能随意的装修。那么我们要怎么建好才能建好写作的地基呢？1走直路，少弯路01利他：能够给别人带来价值。02吸引：吸住读者的眼球。03打动：打动人心，引起共鸣。04说服：用数据说话。05刻意：通过有意识的训练。06修改：好的文章至上修改10遍。07模仿：10万+的文章必有成功的道理
2022-06-29 感恩学习相信小陶
感恩！六点签到相信很多人都有过这样的经验，拼命想的时候答案怎么都想不出来，不去想的时候，答案却自动冒出来了。为什么？这是因为潜意识也会工作，它非常神奇。你要相信，那些百思不得其解的问题早已扎根在你的头脑中，即使你不再刻意去想，潜意识也会自动围着它转。或许有一天，你会突然得到答案。这也是为什么有时我们会有顿悟的感觉。学会等待，也是进行持续思考的一个重要方法。
2022-07-06学会放手杨晓玲乐平市第十一小学
2022年7月5日星期一晴今天结束了国培培训，上午收拾好物品，带着孩子整理心情，带着憧憬去到孩子新的学校，因为从小我有意培养孩子自己整理自己内务，孩子很认真的把自己要用的都整理好，不用的都另外装好，这一点孩子的能力还是挺强的。把自己的行李按学校提出的要求认真的整理好，我们便出发了。我们早早的来到学校，时间还早，便让她到阿姨那休息了一会儿，每去到一个新的地方，能迅速的安顿下来，这是非常好的。时间很快
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
2023-06-26我试着不把“渣”字套在女儿爸爸头上女人生活教训
从当年的真爱无比，到现在我也成了你凑活过的人了？靠着什么.....责任已经丢失了，那就是残存的一点点良知和懦弱吧。不，那是用我的宽容还维系的家庭、是我对你的救赎。而尘封的情感永远动人，你在想着什么，而我和婚姻又成了什么，把自己放在厨房的一角，把我和家庭各在了门外，成了你独自抽烟时我不懂的那个人。我怎么能知道，那个人是烦闷空虚的结果，还是你人性的弱点、还是真爱至此呢？对于爱呆在厨房抽烟的你，是仅仅抽
晨间日记时光分拣机
一日一诗赠别（一）唐-杜牧娉娉袅袅十三余，豆蔻梢头二月初。春风十里扬州路，卷上珠帘总不如。https://mp.weixin.qq.com/s/DRQzfcPvFkcGBBOR06PbEw图片发自App
2021-01-06 如鱼饮水2020
中原焦点团队网络初23期坚持分享第186天，约练第36场，本周4，咨14（20210106）生物钟自然醒，一看有个九点的约练，只有半小时，风一样解决起床、早餐、买菜日常必修课。准点进入约练房间。聊点什么呢，还是聊点自己内心抵触当来访者的话题，想看看两位老师会怎样帮忙梳理，不想当来访者的来访者。诉说自己从小父母宠爱，老公溺宠，不知天高地厚，也不知人情世故，更不知道察言观色，一直活在自己的世界里。被宠
2021-06-07 Do What You Are Meant To Do 春生阁
Don’tgiveupontryingtofindbalanceinyourlife.Sticktoyourpriorities.Rememberwhat’smostimportanttoyouanddoeverythingyoucantoputyourselfinapositionwhereyoucanfocusonthosepriorities,ratherthanbeingpulledbyt
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
2023-06-14 0t88lw
题明-文徵明《松林古寺图》松林古寺访诗僧，高士策杖童携琴。弹奏吟哦夕阳里，遣兴抒怀暮霭临。
2022-07-06 榜一大哥啊
非洲猪瘟检测流程要点1、进入实验室按照要求穿好装备进入实验室，病原稀释及制备，将实验用假阳性按照倍数稀释，最高稀释到一万倍。所有操作流程都在生物安全柜进行，按照流程进行编号，编写检测编号。在每个实验室都要将白大褂以及手套进行更换。2、到试剂准备区进行试剂准备，按照样品数量加阴阳对照进行配备，该项目在超净工作台进行。将制备好的试剂放入传递窗，进入核酸提取环节。3、核酸提取区，进行核酸提纯，用磁吸法核
广告你哦哦
图片1头http://120.77.37.40/yhml/xiaode/lun1.jpg图片1尾图片2头http://pic2016.ytqmx.com:82/2017/0220/35/06.jpg!960.jpg图片2尾图片3头http://pic2016.ytqmx.com:82/2017/0220/35/15.jpg!960.jpg图片3尾广告1头http://wm.video.baomih
2023-02-06 暖暖de严严
中原焦点团队第33期中级班学员坚持分享第353天总约练124次来访者83观察员37咨询师4过了正月十五，这个年也就算过去了。早上起床，竟然也有种不想上班的感觉。当然，这只是一瞬间的想法，责任还是促使自己立马行动起来。审视自己的生活：我对自己的要求都达到了吗？那些列在计划表上的内容都在慢慢实施了吗？那些简单易行的生活好习惯，都在坚持吗？终生学习的任务，有在完成吗？最近工作开始忙碌，手上的工作都在按步
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
2021-04-06 四叶草_add9
中原焦点团队李金梅坚持分享第549天2021.4.6凌晨两点多忽然被乳腺疼痛惊醒，上完课后我便去了医院，结果显示三级，预约了穿刺。乳腺疾病与情绪和压力紧密相关，看来是身体向我发出信号了，果真比大脑更智慧。但愿这个信号发的并不算迟，给自己减减压，面对孩子，从心底里接纳吧！面对工作，不用精益求精，尽力就好。
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin