不要迷恋发哥

阿里AI天池大赛-阿里云安全恶意程序检测-TF-IDF特征+XGBoost与LightGBM模型融合

1：报名地址

https://tianchi.aliyun.com/competition/entrance/231694/rankingList

2：排名分数

3：模型源码

废话不多说，直接上源码

import pandas as pd

# 分段数据加载基础方法
def get_data(file_name):
    result = []
    chunk_index = 0
    for df in pd.read_csv(open(file_name, 'r'), chunksize = 1000000):
        result.append(df)
        #print('chunk', chunk_index)
        chunk_index += 1
    result = pd.concat(result, ignore_index=True, axis=0)
    return result
#数据加载
test = get_data('./security_test.csv')
train = get_data('./security_train.csv')

#将数据采用pickle方式存储
import pickle
with open('./train.pkl', 'wb') as file:
    pickle.dump(train,file)
    
with open('./test.pkl', 'wb') as file:
    pickle.dump(test,file)
    
    
import pandas as pd
# 对api字段进行LabelEncoder
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
# 将训练集 和 测试集进行合并
df_all = pd.concat([train, test])
df_all['api'] = le.fit_transform(df_all['api'])
df_all[['api']]


# 提取train['api']
train['api'] = df_all[df_all['label'].notnull()]['api']
test['api'] = df_all[df_all['label'].isnull()]['api']


#定义重要特征，主要包括数量，最大值，最小值，平均值等等
def get_features(df):
    df_file = df.groupby('file_id')
    if 'label' in df.columns: 
        df1 = df.drop_duplicates(subset=['file_id', 'label'], keep='first')
    else:
        df1 = df.drop_duplicates(subset=['file_id'], keep='first')
    df1 = df1.sort_values('file_id')
    features = ['api', 'tid', 'index']
    for f in features:
        df1[f+'_count'] = df_file[f].count().values
        df1[f+'_nunique'] = df_file[f].nunique().values
        df1[f+'_min'] = df_file[f].min().values
        df1[f+'_max'] = df_file[f].max().values
        df1[f+'_mean'] = df_file[f].mean().values  
        df1[f+'_median'] = df_file[f].median().values  
        df1[f+'_std'] = df_file[f].std().values  
        df1[f+'_ptp'] = df1[f+'_max'] - df1[f+'_min']
    return df1


#训练集与测试集添加特征
df_train = get_features(train)
df_test = get_features(test)

#将特征的结果集保持，一遍后续直接使用
df_train.to_pickle('.df_train.pkl')
df_test.to_pickle('./df_test.pkl')


#再次加载原始的训练集与测试集
with open('./train.pkl', 'rb') as file:
    train = pickle.load(file)
    
with open('./test.pkl', 'rb') as file:
    test = pickle.load(file)


def get_apis(df):
    # 按照file_id进行分组
    group_fileid = df.groupby('file_id')    
    # 统计file_id 和对应的 api_sequence
    file_api = {}    
    # 计算每个file_id的api_sequence
    for file_id, file_group in group_fileid:
        # 针对file_id 按照线程tid 和 顺序index进行排序
        result = file_group.sort_values(['tid', 'index'], ascending=True)
        #得到api的调用序列
        api_sequence = ' '.join(result['api'])
        #print(api_sequence)
        file_api[file_id] = api_sequence
    return file_api


train_apis = get_apis(train)
test_apis=get_apis(test)


with open('./df_train.pkl', 'rb') as file:
    df_train = pickle.load(file)
    
with open('./df_test.pkl', 'rb') as file:
    df_test = pickle.load(file)
    
df_train.drop(['api','tid','index'],axis=1,inplace=True)
df_test.drop(['api','tid','index'],axis=1,inplace=True)


temp = pd.DataFrame.from_dict(train_apis, orient='index', columns=['api'])
temp = temp.reset_index().rename(columns={'index': 'file_id'})
df_train = df_train.merge(temp, on='file_id', how='left')

temp = pd.DataFrame.from_dict(test_apis, orient='index', columns=['api'])
temp = temp.reset_index().rename(columns={'index': 'file_id'})
df_test = df_test.merge(temp, on='file_id', how='left')

df_all = pd.concat([df_train, df_test], axis=0)


from sklearn.feature_extraction.text import TfidfVectorizer
#使用1-3元语法（1元语法 + 2元语法 + 3 元语法）
vec=TfidfVectorizer(ngram_range=(1,3),min_df=0.01)
api_features=vec.fit_transform(df_all['api'])

df_apis = pd.DataFrame(api_features.toarray(), columns=vec.get_feature_names())
df_apis.to_pickle('./df_apis.pkl')



df_train_apis=df_apis[df_apis.index<=13886]
df_test_apis=df_apis[df_apis.index>13886]

df_test_apis.index=range(len(df_test_apis))

# 将tfidf特征 与原特征进行合并
df_train = df_train.merge(df_train_apis, left_index=True, right_index=True)
df_test = df_test.merge(df_test_apis, left_index=True, right_index=True)

df_train.to_pickle('./df_train2.pkl')
df_test.to_pickle('./df_test2.pkl')

df_train.drop('api', axis=1, inplace=True)
df_test.drop('api', axis=1, inplace=True)


#LightGBM模型
import lightgbm as lgb
clf = lgb.LGBMClassifier(num_leaves=2**5-1,reg_alpha=0.25,reg_lambda=0.25,objective='multiclass',                              max_depth=-1,learning_rate=0.005,min_child_sample=3,random_state=2021,
                              n_estimators=2000,subsample=1,colsample_bytree=1)
 
clf.fit(df_train.drop(['label'],axis=1),df_train['label'])
 

result = clf.predict_proba(df_test)
result
result_lgb = pd.DataFrame(result, columns=['prob0','prob1','prob2','prob3','prob4','prob5','prob6','prob7'])
result_lgb['file_id'] = df_test['file_id'].values
result_lgb


#XGBoost模型
import xgboost as xgb
model_xgb = xgb.XGBClassifier(
            max_depth=5, learning_rate=0.005, n_estimators=3250, 
            objective='multi:softprob', tree_method='auto', 
            subsample=0.8, colsample_bytree=0.8, 
            min_child_samples=3, eval_metric='logloss', reg_lambda=0.5)
model_xgb.fit(df_train.drop('label', axis=1), df_train['label'])

result_xgb = model_xgb.predict_proba(df_test)

result_xgb = pd.DataFrame(result_xgb, columns=['prob0','prob1','prob2','prob3','prob4','prob5','prob6','prob7'])
result_xgb['file_id'] = df_test['file_id'].values

# 对两个模型的结果 进行加权平均
result = result_lgb.copy()
weight_lgb, weight_xgb = 0.5, 0.5
result['prob0'] = result['prob0'] * weight_lgb + result_xgb['prob0'] * weight_xgb
result['prob1'] = result['prob1'] * weight_lgb + result_xgb['prob1'] * weight_xgb
result['prob2'] = result['prob2'] * weight_lgb + result_xgb['prob2'] * weight_xgb
result['prob3'] = result['prob3'] * weight_lgb + result_xgb['prob3'] * weight_xgb
result['prob4'] = result['prob4'] * weight_lgb + result_xgb['prob4'] * weight_xgb
result['prob5'] = result['prob5'] * weight_lgb + result_xgb['prob5'] * weight_xgb
result['prob6'] = result['prob6'] * weight_lgb + result_xgb['prob6'] * weight_xgb
result['prob7'] = result['prob7'] * weight_lgb + result_xgb['prob7'] * weight_xgb
columns = ['file_id', 'prob0','prob1','prob2','prob3','prob4','prob5','prob6','prob7']
result.to_csv('./0.47.csv', index=False, columns=columns)

4：提分要领

1：单个模型，例如只使用XGBoost模型，经过测试只达到了0.72分

2：该源码中模型融合是提分的关键，此处是直接采用五五分，将预测结果直接进行加权计算，关于模型融合，可以自行调整其中权重，或者基于预测结果计算之后加权。

3：TF-IDF特性也是此处的提分关键。

5：知识扩展

1：大数据处理（chunksize）

chunksize使用： pandas使用chunksize分块处理大型csv文件

chunksize，单个IO大小，设置越大占用内存高，需要的iteration少，速度快

方法1： for df in pd.read_csv(open(file_name, 'r'), chunksize = 100000):

方法2： # 获取读文件指针 data=pd.read_csv(filename, iterator=True)

# 顺序读取100000行数据 chunk = data.get_chunk(100000)

2：N-Gram特征

基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关.

N=1时为unigram，N=2为bigram，N=3为trigram

N-Gram指的是给定一段文本，其中的N个item的序列

比如文本：A B C D E，对应的Bi-Gram为A B, B C, C D, D E

当一阶特征不够用时，可以用N-Gram做为新的特征。比如在处理文本特征时，一个关键词是一个特征，但有些情况不够用，需要提取更多的特征，采用N-Gram => 可以理解是相邻两个关键词的特征组合。

3：TF-IDF计算

TF：Term Frequency，词频一个单词的重要性和它在文档中出现的次数呈正比。

IDF：Inverse Document Frequency，逆向文档频率

一个单词在文档中的区分度。这个单词出现的文档数越少，区分度越大，IDF越大。

4：常见的特征工程

提取字段的个数 count()

唯一值个数 nunique()

统计特征 min, max, mean, std，ptp

5：模型选择先用哪个

使用LightGBM 祖传参数

clf = lgb.LGBMClassifier(
            num_leaves=2**5-1, reg_alpha=0.25, reg_lambda=0.25, objective='multiclass',
            max_depth=-1, learning_rate=0.005, min_child_samples=3, random_state=2021,
            n_estimators=2000, subsample=1, colsample_bytree=1)

使用XGBoost

model_xgb = xgb.XGBClassifier(
            max_depth=9, learning_rate=0.005, n_estimators=2000, 
            objective='multi:softprob', tree_method='gpu_hist', 
            subsample=0.8, colsample_bytree=0.8, 
            min_child_samples=3, eval_metric='logloss', reg_lambda=0.5)

6：XGBoost与LightGBM模型融合，效果会有提升吗

不一定，可能会下降

你可能感兴趣的:(AI比赛,python,大数据,人工智能,数据挖掘)

python网络爬虫——爬取新发地农产品数据张謹礧 python网络爬虫 python 爬虫开发语言
这段代码是一个爬取新发地蔬菜价格信息的程序，它使用了多线程来加快数据获取和解析的速度。具体的步骤如下：导入所需的库：json、requests、threading和pandas。初始化一些变量，包括页数、商品总列表以及存放json数据的列表。定义了一个函数url_parse()，用于发送请求并解析网页数据。函数使用requests.post()方法发送POST请求，获取商品信息，并将其保存到jso
python pip怎么升级_使用Python pip怎么升级pip weixin_39608118 python pip怎么升级
Pip是一个Python的包管理工具，实际上它也可以被看待为是一个包，Pip相当于Linux上的yum，对python的开发者来说相当方便。我们再也无需去焦头烂额的寻找whl包，直接通过pip就可以在线安装(前提是有网络+pip版本合适的情况下)可见pip的版本更新是相当重要的，今天小编就来教大家怎么升级pip方法/步骤我们首先来看看pip的版本。pipshowpip可以看到，小编这里的pip版本
python数据分析之爬虫基础：爬虫介绍以及urllib详解 web13765607643 python 数据分析爬虫
前言在数据分析中，爬虫有着很大作用，可以自动爬取网页中提取的大量的数据，比如从电商网站手机商品信息，为市场分析提供数据基础。也可以补充数据集、检测动态变化等一系列作用。可以说在数据分析中有着相当大的作用！页面结构介绍这里主要介绍HTML的一些简单结构，需要一点前端的知识，可以根据情况直接跳过。Title姓名年龄性别张三18男铁锅炖大鹅小鸡炖蘑菇锅包肉奖励自己睡觉起床读书学习爬虫相关概念1、爬虫的概
【学习】电脑上有多个GPU，命令行指定GPU进行训练。超好的小白学习人工智能深度学习
使用如下指令可以指定使用的GPU。CUDA_VISIBLE_DEVICES=1假设要使用第二个GPU进行训练。CUDA_VISIBLE_DEVICES=1pythontrain.py
基于Python豆瓣电影评论的数据处理与分析 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于Python豆瓣电影评论的数据处理与分析作者：禅与计算机程序设计艺术1.背景介绍1.1豆瓣电影评论数据的价值1.1.1反映观众观影偏好1.1.2影响电影市场走向1.1.3为推荐系统提供数据支持1.2Python在数据处理与分析中的优势1.2.1丰富的数据处理库1.2.2强大的数据分析和可视化能力1.2.3简洁高效的语法1.3本文的研究目的和意义1.3.1探索豆瓣电影评论数据的特点1.3.2实践
【Golang】Go语言Web开发之模板渲染景天科技苑 Go语言开发零基础到高阶实战 golang 前端开发语言 Go语言模板渲染模板渲染 golang模板渲染
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，Golang开发，PyQt5和Tkinter桌面开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flas
程序员未来的出路：行业趋势与职业发展分析 guzhoumingyue AI python
随着技术的发展和行业需求的变化，程序员的职业出路也在不断演变。以下是程序员未来可能的职业发展方向及具体建议：一、技术深耕路线AI与机器学习专家趋势：AI技术在各行业的应用日益广泛，从自动驾驶到智能客服，需求持续增长。技能要求：Python、TensorFlow、PyTorch、数据挖掘、算法优化。发展路径：从机器学习工程师做起，积累项目经验。深入研究深度学习、强化学习等前沿技术。成为AI架构师或数
在麻将 AI 的迷宫中，我用 Python 函数组合探寻最优解：精髓与穷举 fxrz12 AI 人工智能 python 开发语言
我，一个对人工智能充满热情的程序员，带着对麻将策略的浓厚兴趣，踏上了开发AI麻将服务器的征程。这不仅仅是一次技术挑战，更是一次对思维方式和问题解决能力的深度探索。麻将，这个看似简单的游戏，实则蕴含着无穷的策略和变化。AI需要在瞬息万变的牌局中，做出最优的决策，这需要它：洞察牌局：精准分析手牌，评估牌型的潜在价值。预判风险：计算打出某张牌可能带来的风险。布局未来：预测后续牌局的走向，制定长远策略。为
计算机毕业设计 ——jspssm507Springboot 的论坛管理系统奔强的程序课程设计
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
Ollama 本地GUI客户端：为DeepSeek用户量身定制的智能模型管理与交互工具探客白泽 Python程序脚本交互 ai 深度学习 gpt-3 chatgpt 人工智能开源
Ollama本地GUI客户端：为DeepSeek用户量身定制的智能模型管理与交互工具相关资源文件已经打包成EXE文件，可双击直接运行程序，且文章末尾已附上相关源码，以供大家学习交流，博主主页还有更多Python相关程序案例，秉着开源精神的想法，望大家喜欢，点个关注不迷路！！！1.简介：在人工智能领域，如何高效地管理、下载和与模型进行交互是每个开发者面临的挑战。DeepSeek：Ollama本地客户
统计用户输入 C语言 2501_90645732 c语言
从键盘读取用户输入直到遇到#字符，编写程序统计读取的空格数目、读取的换行符数目以及读取的所有其他字符数目。(要求用getchar()输入字符)#includeintmain(){printf("Pleaseinputastringendby#:\n");intc;intspaces=0;intnewlines=0;intother=0;while((c=getchar())!='#'){if(c=
python的pip如何升级一代码动乾坤 python python pip 开发语言
升级pip的方法如下：打开命令行工具。在Windows系统中，可以通过按下Win+R键，然后输入"cmd"来打开命令提示符；在Mac或Linux系统中，可以直接打开终端。检查当前pip版本。在终端或命令行中输入以下命令：pip--version，这将显示当前安装的版本号。升级pip。使用以下命令来升级pip：pipinstall--upgradepip，这将会检查并安装最新版本的pip，如果已经
【FL0093】基于SSM和微信小程序的微信点餐系统小程序猿毕设小程序微信小程序微信 spring boot python 后端 java
‍博主介绍‍全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/知乎/b站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战，以及程序定制化开发、文档编写、答疑辅导等。精彩专栏推荐订阅计算机毕业设计精品项目案例（持续更新）文末获取源码+数据库+文档感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和学长沟
高性能PHP框架webman爬虫引擎插件，如何爬取数据 Ai 编码 php教程 php 爬虫开发语言
文章精选推荐1JetBrainsAiassistant编程工具让你的工作效率翻倍2ExtraIcons：JetBrainsIDE的图标增强神器3IDEA插件推荐-SequenceDiagram，自动生成时序图4BashSupportPro这个ides插件主要是用来干嘛的？5IDEA必装的插件：SpringBootHelper的使用与功能特点6Aiassistant,又是一个写代码神器7Cursor
不同AI2-THOR仿真场景下的位置传送放羊郎人工智能技术 python 开发语言 ai2thor 机器人仿真
1.目标随意指定场景场景里找物品（微波炉为例）找到后传送到物品前面2.代码importmathfromai2thor.controllerimportController#将值四舍五入到最近的网格点defround_to_grid(value,grid_size=0.25):returnmax(grid_size,round(value/grid_size)*grid_size)#验证场景编号是否
python控制流程之for语句狐臭先生 python
一、概念：for语句是Python中执行迭代的两个语句之一，用于遍历一个迭代对象的所有元素。循环内的语句段会针对迭代对象的每一个元素项目都执行一次。可以遍历任何序列，如list，tuple，迭代器等，Pythonfor循环可以遍历任何序列的项目，如一个列表或者一个字符串。二、for循环遍历元素方法：foriteminx(字符串/列表/元组/字典/集合等):代码块(for循环是x里面的元素,然后赋值
深度优化：如何用结构化提示词提升DeepSeek的响应质量
深度优化：如何用结构化提示词提升DeepSeek的响应质量一、提示词设计的核心原则角色定义法：明确AI的专家身份场景具象化：提供背景信息和目标说明格式结构化：使用分隔符划分内容模块二、基础提示词案例库1.编程辅助场景[角色]你是一位资深Python开发工程师，擅长编写可维护的工业级代码[任务]为电商系统设计优惠券核销模块[要求]1.使用Django框架实现2.包含防重复提交机制3.添加Redis缓
DeepSeek 接口详解
DeepSeek的火爆不仅是国家的骄傲，更是为AI普惠大众做出了重大贡献。就连AI.com的域名持有者也开始认可deepseek，从之前指向chatgpt.com变成指向chat.deepseek.com。我们不仅可以使用deepseek的免费聊天页面，也可以调用deepseek提供的接口，但是有伙伴可能会问，为什么调用deepseek的接口要使用openai的接口，难道是高级套壳？其实官方已经明
链游开发:TON链小游戏DApp小游戏开发
链游开发，特别是在TON链上开发小游戏与其他链（如以太坊、Solana、BSC等）上的DApp小游戏，是一个结合了区块链技术和游戏设计的复杂过程。以下是一个详细的开发指南：一、链游基本概念链游（BlockchainGames）是基于区块链技术开发的游戏，通过智能合约将游戏中的虚拟资产上链，实现真正的数字资产所有权。DApp（去中心化应用）游戏是链游的一种，利用区块链平台的智能合约来确保游戏的透明性
python if语句 for循环练习 caydenQ python
目录1.请用户输入两次，每次输入一个数字，如果用户输入的第一个数大就输出第一个数，如果用户输入的第二个数大就输出第二个数2.求1-100间的所有数和。3.让用户输入一个月份，判断这个月是哪个季节？假定3到4月是春季，5到8月是夏季，9到10是秋季，11、12、1、2月是冬季4.编写一个程序，接受用户输入的年份，判断该年份是否为闰年。闰年的条件是：能被4整除但不能被100整除，或者能被400整除。5
IPC 进程间通信 —— 见见猪 DBWG Linux学习算法 linux 服务器
interprocesscommunication文章目录管道通信匿名管道命名管道写入端读取端消息队列发送端接收端：共享内存写入端读取端信号量PV操作父子进程信号父子进程套接字服务器客户端管道通信匿名管道【单进程内创建父子进程通信】pipe(int[2])#include#include#includeintmain(){intfd[2];if(pipe(fd)==-1){perror("pipe
代理 IP 行业现状与未来趋势分析跨境Kevin tcp/ip 网络 web安全
随着互联网的飞速发展，代理IP行业在近年来逐渐兴起并成为网络技术领域中一个备受关注的细分行业。它在数据采集、网络营销、隐私保护等多个方面发挥着重要作用，其行业现状与未来发展趋势值得深入探讨。目前，代理IP行业呈现出以下几个显著特点。一是市场需求持续增长。在大数据时代，企业对于数据的渴望日益强烈，数据采集工作需要大量的代理IP来突破网站限制，获取全面准确的信息。同时，网络营销从业者为了精准投放广告、
Flutter的permission_handler插件检查iOS的通知权限不准确 GeniuswongAir flutter
今天，做好了一个功能，就是在app内检查用户有没有给当前APP打开通知权限，如果没打开，就展示一个banner，让用户去点击banner去打开权限。android上测试得非常顺利，结果，在iOS上就是不行，不管怎么打开关闭通知，使用Permission.notification.status获取到的结果一直是：PermissionStatus.denied我去，这也太坑了，通过咨询AI大神，得出结
cordova app webpack升级为vite weixin_45410246 cordova-hcp Cordova vue vite webpack 前端 node.js vite
本文是对vue2进行兼容1.在项目根目录下运行以下命令，安装Vite和必要的插件：npminstallvite@vitejs/plugin-legacy--save-devvite：Vite核心包。@vitejs/plugin-legacy：为旧版浏览器提供支持（建议添加vite生成的script会有type=“module”）。否则在cordova中可能报错Failedtoloadmodules
python爬虫系列课程4：一个例子学会使用xpath语法 wp_tao Python副业接单实战项目 python 爬虫开发语言
python爬虫系列课程4：一个例子学会使用xpath语法本文通过一个例子，学会xpath的各种语法，可以作为xpath的查询手册使用，代码如下：fromlxmlimportetreetext='''firstitemseconditemthirditemfourthitem<liclass="item-0
深度评测：Cursor、Windsurf、Devin及其他AI编程工具大比拼 zhz5214 AI 人工智能 AI编程 AI写作 ai 程序员创富
引言在当今软件开发领域，AI编程工具已成为开发者提升效率的关键助力。Cursor、Windsurf、Devin等工具凭借各自特色，在市场中崭露头角。本文将深入剖析这些工具，为开发者提供全面的对比参考。工具介绍CursorCursor是一款深度集成于VSCode环境的AI编程助手，支持多种编程语言，提供代码生成、调试、文档搜索等丰富功能，用户可高度定制设置，以契合不同项目需求。WindsurfWin
使用Selenium和bs4进行Web数据爬取和自动化(爬取掘金首页文章列表) 程序员霄霄软件测试 selenium 前端自动化软件测试功能测试自动化测试程序人生
前言：Web数据爬取和自动化已成为许多互联网应用程序的重要组成部分。本文将介绍如何使用Python中的两个强大库，即Selenium和BeautifulSoup，来实现自动化操作、网页数据提取以及网页内容分析。并以爬取掘金首页文章列表标题和url为例子进行讲解.安装和使用Selenium本文是在python环境下使用selenium，使用浏览器是火狐，系统是win10系统。python环境的配置这
强化学习——基本概念 AI大模型探索者人工智能 ai 深度学习机器学习语言模型
何为强化学习机器学习的一大分支强化学习（ReinforcementLearning）是机器学习的一种，它通过与环境不断地交互，借助环境的反馈来调整自己的行为，使得累计回报最大。强化学习要解决的是决策问题——求取当前状态下最优行为或行为概率。强化学习包括智能体和环境两大对象，智能体是算法本身，环境是与智能体交互的外部。智能体（IntelligentAgent），在人工智能领域，智能体指一个可以观察周
python爬虫之自动化爬取网页陌小 python selenium python chrome
以下为公开源码fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionsimporttimefrombs4importBeautifulSoupurl='https://movie.douban.com/'chrome_optins=Options()chrome_optins.add_argument
利用Mybatis获取数据库表结构信息并转换【兼容多种数据库】無炆_ 数据库 mybatis java
你可以使用Mybatis提供的DatabaseMetaData类来获取数据库表结构信息。以下是一个简单的示例代码：publicclassMybatisExample{publicstaticvoidmain(String[]args)throwsSQLException{Listwarnings=newArrayListintrospectedTables=databaseIntrospector
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他