Olenz

【DataWhale学习记录15-03】零基础入门NLP - 新闻文本分类赛题 - 03基于机器学习的文本分类

目录

3 Task3基于机器学习的文本分类

3.1 学习目标
3.2 文本分类方法 Part1

3.2.1 One-hot
3.2.2 Bag of Words
3.2.3 N-gram
3.2.4 TF-IDF

3.3 基于机器学习的文本分类

3.3.1 Count Vectors + RidgeClassifier
3.3.2 TF-IDF + RidgeClassifier

3.3 本章小结
3.4 本章作业

3 Task3基于机器学习的文本分类

3.1 学习目标

学会TF-IDF的原理和使用
使用 sklearn的机器学习mo’xing完成文本分类

3.2 文本分类方法 Part1

在自然语言领域中，文本时不定长度的。文本表示成计算机能够运算的数字或向量的方法一般成为词嵌入(Word Embedding) 方法。词嵌入将不定长的文本转换到定长的空间内，是文本分类的第一步。

3.2.1 One-hot

每一个单词使用一个离散的向量表示（与数据挖掘任务中的操作一致）。具体为将每个字/词编码一个索引，然后根据索引进行赋值/

表示方法例子如下：

句子1 ： 我 爱 北 京 天 安 门
句子2 ： 我 喜 欢 上 海

首先堆所有句子的字进行索引，即将每个字确定一个编号：

{
'我': 1, '爱': 2, '北': 3, '京': 4, '天': 5,
'安': 6, '门': 7, '喜': 8, '欢': 9, '上': 10, '海海': 11
}

这里共包括11个字，因此每个字可以转换为一个11维度稀疏向量：

我：[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
爱：[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
...
海：[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]

3.2.2 Bag of Words

即词袋表示，也称 Count Vectors. 每个文档的字/词可以使用其出现次数来进行表示。

句子1：我 爱 北 京 天 安 门
句子2：我 喜 欢 上 海海

直接统计每个字出现的次数，并进行赋值：

句子1：我 爱 北北 京 天 安 门
转换为 [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
句子2：我 喜 欢 上 海
转换为 [1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]

在sklearn中可以直接CountVectorizer来实现这一步：

from sklearn.feature_extraction.text import CountVectorizer
corpus = [
'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?',
]
vectorizer = CountVectorizer()
vectorizer.fit_transform(corpus).toarray()

3.2.3 N-gram

N-gram和Count Vectors类似，不过加入了相邻单词组合为新的单词，并进行计数。

如果N取值为2，则句子1和句子2就变成：

句子1：我爱 爱北 北京 京天 天安 安门
句子2：我喜 喜欢 欢上 上海

3.2.4 TF-IDF

TF-IDF分数由两部分组成：第一部分是词语频率(Term Frequency)，第二部分是逆文档频率(Inverse Document Frequency)。其中计算语料库中文档总数除以含有该词语的文档数量，然后再取对数就是逆文档频率。

TF(t)= 该词语在当前⽂文档出现的次数 / 当前⽂文档中词语的总数
IDF(t)= log_e（⽂文档总数 / 出现该词语的⽂文档总数）

3.3 基于机器学习的文本分类

接下来将对比不同文本表示算法的精度，通过本地构建验证集计算F1得分。

3.3.1 Count Vectors + RidgeClassifier

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score
train_df = pd.read_csv('../input/train_set.csv', sep='\t', nrows=15000)
vectorizer = CountVectorizer(max_features=3000)
train_test = vectorizer.fit_transform(train_df['text'])
clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])
val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
# 0.74

3.3.2 TF-IDF + RidgeClassifier

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score
train_df = pd.read_csv('../input/train_set.csv', sep='\t', nrows=15000)
tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=3000)
train_test = tfidf.fit_transform(train_df['text'])
clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])
val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
# 0.87

3.3 本章小结

介绍了基于机器学习的文本分类方法，并完成了两种方法的对比。

3.4 本章作业

尝试改变TF-IDF的参数，并验证精度。
尝试使用其他机器学习模型，完成训练和验证。

你可能感兴趣的:(DataWhale学习记录)

10篇R1相关的研究全面汇总，万字思考！ datawhale
原创长琴DatawhaleDatawhale干货作者：长琴，Datawhale成员本文通过10篇R1相关的研究，介绍R1后LLM的新范式。其核心就是如何进一步增强LLM的能力。本文中的相关阅读，可以在主页找到对应文章：主页地址：https://yam.gift/基本框架首先是整体的框架，如下所示。•Base+SFT•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas
2025-03-15 学习记录--C/C++-PTA 练习3-4 统计字符小呀小萝卜儿学习-C/C++学习 c语言
合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。一、题目描述⭐️练习3-4统计字符本题要求编写程序，输入10个字符，统计其中英文字母、空格或回车、数字字符和其他字符的个数。输入格式:输入为10个字符。最后一个回车表示输入结束，不算在内。输出格式:在一行内按照letter=英文字母个数,blank=空格或回车个数,digit=数字字符个数,other=其他字符个数的格式输出。输入样例:a
2025-03-13 学习记录--C/C++-PTA 练习2-9 整数四则运算小呀小萝卜儿学习-C/C++学习 c语言
合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。一、题目描述⭐️练习2-9整数四则运算本题要求编写程序，计算2个正整数的和、差、积、商并输出。题目保证输入和输出全部在整型范围内。输入格式:输入在一行中给出2个正整数A和B。输出格式:在4行中按照格式“A运算符B=结果”顺序输出和、差、积、商。输入样例:32输出样例:3+2=53-2=13*2=63/2=1二、代码（C语言）⭐️#incl
Linux 命令学习记录 hxung 面试学习使用 linux 学习运维
Linux命令详解与进阶指南Linux是一种广泛使用的开源操作系统，掌握Linux命令是开发者和系统管理员的必备技能。本文将详细介绍Linux的常用命令，并涵盖一些高级进阶技巧，帮助你更高效地使用Linux。目录基础命令文件与目录操作文本处理系统信息权限管理进阶命令进程管理网络操作磁盘管理Shell脚本高级技巧管道与重定向正则表达式任务调度性能监控案例实战日志分析自动化部署服务器监控基础命令文件与
# Manim学习记录（2）鼠鼠emo了捏 python numpy vscode 数学建模
第一个案例GraphingMovement这个开始再坐标轴上画函数图像以及移动frommanimimport*classGraphingMovement(Scene):defconstruct(self):axes=Axes(x_range=[0,5,1],#x轴范围：从0到5，刻度间隔为1y_range=[0,3,1],#y轴范围：从0到3，刻度间隔为1x_length=5,#x轴长度为5（单位
MySQL理论八股的学习记录不吃元西好记性不如烂笔头 mysql 学习数据库
什么是MySQLMySQL是一种关系型数据管理系统数据库三大范式是什么？第一范式（1NF）：要求数据库表的每一列都是不可分割的原子数据项。第二范式（2NF）：在1NF的基础上，非码属性必须完全依赖于候选码（在1NF基础上消除非主属性对主码的部分函数依赖）第二范式需要确保数据库表中的每一列都和主键相关，而不能只与主键的某一部分相关（主要针对联合主键而言）。第三范式（3NF）：在2NF基础上，任何非主
Android Framework学习——安卓进程启动流程（Android 13） Big Popsicle android 学习
提示：本文仅作个人学习记录，禁止转载本文参考：袁神的文章，理解Android进程创建流程文章目录1，前言2，简略步骤3，代码走读3.1，提要，从系统启动末尾开始3.2，system_server发起请求3.3，Zygote创建进程3.4，新进程的运行总结1，前言进程是作为应用程序容器存在的，每个应用启动前需要先创建一个进程，进程是由Zygote进程孵化来的，它拥有独立的资源空间，用来运行四大组件，
2025-03-14 学习记录--C/C++-PTA 习题2-1 求整数均值小呀小萝卜儿学习-C/C++学习 c语言
合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。一、题目描述⭐️习题2-1求整数均值本题要求编写程序，计算4个整数的和与平均值。题目保证输入与输出均在整型范围内。输入格式:输入在一行中给出4个整数，其间以空格分隔。输出格式:在一行中按照格式“Sum=和;Average=平均值”顺序输出和与平均值，其中平均值精确到小数点后一位。输入样例:1234输出样例:Sum=10;Average=2
吴恩达的翻译Agent项目，复现教程来了！ datawhale
原创郭才高DatawhaleDatawhale教程作者：郭才高，Datawhale创作者1.TranslationAgent复现效果展示#执行任务#调用编译后的工作流，传入初始状态字典result=app.invoke({ "source_lang": "English", #源语言为英语 "target_lang": "中文", #目标语言为中文 "source_text": ""
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
Flutter_学习记录_device_info_plus 插件获取设备信息一人前行 flutter学习 flutter
引入三方库device_info_plus导入头文件import'package:device_info_plus/device_info_plus.dart';获取设备信息的主要代码DeviceInfoPlugindeviceInfoPlugin=DeviceInfoPlugin();BaseDeviceInfodeviceInfo=awaitdeviceInfoPlugin.deviceInf
第十五届蓝桥杯省赛电子类EDA学习记录（客观题） @小张要努力蓝桥杯学习单片机 proteus 嵌入式硬件
01.常用作负载电源通断控制的元器件有（ABCD）。A.三极管B．MOS管C．继电器D．晶闸管解析：[1]三极管：三极管具有电流控制作用，在电路中可以作为开关使用，通过控制基极电流来控制集电极和发射极之间的通断，从而实现对负载电源的通断控制。例如在一些简单的电子电路中，利用三极管的开关特性来控制小功率负载的电源通断，如控制一个小LED灯的亮灭等。[2]MOS管：MOS管（金属-氧化物-半导体场效应
第十五届蓝桥杯省赛电子类嵌入式学习记录（客观题） @小张要努力蓝桥杯学习职场和发展嵌入式硬件单片机 51单片机
01.SMT32微控制器的SPI可以按照时钟相位和极性配置多少种工作模式（B）。A.2B.4C.8D.16解析：SPI（SerialPeripheralInterface）总线是一种同步串行外设接口，它可以使MCU与各种外围设备以串行方式进行通信以交换数据。SPI的工作模式由时钟极性（CPOL）和时钟相位（CPHA）来决定。[1]时钟极性（CPOL）：决定了SPI时钟信号（SCK）的空闲状态电平。
N1学习打卡笔记无涯学徒1998 学习笔记
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊Onhot编码one-hot编码的基本思想是将每个类别映射到一个向量，其中只有一个元素的值为1，其余元素的值为0。这样，每个类别之间就是相互独立的，不存在顺序或距离关系。例如，对于三个类别的情况，可以使用如下的one-hot编码：类别1：[1,0,0]类别2：[0,1,0]类别3：[0,0,1]这样的表示方式有助于模型更好地理解文本含义。
第20周：Pytorch文本分类入门 weixin_46620278 pytorch 分类人工智能
目录前言一、前期准备1.1环境安装导入包1.2加载数据1.3构建词典1.4生成数据批次和迭代器二、准备模型2.1定义模型2.2定义示例2.3定义训练函数与评估函数三、训练模型3.1拆分数据集并运行模型3.2使用测试数据集评估模型总结前言本文为[365天深度学习训练营]中的学习记录博客原作者：[K同学啊]说在前面本周任务：了解文本分类的基本流程、学习常用数据清洗方法、学习如何使用jieba实现英文分
NLP新手入门-第N1周：Pytorch文本分类入门 Oaix Nay 365天深度学习训练记录 pytorch 自然语言处理分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊|接辅导、项目定制目录一、课题背景和开发环境二、环境安装三、文本分类1.加载数据2.构建词典3.生成数据批次和迭代器4.定义模型5.定义实例6.定义训练函数与评估函数7.拆分数据集并运行模型8.使用测试数据集评估模型一、课题背景和开发环境第N1周：Pytorch文本分类入门Python3.8.12pytorch==1.8.1+cu111t
BERT（Bidirectional Encoder Representations from Transformers）的序列分类模型，简单学习记录努力努力再努力呐 BERT bert 分类学习
一、代码#本地离线模型使用fromtransformersimportAutoModelForCausalLM,AutoTokenizer,pipeline,BertForSequenceClassification,BertTokenizer#设置具体包含config.json的目录，只支持绝对路径model_dir=r"models\bert-base-chinese"#model_dir=r
C语言学习日记--循环，分支语句梦想成为大牛呀 c语言学习开发语言
C语言学习日记--循环分支语句题目一1.题目展示2.完成题目的过程中问题的出现（1）怎么多组输入3.代码展示4.问题的解决（1）关于多组输入此博客为学习记录，还请看官点点赞为我加油呀~~题目一1.题目展示2.完成题目的过程中问题的出现（1）怎么多组输入3.代码展示#includeintmain(){intn=0;while(scanf("%d",&n)!=EOF){if(n>=3&&n<=20){
周报 | 25.3.3-25.3.9文章汇总双木的木大模型专栏深度学习拓展阅读人工智能 linux 服务器 deepseek llama YOLO transformer
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|25.2.24-25.3.2文章汇总-CSDN博客Datawhale|最新「大模型简史」整理！从Transformer（2017）到DeepSeek-R1（2025）--建议收藏！-CSDN博客AI生成未来|CVPR2025|多模态六边形战士Magma：会点按钮会搬砖，标注竟让AI长出“时空大脑“_magma-8b-CSDN博客机
IDEA与Maven使用-学习记录（持续补充...） eggcode Java 工具 intellij-idea maven 学习
1.下载与安装以ideaIU-2021.3.1为例，安装步骤：以管理员身份启动ideaIU-2021.3.1修改安装路径为：D:\ProgramFiles\JetBrains\IntelliJIDEA2021.3.1勾选【创建桌面快捷方式】（可选）、【打开文件夹作为项目】（可选）。解压crack文件，双击里面的【破解】文件，出现success的提示。双击打开IDEA2021，选择Getlicens
斯坦福UE4 + C++课程学习记录 9：蓝图-简易开关 Surkea C+++UE ue4 ue5 游戏引擎 c++学习
目录1.前言2.创建蓝图类3.改变把手角度4.打开宝箱UE中的蓝图是一种基于C++的可视化编程系统，它将大量常用的底层代码接口暴露出来，方便开发者在UE中快速调用，其可视化的呈现方式让那些不专攻编程的人员（如设计、美工、策划等）也能快速上手使用。从程序开发的角度，学习蓝图可以方便开发中的很多环节；从业务的角度，掌握蓝图也有利于开发和其他环节的同事进行交流。本部分的第一个示例，是使用操纵杆开关控制宝
比特币,区块链及相关概念简介(一) 湖光秋色区块链区块链比特币去中心化
目录什么是比特币比特币用来交易什么呢应用场景和黄金的关系相似之处：不同之处：如果是交易才会有比特币奖励那第一个持有者是怎么获取的呢又是怎么交易的呢其他加密货币该系列文章链接以下内容结合了chatgpt3.5以及网络文章。用于学习记录。简介：介绍了比特币的概念，比特币的交易对象，比特币的应用场景，以及和黄金的关系；其他加密货币等。什么是比特币比特币是一种数字货币，也是全球第一个去中心化的加密货币。它
前端学习——CSS3实现时钟效果 younger_LF 前端（HTML+CSS+JS）CSS动画时钟效果
CSS3实现时钟效果最近想开始认真学习，然后想把学习记录下来，就写在博客这里了。最先是用CSS实现的是一个时钟的效果，如下图：实现效果1.圆盘说到时钟，肯定最先想到的是一个圆，所以就从一个圆开始。先写一个div，然后给相关的样式.clock{position:absolute;width:250px;height:250px;left:50%;top:50%;transform:translate
2025-03-09 学习记录--C/C++-PTA 习题10-8 递归实现顺序输出整数小呀小萝卜儿学习-C/C++学习 c语言
合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。一、题目描述⭐️裁判测试程序样例：#includevoidprintdigits(intn);intmain(){intn;scanf("%d",&n);printdigits(n);return0;}/*你的代码将被嵌在这里*/输入样例12345输出样例12345二、代码（C语言）⭐️voidprintdigits(intn){if(n
2025-03-08 学习记录--C/C++-PTA 习题10-1 判断满足条件的三位数小呀小萝卜儿学习-C/C++学习 c语言
合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。一、题目描述⭐️裁判测试程序样例：#include#includeintsearch(intn);intmain(){intnumber;scanf("%d",&number);printf("count=%d\n",search(number));return0;}/*你的代码将被嵌在这里*/输入样例500输出样例count=6二、代码
Datawhale AI夏令营第四期 AIGC方向 task02学习笔记流火_授衣 AI 人工智能 AIGC 学习
探探前沿：了解一下AI生图技术的能力&局限今天我们的任务是对baseline的代码有一个更加细致的理解，然后我们会学习如何借助AI来提升我们的自学习能力，从而帮助大家在后面的学习工作中如何从容迎接各种挑战。授人以鱼不如授人以渔，你可以从中学大模型的提问技巧来实现快速学习，学会如何制作一个话剧连环画。‘自其不变者而观之，则物与我皆无尽也’，拥抱AI、学习AI、运用AI解决各种变化的问题，一起加油！！
[Python入门学习记录(小甲鱼)]第4章分支与循环 LIN-JUN-WEI python 学习开发语言嵌入式硬件单片机
第4章分支和循环讲些条件语句和循环语句4.1完整条件语句ifx>1:print(1)elifxstopstep0forxinrange(10)print(x)#打印0-9加上list()会像列表一下展示print(list(range(0,-10,-1)))#[0,-1,-2,-3,-4,-5,-6,-7,-8,-9]4.6break语句就一样，跳出这整个循环fornuminrange(1,11)
FineBI 学习记录day1 foolisk finebi 学习 etl
协作功能可以实现：创建者可以将分析主题、文件夹分享给其他设计用户进行协作，被协作的用户能查看或者使用相关分析主题的内容；实现分析主题的协同编辑。PS：不是分析主题的创建者或者该分析主题父级资源创建者，不能将分析主题协作给其他人，只能查看分析主题的协作情况。实现步骤：①由管理员分配权限：权限管理——全局设置（开启资源协作）——普通权限配置——分配给部门或用户相应资源协作权限https://help.
社会科学市场博弈和价格预测之时间序列挖掘（Datawhale AI 夏令营）会飞的Anthony 人工智能人工智能
深入理解赛题——探索性数据分析首先，我们先介绍一下什么是EDA：探索性数据分析（ExploratoryDataAnalysis,EDA）是一组数据分析技术，旨在总结其主要特征，通常通过可视化手段来实现。EDA的目标是通过数据的统计摘要和图形展示来发现数据的结构、异常值、模式、趋势、关系以及变量之间的相互作用。为什么进行EDA？在现在的数据挖掘类比赛中，模型和方法选择空间往往很小，同时存在不少自动机
【高等数学&学习记录】微分中值定理测工高等数学学习高等数学
一、知识点（一）罗尔定理费马引理设函数f(x)f(x)f(x)在点x0x_0x0的某邻域U(x0)U(x_0)U(x0)内有定义，并且在x0x_0x0处可导，如果对任意的x∈U(x0)x\inU(x_0)x∈U(x0)，有f(x)≤f(x0)f(x)\leqf(x_0)f(x)≤f(x0)(或f(x)≥f(x0)f(x)\geqf(x_0)f(x)≥f(x0))，那么f′(x0)=0f'(x_0)
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他