Seepen_L

中文文本分类_预处理

中文文本分类之数据预处理

0 前期准备

语料库
停用词
其他

1 正则匹配

* 针对搜狗语料的xml
正则匹配出内容和类别

2 分训练集和测试集
3 合并训练集
4 jieba分词
收尾

0 前期准备

语料库

我做的是中文新闻分类，新闻分类现有的较流行的语料库包括搜狗新闻语料库、T大的数据、复旦的数据等等。论文看得不算多，找数据的话随便看几篇就知道啦。链接不放了，随便一搜就找得到。

对了，吐槽一下搜狗新闻的语料。如果你搜教程的话，会发现很多博主都用的是搜狗语料，然而你也会发现，人家用的数据集跟你现在在搜狗实验室下下来的数据集不一样——前几年比较好用的数据集没了，现在的数据集处理起来非常之麻烦。。我吐了

这里说一下较理想的标准数据集地样子吧：

如果你拿到的是这样的数据集，那么恭喜你，你的工作量至少减少了一半多

跑数据一分钟，数据处理两小时可不是说说而已。

这份数据是我结合搜狗新闻和T大新闻数据整理自用的，8个类别，每类5000条文本，其中1000测试，4000训练。数据量比较适合做毕业论文这种小课题。已上传至CSDN资源，希望能帮后来者入门快一些。

停用词

停用词较常用的是哈工大停用词表，这里放一个github连接，作者总结了四份中文停用词表，挺全的。

其他

愉快的心情。

1 正则匹配

* 针对搜狗语料的xml

如果你不幸要用搜狗新闻语料库，还要多一步，这里放一个转送门，有博主做了详细解释，不想看就直接看代码学习。

code


'''数据中为上述doc标签的集合，并不是标准的xml文件，首先将数据开头和结尾分别加上''和根标签。'''
# 修复xml格式
filePath = 'news_sohusite_xml.dat' #语料路径
#fileSeqWordDonePath = 'data/sougou.xml.parse.txt'# 分词后生成路径
#
 fw=open(fileSeqWordDonePath, 'w', encoding='utf-8')
 fw.write('')
 with open(filePath, 'r', encoding='gb18030' ) as fileTrainRaw: #python3
     for line in fileTrainRaw:
         fw.write(line.replace('&','&')) #去除非法字符
 fw.write('')
 fw.close()

正则匹配出内容和类别

如果你的语料格式还保留了爬虫爬取是网页风格，那么就需先从url里提取出类别，content中取出文本内容。不难理解。

code


# -*- coding: utf-8 -*-
'''
该脚本用于将语料库新闻语料
转化为按照URL作为类别名、
content作为内容的txt文件存储
'''


'''生成原始语料文件夹下文件列表'''
def listdir(path, list_name):
    for file in os.listdir(path):
        file_path = os.path.join(path, file)
        if os.path.isdir(file_path):
                listdir(file_path, list_name)
        else:
                list_name.append(file_path)

'''字符数小于这个数目的content将不被保存'''
threh = 50
'''获取所有语料'''
list_name = []
listdir('data2/',list_name)

'''对每个语料'''
for path in list_name:
    print(path)
    file = open(path, 'rb').read().decode("utf8")

    '''
    正则匹配出url和content
    '''
    patternURL = re.compile(r'(.*?).sohu.com', re.S)
    patternCtt = re.compile(r'(.*?)', re.S)

    classes = patternURL.findall(file)
    contents = patternCtt.findall(file)

    '''
    # 把所有内容小于30字符的文本全部过滤掉
    '''
    for i in range(contents.__len__())[::-1]:
        if len(contents[i]) < threh:
            contents.pop(i)
            classes.pop(i)

    '''
    把URL进一步提取出来，只提取出一级url作为类别
    '''
    for i in range(classes.__len__()):
        patternClass = re.compile(r'http://(.*?)/',re.S)
        classi = patternClass.findall(classes[i])
        classes[i] = classi[0]
        #print(classes[i])

    '''
    按照RUL作为类别保存到samples文件夹中
    '''
    for i in range(classes.__len__()):
        file = 'data/' + classes[i] + '.txt'
        f = open(file,'a+',encoding='utf-8')
        f.write(contents[i]+'\n')   #加\n换行显示

这时你的数据应该是每一类在一个txt中了。

这么做有利有弊，
利在于一步到胃，你可以直接分词然后就上特征选择、分类器了
弊在于，如果你此时你还处于没有分训练集合测试集的境地。。那你就尴尬了，因为一般的方法（train_test_splite）无法在一个分完词的txt里操作

我当时真的醉了，辛辛苦苦大半天，一棍子砸在裆中间。蛋疼。

所以我这里其实是断了一环的，即如何在一个txt中分出训练测试集。

不过我查不到方法时，就换了思路。因为当时找数据集时就有两种情况，一种是这种每个类别一个大txt的，另一种是每个类别一个文档，每个文档中数千个小txt的，即我最终选择的版本，也是T大数据集的样子。

2 分训练集和测试集

一般来讲为追求类别平衡，每个类别中的文本数量是相同的。

如果是低数量级的数据，训练集测试集比取37、28均可；如果是百万级别乃至更多时，其实取19乃至1:99效果会更好。
咱就做个毕设，4万条数据，取28就蛮好。

至于怎么分的？我能想到的一个是直接在循环里把一定数量的txt移到新文件夹里，一个是用上文提到的splite应该也行（我不太了解也没试过，有晓得的读者可以说说）

因为我得东拼西凑把5000条数据搞齐，所以我是用最笨的方法，即手工剪切粘贴。。你们别学我。

3 合并训练集

为方便后续分词和统计特征，把训练集中每个类别下的小txt合成一个大txt
这个咱会。

code

import os
import os.path
import time

time1 = time.time()  # tik_tok_计时器


def MergeTxt(filepath, outfile):  # 合并同一个文件夹下多个txt

    '''
        os.walk()可以得到一个三元tupple(parent, dirnames, filenames)
        parent：起始路径
        dirnames：起始路径下的文件夹
        filenames：第三个是起始路径下的文件
        函数从给定的rootdir进行遍历，此时parent = rootdir
        将rootdir中的所有文件夹名，放入dirnames中，所有的文件名放入filenames中
        从dirnames中选择第一个文件夹进行遍历，此时parent = rootdir / 1，接下来便是不断地进行迭代
    '''
    for parent, dirnames, filenames in os.walk(filepath):
        k = open(parent + outfile, 'a+', encoding='utf-8')  # 此时应该到了第2级目录，parent已变为二级
        for filepath in filenames:          # 遍历二级中的文件集
            txtPath = os.path.join(parent, filepath)  # txtpath就是所有文件夹的路径
            f = open(txtPath, encoding='utf-8')
            k.write(f.read() + "\n")        # 换行写入
    k.close()
    print("finished")

if __name__ == '__main__':
    filepath = "data_merge/train/"
    outfile = ".txt"

    MergeTxt(filepath, outfile)
    time2 = time.time()
    print(u'总共耗时：' + str(time2 - time1) + 's')

4 jieba分词

终于到了这一步，很关键但复杂的一步，但有了结巴，一切便索然无味了起来hhhh
果然科技的发展是为了让人变懒呢。懒是人类之光。

code


import jieba as jb
from os import path
import os
import time
tik=time.time()


d = path.dirname(__file__)
stopwords='data_standard/stopwords_all.txt'   # 停用词表

filepath="data_merge/train/"       # 待处理文本路径
outfile = 'data_merge/train_splited/'       # 输出文件路径

# 如果是多级目录，请千万千万 记得 在最后加上 /

def jiebaClearText(text):
    mywordlist= []
    seg_list=jb.cut(text, cut_all=False)    #jieba分词，默认模式
    liststr = "/".join(seg_list)      #先进行分词操作了，以 / 隔开

    f_stop = open(stopwords, encoding='utf-8')      #在这里加编码 utf-8
    try:
        f_stop_text = f_stop.read()
        #f_stop_text = f_stop_text.decode('utf-8')#unicode(f_stop_text, 'utf-8')
    finally:
        f_stop.close()

    f_stop_seg_list = f_stop_text.split('\n')       #以\n为分隔的txt停用词表，将每个词保存为list中的元素

    for myword in liststr.split('/'):
        if not (myword.strip() in f_stop_seg_list) and len(myword.strip()) > 1:
            mywordlist.append(myword)

    return ' '.join(mywordlist)


for parent, dirnames, filenames in os.walk(filepath):

    for filepath in filenames:          # 遍历二级中的文件集
        k = open(outfile + filepath, 'a+', encoding='utf-8')  # 此时应该到了第2级目录，parent已变为二级
        txtPath = os.path.join(parent, filepath)  # txtpath就是所有文件夹的路径
        f=open(txtPath,'r', encoding='utf-8').read()

        k.write(jiebaClearText(f))


tok=time.time()
print(u'总共耗时：' + str(tok - tik) + 's')

收尾

如果用的是本文的数据集，只做最后一步就可了。
分完词之后就没了。你的数据就已经可以拿去给算法糟蹋了。
我的课题是特征选择算法研究，但没想到难点居然在数据预处理hhhh
当然，后面的我虽然已有思路，但还没做，只是觉得比预处理简单，也许却是望山跑死马呢。
但愿顺利，明天再更。

你可能感兴趣的:(文本特征选择)

从头学前端-HTML简介 liangblog 笔记前端 html javascript
HTML简介:先说下什么是网页：网页是网站中的页面，通长是HTML格式的文件，单个或多个页面就组成了一个网站；现在的技术发展到一般都是单页应用，在一个页面中，通过页面跳转的方式，访问不同数据页面；网页基本都是通过浏览器访问；网页主要有图片，文字、链接、视音频等元素组成；使用不同的标签引入元素；最终生成的文件和展示的方式一般都是html或htm文件;什么是HTMLHTML是超文本标记语言《Hyper
linux proc/pid/信息说明 shenhuxi_yu LINUX
版权声明：本文为EnweiTech原创文章，未经博主允许不得转载。https://blog.csdn.net/English0523/article/details/53391567Proc是一个虚拟文件系统，在Linux系统中它被挂载于/proc目录之上。Proc有多个功能，这其中包括用户可以通过它访问内核信息或用于排错，这其中一个非常有用的功能，也是Linux变得更加特别的功能就是以文本流的形
基于 Qwen-Agent 与 MCP 实现阿里云 ECS 实例查询（含完整代码与实操）
✅关键词：Qwen-Agent、MCP、阿里云、运维、LLM、FunctionCalling在现代云运维场景中，我们不仅希望大语言模型（LLM）能回答文本问题，更希望它能直接调用云端API、查询资源，实现「智能运维」。本文将分享如何基于Qwen-Agent和MCP，快速实现一个“云资源助手”，能帮你查询阿里云ECS实例信息。什么是MCP？MCP(Model-ComputingPlatform)是阿
【Linux 文本处理三剑客：grep、sed、awk 深度解析与实战指南】
一、grep$grep-[选项]'要查找的字符串或正则表达式'[文件]1.常用选项-i：忽略大小写进行搜索-e:指定查找内容，可以跟多个，类似于’查找内容1’|‘查找内容2’-v：显示不匹配模式的行-c:计算找到符合行的次数-w:精确查找，只能输出完全匹配的内容。类似于\b要查的内容\b-n：在输出结果中显示行号-r：递归搜索目录下的所有文件-lr:以长文本格式显示文件名-E：使用正则表达式查找2
python基础笔记大大的大大笔记 python 前端数据库
输入就是print()；#括号里面双引号(“xxxx”)=单引号('xxxx')必须在一行；但是三引号"""xxxx"""='''xxx'''可以换行输出；#'''xxxnnn'''xx=open(('C:\py\py笔记.txt','a+')print('hello',file=xx)xx.close()可以在python中新建文本文本档等(看后缀)："xx"=open('C:\py\py笔记.
GPT-4o mini TTS：领先的文本转语音技术桂花饼 AIGC GPT-4o o4-mini 语音识别人工智能 GPT-4o
什么是GPT-4ominiTTS？GPT-4ominiTTS是OpenAI推出的全新一代文本转语音（TTS）技术，能够以自然、流畅的方式将普通文本转换为语音。依托先进的神经网络架构，GPT-4ominiTTS在语音合成中避免了传统TTS的生硬与机械感，能够生成富有情感和个性化表达的高质量语音。该技术支持多语言与多口音，是视频、播客、电子学习等场景的理想选择。核心特点自然流畅，接近真人GPT-4om
HTTP协议详细介绍
HTTP（HyperTextTransferProtocol，超文本传输协议）是用于在计算机网络中分发超文本信息的基础协议。它是万维网（WorldWideWeb）的核心协议之一，允许浏览器、服务器和其他应用程序之间的通信。HTTP是无状态的应用层协议，最初用于传输HTML文档，但现在几乎可以传输任何类型的数据。1.HTTP的基本概念1.1无状态协议HTTP是一个无状态协议，这意味着每个请求和响应都
MD编辑器基本使用方法斟的是酒中桃编辑器 Markdown
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Mark
这么简单的从零到一做HTML 网页，你确定不来看看吗？ paid槮 html 服务器前端
HTML网页的介绍HTML(HypertextMarkupLanguage,超文本标记语言)是一种用于创建网页的标准标记语言,是一种与Python不同的编程语言。网页文件的扩展名通常为,html或.htm,这两种扩展名都可使用,并不会影响文件内容简单的HTML网页框架每一个HTML网页都包含一个基础框架，其他的内容都是在基础框架内进行扩充的。示例代码:这里是标题在这里填入正文这是一个较为基础的HT
Flutter：Text Widget 文本组件的使用风一样的code
Flutter学习咒语:"Flutter一切皆组件！"新语言第一个程序当然是'Helloworld'看一下最基础的HelloWold代码import'package:flutter/material.dart';voidmain()=>runApp(MyApp());classMyAppextendsStatelessWidget{@overrideWidgetbuild(BuildContext
跟100位大师练，练完就成高手丨写作工具箱 22 丨张伟丨
大师写作100练丨文/张伟蹯溪百日极致写作练习营这是椰子私塾第1788篇原创输出最厉害的招数，往往最简单。练到极致，就是绝招，写作亦如此。跟100位大师练，练完就成高手丨写作工具箱22不同风格的语言运用1、文学语言基本要求：生动、形象、真实、准确等等。小说有自己的语言特征。2、叙述语言包括：文本描写、说明、抒情、议论、阐释、交代等等。3、人物语言包括：对话，独白等等。主要作用是体现人物性格与性情变
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
Excel 转 JSON by WTSolutions API 文档
Excel转JSONbyWTSolutionsAPI文档简介Excel转JSONAPI提供了一种简单的方式将Excel和CSV数据转换为JSON格式。该API接受制表符分隔或逗号分隔的文本数据，并返回结构化的JSON。接口端点POSThttps://mcp.wtsolutions.cn/excel-to-json-api请求格式API接受包含以下参数的JSON格式POST请求：参数类型是否必填描述
dos命令for教程，循环语句读取字符串变量文件，bat批处理脚本老盖聊技术
大家好，我是老盖，首先感谢观看本文，本篇文章做的有视频，视频讲述的比较详细，也可以看我发布的视频。今天我们学习dos命令中的for命令，它在bat批处理脚本中用的非常多，可以批量处理一些字符串文本变量等数据。输入命令for/?可以看到这个命令的介绍和参数帮助，for这个命令的参数比较复杂，学起来有点难度，我这里举一些例子和大家讲解一下。@echoofffor%%iin(*.*)doecho%%ip
Java:对给定的字符串和给定的模式执行Boyer-Moore搜索算法（附带源码） Katie。 Java算法完整教程 java 开发语言
一、项目背景详细介绍在文本处理与信息检索中，需要在海量文本中高效地查找模式串（Pattern）。经典的朴素搜素在最坏情况下时间复杂度为O(N·M)，效率不够高。Boyer–Moore算法则采用“坏字符”与“好后缀”两种启发规则，从模式尾部匹配开始，通常能大幅跳过不可能匹配的位置，平均时间复杂度接近O(N/M)，在实际应用（如grep、数据库索引）中非常高效。本项目旨在用Java实现Boyer–Mo
redis常见问题快乐的码农一枚 redis redis nosql 数据库
一、处理redis的线上问题Redis使用过程中经常会有各种大key的情况1、改对象需要每次都整存整取、最好改成hash存储，每次修改某一个field2、list、set、zset元素太多。每次可以只查询部分；3、将一个key拆分多个key二、超大Value打满网卡的问题如何规避业务设计上避免对于大文本【超过500字节】写入到Redis时，一定要压缩后存储！大文本数据存入Redis，除了带来极大的
Go-Redis × 向量检索实战用 HNSW 在 Redis 中索引与查询文本 Embedding（Hash & JSON 双版本） Hello.Reader 数据库运维缓存技术 golang redis embedding
1.场景与思路痛点：把“文本内容”转成向量后，如何在本地Redis里做近似向量搜索（KNN），而不依赖外部向量数据库？方案：利用HuggingFace模型sentence-transformers/all-MiniLM-L6-v2生成384维Float32向量；借助RediSearch的HNSW索引能力，在Hash或JSON文档里存储&查询向量；用go-redisv9的高阶API（FTCreate
2021-03-18 Linux进阶-from Biotrainee 乔帮主_d2ac
vim编辑器Vim编辑器：大多数Linux都会自带的文本编辑器。功能强大：代码补全、编译及错误跳转等方便编程的功能特别丰富，在程序员中被广泛使用。功能强大到其官方现在对自己的定位是“程序开发工具”Vim编辑器：三种模式image.png命令模式方向键或者hjkl^和$：快速到所在行的开头和末尾（用0也可以到开头）30j：向下移动30行（数字+方向进行快速移动）ctrl+f或b:上下翻页（forwa
LangGraph 教程：初学者综合指南（1）背太阳的牧羊人 langgraph langchain langgraph
关键概念图结构LangGraph设计的核心是基于图形的应用程序工作流程表示。该图包含两个主要元素：节点-工作的构建块：LangGraph中的每个节点代表应用程序中的一个不同的工作或操作单元。这些节点本质上是封装特定任务的Python函数。此任务可能涉及多种操作，例如：与LLM直接沟通，进行文本生成、摘要或其他基于语言的任务。与外部工具和API交互以获取数据或在现实世界中执行操作。通过格式化、过滤或
5、网络基础：从协议到各层解析 juice 探索Java网络编程精髓网络协议 TCP/IP OSI模型
网络基础：从协议到各层解析1.网络协议概述在网络通信中，协议是计算机之间进行数据交换的规则集合。不同的协议定义了网络通信的不同方面。例如，超文本传输协议（HTTP）规定了网页浏览器和服务器之间的通信方式；而IEEE802.3标准则定义了在特定类型的线缆上将比特编码为电信号的协议。开放且公开的协议标准使得不同厂商的软件和设备能够相互通信，比如你的网页浏览器无需关心服务器是Unix工作站、Window
Python100个库分享第36个—python-pptx(办公篇) 小庄-Python办公 Python100个库分享 python 开发语言 python办公 python-pptx python读取ppt python操作ppt
目录专栏导读库简介主要特点️安装方法基础使用1.导入库和创建演示文稿2.基本幻灯片操作3.常用布局类型文本和格式设置1.文本框和段落2.文本对齐和样式表格操作1.创建基本表格2.高级表格格式️图片和形状1.插入图片2.添加形状图表功能1.创建柱状图2.创建饼图办公实用功能1.创建项目汇报PPT2.创建培训课件3.创建产品介绍PPT高级功能1.母版和主题2.动画和过渡效果3.批量生成幻灯片性能优化和
掌握reStructuredText：编写与格式化文档的技巧
本文还有配套的精品资源，点击获取简介：reStructuredText（rST）是一种轻量级文本标记语言，广泛用于Python社区的文档编写，特别是借助Sphinx文档生成器。本文介绍了rST的基础语法和高级特性，包括段落、标题、强调、代码、列表、引用、链接、图像、表格、章节组织、自定义角色和指令、包含和排除文件以及源代码高亮。同时，探讨了Sphinx与rST结合使用的高级功能，包括扩展、配置和构
掌握C#文件操作与XML处理：学习资料完整指南竹石文化传播有限公司
本文还有配套的精品资源，点击获取简介：C#是一种广泛应用于Windows和跨平台开发的编程语言，它在.NET框架中包含强大的文件和XML操作能力。本文深入探讨了C#中的文件读写技术，包括使用System.IO命名空间中的File类进行文本和二进制文件处理，FileStream类的流操作，以及XML文档的解析、创建和修改方法。同时，文章也介绍了文件操作的扩展功能和在进行文件操作时应考虑的异常处理。通
[Python] -项目实战类3- 用Python制作一个记事本应用踏雪无痕老爷子 Python 开发语言 python
一、为什么要自己写记事本？提升GUI编程能力：通过构建窗口、菜单、文本区等组件，理解基本控件的使用。实用工具：自定义功能、更轻量、更符合个人使用习惯。实验与扩展空间大：方便加入特色功能，如自动保存、代码高亮、插件等。二、准备工作✅安装Python（建议Python 3.7+）。无需安装第三方库，tkinter是Python标准库的一部分。用于构建UI界面。sudoaptinstallpython3
Python自动化神器：Faker库生成逼真测试数据的10种高级技巧
Python自动化神器：Faker库生成逼真测试数据的10种高级技巧fromfakerimportFakerimportpandasaspdimportjsonfromdatetimeimportdatetime#创建一个Faker实例fake=Faker('zh_CN')#使用中文本地化#生成基本个人信息defgenerate_user():return{"name":fake.name(),"
Java 字符串 jianaio java python 开发语言
Java字符串基础Java字符串是java.lang.String类的对象，用于存储和操作文本数据。字符串在Java中是不可变的，任何修改操作都会生成新的字符串对象。Stringstr1="Hello";Stringstr2=newString("World");System.out.println(str1+""+str2);//输出:HelloWorld字符串创建方式直接赋值：使用双引号创建字
大学生兼职平台有哪些赚钱的好项目(大学生兼职平台有哪些) 幸运副业
大学生兼职平台有哪些赚钱的好项目(大学生兼职平台有哪些)近年来，大学生兼职成为许多在校学生解决生活费用的重要途径。随着社会的不断发展，大学生兼职平台也应运而生。然而，在众多平台中，究竟有哪些赚钱的好项目？本文将从多个角度为大家详细解析，助力广大大学生找到适合自己的兼职项目。推荐一篇找兼职必看的免费教程：《手机兼职，300-500/天，一单一结，大量要人》在这里可以找到各种数据标注兼职，文本配音兼职
Linux+Python实战课堂：笔记、练习与应用
本文还有配套的精品资源，点击获取简介：本压缩包提供全面的Linux学习资源和Python编程练习，旨在帮助初学者和IT从业者深入理解Linux系统及其技能，并通过Python编程练习巩固相关技能。涵盖Linux基础概念、文件系统、命令行操作、文本编辑器使用、用户和组管理、软件管理、进程监控、网络配置以及系统性能监控等多个方面。同时，包含Python基础语法、函数与模块、面向对象编程、文件操作、异常
《语文课程目标分析框架的破与立》读书笔记苔花如米筱
《语文科课程论基础》的第三章中王教授认为语文课程与教学目标的“工具性”与“人文性”不该分裂开来，而是互相包含、互相叠加的层叠蕴涵关系。修订后的课程标准坚持原实验稿也提出来的关于语文课程基本性质的认识，坚持语文课程的工具性和人文性的统一。“课改”以来有人在强调人文性的时候，不恰当地“将孩子和洗澡水一起泼掉”。“孩子”即语文本体。这样做又陷入了片面性，必然造成工具性与人文性两败俱伤。工具性是语文课程的
文本字符串处理合集by批处理（不定期更新）
觉得有帮助麻烦您动动发财的小手点赞、收藏、加关注，感谢！1.字符串文本排序：https://blog.csdn.net/humors221/article/details/1494124492.替换记事本字符：https://blog.csdn.net/humors221/article/details/1205834753.文本乱序：https://blog.csdn.net/humors221
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他