Cloris666

零基础入门NLP- 新闻⽂文本分类

零基础入门NLP- 新闻⽂文本分类
比赛地址https://tianchi.aliyun.com/competition/entrance/531810/introduction

Task1 赛题理理解

赛题数据为新闻文本，并按照字符级别进行匿名处理，整合划分出14个候选分类：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
评测指标为类别f1_score的均值。

解题思路

思路1：TF-IDF+机器学习分类器
TF-IDF算法介绍
思路2：FastText
FastText介绍
思路3：word2vec+深度学习分类器
word2vec是一款进阶的词向量，深度学习分类器可以选用TextCNN、TextRNN或BiLSTM
思路4：Bert词向量

Task2 数据读取与数据分析

数据读取

import pandas as pd 
train_df=pd.read_csv('./train_set.csv/train_set.csv',sep='\t')
train_df.head()

%pylab inline
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))#统计每一条文本的字符数量
print(train_df['text_len'].describe())

#绘制字符数量的直方图
_ = plt.hist(train_df['text_len'], bins=200)
plt.xlabel('Text char count')
plt.title("Histogram of char count")

#统计每个类别的文本数量
train_df['label'].value_counts().plot(kind='bar')
plt.title('News class count')
plt.xlabel("category")

#统计每个单词出现的个数
from collections import Counter
all_lines = ' '.join(list(train_df['text']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:d[1], reverse = True)
print(len(word_count))
# 6869
print(word_count[0])
# ('3750', 7482224)
print(word_count[-1])
# ('3133', 1)

假设3750、900、648是标点符号，试统计每篇新闻平均由多少个句子组成？

python内建的split()函数只能使用单个分隔符,re模块的split()函数可以使用多个分隔符对句子进行分割，其中不同的分隔符要用 “|” 隔开。

统计每类新闻中出现次数最多的字符

for i in range(14):
    all_lines = ' '.join(list( train_df[train_df['label']==i]['text']))
    word_count = Counter(all_lines.split(" "))
    print(i,word_count.most_common(1))

most_common([n]),返回一个列表，其中包含 n 个最常见的元素及出现次数，按常见程度由高到低排序。如果 n 被省略或为 None，most_common() 将返回计数器中的所有元素。计数值相等的元素按首次出现的顺序排序：

Task3 基于机器器学习的文本分类

3.1文本表示方法 Part1

文本表示分为离散表示和分布式表示。
离散表示的代表就是词袋模型，one-hot（也叫独热编码）、TF-IDF、n-gram都可以看作是词袋模型。
分布式表示也叫做词嵌入（word embedding），经典模型是word2vec，还包括后来的Glove、ELMO、GPT和最近很火的BERT。

3.1.1文本的离散表示

OneHot
Bag of words
直接用每个词在文档中出现的次数来表示
sklearn实现方式：

from sklearn.feature_extraction.text import CountVectorizer
corpus = [
'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?',
]
vectorizer = CountVectorizer()
vectorizer.fit_transform(corpus).toarray()

N-grams
n-gram是从一个句子中提取n个连续的字的集合，可以获取到字的前后信息。一般2-gram或者3-gram比较常见。
TF-IDF

文本的离散表示存在着数据稀疏、向量维度过高、字词之间的关系无法度量的问题，适用于浅层的机器学习模型，不适用于深度学习模型。

3.1.2文本的分布式表示

3.2基于机器器学习的文本分类

接下来我们将对比不同文本表示算法的精度，通过本地验证集计算F1得分。

3.2.1Count Vectors + RidgeClassifier

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score
train_df = pd.read_csv('./train_set.csv/train_set.csv', sep='\t', nrows=15000)
vectorizer = CountVectorizer(max_features=3000) #构建一个计算词频（TF）的玩意儿
train_test = vectorizer.fit_transform(train_df['text'])
clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])
val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
# 0.74

3.2.2 TF-IDF + RidgeClassifier

from sklearn.feature_extraction.text import TfidfVectorizer
#train_df = pd.read_csv('./train_set.csv/train_set.csv', sep='\t', nrows=15000)
tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=3000)
train_test = tfidf.fit_transform(train_df['text'])
clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])
val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
# 0.87

TfidfVectorizer参数解释
max_df or min_df: [0.0, 1.0]内浮点数或正整数, 默认值=1.0
当设置为浮点数时，过滤出现在超过max_df/低于min_df比例的句子中的词语；正整数时,则是超过max_df句句子。
这样就可以帮助我们过滤掉出现太多的无意义词语。
stop_words: list类型直接过滤掉停用词。
ngram_range: tuple
有时候我们觉得单个的词语作为特征还不足够，能够加入一些词组更好，就可以设置这个参数，如下面允许词表使用1个词语，或者2个词语的组合。
max_feature: int
大规模语料上训练TFIDF会得到非常多的词语，如果再使用了上一个设置加入了词组，那么我们词表的大小就会爆炸。出于时间和空间效率的考虑，可以限制最多使用多少个词语，模型会优先选取词频高的词语留下。
尝试改变TFIDF的参数并验证精度。
vocabulary:vocabulary是词典索引，例如 vocabulary={“我”:0,“喜欢”:1,“相国大人”:2}

你可能感兴趣的:(零基础入门NLP- 新闻⽂文本分类)

Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
机器学习基础：从数据到智能的入门指南
一、何谓机器学习在我们的日常生活中，机器学习的身影无处不在。当你打开购物软件，它总能精准推荐你可能喜欢的商品；当你解锁手机，人脸识别瞬间完成；当你使用语音助手，它能准确理解你的指令。这些背后，都离不开机器学习的支撑。机器学习是一门让计算机能够从数据中学习并改进的学科。随着传感器技术的飞速发展，我们身边充满了各种传感器，如手机中的摄像头、麦克风，交通监控中的传感器等，它们收集了海量的数据。这些数据就
接口测试框架3之httprunnerV3入门以及HttpRunner安装详解吃喝玩乐秀起来 #接口测试接口
这里写目录标题一、HttpRunner简介二、HtttpRunner安装详解1.环境准备2.脚手架生成项目三、幕布登录的演练1.抓包2.脚本生成一、HttpRunner简介参考文案：https://mubu.com/doc/2vXRWPx5i3c密码：hogwarts1.为什么要开发HttpRunner（1）.工具多而且杂接口测试工具，性能测试工具（2）.学习成本高（3）.团队协作难风格迥异，整合
Python接地气入门。
欢迎来到"鑫哆哆"编程角世界上最好的语言PYTHON?鑫哆哆跟python的机缘为什么选择python合理的设计学习计划，有助于攻略的成功合理驯服自己脑子合理骗过自己脑子合理安排反馈鑫哆哆的学习python计划基础语法缩进语句规则控制语句规则表达式规则函数规则对象规则类型规则数学运算直接觉醒！鑫哆哆的课程选取迈出第一步恭喜大家成功入门python！总结世界上最好的语言PYTHON?新的一年祝大家心
2018-1-7 龙儿_a97d
早上六点前起床，晚上八点多从学校回来，周一都快累趴下了。如果有人问我：“你会让你的孩子也当教师吗？”我一定会斩钉截铁的回答：“我有多恨他才这么干啊？不会的。”我估摸99%的教师都会这么回答。这个回答当然有些开玩笑的性质，可绝对是我真实的想法。而且我也的确承认，在中国有一个有趣的现象：好多父母，都不希望子女再干自己的行当。医生不让孩子学医，法律工作者不让孩子学法律，干新闻的不让孩子学传媒……农民当然
Python从入门到荒废-配置国内下载源 zrhsmile Python python
为提升Python包安装速度，配置国内下载源是常见需求。以下是主流方法汇总，结合稳定性和易用性推荐：一、pip永久配置国内源（推荐）通过修改配置文件实现“一次配置，长期生效”：创建/修改配置文件Windows：路径：%APPDATA%\pip\pip.ini（如C:\Users\用户名\AppData\Roaming\pip\pip.ini）内容：[global]index-url=https:/
今日头条极速版邀请码填多少-2024今日头条极速版好友邀请码填写步骤解析（大全）桃朵十三
嘿，小伙伴们，你们还在为找不到好的新闻阅读软件而烦恼吗？2024推荐填今日头条极速版邀请码：【1712201738】或【1599762938】或【1451455648】今天我要给你们推荐一款超级棒的软件——今日头条极速版免费版！这款软件每天都会更新超赞的文章内容，让你大饱眼福。不仅如此，它还提供了各大模块内容的榜单，让你第一时间掌握热点资讯。最厉害的是，今日头条极速版好友邀请码有155204293
新闻资讯|基于springboot的新闻资讯系统设计与实现(附项目源码+论文+数据库） code.song spring boot 数据库后端
私信或留言即免费送开题报告和任务书（可指定任意题目）目录一、摘要二、相关技术三、系统设计四、数据库设计五、核心代码六、论文参考七、源码获取一、摘要传统信息的管理大部分依赖于管理人员的手工登记与管理，然而，随着近些年信息技术的迅猛发展，让许多比较老套的信息管理模式进行了更新迭代，文章信息因为其管理内容繁杂，管理数量繁多导致手工进行处理不能满足广大用户的需求，因此就应运而生出相应的新闻资讯系统。本新闻
【50】MFC入门到精通——多字节字符集（MBCS）与宽字节字符集Unicode （统一码或万国码） R-G-B MFC入门到精通宽字节字符集Unicode 宽字节字符集 Unicode Unicode统一码 Unicode万国码宽字节Unicode
文章目录1多字节字符集（MBCS）2宽字节字符集nicode（统一码或万国码）1多字节字符集（MBCS）多字节字符集（MBCS，Multi-ByteChactacterSet）：指用多个字节来表示一个字符的字符编码集合。一般英文字母用1Byte，汉语等用2Byte来表示。兼容ASCII127。在最初的时候，Internet上只有一种字符集——ANSI的ASCII字符集，它使用7bits来表示一个字
【53】MFC入门到精通——MFC串口助手(二)---通信版（发送数据、发送文件、数据转换、清空发送区、打开/关闭文件），附源码 R-G-B MFC入门到精通 mfc MFC串口助手串口助手通信串口发送数据串口发送文件串口数据转换串口清空发送区
文章目录1完整功能展示2添加控件变量及声明2.1添加控件及变量2.2SerialPortDlg.h:头文件3函数实现3.1数据发送3.1.2写数据、字符串转3.2发送文件3.2.1打开文件3.2.2发送文件3.3清空发送区4完整MFC项目项下载1完整功能展示串口通信助手页面展示，功能齐全，还增加了串口打开/关闭状态变色，发送按钮状态变色等功能。发送/接收时，相应按钮，功能禁用/可用等保护措施。2添
日常英语口语积累｜第一轮 Ivy_IBFE
【口语练习资料】1.新闻编辑室（快）2.老友记3.摩登家庭4.CommencementspeechTips：1.readingandconsuminginformation2.nottomemorize3.nottoprematurelyapproachanativespeaker4.buildingyourinventoryofwordsandexpressions5.watchingTVors
零基础学习性能测试第一章-为什么会有性能问题试着性能测试学习性能测试零基础
目录零基础性能测试：第一章-为什么会有性能问题？一、性能问题本质分析（黄金三角模型）1.资源不足的典型表现2.设计缺陷的灾难案例3.使用不当的五大雷区二、性能问题排查工具箱（即学即用）1.快速诊断命令表2.性能问题自检流程图3.真实工作场景解决方案三、性能优化的核心原则1.优化优先级法则2.必须避免的优化误区3.优化效果验证公式四、工作应用：性能问题排查清单1.五分钟快速检查表2.性能问题诊断报告
关于学习的一点思考云烟
最近一直在考虑要不要继续做线上理财教育，在理财领域带了三年多的班，给我最大的感触是：大部分人是奔着找标准答案来的。在他们看来报个训练营、报个课，这样就有人手把手教，手把手应该很容易就入门了。但结果往往是开营三天掉队10%，开营一周掉队20%，结营时还剩50%。而这完成课程的50%中，营后能按照课程内容去实践的不超过两位数。这不超两位数中，又不断去学习、实践、调整最终形成一套属于自己体系的更少。不单
3D Gaussian Splatting (3DGS) 从入门到精通：安装、训练与常见问题全解析
3DGaussianSplatting(3DGS)从入门：安装、训练与常见问题全解析3DGaussianSplatting(3DGS)作为一种新兴的实时神经渲染技术，以其惊人的渲染速度和高质量的视觉效果迅速获得了社区的关注。然而，从环境配置到数据准备，再到模型训练和结果导出，整个流程中充满了各种可能令人困惑的“坑”。本文旨在为您提供一份全面的3DGS安装与使用指南，汇总了从环境搭建到最终结果产出的
零基础搭建免费IP代理池：从原理到实战的保姆级指南傻啦嘿哟关于代理IP那些事儿 tcp/ip 网络协议网络
目录一、代理池的核心价值与底层原理二、环境搭建全流程详解2.1开发环境准备2.2核心组件安装三、核心配置深度解析3.1配置文件精要（setting.py）3.2自定义代理源开发四、核心模块实现原理4.1调度系统架构4.2代理验证算法五、运维实战技巧5.1性能优化策略5.2故障排查手册六、安全加固方案七、扩展升级路径八、典型问题解决方案九、性能基准测试十、合规使用指南一、代理池的核心价值与底层原理在
Python零基础入门：魔法方法详解
一、什么是魔法方法？魔法方法（MagicMethods）是Python中一种特殊的方法，它们以双下划线(__)开头和结尾（如__init__、__str__等）。魔法方法允许你定义类在特定情况下的行为，例如初始化、字符串表示、运算符重载等。二、常见的魔法方法分类1.构造和初始化__new__(cls,[...]):创建实例时调用的第一个方法__init__(self,[...]):实例初始化方法_
Go开发技术路线全解析：从基础到资深的系统学习指南（2025年版） Mr.小海 golang 开发语言后端容器云原生 vim 中间件
Go开发技术路线全解析：从基础到资深的系统学习指南（2025年版）一、基础阶段：Go语言入门与核心语法环境搭建与工具链环境标准化是Go开发流程的基础，其核心目标是确保开发环境的一致性与可重复性。2025年主流的Go环境安装方式包括两种：一是通过Go官方网站下载对应操作系统的二进制安装包，二是使用系统包管理器（如Linux的apt/yum、macOS的Homebrew等）进行安装。安装完成后，需配置
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
命硬的故事--孩子的童年被烧伤，抗疤妈妈手记张筱旌
作者：张筱旌小c的妈妈，湖北大学新闻系毕业，7年青岛电视台主持人、记者目前创办优加学科英语培训学校。抗疤妈妈心酸手记，愿所有抗疤妈妈与宝贝们加油，度过这迷茫、无助、焦灼的抗疤的日子。童年，似乎永远与无拘无束得大笑、四处自由得奔跑、天真无邪得笑脸联系在一起，可有这么一群儿童，因为种种意外，他们受到烧烫伤，他们的童年，多了卧床不动的煎熬、撕心裂肺的痛哭、被血水浸染的纱布和被疤痕折磨的百蚁嗜骨的痒，不能
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
Spring AI从入门到精通：构建智能Spring应用的全面指南 java干货仓库 Spring 八股文汇总大模型 spring 人工智能 java
随着人工智能技术的快速发展，将大语言模型（LLM）与企业应用集成已成为趋势。SpringAI作为Spring官方推出的AI集成框架，为开发者提供了便捷、标准化的方式来构建智能应用。本文将从基础概念到高级应用，全面介绍SpringAI的核心功能与实践技巧。一、SpringAI概述1.1什么是SpringAI？SpringAI是VMware于2023年推出的开源框架，旨在简化大语言模型（LLM）与Sp
python爬虫从入门到精通大模型猫叔 python 爬虫数据库
目录一、正确认识Python爬虫二、了解爬虫的本质1.熟悉Python编程2.了解HTML3.了解网络爬虫的基本原理4.学习使用Python爬虫库三、了解非结构化数据的存储1.本地文件2.数据库四、掌握各种技巧，应对特殊网站的反爬措施1.User-Agent2.Cookies3.IP代理五、学习爬虫框架，搭建工程化的爬虫1.创建Scrapy项目2.创建Spider3.编写Spider4.运行Spi
python爬虫入门（小白五分钟从入门到精通）一百天成为python专家 python 爬虫开发语言网络爬虫 python3.11 ipython
网络爬虫的介绍本节主要介绍Pytbon语言中支持网络爬虫的库,此外还将介绍如何获取网站的爬取规则，读者在学习和践过程中一定要严格遵守网站提供的爬取规则。网络爬虫网络爬虫通俗来讲就是使用代码将HTML网页的内容下载到本地的过程。爬取网页主要是为了获取网中的关键信息，例如网页中的数据、图片、视频等。Python语言中提供了多个具有爬虫功能的库，下面将具urHIib库:是Python自带的标准库，无须下
iOS 抓包工具选择与配置指南从零基础到高效调试的完整流程 HTTPwise ios 小程序 uni-app iphone android webview https
iOS抓包：复杂网络调试的必要技能随着移动端应用越来越依赖网络交互，iOS抓包作为核心调试工具之一，变得尤为重要。无论是调试App与后端的接口通信、排查HTTPS请求加密问题，还是定位网络连接超时、请求异常，抓包都能在关键时刻提供有效支持。然而，iOS系统的封闭性与安全机制，往往让开发者在调试过程中碰壁：证书无法安装：系统严格的证书信任机制使得常规抓包工具很难直接抓取HTTPS请求。无法配置代理：
图灵python从入门到实践浮点数_Python编程从入门到实践-图灵出品-pdf 巴黎巨星岬太郎
封面简介本书是一本针对所有层次的Python读者而作的Python入门书。全书分两部分：首部分介绍用Python编程所必须了解的基本概念，包括matplotlib、NumPy和Pygal等强大的Python库和工具介绍，以及列表、字典、if语句、类、文件与异常、代码测试等内容；第二部分将理论付诸实践，讲解如何开发三个项目，包括简单的Python2D游戏开发，如何利用数据生成交互式的信息图，以及创建
Python从入门到高手9.1节-Python中的字典类型大神薯条老师 Python从入门到高手 python 数据分析机器学习爬虫网络爬虫深度学习
目录9.1.1理解字典类型9.1.2字典的类型名9.1.3字典的定义9.1.4字典的主要性质9.1.5好好学习，天天向上9.1.1理解字典类型在日常生活中，我们常常会接触到“字典”这种数据类型，例如一本书籍的目录结构，在目录结构中，通过查找页码，就可以快速翻到指定的页面。如果没有这样的页码，那么我们必须从书籍的第一页开始，一页一页地查找。有了页码以后，直接翻到指定的页面。在Python中，可以通过
LangGraph人机交互 wwx0622 人机交互 AIGC AI编程 gpt
Agent开发框架之Langgraph第一章Langgraph简介与入门第二章LangGraph条件边与工具调用第三章LangGraph人机交互：中断与调试文章目录Agent开发框架之Langgraph前言一、LangGraph人机交互代码总结前言在一些程序中，可能需要用户的状态才能使程序继续执行。例如，假如我们部署了一个web页面，在前端的输入框中得到了用户输入，接着后端接收该信息并注入到任务中
面对抑郁症或者躁郁的孩子，父母不要慌，教你几招轻松解决！彭华勇
最近，一则双人落水的新闻又把抑郁症推上了风口浪尖。其实，随着社会越来越发展，人们面对的新的东西越来越多，挑战也就越来越多，压力也就越来越大，对于大多数患有抑郁症和躁郁症的孩子的父母来说，他们不知道如何帮助他们度过难关。因此，大多数时候，父母受不了这种精神上的折磨，就会把孩子扔进医院，一走了之。之前，彭老师接到过一个案例，孩子是重度抑郁，由于父母常常不在家在外面忙生意，孩子在很早患上抑郁症的时候，父
保姆虐待老人新闻＋《许三观卖血记》读后感+计划感触+在文宣部那么久的感触一只小宋_三月
今天看到新闻，说保姆临时有事就把轮椅上的老人直接脖子绑在树上留在公园，然后就直接离开了。虽然说这种消息屡见不鲜了，但是还是心里疼了一下。可能是昨天刚看过许三观卖血记的缘故吧，更是多了几分感触。我想起来我的爷爷，他和奶奶不愿意来到城里，喜欢在老家和邻居说说话，在城市感觉孤独，姑姑们都在郑州，我们又在驻马店，就只有他们在老家，爷爷因为身体原因，几乎不能走路，也不能好好端饭，奶奶一个人力气小独自照顾他太
Event Loop 在浏览器和 Node.js 中的区别阿珊和她的猫 node.js 前端
前端开发工程师、技术日更博主、已过CET6阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》、《前端求职突破计划》蓝桥云课签约作者、上架课程《Vue.js和Egg.js开发企业级健康管理项目》、《带你从入门到实战全面掌握uni-app》文章目录一、事件循环的阶段浏览器Node.js二、微任务队列的处理浏览器Node
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他