AndyViky

nlp 中文数据预处理

nlp 中文数据预处理

此博文详细介绍中文数据预处理的过程并配上一定量的代码作为实例

数据加载（默认csv格式）

import pandas as pd
datas = pd.read_csv("./test.csv", header=0, index_col=0) # DataFrame
n_datas = data.to_numpy() # ndarray 转成numpy更好处理（个人喜好）

去除空行

def delete_blank_lines(sentences):
    return [s for s in sentences if s.split()]

no_line_datas = delete_blank_lines(n_datas)

去除数字

DIGIT_RE = re.compile(r'\d+')
no_digit_datas = DIGIT_RE.sub('', no_line_datas)
def delete_digit(sentences):
    return [DIGIT_RE.sub('', s) for s in sentences]

判断句子形式（简单句或者复杂句）

STOPS = ['。', '.', '?', '？', '!', '！']  # 中英文句末字符
def is_sample_sentence(sentence):
    count = 0
    for word in sentence:
        if word in STOPS:
            count += 1
            if count > 1:
                return False
    return True

去除中英文标点

from string import punctuation
import re

punc = punctuation + u'.,;《》？！“”‘’@#￥%…&×（）——+【】{};；●，。&～、|\s:：'
def delete_punc(sentences):
    return [re.sub(r"[{}]+".format(punc), '', s) for s in a]

去除英文（仅留汉字）

ENGLISH_RE = re.compile(r'[a-zA-Z]+')
def delete_e_word(sentences):
    return [ENGLISH_RE.sub('', s) for s in sentences]

去除乱码和特殊符号

使用正则表达式去除相关无用符号和乱码

# 该操作可以去掉所有的符号，标点和英文，由于前期可能需要标点进一步判断句子是否为简单句，所以该操作可以放到最后使用。
SPECIAL_SYMBOL_RE = re.compile(r'[^\w\s\u4e00-\u9fa5]+')
def delete_special_symbol(sentences):
    return [SPECIAL_SYMBOL_RE.sub('', s) for s in sentences]

中文分词

# 使用jieba
def seg_sentences(sentences):
    cut_words = map(lambda s: list(jieba.cut(s)), sentences)
    return list(cut_words)

# 使用pyltp分词
def seg_sentences(sentences):
    segmentor = Segmentor()
    segmentor.load('./cws.model') # 加载分词模型参数
    seg_sents = [list(segmentor.segment(sent)) for sent in sentences]
    segmentor.release()
    return seg_sents

去除停用词

# 停用词列表需要自行下载
stopwords = []
def delete_stop_word(sentences):
    return [[word for word in s if word not in stopwords] for s in sentences]

References
https://www.cnblogs.com/lookfor404/p/9784630.html
https://blog.csdn.net/hfutdog/article/details/86495574

你可能感兴趣的:(知识梳理,AI,nlp,machine,learning,预处理)

关于ubuntu中用npm安装gulp-imagemin时报错'Error: Command failed: /bin/sh -c autoreconf -iv' 一个IT小白
在ubuntu中安装gulp-imagemin时报错：提示找不到autoreconf这时需要安装autoreconf，指令如下：sudoapt-getinstallautoconf然后再执行指令安装gulp-imageminnpminstallgulp-imagemin--save-dev安装成功～
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
Java学习笔记——并发编程（三） __________习惯 java java
一、wait和notifywait和notify原理Owner线程发现条件不满足，调用wait方法，即可进入WaitSet变为WAITING状态BLOCKED和WAITING的线程都处于阻塞状态，不占用CPU时间片BLOCKED线程会在Owner线程释放锁时唤醒WAITING线程会在Owner线程调用notify或notifyAll时唤醒，但唤醒后并不意味着立刻获得锁，仍需进入EntryList重
暮然回首--再看C语言--常量与宏定义 812503533 蓦然回首---再看C语言 c语言
常量与宏定义在C语言中，常量和宏定义是非常重要的概念。它们有助于提高程序的可读性、可维护性，并且能够避免重复代码。常量是指在程序运行期间其值不发生变化的变量，而宏定义是一种预处理指令，用于定义常量或代码片段，在编译阶段进行替换。一、常量常量是指在程序执行过程中其值不可改变的量。在C语言中，我们可以使用const关键字来声明常量。常量分为以下几种类型：常量整数：例如constinta=5;常量浮点数
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
git subtree 高频使用方法 NickDeCodes git git github
subtree高频使用方法官网添加新的子项目查看子项目的差异使用子项目克隆存储库引入超级项目更新改变分支引入子项目更新对子项目进行更改将更改推送到子项目存储库高效配置添加新的子项目subtreegitsubtreeadd--prefix=example-submodulehttps://github.com/githubtraining/example-submodulemaster--squas
C++ time(0)函数宁玉AC c学习
time(0)函数返回当前格林尼治标准时间与格林尼治标准时间1970年0分0秒的时间间隔。头文件#include//问题：得到当前时间。#include#includeusingnamespacestd;intmain(){inttotalSeconds=time(0);intcurrentSeconds=totalSeconds%60;inttotalMinutes=totalSeconds/6
AbMole| 纳米药物递送系统IL@H-PP在乳腺癌和脑转移光热疗法 AbMole AbMole 生物化学生物试剂科研生物实验
近年来，光热疗法（PTT）作为一种非侵入性的癌症治疗手段，因其独特的优势而受到广泛关注。来自四川大学华西药学院药物靶向与药物递送系统重点实验室的范童,胡海丽,徐燕燕等多名研究人员发表了题为《HollowcoppersulfidenanoparticlescarryingISRIBforthesensitizedphotothermaltherapyofbreastcancerandbrainmet
C# &Unity 唐老狮 No.8 模拟面试题咩咩-哈基米版 C#&&Unity 面试题与算法合集 c#unity 开发语言
本文章不作任何商业用途仅作学习与交流安利唐老狮与其他老师合作的网站,内有大量免费资源和优质付费资源,我入门就是看唐老师的课程打好坚实的基础非常非常重要:全部-游习堂-唐老狮创立的游戏开发在线学习平台-PoweredByEduSoho如果你发现了文章内特殊的字体格式,那是AI补充的知识,我发现原网站下面有答案,我将会把答案以不同样式穿插在回答之中目录C#1.如果我们想为Unity中的Transfor
QT显示网页控件QAxWidget、QWebEngineView及区别 AI+程序员在路上 QT&C++实战系列 qt 开发语言
一.QT种显示网页控件QAxWidget1.介绍QAxWidget属于QtAxContainer模块，ActiveX是微软提出的一种组件对象模型（COM）技术，允许不同的软件组件在Windows操作系统上进行交互和集成。QAxWidget为开发者提供了在Qt应用程序中使用ActiveX控件的能力，通过它可以将各种ActiveX控件嵌入到应用程序界面中。2.使用引入必要的模块在.pro文件中添加QT
Llama3.1是AI界的Linux？先部署起来再说！ AI大模型探索者人工智能 linux 运维语言模型 ai LLama llama
前言就在昨天，Meta发布了Llama3.1，这次带来的中杯、大杯和超大杯3个版本。从纸面数据来看，Llama3.1超大杯已经能跟GPT-4Omni、Claude3.5Sonnet分庭抗礼了。而中杯和大杯更是将同量级的对手摁在地上摩擦。要知道，Llama的对手可是闭源模型啊工友们！小扎同志说，开源AI会成为行业的标准，就像Linux一样！不管怎么说，既然你开源了，那我就在本地部署起来吧。本文使用O
使用LangChain访问个人数据第一章-简介明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序正文在大数据时代，数据价值逐渐凸显，打造定制化、个性化服务，个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序，大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框
使用LangChain访问个人数据第八章-总结明志刘明大模型学习手册 langchain 人工智能
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序本部分前几个章节请查看使用LangChain访问个人数据第一章-简介使用LangChain访问个人数据第二章-文档加载使用LangChain访问个人数据第三章-文档分割使用LangChain访问个人数据第四章
基于 LangChain 开发应用程序第一章-简介明志刘明大模型学习手册 langchain 人工智能
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统本部分章节目录如下：基于LangChain开发应用程序第一章-简介基于LangChain开发应用程序第二章-提示和输出基于LangChain开发应用程序第三章-储存基于LangChain开发应用程序第四章-模型链基于LangChain开发应用程序第五章-基于文档的问答基于LangCh
ollama教程——使用Ollama与LangChain实现Function Calling(函数调用)的详细教程（二）【附完整源码】 walkskyer ollama入门教程 langchain ollama LLM
ollama入门系列教程简介与目录相关文章:Ollama教程——入门：开启本地大型语言模型开发之旅Ollama教程——模型：如何将模型高效导入到Ollama框架Ollama教程——兼容OpenAIAPI：高效利用兼容OpenAI的API进行AI项目开发Ollama教程——使用LangChain：Ollama与LangChain的强强联合Ollama教程——生成内容API：利用Ollama的原生AP
向 state 字典中的 “messages“ 键添加一条新的用户消息，提示模型返回实际的输出。背太阳的牧羊人 langgraph langgraph tools Agent
完整代码：fromdatetimeimportdatetimefromlangchain_core.runnablesimportRunnable,RunnableConfigfromlangchain_core.promptsimportChatPromptTemplateprimary_assistant_prompt=ChatPromptTemplate.from_messages([("s
LWC-KD：图结构感知的推荐系统增量学习对比知识蒸馏宇直不会放弃 GKD-Middle layer 人工智能 python chatgpt gpu算力深度学习机器学习神经网络
LWC-KD：图结构感知的推荐系统增量学习对比知识蒸馏《GraphStructureAwareContrastiveKnowledgeDistillationforIncrementalLearninginRecommenderSystems》2021作者是YueningWang、YingxueZhang和MarkCoates论文地址：https://dl.acm.org/doi/10.1145/
vue3新增修改页面，字段来源于其他表大波V5 vue.js elementui javascript
确定取消constunitOptions=ref([]);constlistAdspunitAllLocal=async()=>{if(!unitOptions.value.length){constresUnit=awaitlistAdspunitAll();unitOptions.value=resUnit.data;}}//单位生成ID-Name映射字典constidToNameUnitMa
java ik分词器大波V5 java 开发语言
org.apache.lucenelucene-core7.4.0org.apache.lucenelucene-analyzers-common7.4.0com.github.mageseik-analyzer8.5.0publicstaticvoidmain(String[]args)throwsException{Stringtext="今天是个好日子";//创建一个StringReader
PDF处理控件Aspose.PDF，如何实现企业级PDF处理 CodeCraft Studio 文档管理控件 pdf python java
PDF处理为何成为开发者的“隐形雷区”？“手动调整200页PDF目录耗时3天，扫描件文字识别错误导致数据混乱，跨平台渲染格式崩坏引发客户投诉……”作为开发者，你是否也在为PDF处理的复杂细节消耗大量精力？Aspose.PDF凭借AI增强解析、全栈API控制与企业级自动化能力，正在重新定义PDF处理效率的天花板。Aspose.pdf最新下载一、Aspose.PDF六大技术亮点1.高精度PDF解析与生
程序员必看！DeepSeek隐藏用法大揭秘：从代码优化到多模态开发，这些技巧让你少熬三夜班后端
最近在程序员圈子里，有个同事老张的故事特别火。他原本每周要花20小时写接口文档，自从用上DeepSeek的代码补全功能，现在喝着咖啡看AI自动生成Swagger注释——这让我想起刚入行时，为了调通一个正则表达式熬夜到凌晨三点的自己。今天咱们不聊那些官方说明书，就说点真正能让键盘冒火星的实战技巧。藏在代码补全里的"作弊码"很多人以为DeepSeek就是个加强版搜索引擎，其实它对代码的理解远超想象。比
本地部署AI大模型之并行计算：什么是可重入互斥锁/递归锁杰瑞学AI Devops Computer knowledge 开发语言 python 软件工程性能优化
目录1.普通互斥锁的局限性2.可重入互斥锁的工作原理3.使用场景4.代码示例5.实现关键6.注意事项可重入互斥锁（ReentrantMutex，或称为递归锁）是一种特殊类型的互斥锁，允许同一线程多次获取同一把锁而不会导致死锁。以下是其核心要点：1.普通互斥锁的局限性普通互斥锁（Mutex）在同一个线程中只能被获取一次。若线程尝试重复获取已持有的锁，会导致自死锁（线程无限等待自己释放锁）。2.可重入
警惕AI神话破灭：深度解析大模型缺陷与禁用场景指南领码科技 AI应用 IT职场大模型缺陷 AI工具风险伦理挑战应用场景限制可信AI
摘要当前AI大模型虽展现强大能力，但其本质缺陷可能引发系统性风险。本文从认知鸿沟、数据困境、伦理雷区、技术瓶颈四大维度剖析大模型局限性，揭示医疗诊断、法律决策等8类禁用场景，提出可信AI建设框架与用户防护策略。通过理论分析与实操案例结合，为规避AI工具风险提供系统性解决方案。关键词：大模型缺陷、AI工具风险、伦理挑战、应用场景限制、可信AI一、认知鸿沟：无法企及的人类智慧1.1创造性思维的致命短板
视频生成缩略图后端
视频生成缩略图最近有个需求，视频上传之后在列表和详情页需要展示缩略图使用ffmpeg首先引入jar包org.bytedecojavacpp1.4.3org.bytedecojavacv1.4.3org.bytedeco.javacpp-presetsffmpeg-platform4.0.2-1.4.3代码如下publicStringgetThumbnails(StringvideoFilePath
java进行图片压缩后端
图片压缩添加依赖com.siashantoolkit-image1.1.9使用Thumbnails来进行图片压缩publicstaticvoidcompressImage(Stringpath,intwidth,intheight,Stringsuffix,StringoutputFilename){try{ByteArrayOutputStreamout=newByteArrayOutputSt
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
改变仿真游戏规则，Altair的AI与HPC技术创新仿真之路 Altair澳汰尔人工智能自动化仿真结构制造业 CAE AI
原文转自：技术邻CAE学习作者：技术邻CEO虞伦有幸在今年的Altair技术大会作为行业媒体记者，采访了Altair的首席产品和战略官RaviKunju先生以下简称（Ravi），和Ravi的对话让我更全面地了解了Altair的产品策略，以及Altair最新的技术进展，特别是这两年异军突起的应用于设计仿真的Altair的AI相关解决方案，对我来说收获颇丰。现将采访稿做简要整理分享给制造业从事CAE、
PyTorch实现CNN：CIFAR-10图像分类实战教程吴师兄大模型 PyTorch pytorch cnn CIFAR-10图像分类人工智能 python 卷积神经网络开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Raspberry Pi图形组件深入解析与应用示例嵌入式Jerry Linux 服务器 linux 运维 python android
一、概述RaspberryPi的图形组件集中在Yocto项目的meta-raspberrypi层中的recipes-graphics目录下。此目录不仅定义了树莓派硬件优化的图形库和驱动，也提供了丰富的配置示例和具体实现方案，涵盖了从基础绘图、3D渲染到视频加速及窗口管理系统。二、目录结构与核心作用1.图形库优化cairo文件：cairo_%.bbappend作用：针对树莓派平台特定优化的2D图形矢
清华大学出品《DeepSeek从入门到精通》超详细使用手册pdf 2501_90570130 pdf 人工智能
链接：https://pan.quark.cn/s/70da09749050清华大学新闻与传播学院团队发布了长达104页的DeepSeek详细使用手册，该手册成为国产AI工具DeepSeek深度使用的标杆指南。手册内容涵盖基础入门、核心能力与模型对比、进阶提示语策略、场景化应用以及人机协作与能力进阶等方面。它不仅适合新手快速掌握DeepSeek的基础操作，还为进阶用户提供了系统性方法论。
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他