陈仙女歪歪技术分享

opennmt-py+sentencepeice+ctranslate2训练及部署机器翻译模型

机器翻译模型训练步骤

运行环境：ubantu或centos,python3.6以上
tip：本人在撰写这个的时候是python小白+深度学习小白所以有些地方写的比较细致，前几年写的了一直没发出来，有什么问题欢迎留言交流。后续会出工作和学习中遇到的各种问题及解决方案（暂时只限NLP方向机器翻译方向）

一、训练分词模型

用sentencepiece进行分词
git地址：https://github.com/google/sentencepiece

1.训练分词模型

下载sentencepiece进入根目录

spm_train --input=/home/cspm_train --input=/home//tmp/fr-zh.fr --model_prefix=/tmp/spm_fr --vocab_size=32000  train_extremely_large_corpus=truehenqiulin/tmp/fr-zh.fr --model_prefix=/tmp/spm_fr --vocab_size=32000  train_extremely_large_corpus=true

如果报错可能是因为内存不够然后尝试把数据量调小一点指定训练语料大小数据
–input_sentence_size:语料大小
–vocab_size:词表大小
–shuffle_input_sentence:大语料集要这个参数
–model_type:训练方式 unigram (default), bpe, char,word

spm_train --input=/home//tmp/fr-zh.fr --model_prefix=/tmp/spam_fr --vocab_size=32000 --input_sentence_size=1752096  and --shuffle_input_sentence=true

2.生成词表

model:模型位置
–output_format:id/piece 被分词文件路径

spm_encode --model=/tmp/zh.model  --output_format=piece /home//tmp/zh_file.text /tmp/1.test

也可以分词到指定文件

spm_encode --model /home//protmp/OpenNMT-py//spam_fr.model/home//tmp/fr.spm.txt

二、训练机翻模型

用Opennmt-py训练机翻模型
git地址：https://github.com/OpenNMT/OpenNMT-py
准备工作：把数据分成三份：训练集，开发集，测试集

1.构建配置文件 config.yaml

如果已经进行了分词transforms: [sentencepiece]则不需要加
filtertoolong:过滤句子长度

# wmt14_en_de.yaml
save_data: data/wmt/run/example

# Corpus opts:
data:
    train:
        path_src: /general_domain_fr_zh/datasets/general_domain.fr.test
        path_tgt: /general_domain_fr_zh/datasets/general_domain.zh.train
        transforms: [sentencepiece]
#        权重
        weight: 23
    valid:
        path_src: /general_domain_fr_zh/datasets/general_domain.fr.test
        path_tgt: /general_domain_fr_zh/datasets/general_domain.zh.test
        transforms: [sentencepiece]

### Transform related opts:
#### Subword
src_subword_model: /spm_fr.model
tgt_subword_model: /spm_zh.model
src_subword_type: sentencepiece
tgt_subword_type: sentencepiece
# onmttok_kwargs: "{'mode': 'none', 'spacer_annotate': True}"

subword_nbest: 1
subword_alpha: 0.0
#### Filter 过滤长句
src_seq_length: 120
tgt_seq_length: 120

# silently ignore empty lines in the data
skip_empty_level: silent


# # Vocab opts
# ### vocab:
src_vocab: /general_domain_fr_zh/vocab/general_domain_fr.vocab
tgt_vocab: /general_domain_fr_zh/vocab/general_domain_zh.vocab
src_vocab_size: 20000
tgt_vocab_size: 32000
vocab_size_multiple: 8
src_words_min_frequency: 3
tgt_words_min_frequency: 3

# # Model training parameters

# General opts
save_model: /general_domain_fr_zh/model/model
keep_checkpoint: 10
save_checkpoint_steps: 5000
average_decay: 0.0005
seed: 1234
report_every: 100
train_steps: 50000
valid_steps: 5000
train_from： /general_domain_fr_zh/model_step_10000.pt #从指定检查点训练
# Batching
queue_size: 2048
bucket_size: 32768
pool_factor: 8192
world_size: 2
gpu_ranks: [0,1]  #占了两个gpu
batch_type: "tokens"
batch_size: 4096
valid_batch_size: 16 #
batch_size_multiple: 1
max_generator_batches: 0
accum_count: [3]
accum_steps: [0]

# Optimization
model_dtype: "fp32"
optim: "adam"
learning_rate: 2
warmup_steps: 6000
decay_method: "noam"
adam_beta2: 0.998
max_grad_norm: 0
label_smoothing: 0.1
param_init: 0
param_init_glorot: true
normalization: "tokens"

# Model
encoder_type: transformer
decoder_type: transformer
enc_layers: 6
dec_layers: 6
heads: 8
rnn_size: 512
word_vec_size: 512
transformer_ff: 2048
dropout_steps: [0]
dropout: [0.1]
attention_dropout: [0.1]
position_encoding: true

2.生成词表

执行以下命令会自动生成词表到配置文件vocab指定的位置

1.如果已经有词表文件此步骤会报错省略此步骤2.直接用训练分词模型时生成的词表为int会报错，最好用build_vocab脚本重新生成双精度格式的

onmt_build_vocab -config /general_domain_fr_zh/config.yaml -n_sample -1

3.训练

python onmt/bin/train.py -config /general_domain_fr_zh/config.yaml

会遇到许多问题导致训练中途中断：

1.训练速度慢

解决方法：（1）把batch_size参数调大（2）Valid_batch_size调大（3）valid_steps改大，但不要超过train_steps否则不会验证（4）开发集数据不要留过大，一两万就行了

2.显存不够，训练中断

解决方法：（1）把batch_size参数调小（2）训练速度过慢加过滤长句transforms: [sentencepiece,filtertoolong]

3.训练中断后从指定检查点进行训练

Train.py -train_from:xx.model

测试bleu

测试集的译文要先进行分词

spm_encode --model /home//protmp/OpenNMT-py//spam_fr.model/home//tmp/fr.spm.txt

翻译

激活环境，配置anaonda3环境参考百度，如果没有环境则进入Opennmt-py根目录下

 source activate opennmt

执行下列语句进行翻译

python onmt/bin/translate.py -model /home//protmp/OpenNMT-py//general_domain_fr_zh/model/model_step_50000.pt -src /home//tmp/fr.spm.txt -tgt /home//tmp/zh.spm.txt -output /home//tmp/zh.spm.predict.txt

中途遇到的问题：语料大导致翻译速度缓慢
解决方案：

python onmt/bin/translate.py --replace_unk -batch_type tokens -beam_size 5 -gpu 1 -batch_size 4096 -model /home//protmp/OpenNMT-py//general_domain_fr_zh/model/model_step_50000.pt -src /home//tmp/fr.spm.txt -tgt /home//tmp/zh.spm.txt -output /home//tmp/zh.spm.predict.txt

分词还原

spm_decode --model /home//protmp/OpenNMT-py//spam_zh.model -input_format=piece /home//tmp/zh.predict.txt

测试belu

sacrebleu -l fr-zh  /home///tmp/general_domain.zh.test  < /home///tmp/zh.predict.txt

注意问题和常用命令

加python环境：无法导入上层包也是这个问题

export PYTHONPATH=$PYTHONPATH:./

查看显存占用情况

nvidia-smi

三、部署模型

1.使用Ctranslate2进行模型转换

首先到opennmt官网下载Ctranslate2，激活opennmt环境

ct2-opennmt-py-converter --model_path /home//OpenNMT-py//general_domain_zh_fr/model/model_step_200000.pt  --output_dir /home//OpenNMT-py//basic/basic_zh_fr_model/convert1028

转换后会生成一个convert文件夹，这个文件的路径便是配置文件里模型的路径
model.bin
source_vocabulary.txt
target_vocabulary.txt

RuntimeError: Unable to open file ‘model.bin’ in model 'mount/converzh0917’遇到这个错误请重新构建配置文件

下面是Linux常用命令可以自行忽略

pip install -i https://pypi.douban.com/simple -r requirements.txt  #指定镜像下载

后台执行python程序

 nohup python -u  scripts/generate_bt_data.py /home//bt/zhfr/news-commentary.tail.zh /home//bt/zhfr/news-commentary.tail.bt.fr >/home//bt/frzh/my.log 2>&1 &

nohup python -u  onmt/bin/train.py  -config /home//OpenNMT-py//general_domain_fr_zh/config.yaml  >/home//OpenNMT-py//general_domain_fr_zh/frzhtrain.log 2>&1 &

 shuf words.txt > shuffled_words.txt 打乱

paste fr_total.clean.nor.tok.tc.fr  zh_total.clean.nor.zh >frzhall.txt 合并

cut  原文件 -f1>新文件 拆指定列

cat frzhall.csv | grep 'A型房间' 查找指定字符数据

sed -n '1200002p' zh.train.src  打印指定行

cat 一个文件 > 另一个文件 把一个文件追加到另一个文件末尾，覆盖

cat 一个文件 >> 另一个文件 把一个文件追加到另一个文件末尾 不覆盖拼接

你可能感兴趣的:(机器学习,python,深度学习,开发语言,机器翻译引擎,机器翻译)

GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
【项目实战】在 Python 中，可以通过 `subprocess` 模块调用系统的压缩程序（如 7-Zip 或系统自带的zip命令）来实现文件或文件夹的压缩。本本本添哥 011 -Python python 7-zip 开发语言
在Python中，可以通过subprocess模块调用系统的压缩程序（如7-Zip或系统自带的zip命令）来实现文件或文件夹的压缩。通过subprocess调用系统压缩工具（如7-Zip）是最灵活的方式，支持多线程、密码保护和多种压缩格式。需注意路径配置和参数的正确性，并通过异常处理提升代码健壮性。对于轻量需求，可优先考虑zipfile或py7zr等库。以下是详细的实现方法和注意事项：1.使用7-
《Python 微服务架构实践指南：框架与工具的深度解析》清水白石008 python Python题库架构 python 微服务
《Python微服务架构实践指南：框架与工具的深度解析》开篇引入背景介绍：在现代应用开发中，微服务架构因其高扩展性、灵活性和模块化优势而备受关注。从电商平台到数据处理，微服务架构逐渐取代传统单体架构，成为开发者首选。而Python凭借其简洁优雅的语法和丰富的生态系统，为实现微服务架构提供了坚实的基础。为什么写这篇文章：作为一名资深开发者和教育者，我深切感受到许多开发者在微服务设计中的困惑。因此，本
使用uv工具高效管理Python版本安装指南庞翰烽
使用uv工具高效管理Python版本安装指南前言在现代Python开发中，多版本Python环境管理是每个开发者都会遇到的挑战。传统方式需要手动下载安装不同版本的Python，配置环境变量，过程繁琐且容易出错。uv工具提供了一套优雅的解决方案，让Python版本管理变得简单高效。uv工具简介uv是一个现代化的Python工具链管理器，它不仅能够管理Python包依赖，还能智能地管理Python解释
【Flink图计算源码解析】开篇：Flink图计算总览 hxcaifly Flink Flink原理和应用
文章目录1.图计算的作用2.本专题的写作目的3.FlinkGelly引擎总览3.1.Gelly的源码结构1.Graph的存储数据结构2.图的类别3.图的验证以及指标4.图的生成器5.Library6.图的迭代计算7.examples案例4.后记1.图计算的作用哲学上说事物之间普遍存在联系的，通常来说可以将事物看作图的顶点，事物间的联系看作图的边，典型的场景：对应于学术界的文献来说，每篇论文可以看作
用python实现无限弹窗-五一劳动节快乐数据知道 python3案例和总结 python 开发语言
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.使用`tkinter`实现无限弹窗1.1实现代码1.2代码说明2.使用`pyautogui`实现无限弹窗2.1安装`pyautogui`2.2实现代码2.3代码说明3.使用`ctypes`实现无限弹窗3.1实现代码3.2代码说明4.注意事项5.总结使用tkinter库使用pyautogui库在Python中实现无限弹窗可以通过tki
鸿蒙应用App Linking优化：深度链接性能操作系统内核探秘操作系统内核揭秘 harmonyos 华为 ai
鸿蒙应用AppLinking优化：深度链接性能关键词：鸿蒙系统、AppLinking、深度链接、性能优化、路由匹配、参数解析、冷启动优化摘要：本文深入探讨鸿蒙系统下AppLinking深度链接的性能优化策略。从核心概念解析出发，详细阐述深度链接在鸿蒙架构中的实现原理，包括Ability路由机制、链接解析算法和参数传递模型。通过数学模型分析路由匹配复杂度，结合Python算法示例演示链接解析过程。基
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
Python爬虫技术：高效采集开放数据的5种方法大数据洞察 python 爬虫 wpf ai
Python爬虫技术：高效采集开放数据的5种方法关键词：Python爬虫、开放数据采集、请求库、异步爬虫、分布式爬虫、动态网页解析、API直连摘要：本文围绕“如何用Python高效采集开放数据”展开，系统讲解5种主流爬虫方法（基础请求库、异步请求、动态网页渲染、分布式爬虫、API直连）的原理、适用场景与实战技巧。通过生活类比、代码示例和真实案例，帮助读者快速掌握不同场景下的爬虫策略，同时强调数据合
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
LeetCode 633.平方数之和（python题解） wendong97 LeetCode从零起步 #双指针 leetcode python 算法
LeetCode633.平方数之和（python题解）题目示例分析题解用到的基础知识计算平方和平方根取整参考题目给定一个非负整数c，你要判断是否存在两个整数a和b，使得a2+b2=c示例输入:5输出:True解释:1*1+2*2=5分析本题与上一题LeetCode167.两数之和II非常相似，把两数之和变成了平方数之和，利用上一题答案的思路，同样设置两个一左一右的指针，很容易就可以解答出来。这里要
数据标注管理工具：AI燃料工厂的精益引擎花海如潮淹人工智能经验分享笔记
标注团队的三重灾难链1.质量波动的死亡螺旋某自动驾驶公司因漏标3%的障碍物边缘，导致感知模型误判引发事故（IEEE2024案例）。质检员发现标注员A的错误率超行业标准5倍，但传统抽检仅覆盖8%数据量（ScaleAI白皮书）。2.任务调度的纳什困境某医疗影像标注项目，肝脏分割任务积压2周，而简单分类任务空闲率达37%（Labelbox调度报告）。标注员平均28%时间浪费在任务切换（Appen生产力研
[特殊字符] 简易分贝仪制作（基于麦克风 + Python） qq_27684373 python 开发语言
一、基本原理1.什么是dBSPL？**声压级（SoundPressureLevel,SPL）**定义为：SPL(dB)=20⋅log⁡10(pp0)\text{SPL(dB)}=20\cdot\log_{10}\left(\frac{p}{p_0}\right)SPL(dB)=20⋅log10(p0p)ppp：声压值（单位Pa，帕斯卡）p0=20μPa=2×10−5Pap_0=20\mu\text
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
使用python对音频做去噪处理莫夭阏之 python 信号处理语音识别
要使用Python对音频进行去噪处理，您可以使用许多库和算法。以下是使用librosa和scipy库实现的基本去噪算法：首先，您需要安装所需的库。您可以使用以下命令安装它们：pipinstalllibrosascipynumpy接下来，您需要导入所需的库：importlibrosaimportscipy.signalassignalimportnumpyasnp加载音频文件并提取音频数据：y,sr
Python实现音频均衡和降噪 0Kilobyte 音视频
使用librosa库来读取音频文件，音频处理是一个复杂过程，这里只是简单的进行降噪和均衡。importlibrosaimportsoundfileassfdefimprove_audio_quality(input_file,output_file):#读取音频文件audio,sample_rate=librosa.load(input_file)sf.write(output_file,audi
Python的简单降噪应用 adaierya python 开发语言
音频降噪是使用Python进行信号处理的一个常见应用，通常会使用一些信号处理库，如NumPy和SciPy，以及一个用于音频处理的库，如Librosa。如下是一个简单的音频降噪实现步骤和代码示例：步骤1:安装必要的库若还没有安装这些库，请先使用pip进行安装：pipinstallnumpyscipylibrosasoundfile步骤2:导入必要的库在Python代码中，我们需要导入这些库：impo
python 源码安装_源码安装python weixin_39959794 python 源码安装
编译安装新版本python一般来说python是linux系统的标配，但是版本一般却很老，而系统上面的很多服务可能与老的python存在依赖关系，我们又不能直接卸载。所以一般，我们可以在一个单独的目录来安装python。python安装有两种方法：1.源码编译2.使用pyenv此处我们使用源码编译安装：1.下载源码：https://www.python.org/ftp/python/此处有各个版本
python 源码安装 thjinhao python
linux环境下python3.9安装yum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4-devellibpcap-develxz-devellibffi-develyum-yinstallgcc4.python环境的安装（安装pyenv
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
uvx.exe 跨环境 Python 工具执行器的原理与实战指南
在Windows安装uv时，系统会同时生成一个可执行文件uvx.exe。它并不是新的打包管理器，而是uvtoolrun命令的便捷别名：调用uvx.exe就能在瞬间解析依赖、构建隔离虚拟环境并执行来自Python生态的任意命令行工具，完成过程无需事先创建venv，也不会污染当前项目。官方文档把这种体验类比为npx或pipx的一次性执行，但uvx速度更快、磁盘开销更小，更能契合CI/CD流水线、临时脚
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解以山河作礼。 #机器学习算法机器学习算法回归
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解一·摘要二·个人简介三·前言四·原理讲解五·算法流程六·代码实现6.1坐标下降法6.2最小角回归法七·第三方库实现7.1scikit-learn实现（坐标下降法）：7.2scikit-learn实现（最小角回归法）：一·摘要拉索回归（LassoRegression）是一种线性回归的正则化形式，它通过引入L1范数惩罚项来实现模型的稀疏性，从
vscode怎么装python_vscode如何安装python
vscode安装python的方法：1、在vscode的扩展中输入"extinstallpython"安装python插件打开VScode，Ctrl+p输入"extinstallpython"，搜索时间可能会比较长安装过程不能停止，否则重新安装；2、在配置文件“settings.json”修改python的安装路径修改用户设置-settings.json，将"python.pythonPath":
机器学习算法之回归算法福葫芦机器学习回归算法
一、回归算法思维导图二、算法概念、原理、应用场景和实例代码1、线性回归1.1、概念‌‌线性回归算法是一种统计分析方法，用于确定两种或两种以上变量之间的定量关系。‌线性回归算法通过建立线性方程来预测因变量（y）和一个或多个自变量（x）之间的关系。其基本形式为y=wx+e，其中w是权重，x是自变量，e是误差项。1.2、算法原理线性回归算法的核心在于找到最佳的拟合直线，使得预测值与实际值之间的误差最小。
Android音视频探索之旅 | C++层使用OpenGL ES实现音频渲染慢行的骑兵音视频 android 音视频 NDK
一.前言OpenGLES实现视频渲染已经实现-在Android音视频探索之旅|C++层使用OpenGLES实现视频渲染中，这一次我们使用OpenGLES实现音频渲染。二.通过OpenSLES播放音频2.1.整体流程1.创建OpenSL引擎2.创建混音器3.创建播放器4.执行播音操作（OpenSLES的播音过程比较特别，不像视频那样每放完一帧就主动休眠，而是每帧音频播放结束会自己回调，在回调的时候才
站外SEO入门：三分钟掌握核心概念与基础操作 SEO_juper SEO Google 数字营销 seo 谷歌数字营销谷歌seo seo优化
站外SEO是您在网站之外所做的一切，以帮助它在SERP中排名更高。站内SEO侧重于内容、网站结构和技术改进，而站外SEO着眼于从外部建立信誉。有很多方法可以到达那里，从建立链接到社交媒体，再到获得那些令人垂涎的品牌提及。站外SEO对你意味着什么？通过站外SEO，您可以尝试为自己或您的企业获得信任和信誉。这个策略的很大一部分涉及链接建设，这涉及让其他网站链接回你的网站。这样做可以向搜索引擎表明您的内
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
假发行业数字化突围，外贸ERP重构外协管理引擎，助力效率飞跃
随着全球消费对个性化、美观化的要求不断提升，假发产品畅销欧美、日韩、中东等市场。然而，复杂的生产工艺、分散的外协点、层层交付节点，使得企业在外协管理上面临流程细节掌控不严、质量与交期难以保障的痛点。行业背景与外协管理痛点1、分散外协资源多假发产业链条长，从原料选购、毛发理发、梳理捻接，到编织上胶、定型喷雾，每个工序往往分包给不同的小作坊或手工作坊。资源分散导致管理难度大。2、流程节点多，信息孤岛严
关于python的一些面试题
1.技术面试题（1）TCP与UDP的区别是什么？答：在工作机制上TCP采用三次握手四次挥手的机制保障信息传递的稳定性，更适合文件的传输和下载。而UDP采用的是直接传输和直接接受的机制提高信息传递的高效性，更适合点对点的实时交流的环境。（2）DHCP和DNS的作用是什么？答：DHCP相当于网络中的智能管家，他会自动将局域网内的设备进行配置包括但不限于：IP地址、子网掩码、DNS服务器地址。而DNS相
零事故网站重构：11步标准化流程与风险管理指南
什么是网站重新设计？网站重新设计是一个涉及更改网站外观、内容和功能的过程。目标？开发一个更好地满足用户需求和业务目标的网站。网站更新涉及进行小规模的更改（例如对主页布局进行一些调整）。但是完全重新设计基本上是从头开始重建您现有的网站。网站重新设计检查清单通常包括以下要素：视觉设计：网站的外观，包括布局、配色方案、排版和品牌用户体验（UX）：网站如何为用户提供服务，包括导航和互动元素搜索引擎优化（S
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他