刘永鑫Adam

宏基因组实战2. 数据质控fastqc, Trimmomatic, MultiQC, khmer

本文英文原版见下方github链接，由中科院朱微金博士翻译、测试、并进行中文注释和补充，全网首发“宏基因组”公众号。

https://2017-cicese-metagenomics.readthedocs.io/en/latest/toc.html

前情提要

如果您在学习本教程中存在困难，可能因为缺少背景知识，建议先阅读本系统前期文章

宏基因组分析理论教程
微生物组入门圣经+宏基因组分析实操课程
1. 背景知识-Shell入门与本地blast实战

数据质控

https://2017-cicese-metagenomics.readthedocs.io/en/latest/quality.html # 有时连接不稳定打不开，等会就会好。或访问它更早版本的链接如下：

https://2017-dibsi-metagenomics.readthedocs.io/en/latest/quality.html

安装软件

安装依赖关系

sudo apt-get -y update && \
sudo apt-get -y install trimmomatic python-pip \
   samtools zlib1g-dev ncurses-dev python-dev unzip \
   python3.5-dev python3.5-venv make \
   libc6-dev g++ zlib1g-de

安装 fastqc

wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
unzip fastqc_v0.11.5.zip
cd FastQC
chmod +x fastqc
cd

创建Python3.5虚拟环境

cd
python3.5 -m venv ~/py3
. ~/py3/bin/activate
pip install -U pip
pip install -U Cython
pip install -U jupyter jupyter_client ipython pandas matplotlib scipy scikit-learn khmer
pip install -U https://github.com/dib-lab/sourmash/archive/master.zip

运行Jupyter Notebook

# 配置
jupyter notebook --generate-config -y
cat >>~/.jupyter/jupyter_notebook_config.py <

 
   1. 测序数据准备 
   我们分析采用 Hu et al., 2016. 文章中数据的子集，下载数据 
   # 创建数据文件夹
mkdir data
cd data
# 下载测试数据
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_1.fastq.gz
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_2.fastq.gz
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249_1.fastq.gz
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249_2.fastq.gz
# 如果无法科学上网而下载失败，尝试在文提供的百度云中的data目录中下载

# 检查文件
md5sum *.gz
# 改原始文件为只读，防止被修改
chmod u-w * 
   2. fastqc质量评估 
   # 质控所有gz压缩的原始数据，t启动多线程，一般与文件数量一致
fastqc *.gz -t 4
# 显示所有网页版质量评估报告文件，可下载本地或用firefox查看
ll *.html 
   3. Trimmomatic去接头和低质量序列 
   下载Illumina双端接头序列 
   curl -O -L http://dib-training.ucdavis.edu.s3.amazonaws.com/mRNAseq-semi-2015-03-04/TruSeq2-PE.fa 
   运行Trimmomatics 
   # 调用for循环批处理文件
for filename in *_1.fastq.gz
do

# 提取双端公共文件名，并输出检验
base=$(basename $filename _1.fastq.gz)
echo $base

# 运行去接头程序
TrimmomaticPE -threads 9 \
     ${base}_1.fastq.gz \
     ${base}_2.fastq.gz \
     ${base}_1.qc.fq.gz ${base}_s1_se \
     ${base}_2.qc.fq.gz ${base}_s2_se \
     ILLUMINACLIP:TruSeq2-PE.fa:2:40:15 \
     LEADING:2 TRAILING:2 \
     SLIDINGWINDOW:4:2 \
     MINLEN:25 
done 
   宏基因组拼接前必须去干净接头，防止引入人造序列对结果影响 
   4. 质控后再评估 
   fastqc *.qc.fq.gz -t 4
# 查看再次质控结果，与之前的比较试试
ll *.qc_fastqc.html 
    
    
   图1. 比较质控前后第一个样品右端接头污染水平。上图质控前接头污染水平近10%，质控后接近0.
 
   评估报告的结果非常多，自己多读读，不懂上fastqc官网看帮助。 
   5. MultiQC多样品报告汇总(可选) 
   需要python3.5 
   # 激活Pythone3环境
. ~/py3/bin/activate
# 安装包
pip install git+https://github.com/ewels/MultiQC.git
# 生成多样品报告
multiqc . # 
   虽然是可选步骤，但对于多样品还是非常有意义的。可以方便比较，节省时间。 
    
    
   图2. 多样品质控前后比较。图像还是交互式的，鼠标悬停可显示样品名。 
   6. K-mer过滤 
   https://2017-cicese-metagenomics.readthedocs.io/en/latest/kmer_trimming.html 
   如果我们绘制样品k-mer丰度的柱状图，你会注意到存在大量的unqiue K-mers，即使测序质量很高，但它们也是由测序错误导致的。 
    
   图3. 序列末端低质量区有极高复杂度的kmer
 
   本节继续在Python3下运行 
   # 对质控前后的数据统计单端丰度距离
abundance-dist-single.py -M 1e9 -k 21 SRR1976948_1.fastq.gz SRR1976948_1.fastq.gz.dist

abundance-dist-single.py -M 1e9 -k 21 SRR1976948_1.qc.fq.gz SRR1976948_1.qc.fq.gz.dist

# 只对高覆盖度中的低丰度kmer剪切(更可能是测序错误)；低覆盖度保留
interleave-reads.py SRR1976948_1.qc.fq.gz SRR1976948_2.qc.fq.gz | trim-low-abund.py -V -M 8e9 -C 3 -Z 10 - -o SRR1976948.trim.fq 
    
   图4. kmer过滤原理：
只对高覆盖度中的低丰度kmer剪切(更可能是测序错误)；低覆盖度保
 
   为什么要进行k-mer剪切   
   如果不做这步也是可以的。但会增加下游组装的工作量，本步可使结果更准确，并增加下游拼接速度，以及内存消耗。 
   unique-kmers.py SRR1976948_1.qc.fq.gz SRR1976948_2.qc.fq.gz
unique-kmers.py SRR1976948.trim.fq 
   结果如下： 
   # 质控后的32-mers数据
Estimated number of unique 32-mers in SRR1976948_1.qc.fq.gz: 65344914
Estimated number of unique 32-mers in SRR1976948_2.qc.fq.gz: 85395776
Total estimated number of unique 32-mers: 112758982

# k-mer剪切后的数据
Estimated number of unique 32-mers in SRR1976948.trim.fq: 101285633
Total estimated number of unique 32-mers: 101285633 
   结果只经过了简单的尾部过滤，k-mer的数量减少了10%以上，对下游分析的准确度和速度都非常有帮助。 
   按Kmer质控后的结果，感觉趣的再用fastqc评估一下，看看有什么变化？ 
   接下来的文章来会介绍k-mer更大的用途，猜猜是什么？ 
   猜你喜欢 
   10000+：菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑 
   系列教程：微生物组入门 Biostar 微生物组  宏基因组 
   专业技能：学术图表 高分文章 生信宝典 不可或缺的人 
   一文读懂：宏基因组 寄生虫益处 进化树 
   必备技能：提问 搜索  Endnote 
   文献阅读 热心肠 SemanticScholar Geenmedical 
   扩增子分析：图表解读 分析流程 统计绘图 
   16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun 
   在线工具：16S预测培养基 生信绘图 
   科研经验：云笔记  云协作 公众号 
   编程模板: Shell  R Perl 
   生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘   
   写在后面 
   为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外3000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。
 
    
   学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”
 
   点击阅读原文，跳转最新文章目录阅读


    
        你可能感兴趣的:(宏基因组实战2. 数据质控fastqc, Trimmomatic, MultiQC, khmer)
        
            
                
                    26. 【.NET 8 实战--孢子记账--从单体到微服务】--需求更新--用户注销、修改用户名、安全设置
                        喵叔哟
.NET8安全开发语言
                        在实际开发过程中，项目需求的变更和增加是常见的情况，因此这篇文章我们就模拟一下项目需求新增的情况。一、需求项目经理今天提出了新的功能，需要增加重置密码、安全设置、修改用户名、注销账户这四个功能，这四个功能必须是独立的（别问为什么用“必须”，有些产品经理就这么离谱），经过讨论整理出了如下大的需求。编号需求说明1重置密码1.输入旧密码、新密码和确认密码；2.旧密码需要验证。2安全设置1.更新邮箱和手机
                    
                    渗透测试之webshell 蚁剑 流量分析 特性分析 抓包分析
                        浩浩测试一下
网络安全安全系统安全web安全安全架构网络攻击模型
                        目录蚁剑是什么特性简介：蚁剑流量特征两大特征流量分析分析UserAgent数据内容解码分析总结蚁剑是什么蚁剑(AntSword)是一款开源的跨平台WebShell管理工具特性简介：AntSword（蚁剑）是一款开源的网络安全工具，常用于网络渗透测试和攻击。它可以远程连接并控制被攻击计算机，执行命令、上传下载文件等操作。蚁剑与网站进行数据交互的过程中发送的数据是经过编码器编码后再发送支持的编码方式有
                    
                    Redis架构
                        zyz176

                        Redis架构Redis是一个单线程的架构单线程和多线程：单线程效率低，安全多线程效率高，有线程安全问题简化了数据结构和算法的实现：Redis采用了事件模型的机制I/O多路复用机制(Linux处理文件读取的机制)单线程异步回调：node.jsRedis是一个单线程，为什么效率还这么高？redis是基于内存的，他的读取速度本身就很快使用单线程，避免了cpu对线程的切换，在一点程度上提高了效率redi
                    
                    Linux 如何使用parted进行磁盘分区？
                        
linux
                        简介Linux中的parted命令是一个用于创建、修改和管理磁盘分区的多功能工具。它支持传统的MBR（MasterBootRecord：主引导记录）和现代的GPT（GUIDPartitionTable：GUID分区表）分区方案。磁盘分区的主要原因最佳性能：正确管理分区可以提高系统的速度和响应性。例如，将操作系统文件从用户数据中分离出来，或者将频繁访问的数据放在磁盘上更快的部分上，都可以提高性能。数
                    
                    Windchill配置-数据库相关的基础操作
                        这城有海
系统配置Windchill二开数据库
                        数据库相关的基础操作一、数据库访问1.1访问方式1.2数据库服务器1.2.1Windows/Linux1.2.2监听相关命令1.2.3进入sqlplus的方式1.2.4基础SQL命令二、常用的SQL语句2.1数据库表空间使用情况查询2.1.1统计2.1.2明细2.2数据库表空间扩容2.2.1单机环境2.2.2集群环境（OracleRAC）2.3游标查询2.3.1查询最大游标数和最大打开游标数2.3
                    
                    OpenBayes 一周速览｜微软 Phi-4 发布，降低更多成本实现高效推理；Terra 时空数据集上线
                        

                        公共资源速递5个数据集：Terra多模态时空数据集ChineseCouplets中文对联数据集AqueousSolubility无机化合物数据集HumanLikeDPODataset大模型对话微调数据集SentimentandEmotionAnalysisDataset情感情绪分析数据集4个教程：一键部署Phi-4Docling：文档解析神器一键部署QVQ-72B-preview铅笔素描风格文生图
                    
                    深入理解检查约束：确保数据质量的重要工具
                        

                        title:深入理解检查约束：确保数据质量的重要工具date:2025/1/20updated:2025/1/20author:cmdragonexcerpt:在数据库管理中，检查约束是一种重要的约束类型，用于确保表中某一列或某些列的数据符合特定条件，从而维护数据的有效性和一致性。检查约束通过对数据的有效性进行验证，防止无效或不合逻辑的数据进入数据库。categories:前端开发tags:检查约
                    
                    淘宝店铺详情API接口的开发、应用与收益
                        
前端后端运维数据挖掘api
                        淘宝作为中国最大的电商平台之一，拥有海量的商品和店铺数据。为了更好地利用这些数据，淘宝开放平台提供了丰富的API接口，允许开发者通过调用接口获取淘宝平台上的商品和店铺信息。本文将深入探讨淘宝店铺详情API接口的开发、应用及其带来的收益，并提供示例代码以供参考。一、淘宝店铺详情API接口的开发1.注册淘宝开放平台账号首先，开发者需要在淘宝开放平台注册一个开发者账号。注册过程涉及填写个人信息或企业信息
                    
                    精通爬虫技术：从入门到入狱——网络数据爬虫的合法性与法律边界
                        

                        了解数据爬虫的原理、用途、法律风险与合规性。本文深入解析网络爬虫的工作机制，探讨其在数据采集、搜索引擎等领域的应用。同时，重点关注Robots协议、反爬虫技术、开放数据等合规性问题，并分析相关法律案例，助您合法安全地使用爬虫技术。文章目录什么是网络数据爬虫？数据爬虫的工作原理数据爬虫的应用与影响数据爬虫的广泛用途数据爬虫带来的负面影响和潜在风险数据爬虫的合规性问题开放数据与非开放数据Robots协
                    
                    OpenBayes 一周速览丨ShowUI专注GUI自动化，可解析屏幕截图和用户指令；U-MATH数据集上线
                        

                        公共资源速递5个数据集：U-MATH数学推理数据集AlMedicalChatbot医学对话数据集Tecnalia电子设备废物高光谱数据集WaterlooExploration大规模图像质量评估数据库WasteClassification可回收物及生活垃圾分类数据集3个教程：一键部署QwQ-32B-PreviewHunyuanVideo腾讯混元文生视频DemoShowUl：专注GUI自动化的视觉-语
                    
                    python的schedule模块
                        weijiuzhu007
python
                        这里写自定义目录标题一，schedule模块1.什么是schedule模块2.具体应用二，详细源码一，schedule模块1.什么是schedule模块schedule模块进行job管理，具体可以执行定时任务，schedule方法是串行的，也就是说，如果各个任务之间时间不冲突，那是没问题的；如果时间有冲突的话，会串行的执行命令2.具体应用1，安装方法pipinstallschedule2，使用im
                    
                    华为OD机试C卷--手机App防沉迷系统（Java & JS & Python & C）
                        飞码创造者
华为OD机试题库华为odc语言javajavascriptpython
                        获取题库不需要订阅专栏，可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机App防沉迷系统”能够让我们每天合理地规划手机App使用时间，在正确的时间做正确的事。它的大概原理是这样的：1.在一天24小时内，可以注册每个App的允许使用时段2.一个时间段只能使用一
                    
                    高效员工培训：AI赋能企业发展新纪元
                        
前端
                        在当今竞争激烈的商业环境中，员工是企业最宝贵的资产。高效的员工培训不仅能提升员工技能，提高工作效率，更能增强企业核心竞争力，推动企业持续发展。然而，传统的员工培训模式往往存在效率低下、成本高昂、缺乏互动性等诸多问题。例如，传统的线下培训需要耗费大量时间和资源，难以满足员工个性化学习需求，培训效果评估也缺乏客观数据支撑。面对这些挑战，人工智能（AI）技术的应用为企业员工培训带来了革命性的变革，为构建
                    
                    Linux内核编译出来的Image文件解析
                        物随心转
嵌入式开发linux
                        一、内核镜像image介绍Image:是在Linux内核编译时，使用objcopy去掉vmlinux中的一些符号表等信息后，生成的仅包含可执行二进制数据的内核镜像。Image是一个可引导的内核镜像文件，它包含了Linux内核和一些启动参数，所以可直接引导Linux启动。不过Image没有经过压缩(itisUncompressedkernelimage)因此也比较大在很多下，我们需要构造自定义的Li
                    
                    React 19新特性探索：提升性能与开发者体验
                        
程序员
                        React作为最受欢迎的JavaScript库之一，不断推出新版本以应对日益复杂的应用需求。React19作为最新的版本，引入了一系列令人兴奋的新特性和改进，旨在进一步提升应用的性能、开发效率和用户体验。本文将深入探讨React19的新特性，包括异步操作管理、文档元数据和样式表支持、ServerComponents与服务器端渲染等，帮助开发者更好地理解和利用这些新特性来构建更强大、更高效的Reac
                    
                    【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet ：通过低成本操作获得更多特征 (论文笔记+引入代码)
                        YOLO大师
YOLO论文阅读
                        YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要在嵌入式设备上部署卷积神经网络（CNNs）由于有限的内存和计算资源而变得困难。特征图中的冗余是那些成功的CNNs的一个重要特性，但在神经架构设计中很少被研究。本文提出了一种新颖的Ghost模块，
                    
                    传感器融合(UWB+IMU+超声波)，使用卡尔曼滤波器和3种不同的多点定位算法(最小二乘、递归最小二乘和梯度下降)研究（Matlab代码实现）
                        科研_研学社
算法matlab开发语言
                        欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、引言二、传感器介绍（一）UWB（超宽带）（二）IMU（惯性测量单元）（三）超声波传感器三、定位算法（一）卡尔曼滤波器（二）多点定位算法1.最小二乘法2.递归最小二乘法3.梯度下降法四、系统架构五、实验设计六、结果与讨论七、结论2运行结果3参考文献
                    
                    OpenBayes 一周速览｜一键部署Qwen2.5-Coder，0编程经验实现代码生成自由！
                        

                        公共资源速递5个数据集：Coil-100图像数据集Muharaf手写阿拉伯文数据集CollectiveActivity集体活动视频数据集MultimodalSpectroscopic化学多模光谱数据集CDFSOD-benchmark跨域小样本对象检测基准数据集3个教程：一键部署Qwen2.5-CoderInkSight将手写文字数字化DemoGLM-4-Voice端到端中英语音对话模型访问官网立即
                    
                    MySql场景面试题：满意度调查分组去除最高最低求平均分
                        码到三十五
mysql高手mysqlspringbootspringcloud分布式数据分析数据挖掘
                        ❃博主首页：「码到三十五」，同名公众号:「码到三十五」，wx号:「liwu0213」☠博主专栏：♝博主的话：搬的每块砖，皆为峰峦之基；公众号搜索「码到三十五」关注这个爱发技术干货的coder，一起筑基场景描述我们有一个员工满意度调查系统，数据库中有一张表：survey_scores表：存储员工对公司的满意度打分。表结构如下：--调查打分表CREATETABLEsurvey_scores(score
                    
                    深入剖析Vue的provide与inject：如何实现跨层级数据共享
                        
后端
                        引言在Vue开发中，provide与inject是两个非常有用的特性，它们常用于父子组件关系之外的跨层级数据传递。相比于props和$emit的传统方式，provide和inject可以更轻松地在多个组件之间传递数据，尤其是在深层嵌套的组件树中。它们在Vue2.2版本首次引入，Vue3中也得到了进一步的优化。尽管provide和inject的使用看起来非常简单，但其背后隐藏了复杂的实现原理。在这篇
                    
                    6、ListView详解：构建可滚动的列表
                        piplab666
flutterui
                        在移动应用开发中，经常需要展示大量数据，如新闻列表、商品列表等。Flutter提供了丰富的滚动视图控件，其中最基础也是最常用的就是ListView。本篇博客将深入探讨ListView的各种属性、类型以及性能优化技巧，帮助您更好地利用这一重要工具。1.什么是ListView？ListView是Flutter中的滚动视图控件，用于展示一个可滚动的列表。它可以在垂直方向（默认）或水平方向滚动，内部包含一
                    
                    优秀的服务器性能要看哪些方面
                        
服务器安全
                        服务器性能指标主要看的是速度和稳定性，服务器的性能要求是什么？服务器的多处理器特性、内存容量、磁盘性能及可扩展性是选择服务器要考虑的主要因素。互联网时代的发展服务器的种类也越来越多。服务器的性能要求是什么？运行服务器软件的计算机通常也称为服务器。它是一种高性能计算机，作为网络的结点，存储、处理网络上80%的数据、信息。因此，服务器也被称为网络的灵魂。服务器的构成与微机基本相似，有处理器、硬盘、内存
                    
                    洞见数据未来，StarRocks Summit Asia 2024 即将启幕！
                        
人工智能data
                        在AI时代，我们需要怎样的数据基础软件？数据量和数据类型的需求飞速上涨，我们不仅需要将历史上各种基础设施中的数据进行分析使用，还要关注性能、灵活性、性价比，以及确保单一可信数据源。这一切构成了当前大数据领域的核心难题。今年12月，StarRocksSummitAsia重磅启动！作为年度数据盛会，我们将从用户、平台方、业务领袖和技术极客等不同视角展开交流，携手共建未来的数据解决方案。本届峰会，我们将
                    
                    如何保障网站数据传输更安全
                        
安全服务器
                        在今天的互联网世界中，安全性是用户最为关心的问题之一。随着网络攻击和数据泄露事件的频发，人们越来越意识到选择安全的通信协议的重要性。在众多协议中，HTTPS因其卓越的安全性而逐渐取代了HTTP，成为网络通信的主流方式。HTTPS究竟为何比HTTP更安全呢？1.数据加密：保障传输过程中的安全性HTTPS最大的优势在于其强大的数据加密能力。它通过在HTTP的基础上引入SSL/TLS（安全套接层/传输层
                    
                    StarRocks Lakehouse 快速入门——Apache Iceberg
                        

                        导读：StarRocksLakehouse快速入门旨在帮助大家快速了解湖仓相关技术，内容涵盖关键特性介绍、独特的优势、使用场景和如何与StarRocks快速构建一套解决方案。最后大家也可以通过用户真实的使用场景来了解StarRocksLakehouse的最佳实践！ApacheIceberg介绍ApacheIceberg是一种为大规模、复杂数据集设计的开源表格式，这些数据集跨越了PB级别的数据。最初
                    
                    小明，谈谈你对Vue nextTick的理解
                        
程序员
                        一、nextTick的实现细节在Vue中，nextTick是一个重要的异步操作工具，用于在DOM更新完成后执行回调函数。其实现依赖于微任务机制，以确保操作在下一个“事件循环”中执行。以下是nextTick的具体实现过程：任务队列：当调用nextTick时，Vue会将回调函数存入一个数组（任务队列）中。每次触发数据变化时，这个队列会被处理。微任务调度：Vue首先尝试使用Promise.resolve
                    
                    企业落地大模型的路径选择：微调、RAG、提示词工程
                        AGI-杠哥
深度学习自然语言处理人工智能学习知识图谱
                        一、大模型的特点1）不确定性与传统应用不同，模型的输出是不确定的，即使多次问它一样的问题，给出的结果也可能不一样。这种特性对于日常应用业务OK，但是如果要在企业内用来处理具体业务问题，就必须提高这个稳定性，否则影响生产经营，例如产线操作人员通过模型获取操作步骤或者参数，如果步骤或者数据不对可能会导致产品出现质量问题等等。2）静态性模型一旦训练好，就无法再补充数据，因此模型不会了解你自己组织内部的年
                    
                    StarRocks on AWS Graviton3，实现 50% 以上性价比提升
                        
大数据数据库数据湖云计算云服务
                        在数据时代，企业拥有前所未有的大量数据资产，但如何从海量数据中发掘价值成为挑战。数据分析凭借强大的分析能力，可从不同维度挖掘数据中蕴含的见解和规律，为企业战略决策提供依据。数据分析在营销、风险管控、产品优化等领域发挥着关键作用,帮助企业提高运营效率、优化业务流程、发现新商机、增强竞争力。低成本高效率的完成对海量数据的分析，及时准确的释放数据价值，已成为企业赢得竞争优势的利器。StarRockson
                    
                    OpenVoiceV2：零样本跨语言语音克隆技术，支持多种风格控制
                        智慧医疗
AIGC语音识别人工智能语音克隆
                        1openvoicev2介绍语音克隆技术近年来取得了显著进展，但现有方法通常存在着局限性，例如无法灵活控制语音风格、需要大量多语言数据进行训练、生成速度慢等等。为了克服这些挑战，MyShell.ai团队推出了全新的语音克隆技术OpenVoiceV2，它能够在无需额外训练的情况下，仅凭少量参考音频，就能够克隆任何人的声音，并支持多种语音风格控制，以及快速高效的跨语言语音生成。论文地址：http://
                    
                    2017-SIGGRAPH-Google,MIT-(HDRNet)Deep Bilateral Learning for Real-Time Image Enhancements
                        WX Chen
HDR技术深度学习神经网络机器学习
                        双边网格本质上是一个可以保存边缘信息的3维的数据结构。对于一张2维图片,在2维空间中增加了一维代表像素的强度slice操作(上采样)BilateralGuidedUpsampling这篇文章用双边网格实现图像的操作算子的加速。算法的核心思想是将一幅高分辨率的图像通过下采样转换成一个双边网格,在双边网格中每个格子就是一个图像的仿射变换算子,它的原理是在空间与值域相近的区域内,相似输入图像的亮度经算子
                    
                                java Illegal overloaded getter method with ambiguous type for propert的解决
                                    zwllxs
javajdk
                                    好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 
 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
                                
                                IT人应当知道的10个行业小内幕
                                    beijingjava
工作互联网
                                    10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。 
　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。 
　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
                                
                                java 实现自定义链表
                                    CrazyMizzz
java数据结构
                                    1.链表结构 
 
  链表是链式的结构 
 
 
2.链表的组成 
 
   链表是由头节点，中间节点和尾节点组成 
 
   节点是由两个部分组成： 
 
      1.数据域 
      2.引用域 
 
 
3.链表的实现 
 
&nbs
                                
                                web项目发布到服务器后图片过一会儿消失
                                    麦田的设计者
struts2上传图片永久保存
                                      作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
                                
                                CodeIgniter框架Cart类 name 不能设置中文的解决方法
                                    IT独行者
CodeIgniterCart框架　
                                    今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。 在CI手册里也有说明，如下： 
$data = array(
               'id'      => 'sku_123ABC',
               'qty'     => 1,
               '
                                
                                linux回收站
                                    _wy_
linux回收站
                                    今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。      后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
                                
                                jquery回到页面顶端
                                    知了ing
htmljquerycss
                                    html代码： 
 
<h1 id="anchor">页面标题</h1>
<div id="container">页面内容</div>
<p><a href="#anchor" class="topLink">回到顶端</a><
                                
                                B树、B-树、B+树、B*树
                                    矮蛋蛋
B树
                                    原文地址： 
http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html 
B树 
 
       即二叉搜索树： 
 
       1.所有非叶子结点至多拥有两个儿子（Left和Right）； 
 
&nb
                                
                                数据库连接池
                                    alafqq
数据库连接池
                                    http://www.cnblogs.com/xdp-gacl/p/4002804.html 
 
@Anthor:孤傲苍狼 
 
数据库连接池 
 
用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： 
java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
                                
                                java泛型
                                    百合不是茶
java泛型
                                    泛型 
在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患 
  
泛型的特点：消除强制转换 确保类型安全 向后兼容 
  
简单泛型的定义： 
     泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 
class fan
                                
                                javascript闭包[两个小测试例子]
                                    bijian1013
JavaScriptJavaScript
                                    一.程序一 
<script>
var name = "The Window";
var Object_a = {
　　name : "My Object",
　　getNameFunc : function(){
               var that = this;
　　　　return function(){
　　　　
                                
                                探索JUnit4扩展：假设机制（Assumption）
                                    bijian1013
javaAssumptionJUnit单元测试
                                    一.假设机制（Assumption）概述        理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
                                
                                【Gson四】范型POJO的反序列化
                                    bit1129
POJO
                                    在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 
String str = new Gson().toJson(data); 
得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO 
  
import com.google.gson.Gson;

import java.
                                
                                【Spark八十五】Spark Streaming分析结果落地到MySQL
                                    bit1129
Stream
                                    几点总结： 
1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 
2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
                                
                                NGINX + LUA实现复杂的控制
                                    ronin47
nginx lua
                                    安装lua_nginx_module 模块 
lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty 
Centos和debian的安装就简单了。。 
这里说下freebsd的安装： 
fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz
tar zxvf lua-5.1.4.tar.gz
cd lua-5.1.4
ma
                                
                                java-递归判断数组是否升序
                                    bylijinnan
java
                                    

public class IsAccendListRecursive {

	/*递归判断数组是否升序
	 * if a Integer array is ascending,return true
	 * use recursion
	 */
	
	public static void main(String[] args){
		IsAccendListRecursiv
                                
                                Netty源码学习-DefaultChannelPipeline2
                                    bylijinnan
javanetty
                                    Netty3的API 
 
http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 
里面提到ChannelPipeline的一个“pitfall”： 
如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB） 
来
                                
                                Java工具之JPS
                                    chinrui
java
                                    JPS使用 
  
  
熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
                                
                                window.print分页打印
                                    ctrain
window
                                    
function init() {
    var tt = document.getElementById("tt");
    var childNodes = tt.childNodes[0].childNodes;
    var level = 0;
    for (var i = 0; i < childNodes.length; i++) {

                                
                                安装hadoop时 执行jps命令Error occurred during initialization of VM
                                    daizj
jdkhadoopjps
                                    在安装hadoop时，执行JPS出现下面错误 
  
[slave16][email protected]:/tmp/hsperfdata_hdfs# jps 
Error occurred during initialization of VM 
java.lang.Error: Properties init: Could not determine current working
                                
                                PHP开发大型项目的一点经验
                                    dcj3sjt126com
PHP重构
                                    一、变量 最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。 二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
                                
                                android笔记之--向网络发送GET/POST请求参数
                                    dcj3sjt126com
android
                                    使用GET方法发送请求 
private static boolean sendGETRequest (String path,

                     Map<String, String> params) throws Exception{

              //发送地http://192.168.100.91:8080/videoServi
                                
                                linux复习笔记 之bash shell (3) 通配符
                                    eksliang
linux 通配符linux通配符
                                    转载请出自出处：
http://eksliang.iteye.com/blog/2104387  
在bash的操作环境中有一个非常有用的功能，那就是通配符。 
下面列出一些常用的通配符，如下表所示    符号 意义   * 万用字符，代表0个到无穷个任意字符   ? 万用字符，代表一定有一个任意字符   [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
                                
                                Android关于短信加密
                                    gqdy365
android
                                    关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 
    1、因为Android有短信收发接口，可以调用接口完成短信收发； 
        发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
                                
                                asp.net在网站根目录下创建文件夹
                                    hvt
.netC#hovertreeasp.netWeb Forms
                                    假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： 
string m_keleyiFolderName = Server.MapPath("/hovertree");

if (Directory.Exists(m_keleyiFolderName))
{
//文件夹已经存在
return;
}
else
{
try
{
D
                                
                                一个合格的程序员应该读过哪些书
                                    justjavac
程序员书籍
                                    编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ 
 
 “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本， 你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 
 
很多程序员响应，他们在推荐时也写下自己的评语。 以前就有国内网友介绍这个程序员书单，不过都是推荐数
                                
                                单实例实践
                                    跑龙套_az
单例
                                      
 1、内部类 
public class Singleton {
      private static class SingletonHolder {
             public static Singleton singleton = new Singleton();
      } 
       public Singleton getRes
                                
                                PO VO BEAN 理解
                                    q137681467
VODTOpo
                                    PO： 
     全称是 persistant object持久对象 最形象的理解就是一个PO就是数据库中的一条记录。 好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 
  
  
BO： 
    全称是 business object:业务对象 主要作用是把业务逻辑封装为一个对象。这个对
                                
                                战胜惰性，暗自努力
                                    金笛子
努力
                                    偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？ 
我有个朋友是搞技术的，平时嘻嘻哈哈，以
                                
                                NDK/JNI二维数组多维数组传递
                                    wenzongliang
二维数组jniNDK
                                    多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组 用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 
Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata)

{
jint i,j;

int s
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.