HXH@

论文解读＜＜基于分布式特征表示的深度学习模型识别蔷薇科基因组中的DNA n4 -甲基胞嘧啶位点＞＞

论文解读<<基于分布式特征表示的深度学习模型识别蔷薇科基因组中的DNA n4 -甲基胞嘧啶位点>>

摘要

DNA n4 -甲基胞嘧啶(4mC)是在原核生物和真核生物中发现的一种表观遗传修饰，涉及许多生物学功能，包括宿主防御、转录调节、基因表达和DNA复制。为了识别4mC站点，以前的计算研究主要集中在寻找手工制作的特征。因此，这一研究领域将受益于计算机方法的发展，该方法依赖自动特征选择来识别相关的地点。本文报道了4mC-w2vec，一种基于分布式特征表示，通过单词嵌入技术“word2vec”学习自动识别蔷薇基因组，特别是蔷薇(rosa chinensis, R. chinensis)和fragaria vesca (F. vesca)特征的计算方法。虽然目前使用一些生物信息学工具来识别这些基因组中的4mC位点，但它们的预测性能不充分。我们的系统通过单词嵌入过程处理4mC和非4mC站点，通过k-mer处理其生物词的子词信息，将子词信息作为特征输入到双层卷积神经网络(CNN)中，以分类样本序列是否包含4mC站点或非4mC站点。

1、介绍

表观遗传学是指与DNA序列本身[1]的修饰无关的基因功能的可遗传变化。DNA甲基化是最广为人知的表观遗传标记之一,因为它起着至关重要的作用在各种重要的生物学过程,包括改变染色质结构,确保稳定的DNA,基因表达控制DNA构象,x染色体失活、基因调控、细胞分化、和癌症进展[2 - 5]。最广泛的DNA甲基化修饰之一是n4 -甲基胞嘧啶(4mC)，它是主要在1983年描述的[6]，它在真核生物和原核生物的胞嘧啶环的第4位被甲基化(尽管4mC在后者中更常见和研究)。在原核生物中，4mC是一个限制修饰(R-M)系统的一部分，该系统可以防御外来DNA的活动，包括其修复、表达和复制[7-11]。4mC在基因组稳定、重组和进化等方面也起着辅助作用[12-14]。4mC在真核生物中的生物学作用尚不清楚，部分原因是真核生物基因组中4mC的体积很小，因此无法通过高灵敏度技术以外的任何方法检测到它。为了实验识别4mC位点，单分子实时荧光定量PCR (Single Molecule of RealTime, SMRT)、质谱和甲基化精确PCR都被使用了[15-18]。但是，****这些方法都是费时费力的。利用适当的计算工具分析与山茱草基因组相关的“大数据”，可能是准确识别4mC位点的更有效手段目前只有两种计算方法可以识别蔷薇科基因组中的4mC位点:i4mC-Rose[33]和DNC4mC-Deep[34]。i4mC-Rose工具是具有多种编码方案的随机森林分类器的结果，而DNC4mC-Deep是具有六种编码技术的深度学习方法的结果。尽管这些方法产生了可接受的结果，但仍然有很大的改进空间，特别是考虑到采用的数据集可能没有足够的质量来捕获4mC基模，或者所采用的特征选择方法可能不适合区分正类和负类的序列信息。此外，以往的方法依赖领域知识对输入特征进行手工设计。相比之下，我们的方法通过单词嵌入自动捕获高水平的输入特征，允许一个新颖和高度精确的计算工具。本文开发了基于序列的DNA 4mC位点预测器。我们的核心思想是通过单词嵌入将DNA序列转化为向量，然后用双层一维CNN对其进行处理，最终进行分类。字嵌入谷歌于2013年诞生在应用[35]协助自然语言处理(NLP),但后来发现成功的生物应用程序(第36 -),深度学习的使用在我们的第二步在许多方面取得了显著的结果,包括语音识别[44],图像识别(45、46),NLP[47]和全基因组预测[48-53]。在我们的研究中，结合词嵌入技术和深度学习技术，在平衡和不平衡类数据集上都取得了出色的结果，我们认为所提出的方法在全基因组预测中是有前景的。

2、材料和方法

2.1、数据集组成

为了开发基于序列的标识符，有必要构建可靠的数据集。我们独立地构造了一个完整的训练集和独立的数据集。从MDR数据库[54]，http://mdr.xieslab.org/中获得4mC序列(阳性序列)。根据以往的研究，长度为41 nt的预测效果最好[22,29]。因此，DNA序列的长度被设置为41 nt，在中心包含‘C’。以往的研究者[33,34]使用P20的修正QV (modQV)评分来生成正数据集，但w.c chen等人指出，modQV评分为30或30以上是将胞嘧啶位置标记为modified[21]的默认或最佳阈值。为了开发更可靠的模型，我们应用了p30的QV来构建我们的正数据集，并排除了QV值<30的序列。为了去除序列相似性，使用CD-HIT[55]软件，截断阈值为65.00%。结果，我们获得了4321个vesca基因组，2421个inR阳性序列。chinensisgenome。从这些数据集中，选择约80%的序列(3457 (F. vesca)和1938 (R. chinensis))作为训练集，剩余序列(864 (F. vesca)和483 (R. chinensis))作为独立数据集。
阴性序列(非4mC位点序列)来自同一基因组文件，其中4mC位点(位于中心的“C”)未被SMRT测序技术检测到。这样，在每个物种中都形成了以“C”为中心的大量负序列。在模型训练中，正序列和负序列被平衡。为了测试效果基于该模型，我们构建了具有不同正负样本比率的独立数据集。ForF。Vescathese分别为:1:1[864阳性864阴性]，1:5[864阳性4320阴性]，1:15[864阳性12960阴性]。中华绒螯蟹:1:1[阳性483条，阴性483条]，1:5[阳性483条，阴性2415条]，1:15[阳性483条，阴性7245条]。由于独立阳性序列的数量有限，所有比值组(即864 forF)均接受相同的阳性序列。要使vescaand 483。对)。阴性序列在比值组之间没有重叠。表1总结了这两个物种的训练和独立数据集。

2.2、方法

我们提出了一种新的方法(4mC-w2vec)来鉴定蔷薇科基因组中的4mC位点。我们的计划包括两个主要步骤。第一步是鉴别特征生成或表示阶段，该阶段将每个DNA序列用3-mer描述成单词，然后使用单词嵌入方法将每个单词映射到对应的特征表示。第二步，利用深度学习模型，根据第一阶段生成的特征对4mc和非4mc进行分类。下面几节将给出详细的解释，并在fig中给出通用的体系结构。1.

2.2.1。分布式特性表征

我们决定应用一种通常被称为“word2vec”[35]的单词嵌入技术。该技术基于分布假设[56]生成最优特征向量集。Word2vec是一个两层神经网络，它通过向图中所示的单词向量化来处理文本。1(一)。它以文本语料库的形式接收输入，输出是表示语料库中单词的特征向量。这种技术降低了计算复杂度，降低了噪声，最终提高了计算模型的性能。此外，许多生物密码(如遗传密码)可以表示为一种语言[57-59]，由此产生的见解可以用于解决各种生物学问题[58,60,61]。因此，我们采用word2vec方法来寻找每个4mC位点的可解释表示。
语料库的构建发现了词语大文件之间的语义关系。在我们的研究中，我们通过生成了语料库。F. vescaand和R. chinensis利用NCBI基因组数据生成了语料库，可通过网址://www.ncbi.nlm.nih.gov。训练word2vec的第一步是建立语料库词汇。word2vec模型可以基于连续词袋法(CBOW)或跳跃图法应用。在跳跃图模型中，使用当前单词(w(t))或输入来预测上下文单词的周围窗口。相比之下，CBOW方法尝试根据邻近的单词(上下文)猜测目标单词。作为CBOW模型的输入，窗口大小为5的公式如下seqn 1:

CBOW和Skip-gram的表现类似，尽管Skipgram更有用，对不常见的单词给出更好的结果[62]。在我们的研究中，我们关注的是频繁的单词，因此采用CBOW进行word2vec训练。为了处理CBOW，基因组组装被分成长度为200 nt的句子。接下来，每个句子被分成重叠的3-mer组成单词(如AAT, CCT, GCN, CCC)。在这一点上，每个4mC包含一条连续的核苷酸链。这些单词被输入到一个两层的word2vec模型中，如图1(a)所示。因此，每个单词都有自己的100维(D)向量表示，每个lengthl序列由一个shapeðL?2Þ? 100。例如，单词“AAT”被表示为100-(D)向量的½0:111;0:222;0:333;…::;0:12100?和’ CCT '表示为100-D向量的½0:221;0:112;0:313;…::;0:23100?表2列出了用于训练word2vec的参数。大多数参数保持默认值。根据前人的研究，通过创建的方法获得了最佳的性能****100 - d(36, 43,50)。因此，将单词向量的维数参数设为100-D。我们包括所有频率大于1的单词。对于上下文词，我们测试了不同的重叠k-mers，如k = 1 (A)， k = 2 (AT)， k = 4 (ATCG)， k = 5 (ATCGA)，和k = 6 (ATCGAT)。负采样设置为5，以绘制“噪声词”。窗口大小设置为5，表示句子中当前单词和预测单词之间的最大距离。语料库上的纪元(迭代)数设置为20。word2vec是使用python库genism对两个物种独立训练的[63]。

2.2.2。CNN模型

我们使用CNN模型(深度前馈神经网络)学习word2vec生成的特征。在CNN中，超参数决定了训练步骤中的层结构，这影响了模型的准确性和学习时间。因此，采用网格搜索策略进行超参数优化，包括滤波器个数、核大小(滤波器大小)、退出率、卷积层数和激活函数。在应用网格搜索技术后，所提出的CNN模型生成了两个一维卷积层，包含64个9单元的滤波器和一个跨单元。在每个卷积层中，使用一个整流线性激活单元(ReLU)作为激活函数。为了解决过拟合问题，第一层卷积之后是一个辍学率为0.7的辍学率层。对于最终的分类，使用了一个全连接层，其中一个节点，后面是s形函数。CNN模型的配置如表3所示。为了在训练数据集中训练CNN模型，设置学习率为0.0007，批次大小设置为128，并基于验证损失采取早期停止策略。采用RMSprop作为优化器[64]，采用二元交叉熵作为损失函数[65]。Keras框架(一个python开源库，https://keras.io/)被用于构建4mC-w2vec。经过训练的模型将能够通过在CNN训练阶段设置“类权重”来学习不平衡的类数据集。

2．3. 评价参数

使用各种统计指标，包括敏感性(Sn)、特异性(Sp)、准确性(ACC)和马修相关系数(MCC)来评估模型的性能[67-69]。算式中TP、FP、TN、FN为真阳性、假阳性、真阴性、假阴性值。我们还纳入了受试者工作特征(ROC)曲线来评价所提出的方法。

3.结果和讨论

3.2. 使用不同编码方法的效果

基于k-mer值(如1-mer、2-mer、3 -mer、4-mer、5-mer和6-mer)的重叠，通过词嵌入得到6个特征向量模型。将这些向量表示模型输入CNN进行4mC站点的独立识别。我们观察到，3-mer在预测两种物种的4mC位点方面提供了更多的信息。在这项研究中，基于3-mer并被CNN分类的word2vec表示被认为是最终模型，或“i4mC-w2vec”。在交叉验证检验中，F. vesca预测因子的MCC为0.7407，精度为0.8697,AUC为0.9400。。R. chinensis.的MCC为0.7093，精度为0.8541,AUC为0.9370根据以往的研究，在4mC预测任务[20]中，采用one-hot方法结合深度学习模型编码的生物序列表现良好。我们采用一次热编码方案对DNA序列进行编码，其中A、C、G、T核苷酸分别编码为(1 0 0 0)、(0 1 0 0)、(0 0 1 0)和(0 0 0 1)。为了确定单热编码CNN的最佳参数，采用了网格搜索算法。结果表明，基于3-mer和4 -mer的word2vec方法优于一次性热法。表4给出了CNN分类时基于不同k-mers和一次热编码的六词嵌入模型的性能。更普遍地说，f。采用单热编码的vescais为0.8920，采用word2vec (3-mer)编码的vescais为0.9400(图3)(a)。chinensis在一次热编码时为0.9110，在word2vec (3-mer)时为0.9370(图3)(b)。

3．3．与已有方法在独立测试数据集上的性能比较

Python 是如何执行我的代码的？冰糖心书房 Python python java linux
理解Python如何执行你的代码，可以帮助我们解释很多“为什么”——为什么会有.pyc文件？为什么Python相对较慢？多线程为什么不能利用多核？我们可以用一个“厨师做菜”的比喻来理解整个过程，然后再深入技术细节。一、比喻：厨师（Python）根据菜谱（你的代码）做菜想象一下，你是一位顾客，写了一份非常精确的菜谱（你的.py文件）交给一位名叫CPython的大厨（最常见的Python解释器）。第一
探索Cachier：Python函数的持久化缓存利器胡同琥Randolph
探索Cachier：Python函数的持久化缓存利器cachierPersistent,stale-free,localandcross-machinecachingforPythonfunctions.项目地址:https://gitcode.com/gh_mirrors/ca/cachier在Python开发的世界中，性能优化和资源管理是永恒的话题。今天，我们要介绍的是一个强大的开源项目——C
Pyramda：Python 中的函数式编程利器惠悦颖
Pyramda：Python中的函数式编程利器pyramdaPythonpackagesupportingheavyfunctionalprogrammingthroughcurrying.TranslationoftheRamdalibraryfromjavascripttopython.项目地址:https://gitcode.com/gh_mirrors/py/pyramdaPyramda是
[特殊字符] Excel 读取收件人 + Outlook 批量发送带附件邮件 —— Python 自动化实战 happydog007 python自动化办公 excel outlook python
许多公司定期需要将不同部门或客户的报告发送给指定人员。手动操作容易出错、耗时且繁琐。今天这篇文章教你如何利用Python实现：从Excel中读取“收件人+抄送人+附件文件路径”；使用win32com.client调用Outlook自动生成并发送邮件；✅附加模板正文，并保持批量发送规范无需手工操作。从Excel中读取部门、收件人与附件路径fromopenpyxlimportload_workbook
[特殊字符] Python 实战 | 批量统计中文文档词频并导出 Excel happydog007 python自动化办公 python 开发语言
本文展示如何用Python脚本：批量读取文件夹中的多篇中文文档；用jieba分词并统计词频（过滤停用词与单字符）；将各文档词频输出为对应Excel文件；是文本分析、内容审查、报告编写中的实用技巧。Step1：批量加载文件夹中文本文件路径importospath='主要业务'files=[os.path.join(path,f)forfinos.listdir(path)]使用标准库os.listd
探索开源虚拟 Excel 函数模块：Python 中的 Excel 功能利器
在数据处理和分析的领域中，Excel一直是一款备受青睐的工具，它提供了丰富多样的函数，帮助用户高效地完成各种数据操作。而现在，我（董翔）开发一个基于Python的虚拟Excel函数模块，它将Excel的强大功能带到了Python的世界里，让你在Python环境中也能轻松使用类似Excel的函数。这个模块我已经在GitHub上发布，项目链接为：https://github.com/dxiang-wi
Pixhawk源码笔记五：存储与EEPROM管理 zhouxinlin2009
这里，我们对APMEEPROM存储接口进行讲解。如有问题，可以交流[email protected]。新浪@WalkAnt，转载本博客文章，请注明出处，以便更大范围的交流，谢谢。第六部分存储与EEPROM管理详细参考：http://dev.ardupilot.com/wiki/learning-ardupilot-storage-and-eeprom-management/用户参数、航点、集结点、地图
【ESP32最全学习笔记（基础篇）——7.ESP32 ADC – 使用 Arduino IDE 读取模拟值】「已注销」 ESP32学习笔记学习 ESP32 单片机嵌入式硬件 Arduino
关于本教程：ESP32基础篇1.ESP32简介2.ESP32Arduino集成开发环境3.VS代码和PlatformIO4.ESP32引脚5.ESP32输入输出6.ESP32脉宽调制7.ESP32模拟输入☑8.ESP32中断定时器9.ESP32深度睡眠
【Unity笔记02】订阅事件-自动开门
流程当玩家移动到触发区域的时候，门自动打开事件系统usingSystem;usingSystem.Collections;usingSystem.Collections.Generic;usingUnityEngine;publicclassEventSystem:MonoBehaviour{publicstaticEventSystemInstance{get;privateset;}publi
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
60天python训练营打卡day46
学习目标：60天python训练营打卡学习内容：DAY46通道注意力(SE注意力)知识点回顾：1.不同CNN层的特征图：不同通道的特征图2.什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。3.通道注意力：模型的定义和插入的位置4.通道注意力后的特征图和热力图学习时间：2025.06.29@浙大疏锦行
Golang基础笔记九之方法与接口后端go方法接口类型判断
本文首发于公众号：Hunter后端原文链接：Golang基础笔记九之方法与接口本篇笔记介绍Golang里方法和接口，以下是本篇笔记目录：方法接口用结构体实现类的功能1、方法首先介绍一下方法。方法是与特定类型关联的函数，我们在实现一个函数前，绑定一个类型，就实现了这个类型的方法。比如我们想实现一个结构体的方法，可以如下操作：typePersonstruct{ Namestring Age int
python规划 t_hj python
-----------动态内容与反爬策略----------动态页面处理Selenium：自动化浏览器（点击、滚动、表单提交）Playwright（更现代的替代方案）API逆向工程分析Ajax请求（ChromeDevTools）直接调用API接口（如知乎热榜API）反爬应对User-Agent轮换、IP代理（免费/付费代理池）验证码处理（简单验证码用OCR，复杂验证码需打码平台）请求频率控制（ti
Python 训练营打卡 Day 46 2401_86382089 Python打卡 python
通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的机制，他可以自动学习到图片中的主体，并忽略背景。我们现在说的很多模块，比如通道注意力、空间注意力、通道注意力等等，都是基于自注意力机制的。从数学角度看，注意力机制是对输入特征进行加权求
Python训练营打卡 Day53 yunvwugua__ python自学打卡 python 开发语言
对抗生成网络知识点回顾：对抗生成网络的思想：关注损失从何而来生成器、判别器nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法leakyReLU介绍：避免relu的神经元失活现象对抗生成网络（GAN）知识点回顾对抗生成网络的思想思想：就像在餐厅中，有一个厨师（生成器）负责制作假菜，一个评论家（判别器）负责区分真菜和假菜。厨师的目标是制作出评论家无法区分的假菜，而评论家的目标是找
华为OD机试 2025B卷 - 货币单位转换(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD机试华为OD机试2025B卷华为OD2025B卷华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述记账本上记录了若干条多国货币金额，需要转换成人民币分（fen），汇总后输出。每行记录一条金额，金额带有货币单位，格式为数字+单位，可能是单独元，或者单独分，或者元与分的组合。要求将这些货币全部换算成人民币分（fen）后进行汇总，汇总结果仅保留整数，小数部分舍弃。元和分的换算关系都是
Python 训练营打卡 Day 50 2401_86382089 Python打卡 python
预训练模型CBAM注意力现在我们思考下，是否可以对于预训练模型增加模块来优化其效果，这里我们会遇到一个问题：预训练模型的结构和权重是固定的，如果修改其中的模型结构，是否会大幅影响其性能。其次是训练的时候如何训练才可以更好的避免破坏原有的特征提取器的参数。所以今天的内容，我们需要回答2个问题。resnet18中如何插入cbam模块？采用什么样的预训练策略，能够更好的提高效率？可以很明显的想到，如果是
Python训练营打卡 Day50
预训练模型+CBAM模块知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调预训练模型+CBAM模块知识点回顾ResNet结构解析残差块：ResNet的核心是残差块，它通过残差连接解决了深层网络的梯度消失问题。残差块允许梯度直接传播到后面的层，从而使得网络能够训练得更深。网络结构：ResNet由多个残差块组成，每个残差块包含两个或三个卷积层，以及一个
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
设计模式笔记_创建型_工厂模式
1.工厂模式简介工厂模式是一种创建型设计模式，主要用于创建对象实例。它通过定义一个接口或抽象类来创建对象，而不是直接实例化具体类，从而将对象的创建过程与使用过程分离。工厂模式通常分为两种类型：简单工厂模式（SimpleFactory）：这种模式并不是GoF设计模式之一，但在实际应用中非常常见。简单工厂模式通过一个工厂类来负责创建对象，根据传入的参数的不同，返回不同类型的实例。工厂方法模式（Fact
TypeReference解决Fastjson反序列化时泛型擦除问题-笔记饕餮争锋笔记 java
com.alibaba.fastjson.TypeReference是Fastjson库中的一个泛型类型引用类，主要用于解决Java泛型在运行时类型擦除的问题。它使得在反序列化JSON数据时能够保留完整的泛型类型信息（如List,Map等），确保数据被正确解析为预期的复杂类型。TypeReference是一个抽象类，我们通常通过创建一个匿名内部类来使用它(例如newTypeReference(){
Python爬虫实战：研究chardet库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 chardet
1.引言1.1研究背景与意义在互联网信息爆炸的时代，网络数据采集技术已成为信息获取、数据分析和知识发现的重要手段。Python作为一种高效的编程语言，凭借其丰富的第三方库和简洁的语法，成为爬虫开发的首选语言之一。然而，在网络数据采集中，文本编码的多样性和不确定性一直是困扰开发者的主要问题之一。不同网站可能采用不同的编码方式（如UTF-8、GBK、GB2312等），甚至同一网站的不同页面也可能使用不
Kafka-python 核心 API 深度解析：BrokerConnection 与 ClusterMetadata 的全方位指南佑瞻 python工程化 kafka python 分布式
在Kafka应用开发中，我们时常会面临连接管理混乱、元数据获取不及时等问题，这些问题的根源往往在于对底层API的理解不够深入。今天我们将聚焦kafka-python客户端中两个核心类——BrokerConnection和ClusterMetadata，通过剖析其核心功能与应用场景，帮助大家建立系统化的Kafka连接与元数据管理知识体系。BrokerConnection：Kafka连接管理的中枢神经
KafkaAdminClient 技术详解：Python 操作 Kafka 集群的管理接口佑瞻 python工程化 python kafka
一、KafkaAdminClient基础概念KafkaAdminClient是kafka-python客户端提供的集群管理类，用于通过编程方式管理Kafka集群资源。其核心定位是为开发者提供一套标准化接口，实现对主题、分区、ACL、消费者组等资源的全生命周期管理。核心特性说明：接口定位：专门用于集群资源管理，区别于KafkaConsumer/KafkaProducer的数据读写功能版本要求：要求B
Python日志模块
Python日志模块学习教程：b站王铭东老师Python中logging模块能够完成相关信息的记录，在debug时使用它事半功倍一、模块介绍日志级别DEBUG、INFO、WARNING、ERROR、CRITICAL默认是WARNING，当在WARNING或其之上时才被跟踪日志格式logging.basicConfig函数中，可以指定日志的输出格式format，这个参数可以输出很多有用的信息一般使用
Python爬虫笔记汇总大厂_jvS python 爬虫笔记
except:print(“爬取失败”)4.网络图片爬取及存储#实例4：爬取图片‘’‘r.content#表示返回内容的二进制格式’‘’importrequestsimportosroot=‘./Pic/’path=root+url.split(‘/’)[-1].split(‘@’)[0]url=‘http://img0.dili360.com/ga/M00/02/AB/wKgBzFQ26i2AW
python-for-android 使用教程沈昊冕Nadine
python-for-android使用教程python-for-androidTurnyourPythonapplicationintoanAndroidAPK项目地址:https://gitcode.com/gh_mirrors/py/python-for-android1.项目介绍python-for-android（p4a）是一个开发工具，用于将Python应用打包成可以在Android设
爬虫的笔记整理咸鱼时日翻身爬虫笔记
网络爬虫首先要认识http和https协议在浏览器中发送一个http请求：1.输入一个URL地址之后，向http服务器发送请求，主要分为GET和POST两种方法2.输入URL之后，发送一个request请求，这时候服务器把response文件对象发送回浏览器3.浏览器中解析返回的HTML，其中引用了许多的其他文件，images，css文件，JS文件等，再次法中request去获取这些内容4.所有的
【Python】邮件处理2 宅男很神经 python 开发语言
7.Pythonemail库深度解析：MIME邮件构建与解析的艺术在前面的章节中，我们深入探讨了电子邮件的底层协议（SMTP,POP3,IMAP）以及如何使用imaplib库从服务器接收和管理邮件。然而，邮件内容的实际格式和结构并非由这些传输协议定义，而是由MIME(MultipurposeInternetMailExtensions)标准规范。Python的email库是处理MIME格式邮件的强
2024年最全kali无线渗透之用wps加密模式可破解wpa模式的密码12_kali wps，网络安全开发究竟该如何学习 2401_84558314 程序员 wps web安全学习
一、网安学习成长路线图网安所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。二、网安视频合集观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。三、精品网安学习书籍当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><