- python爬虫之bs4解析和xpath解析
A.way30
python爬虫开发语言xpath
bs4解析原理:1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取如何实例化BeautifulSoup对象:frombs4importBeautifulSoupBeautifulSoup(参数一,参数二)参数一为文件描述符,参数二为解析器,一般为’lxml’一对象的实例化:1.将本地的h
- Java简单爬虫 jsoup工具包
ax阿楠
java爬虫开发语言前端
首先导入一个爬虫的工具包:jsoup-1.13.1.jar//测试爬虫的网址(爬取王者荣耀英雄的网址)staticStringurl="https://pvp.qq.com/web201605/herolist.shtml";//文件存放的地址staticStringpath="D://爬虫测试/";publicstaticvoidgetImgs(Stringurl){//加载对应网址上的Html
- Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影(1)
2401_84009626
程序员python爬虫开发语言
2.3.2通过xpath方法按层级查找数据定位好之后,我们就可以用etree对象的xpath方法解析xpath表达式,查找到相应的数据。定位到电影的标题所在标签,右键复制它的xpath://\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]中文标题就在a标签下的第1个span标签中span[1],然后我们通过/text
- Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影
2401_84009698
程序员python爬虫开发语言
#获取中文电影标题title_cn=data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()')而在a标签下的第二个span标签中包含的文本内容是电影的英文标题,所以我们只需要将span[1]改成span[2]就可以获取到电影的英文标题。#获取英文电影标题title_en=data.
- 检索工具—IndexSearcher 类
千里兵峰
lucene2.4luceneApache应用服务器浏览器工作
IndexSearcher类继承自Searcher基类,是Lucene中最重要的一个检索用类。IndexSearcher类时最重要的就是要告诉它索引存放的路径,只有这样,检索工具才可以定位索引,从而完成查找的任务。以下是IndexSearcher的所有构造函数:publicIndexSearcher(Stringpath)throwsIOException{this(IndexReader.ope
- 5_建立可比字典对象【“依存句法”之“MD&A分析”】
Zephrus·Coder
python
importpandasaspdimportosimportopenpyxlimportre###建立各类型词库#建立“宏观”词库Mac=[]Mac_path="D:/【Pycharm阶段性学习文件】/依存句法/txt_宏观词典.txt"withopen(Mac_path,'r',encoding='utf-8')asMac_file:forlineinMac_file:#去除行尾的换行符或者制表
- Python 安装 包时 VC 14 找不到错误终极解决办法
suirosu
pythonwindowsmicrosoft
pythonsetup.pybdist_wheeldidnotrunsuccessfully.修改源码:M:\work\tool\Python39x64\Lib\site-packages\setuptools\msvc.py中函数def_msvc14_find_vc2017():下代码:try:path=subprocess.check_output([join(root,"MicrosoftV
- 2 files found with path ‘META-INF/lib_release.kotlin_module’
我不勤奋v
android编译问题kotlinandroidgradle
项目场景:记录项目开发中遇到的一个问题,防止后续再踩雷:自己封装了一个功能库,库名字叫lib,满心欢喜接入到app工程。编译打包时却报错:2filesfoundwithpath'META-INF/lib_release.kotlin_module'。问题描述>Afailureoccurredwhileexecutingcom.android.build.gradle.internal.tasks.
- 批量复制--python代码
爱理科的小王子
python开发语言
importos#定义文件夹路径xml_folder='path/to/xml_folder'jpg_folder='path/to/jpg_folder'#获取文件夹中的文件列表xml_files=sorted(os.listdir(xml_folder))jpg_files=sorted(os.listdir(jpg_folder))#检查文件数量是否一致iflen(xml_files)!=l
- SQLAlchemy 反向生成 model 模型
weixin_30693183
数据库开发工具python
前言Django反向生成的model模型的命令:pythonmanager.pyinspectdbSQLAlchemy/Flask-SQLAlchemy则是:pip3installsqlacodegen使用方法如下利用sqlacodegen自动生成ORM实体类..\Anaconda3\envs\py3\Scripts>.\sqlacodegen.exe--outfileproject_path\m
- android studio flutter代理设置问题classpath 'com.android.tools.build:gradle:3.2.1'
同名公众号 - 人生代码
androidstudio安卓开发androidstudio
前提初次安装flutter,通过代理设置加快速度安装首次更新数据,但在添加设备并开始打包编译时出现classpath找不到的情况1.在初次启动IDE的时候会提示更新各种SDK包,此时一般会直接设置代理,我的系统时Ubuntu18.04,所以直接代理了本地,127.0.0.1端口10802.在编译打包的时候出现了找不到相关的包,原因是flutter三个默认配置的地方采用了Google路径的包切换ma
- IDEA里的Spring Boot的开发环境搭建
北城相拥£
springboot
SpringBoot的开发环境今天接着介绍SpringBoot的开发环境1.jdk的配置使用IDEA进行开发,在IDEA中配置jdk的方式很简单,打开File->ProjectStructure选择SDKs在JDKhomepath中选择本地jdk的安装目录在Name中为jdk自定义名字通过以上三步骤,即可导入本地安装的jdk。如果是使用STS或者eclipse可以通过两步骤添加:1、window-
- 若依路由配置教程
yqj234
java前端服务器
1.路由配置文件2.配置内容介绍{path:"/tool/gen-edit",component:Layout,//在路由下,引用组件的名称,在页面中包括这个组件的内容(页面框架内容)hidden:true,//此页面的内容,在左边的菜单中不用显示。children:[{path:"index",//子路径,拼接在父路径后面的内容(/tool/gen-edit/index)component:(r
- python日志库
Happinessคิดถึง
Python学习python开发语言
更新时间:2023-03-10官方提供的logging封装成以日期命名。参考:logging和logurulogging封装类使用importosimportloggingimportreimporttimefromlogging.handlersimportTimedRotatingFileHandler#logspathdefault:/logs/classsetup_log:def__ini
- python动态全局缓存配置
king9666
python缓存
在内存中缓存配置,但提供手动或自动刷新机制。使用文件的修改时间戳(mtime)来判断文件是否更新,只有在文件更新时重新读取importosimportjson_cached_config=None_cached_config_mtime=Nonedefread_config():global_cached_config,_cached_config_mtimeconfig_file=os.path
- json格式的标记文件转yolo格式(txt)的标记文件
帅气的亮
jsonYOLOpython
背景我在使用anylabeling标记软件时发现导出的标记文件格式只能是json格式,而我yolov8训练模型的标记文件需要时txt格式的,所以我需要写一个转换脚本脚本1.脚本1这个脚本是针对于矩形框标记的转换,也就是目标检测importjsonimportosdefconvert_json_to_yolo(json_file_path,output_dir,class_mapping):"""将
- nginx日志收集、拆分、分析
. . . . .
Nginxnginx运维
Nginx的核心价值:高性能的静态服务反向代理负载均衡nginx的access_log与error_logaccess_log:指的是访问日志,我们通过访问日志可以获取用户的IP、请求处理的时间、浏览器信息等设置access_log语法:access_logpath[format[buffer=size][gzip[=level]][flush=time][if=condition]];设置访问日
- VUE之参数传递
三日沐水
vuevue.js前端javascript
1、嵌套路由路由嵌套children里面的path属性不加/杠,可以参考如下代码:>>router/index.ts//创建一个路由器,并暴露出去//第一步:引入createRouterimport{createRouter,createWebHistory,createWebHashHistory}from'vue-router'//引入一个个可能呈现组件importHomefrom'@/pag
- nodejs应用ogg转换mp3格式
热情仔
jsffmpegogg
首先你要安装ffmpeg三选一npminstallffmpegcnpminstallffmpegyarninstallffmpeg看下目录constffmpeg=require('ffmpeg')constfs=require("fs");constpath=require('path');//先读取所有的ogg文件constfiles=fs.readdirSync("./ogg");letcou
- C#操作GIF图片(下)将一帧一帧的图片合并成gif
我曾经是个程序员
常用代码片段c#开发语言
见过不少人、经过不少事、也吃过不少苦,感悟世事无常、人心多变,靠着回忆将往事串珠成链,聊聊感情、谈谈发展,我慢慢写、你一点一点看......stringnewPath=Application.StartupPath+"\\new.gif";Listimgs=Directory.GetFiles(Application.StartupPath+"\\images\\","*.jpg").ToList
- nohup指定输出日志名称
telllong
C++后台开发服务器前端linux
在使用nohup命令时,如果你想将命令执行的输出(包括标准输出(STDOUT)和标准错误输出(STDERR))重定向到一个指定的日志文件中,可以这样操作:nohupyour_command>/path/to/output.log2>&1&这里,your_command是你想要后台运行并忽略挂断信号(HUP)的命令。>是重定向符号,它将标准输出重定向到指定的文件。/path/to/output.lo
- playwright打包成exe
weixin_46907422
python
在环境变量中增加PLAYWRIGHT_BROWSERS_PATH,值为0重新下载playwright浏览器:playwrightinstall在要打包的文件夹执行了两条命令:playwrightinstallchromiumpyinstaller-Frun.py
- mkdoc处理多级目录生成mkdocs.yml
爱吃瓜的猹z
pythonpython开发语言
#NOTE:Shouldexecutethisscriptinthemy-wikiimportosimportyamlDOC_PATH="docs"SITE_PATH="site"NOTE_PATH="docs/NOTE"CONFIG_PATH=os.getcwd()YML_LOCTION=os.path.join(CONFIG_PATH,"mkdocs.yml")header_config={'
- JAVA 安装教程
连云港大帅哥
java基础javajdk安装配置环境变量
下载官网地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html,选择1.8版本jdk进行下载安装JDK直接运行exe可执行程序,默认安装即可;备注:路径可以自己定义,不建议路径包含中文名、特殊符号、空格。配置环境变量1)新建变量名:JAVA_HOME,变量值:D:\Java8(JDK安装路径);2)打开PATH,添
- SSM框架搭建(终章):配置运行webapp文件
是先生了
SSM框架Java服务器webappjavamaventomcat
文章目录一、修改配置二、页面展示一、修改配置在“web”目录下,已经自动创建“WEB-INF”文件夹,并且在“WEB-INF”文件夹中,已经存在“web.xml”文件,我们现在要对这个文件进行修改。ArchetypeCreatedWebApplication可以参考笔者的配置ArchetypeCreatedWebApplicationcontextConfigLocationclasspath:a
- anaconda中pyspark_自学大数据——9 Anaconda安装与使用pyspark
步六孤陆
首先从Anaconda官网上下载Anaconda。一、解压安装包sudobashAnaconda3-2020.07-Linux-x86_64.shchown-Rhadoop:hadoop/opt/anaconda/vi/etc/profileexportANACONDA_HOME=/opt/anacondaexportPATH=$PATH:$ANACONDA_HOME/bin:source/etc
- ansible批量生产kerberos票据,并批量分发到所有其他主机脚本
蘑菇丁
ansiblehadoop学习笔记eclipsejavaide
-name:ConfigureKerberosforHadoopUsershosts:hadoop_serversbecome:nogather_facts:novars:kerberos_server:hadoop1.xuexi.comkeytab_file_path:/home/hadoop/keys/hadoop.keytabprincipals:-nn/-dn/-yarn/-starroc
- k8s 中存储之 NFS 卷
妍妍的宝贝
kubernetes云原生kuberneteslinux容器
目录1NFS卷的介绍2NFS卷的实践操作2.1部署一台NFS共享主机2.2在所有k8s节点中安装nfs-utils2.3部署nfs卷2.3.1生成pod清单文件2.3.2修改pod清单文件增加实现NFS卷挂载的参数2.3.3声明签单文件并查看是否创建成功2.3.4在NFS服务器创建默认发布文件并访问测试1NFS卷的介绍HostPath可以解决数据持久化的问题,但是一旦Node节点故障了,Pod如果
- Java使用POI获取Excel公式并计算公式得到值-20220530
qq_40711092
java开发语言
参考代码新版@TestpublicvoidtestEvaluator()throwsException{Stringpath="D:\\测试获取公式.xlsx";FileInputStreamfileInputStream=newFileInputStream(path);//获取工作簿,这里使用的07版Workbookworkbook=newXSSFWorkbook(fileInputStrea
- log back配置文件
暴躁码农
sql前端java
logback-->debug${CONSOLE_LOG_PATTERN}UTF-8${log.path}/debug.log%d{yyyy-MM-ddHH:mm:ss.SSS}[%thread]%-5level%logger{50}-%msg%nUTF-8${log.path}/debug-%d{yyyy-MM-dd}.%i.log100MB15debugACCEPTDENY${log.path
- mongodb3.03开启认证
21jhf
mongodb
下载了最新mongodb3.03版本,当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题,现总结如下:
(百度上搜到的基本都是老版本的,看到db.addUser的就是,请忽略)
Windows下我做了一个bat文件,用来启动mongodb,命令行如下:
mongod --dbpath db\data --port 27017 --directoryperdb --logp
- 【Spark103】Task not serializable
bit1129
Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一,这里记录下出现这个问题的两个实例,一个是自己遇到的,另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在,至少目前阶段碰到此类问题,没有什么章法
1.
package spark.exampl
- 你所熟知的 LRU(最近最少使用)
dalan_123
java
关于LRU这个名词在很多地方或听说,或使用,接下来看下lru缓存回收的实现
1、大体的想法
a、查询出最近最晚使用的项
b、给最近的使用的项做标记
通过使用链表就可以完成这两个操作,关于最近最少使用的项只需要返回链表的尾部;标记最近使用的项,只需要将该项移除并放置到头部,那么难点就出现 你如何能够快速在链表定位对应的该项?
这时候多
- Javascript 跨域
周凡杨
JavaScriptjsonp跨域cross-domain
 
- linux下安装apache服务器
g21121
apache
安装apache
下载windows版本apache,下载地址:http://httpd.apache.org/download.cgi
1.windows下安装apache
Windows下安装apache比较简单,注意选择路径和端口即可,这里就不再赘述了。 2.linux下安装apache:
下载之后上传到linux的相关目录,这里指定为/home/apach
- FineReport的JS编辑框和URL地址栏语法简介
老A不折腾
finereportweb报表报表软件语法总结
JS编辑框:
1.FineReport的js。
作为一款BS产品,browser端的JavaScript是必不可少的。
FineReport中的js是已经调用了finereport.js的。
大家知道,预览报表时,报表servlet会将cpt模板转为html,在这个html的head头部中会引入FineReport的js,这个finereport.js中包含了许多内置的fun
- 根据STATUS信息对MySQL进行优化
墙头上一根草
status
mysql 查看当前正在执行的操作,即正在执行的sql语句的方法为:
show processlist 命令
mysql> show global status;可以列出MySQL服务器运行各种状态值,我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
- 我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名
aijuans
Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名?
原始的
<bean id="business" class="onlyfun.caterpillar.device.Business">
<property name="writer">
<ref b
- 高性能mysql 之 性能剖析
annan211
性能mysqlmysql 性能剖析剖析
1 定义性能优化
mysql服务器性能,此处定义为 响应时间。
在解释性能优化之前,先来消除一个误解,很多人认为,性能优化就是降低cpu的利用率或者减少对资源的使用。
这是一个陷阱。
资源时用来消耗并用来工作的,所以有时候消耗更多的资源能够加快查询速度,保持cpu忙绿,这是必要的。很多时候发现
编译进了新版本的InnoDB之后,cpu利用率上升的很厉害,这并不
- 主外键和索引唯一性约束
百合不是茶
索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表 用户表和文章表
第二步;发表文章
1,建表;
---用户表 BlogUsers
--userID唯一的
--userName
--pwd
--sex
create
- 线程的调度
bijian1013
java多线程thread线程的调度java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。
2. 多数线程的调度是抢占式的(即我想中断程序运行就中断,不需要和将被中断的程序协商)
a) 
- 查看日志常用命令
bijian1013
linux命令unix
一.日志查找方法,可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log
二.查看日志常用命令1.grep '关键字' error.log:在error.log中搜索'关键字'2.grep -C10 '关键字' error.log:显示关键字前后10行记录3.grep '关键字' error.l
- 【持久化框架MyBatis3一】MyBatis版HelloWorld
bit1129
helloworld
MyBatis这个系列的文章,主要参考《Java Persistence with MyBatis 3》。
样例数据
本文以MySQL数据库为例,建立一个STUDENTS表,插入两条数据,然后进行单表的增删改查
CREATE TABLE STUDENTS
(
stud_id int(11) NOT NULL AUTO_INCREMENT,
- 【Hadoop十五】Hadoop Counter
bit1129
hadoop
1. 只有Map任务的Map Reduce Job
File System Counters
FILE: Number of bytes read=3629530
FILE: Number of bytes written=98312
FILE: Number of read operations=0
FILE: Number of lar
- 解决Tomcat数据连接池无法释放
ronin47
tomcat 连接池 优化
近段时间,公司的检测中心报表系统(SMC)的开发人员时不时找到我,说用户老是出现无法登录的情况。前些日子因为手头上 有Jboss集群的测试工作,发现用户不能登录时,都是在Tomcat中将这个项目Reload一下就好了,不过只是治标而已,因为大概几个小时之后又会 再次出现无法登录的情况。
今天上午,开发人员小毛又找到我,要我协助将这个问题根治一下,拖太久用户难保不投诉。
简单分析了一
- java-75-二叉树两结点的最低共同父结点
bylijinnan
java
import java.util.LinkedList;
import java.util.List;
import ljn.help.*;
public class BTreeLowestParentOfTwoNodes {
public static void main(String[] args) {
/*
* node data is stored in
- 行业垂直搜索引擎网页抓取项目
carlwu
LuceneNutchHeritrixSolr
公司有一个搜索引擎项目,希望各路高人有空来帮忙指导,谢谢!
这是详细需求:
(1) 通过提供的网站地址(大概100-200个网站),网页抓取程序能不断抓取网页和其它类型的文件(如Excel、PDF、Word、ppt及zip类型),并且程序能够根据事先提供的规则,过滤掉不相干的下载内容。
(2) 程序能够搜索这些抓取的内容,并能对这些抓取文件按照油田名进行分类,然后放到服务器不同的目录中。
- [通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费
comsci
资源
降低通讯服务资费,就意味着有更多的用户进入,就意味着通讯服务提供商要接待和服务更多的用户,在总体运维成本没有由于技术升级而大幅下降的情况下,这种降低资费的行为将导致每个用户的平均带宽不断下降,而享受到的服务质量也在下降,这对用户和服务商都是不利的。。。。。。。。
&nbs
- Java时区转换及时间格式
Cwind
java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用,以及不同时区时间相互转化的方法和原理。
问题描述:
向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如,服务器位于东八区(北京时间,GMT+8:00),而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
- readonly,只读,不可用
dashuaifu
jsjspdisablereadOnlyreadOnly
readOnly 和 readonly 不同,在做js开发时一定要注意函数大小写和jsp黄线的警告!!!我就经历过这么一件事:
使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能,有的就不行,而且函数readOnly有黄线警告!!!就这样被折磨了不短时间!!!(期间使用过disable函数,但是发现disable函数之后后台接收不到前台的的数据!!!)
- LABjs、RequireJS、SeaJS 介绍
dcj3sjt126com
jsWeb
LABjs 的核心是 LAB(Loading and Blocking):Loading 指异步并行加载,Blocking 是指同步等待执行。LABjs 通过优雅的语法(script 和 wait)实现了这两大特性,核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器,倡导的是一种模块化开发理念,核心价值是让 JavaScript 的模块化开发变得更
- [应用结构]入口脚本
dcj3sjt126com
PHPyii2
入口脚本
入口脚本是应用启动流程中的第一环,一个应用(不管是网页应用还是控制台应用)只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。
Web 应用的入口脚本必须放在终端用户能够访问的目录下,通常命名为 index.php,也可以使用 Web 服务器能定位到的其他名称。
控制台应用的入口脚本一般在应用根目录下命名为 yii(后缀为.php),该文
- haoop shell命令
eksliang
hadoophadoop shell
cat
chgrp
chmod
chown
copyFromLocal
copyToLocal
cp
du
dus
expunge
get
getmerge
ls
lsr
mkdir
movefromLocal
mv
put
rm
rmr
setrep
stat
tail
test
text
- MultiStateView不同的状态下显示不同的界面
gundumw100
android
只要将指定的view放在该控件里面,可以该view在不同的状态下显示不同的界面,这对ListView很有用,比如加载界面,空白界面,错误界面。而且这些见面由你指定布局,非常灵活。
PS:ListView虽然可以设置一个EmptyView,但使用起来不方便,不灵活,有点累赘。
<com.kennyc.view.MultiStateView xmlns:android=&qu
- jQuery实现页面内锚点平滑跳转
ini
JavaScripthtmljqueryhtml5css
平时我们做导航滚动到内容都是通过锚点来做,刷的一下就直接跳到内容了,没有一丝的滚动效果,而且 url 链接最后会有“小尾巴”,就像#keleyi,今天我就介绍一款 jquery 做的滚动的特效,既可以设置滚动速度,又可以在 url 链接上没有“小尾巴”。
效果体验:http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码:
&
- kafka offset迁移
kane_xie
kafka
在早前的kafka版本中(0.8.0),offset是被存储在zookeeper中的。
到当前版本(0.8.2)为止,kafka同时支持offset存储在zookeeper和offset manager(broker)中。
从官方的说明来看,未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话,可以考虑在合适
- android > 搭建 cordova 环境
mft8899
android
1 , 安装 node.js
http://nodejs.org
node -v 查看版本
2, 安装 npm
可以先从 https://github.com/isaacs/npm/tags 下载 源码 解压到
- java封装的比较器,比较是否全相同,获取不同字段名字
qifeifei
非常实用的java比较器,贴上代码:
import java.util.HashSet;
import java.util.List;
import java.util.Set;
import net.sf.json.JSONArray;
import net.sf.json.JSONObject;
import net.sf.json.JsonConfig;
i
- 记录一些函数用法
.Aky.
位运算PHP数据库函数IP
高手们照旧忽略。
想弄个全天朝IP段数据库,找了个今天最新更新的国内所有运营商IP段,copy到文件,用文件函数,字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件,直接用phpmyadmin导入.csv文件的形式导入。(生命在于折腾,也许你们觉得我傻X,直接下载人家弄好的导入不就可以,做自己的菜鸟,让别人去说吧)
当然用到了ip2long()函数把字符串转为整型数
- sublime text 3 rust
wudixiaotie
Sublime Text
1.sublime text 3 => install package => Rust
2.cd ~/.config/sublime-text-3/Packages
3.mkdir rust
4.git clone https://github.com/sp0/rust-style
5.cd rust-style
6.cargo build --release
7.ctrl