永无乡

Python爬取视频之日本爱情电影

先放Github传送门： https://github.com/JosephPai/1024Video-Crawler

肉身翻墙后，感受一下外面的肮脏世界。墙内的朋友叫苦不迭，由于某些原因，VPN能用的越来越少。上周我的好朋友狗子和我哭诉说自己常用的一个VPN终于也寿终正寝了，要和众多的日本小姐姐说再见了。作为“外面人”，我还是要帮他一把……

初探

狗子给我的网站还算良心，只跳了五个弹窗就消停了。
然后看到的就是各种穿不起衣服的女生的卖惨视频，我赶紧闭上眼睛，默念了几句我佛慈悲。
Tokyo真的有那么hot？
给狗子发了一张大的截图，狗子用涂鸦给我圈出了其中一个。
我和狗子说“等着吧”
（放心网站截图我是打了码也不敢放的。。。）

点进去之后，可以在线播放。
右下角有一个 Download 按钮，点击之后需要注册付费。
当时我就火了，这种卖惨视频毒害我兄弟精神，还敢收钱？！
自己动手，丰衣足食！

环境 & 依赖

Win10 64bit
IDE: PyCharm
Python 3.6
python-site-packegs: requests + BeautifulSoup + lxml + re + m3u8

在已经安装pip的环境下均可直接命令行安装

网站解析

将链接复制到Chrome浏览器打开
（我平时用猎豹，也是Chrome内核，界面比较舒服，但是这个时候必须大喊一声谷歌大法好）
菜单——更多工具——开发者选项（或者快捷键F12）进入Chrome内置的开发者模式
大概界面是这样

（唉打码真的累。。。。）
然后，根据提示，逐层深入标签找到视频所在具体位置
这个网站存放的位置是 …->flash->video_container->video-player
显然视频就放在这个这个video-player中
在这个标签中，有一个名字为 source 的链接，src=”http://#%@就不告诉你#@￥”
Easy好吧！
这点小把戏还难得到我？我已经准备和狗子要红包了
复制该链接到地址栏粘贴并转到，然后，神奇的一幕出现了!!

What？？？

这是什么？？？

为啥这么小？？？

科普概念如上，那也就是说，m3u8记录了真实的视频所在的地址。

Network Traffic

想要从源码直接获得真实下载地址怕是行不通了。
这时候再和我一起读“谷歌大法好！”
很简单，浏览器在服务器中Get到视频呈现到我们面前，那这个过程必定经过了解析这一步。
那我们也可以利用浏览器这个功能来进行解析

依旧在开发者模式，最上面一行的导航栏，刚刚我们在Elements选项卡，现在切换到Network
我们监听视频播放的时候的封包应该就可以得到真实的视频地址了，试试看！

我们惊喜的发现，一个又一个的 .ts 文件正在载入了
（如果在图片里发现任何url请友情提醒我谢谢不然怕是水表难保）

知识点！这都是知识点！（敲黑板！）

点开其中的一个.ts文件看一下

这里可以看到请求头，虽然url被我走心的码掉了，但这就是真实的视频地址了

复制这个URL到地址栏，下载
9s。。。。。
每一个小视频只有9s，难道要一个又一个的去复制吗？

视频片段爬取

答案是当然不用。
这里我们要请出网络数据采集界的装逼王：Python爬虫！！！

首先进行初始化，包括路径设置，请求头的伪装等。

采集部分主要是将requests的get方法放到了for循环当中
这样做可行的原因在于，在Network监听的图中我们可以看到.ts文件的命名是具有规律的 seg-i-v1-a1，将i作为循环数

那么问题又来了，我怎么知道循环什么时候结束呢？也就是说我怎么知道i的大小呢？
等等，我好像记得在视频播放的框框右下角有时间来着？
在开发者模式中再次回到Element选项卡，定位到视频框右下角的时间，标签为duration，这里的时间格式是时：分：秒格式的，我们可以计算得到总时长的秒数
但是呢，这样需要我们先获取这个时间，然后再进行字符串的拆解，再进行数学运算，太复杂了吧，狗子已经在微信催我了
Ctrl+F全局搜索duration

Yes!!!

好了，可以点击运行然后去喝杯咖啡，哦不，我喜欢喝茶。

一杯茶的功夫，回来之后已经下载完成。我打开文件夹check一下，发现从编号312之后的clip都是只有573字节，打开播放的话，显示的是数据损坏。
没关系，从312开始继续下载吧。然而下载得到的结果还是一样的573字节，而且下了两百多个之后出现了拒绝访问错误。

动态代理

显然我的IP被封了。之前的多个小项目，或是因为网站防护不够严格，或是因为数据条目数量较少，一直没有遇到过这种情况，这次的数据量增加，面对这种情况采取两种措施，一种是休眠策略，另一种是动态代理。现在我的IP已经被封了，所以休眠也为时已晚，必须采用动态IP了。
主要代码如下所示
关于动态代理，详情移步：http://blog.csdn.net/josephpai/article/details/78896613

合并文件

然后，我们得到了几百个9s的.ts小视频

然后，在cmd命令行下，我们进入到这些小视频所在的路径
执行

copy/b %s\*.ts %s\new.ts

很快，我们就得到了合成好的视频文件
当然这个前提是这几百个.ts文件是按顺序排列好的。

成果如下

优化—调用DOS命令 + 解析m3u8

为了尽可能的减少人的操作，让程序做更多的事
我们要把尽量多的操作写在code中

引用os模块进行文件夹切换，在程序中直接执行合并命令
并且，在判断合并完成后，使用清除几百个ts文件

这样，我们运行程序后，就真的可以去喝一杯茶，回来之后看到的就是没有任何多余的一个完整的最终视频

也就是说，要获得一个完整的视频，我们现在需要输入视频网页链接，还需要使用chrome的network解析得到真实下载地址。第二个部分显然不够友好，还有提升空间。

所以第一个尝试是，可不可以有一个工具或者一个包能嗅探到指定网页的network traffic，因为我们刚刚已经看到真实地址其实就在requestHeader中，关键在于怎样让程序自动获取。

查阅资料后，尝试了Selenium + PhantomJS的组合模拟浏览器访问，用一个叫做browsermobProxy的工具嗅探保存HAR（HTTP archive）。在这个上面花费了不少时间，但是关于browsermobProxy的资料实在是太少了，即使是在google上，搜到的也都是基于java的一些资料，面向的python的API也是很久没有更新维护了。此路不通。

在放弃之前，我又看一篇网站的源码，再次把目光投向了m3u8，上面讲到这个文件应该是包含文件真实地址的索引，索引能不能把在这上面做些文章呢？

Python不愧是万金油语言，packages多到令人发指，m3u8处理也是早就有熟肉。

pip install m3u8

这是一个比较小众的包，没有什么手册，只能自己读源码。

这个class中已经封装好了不少可以直接供使用的数据类型，回头抽时间可以写一写这个包的手册。

现在，我们可以从requests获取的源码中，首先找到m3u8的下载地址，首先下载到本地，然后用m3u8包进行解析，获取真实下载地址。

并且，解析可以得到所有地址，意味着可以省略上面的获取duration计算碎片数目的步骤。

最终

最终，我们现在终于可以，把视频网页链接丢进url中，点击运行，然后就可以去喝茶了。
再来总结一下实现这个的几个关键点：
- 网页解析
- m3u8解析
- 动态代理设置
- DOS命令行的调用

动手是最好的老师，尤其这种网站，兼具趣味性和挑战性，就是身体一天不如一天。。。

你可能感兴趣的:(杂谈,Python爬虫)

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
鲁西南方言杂谈-麻胡一两茶叶
《汉语词典》给“麻胡”的解释是“拼音máhú，传说中人名。说法不一，以残暴著称。民间习用以恐吓小儿。谓貌丑而多须者。”的意思；《国语辞典》也给出其“传说中的坏人，用来吓唬啼哭中的小孩。也称为‘麻虎子’、‘马虎子’。唐代李匡义《资暇集．卷下．非麻胡》俗怖婴儿曰：‘麻胡来！’不知其源者，以为多髯之神而验刺者，非也。隋将军麻祜，性酷虐，炀帝令开汴河，威棱既盛，至稚童望风而畏，互相恐吓曰：‘麻祜来！’稚童
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
保险风险管理杂谈-企业的自我修炼：风险与运营（五） Sylarlevin
企业的自我修炼：风险与运营（五）又到了令人头疼的时刻了。上期介绍了权责利可能大家还没有太多感触，但是这期介绍的制度流程我想大部分人都对其深恶痛绝。在很多保险公司，员工们都不愿意去制定制度流程，或者说，制定制度流程是不是多此一举？毕竟是把员工要做的事情写下来，那么员工自己清楚不就好了么？在岗位差异化日趋明显的时代，每个人负责自己的一摊事，岗位和岗位之间对于工作内容的沟通交流上越来越少，虽然看似大家都
基于Python爬虫四川成都二手房数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状_django商品房数据分析论文(1) 莫莫Android开发信息可视化 python 爬虫
3.国外研究现状在国外，二手房数据可视化也是一个热门的研究领域。以美国为例，有很多公司和网站提供了专门的二手房数据可视化工具，如Zillow、Redfin等。这些工具通常提供房价趋势图、房价分布图、房源信息等功能，帮助用户更好地了解房市动态。综上所述，虽然国内外在二手房数据可视化方面已经有了一些研究成果，但对于四川成都地区的二手房市场还没有相关的研究和可视化系统。因此，本研究旨在设计并实现一个基于
随便说说*诗词暂停/似此星辰同昨日～随笔2021－－05 似此星辰同昨日
文l仙派狼王*星辰这几天情绪不好，诗词古文就不更新了，我需要调整一下自己。就先发点杂谈，以及回答一些问题吧！本来是想写一些自己的想法和分享一些自己的读书笔记的。填词写诗只是让自己放松的一种方式，现在的情况，反而给自己增加了负担，还是先停一些日子，时间不会很长的。最近白天没时间，只有夜里睡觉前，有点空闲，也就发下文章，暂时没有时间看好友们的文章。见谅！谢谢我的好友们的耐心和支持！2021年09月23
2022-08-19学易杂谈（191-195）七星客球体卦
【学易杂谈】（191）“闻言不信”与“有言不信”上文我们谈到两个身份特殊的“言”者，说它们身份特殊，是因为它们一个是天元甲，另一个是地元己，经文中有很多的取象，如“天子”、“帝”、“王”、“公”、“王母”、“祖”、“君”、“主人”、“父”、“母”等等，说的就是这两个爻，它们在大多数情况下并不在执政地位，但却通过“言”来实现自己的主张，据此我们说周易反映的政治体制，是“家天下”，是“天子立宪”。但是
怪梦杂谈木子李呀林夕梦
2018-5-5我是一个学生，20多岁，眼镜男。我能触摸到自己的皮肤肌肉，我能感受到我的思维。可是我不清楚我是谁，我是怎样诞生的。模糊中我出现在了这个世界。我有两个死党，从小光屁股玩到大，可是我想不起任何和他们玩耍的记忆。好像有一个声音在我脑海里重复着：“记住他们，他们是你的朋友”。于是，他们是我最好的朋友。暂且称呼他们是A君和B君。我为什么会无所事事？这个也不清楚，只记得，我们三个本来就是这样的
python requests下载网页_python爬虫 requests-html的使用 weixin_39600319 python requests下载网页
一介绍Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。#官网解释'''Thislibraryintendsto
认知杂谈62《颠覆认知的赚钱秘籍曝光，财富自由近在咫尺》狂飙的张兴发认知杂谈学习方法职场和发展
内容摘要：嘿，家人们！如今“一分耕耘一分收获”未必全对。农民和打工者辛苦却钱紧，网红却轻松进账。赚钱需懂商业逻辑，创新产品、扩粉丝圈、成刚需。选择影响大，提升认知才能发现更多机会。转变思路，引流、设计销售、玩转数据营销。生意关键是现金流为王，要聪明工作。学习推荐书籍、关注大咖、加入社群。实践出真知，快踏上财富自由之路。今天分享有人说的一段争议性的话II一、赚钱观念需更新嘿，家人们！咱今天就
解决“Python中 pip不是内部或外部命令，也不是可运行的程序或批处理文件”的方法。 གཡུ ། Python 常规问题 python pip 机器学习自然语言处理
解决‘Python中pip不是内部或外部命令，也不是可运行的程序或批处理文件。’的方法1、pip是什么？pip是一个以Python计算机程序语言写成的软件包管理系统，他可以安装和管理软件包，另外不少的软件包也可以在“Python软件包索引”中找到。它可以通过cmd（命令提示符）非常方便地下载和管理Python第三方库，比如，Python爬虫中常见的requests库等。但是我们在使用cmd运行pi
python爬虫的urlib知识梳理卑微小鹿爬虫
1:urlib.request.urlopen发送请求getpost网络超时timeout=0.1网络请求模拟一个浏览器所发送的网络请求创建requestrequest头信息➕host/IP➕验证➕请求方式cookice客户返回响应数据所留下来的标记代理ipUrlib.request.proxyhander字典类型异常处理codereasonhearders拆分URLurlpaseurlsplit
我为什么选择在大二实习？沈七QWQ 面试职场和发展实习前端第四范式
本文已收录于专栏⭐️《沈七杂谈》⭐️时间好快，转眼已经入职一个月了，实习要比想象的忙很多，所以一直没腾出时间写篇经验贴。恰逢五一小长假，正好总结一下为在大二能找到实习所做一切的心路历程。先简单介绍一下楼主，目前烂本大二在读，专业是软件工程。在三月份的时候找投了一整个月的前端实习，截止四月初拿到了知乎、喜马拉雅、第四范式三个小厂offer，最后选择了待遇相对比较好的第四范式，目前已经实习了一个月，虽
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
Python爬虫——Selenium方法爬取LOL页面张小生180 python 爬虫 selenium
文章目录Selenium介绍用Selenium方法爬取LOL每个英雄的图片及名字Selenium介绍Selenium是一个用于自动化Web应用程序测试的工具，但它同样可以被用来进行网页数据的抓取（爬虫）。Selenium通过模拟用户在浏览器中的操作（如点击、输入、滚动等）来与网页交互，并可以捕获网页的渲染结果，这对于需要JavaScript渲染的网页特别有用。安装Selenium首先，你需要安装S
Python爬虫如何搞定动态Cookie？小白也能学会！图灵学者 python精华 python 爬虫 github
目录1、动态Cookie基础1.1Cookie与Session的区别1.2动态Cookie生成原理2、requests.Session方法2.1Session对象保持2.2处理登录与Cookie刷新2.3长连接与状态保持策略3、Selenium结合ChromeDriver实战3.1安装配置Selenium3.2动态抓取&处理Cookie4、requests-Session结合Selenium技巧4
Python爬虫基础知识板栗妖怪 python 爬虫开发语言
(未完成)爬虫概念爬虫用于爬取数据，又称之为数据采集程序爬取数据来源于网络，网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供爬取数据是公开的、非盈利。python爬虫使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多（单）线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。爬虫和web后端服务关系爬虫使用网络请求库，相当于客户端请求，w
杂谈十万错试梅妆_18bf
之十五十肩凌晨在疼痛中醒来，那是刺骨的酸胀痛。无处安放的手臂令人辗转反侧，此刻，除了疼痛，别无它念。如果说腰疾是人类直立行走的后果，那么，肩颈疼痛呢？或许只能归于年龄的老化吧。去年三月的一天，突然右手肘疼痛僵硬，把食物送到口中感到吃力，最初的惊慌让我去求助于医院，外科医生甚至没有做任何检查，潦草地说回复：哦，那是网球肘，家庭妇女也会有，文案工作都会有，没啥，注意休息。工作，家庭，加之老太太病重，这
班级管理杂谈（老王唠教育）之221 东哥杂谈
班级管理杂谈之221（0112）小高是黄老师班上的一名外来务工人员子女。这个学生性格较内向、为人纯朴，但生性懒惰、害怕吃苦，对学习无兴趣，课堂上能遵守纪律，但注意力不集中，一直昏昏沉沉、无精打采，老是趴在课桌上，不肯写作业，是班里的后进生。黄老师多次做小高工作，效果并不大。与家长电话沟通几次，也没有什么作用。于是黄老师决定家访，进一步了解小高家的情况，建立起家校沟通的渠道，共同解决小高的问题。家访
python爬虫处理滑块验证_python selenium爬虫滑块验证用户6731453637 python爬虫处理滑块验证
importrandomimporttimefromPILimportImagefromioimportBytesIOimportrequestsasrqfrombs4importBeautifulSoupasbsfromseleniumimportwebdriverfromselenium.webdriverimportActionChainsfromselenium.webdriverimpo
情绪杂谈治愈家庭教育
赵志瑜20181025这情绪也像天上的云，不断变化。21天不生气活动的期间，每天都觉得内心很愉悦，生活很充实。可这一周糟心的事情还不少，情绪不愉快，势必会影响效率，今天一天觉得效率很低，领导安排的工作任务都没有完工，内心虽然有点小忐忑，但还是拖拉着。问题总是要解决的，情绪也是要调整的。思考自己，似乎最近忙碌的找不到自我，太过于忙碌，所以会有些焦躁。反思自己，调整状态。第一要学会去繁化简。比如准备一
如何用python爬取股票数据选股_用python爬取股票数据 weixin_39752087
获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。一、网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。imp
Python爬虫基础总结醉蕤 Python python 爬虫
活动地址：CSDN21天学习挑战赛学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。学习日记目录学习日记一、关于爬虫1、爬虫的概念2、爬虫的优点3、爬虫的分类4、重要提醒5、反爬和反反爬机制6、协议7、常用请求头和常用的请求方法8、常见的响应状态码9、url的详解二、爬虫基本流程三、可能需要的库四、小例1、requests请求网页2、python解析网页源码（使用Be
鲁西南方言杂谈-胶泥一两茶叶
一处含胶泥的黄土我小时候在鲁西南农村长大，那时候还是生产队时期，我和邻家的小强、小明是一垡（‘一伙’的方言表述）的人。有一次，是个星期天，我们仨人班垡（‘一块’的方言表述）到西地里去薅草（‘割草’的方言表述）。大家都是勤厉（‘勤快’的方言表述）的人，干活都些（‘很、太’的方言表述）麻利，（‘每个人’的方言表述）一口闷（‘一口气’的方言表述）就薅满了一粪箕子（‘以前，可挎扛在肩膀上的一种簸箕状的筐子
2024年最新初面蚂蚁金服，Python爬虫实战：爬取股票信息(1)，面试题解析已整理成文档怎么办 imtokenmax合约众筹 2024年程序员学习 python 爬虫开发语言
收集整理了一份《2024年最新Python全套学习资料》免费送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来如果你需要这些资料，可以添加V无偿获取：hxbc188（备注666）正文首先要爬取股票数据
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他