DoCki

学习笔记--我的第一个爬虫项目

我花了2周的时间，从对Python相关知识一无所知，到成功写出第一个爬虫项目。Python语言真的很简单，不到两百行的代码写出了一个能够爬取百度百科相关词条的有关页面（页面的数量由你定）。我是在网站上学习的，因为有厉害的大神会分享源码以及教你怎么做。我是有C/C++基础的，学Python完全是因为看知乎上有一个很热门的话题“用Python爬虫可以做哪些很酷很有趣的事情？”。看了很多答主的回答，便对Python有了浓厚的兴趣。就像当年Ken Thompson做的第一个Unix核心一样，他当时也仅仅是为了移植一套《太空旅游》的游戏到他电脑上而已。。

Python爬虫是一段自动抓取互联网信息的程序。以下是爬虫的简介与他的架构以及运行架构和价值。（图片来自慕课网）

爬虫主体分为三大部分，URL管理器，网页下载器以及网页分析器。在网页下载器上，我用的是urllib2模块，因为它是Python官方基础模块，我觉得刚学Python的话用这个就行了。网页解析器我用的是BS4。图片便于记忆，以下是贴图。

这是我在慕课网上学习的第一个爬虫项目，而且这也是我第一篇博客。在下我贴出我的Python源码，全是手打。希望对于学习有兴趣的同学有帮助吧！

#这是主调度程序：spider_main

# coding:utf8
import url_manager,html_downloader,html_parser,html_outputer

class SpiderMain(object):
def __init__(self):
self.urls = url_manager.UrlManager()#url管理器
self.downloader = html_downloader.HtmlDownloader()#html下载器
self.parser = html_parser.HtmlParser()#html解析器
self.outputer = html_outputer.HtmlOutputer()

def craw(self,root_url):
count = 1#当前爬取url

self.urls.add_new_url(root_url)#添加入口url
#当有新的url时
while self.urls.has_new_url():
try:
new_url = self.urls.get_new_url()#从urls获取行的url
print 'craw %d : %s'%(count,new_url)
html_cont = self.downloader.download(new_url)#下载url页面
new_urls,new_data = self.parser.parse(new_url,html_cont)#解析下载页面
self.urls.add_new_urls(new_urls)#添加批量url
self.outputer.collect_data(new_data)#收集新的数据

if count==10:
break
count+=1
except Exception as e:
print 'craw failed--',e

self.outputer.output_html()#输出收集好的数据

if __name__=="__main__":
root_url="http://baike.baidu.com/item/Python"#入口url
obj_spider = SpiderMain()
obj_spider.craw(root_url)

#这是url_manager的代码

#coding:utf8

class UrlManager(object):
def __init__(self):
self.new_urls = set()
self.old_urls = set()

def add_new_url(self,url):
if url is None:
return
if url not in self.new_urls and url not in self.old_urls:
self.new_urls.add(url)


def has_new_url(self):
return len(self.new_urls) !=0

def get_new_url(self):
new_url = self.new_urls.pop()
self.old_urls.add(new_url)
return new_url

def add_new_urls(self,urls):
if urls is None or len(urls) == 0:
return
for url in urls:
self.add_new_url(url)

#下载器的代码

#coding:utf8
import urllib2
from compiler.ast import Node

class HtmlDownloader(object):


def download(self,url):
if url is None:
return None
response = urllib2.urlopen(url)
if response.getcode() != 200:
return None

return response.read()

#网页解析器的代码

#coding:utf8
from bs4 import BeautifulSoup
import re
import urlparse

class HtmlParser(object):


def _get_new_urls(self, page_url, soup):
new_urls = set()
#/view/123.htm
links = soup.find_all("a",href = re.compile(r"/view/\d+\.htm"))
for link in links:
new_url = link['href']
new_full_url = urlparse.urljoin(page_url,new_url)
new_urls.add(new_full_url)

return new_urls


def _get_new_data(self, page_url, soup):
res_data = {}

res_data['url'] = page_url

#

title_node = soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1")
res_data['title'] = title_node.get_text()

#

summary_node = soup.find('div',class_="lemma-summary")
res_data['summary'] = summary_node.get_text()

return res_data
def parse(self,page_url,html_cont):
if page_url is None or html_cont is None:
return

soup = BeautifulSoup(html_cont,'html.parser',from_encoding = 'utf-8')
new_urls = self._get_new_urls(page_url,soup)
new_data = self._get_new_data(page_url,soup)
return new_urls,new_data

#输出器的代码

#coding:utf8

class HtmlOutputer(object):

def __init__(self):
self.datas = []

def collect_data(self,data):
if data is None:
return
self.datas.append(data)

def output_html(self):
fout = open('output.html','w')

fout.write("")
fout.write("")
fout.write("

")

for data in self.datas:
fout.write("")
fout.write("" % data['url'])
fout.write("" % data['title'].encode('utf-8'))
fout.write("" % data['summary'].encode('utf-8'))
fout.write("")

fout.write("

")
fout.write("")
fout.write("")

fout.close()

你可能感兴趣的:(学习笔记--我的第一个爬虫项目)

CSDN2019博客之星评选——期待各位大佬的投票！十步杀一人_千里不留行程序人生
我的序号是68，68，68！！http://m234140.nofollow.ax.mvote.cn/opage/d4cf886a-057e-1c0d-56f1-3a86340af8fd.html2019年CSDN博客之星年度总评选已开启：68.十步杀一人_千里不留行，微信、QQ、微博渠道可以连投5票哦！扫码为我投票哦：
《Cell》期刊作者提交指南 TigerZ 生信宝库科研技能程序人生
❝写在前面在投稿论文前，阅读目标期刊的政策要求是非常必要的。本文为《Cell》期刊提供给作者的提交指南，包含了提交论文的相关信息和政策要求。本着自己学习、分享他人的态度，分享学习笔记，希望能对大家有所帮助。目录1期刊介绍（Aboutthejournal）2编辑评估时间表（Editorialevaluationtimeline）3CellPress期刊之间的关系（Relationshipbetwee
我在electron vue的项目中，loadURL的路径为/auth/login，但是实际加载的是/。并且在网页端打开发现，不管地址栏怎么变换，实际的路由地址总是/ 小浩~ vue.js electron javascript
我在electronvue的项目中，loadURL的路径为/auth/login，但是实际加载的是/。并且在网页端打开发现，不管地址栏怎么变换，实际的路由地址总是/。在router中设置了指定的routervue在我的app中：可以发现是下面的main被使用了，而非auth，并且在导航栏中无论地址栏怎么变化，实际的路由却没发生变换。解决办法：最后排查出来是createMemoryHistory不适
二分查找！！！！ xiaolin0333 #二分查找算法二分查找
比如有个从小到大排列的数组：[5,7,7,8,8,10]找到第一个≥8的数的位置左闭右闭：vectornums{5,7,7,8,8,10};inttarget=8;intlower_bound1(){intl=0,r=nums.size()-1;while(l<=r){//[l,r]intm=l+(r-l)/2;if(nums[m]
兄弟们，我的deepseek终于可以控制浏览器了：Part 1/n，含代码几道之旅 Dify：智能体（Agent）工作流知识库全搞定几道之旅AI专栏VVVIP 人工智能
文章目录前言helloworld前言其实，deepseek控制浏览器咱之前就发过，只不过当时没有想到这么好的标题，哈哈。所依赖的，依然是BrowserUse这个项目BrowserUse项目官网helloworld按照官网配置好环境后，只需新建一个python文件（例如，叫main.py?）然后运行即可。fromlangchain_openaiimportChatOpenAIfrombrowser_
C语言结构体学习笔记 BUG 劝退师 c语言 c语言学习笔记
C语言结构体学习笔记目录结构体基本概念结构体变量定义结构体初始化结构体数组结构体指针共用体枚举类型typedef自定义类型总结结构体基本概念1.什么是结构体？结构体：一种用户自定义的数据类型，用于将多个不同类型的变量组合成一个整体。用途：表示复杂数据（如学生信息：学号、姓名、成绩等）。2.结构体定义struct结构体名{数据类型成员1;数据类型成员2;//可以嵌套结构体struct子结构体名子成员
jvm虚拟机详解（一）-----jvm概述 Mir Su JVM由浅至深 jvm java
写在前面本篇文章是再下人生中的第一次发布关于技术相关的文章。从事开发工作这么多年来，也算是对自己过往的工作的一个总结，对人生的一次重装再出发。从jvm谈起，然后是关于mysql、redis、消息中间件、微服务等最后在归纳一些常见的java面试方面的高频问题。这是开始我的一个写博计划，希望感兴趣的朋友加个关注一起探讨，有什么不做的地方也请欢迎指教。为什么要先说jvm呢？因为jvm是java程序蜕变的
vue 3中页面跳转治金的blog Vue3学习 vue.js javascript 前端
z1.普通函数的页面跳转首页我的import{useRouter}from'vue-router'//使用useRouter创建一个router实例constrouter=useRouter()//定义go函数以便路由跳转functiongo(){router.push({path:'/my'})}//将go函数暴露给模板2.箭头函数的实现方法首页我的import{useRouter}from'v
国内那么多的低代码平台，究竟哪家比较强？有颜有货低代码平台低代码低代码低代码平台
国内低代码平台哪家强？本人摸索低代码5年多，体验过几十家低代码平台，下面通过2张功能对比图，3K字内容详细告诉你：国内低代码到底哪家强。如果你觉得我的分析对你有一定帮助，还请点赞收藏支持一下，争取能让更多人看到并帮助需要的人。话不多说，先上图。国内主流低代码产品功能对比。（图二在回答末尾）一、织信Informat（企业级低代码平台）功能清单驱动方式：模型驱动字段支持：35种字段，同时支持通过js脚
人类社会的本质是什么？初学者↑ 毛选
毛选中最接近本质的八句话，句句都是处理一切事物都适用的顶级法则，你最好背下来，能用一辈子。第一句话，谁是我们的朋友？谁是我们的敌人？这个问题是革命的首要问题。正确归因的能力，是一个人真正清醒且能够进入人生上升螺旋的开始。透过表象看本质，抓住本质找规律，运用规律才能改变世界。这句话能成为毛选开篇的第一句话，就是因为这是一句无限接近于底层规律的话。原文里讨论的是阶级问题，放在生意里照样适用。谁赚我的钱
python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
Mysql学习笔记-Mysql基础进阶少年无为 Mysql Mysql 数据库多表查询数据库备份 Mysql查询
#知识点1.DQL:查询语句1.排序查询2.聚合函数3.分组查询4.分页查询2.约束3.多表之间的关系4.范式5.数据库的备份和还原#DQL:查询语句1.排序查询*语法：orderby子句*orderby排序字段1排序方式1，排序字段2排序方式2...*排序方式：*ASC：升序，默认的。*DESC：降序。*注意：*如果有多个排序条件，则当前边的条件值一样时，才会判断第二条件。2.聚合函数：将一列数
嵌入式学习DAY28 --- 线程、同步和互斥问题、如何实现同步和互斥？楼台的春风嵌入式学习多线程 c语言嵌入式 linux ubuntu
嵌入式入门学习笔记，遇到的问题以及心得体会！DAY28概述：一、线程二、同步和互斥问题三、如何实现同步四、如何实现互斥笔记：一、线程1、什么是线程：（1）线程是轻量级的进程（2）线程存在于进程内，不能独立存在（3）线程参与CPU调度，进程是系统资源分配最小单位，线程是系统调度的最小单位（4）在单核CPU中，多线程并发属于伪并发，但是不牵扯虚拟地址空间的切换，所以开销比进程间切换要小很多（5）在多核
文章发布第三篇后端前端
标题粗体斜体中划线段落引用第一个第二个第一个第二个百度privateStringaa=column1column2column3content1content2content3
【练习】【二分】力扣热题100 34. 在排序数组中查找元素的第一个和最后一个位置柠石榴输入输出力扣 hot100 leetcode 算法 c++二分
题目给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn)的算法解决此问题。示例1：输入：nums=[5,7,7,8,8,10],target=8输出：[3,4]示例2：输入：nums=[5,7,7,8,8,10],target=6输出
【人工智能时代】- AI 聚合平台 xiaoli8748_软件开发人工智能时代人工智能
最近听朋友介绍，国内有个团队开发了一个全功能的AI聚合平台，包含主流的GPT和绘画功能，以及一些其他的衍生功能，几乎应有尽有。于是，对AI很感兴趣的我，便也来瞧瞧这是个什么样的存在，以下便是我的真实使用感受。除此以外，作为一个程序员，我还使用了该平台提供的API接口，开发了一个简单的小程序。文章的末尾，我将提供免费的AI机器人，以及小程序体验地址，记得查收哦~官方网站：https://302.ai
侯捷 C++ 课程学习笔记：C++ 面向对象开发的艺术孤寂大仙v c++c++学习笔记
在侯捷老师的C++系列课程中，《C++面向对象开发》这门课程让我对面向对象编程有了更深入的理解。面向对象编程（OOP）是现代软件开发中最重要的编程范式之一，而C++作为支持OOP的语言，提供了强大的工具和特性。侯捷老师通过系统的讲解和实战案例，帮助我掌握了如何在C++中高效地使用面向对象技术。以下是我对这门课程的学习笔记和心得体会。一、课程核心内容：C++面向对象开发的关键特性![侯捷老师的课程详
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
DeepSeek如何重塑我的编程学习：计算机新生的AI实践 EnigmaCoder DeepSeek 学习人工智能
目录前言邂逅DeepSeek：从困惑到惊喜初学编程的困境DeepSeek的优势️DeepSeek在编程学习中的运用注释算法逐步分析调试帮助跨语言迁移学习AI时代学习方法论革新知识获取方式转变新型学习能力培养反思与展望反思展望总结前言大家好！我是EnigmaCoder，本文我将介绍我的AI编程学习之旅。春节期间，DeepSeek横空出世，迅速登顶热榜。它功能强大，精准答疑、高效创作，瞬间点燃大众热情
idea error invoking main method （亲测有效）大葱蘸个酱 intellij-idea java ide
一、前言我的idea是IntelliJIDEA2021.3.2版本，前一天测试javagc回收，把idea的堆内存调成了28m和56m，导致今天idea无法启动，提示errorinvokingmainmethod二、解决方案把配置文件中的配置调整正常，问题解决-Xms128m最小堆内存-Xmx750m最大堆内存-Xms最小堆内存-Xmx最大堆内存其它问题导致的无法启动解决方案：管理员模式下面cmd
【学习笔记】Elasticsearch之环境搭建聪明马的博客 elasticsearch 学习笔记 elasticsearch
Elasticsearch官网本文是自己在学习Elasticsearch的过程中，记下的觉得非常有用的笔记，希望对大家认识Elasticsearch有一点点帮助。1.什么是Elasticsearch官网上是这么介绍的：Elasticsearchisadistributeddocumentstore.Insteadofstoringinformationasrowsofcolumnardata,El
React学习笔记（组件通信）_千峰教育 react m0_54846402 程序员 react.js 学习笔记
reduxprinciple-+//定义一个dispatch的方法，接收到动作之后，自动调用constdispatch=(action)=>{changeState(action)renderCount(countState)}```创建createStore方法Reduxprinciple02reduxprinciple-+//定义一个方法，用于集中管理state和dispatchconstcr
RT-Thread I2C 驱动框架学习笔记 DgHai RT-Thread mcu 单片机
RT-ThreadI2C驱动框架（5.1.0）II2C驱动包括两大部分，I2C驱动总线驱动和I2C设备驱动。I2C总线驱动负责控制I2C总线的硬件，包括发送和接收数据的时序控制，以及处理总线冲突等。它与嵌入式系统的硬件层交互，实现对I2C总线的底层操作，使得应用程序可以通过I2C总线与外部设备进行通信。I2C设备驱动负责管理和控制连接在I2C总线上的具体外部设备。它与I2C总线驱动和嵌入式系统的驱
CCNP350-401学习笔记（351-400题）殊彦_sy CCNP题库学习
351、WhichnewenhancementwasimplementedinWi-Fi6?A.4096QuadratureAmplitudeModulationModeB.ChannelbondingC.Wi-FiProtectedAccess3D.UplinkandDownlinkOrthogonalFrequencyDivisionMultipleAccess352、HowdoesIGMPf
16、电科院FTU检测标准学习笔记-基本性能2 six2me 配电自动化(FTU)测试笔记学习笔记 FTU 配电检测
作者简介：本人从事电力系统多年，岗位包含研发，测试，工程等，具有丰富的经验在配电自动化验收测试以及电科院测试中，本人全程参与，积累了不少现场的经验————————————————————————————————————目录交流工频电量影响量试验频率带来的影响谐波变化带来的影响不平衡电流对功率的影响三相功率测量元件之间相互作用引起的改变故障电流采集电流过载检测（大电流）状态量输出（遥控）输入SOE分
C语言流程控制学习笔记前端熊猫 C语言 c语言学习笔记
1.顺序结构顺序结构是程序中最基本的控制结构，代码按从上到下的顺序依次执行。大多数C语言程序都是由顺序结构组成的。2.选择结构选择结构根据条件的真假来决定执行哪一段代码。在C语言中，选择结构主要有以下几种：2.1if语句if语句用于根据条件的真假来执行相应的代码块。if(condition){//当条件为真时执行的代码}2.2if-else语句if-else语句用于在条件为真时执行一段代码，为假时
SAT-3D饮食行为训练系统在营养教学中的应用心得体会上海GR 经验分享
在营养学领域的探索之旅中，我有幸深入接触并实践了SAT-3D膳食诊断和饮食行为训练系统（以下简称SAT-3D系统，研制单位：上海共荣医学科技有限公司），这一经历不仅极大地拓宽了我的专业视野，也让我在营养实训教学上获得了前所未有的启示与感悟。SAT-3D系统，作为一个集科学性与实用性于一体的膳食评估与行为干预工具，其在营养实训教学中的应用，无疑为传统的教学模式注入了一股新鲜血液，让我深刻体会到科技赋
cmake linux模板多目录_【转载】CMake 简介和 CMake 模板 weixin_39790738 cmake linux模板多目录
如果你用Linux操作系统，使用cmake会简单很多，可以参考一个很好的教程：CMake入门实战|HaHack。如果你用Linux操作系统，而且只是运行一些小程序，可以看看我的另一篇博客：你就编译一个cpp，用CMake还不如用pkg-config呢。但如果你用Windows，很大的可能你会使用图形界面的CMake(cmake-gui.exe)和VisualStudio。本文先简单介绍使用CMak
【CVPR 2021】Knowledge Review：知识蒸馏新解法 BIT可达鸭深度学习人工智能计算机视觉模型压缩知识蒸馏
【CVPR2021】KnowledgeReview：知识蒸馏新解法论文地址：主要问题：主要思路：符号假设：具体实现：实验结果：关注我的公众号：联系作者：论文地址：https://jiaya.me/papers/kdreview_cvpr21.pdf主要问题：目前大部分关于KD的方法都是基于相同层或者相同Block之间的知识迁移。但是Teacher往往深层表示抽象的语义信息，底层表示简单的知识的信息
刷题计划day29 动规01背包（一）【01背包】【分割等和子集】【最后一块石头的重量 II】哈哈哈的懒羊羊算法 java 数据结构 leetcode 动态规划背包问题蓝桥杯
⚡刷题计划day29动规01背包（一）开始，可以点个免费的赞哦~往期可看专栏，关注不迷路，您的支持是我的最大动力~目录背包问题前言01背包二维数组dp[i][j]关于是否放物品：关于二维dp遍历顺序：一维数组dp（滚动数组）关于一维dp遍历顺序：题目一：416.分割等和子集题目二：1049.最后一块石头的重量II背包问题前言对于面试的话，其实掌握01背包和完全背包，就够用了，最多可以再来一个多重背
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他