Miles-

Python简单爬虫开发的学习笔记整理（爬取百度百科词条）

笔者刚刚学完Python基础及利用Python进行数据分析，顺便跟着慕课网上的一个爬虫课程学习爬虫，网址：Python开发简单爬虫，课程条理逻辑清晰，简单易懂，项目代码易于拓展应用，适合入门学习。

以下是课程的主要内容及笔记：

第一章：课程介绍

第二章：爬虫简介及其技术价值

第三章：简单爬虫架构

爬虫调度端：启动爬虫，停止爬虫，监视爬虫运行情况
URL管理器：对将要爬取的和已经爬取过的URL进行管理；可取出带爬取的URL，将其传送给“网页下载器”
网页下载器：将URL指定的网页下载，存储成一个字符串，在传送给“网页解析器”
网页解析器：解析网页可解析出①有价值的数据②另一方面，每个网页都包含有指向其他网页的URL，解析出来后可补充进“URL管理器”

爬虫架构运行流程：
调度器询问url是否有待爬取的url，如果有，则取出一个url传送给下载器，下载器下载完成后，返回给调度器，调度器将内容传送给解析器，解析器分析出有用数据及关联url，返回给调度器，调度器一方面将有价值数据传送给应用进行存储及分析，另一方面将新的url传送给url管理器。如此循环

第四章：URL管理器及实现方法

第五章：网页下载器和urllib2模块介绍

5.1 Python爬虫网页下载器简介

5.2、5.3 Python爬虫urllib2下载网页的三种方法及其代码

第一种简洁方法： （这里注意编解码的问题）
import urllib2
response= urllib2.urlopen（"http://www.baidu.com"） # 直接请求
print response.getcode() #获取状态码，若是200表示获取成功
cont= response.read()    #读取内容
第二种：【添加data、http header    urllib2.Request urllib2.urllopen(requset)】 
import urllib2
request=urllib2.Request(url)   # 创建Request对象
request.add_data('a','1')      #添加数据
request.add_header('User-Agent','Mozilla/5.0') #添加http的header
response=urllib2.urlopen(request)    #发送请求获取结果
第三种  【添加特殊情景的处理器】 
import urllib2，cookielib
cj=cookielib.CookieJar()  #创建cookie容器
opener=urllib2.build_opener(urllib2.HTTPCookiePrpcessor(cj))# 创建一个opener
urllib2.install_opener(opener)   #给urllib2安装opener
response=urllib2.urlopen('http://www.baidu.com/')#使用有cookie的urllib2访问网页

第六章：Python网页解析器及beautifulsoup第三方库

6.1 网页解析器简介

6.2 beautifulsoup介绍及其安装

BeautifulSoup：Python第三方库，用于从HTML或XML中提取数据
官网：http://www.crummy.com/software/BeautifulSoup
安装：在已有pip的情况下在cmd中运行pip install beautifulsoup4
导入：import bs4

6.3 beautifulsoup语法

第七章：实例：爬取百度百科1000页的词条内容

7.1 分析目标

7.2 调度程序

以下是整理好的程序，并加上了注释爬取了100个词条，如需更多，只需更改一下限制条件

# coding: utf-8

import html_downloader
import html_outputer
import html_parser
import url_manager

"""
爬虫主程序
"""


class SpiderMain(object):
    #  初始化爬虫
    def __init__(self):
        # URL管理器
        self.urls = url_manager.UrlManager()
        # HTML下载器
        self.downloader = html_downloader.HtmlDownloader()
        # HTML解析器
        self.parser = html_parser.HtmlParser()
        # HTML输出器
        self.outputer = html_outputer.HtmlOutputer()

    # 爬虫的调动程序
    def craw(self, root_url):
        # 记录当前爬取的url序号
        cnt = 1
        # 添加爬取入口的url
        self.urls.add_new_url(root_url)
        # 若有新的待爬取的url，则一直循环爬取
        while self.urls.has_new_url():
            try:
                # 获取新的待爬取的url
                new_url = self.urls.get_new_url()
                # 打印当前爬取的url序号与名字
                print('craw %d : %s' % (cnt, new_url))
                # 下载爬取的页面
                html_content = self.downloader.download(new_url)
                # 解析爬取的页面
                new_urls, new_data = self.parser.parse(new_url, html_content)
                # 添加批量的带爬取的url
                self.urls.add_new_urls(new_urls)
                # 收集数据
                self.outputer.collect_data(new_data)
                # 爬取目标定为爬取20个url，若完成任务，则退出循环
                if cnt == 100:
                    break
                cnt += 1
            except:
                print('craw failed.')

        # 输出收集好的数据
        self.outputer.output_html()


if __name__ == '__main__':
    # 爬虫入口页面
    root_url = 'http://baike.baidu.com/item/Python'
    obj_spider = SpiderMain()
    # 启动爬虫
    obj_spider.craw(root_url)

7.3 URL管理器

# coding: utf-8

"""
URL管理器
"""


class UrlManager(object):
    def __init__(self):
        self.new_urls = set()  # 待爬取的url集合
        self.old_urls = set()  # 已爬取的url集合

    def add_new_url(self, url):
        """
        添加新的带爬取的url
        :param url:
        :return:
        """
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            # 若为新的Url，则添加进待爬取的url集合中
            self.new_urls.add(url)

    def add_new_urls(self, urls):
        """
        批量添加新的带爬取的url集合
        :param urls:
        :return:
        """
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def has_new_url(self):
        """
        检测待爬取集合是否为空
        :return:
        """
        return len(self.new_urls) != 0

    def get_new_url(self):
        """
        获取要爬取的url
        :return:
        """
        new_url = self.new_urls.pop()  # 获取url并从集合中剔除该url
        self.old_urls.add(new_url)  # 将获取的url添加进已爬取的url中
        return new_url

7.4 HTML下载器

# coding: utf-8

import urllib2

"""
Html下载器
"""


class HtmlDownloader(object):
    def download(self,url):
        """
        下载该页面
        :param url:
        :return:
        """
        if url is None:
            return None
        # 打开一个url,返回一个 http.client.HTTPResponse
        response = urllib2.urlopen(url)
        # 若请求失败
        if response.getcode() != 200:
            return None
        return response.read()

7.5 HTML解析器

# coding: utf-8

import re

from bs4 import BeautifulSoup
import urlparse


class HtmlParser(object):
    def parse(self, page_url, html_content):
        """
        解析该页面
        :param page_url:
        :param html_content:
        :return:
        """
        if page_url is None or html_content is None:
            return
        soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')
        new_urls = self._get_new_urls(page_url, soup)
        new_data = self._get_new_data(page_url, soup)
        return new_urls, new_data

    def _get_new_urls(self, page_url, soup):
        """
        获取该页面中所有的符合检验规则的url
        :param page_url:
        :param soup:
        :return:
        """
        # 新的带爬取的url集合
        new_urls = set()
        # 获取所有符合检验规则的url
        links = soup.find_all('a', href=re.compile(r'/item/'))
        for link in links:
            new_url = link['href']
            # 将相对路径的url拼接成绝对路径的url
            new_full_url = urlparse.urljoin(page_url, new_url)
            new_urls.add(new_full_url)
        return new_urls

    def _get_new_data(self, page_url, soup):
        """
        整合页面的数据
        :param page_url:
        :param soup:
        :return:
        """
        # 该页面整合的数据
        res_data = {'url': page_url}

        """
        获取爬取页面的标题
        
        Python
        """
        title_node = soup.find('dd', class_='lemmaWgt-lemmaTitle-title').find('h1')
        res_data['title'] = title_node.get_text()
        """
        获取爬取页面的概要
        
        
        Python语法简洁清晰，特色之一是强制用空白符(white space)作为语句缩进。
        
        """
        summary_node = soup.find('div', class_='lemma-summary')
        res_data['summary'] = summary_node.get_text()
        return res_data

7.6 HTML输出器

# coding: utf-8

"""
Html输出器
"""


class HtmlOutputer(object):
    def __init__(self):
        self.datas = []

    def collect_data(self, data):
        """
        收集数据
        :param data:
        :return:
        """
        if data is None:
            return
        self.datas.append(data)

    def output_html(self):
        """
        将收集结果输出成Html页面
        :return:
        """
        file_out =open('output.html', 'w')
        file_out.write('')
        file_out.write('')
        file_out.write('')

        #ascii
        for data in self.datas:
            file_out.write('')
            file_out.write(''%data['url'])
            file_out.write(''%data['title'].encode('utf-8'))
            file_out.write(''%data['summary'].encode('utf-8'))
            file_out.write('')

        file_out.write('%s %s %s
')
        file_out.write('')
        file_out.write('')
        file_out.close()


 
    
      到此为止，我们就可以获得网页中1000多个词条页面的信息了！ 
     
     
     
 
     
    8.  课程总结 
     
      
     
 
     
     
     
 
     
     
     
 
     
     
     
 
     
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   
 
    
 
   

 
   
 
  
 
   
 
  
 
   
 
  
 
   
 
  
 
   
 
  
 
   
 
  
 
   
 
  

                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                

        你可能感兴趣的:(Python)
        
            
                
                    React 渲染 Flash 接口数据
                        ox0080
#北漂+滴滴出行VIP激励Webreact.js前端前端框架
                        1.后端Python代码使用Flask创建多个接口，每个接口返回不同的数据，并使用自定义装饰器来绑定路由。代码：#app.pyfromflaskimportFlask,jsonifyapp=Flask(__name__)defapi_route(route,methods=['GET']):"""自定义装饰器，用于将函数与HTTP路由绑定"""defdecorator(func):app.rout
                    
                    LQB---基础练习---十六进制转八进制
                        「已注销」
#LQBLQB
                        试题基础练习十六进制转八进制资源限制内存限制：512.0MBC/C++时间限制：1.0sJava时间限制：3.0sPython时间限制：5.0s问题描述给定n个十六进制正整数，输出它们对应的八进制数。输入格式输入的第一行为一个正整数n（1<=n<=10）。接下来n行，每行一个由09、大写字母AF组成的字符串，表示要转换的十六进制正整数，每个十六进制数长度不超过100000。输出格式输出n行，每行为
                    
                    【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！
                        网安詹姆斯
web安全CTF网络安全大赛pythonlinux
                        【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、S
                    
                    机器学习·文本数据读写处理
                        AAA顶置摸鱼
python深度学习机器学习人工智能数据处理
                        前言在自然语言处理的第一步，需要面对的是各种各样以不同形式表现的文本数据，比如，txt、Excel中的表格数据，还有无法直接打开的pkl文件等。针对这些不同类型的数据，可以基于Python中的基本功能函数或者调用某些库进行读写以及作一些基本的处理。一、文本数据读写方法1.读写TXT文件读取方法：read()：读取整个文件，返回字符串。readline()：逐行读取，返回字符串。readlines(
                    
                    LQB（4）-python-DFS搜索
                        AAA顶置摸鱼
蓝桥杯python组深度优先算法python蓝桥杯
                        前言DFS即深度优先搜索（Depth-FirstSearch），是一种用于遍历或搜索树或图的算法，有三种核心的应用场景（基础遍历、回溯、剪枝）。一、DFS-基础遍历1.核心原理深度优先搜索（DFS）是一种遍历或搜索树/图的算法，优先沿着一条路径尽可能深入，直到无法继续再回溯。实现方式：递归：隐式利用系统调用栈。栈模拟：显式使用栈数据结构。2.代码实现(1)递归实现（树结构）classTreeNod
                    
                    Python中LLM的知识图谱构建：动态更新与推理
                        二进制独立开发
GenAI与Python非纯粹GenAIpython知识图谱开发语言自然语言处理人工智能分布式机器学习
                        文章目录引言1.知识图谱的基本概念1.1知识图谱的定义1.2知识图谱的构建流程2.利用LLM进行知识抽取2.1实体识别2.2关系抽取2.3属性抽取3.知识融合3.1实体对齐3.2冲突消解4.知识存储5.知识推理5.1规则推理5.2基于LLM的推理6.动态更新6.1增量更新6.2实时更新7.结论引言随着人工智能技术的飞速发展，知识图谱（KnowledgeGraph,KG）作为一种结构化的知识表示方法
                    
                    Python's SQLAlchemy and Object-Relational Mapping
                        zhanglizhuo
Python
                        Acommontaskwhenprogramminganywebserviceistheconstructionofasoliddatabasebackend.Inthepast,programmerswouldwriterawSQLstatements,passthemtothedatabaseengineandparsethereturnedresultsasanormalarrayofrec
                    
                    Jira，一个强大灵活的项目和任务管理工具 Python 库
                        图灵学者
python精华jirapython开发语言
                        目录01初识Jira为什么选择Jira？02安装与配置安装jira库配置Jira访问获取APItoken：配置Python环境：03基本操作创建项目创建任务查询任务更新任务删除任务04高级操作处理子任务搜索任务添加附件评论任务05实战案例自动化创建与分配任务自动生成项目报告06结语01初识JiraJira是Atlassian公司开发的一款项目和任务管理工具。它广泛应用于软件开发、IT支持、营销等各
                    
                    使用LlamaIndex查询 MongoDB 数据库，并获取 OSS (对象存储服务) 上的 PDF 文件，最终用Langchain搭建应用
                        朴拙Python交易猿
数据库mongodbpdf
                        使用LlamaIndex查询MongoDB数据库，并获取OSS(对象存储服务)上的PDF文件，然后利用Langchain搭建应用，涉及多个步骤。下面我们将详细介绍如何将这些步骤结合起来，构建一个系统：1.环境准备首先，确保你已经安装了以下Python库：pipinstallllama_indexpymongolangchainopenaiboto3pdfplumberpymongo：MongoDB
                    
                    python 连接 jira
                        我就是我是好孩子啊
pythonjira开发语言
                        Python连接到Jira实例、登录、查询、修改和创建bug首先，你需要安装jiraPython库pip3installjira连接到Jira并登录fromjiraimportJIRAfromjira.exceptionsimportJIRAError#Jira服务器地址，用户名和密码jira_server='https://your-jira-server.com'jira_user='your
                    
                    python调用接口返回401,带有Python的Jira API在有效凭据上返回错误401
                        weixin_39743369
python调用接口返回401
                        IamtryingtousetheJirapythonlibrarytodosomequitebasicthings.Evenbeforedoinganything,theconstructorfails.address='https://myaddress.atlassian.net'options={'server':address}un='[email protected]'#un='my'#alsod
                    
                    python邮件发送哪个好_(原创)python发送邮件
                        加勒比考斯
python邮件发送哪个好
                        这段时间一直在学习flask框架，看到flask扩展中有一个mail插件，所以今天就给大家演示如果发邮件。首先我注册了一个163邮箱，需要开启smtp功能,(网易的电子邮件服务器)。注册好163邮箱，然后开启smtp功能，如下图所示:开启的过程中需要绑定手机。我最终实现的样子是这样的:使用flask搭建了一个web服务器，然后做了一个网页，将收件人，主题，正文填好之后，点击发送，上面会显示发送结果
                    
                    如何用 python 获取实时的股票数据？_python efinance(2)
                        元点三
2024年程序员学习pythonjavalinux
                        先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
                    
                    如何用 python 获取实时的股票数据？_python efinance，2024年最新pdf面试简历
                        元点三
2024年程序员学习pythonpdf面试
                        先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
                    
                    python中enumerate()函数的用法
                        neu_张康

                        python中enumerate()函数的用法enumerate是翻译过来是枚举的意思，看下它的方法原型：enumerate(sequence,start=0)，返回一个枚举对象。sequence必须是序列或迭代器iterator，或者支持迭代的对象。enumerate()返回对象的每个元素都是一个元组，每个元组包括两个值，一个是计数，一个是sequence的值，计数是从start开始的，star
                    
                    【python】懒人福利，通过Python的JIRA库操作JIRA，自动批量提交关闭bug，提高效率
                        bulabula2022
#CI持续集成Pythonjira
                        简介：Jira是目前比较流行的基于Java架构的管理系统（Atlassian公司支持），有开源代码，方便做二次开发（可扩展性）。Jira是一款功能非常强大的管理工具，广泛的用来缺陷跟踪、用例管理、需求收集、任务跟踪、工时管理、项目计划管理等工作领域。python有支持操作Jira的第三方包，方便自定义一些自动化操作。需要安装jira库：pipinstalljiraJira认证fromjiraimp
                    
                    使用Python获取在线股票交易网站的实时交易数据
                        嵌入式开发项目
2025年爬虫精通专栏python开发语言爬虫
                        目录步骤1：选择股票交易网站步骤2：使用requests库发送HTTP请求步骤3：解析HTML内容步骤4：提取实时交易数据步骤5：存储和使用数据在金融市场中，实时交易数据对于投资者来说具有重要的价值。实时的股票价格、交易量和其他市场指标可以帮助投资者做出更准确的决策，同时也是进行金融分析和建模的重要数据源。在本篇博客中，我们将学习如何使用Python获取在线股票交易网站的实时交易数据。在开始之前，
                    
                    【python】连接Jira获取token以及jira对象
                        唐古乌梁海
pythonjira
                        此脚本可以连接Jira，通过Jira的token，Jira对象可以实现与Jira的交互，从而完成jira与pytest的交互，或者其他自动化测试框架也行，例如：将pytest运行结果推送jira；将jira用例与自动化测试用例建立映射关系，将功能用例对应的自动化测试用例脚本路径推送到功能用例的描述栏，或者自动化栏里面#!/usr/bin/envpython#-*-coding:utf-8-*-#@
                    
                    Python 基础-循环
                        赔罪
Python系统学习pythonwindows服务器
                        目录简介breakcontinue小结简介要计算1+2+3，我们可以直接写表达式：>>>1+2+36要计算1+2+3+...+10，勉强也能写出来。但是，要计算1+2+3+...+10000，直接写表达式就不可能了。为了让计算机能计算成千上万次的重复运算，我们就需要循环语句。Python的循环有两种，一种是for...in循环，依次把list或tuple中的每个元素迭代出来，看例子：names=[
                    
                    【FastAPI 】FastAPI 模板：提供静态文件
                        iFakeCoder
Flaskfastapipython开发语言
                        FastAPI是一个现代、快速（高性能）的Web框架，用于基于标准Python类型提示使用Python3.7+构建API。虽然它的主要用例是构建API，但FastAPI还可以轻松提供静态文件和HTML模板，从而让您可以构建全栈Web应用程序。在此博客中，我们将探讨如何使用FastAPI提供静态文件。我们将介绍基础知识并提供演示以帮助您入门。为什么要提供静态文件？静态文件是不经常更改的资产，并按原样
                    
                    深度学习在医疗影像分析中的革命性应用
                        Echo_Wish
人工智能前沿技术深度学习人工智能
                        深度学习在医疗影像分析中的革命性应用引言医疗影像分析是现代医学中不可或缺的一部分，特别是在疾病诊断和治疗过程中发挥了至关重要的作用。随着深度学习技术的发展，医疗影像分析的效率和准确性得到了显著提升。本文将探讨如何利用深度学习技术，特别是Python编程语言，来优化医疗影像分析，展示具体的代码实例，并举例说明其实际应用效果。深度学习与医疗影像分析深度学习（DeepLearning）是一种基于人工神经
                    
                    DeepSeek使用中的问题及解决方案（部分）
                        WeiLai1112
DeepSeek人工智能
                        1.模型部署与配置问题问题1：环境依赖冲突现象：安装模型依赖库时出现版本不兼容（如Python、PyTorch版本冲突）。解决方案：使用虚拟环境（如conda或venv）隔离依赖。严格按照官方文档的版本要求安装依赖，例如：condacreate-ndeepseekpython=3.9condaactivatedeepseekpipinstalltorch==2.0.1transformers==4
                    
                    python whoosh
                        clisy
python开源搜索
                        原文地址：http://whoosh.ca/wikiWhoosh:高效的纯python全文搜索组件Whoosh是一个纯python实现的全文搜索组件。Whoosh不但功能完善，还非常的快。Whoosh的作者是MattChaput，由SideEffectsSoftware公司开发。项目的最初用于Houdini（SideEffectsSoftware公司开发的3D动画软件）的在线帮助系统。SideEf
                    
                    Python性能优化：懒加载与其他高级技巧
                        车载testing
pytest数据驱动框架开发pythonpython数据库开发语言
                        Python性能优化：懒加载与其他高级技巧在软件开发中，我们经常会遇到一些需要大量资源或时间来初始化的对象。如果这些对象在程序的整个生命周期中只被使用一次或很少使用，那么在程序启动时就立即初始化它们将是一种资源浪费。什么是懒加载？懒加载是一种设计模式，它推迟了对象的初始化直到其被实际需要的时候。这种方式可以提高程序的启动速度，减少内存消耗，并在某些情况下提高性能。实现懒加载的步骤定义类和属性：首先
                    
                    Click：构建Python命令行界面的利器
                        车载testing
pythonpythonlinux开发语言
                        Click：构建Python命令行界面的利器Click是一个Python包，它允许开发者以最少的代码创建出美观、功能丰富的命令行界面（CLI）。它以其高度的可配置性、合理的默认设置以及简洁的API而受到广泛欢迎。本文将详细介绍Click的核心API组件，并提供示例代码，帮助你快速掌握Click的基本用法。1.Decorators（装饰器）装饰器是Click中用于定义命令和参数的强大工具。click
                    
                    Python 队列的使用：掌握先进先出的数据结构
                        车载testing
python
                        Python队列的使用：掌握先进先出的数据结构队列是一种先进先出（FIFO）的数据结构，它在多种编程场景中都非常有用，比如任务调度、事件处理等。在Python中，我们可以通过标准库中的queue模块来实现队列。本文将详细介绍如何使用Python的queue模块来创建和操作队列。导入Queue模块使用queue模块之前，我们需要先导入它：fromqueueimportQueue创建队列创建一个队列实
                    
                    Whoosh: 一个功能强大的纯Python全文搜索引擎
                        富珂祯

                        Whoosh:一个功能强大的纯Python全文搜索引擎whooshWhooshisafast,featurefulfull-textindexingandsearchinglibraryimplementedinpurePython.项目地址:https://gitcode.com/gh_mirrors/wh/whooshWhoosh是一个快速且功能丰富的全文索引和搜索库，完全使用Python实现
                    
                    pycdc 安装和配置指南
                        左洋蔷Rory

                        pycdc安装和配置指南pycdcC++pythonbytecodedisassembleranddecompiler项目地址:https://gitcode.com/gh_mirrors/py/pycdc1.项目基础介绍和主要的编程语言项目名称:pycdc项目简介:pycdc是一个用C++编写的Python字节码反编译器和反汇编器。它的目标是帮助开发者将编译后的Python字节码（.pyc文件）
                    
                    Whoosh：一款优秀的纯Python全文搜索库
                        沈书苹Peter

                        Whoosh：一款优秀的纯Python全文搜索库whooshPure-Pythonfull-textsearchlibrary项目地址:https://gitcode.com/gh_mirrors/who/whooshWhoosh是一个快速、功能丰富的全文索引和搜索库，完全使用Python编写。它允许程序员轻松地将搜索功能添加到他们的应用程序和网站中。项目基础介绍Whoosh是一个纯Python项
                    
                    deepseek_各个版本django特性
                        终是蝶衣梦晓楼
django数据库python
                        以下是Django2.0至5.0的主要区别总结，按版本特性分类说明：1.Django2.0的主要变化Python支持仅支持Python3.4+，不再兼容Python2.x。路由系统弃用url()，引入path()和re_path()替代，path()默认不支持正则表达式，但提供内置转换器（如）进行参数类型匹配。支持更简洁的URL配置语法（例如path('articles//',views.year
                    
                                二分查找排序算法
                                    周凡杨
java二分查找排序算法折半
                                     一：概念 二分查找又称
折半查找（
折半搜索/
二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而 查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表 分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
                                
                                java中的BigDecimal
                                    bijian1013
javaBigDecimal
                                            在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。 
        原文地址：http://blog.csdn.net/ugg/article/de
                                
                                Shell echo命令详解
                                    daizj
echoshell
                                    Shell echo命令 
Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： 
echo string 
您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: 
  echo "It is a test" 
这里的双引号完全可以省略，以下命令与上面实例效果一致： 
  echo Itis a test 2.显示转义
                                
                                Oracle DBA 简单操作
                                    周凡杨
oracle dba sql
                                     --执行次数多的SQL 
 select sql_text,executions from ( 
     select sql_text,executions from v$sqlarea order by executions desc 
     ) where rownum<81; 
 &nb
                                
                                画图重绘
                                    朱辉辉33
游戏
                                      我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。 
  在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
                                
                                线程之初体验
                                    西蜀石兰
线程
                                    一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。 
之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。 
 
线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。 
你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
                                
                                linux集群互相免登陆配置
                                    林鹤霄
linux
                                    配置ssh免登陆 
1、生成秘钥和公钥    ssh-keygen -t rsa 
2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 
   其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密    c
                                
                                mysql : Lock wait timeout exceeded; try restarting transaction
                                    aigo
mysql
                                    原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 
  
原因是你使用的InnoDB   表类型的时候, 
默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 
因为有的锁等待超过了这个时间,所以抱错. 
  
你可以把这个时间加长,或者优化存储
                                
                                Socket编程 基本的聊天实现。
                                    alleni123
socket
                                    public class Server
{

	//用来存储所有连接上来的客户
	private List<ServerThread> clients;
	
	public static void main(String[] args)
	{
		Server s = new Server();
		s.startServer(9988);
	}

	publi
                                
                                多线程监听器事件模式(一个简单的例子)
                                    百合不是茶
线程监听模式
                                        
多线程的事件监听器模式 
  监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到 
  
     创建多线程的事件监听器模式 思路: 
   1, 创建线程并启动,在创建线程的位置设置一个标记 
    2,创建队
                                
                                spring InitializingBean接口
                                    bijian1013
javaspring
                                    spring的事务的TransactionTemplate，其源码如下： 
public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{
 ...
} 
TransactionTemplate继承了DefaultT
                                
                                Oracle中询表的权限被授予给了哪些用户
                                    bijian1013
oracle数据库权限
                                            Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 
select t.table_name as "表名",
       t.grantee    as "被授权的属组",
       t.owner      as "对象所在的属组"
                                
                                【Struts2五】Struts2 参数传值
                                    bit1129
struts2
                                    Struts2中参数传值的3种情况 
1.请求参数绑定到Action的实例字段上 
2.Action将值传递到转发的视图上 
3.Action将值传递到重定向的视图上 
  一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上  
Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
                                
                                【Kafka十四】关于auto.offset.reset[Q/A]
                                    bit1129
kafka
                                    I got serveral questions about  auto.offset.reset. This configuration parameter governs how  consumer read the message from  Kafka when  there is no initial offset in ZooKeeper or 
                                
                                nginx gzip压缩配置
                                    ronin47
nginx gzip 压缩范例
                                    nginx gzip压缩配置   更多 
0      
 nginx      
 gzip      
 配置         
随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ 
gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
                                
                                java-13.输入一个单向链表，输出该链表中倒数第 k 个节点
                                    bylijinnan
java
                                    two cursors. 
Make the first cursor go K steps first. 
 
 

/*
	 * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点
	 */
	public void displayKthItemsBackWard(ListNode head,int k){
		ListNode p1=head,p2=head;

                                
                                Spring源码学习-JdbcTemplate queryForObject
                                    bylijinnan
javaspring
                                    JdbcTemplate中有两个可能会混淆的queryForObject方法： 
1. 
Object queryForObject(String sql, Object[] args, Class requiredType) 
2. 
Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 
 
第1个方法是只查
                                
                                [冰川时代]在冰川时代,我们需要什么样的技术?
                                    comsci
技术
                                     
 
     看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 
 
     那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... 
 
  &nb
                                
                                js 获取浏览器型号
                                    cuityang
js浏览器
                                    根据浏览器获取iphone和apk的下载地址 
 
<!DOCTYPE html> 
<html> 
<head> 
    <meta charset="utf-8" content="text/html"/> 
    <meta name=
                                
                                C# socks5详解 转
                                    dalan_123
socketC#
                                    http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html    这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
                                
                                运维 Centos问题汇总
                                    dcj3sjt126com
云主机
                                    一、sh 脚本不执行的原因 
sh脚本不执行的原因 只有2个 
1.权限不够 
2.sh脚本里路径没写完整。 
  
二、解决You have new mail in /var/spool/mail/root 
修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 
MailTo = 
MailFrom 
  
三、查询连接数
                                
                                Yii防注入攻击笔记
                                    dcj3sjt126com
sqlWEB安全yii
                                    网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号  这里有个转义对照表： 
http://blog.csdn.net/xinzhu1990/articl
                                
                                MongoDB简介[一]
                                    eksliang
mongodbMongoDB简介
                                    MongoDB简介 
转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 
       MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。 
       另外，不
                                
                                zookeeper windows 入门安装和测试
                                    greemranqq
zookeeper安装分布式
                                    一、序言 
      以下是我对zookeeper 的一些理解：      zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。 
      栗子1号： 
      假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
                                
                                Spring之使用事务缘由(2-注解实现)
                                    ihuning
spring
                                      
Spring事务注解实现 
  
1. 依赖包： 
    1.1 spring包： 
          spring-beans-4.0.0.RELEASE.jar 
          spring-context-4.0.0.
                                
                                iOS App Launch Option
                                    啸笑天
option
                                    iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 
  
launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节 。 
1、若用户直接
                                
                                jdk与jre的区别（_）
                                    macroli
javajvmjdk
                                    简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。  
JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。 如果安装了JDK，会发同你
                                
                                Updates were rejected because the tip of your current branch is behind
                                    qiaolevip
学习永无止境每天进步一点点众观千象git
                                    $ git push joe prod-2295-1

To [email protected]:joe.le/dr-frontend.git
 ! [rejected]        prod-2295-1 -> prod-2295-1 (non-fast-forward)
error: failed to push some refs to '[email protected]
                                
                                [一起学Hive]之十四-Hive的元数据表结构详解
                                    superlxw1234
hivehive元数据结构
                                    关键字：Hive元数据、Hive元数据表结构 
  
之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。 
本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。 
  
文章最后面，会以一个示例来全面了解一下，
                                
                                Spring 3.2.14，4.1.7，4.2.RC2发布
                                    wiselyman
Spring 3
                                      
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。 
  
其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。 
  
其中Spring 4.1.7主要包含这些更新内容。 
                                
                
            
        
    

    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    

    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.