newbieMath

[笔记]python网络爬虫：一个简单的定向爬取大学排名信息示例

爬取的网站信息

网站地址
中国大学排行榜：http://www.eol.cn/html/ky/16phb/
爬取内容
爬取该网站的综合排行榜单：

网页对应的源代码

  class="section"><a id="zhb" name="zhb">a>
    <div class="title t2"><h1><img src="images/title2.png" alt="综合榜" />h1>div>

    <div class="conBox zhb" id="Tabs_zhb">
      <div class="tabNav clearfix">
        <a class="tabs_zhb"><p>1-10p>a>
        <a class="tabs_zhb"><p>11-20p>a>
        <a class="tabs_zhb"><p>21-30p>a>
        <a class="tabs_zhb"><p>31-40p>a>
        <a class="tabs_zhb"><p>41-50p>a>
      div>

      <div class="tabCon">
        <div class="zhbCon tabBox table2">
          <table cellpadding="0" cellspacing="0" width="100%">
            <tr>
              <th width="5%">名次th>
              <th width="25%">学校名称th>
              <th width="8%">类型th>
              <th width="8%">所在地区th>
              <th width="8%">总分th>
              <th width="13%">办学类型th>
              <th width="8%">星级排名th>
              <th width="15%">办学层次th>
            tr>
            <tr>
              <td>1td>
              <td><a href="http://souky.eol.cn/HomePage/index_147.html">北京大学
              综合
              北京
              100.00
              中国研究型
              7星级
              世界知名高水平大学 
            
            ">
              2
              ">清华大学
              理工
              北京
              98.50 
              中国研究型
              7星级
              世界知名高水平大学
            
            
              3
              ">复旦大学
              综合
              上海 
              82.79 
              中国研究型
              6星级
              中国顶尖大学

从网页源代码中可以看到，需要的信息位于

标签的子孙代标签中的标签下的各个标签中，因此写下如下代码爬取，存储并打印出相关信息：

爬取代码编写：

import requests
from bs4 import BeautifulSoup

#从网络上获取大学排名网页的内容
def getHTMLtext(url):
    try:
        r=requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return(r.text)
    except:
        return('')

#提取网页中的信息到合适数据结构
def fillUnivList(ulist, html):
    soup=BeautifulSoup(html, 'html.parser')
    item=soup.find_all(id='Tabs_zhb', class_='conBox zhb')
    #寻找标签
    table=item[0].find_all('table')
    #寻找上个标签下的标签for item1 in table:
        tr=item1.find_all('tr')
        #寻找
    
标签下的各个标签for item in tr[1:]:
        #去掉第一个标签，从第二个开始遍历
            aim=item.contents
            #标签下的内容，也就是各个
        
标签
            if len(aim)>10:
                ulist.append([aim[1].string,
                              aim[3].find_all('a')[0].string,
                              aim[9].string])
#利用数据结构展示输出结构
def printUnivList(ulist, num):
    tplt='{0:^10}\t{1:{3}^10}\t{2:^10}'
    #输出的结构布置
    print(tplt.format('大学综合排名', '学校所在地', '总得分', chr(12288)))
    #chr(12288)是中文空格填充字符
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0], u[1], u[2], chr(12288)))

def main():
    unifo=[]
    url='http://www.eol.cn/html/ky/16phb/'
    html=getHTMLtext(url)
    fillUnivList(unifo, html)
    printUnivList(unifo, 40)#只列出40所学校的信息
main()
 
  运行结果： 
    大学综合排名        　　学校所在地　　　         总得分    
    1           　　　北京大学　　　        100.00  
    2           　　　清华大学　　　        98.50   
    3           　　　复旦大学　　　        82.79   
    4           　　　武汉大学　　　        82.43   
    5           　　　浙江大学　　　        82.38   
    6           　　中国人民大学　　        81.98   
    7           　　上海交通大学　　        81.76   
    8           　　　南京大学　　　        80.43   
    9           　国防科学技术大学　        80.31   
    10          　　　中山大学　　　        76.46   
    11          　　　吉林大学　　　        76.01   
    12          　中国科学技术大学　        75.14   
    13          　　华中科技大学　　        75.12   
    14          　　　四川大学　　　        74.99   
    15          　　北京师范大学　　        74.75   
    16          　　　南开大学　　　        74.46   
    17          　　西安交通大学　　        73.56   
    18          　　　中南大学　　　        73.13   
    19          　　　同济大学　　　        72.85   
    20          　　　天津大学　　　        72.81   
    21          　哈尔滨工业大学　　        72.72   
    21          　　　山东大学　　　        72.72   
    23          　　　厦门大学　　　        72.23   
    24          　　　东南大学　　　        71.35   
    25          　北京航空航天大学　        70.58   
    26          　　　东北大学　　　        69.55   
    27          　　　重庆大学　　　        69.54   
    28          　　华东师范大学　　        69.52   
    29          　　大连理工大学　　        68.84   
    30          　　北京理工大学　　        68.72   
    31          　　华南理工大学　　        68.47   
    32          　　中国农业大学　　        68.05   
    33          　　　湖南大学　　　        68.03   
    34          　　华中师范大学　　        67.92   
    35          　　西北工业大学　　        67.77   
    36          　　　兰州大学　　　        67.21   
    37          　　电子科技大学　　        66.88   
    38          　　武汉理工大学　　        66.60   
    39          　　中国地质大学　　        66.56   
    40          　　东北师范大学　　        66.50    
   
   该示例参考大学mooc课程《python网络爬虫和信息提取》 
 (http://www.icourse163.org/course/BIT-1001870001) 
   
  

                            
                        
                    
                    
                    
                    
                    
                    
                
                
                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                
            
        
    
    
        你可能感兴趣的:(python,爬虫)
        
            
                
                    Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南
                        

                        数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局
                    
                    scanpy保存图片的常用方法汇总
                        Bio Coder
空间转录组&单细胞scanpy保存图片汇总
                        在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
                    
                    Java基础学习笔记2
                        qichi333
学习笔记javaeclipse
                        今天是Java基础学习第二天，加油！！！下面是我今天记的一些笔记。（有点懒惰了，爬虫今天没学，因为赖床了(bushi)，但我会勤奋起来的^_^，一定一定！明天不能偷懒了天！！）一、运算符例子：inta=10;intb=20;intc=a+b;其中，“+”是运算符，且是算术运算符；“a+b”是表达式，且是算术表达式。1.算术运算符例1：publicclassdemo3{publicstaticvoi
                    
                    MCP Streamable HTTP 样例（qbit）
                        
pythonagent
                        前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
                    
                    掌握变量命名与Python继承机制
                        

                        掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
                    
                    从零开始：构建支持上下文窗口的AI原生应用实战指南
                        AI天才研究院
AI人工智能与大数据AI-nativeai
                        从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
                    
                    python进程线程协程区别_Python：线程、进程与协程(1)——概念
                        weixin_39989159
python进程线程协程区别
                        最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
                    
                    全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？
                        云原生水神
职业发展系统运维运维
                        大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
                    
                    Python Selenium 使用指南
                        

                        Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
                    
                    Selenium使用指南
                        

                        点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快Selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera
                    
                    【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
                        

                        1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
                    
                    Python 网络爬虫的基本流程及 robots 协议详解
                        女码农的重启
python网络爬虫JAVA开发语言
                        数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
                    
                    python中的pydantic是什么？
                        John Song
Pythonpython前端开发语言pydantic
                        Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
                    
                    python视频工具包 ffmpeg 使用示例
                        
pythonffmpeg
                        1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
                    
                    python汇率_用Python抓取汇率
                        

                        抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
                    
                    python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
                        

                        爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
                    
                    爬虫小结
                        Crescent_P
python小项目python数据分析
                        python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
                    
                    Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南
                        Python爬虫项目
python爬虫开发语言信息可视化数据分析
                        引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
                    
                    Python爬虫实战：使用最新技术爬取头条新闻数据
                        Python爬虫项目
2025年爬虫实战项目python爬虫开发语言scrapy音视频
                        一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
                    
                    Python爬虫实战：爬取ETF基金持仓变化
                        Python爬虫项目
python爬虫开发语言信息可视化数据分析
                        1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
                    
                    【Python】（一）面试题和Py基础题
                        戏精亿点点菜
python开发语言
                        1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
                    
                    Python 爬虫实战：实时采集外汇汇率数据的全方位指南
                        Python爬虫项目
python爬虫开发语言信息可视化数据分析
                        引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
                    
                    从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
                        

                        从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
                    
                    Python 领域 pytest 的测试用例的可维护性设计
                        

                        Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
                    
                    Python爬虫小白入门指南，成为大牛必须经历的三个阶段
                        

                        学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
                    
                    python 包管理工具uv
                        

                        uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
                    
                    Python通关秘籍之基础教程(一）
                        Smile丶Life丶
Python通关指南：从零基础到高手之路python开发语言后端
                        引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
                    
                    Python 包管理工具（uv）
                        cliffordl
pythonpythonuv开发语言
                        Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
                    
                    Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战
                        python_chai
Pythonpython开发语言协程并发yield生成器gerrnletgevent
                        引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
                    
                    Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动
                        程序员威哥
python爬虫数据挖掘
                        引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
                    
                                Spring4.1新特性——Spring MVC增强
                                    jinnianshilongnian
spring 4.1
                                    目录 
Spring4.1新特性——综述 
Spring4.1新特性——Spring核心部分及其他 
Spring4.1新特性——Spring缓存框架增强 
Spring4.1新特性——异步调用和事件机制的异常处理 
Spring4.1新特性——数据库集成测试脚本初始化 
Spring4.1新特性——Spring MVC增强 
Spring4.1新特性——页面自动化测试框架Spring MVC T
                                
                                mysql 性能查询优化
                                    annan211
javasql优化mysql应用服务器
                                    

1 时间到底花在哪了？
  mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了
  检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方
  花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
                                
                                windows系统配置
                                    cherishLC
windows
                                    删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： 
http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 
类似的还有pagefile.sys 
 
msconfig 配置启动项 
shutdown 定时关机 
 
ipconfig 查看网络配置 
ipconfig /flushdns
                                
                                人体的排毒时间
                                    Array_06
工作
                                    ======================== 
||  人体的排毒时间是什么时候？|| 
========================  
 
转载于： 
http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
                                
                                ZooKeeper
                                    cugfy
zookeeper
                                    Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步， 配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
                                
                                网络爬虫的乱码处理
                                    随意而生
爬虫网络
                                    下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文 、俄文、藏文之类的乱码处理，因为他们的解决方式 是一致的，故在此统一说明。     网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
                                
                                Xcode常用快捷键
                                    张亚雄
xcode
                                    一、总结的常用命令： 
 
    隐藏xcode command+h 
 
    退出xcode command+q 
 
    关闭窗口 command+w 
 
    关闭所有窗口 command+option+w 
 
    关闭当前
                                
                                mongoDB索引操作
                                    adminjun
mongodb索引
                                    一、索引基础：    MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令：    > db.test.ensureIndex({"username":1})    可以通过下面的名称查看索引是否已经成功建立： &nbs
                                
                                成都软件园实习那些话
                                    aijuans
成都 软件园 实习
                                    无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 
　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。 
　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
                                
                                Linux下FTP服务器安装及配置
                                    ayaoxinchao
linuxFTP服务器vsftp
                                    检测是否安装了FTP 
[root@localhost ~]# rpm -q vsftpd 
如果未安装：package vsftpd is not installed  安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息 
  
安装FTP 
运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
                                
                                使用mongo-java-driver获取文档id和查找文档
                                    BigBird2012
driver
                                    注：本文所有代码都使用的mongo-java-driver实现。 
  
在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
                                
                                JSONObject以及json串
                                    bijian1013
jsonJSONObject
                                    一.JAR包简介 
    要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 
    1.commons-lang-2.0.jar 
    2.commons-beanutils-1.7.0.jar 
    3.commons-collections-3.1.jar 
&n
                                
                                [Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性
                                    bit1129
zookeeper
                                    为了说明问题，看个简单的代码， 
  
    import org.apache.zookeeper.*;  
      
    import java.io.IOException;  
    import java.util.concurrent.CountDownLatch;  
    import java.util.concurrent.ThreadLocal
                                
                                【Scala十二】Scala核心六：Trait
                                    bit1129
scala
                                    Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
                                
                                weblogic version 10.3破解
                                    ronin47
weblogic
                                    版本：WebLogic Server 10.3 
 
说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录 
例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 
 
1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
                                
                                求第n个斐波那契数
                                    BrokenDreams

                                            今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。 
        自己试了下，搞了好久。。。基础要加强了。 
        
  &nbs
                                
                                读《研磨设计模式》-代码笔记-访问者模式-Visitor
                                    bylijinnan
java设计模式
                                    声明： 本文只为方便我个人查阅和理解，详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/ 
 
 


import java.util.ArrayList;
import java.util.List;

interface IVisitor {
	
	//第二次分派，Visitor调用Element
	void visitConcret
                                
                                MatConvNet的excise 3改为网络配置文件形式
                                    cherishLC
matlab
                                    MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。 
主页：
http://www.vlfeat.org/matconvnet/ 
教程：
http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 
 
注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet：
http
                                
                                ZK Timeout再讨论
                                    chenchao051
zookeepertimeouthbase
                                    http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： 
Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
                                
                                CASE WHEN 用法介绍
                                    daizj
sqlgroup bycase when
                                    CASE WHEN 用法介绍 
 
1. CASE WHEN 表达式有两种形式 
 
 
--简单Case函数  
 
CASE sex  
WHEN '1' THEN '男'  
WHEN '2' THEN '女'  
ELSE '其他' END  
 
--Case搜索函数  
 
CASE 
WHEN sex = '1' THEN 
                                
                                PHP技巧汇总:提高PHP性能的53个技巧
                                    dcj3sjt126com
PHP
                                    PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
                                
                                Yii框架中CGridView的使用方法以及详细示例
                                    dcj3sjt126com
yii
                                    CGridView显示一个数据项的列表中的一个表。 
表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。 
实例代码如下：
                                
                                Maven项目打包成可执行Jar文件
                                    dyy_gusi
assembly
                                    Maven项目打包成可执行Jar文件 
在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 
1、在项目中加入插件的依赖： 
<plugin>
	
                                
                                php常见错误
                                    geeksun
PHP
                                    1.  kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
                                
                                修改linux的用户名
                                    hongtoushizi
linuxchange password
                                    Change Linux Username 
更改Linux用户名，需要修改4个系统的文件： 
/etc/passwd 
/etc/shadow 
/etc/group 
/etc/gshadow 
古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： 
vipw 
vipw -s 
vigr 
vigr -s 
  
具体的操作顺
                                
                                第五章 常用Lua开发库1-redis、mysql、http客户端
                                    jinnianshilongnian
nginxlua
                                    对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。 
一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 
  Redis客户端 
lua-resty-r
                                
                                zkClient 监控机制实现
                                    liyonghui160com
zkClient 监控机制实现
                                      
       直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
                                
                                在Mysql 众多表中查找一个表名或者字段名的 SQL 语句
                                    pda158
mysql
                                    在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：   
　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name';
　　方法二：SELECT column_name from information_schema.colum
                                
                                程序员对英语的依赖
                                    Smile.zeng
英语程序猿
                                    1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 
2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 
3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 
4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 
 
以上一些问题，充分说明了英语对程序猿的重要性。骚年
                                
                                Oracle学习笔记(8) 使用PLSQL编写触发器
                                    vipbooks
oraclesql编程活动Access
                                        时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！ 
    这是第八章的学习笔记，学习完第七章的子程序和包之后
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.