liwxyz
Python爬虫入门：爬虫抓取沪深300指数列表

使用Python3爬取沪深300指数列表
1. 思路分析
用chrome打开维基百科沪深300的页面，网址为：https://en.wikipedia.org/wiki/CSI_300_Index 。如下图一所示，可见沪深300指数股票列表。其中，包含了股票代号、公司名，交易所名称，权重和所属行业。这个列表所包含的信息就是我们所需要的。我们在向浏览器发送请求的时候，返回的是html代码，平时用浏览器浏览网页看到的这些图文并茂的规整的页面其实是html代码在经过浏览器渲染后的结果。所以，我们需要找到我们所需要抓取的信息在html代码中的位置，这个就是html解析了。解析的工具很多，作为资深小白，这里笔者选用正则表达式直接分析抓取信息。之所以没有使用成熟的Beautifulsoup4，Xpath等解析包，更多的是作为小白，从正则表达式入手更能体现抓取过程和抓取原理。这里，之后不妨大家试一试使用成熟解析包BS4之类的尝试一下。
图1 沪深300指数列表
如何找到html中需要抓取的信息呢？可以在页面右键，打开网页源代码（Ctrl+U），可以查看到列表中的信息定位如下：
图2 列表信息定位
一个网页的html代码全部打开看上去会非常的繁多，其实html代码是一层一层结构化的，非常规整的。每一对尖括号包起来的是一个标签，比如这里的…表示一行，…表示一个空格。
2. 代码实现
（1）首先定义网址url，确定好要爬取的入口链接。
（2）然后获取浏览器信息，设置header信息等模拟浏览器进行访问（这一步可省略，此处没有屏蔽）。
（3）用urllib发送请求，爬取整个网页源代码。
（4）根据要爬取的信息构建正则表达式，如爬取股票代号列表，则采用'(\d{6})'的正则表达式。
（5）采用构建的正则表达式提取相应的信息。
（6）存储爬取到的信息。
完整代码如下：
import pandas as pd
import re
import urllib.request
import tushare as ts
import os

index_list=[]
index_list1=[]
company_list=[]
stock_exchange_list=[]
weighting_list=[]
segment_list=[]

url = "https://en.wikipedia.org/wiki/CSI_300_Index"

headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
    
urllib.request.install_opener(opener)
file=urllib.request.urlopen(url)
data=str(file.read())

pat='(.*)Sub-Indicies'#<\/todday><\/table>'
data1= str(re.compile(pat).findall(data))
csi_1='(.*)<\/td><\/tr><\/tbody><\/table>'
csi = str(re.findall(csi_1,data1,re.S))

hang = '(.*?)<\/td><\/tr>|<\/td><\/tr><\/tbody><\/table>'
zhenghang = re.findall(hang,csi)

for i in range(len(zhenghang)):
    index_1='
(\d{6})'
    company_1=' ((\w|\s|&|(|)|-){1,100})'
    stock_exchange_1=' (Shanghai|Shenzhen)'
    weighting_1=' (\d,\d{1,2})'
    segment_1=' (Financials|Consumer Staples|Consumer Discretionary|Utilities|Industrials|Health Care|IT|Energy|Materials|Telecommunication Services)'
    
    index_list.extend(re.findall(index_1,zhenghang[i]))
    company_list.extend(re.findall(company_1,zhenghang[i]))
    stock_exchange_list.extend(re.findall(stock_exchange_1,zhenghang[i]))
    weighting_list.extend(re.findall(weighting_1,zhenghang[i]))
    segment_list.extend(re.findall(segment_1,zhenghang[i]))

test =pd.DataFrame(columns=name,data=index_list)
#存储
test.to_csv('H:/day/index1.csv') 
    
  3.爬取结果 
   
    
    
    
  

                            
                        
                    
                    
                    
                    
                    
                    
                
                
                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                
            
        
    
    
        你可能感兴趣的:(Python,爬虫)
        
            
                
                    【mysql】mysql之主从部署以及介绍
                        向往风的男子
DBAmysql数据库
                        本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
                    
                    MySQL5.6主从复制最佳实践
                        weixin_34252090
数据库操作系统python
                        2019独角兽企业重金招聘Python工程师标准>>>MySQL5.6主从复制最佳实践MySQL5.6主从复制的配置环境操作系统：CentOS-6.6-x86_64MySQL版本：mysql-5.6.26.tar.gz主节点IP：192.168.31.57主机名：edu-mysql-01从节点IP：192.168.31.59主机名：edu-mysql-02MySQL主从复制官方文档http://d
                    
                    vs code配置python_如何在vscode里的python配置好matplotlib？,vscode配置python环境教程
                        weixin_39564151
vscode配置python
                        如何在vscode里的python配置好matplotlib？,vscode配置python环境教程vscode配置python环境教程2020-09-2015:14:33人已围观VScode配置Python环境“配置任务运行程序”遇到问题我建议尝试再把bug写出来，不能因为不一样就不继续首先需要VScodePython插件。打开Python任意脚可以直接拖入。点击左下角的扩展按钮，在弹出界面选择
                    
                    TikTokenizer 开源项目教程
                        邱纳巧Gillian

                        TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快速准确地对文本进行分词处
                    
                    python类方法和类的实例化
                        Cachel wood
程序设计杂事python开发语言mysqlhivesql机器学习数据库
                        文章目录类方法实例方法类方法静态方法特殊方法私有方法Python类的实例化1.调用`__new__`方法2.调用`__init__`方法3.返回实例对象总结类方法在Python里，类的自定义方法是类中用户自行定义的函数，这些方法能够实现特定的功能，并且可以访问和操作类的属性。下面详细介绍Python类中常见的自定义方法。实例方法定义：实例方法是类中最常见的方法，它的第一个参数通常是self，代表类
                    
                    python 输入一行字符串 删除其中所有大写字母后输出_Python练习题3.17删除字符
                        weixin_39624873
python输入一行字符串删除其中所有大写字母后输出
                        输入一个字符串str，再输入要删除字符c，大小写不区分，将字符串str中出现的所有字符c删除。输入格式:在第一行中输入一行字符在第二行输入待删除的字符输出格式:在一行中输出删除后的字符串输入样例:在这里给出一组输入。例如：beee输出样例:在这里给出相应的输出。例如：result:b代码如下：#!/usr/bin/python#-*-coding:utf-8-*-s=input().strip()
                    
                    Telegram bot教程：通过BotFather设置Telegram bot的命令菜单
                        鲲志说
Web3相关业界资讯telegrambot经验分享笔记twitterTelegramBot
                        最近在研究Telegrambot嘛，总有些小细节可以记录了，今天就记录一个通过BotFather设置Telegrambot的命令菜单功能➡️【好看的灵魂千篇一律，有趣的鲲志一百六七！】-欢迎认识我～～作者：鲲志说（公众号、B站同名，视频号：鲲志说996）科技博主：极星会星辉大使后端研发：java、go、python、TS，前电商、现web3主理人：COC杭州开发者社区主理人、周周黑客松杭州主理人、
                    
                    Python,C++开发餐饮后厨环境远程管理APP
                        Geeker-2025
pythonc++
                        开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
                    
                    清晰易懂的Python安装与配置教程
                        Tee xm
python开发语言
                        初学者也能看懂的Python安装与配置教程本教程将手把手教你安装Python，并配置国内镜像源和自定义依赖包缓存位置，即使你是零基础小白，也能轻松完成！一、准备工作操作系统：Windows10/11、macOS或Linux。下载工具：浏览器（推荐Chrome或Edge）。存储空间：至少预留500MB可用空间。二、安装Python1.下载Python访问Python官网下载页面：https://ww
                    
                    双均线量化策略实战指南：基于 iTick 外汇API、股票API报价源的 Python 实现
                        
算法pythonai开发
                        在量化交易领域，iTick报价API凭借其强大的多市场覆盖能力，已成为专业交易员的首选数据解决方案。其外汇API支持全球主要货币对（如EURUSD、GBPUSD）的毫秒级行情推送，包含Bid/Ask深度报价和实时波动率数据；股票API则覆盖A股、港股及美股市场，提供Level-2逐笔成交和十档盘口信息。通过统一的RESTful接口，开发者可轻松获取标准化的OHLCV数据，实现外汇、股票等多资产策略
                    
                    1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库
                        pythonQA
pythonpaddlepaddle
                        PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
                    
                    蓝桥杯pythonB组备赛
                        暴力执码
蓝桥杯职场和发展
                        P1003[NOIP2011提高组]铺地毯题目描述为了准备一个独特的颁奖典礼，组织者在会场的一片矩形区域（可看做是平面直角坐标系的第一象限）铺上一些矩形地毯。一共有n张地毯，编号从1到n。现在将这些地毯按照编号从小到大的顺序平行于坐标轴先后铺设，后铺的地毯覆盖在前面已经铺好的地毯之上。地毯铺设完成后，组织者想知道覆盖地面某个点的最上面的那张地毯的编号。注意：在矩形地毯边界和四个顶点上的点也算被地毯
                    
                    解决 Python 中 `cv2` 模块部分初始化导致的 `AttributeError`
                        Leuanghing
python开发语言
                        解决Python中cv2模块部分初始化导致的AttributeError在Python开发中，尤其是使用OpenCV库进行图像处理时，可能会遇到一些令人困惑的错误。今天，我们就来探讨一个常见的错误：AttributeError:partiallyinitializedmodule'cv2'hasnoattribute'gapi_wip_gst_GStreamerPipeline'，并提供一个有效的
                    
                    python 正则表达式的语法及使用
                        主打Python
正则表达式python基础语法正则表达式python
                        python正则表达式的语法及使用概念：按照程序员的指示，字符串里提取你要的数据。应用：爬虫清洗数据，匹配电话，匹配邮箱，匹配账号……最重要的就是（.*?）正则语法（元字符）1、？：前面的内容出现0-1次2、+：前面的内容出现1-多次3、*：前面的内容出现0-多次‘’’正则(Regular)：记住的点：1、(.？)2、re.findall()结果是一个列表3、用(.?)的是后，一定要复制，而不是手
                    
                    python pandas 读取excel单元门公式值_Python pandas对excel的操作实现示例
                        weixin_39585761
pythonpandas读取excel单元门公式值
                        最近经常看到各平台里都有Python的广告，都是对excel的操作，这里明哥收集整理了一下pandas对excel的操作方法和使用过程。本篇介绍pandas的DataFrame对列(Column)的处理方法。示例数据请通过明哥的gitee进行下载。增加计算列pandas的DataFrame，每一行或每一列都是一个序列(Series)。比如：importpandasaspddf1=pd.read_e
                    
                    pandas整表写入excel指定位置_pandas操作Excel的常用场景及问题
                        那个吴小明

                        很多场景下使用pandas就能够胜任手上的excel处理任务，之前写的用python操作具体到excel单元格的方法参考：贺霆：python操作Excel实现自动化报表zhuanlan.zhihu.com现在主要介绍使用pandas读取excel的几种常用场景：一、常规读取importpandasaspdfrompandasimportDataFrame,Seriesimportosos.chdi
                    
                    如何用Python批量将CSV文件编码转换为UTF-8并转为Excel格式？
                        字节王德发
pythonpythonexcel开发语言
                        在处理数据时，CSV文件格式常常用作数据的交换格式。不过，很多情况下我们会遇到编码问题，特别是当文件不是UTF-8编码时。为了更好地处理这些文件，可能需要将它们转换为UTF-8编码，并且将其转换为Excel格式，这样可以方便后续的数据分析和使用。今天就来聊聊如何用Python实现这一过程。准备工作：安装必要的库我们需要确保安装了所需的Python库。主要用到的库有pandas和openpyxl。p
                    
                    Python 的 ORM（Object-Relational Mapping）工具浅讲
                        Code_Geo
python开发语言
                        SQLAlchemy相关讲解1.SQLAlchemy是什么？定义：一个Python的ORM（Object-RelationalMapping）工具，允许开发者通过Python类与对象操作数据库，而非直接编写SQL。核心组件：Core：底层SQL表达式语言，提供数据库无关的SQL操作接口。ORM：基于Core的高层抽象，将数据库表映射为Python类（模型），记录映射为对象。适用场景：需要灵活操作数
                    
                    #Python 项目：实现功能——使用钉钉“自定义”机器人在群中发送文字消息
                        Window Unlock
钉钉python机器人
                        （目前还是新手，程序难免有废话代码，请大家耐心看__比心）第一步：创建群聊机器人，参考官方手册官方链接：自定义机器人的创建和安装-钉钉开放平台此步骤可以得到两个关键参数：Webhook（机器人的通信网址）：https://oapi.dingtalk.com/robot/send?############（如这样）secret（加签未解密密钥）：SECe2######################
                    
                    Python-有效字母异位词
                        m0_37763377
python哈希算法算法数据结构
                        一、什么是字母异位词字母异位词‌是指由相同字母组成但排列顺序不同的单词。例如，"eat"、"tea"和"ate"都是字母异位词，因为它们由相同的字母组成，只是排列顺序不同。‌二、思路（一）暴力解法这里可以用两层循环来判断2个字符串的元素是否一样，显然时间复杂度为O(n²），在这里大家可以自己写一下，文章就不再提供演示。（二）哈希表解法1.什么是哈希表？哈希表（HashTable），也称为散列表，是
                    
                    LeetCode56☞合并区间
                        fantasy_4
LeetCode刷题leetcodepythonjava算法贪心算法
                        关联LeetCode题号56本题特点贪心本题思路将二维数组排序按照左边界排序。排序后，右边界的大小成为找到局部最大值的关键。由题意合并区间可知，应该取数组的’并集‘，局部最优解推出全局最优解，每次找到局部最大的范围，整体就会合并成一个大区间Python写法defmerge(self,intervals):result=[]iflen(intervals)==0:returnresult#区间集合为
                    
                    【python】图形用户界面和游戏开发
                        usp1994
pythonuiide
                        图形用户界面和游戏开发文章目录图形用户界面和游戏开发基于tkinter模块的GUI使用Pygame进行游戏开发制作游戏窗口在窗口中绘图加载图像实现动画效果碰撞检测事件处理基于tkinter模块的GUIGUI是图形用户界面的缩写，图形化的用户界面对使用过计算机的人来说应该都不陌生，在此也无需进行赘述。Python默认的GUI开发模块是tkinter（在Python3以前的版本中名为Tkinter），
                    
                    Python 爬虫实战：如何爬取小红书数据并进行分析
                        Python爬虫项目
python爬虫开发语言selenium测试工具
                        一、引言随着社交电商的崛起，小红书（Xiaohongshu）作为一款结合了社交和电商的应用，吸引了大量年轻用户。用户在平台上分享购物心得、生活经验以及个性化的消费推荐内容，形成了庞大的用户数据与内容生态。因此，如何从小红书获取数据进行分析，成为了数据科学、市场营销和社交媒体研究中的一个重要课题。本文将介绍如何使用Python编写爬虫爬取小红书的数据，分析如何通过小红书的开放API获取用户信息、帖子
                    
                    Python 常用内建模块-base64
                        赔罪
Python系统学习python前端linux
                        目录base64小结练习base64Base64是一种用64个字符来表示任意二进制数据的方法。用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆乱码，因为二进制文件包含很多无法显示和打印的字符，所以，如果要让记事本这样的文本处理软件能处理二进制数据，就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。Base64的原理很简单，首先，准备一个包含64个字符的数
                    
                    基于python的ansys_基于python的感知机
                        weixin_39687990
基于python的ansys
                        一、1、感知机可以描述为一个线性方程，用python的伪代码可表示为：sum(weight_i*x_i)+bias->activation#activation表示激活函数，x_i和weight_i是分别为与当前神经元连接的其它神经元的输入以及连接的权重。bias表示当前神经元的输出阀值(或称偏置)。箭头(->)左边的数据，就是激活函数的输入2、定义激活函数f:deffunc_activator(
                    
                    python ansys workbench联动_【干货】如何在ANSYS WORKBENCH中关联几何模型和有限元模型...
                        weixin_39644377
pythonansysworkbench联动
                        原标题：【干货】如何在ANSYSWORKBENCH中关联几何模型和有限元模型我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应
                    
                    python ansys workbench联动_如何在ANSYS WORKBENCH中关联几何模型和有限元模型
                        YUNYA麻麻
pythonansysworkbench联动
                        我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应的几何模型进行关联，再一起导入到MECHANICAL中进行分析，则既能够既享
                    
                    在 Ansys Mechanical 中创建等效应力结果并使用 Python 导出到文件
                        David WangYang
硬件工程
                        介绍在AnsysMechanical模型中，通常需要对许多实体/曲面体或它们组进行后处理等效应力或总变形等。使用分组在TreeGrouping文件夹中的NamedSelections，可以在Mechanical中编写Python脚本来自动生成结果对象。此外，once可以获取新创建的结果对象，并再次使用Mechanical中的Python脚本将所有结果集的结果导出到.csv文件。在本文中，我们将探讨
                    
                    关于使用python进行处理雷达数据笔记
                        六毛驴
python数据分析
                        好久不见，甚是想念本人深知这段时间鸽了一篇博（上一篇博），后续会补上的，今天想写一下关于使用python进行TI雷达接收回波数据处理的一些常见问题和解决方法。这也是前几天领导给我布置的任务，所以我将这段时间自己遇到的并且已经解决的问题进行了简单的汇总，也会推荐几本这几天阅读了python书籍。python书籍推荐：python学习手册MarkLutz著（对应python版本3.X，2.X都可）Py
                    
                    焊接性能分析代码（Python）
                        骑蜗牛上月亮
python开发语言
                        welding_performance_data.xls数据文件。welding_strengthtoughness5001052012480855015490953013510115401447075601690018600121500139111578115importpandasaspdimportmatplotlib.pyplotaspltimporttkinterastkfrommatp
                    
                                解线性方程组
                                    qiuwanchi

                                    package gaodai.matrix;

import java.util.ArrayList;
import java.util.List;
import java.util.Scanner;

public class Test {

	public static void main(String[] args) {
		Scanner scanner = new Sc
                                
                                在mysql内部存储代码
                                    annan211
性能mysql存储过程触发器
                                    

在mysql内部存储代码
  在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。
  先看优点：
  1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。
  2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。
  3 可以简化代码的维护和版本更新。
  4 可以帮助提升安全，比如提供更细
                                
                                Android使用Asynchronous Http Client完成登录保存cookie的问题
                                    hotsunshine
android
                                    Asynchronous Http Client是android中非常好的异步请求工具 
除了异步之外还有很多封装比如json的处理，cookie的处理 
 
  引用   
 
Persistent Cookie Storage with PersistentCookieStore 
 
This library also includes a PersistentCookieStore whi
                                
                                java面试题
                                    Array_06
java面试
                                    java面试题 
 
 
第一，谈谈final, finally, finalize的区别。 
final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
                                
                                网站加速
                                    oloz
网站加速
                                    前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 
 
 
1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 
 
 
2、采用Gzip对网页进行压缩； 
   GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
                                
                                正确书写单例模式
                                    随意而生
java 设计模式 单例
                                    　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。 
 
　　懒汉式，线程不安全 
 
　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
                                
                                单例模式
                                    香水浓
java
                                    懒汉  调用getInstance方法时实例化 
 

public class Singleton {

	private static Singleton instance;
	
	private Singleton() {}

	public static synchronized Singleton getInstance() {
		if(null == ins
                                
                                安装Apache问题：系统找不到指定的文件 No installed service named "Apache2"
                                    AdyZhang
apachehttp server
                                    安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 
每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。 
解决方法确保几处： 
1、停止IIS启动 
2、把端口80改成其它 （譬如90，800，，，什么数字都好） 
3、防火墙(关掉试试) 
在运行处输入 cmd 回车，转到apa
                                
                                如何在android 文件选择器中选择多个图片或者视频？
                                    aijuans
android
                                    我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传 
但是android原生态的sdk中，只能一个一个的进行选择和上传。 
我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个   处理方法 
官方的图片选择器(但是不支持所有版本的androi，只支持API Level 
                                
                                mysql中查询生日提醒的日期相关的sql
                                    baalwolf
mysql
                                    SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(),  dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
                                
                                MongoDB索引文件破坏后导致查询错误的问题
                                    BigBird2012
mongodb
                                    问题描述： 
MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。 
解决方案： 
  
使用脚本，重建MongoDB所有表的索引。 
var names  = db.getCollectionNames();
for( var i in names ){
    var name = names[i];
    print(name);

                                
                                Javascript Promise
                                    bijian1013
JavaScriptPromise
                                            Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。 
一.认识Promises 
        “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
                                
                                [Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程
                                    bit1129
zookeeper
                                       Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是   
  
public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
                                
                                【Java命令三】jstack
                                    bit1129
jstack
                                    jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump 
  
[hadoop@hadoop sbin]$ jstack
Usage:
    jstack [-l] <pid>
        (to connect to running process)
    jstack -F 
                                
                                jboss 5.1启停脚本　动静分离部署
                                    ronin47

                                    以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename  -b ip -g  clustername   -u broatcast jboss.messaging.ServerPeerID=int  -Djboss.service.binding.set=p
                                
                                UI之如何打磨设计能力?
                                    brotherlamp
UIui教程ui自学ui资料ui视频
                                      
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 
1.找到自己的方式 
如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
                                
                                三色旗算法
                                    bylijinnan
java算法
                                    

import java.util.Arrays;

/**
问题：
假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，
您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳
子上进行这个动作，而且一次只能调换两个旗子。

网上的解法大多类似：
在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
                                
                                警告:No configuration found for the specified action: \'s
                                    chiangfai
configuration
                                    1.index.jsp页面form标签未指定namespace属性。 
<!--index.jsp代码--> 
 
<%@taglib prefix="s" uri="/struts-tags"%>
...
<s:form action="submit" method="post"&g
                                
                                redis -- hash_max_zipmap_entries设置过大有问题
                                    chenchao051
redishash
                                    使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 
  
#define ZIPMAP_BIGLEN 254
#define ZIPMAP_END 255 
  
  
/* Return th
                                
                                select into outfile access deny问题
                                    daizj
mysqltxt导出数据到文件
                                    本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 
 
为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。 
授权的语句如下： 
grant select on armory.* to rn
                                
                                phpexcel导出excel表简单入门示例
                                    dcj3sjt126com
PHPExcelphpexcel
                                      
<?php 
error_reporting(E_ALL); 
ini_set('display_errors', TRUE); 
ini_set('display_startup_errors', TRUE); 
  
if (PHP_SAPI == 'cli') 
 die('This example should only be run from a Web Brows
                                
                                美国电影超短200句
                                    dcj3sjt126com
电影
                                    1. I see． 我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too． 我也是。5. My god! 天哪!6. No way! 不行!7. Come on． 来吧(赶快)8. Hold on． 等一等。9. I agree。 我同意。10. Not bad． 还不错。11. Not yet． 还没。12. See you． 再见。13. Shut up! 
                                
                                Java访问远程服务
                                    dyy_gusi
httpclientwebservicegetpost
                                        随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
                                
                                Maven的settings.xml配置
                                    geeksun
settings.xml
                                    settings.xml是Maven的配置文件，下面解释一下其中的配置含义： 
settings.xml存在于两个地方： 
1.安装的地方：$M2_HOME/conf/settings.xml 
2.用户的目录：${user.home}/.m2/settings.xml 
前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。 

                                
                                ubuntu的init与系统服务设置
                                    hongtoushizi
ubuntu
                                    转载自： 
http://iysm.net/?p=178  init 
Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 
ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。  
运行
                                
                                跟我学Nginx+Lua开发目录贴
                                    jinnianshilongnian
nginxlua
                                    使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。  
  目录 
第一章 安装Nginx+Lua开发环境 
第二章 Nginx+Lua开发入门 
第三章 Redis/SSDB+Twemproxy安装与使用 
第四章 L
                                
                                php位运算符注意事项
                                    home198979
位运算PHP&
                                    $a = $b = $c = 0;
$a & $b = 1;
$b | $c = 1 
 问a,b,c最终为多少? 
  
当看到这题时，我犯了一个低级错误，误 以为位运算符会改变变量的值。所以得出结果是1 1 0 
但是位运算符是不会改变变量的值的，例如： 
$a=1;$b=2;
$a&$b;
 
 这样a,b的值不会有任何改变 

                                
                                Linux shell数组建立和使用技巧
                                    pda158
linux
                                    1.数组定义   　　[chengmo@centos5 ~]$ a=(1 2 3 4 5)   　　[chengmo@centos5 ~]$ echo $a   　　1   　　一对括号表示是数组，数组元素用“空格”符号分割开。   　　 
2.数组读取与赋值   　　得到长度：   　　[chengmo@centos5 ~]$ echo ${#a[@]}   　　5   　　用${#数组名[@或
                                
                                hotspot源码(JDK7)
                                    ol_beta
javaHotSpotjvm
                                    源码结构图，方便理解： 
  
├─agent                            Serviceab
                                
                                Oracle基本事务和ForAll执行批量DML练习
                                    vipbooks
oraclesql
                                    基本事务的使用： 
从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 
 
 

select * from account;
-- 创建一张账户表
create table account(
       -- 账户ID
       id number(3) not null,
       -- 账户名称
       nam
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.
Python爬虫入门：爬虫抓取沪深300指数列表

Sub-Indicies'#<\/todday><\/table>' data1= str(re.compile(pat).findall(data)) csi_1='

你可能感兴趣的:(Python,爬虫)