方方方钦qiner

python-自动化运维、办公、爬虫和娱乐

作为一个会一些基本的办公自动化技术的老人，我想告诉大家一件最重要的事情：
你可以学办公自动化，可以学vba，Python，JavaScript，学各种东西都行，但千万记住一点：不要暴露自己的实力。
不要暴露自己的实力。不要暴露自己的实力！
你可以一次合并2000个表格，但不要告诉别人这是你半个小时之内完成的。
要表现出自己是忙了一天才干完这几个项目的样子。
有些活你可以说是熬通宵干完的。
这样单位才知道你的价值。
不然你总是十分钟搞定8000张图片，你的老板就会以为处理8000张图片只需要十分钟，然后他就会问你这一整天其他时候你在干嘛。
你学会了办公自动化以后，会发现其实很多时候写程序的过程占不了多长时间，大部分时间都被洗数据所占据了。所以一定要足够低调，给自己预留足够多的时间，要反复强调这些工作的难度。
不然，你会的越多。老板派给你的活越多，而且他还不给你加工资。

库

一、作用
Python是数据处理常用工具，可以处理数量级从几K至几T不等的数据，具有较高的开发效率和可维护性，还具有较强的通用性和跨平台性。Python可用于数据分析，但其单纯依赖Python本身自带的库进行数据分析还是具有一定的局限性的，需要安装第三方扩展库来增强分析和挖掘能力。
二、使用
传送门——>>用三种办法告诉你Python如何安装第三方库
三、常用库介绍
1、requests
Python 爬虫时，最先接触的第三方库就是 requests：CSDN介绍

Python办公自动化主要是批量化、自动化、定制化解决数据问题，目前主要分为三大块：自动化office、自动化机器人、自动化数据服务。
1、自动化office，包括对excel、word、ppt、email、pdf等常用办公场景的操作，
python都有对应的工具库，可以很方便的调用。
提供一些常见的核心库供大家参考使用。
excel：xlwings、xlrd、xlwt、openpyxl
word：Python-docx
ppt：pptx
email：smtplib（SMTP服务）、email（解析处理）、yagmail（全能）
pdf：pypdf2、pdfminer、pdfplumber
picture：PIL
学这些会撸python是前提，对于小白来说自学也不是件容易的事，需要花相当的时间去适应python的语法逻辑，而且要坚持亲手敲代码，不断练习。
2、自动化机器人，用来提高常规且高频的服务，比如微信客服、自动交易系统、实时信息抓取、QQ聊天机器人等。
例如
web自动化测试：selenium
模拟鼠标键盘：pymouse、pywinauto、pyautogui
微信自动化:wechatby
Python自动化办公其实并不难，但也需要有Python基础，起码得会写脚本，不然尽管有自动化接口也用不了。
很多人入了很长时间门，还是在门外徘徊，我觉得这是学习方法的问题。学习编程一定要多练习，基础+实战同步走，这样才能最快掌握Python。
可能你会问，看书看不进去怎么办，那就换条路子，你可以去看视频、看网络教程、逛github，都是很不错的方法.
3、自动化数据服务，主要是提供流式数据服务，从数据获取、数据处理、数据建模、数据可视化，到最终生成数据报告，通过python搭建起完整数据链条。
数据抓取：requests、scrapy
数据处理：pandas、numpy
数据建模：scipy、scikit-learn、statesmodel、keras
数据可视化：matplotlib、seaborn、bokeh、pyecharts
数据报表：dash
自动化办公小例子，可以模仿：https://segmentfault.com/a/1190000041139676

一、运维

网络方面运维

有个想法，按照网络日常运维，结合python实现自动化，思路如下：
网络连通性测试ping，ping不通后，进行python抓包分析。

网络连通性测试

先了解学习ping原理：点我进行学习
制作多个地址ping测小工具：点我进行学习、点我进行看视频

抓包

python抓包(sniff)-----实现wireshark抓包功能

抓包与解包

python 抓包与解包

定时启动python

windows系统的“计划任务”+脚本
在Windows中，.bat文件是批处理文件，是与Linux中.sh（shell）文件很像的东西。

@echo off
d:
cd py.文件路径
start 名字.py
pause

或者

cd C:\Users\Season\Desktop\
python timer.py

自动发消息给钉钉

案例借鉴：传送门——>>PYTHON 使用钉钉机器人发送消息至钉钉
可执行代码如下（前提需要安装对应的第三方库，具体方面见“库”章节或者根据报错进行百度）

import time
import hmac
import hashlib
import base64
import json
import urllib.parse
import urllib.request


class DingDingWebHook(object):
    def __init__(self, secret=None, url=None):
        """
        :param secret: 安全设置的加签秘钥
        :param url: 机器人没有加签的WebHook_url
        """
        if secret is not None:
            secret = secret
        else:
            secret = 'SECab99f8c18f510bf3b7f86c2dbxx'  # 加签秘钥
        if url is not None:
            url = url
        else:
            url = "https://oapi.dingtalk.com/robot/send?access_token=f7b625dccf9b6d34083ef3d0b5bbd7850b959abcbb816c986c0d86490262a95b"  # 无加密的url

        timestamp = round(time.time() * 1000)  # 时间戳
        secret_enc = secret.encode('utf-8')
        string_to_sign = '{}\n{}'.format(timestamp, secret)
        string_to_sign_enc = string_to_sign.encode('utf-8')
        hmac_code = hmac.new(secret_enc, string_to_sign_enc, digestmod=hashlib.sha256).digest()
        sign = urllib.parse.quote_plus(base64.b64encode(hmac_code))  # 最终签名

        self.webhook_url = url + '×tamp={}&sign={}'.format(timestamp, sign)  # 最终url，url+时间戳+签名

    def send_meassage(self, data):
        """
        发送消息至机器人对应的群
        :param data: 发送的内容
        :return:
        """
        header = {
            "Content-Type": "application/json",
            "Charset": "UTF-8"
        }
        send_data = json.dumps(data)  # 将字典类型数据转化为json格式
        send_data = send_data.encode("utf-8")  # 编码为UTF-8格式
        request = urllib.request.Request(url=self.webhook_url, data=send_data, headers=header)  # 发送请求

        opener = urllib.request.urlopen(request)  # 将请求发回的数据构建成为文件格式
        print(opener.read())  # 打印返回的结果


if __name__ == '__main__':
    my_secret = 'SECab99f8c18f510bf3b7f86c2db7243d5cd802xxc7b118094db845398c8b'
    my_url = 'https://oapi.dingtalk.com/robot/send?access_token=f7b625dccf9b6d34083ef3d0b5bbd7850b959abcbb816c986c0d86490262a95b'
    my_data = \
        {
        "msgtype": "text",
        "text": {
            "content": "通知，我就是我, 是不一样的烟火@156xxxx8827" #要向钉钉发送的文字，注意需包含钉钉的关键字
        },
        "at": {
            "atMobiles": [18688889999],
            "isAtAll": False
        }  # 是否@所有人
    }

    dingding = DingDingWebHook(secret=my_secret, url=my_url)
    dingding.send_meassage(my_data)

异常情况：

解决方法：提示关键字不匹配，增加发送信息中钉钉设置的关键字“通知”

自动打开指定软件

import os
def open_app(app_dir):
  os.startfile(app_dir)
if __name__ == "__main__":
  app_dir = r'C:\Program Files (x86)\DingDing\DingtalkLauncher.exe'   #实际要打开软件的真实路径
  open_app(app_dir)

指定【微信】好友自动发送消息

安装依赖库pyautogui和pyperclip

pip3 install pyautogui -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
pip3 install pyperclip -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
pip3 install opencv-python -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

源码

#打开微信，自动给某人发送固定信息
import pyautogui
import pyperclip
import time

def get_msg():
    contents = "加油 努力 前进"             #"想发的消息，每条消息空格分开"
    return contents.split(" ")

def send(msg):
    pyperclip.copy(msg)                   # 复制需要发送的内容到粘贴板
    pyautogui.hotkey('ctrl', 'v')         # 模拟键盘 ctrl + v 粘贴内容
    pyautogui.press('enter')              # 发送消息

def send_msg(friend):
    pyautogui.hotkey('ctrl', 'alt', 'w')  # Ctrl + alt + w 打开微信
    pyautogui.hotkey('ctrl', 'f')         # 搜索好友
    pyperclip.copy(friend)                # 复制好友昵称到粘贴板
    pyautogui.hotkey('ctrl', 'v')         # 模拟键盘 ctrl + v 粘贴
    time.sleep(1)
    pyautogui.press('enter')              # 回车进入好友消息界面
    for msg in get_msg():                 # 一条一条发送消息
        send(msg)
        time.sleep(2)                     # 每条消息间隔 2 秒

if __name__ == '__main__':
    friend_name = "文件传输助手"            #好友名称
    send_msg(friend_name)

指定【钉钉】好友自动发送消息

#打开钉钉，自动给某人发送固定信息
import pyautogui
import pyperclip
import time

def get_msg():
    contents = "记得12点前检查作业"             #"想发的消息，每条消息空格分开"
    return contents.split(" ")

def send(msg):
    pyperclip.copy(msg)                   # 复制需要发送的内容到粘贴板
    pyautogui.hotkey('ctrl', 'v')         # 模拟键盘 ctrl + v 粘贴内容
    pyautogui.press('enter')              # 发送消息

def send_msg(friend):
    pyautogui.hotkey('ctrl', 'shift', 'D')  # Ctrl + alt + w 打开微信
    pyautogui.hotkey('ctrl', 'shift', 'f')         # 搜索好友
    pyperclip.copy(friend)                # 复制好友昵称到粘贴板
    pyautogui.hotkey('ctrl', 'v')         # 模拟键盘 ctrl + v 粘贴
    time.sleep(1)
    pyautogui.press('enter')              # 回车进入好友消息界面
    for msg in get_msg():                 # 一条一条发送消息
        send(msg)
        time.sleep(2)                     # 每条消息间隔 2 秒

if __name__ == '__main__':
    friend_name = "我（fo安方）"            #好友名称
    send_msg(friend_name)

Python通过url获取数据

import requests

#通过url获取数据
def get_page(url):
    #requests.get 自带 json.load
    page = requests.get(url)
    page = page.content
    #将bytes转换成字符串
    page = page.decode('utf-8')
    return  page

print(get_page('https://www.duitang.com/napi/blog/list/by_search/?kw=%E6%A0%A1%E8%8A%B1&start=0&limit=1000'))

python读取网页上的数据

借鉴学习链接编写python代码实现打开并登录网页、对网页进行点击、输入信息等操作

import pandas as pd
url = "https://nba.hupu.com/standings"
res = pd.read_html(url)
print(res)

执行结果如下：
C:\Users\qq\AppData\Local\Programs\Python\Python38\python.exe C:/Users/qq/Desktop/1111111111111.py
[    0     1   2   3      4     5   ...    8      9      10     11    12    13
0   东部    东部  东部  东部     东部    东部  ...    东部     东部     东部     东部    东部    东部
1   排名    队名   胜   负     胜率   胜场差  ...    赛区     东部     得分     失分    净胜  连胜/负
2    1    热火  53  29  64.6%   0.0  ...  13-3  35-17  110.0  105.6   4.5   1连败
3    2  凯尔特人  51  31  62.2%   2.0  ...   9-7  33-19  111.8  104.5   7.3   1连胜
4    3    雄鹿  51  31  62.2%   2.0  ...  12-4  33-19  115.5  112.1   3.4   1连败
5    4   76人  51  31  62.2%   2.0  ...  6-10  32-20  109.9  107.3   2.6   2连胜
6    5    猛龙  48  34  58.5%   5.0  ...  10-6  30-22  109.4  107.1   2.3   1连败
7    6    公牛  46  36  56.1%   7.0  ...  10-6  29-23  111.6  112.0  -0.4   1连胜
8    7    篮网  44  38  53.7%   9.0  ...  10-6  31-21  112.9  112.1   0.8   4连胜
9    8    老鹰  43  39  52.4%  10.0  ...   9-7  26-26  113.9  112.4   1.6   1连胜
10   9    骑士  44  38  53.7%   9.0  ...  10-6  27-25  107.8  105.7   2.1   1连胜
11  10    黄蜂  43  39  52.4%  10.0  ...   8-8  27-25  115.3  114.9   0.4   3连胜
12  11   尼克斯  37  45  45.1%  16.0  ...  5-11  22-30  106.5  106.6  -0.1   2连胜
13  12    奇才  35  47  42.7%  18.0  ...   7-9  24-28  108.6  112.0  -3.4   3连败
14  13   步行者  25  57  30.5%  28.0  ...  2-14  11-41  111.5  114.9  -3.5  10连败
15  14    活塞  23  59  28.0%  30.0  ...  6-10  18-34  104.8  112.6  -7.7   3连败
16  15    魔术  22  60  26.8%  31.0  ...  3-13  12-40  104.2  112.2  -8.0   1连胜
17  西部    西部  西部  西部     西部    西部  ...    西部     西部     西部     西部    西部    西部
18  排名    队名   胜   负     胜率   胜场差  ...    赛区     西部     得分     失分    净胜  连胜/负
19   1    太阳  64  18  78.0%   0.0  ...  10-6  39-13  114.8  107.3   7.5   1连败
20   2    灰熊  56  26  68.3%   8.0  ...  11-5  36-16  115.6  109.9   5.7   1连败
21   3    勇士  53  29  64.6%  11.0  ...  12-4  33-19  111.0  105.5   5.5   5连胜
22   4   独行侠  52  30  63.4%  12.0  ...  14-2  36-16  108.0  104.7   3.3   4连胜
23   5    爵士  49  33  59.8%  15.0  ...  15-1  33-19  113.6  107.6   6.0   1连胜
24   6    掘金  48  34  58.5%  16.0  ...  6-10  29-23  112.7  110.4   2.3   1连败
25   7   森林狼  46  36  56.1%  18.0  ...  12-4  32-20  115.9  113.3   2.6   1连败
26   8    鹈鹕  36  46  43.9%  28.0  ...  6-10  25-27  109.3  110.3  -1.0   2连败
27   9    快船  42  40  51.2%  22.0  ...   9-7  26-26  108.4  108.4   0.0   5连胜
28  10    马刺  34  48  41.5%  30.0  ...  6-10  24-28  113.2  113.0   0.1   3连败
29  11    湖人  33  49  40.2%  31.0  ...  3-13  18-34  112.1  115.2  -3.1   2连胜
30  12    国王  30  52  36.6%  34.0  ...  6-10  20-32  110.3  115.8  -5.5   1连胜
31  13   开拓者  27  55  32.9%  37.0  ...  1-15  11-41  106.2  115.1  -8.9  11连败
32  14    雷霆  24  58  29.3%  40.0  ...  6-10  17-35  103.7  111.8  -8.1   3连败
33  15    火箭  20  62  24.4%  44.0  ...  3-13  11-41  109.7  118.2  -8.5   7连败

[34 rows x 14 columns]]

Process finished with exit code 0

自动打开网址和输入账号密码

#引入selenium库中的 webdriver 模块
from selenium import webdriver
#引入time库
import time
from selenium.webdriver.common.keys import Keys
import os
# 加启动配置
option = webdriver.ChromeOptions()
option.add_argument('headless')


#打开谷歌浏览器
#driver = webdriver.Chrome()
chrome_options = webdriver.ChromeOptions()
driver = webdriver.Chrome(options=chrome_options)
#利用add_experimental_option函数，传入一个名为“excludeSwitches”的选项，取消“chrome 正在受到自动软件的控制”
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
chromeOptions = webdriver.ChromeOptions()



#打开智慧树学习平台
driver.get('https://passport.csdn.net/login?code=applets')
'''
考虑到网页打开的速度取决于每个人的电脑和网速，
使用time库sleep()方法，让程序睡眠5秒
'''
time.sleep(5)
#在主页面点击登录按钮，进入登录页面
driver.find_element_by_xpath('/html/body/div[2]/div/div[2]/div[2]/div[1]/div/div[1]/span[4]').click()
#输入账号和密码
driver.find_element_by_xpath('/html/body/div[2]/div/div[2]/div[2]/div[1]/div/div[2]/div/div[1]/div/input').send_keys('18826227807')
driver.find_element_by_xpath('/html/body/div[2]/div/div[2]/div[2]/div[1]/div/div[2]/div/div[2]/div/input').send_keys('a2509186734')
#点击登录按钮
driver.find_element_by_xpath('/html/body/div[2]/div/div[2]/div[2]/div[1]/div/div[2]/div/div[4]/button').click()

二、办公

识别并读取PDF中的文字

window系统，cmd输入pip install pdfminer3k

# pip install pdfminer3k  #pdfminer库：pdf的库
from io import StringIO   #io：操作系统库
from pdfminer.pdfinterp import PDFResourceManager,process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams

# 打开pdf文件
pdf_file = open('静夜思.pdf', 'rb')

########默认操作#######（读pdf必要代码）
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr=rsrcmgr,outfp=retstr,laparams=laparams)
process_pdf(rsrcmgr=rsrcmgr,device=device,fp=pdf_file)
device.close()
content = retstr.getvalue()
retstr.close()
pdf_file.close()
########默认操作#######

print(content)

入门级Excel自动化办公案例

读取excel

使用的库：
xlrd库：可以对xlsx、xls、xlsm文件进行读操作且效率高
直接在命令行或者终端中使用pip安装：pip install xlrd

import xlrd  #先导入模块而后使用

xlsx = xlrd.open_workbook('7月下旬入库表.xlsx') #open_workbook()函数来读取指定的一个工作簿对象。这里的参数name是Excel文件的名字，一般使用的是相对路径的名字

sheet = xlsx.sheet_by_index(0)
# 通过sheet名查找：xlsx.sheet_by_name("7月下旬入库表")
# 通过索引查找：xlsx.sheet_by_index(3)
# print(table.cell_value(0, 0))

# 读取excel单元格
# print(sheet.cell_value(1, 2))  #读取excel中的第1行，第2列“陕西”，执行结果输出：陕西
# print(sheet.cell(0, 0).value)
# print(sheet.row(0)[0].value)


# for i in range(0, xlsx.nsheets):
#     sheet = xlsx.sheet_by_index(i)
#     print(sheet.name)
    # print(sheet.cell_value(0, 0))
#
# # 获取所有sheet名字：xlsx.sheet_names()
# # 获取sheet数量：xlsx.nsheets
#
for i in xlsx.sheet_names():      #读取excel的sheet表名称
    print(i)
    # table = xlsx.sheet_by_name(i)
    # print(table.cell_value(3, 3))
    
执行结果如下：
7月下旬入库表
test


#报错解决方法：
#python安装了xlrd，但是执行book = xlrd.open_workbook(‘haha.xlsx’)总是报错，提示不支持此文件，此时应该是 xlrd版本过高，只支持.xls文件，此时应该先卸载原来安装的 xlrd,再重新安装 旧版的 xlrd，执行命令如下：
#pip uninstall xlrd
#pip install xlrd==1.2.0

写入

使用的库：
xlwt：主要对xls文件进行写操作且效率高，但是不能执行xlsx文件
直接在命令行或者终端中使用pip安装：pip install xlwt

import xlwt
# 新建工作簿
new_workbook = xlwt.Workbook()
# 新建sheet
worksheet = new_workbook.add_sheet('new_test')
# 新建单元格，并写入内容
worksheet.write(0, 0, 'test')
# 保存
new_workbook.save('test.xls')

用Python设置Excel的格式

from xlutils.copy import copy
import xlrd
import xlwt

tem_excel = xlrd.open_workbook('日统计.xls', formatting_info=True) #打开工作簿
tem_sheet = tem_excel.sheet_by_index(0)  #打开excel的sheet表

new_excel = copy(tem_excel)   #复制excel
new_sheet = new_excel.get_sheet(0)

style = xlwt.XFStyle()

# 字体
font = xlwt.Font()
font.name = '微软雅黑'
font.bold = True
# 18*20
font.height = 360
style.font = font

# 边框：细线==THIN
borders = xlwt.Borders()
borders.top = xlwt.Borders.THIN
borders.bottom = xlwt.Borders.THIN
borders.left = xlwt.Borders.THIN
borders.right = xlwt.Borders.THIN
style.borders = borders

# 对齐
alignment = xlwt.Alignment()
alignment.horz = xlwt.Alignment.HORZ_CENTER
alignment.vert = xlwt.Alignment.VERT_CENTER
style.alignment = alignment


new_sheet.write(2, 1, 12)
new_sheet.write(3, 1, 18)
new_sheet.write(4, 1, 19)
new_sheet.write(5, 1, 15)


# new_sheet.write(2, 1, 12, style)
# new_sheet.write(3, 1, 18, style)
# new_sheet.write(4, 1, 19, style)
# new_sheet.write(5, 1, 15, style)

new_excel.save('填写.xls')

Excel_案例_统计每位同学总分

import xlrd
import xlwt

# 读取excel文件
xlsx = xlrd.open_workbook('三年二班（各科成绩单）.xls')
# 选择指定sheet
sheet = xlsx.sheet_by_index(0)
# 依次单元格数据，并统计总分
all_data = []
# 统计共有多少学生，并去重
num_set = set()
for row_i in range(1, sheet.nrows):
    num = sheet.cell_value(row_i, 0)
    name = sheet.cell_value(row_i, 1)
    grade = sheet.cell_value(row_i, 3)

    student = {
        'num': num,
        'name': name,
        'grade': grade,
    }
    all_data.append(student)
    num_set.add(num)
# print(all_data)
# print(len(all_data))
# print(len(num_set))

# 计算总分
sum_list = []
for num in num_set:
    name = ''
    sum = 0
    for student in all_data:
        # print(student['num'])
        # print(num)
        if num == student['num']:
            sum += student['grade']
            name = student['name']
    sum_stu = {
        'num': num,
        'name': name,
        'sum': sum
    }
    sum_list.append(sum_stu)
print(sum_list)

# 写入新的excel

# 新建工作簿
new_workbook = xlwt.Workbook()
# 新建sheet
worksheet = new_workbook.add_sheet('2班')
# 新建单元格，并写入内容
# 写入第一列的内容
worksheet.write(0, 0, '学号')
worksheet.write(0, 1, '姓名')
worksheet.write(0, 2, '总分')
# 自动写入后面的内容
for row in range(0,len(sum_list)):
    worksheet.write(row+1,0,sum_list[row]['num'])
    worksheet.write(row+1,1,sum_list[row]['name'])
    worksheet.write(row+1,2,sum_list[row]['sum'])
# 保存
new_workbook.save('2班学生总分.xls')

Excel_更灵活的操作方式_xlsxwriter_openpyxl

# import xlwt
#
# workbook = xlwt.Workbook()
# sheet0 = workbook.add_sheet('sheet0')
# for i in range(0,300):
#     sheet0.write(0,i,i)
# workbook.save('num.xls')

# 不带格式
import xlsxwriter as xw
workbook = xw.Workbook('number.xlsx')
sheet0 = workbook.add_worksheet('sheet0')
for i in range(0,300):
    sheet0.write(0,i,i)
workbook.close()


# 性能不稳定
import openpyxl
workbook = openpyxl.load_workbook('number.xlsx')
sheet0 = workbook['sheet0']
sheet0['B3']= '2'
sheet0['C2']= '4'
sheet0['D7']= '3'
workbook.save('num_open.xlsx')

三、爬虫

爬取网页特定信息

1、爬取网页特定信息文字版
爬取网页特定信息视频版

1成功爬取到了目标网页源代码

import requests   #导入我们需要的requests功能模块
page=requests.get('https://www.crrcgo.cc/admin/crr_supplier.html?page=1')  #使用get方式获取该网页的数据。实际上我们获取到的就是浏览器打开百度网址时候首页画面的数据信息
print(page.text)   #把我们获取数据的文字（text）内容输出（print）出来

2抓取一个网页源代码中的某标签内容

import requests   #导入我们需要的requests功能模块
from bs4 import BeautifulSoup  #使用BeautifulSoup这个功能模块来把充满尖括号的html数据变为更好用的格式，from bs4 import BeautifulSoup这个是说从bs4这个功能模块中导入BeautifulSoup，是的，因为bs4中包含了多个模块，BeautifulSoup只是其中一个

req = requests.get(url="https://www.crrcgo.cc/admin/crr_supplier.html?page=1")  #使用get方式获取该网页的数据。实际上我们获取到的就是浏览器打开百度网址时候首页画面的数据信息
#print(req.text)   #把我们获取数据的文字（text）内容输出（print）出来
req.encoding = "utf-8"  #指定获取的网页内容，即第二句定义req的内容，用utf-8编码
html = req.text   #指定获取的网页内容，即第二句定义req的内容，用text
soup = BeautifulSoup(req.text,features="html.parser")  #用html解析器(parser)来分析我们requests得到的html文字内容，soup就是我们解析出来的结果
company_item = soup.find("div",class_="detail_head")  #find是查找，find_all查找全部。查找标记名是div并且class属性是detail_head的全部元素
dd = company_item.text.strip()   #strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。在这里就是移除多余的尖括号的html数据
print(dd)

3抓取网页中所有公司名

import requests   #导入我们需要的requests功能模块
from bs4 import BeautifulSoup  #使用BeautifulSoup这个功能模块来把充满尖括号的html数据变为更好用的格式，from bs4 import BeautifulSoup这个是说从bs4这个功能模块中导入BeautifulSoup，是的，因为bs4中包含了多个模块，BeautifulSoup只是其中一个

req = requests.get(url="https://www.crrcgo.cc/admin/crr_supplier.html?page=1")  #使用get方式获取该网页的数据。实际上我们获取到的就是浏览器打开百度网址时候首页画面的数据信息
#print(req.text)   #把我们获取数据的文字（text）内容输出（print）出来
req.encoding = "utf-8"  #指定获取的网页内容，即第二句定义req的内容，用utf-8编码
html = req.text   #指定获取的网页内容，即第二句定义req的内容，用text
soup = BeautifulSoup(req.text,features="html.parser")  #用html解析器(parser)来分析我们requests得到的html文字内容，soup就是我们解析出来的结果
company_items = soup.find_all("div",class_="detail_head")  #find是查找，find_all查找全部。查找标记名是div并且class属性是detail_head的全部元素
for company_item in company_items:
    dd = company_item.text.strip() #strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。在这里就是移除多余的尖括号的html数据
    print(dd)

4 抓取多个网页子标签的内容

import requests   #导入我们需要的requests功能模块
from bs4 import BeautifulSoup  #使用BeautifulSoup这个功能模块来把充满尖括号的html数据变为更好用的格式，from bs4 import BeautifulSoup这个是说从bs4这个功能模块中导入BeautifulSoup，是的，因为bs4中包含了多个模块，BeautifulSoup只是其中一个

inurl="https://www.crrcgo.cc/admin/crr_supplier.html?page="
for num in range(1,6):  #写入循环，我们只抓取1到5页的内容，这里的循环我们使用range函数来实现，range函数左闭右开的特性使得我们要抓取到5页必须指定6
    print("================正在爬虫第"+str(num)+"页数据==================")
    outurl=inurl+str(num)
    req = requests.get(url=outurl)  #将循环值与url拼接成完整的url，并获取页面数据
    #req = requests.get(url="https://www.crrcgo.cc/admin/crr_supplier.html?page=1")  #使用get方式获取该网页的数据。实际上我们获取到的就是浏览器打开百度网址时候首页画面的数据信息
    #print(req.text)   #把我们获取数据的文字（text）内容输出（print）出来
    req.encoding = "utf-8"  #指定获取的网页内容，即第二句定义req的内容，用utf-8编码
    html = req.text   #指定获取的网页内容，即第二句定义req的内容，用text
    soup = BeautifulSoup(req.text,features="html.parser")  #用html解析器(parser)来分析我们requests得到的html文字内容，soup就是我们解析出来的结果
    company_items = soup.find_all("div",class_="detail_head")  #find是查找，find_all查找全部。查找标记名是div并且class属性是detail_head的全部元素
    for company_item in company_items:
        dd = company_item.text.strip() #strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。在这里就是移除多余的尖括号的html数据
        print(dd)

四、娱乐

python实现用一定量的照片组成自定义的数字或姓名的形状

python实现用一定量的照片组成自定义的数字或姓名的形状
点我进行2分钟视频教程

词云

python词云制作（最全最详细的教程）
注意：难点在于安装cloudword这个库，没有安装过这个库，直接使用

pip install wordcloud -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

五、复习

使用Python对PDF文件进行词频统计分析并保存到CSV文件中

传送门——>>可用
注意点1：库的安装，window系统cmd时，使用下述进行安装

pip install pdfminer  -i https://pypi.tuna.tsinghua.edu.cn/simple/

注意点2：
需要更改文本名称，可考虑视频

注意点3：
脚本需要跟文件同个目录路径下

你可能感兴趣的:(python,python)

python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
总结10个Python赚钱的接单平台兼职月入5000+ begefefsef 面试学习路线阿里巴巴 android 前端后端
前言“如果说当下什么编程语言最靠谱或者比较适合搞副业？”答案肯定100%是：Pythonpython是所有语法中最简单易上手的语言，不需要特别的的英语词汇量，逻辑思维也不需要很差就能上手。而且学会了之后就能编写代码爬取各种数据，制作各种图表，提升工作效率。而且还能利用业余时间接点私活，一个月轻松收入过万不是问题，这样的生活他不香吗？今天就给大家盘点几个基本入门接私活的资源，让你轻松学python，
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。