sandonz

python3网络爬虫开发实战（配置踩坑及学习备忘）

文章目录

一、开发环境配置
- 1.1，python安装
- - Windows（设置环境变量）
  - Linux
  - Mac
- 1.2 请求库的安装
- - requests
  - Selenium
  - ChromeDriver
  - GeckoDriver
  - PhantomJS（版本2.1.1）
  - - 安装方式一：放到系统目录（推荐）
    - 安装方式二：放到用户目录
    - 错误解决
  - aiohttp
- 1.3解析库的安装
- - lxml
  - Beautiful Soup
  - pyquery
  - tesserocr（先安装tesseract）
- 1.4 数据库的安装
- - MySQL安装
  - MongoDB安装及使用
  - - 启动错误
    - windows下：
  - Redis
- 1.5 存储库的安装
- - PyMySQL
  - PyMongo
  - redis-py
  - RedisDump
- 1.6 web库的安装
- - Flask
  - Tornado
- 1.7 App爬取相关库的安装
- - Charles
  - mitmproxy
  - Appium
- 1.8 爬虫框架的安装
- - pyspider
  - - 运行命令`pyspider all`之前，先输入：
    - 依赖解决
    - 语法错误解决
    - Error: Could not create web server listening on port 25555
  - Scrapy
  - Scarpy-Splash
  - Scrapy-Redis
- 1.9 部署相关库的安装
- - Docker
  - Scrapyd
  - Scrapyd-Client
  - Scrapyd API
  - Scrapyrt
  - Gerapy
二、爬虫基础
- HTTP基本原理
- - URI和URL
  - 超文本
  - HTTP和HTTPS
  - HTTP请求过程及响应
- 网页基础
- - 网页的组成
  - 网页的结构
  - 节点树及节点间的关系
  - 选择器
- 爬虫的基本原理
- - 爬虫概述
  - 能抓怎样的数据
  - JavaScript 渲染页面
- 会话和Cookies
- - 静态网页和动态网页
  - 无状态HTTP
  - 常见误区
- 代理的基本原理
- - 基本原理
  - 代理的作用
  - 爬虫代理
  - 代理分类
  - 常见代理设置
三、基本库的使用
- 1，使用urllib
- - 发送请求
  - 处理异常
  - 解析链接
  - 分析Robots协议

一、开发环境配置

1.1，python安装

Windows（设置环境变量）

Linux

Mac

1.2 请求库的安装

requests

Selenium

selenium==2.48.0下这个老版本，新版不支持phantomjs

ChromeDriver

淘宝镜像站：http://npm.taobao.org/mirrors/chromedriver

GeckoDriver

PhantomJS（版本2.1.1）

安装依赖：

sudo apt-get install build-essential chrpath libssl-dev libxft-dev
sudo apt-get install libfreetype6 libfreetype6-dev libfontconfig1 libfontconfig1-dev

下载地址（淘宝镜像）：https://npmmirror.com/mirrors/phantomjs?spm=a2c6h.24755359.0.0.6d443dc1T0AXPt

安装方式一：放到系统目录（推荐）

原名太长，重命名，移动到/usr/local/share目录下

sudo mv phantomjs211 /usr/local/share/

创建启动软链接：

sudo ln -s /usr/local/share/phantomjs211/bin/phantomjs /usr/local/bin/

安装方式二：放到用户目录

下载包解压后解压，文件夹移到home目录下，
并设为隐藏文件（文件夹名称前加.号），
修改~/.profile文件:

sudo vim ~/.profile

末尾添加phantomjs执行文件路径，如：
export PATH="$HOME/.phantomjs版本号/bin:$PATH"

错误解决

Auto configuration failed
140277513316288:error:25066067:DSO support routines:DLFCN_LOAD:could not load the shared library:dso_dlfcn.c:185:filename(libssl_conf.so): libssl_conf.so: 无法打开共享对象文件: 没有那个文件或目录
140277513316288:error:25070067:DSO support routines:DSO_load:could not load the shared library:dso_lib.c:244:
140277513316288:error:0E07506E:configuration file routines:MODULE_LOAD_DSO:error loading dso:conf_mod.c:285:module=ssl_conf, path=ssl_conf
140277513316288:error:0E076071:configuration file routines:MODULE_RUN:unknown module name:conf_mod.c:222:module=ssl_conf

解决方法：

export OPENSSL_CONF=/etc/ssl/

aiohttp

1.3解析库的安装

lxml

Beautiful Soup

pyquery

tesserocr（先安装tesseract）

（在windows下因为兼容问题，所以用pytesseract替代tesseroct，然后设置tesseract的环境变量。）

tesseract语言下载包：https://codechina.csdn.net/mirrors/tesseract-ocr/tessdata?utm_source=csdn_github_accelerator

测试安装是否成功：

tesseract image.png result -l eng |type result.txt

tesseract image.png result -l eng |cat result.txt

import pytesseract
from PIL import Image

im=Image.open('image.png')
print(pytesseract.image_to_string(im))

import pytesseract
from PIL import Image

image = Image.open("./NormalImg.png")
text = pytesseract.image_to_string(image)
print(text)

1.4 数据库的安装

windows下修改存储位置、日志位置，设置环境变量。

MySQL安装

（win10：计算机–管理–服务，开启和关闭MySQL服务。）

net stop mysql

MongoDB安装及使用

安装gnupg软件包

sudo apt-get install gnupg

导入包管理系统使用的公钥：

wget -qO - https://www.mongodb.org/static/pgp/server-4.4.asc | sudo apt-key add -

添加MongoDB存储库：(ubuntu20.04)

echo "deb [ arch=amd64,arm64 ] https://repo.mongodb.org/apt/ubuntu bionic/mongodb-org/4.4 multiverse" | sudo tee /etc/apt/sources.list.d/mongodb-org-4.4.list

更新存储库：

sudo apt-get update

安装mongodb：

sudo apt install mongodb-org

启动mongodb，设置开机自启动

sudo systemctl start mongod.service
sudo systemctl enable mongod

检查MongoDB服务的状态：

sudo systemctl status mongod

关闭MongoDB服务：

sudo systemctl stop mongod

重新启动MongoDB服务：

sudo systemctl restart mongod

关闭开机启动：

sudo systemctl disable mongod

进入MongoDB shell：

mongo

启动错误

● mongod.service - MongoDB Database Server
Loaded: loaded (/lib/systemd/system/mongod.service; disabled; vendor preset: enabled)
Active: failed (Result: exit-code) since Mon 2020-04-20 13:32:29 IST; 6min ago
Docs: https://docs.mongodb.org/manual
Process: 27917 ExecStart=/usr/bin/mongod --config /etc/mongod.conf (code=exited, status=14)
Main PID: 27917 (code=exited, status=14)

Apr 20 13:32:29 manojkumar systemd[1]: Started MongoDB Database Server.
Apr 20 13:32:29 manojkumar systemd[1]: mongod.service: Main process exited, code=exited, status=14/n/a
Apr 20 13:32:29 manojkumar systemd[1]: mongod.service: Failed with result ‘exit-code’.

解决办法：

sudo chown -R mongodb:mongodb /var/lib/mongodb
sudo chown mongodb:mongodb /tmp/mongodb-27017.sock
sudo service mongod restart

windows下：

配置文件，bin目录下有一个mongod.cfg的文件，即为MongoDB的配置文件。可利用记事本等工具打开进行一些配置。例如修改数据文件保存位置连接端口号等。
storage块下dbpath为数据文件存放目录，
systemlog块下path为日志文件保存位置。
如果指定目录或日志不存在启动失败，可手动创建
如果进行修改想要时修改生效的话，需关闭服务并重新启动。

Redis

windows免费版Redis-x64-3.2.100.msi

1.5 存储库的安装

PyMySQL

PyMongo

redis-py

RedisDump

1.6 web库的安装

Flask

Tornado

1.7 App爬取相关库的安装

Charles

mitmproxy

7.*版本有依赖问题，换低版本(如5.0.0）

Appium

1.8 爬虫框架的安装

pyspider

运行命令`pyspider all`之前，先输入：

export OPENSSL_CONF=/etc/ssl/

依赖解决

先安装phantomjs

其他软件要求版本

Wsgidav==2.3.0
Werkzeug==0.16.1
Flask==1.1.1(不行就试试0.1.0)

其他相关依赖一般互相有提示

语法错误解决

由于async和await从 python3.7 开始已经加入保留关键字中，所以修改/home/san/.local/lib/python3.9/site-packages/pyspider/下的python文件的async为shark（全部替换），在替换是要注意：只替换名为async 的变量或参数名,不要图省事选择“全部替换”，导致引用的类名被修改，如下图。

注意：例如文件tornado_fetcher.py中如果全部替换是17处，便会报错 from tornado.curl_httpclient import CurlAsyncHTTPClient
from tornado.simple_httpclient import SimpleAsyncHTTPClient

如果已经全部替换完，请回去手动将其中几处引用类名改回来。
要替换的文件如下：
1.run.py
2.fetcher\tornado_fetcher.py
3.webui\app.py

Error: Could not create web server listening on port 25555

查看25555端口占用：

lsof -i:25555

找到占用进程PID，kill掉

COMMAND    PID USER   FD   TYPE DEVICE SIZE/OFF NODE NAME
phantomjs 8982  san    7u  IPv4 194586      0t0  TCP *:25555 (LISTEN)

kill 8982

重新运行

pyspider all

Scrapy

Scarpy-Splash

splash需要通过Docker安装

Scrapy-Redis

1.9 部署相关库的安装

Docker

Scrapyd

Scrapyd-Client

Scrapyd API

Scrapyrt

Gerapy

二、爬虫基础

HTTP基本原理

URI和URL

URI统一资源标志符
URL统一资源定位符
URL是URI的子集

超文本

HTTP和HTTPS

HTTP超文本传输协议，Hyper Text Transfer Protocol

HTTPS是HTTP的安全版，即HTTP下加入SSL层，Hyper Text Transfer Protocol over Secure Socket Layer

HTTP请求过程及响应

网页基础

网页的组成

HTML
CSS
JavaScript

网页的结构

节点树及节点间的关系

选择器

爬虫的基本原理

爬虫概述

1，获取网页(源代码)
获取库urllib、requests

2，提取信息
提取库Beautiful Soup、pyquery、lxml

3，保存数据
本地：TXT、JSON或MySQL、MongoDB
远程服务器：借助SFTP操作

4，自动化程序

能抓怎样的数据

![在这里插入图片描述](https://img-blog.csdnimg.cn/a485d2592e924920a975dea04068b479.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAc2FuZG9ueg==,size_20,color_FFFFFF,t_70,g_se,x_16

JavaScript 渲染页面

会话和Cookies

静态网页和动态网页

无状态HTTP

常见误区

代理的基本原理

基本原理

代理的作用

爬虫代理

代理分类

常见代理设置

三、基本库的使用

1，使用urllib

request：它是最基本的 HTTP 请求模块，可以用来模拟发送请求。只需要给库方法传入 URL 以及额外的参数，就可以模拟实现这个过程了。
error：异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操
作以保证程序不会意外终止。
parse ：一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等。
robot parser ：主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不
可以爬，它其实用得比较少。

发送请求

urlopen()
API:
urllib.request.urlopen(url, data=None, [ timeout, ]*, cafile=None, capath=None, cadefault=False, context=None )

data参数

timeout参数

context参数

cafile参数
capath参数

Request
class urllib.request.Request ( url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

高级用法
urllib.request 模块里的 BaseHandler 类，它是所有其他 Handler 的父类，它提
供了最基本的方法，例如 default_open()、 protocol_request ()等。

各种Handler子类
HTTPDefaultErrorHandler ：用于处理 HTTP 响应错误，错误都会抛出 HTTP Error 类型的异常。
HTTPRedirectHandler ：用于处理重定向。
HTTPCookieProcessor ：用于处理 Cookies 。
ProxyHandler ：用于设置代理，默认代理为空。
HTTPPasswordMgr ：用于管理密码，它维护了用户名和密码的表。
HTTPBasicAuthHandler ：用于管理认证，如果一个链接打开时需要认证，那么可以用它来解
决认证问题。

处理异常

解析链接

分析Robots协议

从API到Agent：万字洞悉LangChain工程化设计 bpluo42657 langchain
——构建下一代AI应用的核心范式迁移一、传统API范式的局限性：为什么需要Agent？接口式AI的痛点python#传统NLPAPI调用示例response=openai.Completion.create(model="text-davinci-003",prompt="请翻译：Helloworld",max_tokens=50)单次请求/响应模式缺乏状态管理与上下文延续硬编码逻辑难以应对复杂场
【项目实战】在 Python 中，可以通过 `subprocess` 模块调用系统的压缩程序（如 7-Zip 或系统自带的zip命令）来实现文件或文件夹的压缩。本本本添哥 011 -Python python 7-zip 开发语言
在Python中，可以通过subprocess模块调用系统的压缩程序（如7-Zip或系统自带的zip命令）来实现文件或文件夹的压缩。通过subprocess调用系统压缩工具（如7-Zip）是最灵活的方式，支持多线程、密码保护和多种压缩格式。需注意路径配置和参数的正确性，并通过异常处理提升代码健壮性。对于轻量需求，可优先考虑zipfile或py7zr等库。以下是详细的实现方法和注意事项：1.使用7-
《Python 微服务架构实践指南：框架与工具的深度解析》清水白石008 python Python题库架构 python 微服务
《Python微服务架构实践指南：框架与工具的深度解析》开篇引入背景介绍：在现代应用开发中，微服务架构因其高扩展性、灵活性和模块化优势而备受关注。从电商平台到数据处理，微服务架构逐渐取代传统单体架构，成为开发者首选。而Python凭借其简洁优雅的语法和丰富的生态系统，为实现微服务架构提供了坚实的基础。为什么写这篇文章：作为一名资深开发者和教育者，我深切感受到许多开发者在微服务设计中的困惑。因此，本
使用uv工具高效管理Python版本安装指南庞翰烽
使用uv工具高效管理Python版本安装指南前言在现代Python开发中，多版本Python环境管理是每个开发者都会遇到的挑战。传统方式需要手动下载安装不同版本的Python，配置环境变量，过程繁琐且容易出错。uv工具提供了一套优雅的解决方案，让Python版本管理变得简单高效。uv工具简介uv是一个现代化的Python工具链管理器，它不仅能够管理Python包依赖，还能智能地管理Python解释
用python实现无限弹窗-五一劳动节快乐数据知道 python3案例和总结 python 开发语言
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.使用`tkinter`实现无限弹窗1.1实现代码1.2代码说明2.使用`pyautogui`实现无限弹窗2.1安装`pyautogui`2.2实现代码2.3代码说明3.使用`ctypes`实现无限弹窗3.1实现代码3.2代码说明4.注意事项5.总结使用tkinter库使用pyautogui库在Python中实现无限弹窗可以通过tki
鸿蒙应用App Linking优化：深度链接性能操作系统内核探秘操作系统内核揭秘 harmonyos 华为 ai
鸿蒙应用AppLinking优化：深度链接性能关键词：鸿蒙系统、AppLinking、深度链接、性能优化、路由匹配、参数解析、冷启动优化摘要：本文深入探讨鸿蒙系统下AppLinking深度链接的性能优化策略。从核心概念解析出发，详细阐述深度链接在鸿蒙架构中的实现原理，包括Ability路由机制、链接解析算法和参数传递模型。通过数学模型分析路由匹配复杂度，结合Python算法示例演示链接解析过程。基
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
Python爬虫技术：高效采集开放数据的5种方法大数据洞察 python 爬虫 wpf ai
Python爬虫技术：高效采集开放数据的5种方法关键词：Python爬虫、开放数据采集、请求库、异步爬虫、分布式爬虫、动态网页解析、API直连摘要：本文围绕“如何用Python高效采集开放数据”展开，系统讲解5种主流爬虫方法（基础请求库、异步请求、动态网页渲染、分布式爬虫、API直连）的原理、适用场景与实战技巧。通过生活类比、代码示例和真实案例，帮助读者快速掌握不同场景下的爬虫策略，同时强调数据合
composer 提示Module ‘mysqli‘ already loaded，Directive ‘track_errors‘ is deprecated xuefeiniao composer php
composer提示Warning:Module'mysqli'alreadyloadedinUnknownonline0Deprecated:Directive'track_errors'isdeprecatedinUnknownonline0场景：原因：解决：Deprecated:Directive‘track_errors’isdeprecatedinUnknownonline0)场景：执行
LeetCode 633.平方数之和（python题解） wendong97 LeetCode从零起步 #双指针 leetcode python 算法
LeetCode633.平方数之和（python题解）题目示例分析题解用到的基础知识计算平方和平方根取整参考题目给定一个非负整数c，你要判断是否存在两个整数a和b，使得a2+b2=c示例输入:5输出:True解释:1*1+2*2=5分析本题与上一题LeetCode167.两数之和II非常相似，把两数之和变成了平方数之和，利用上一题答案的思路，同样设置两个一左一右的指针，很容易就可以解答出来。这里要
[特殊字符] 简易分贝仪制作（基于麦克风 + Python） qq_27684373 python 开发语言
一、基本原理1.什么是dBSPL？**声压级（SoundPressureLevel,SPL）**定义为：SPL(dB)=20⋅log⁡10(pp0)\text{SPL(dB)}=20\cdot\log_{10}\left(\frac{p}{p_0}\right)SPL(dB)=20⋅log10(p0p)ppp：声压值（单位Pa，帕斯卡）p0=20μPa=2×10−5Pap_0=20\mu\text
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
使用python对音频做去噪处理莫夭阏之 python 信号处理语音识别
要使用Python对音频进行去噪处理，您可以使用许多库和算法。以下是使用librosa和scipy库实现的基本去噪算法：首先，您需要安装所需的库。您可以使用以下命令安装它们：pipinstalllibrosascipynumpy接下来，您需要导入所需的库：importlibrosaimportscipy.signalassignalimportnumpyasnp加载音频文件并提取音频数据：y,sr
Python实现音频均衡和降噪 0Kilobyte 音视频
使用librosa库来读取音频文件，音频处理是一个复杂过程，这里只是简单的进行降噪和均衡。importlibrosaimportsoundfileassfdefimprove_audio_quality(input_file,output_file):#读取音频文件audio,sample_rate=librosa.load(input_file)sf.write(output_file,audi
网络爬虫进阶 rooney2024 爬虫
目录一、进阶爬虫的核心挑战二、关键技术与最佳实践三、实战案例：爬取动态电商价格（伪代码示例）四、持续学习路径结语一、进阶爬虫的核心挑战动态渲染页面(JavaScript/AJAX)问题：数据由JavaScript动态加载生成，初始HTML中不存在。解决方案：浏览器自动化工具：Selenium,Playwright,Puppeteer。模拟真实浏览器行为，等待JS执行并渲染出完整DOM后再解析。无头
网络爬虫再深入——对抗指纹检测、分布式架构与智能解析实战 rooney2024 爬虫
目录一、深入反爬：浏览器指纹检测与对抗（配图1）1.高级指纹检测原理2.对抗方案与实战二、分布式爬虫架构深度设计（配图2）1.容错与弹性设计2.智能限流算法三、智能解析：LLM与计算机视觉的融合（配图3）1.LLM解析非结构化文本2.视觉辅助定位元素四、法律与伦理：爬虫工程师的自我修养1.关键法律边界2.道德实践框架五、未来战场：Web3.0时代的爬虫技术演进1.去中心化网络挑战2.AI驱动的自适
Python的简单降噪应用 adaierya python 开发语言
音频降噪是使用Python进行信号处理的一个常见应用，通常会使用一些信号处理库，如NumPy和SciPy，以及一个用于音频处理的库，如Librosa。如下是一个简单的音频降噪实现步骤和代码示例：步骤1:安装必要的库若还没有安装这些库，请先使用pip进行安装：pipinstallnumpyscipylibrosasoundfile步骤2:导入必要的库在Python代码中，我们需要导入这些库：impo
python 源码安装_源码安装python weixin_39959794 python 源码安装
编译安装新版本python一般来说python是linux系统的标配，但是版本一般却很老，而系统上面的很多服务可能与老的python存在依赖关系，我们又不能直接卸载。所以一般，我们可以在一个单独的目录来安装python。python安装有两种方法：1.源码编译2.使用pyenv此处我们使用源码编译安装：1.下载源码：https://www.python.org/ftp/python/此处有各个版本
python 源码安装 thjinhao python
linux环境下python3.9安装yum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4-devellibpcap-develxz-devellibffi-develyum-yinstallgcc4.python环境的安装（安装pyenv
uvx.exe 跨环境 Python 工具执行器的原理与实战指南
在Windows安装uv时，系统会同时生成一个可执行文件uvx.exe。它并不是新的打包管理器，而是uvtoolrun命令的便捷别名：调用uvx.exe就能在瞬间解析依赖、构建隔离虚拟环境并执行来自Python生态的任意命令行工具，完成过程无需事先创建venv，也不会污染当前项目。官方文档把这种体验类比为npx或pipx的一次性执行，但uvx速度更快、磁盘开销更小，更能契合CI/CD流水线、临时脚
如何搭建MySQL主从同步架构：实现数据库高可用与读写分离 Cloud_Begin adb
前言：在现代Web应用中，数据库往往是性能瓶颈所在。MySQL主从复制(Master-SlaveReplication)是一种常见的数据同步方案，它不仅能提高系统的读取性能，还能增强数据安全性并提供故障转移能力。本文将详细介绍如何从零开始搭建一个MySQL主从同步架构。一、主从复制原理简介MySQL主从复制基于二进制日志(binlog)实现，其核心流程如下：主库(Master)将所有数据更改操作记
vscode怎么装python_vscode如何安装python
vscode安装python的方法：1、在vscode的扩展中输入"extinstallpython"安装python插件打开VScode，Ctrl+p输入"extinstallpython"，搜索时间可能会比较长安装过程不能停止，否则重新安装；2、在配置文件“settings.json”修改python的安装路径修改用户设置-settings.json，将"python.pythonPath":
关于python的一些面试题
1.技术面试题（1）TCP与UDP的区别是什么？答：在工作机制上TCP采用三次握手四次挥手的机制保障信息传递的稳定性，更适合文件的传输和下载。而UDP采用的是直接传输和直接接受的机制提高信息传递的高效性，更适合点对点的实时交流的环境。（2）DHCP和DNS的作用是什么？答：DHCP相当于网络中的智能管家，他会自动将局域网内的设备进行配置包括但不限于：IP地址、子网掩码、DNS服务器地址。而DNS相
python里面ca_Python SSL服务器提供中间CA证书洗心岛 python里面ca
我使用Python(2.7)SSL模块编写一些服务器代码，如下所示：ssock=ssl.wrap_socket(sock,ca_certs="all-ca.crt",keyfile="server.key",certfile="server.crt",server_side=True,ssl_version=ssl.PROTOCOL_TLSv1)全部-约阴极射线管'包含签名CA证书和根CA证书：-
服务器搭建python响应https,python实现简单的https服务器
以下提供一个简单的方式快速部署一个https服务器，用于非生产环境的测试使用，如果是正式的生产环境，考虑到性能安全等因素，就不要使用这个了。1、使用pyOpenSSL库：#coding:utf-8fromBaseHTTPServerimportHTTPServer,BaseHTTPRequestHandlerfromSocketServerimportThreadingMixInfromSocke
Leetcode刷题笔记——哈希表篇 code_lover_forever Leetcode刷题笔记 leetcode 笔记散列表 python
Leetcode刷题笔记——哈希表篇一、哈希表在面试中的高频考题第一题：两数之和Leetcode1:两数之和：中等题（详情点击链接见原题）给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标python代码解法classSolution:deftwoSum(self,nums:List[int],target:int)->
Various ways to integrate Python and C (C++) a13393665983 c/c++人工智能 python
VariouswaystointegratePythonandC(C++)KoichiTamura'sblog:VariouswaystointegratePythonandC(C++)VariouswaystointegratePythonandC(C++)ThisisoriginallywhatIwroteinamailIsenttoafriendofmine.Imodifieditalitt
How to setup a Mac with Python dev tools whackw mac mac
HowtosetupaMacwithPythondevtoolsNotesforhowtosetupa64-bitMacwithimportantPythondevelopmenttoolsDeprecated–clickhereforupdatedpageforYosemiteversionCreatedbyTrondKristiansenon27.7.2009,andlastupdated05
理解module, script, library, package in Python ikeepo #小白学Python module library script package setup
OverviewPythonmodulesandPythonpackagesaretwomechanismsthatfacilitatemodularprogramming.AscriptisaPythonfilethat’sintendedtoberundirectly.AmoduleisaPythonfilethat’sintendedtobeimportedintoscriptsorothe
Python 服务器端与客户端的加密通信（SSL/TLS）解析现实逃脱计划TA python ssl 网络
```htmlPython服务器端与客户端的加密通信（SSL/TLS）解析在当今互联网时代，数据安全变得越来越重要。为了保护数据在传输过程中的安全，使用SSL/TLS协议进行加密通信成为了一种常见的做法。本文将详细介绍如何在Python中实现服务器端和客户端之间的SSL/TLS加密通信。什么是SSL/TLS？SSL（SecureSocketsLayer）和TLS（TransportLayerSec
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比