追光少年3322

python 爬取小红书

爬虫实现基本流程

一.明确需求

明确采集的网站及数据内容

目标：根据小红书作者主页链接，采集作者主页所有笔记，并保存为excel表格。
采集的字段包括作者、笔记类型、标题、点赞数、笔记链接。
网址：https://www.xiaohongshu.com/user/profile/64c38af4000000000e026b43

二. 分析思路

分析爬虫思路，概括如下：

打开小红书主页与登录
打开小红书作者主页,获取作者信息
提取页面笔记数据
循环下滑页面刷新数据，循环获取笔记数据
处理获取到的数据，去重，排序
保存到本地excel文件

三. 代码实现

1.导入库

from DrissionPage import ChromiumPage
from DataRecorder import Recorder
import pandas as pd
from tqdm import tqdm
import time
import random
import re
import openpyxl
import os
import math

2. 登录小红书网站

def countdown(n):
    for i in range(n, 0, -1):
        print(f'\r倒计时{i}秒', end='')  # \r让光标回到行首 ，end=''--结束符为空，即不换行
        time.sleep(1)  # 让程序等待1秒
    else:
        print('\r倒计时结束')

使用 DrissionPage 库，打开小红书主页https://www.xiaohongshu.com，设置 30 秒延时，这时可以使用手机扫码登录账号。在登录的函数里调用倒计时函数。

def sign_in():
    sign_in_page = ChromiumPage()
    sign_in_page.get('https://www.xiaohongshu.com')
    # 第一次运行需要扫码登录
    print("请扫码登录")
    # 倒计时30s
    countdown(30)

只有第 1 次运行代码需要登录，浏览器会保存登录状态信息。第 2 次之后再运行代码，就免登录了，可以把 sign_in()步骤注释掉。

3. 打开小红书作者主页，获取作者信息

与登录小红书方法一样，只是要把打开的网址改为作者主页链接
在这里使用DrissionPage 库的定位元素方法，定位提取作者名字，方便后续写入excel文件和给excel文件命名。

def open(url):
    global page, author
    page = ChromiumPage()
    page.get(f'{url}')
    # 页面最大化
    page.set.window.max()

    # 定位作者信息
    user = page.ele('.info')
    # 作者名字
  	author = user.ele('.user-name', timeout=0).text

4. 提取页面笔记数据

使用DrissionPage库定位元素方法，定位到包含笔记信息的sections,定位标题，点赞，笔记链接信息。

def get_info():
     # notes列表存放当前页面的笔记
    notes = []
   
    # 定位包含笔记信息的sections
    container = page.ele('.feeds-container')
    sections = container.eles('.note-item')
    
    for section in sections:
        # 笔记类型
        if section.ele('.play-icon', timeout=0):
            note_type = "视频"
        else:
            note_type = "图文"
        # 文章链接
        note_link = section.ele('tag:a', timeout=0).link
        # 标题
        footer= section.ele(".footer")
        title = footer.ele('.title', timeout=0).text
        # 作者
        author_wrapper = footer.ele('.author-wrapper')
        # 点赞
        like = author_wrapper.ele('.count').text
        notes.append([note_type,like])

    # 写入数据，r为全局变量
    r.add_data(notes)

5. 向下滑动页面刷新数据

为了防止被检测到，每次下滑页面设置一个1秒至2秒之前的随机睡眠时间。使用DrissionPage库scroll.to_bottom()操作页面方法，将页面滑到底部，小红书会刷新出新的数据

def page_scroll_down():
    print(f"********下滑页面********")
    page.scroll.to_bottom()
    # 生成一个1-2秒随机时间
    random_time = random.uniform(1, 2)
    # 暂停
    time.sleep(random_time)

6. 循环调用采集函数和翻页函数

在crawler(times)函数中，调用get_info()函数自动提取页面数据，调用page_scroll_down()函数自动下滑页面，程序会跟踪笔记总数，计算出向下滑动页面次数，可以自动刷新数据，提取数据。

def crawler(times):
    global i
    for i in tqdm(range(1, times + 1)):
        get_info()
        page_scroll_down()

计算向下滑动页面次数的方法如下

#note_num是笔记数量
note_num=630
#times是计算得到的翻页次数，笔记数量除以20，调整系数，再向上取整
times= math.ceil(note_num/20*1.1)
printf(f"需要执行翻页次数为： {times}")

7. 保存数据

继续使用DataReCorder库来记录数据到文件，这个库使用方便，代码简洁，用起来很可靠，省心，非常适合爬虫使用

# 获取当前时间
current_time = time.localtime()
# 格式化当前时间
formatted_time = time.strftime("%Y-%m-%d %H%M%S", current_time)
# 初始化文件
init_file_path = f'小红书作者主页所有笔记-{formatted_time}.xlsx'
r = Recorder(path=init_file_path, cache_size=100)

#记录数据到缓存
r.add_data(notes)

8. 处理excel数据去重,排序

定义一个re_save_excel()函数，负责处理excel表格数据去重，排序，计算总数，再将总数信息加到文件命中。
使用pandas库，读取初始化的excel文件，对笔记数据去重处理，然后根据笔记的点赞数降序排列。再加上作者名和笔记数量，给excel重新命名
最后，再给excel表重新调整表格列宽，方便查看数据。

def re_save_excel(file_path):
    # 读取excel文件
    df = pd.read_excel(file_path)
    print(f"总计向下翻页{times}次，获取{df.shape[0]}条笔记（含重复获取）。")
    # 将点赞数转换为整数
    df['点赞数'] = df['点赞数'].apply(convert_likes).astype(int)
    # 删除重复行
    df = df.drop_duplicates()
    # 按点赞 降序排序
    df = df.sort_values(by='点赞数', ascending=False)
    # 文件路径
    final_file_path = f"小红书作者主页所有笔记-{author}-{df.shape[0]}条.xlsx"
    df.to_excel(final_file_path, index=False)
    print(f"总计向下翻页{times}次，笔记去重后剩余{df.shape[0]}条，保存到文件：{final_file_path}。")
    print(f"数据已保存到：{final_file_path}")

同时为了更好处理点赞数带有“万”的数据，因此需要对点赞数进行转换。

# 定义转换点赞数的函数
def convert_likes(likes):
    # 移除'+'字符
    likes = likes.replace('+', '')
    # 检查是否包含'万'或'千'单位，并进行相应的转换
    if '万' in likes:
        return int(likes.replace('万', '')) * 10000
    elif '千' in likes:
        return int(likes.replace('千', '')) * 1000
    else:
        return int(likes)

9. 删除初始excel文件

由于已经得到一个最终的excel文件，这个文件是去重，排序的，最终效过很方便查看，因此可以删除初始的excel文件

def delete_file(file_path):
    # 检查文件是否存在
    if os.path.exists(file_path):
        # 删除文件
        os.remove(file_path)
        print(f"已删除初始化excel文件：{file_path}")
    else:
        print(f"文件不存在：{file_path} ")

三. 全部代码

最后通过指定author_url和note_num就可以爬取指定作者的笔记了。

  # 1、第1次运行需要登录，需要执行sign_in()步骤。第2次之后不用登录，可以注释掉sign_in()步骤。
    # sign_in()

    # 2、设置主页地址url
    author_url = "https://www.xiaohongshu.com/user/profile/64c38af4000000000e026b43"

    # 3、设置向下翻页爬取次数
    # 根据小红书作者主页“当前发布笔记数”计算浏览器下滑次数。
    # “当前发布笔记数” 获取方法参考https://www.sohu.com/a/473958839_99956253
    # note_num是笔记数量
    note_num = 62
    # times是计算得到的翻页次数，笔记数量除以20，调整系数，再向上取整
    times = math.ceil(note_num / 20 * 1.1)
    print(f"需要执行翻页次数为：{times}")

    # 4、设置要保存的文件名file_path
    # 获取当前时间
    current_time = time.localtime()
    # 格式化当前时间
    formatted_time = time.strftime("%Y-%m-%d %H%M%S", current_time)
    # 初始化文件
    init_file_path = f'小红书作者主页所有笔记-{formatted_time}.xlsx'
    r = Recorder(path=init_file_path, cache_size=100)

    # 下面不用改，程序自动执行
    # 打开主页
    open(author_url)

    # 根据设置的次数，开始爬取数据
    crawler(times)

    # 避免数据丢失，爬虫结束时强制保存excel文件
    r.record()

    # 数据去重、排序，另存为新文件
    re_save_excel(init_file_path)

你可能感兴趣的:(python,网络爬虫)

OpenCV实现在图像中绘制汉字海上的风浪 opencv 人工智能计算机视觉编程
在本文中，我将向您展示如何使用OpenCV库在图像中绘制汉字。OpenCV是一个广泛使用的计算机视觉库，它提供了许多强大的功能，包括图像处理和绘图。首先，我们需要安装OpenCV库。您可以通过在终端或命令提示符中运行以下命令来安装它：pipinstallopencv-python接下来，我们将使用Python编写代码来实现在图像中绘制汉字。请确保您已经安装了Python和OpenCV库。impor
同城拉货搬家 APP 小程序开发事项以及优化方案 ALLSectorSorft 小程序
同城拉货搬家APP小程序：重塑便捷货运新体验针对同城拉货搬家APP小程序的优化方案，可围绕用户体验、服务效率、安全信任及商业模式创新四个维度展开，结合现有功能提出以下结构化改进策略：一、用户体验优化1.动态定价与高峰调度智能调价系统：引入基于供需关系的动态定价算法，高峰时段自动上浮价格激励司机接单，同时提供“闲时折扣”吸引价格敏感用户。动态定价算法（Python示例）#基于供需比的动态定价模型im
Python使用mysql-connector连接数据库巴啦啦拉粑粑 Python mysql 数据库 python
1.mysql-connector和MySQLdb的区别mysql-connector和MySQLdb都是python连接数据库的包，二者区别如下：mysql-connector是一个Python模块，它在Python中重新实现MySQL协议，它比较慢，但不需要C库，因此更便携。MySQLdb是一个C模块，它使用MySQL客户端库中的MySQL协议实现相链接，它更快，但是需要C库才能工作。这里选择
Connector for Python ZHIHAN__
PythonMySQL-mysql-connector驱动MySQL是最流行的关系型数据库管理系统，如果你不不熟悉MySQL，可以阅读MySQL教程。介绍使用mysql-connector来连接使用MySQL，mysql-connector是MySQL官方提供的驱动器。我们可以使用pip命令来安装mysql-connector：python-mpipinstallmysql-connector使用
如何使用BeautifulSoup轻松解析网页内容？字节王德发 python beautifulsoup
在当今这个信息爆炸的时代，网络上有大量的数据等待我们去挖掘。如何从网页中提取我们需要的信息呢？使用Python的BeautifulSoup库，能够让这一过程变得简单而高效！接下来，我将带你走进BeautifulSoup的世界，教你如何进行网页解析。BeautifulSoup是什么？BeautifulSoup是一个Python库，专门用于从HTML和XML文件中提取数据。它能够将复杂的网页结构转化为
PythonWeb框架djiango第二章 _AndyLau 手把手学python django python
PythonWeb框架djiango第二章文章目录PythonWeb框架djiango第二章模版方式1（推荐）方式2render方法详解模版语法{{contxt中字典的key}}{%%}标签ifelifelseendif条件选择for{##}常用标签过滤器模版结构{%include"xxx.html"%}模版继承静态文件模型模型安装和配置单表crudMetaFieldAPI外键ForeignKey
Python高级之操作Mysql _AndyLau python mysql adb
Python高级文章目录Python高级python操作数据库mysql-connectordemo_mysql_test.py:pyMysqlpython操作数据库mysql-connector本章节为大家介绍使用mysql-connector来连接使用MySQL，mysql-connector是MySQL官方提供的驱动器。可以使用pip命令来安装mysql-connector：python-m
解决安装PyMuPDF（也被称为fitz库）的问题（可成功安装且使用）汐ya~ python pdf 安装
解决安装PyMuPDF（也被称为fitz库）的问题（可成功安装且使用）安装方法：一些安装时报错的原因解析：报错1：报错2：报错3-无效的分发包警告：报错4：使用实例在使用PyMuPDF发现直接pipinstallPyMuPDF会安装失败或者安装后无法使用安装方法：1.在https://pypi.org/project/PyMuPDF/#files查找到适合自己电脑python版本的.whl文件2.
基于Python 和 DeepSeek API 实现文本分类修破立生大模型 python 人工智能
在自然语言处理（NLP）领域，文本分类是一项非常重要的任务，它可以帮助我们将大量的文本数据自动归类到不同的类别中。传统的文本分类方法有很多，而近年来，利用大模型进行文本分类逐渐成为一种流行且高效的方式。本文将介绍如何使用Python编写代码，结合DeepSeekAPI实现文本分类的功能，并探讨使用大模型方法进行文本分类与其他方法的区别。1代码概述我们的代码主要实现了以下几个功能：创建一个DeepS
Milvus 数据批量导入实战：Python代码解析修破立生 Milvus milvus python 人工智能
1引言在处理大规模数据的存储和检索时，向量数据库逐渐成为一种热门的解决方案。Milvus作为一款高性能的向量数据库，在人工智能、机器学习等领域有着广泛的应用。本文将介绍如何使用Python代码将数据批量导入到Milvus数据库中，通过实际的代码示例来帮助大家理解导入过程和相关的技术要点。2代码功能概述我们的代码主要实现了从本地文件读取数据，并将其批量导入到Milvus数据库的功能。代码涉及到命令行
python如何爬取实时人流量_使用python爬取微信宜出行人流量数据张衍军 python如何爬取实时人流量
代码地址：https://liujiao111.github.io/2019/06/18/easygo/工具介绍：该工具基于微信中的宜出行提供的数据接口进行爬取，能够爬取一定范围内的当前时间点的人流量数据。环境：windowspython3+安装第三方包：缺啥安装啥使用指南：申请多个qq号，并将qq号放入当前目录下的qqlist.py文件中，格式如下：qq_list=[["11111111","1
Python 爬虫实战：爬取学术论文数据西攻城狮北 python 爬虫实战案例
一、项目概述二、环境准备1.Python和PyCharm安装2.安装必要Python库三、爬虫实战1.分析目标网站2.编写爬虫代码（1）使用Requests和BeautifulSoup获取页面数据（2）使用Pandas存储数据（3）使用Scrapy框架构建高效爬虫3.爬取API数据四、数据处理与分析1.数据清洗2.数据可视化五、注意事项1.遵守法律和道德规范2.处理验证码3.应对反爬虫机制六、总结
数据分析学习目录且行且安~ 数据分析进阶之路 #数据分析目录数据分析
在未来5个月里，将会陪伴大家一起来学习关于数据分析的相关内容，包括从数据思维，数据工具（Excel，Mysql，Hive，Python），数据方法论，数据展示（Tableau,BI），数据挖掘、数据实战项目一整套的内容，同步会将可能用到的以及有用的知识点整理出来。内容会慢慢更新。如下为数据分析的整个目录一、数据分析思维与方法论1.1、从0-1搭建指标体系、用户标签体系1.1.1、指标体系搭建-专项
Python爬虫下载加州高速路网PeMS交通流量数据集及交通公开数据集分享郑宜维David
Python爬虫下载加州高速路网PeMS交通流量数据集及交通公开数据集分享Python爬虫下载加州高速路网PeMS交通流量数据集以及交通公开数据集分享项目地址:https://gitcode.com/Resource-Bundle-Collection/123b3本仓库提供了一个Python爬虫程序，用于自动化下载加州高速路网PeMS的交通流量数据集，避免手动操作的繁琐。此外，还分享了部分已下载的
【Python爬虫】爬取公共交通站点数据 Anchenry Python爬虫 python beautifulsoup
首先，先介绍一下爬取公交站点时代码中引入的库。requests：使用HTTP协议向网页发送请求并获得响应的库。BeautifulSoup：用于解析HTML和XML网页文档的库，简化了页面解析和信息提取的过程。json：用于处理JSON格式数据的库。xlwt：用于将数据写入Excel文件中的库。Coordin_transformlat：自定义的一个坐标转换库。在这个爬虫项目中，它被用来将高德地图提供
使用Python爬虫抓取交通流量数据并进行地图可视化 Python爬虫项目 2025年爬虫实战项目 python 爬虫信息可视化开发语言人工智能
引言交通流量的可视化对于城市规划和交通管理至关重要。通过直观的地图展示交通流量的变化，我们可以清晰地了解不同时间和地点的交通状况，从而为交通优化提供数据支持。在现代城市中，交通流量监控系统可以通过传感器、摄像头和GPS设备等手段获取实时数据，而Python作为一种功能强大的编程语言，能够帮助我们高效地抓取这些数据并进行可视化展示。本文将介绍如何使用Python爬虫抓取交通流量数据，并通过地图可视化
Milvus 数据批量导出实战：Python 代码解析修破立生 Milvus milvus python 人工智能
1引言由于Milvus在单次查询中所能返回的数据量存在固有约束，当处理数据量庞大的Collection时，需考虑采用多次查询的策略。本文详细阐述了如何运用多次查询的方式，将Milvus中的数据进行分批导出，以有效应对数据量过大带来的挑战。2代码整体概述我们的目标是从Milvus中导出指定集合的数据，并将其保存为JSON文件。代码主要分为以下几个部分：连接到Milvus服务。定义数据导出函数，包括数
30道＜Flask＞面试题（超级易懂版） Beuself. flask
1.Flask的基本概念是什么？Flask是一种用Python编写的轻量级Web框架，就像是一把万能的瑞士军刀。它帮助你快速地创建一个Web应用，不需要你从头开始造轮子。想象一下，你有个工具箱（Flask），里面有各种基本工具（功能），让你可以轻松地搭建一个网站。2.如何在Flask中创建一个简单的HelloWorld应用？就像你在厨房里做一个简单的三明治一样，步骤很简单：安装Flask：像去超市
python系列&deep_study系列：爆炸！Deepseek全模型支持联网搜索+文档上传坦笑&&life AI系列机器学习深度学习自然语言处理
爆炸！Deepseek全模型支持联网搜索+文档上传可以直接使用DeepSeekR1满血+联网版（app下载链接）：https://app.1foo.com/install/74966A可以直接使用DeepSeekR1满血+联网版（参考链接）：https://blog.csdn.net/weixin_54626591/article/details/145640080https://blog.csd
AI学习预备知识-数据操作（3）广播机制羞涩的小吉他人工智能学习
AI学习预备知识-数据操作（3）广播机制提示：本系列持续更新中文章目录AI学习预备知识-数据操作（3）广播机制前言广播机制总结前言随着开始人工智能的学习越来越多，那么再学习过程中，我们应该有一定的基础知识储备，本系列为基础知识储备介绍，在以往系列中我们提到了相同形状的张量按元素操作，那不同形状的张量操作就涉及到本文主要讲解AI学习储备知识–广播机制。广播机制提示：默认使用python，数据操作使用
Python深度学习之路：TensorFlow与PyTorch对比步入烟尘 Python超入门指南全册 python 深度学习 tensorflow
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
卷积神经网络应用-训练手写体数字数据集并展示识别精度 yeahamen 深度学习 python 机器学习卷积神经网络手写体数字识别
#卷积神经网络(CNN)训练手写体数据集importnumpyasnpimportmatplotlib.pyplotaspltimporttensorflow.kerasaskaimportdatetime#python3.X版本显示图片还需导入此库importpylabnp.random.seed(0)#定义加载数据集函数defload_data_npz(path):#np.load文件可以加载
Django生成Docx文件 WikiLeake django sqlite python
在Django项目中生成.docx文件，你可以使用python-docx库，这是一个非常强大的库，用于创建和更新MicrosoftWord文档。以下是如何在Django项目中生成.docx文件的步骤：安装python-docx首先，你需要安装python-docx库。可以通过pip安装：pipinstallpython-docx创建.docx文件在你的Django视图中，你可以创建一个.docx文
[环境搭建篇] Windows 环境下如何安装repo工具车载操作系统---攻城狮开发工具 windows github 网络
Windows环境下如何安装repo工具1.安装前置依赖2.配置Repo引导脚本方法一：通过Gitee镜像安装（推荐）方法二：通过清华镜像安装3.解决依赖问题4.初始化Repo仓库5.常见问题解决前言：在Windows环境下安装Repo工具需要结合Git和Python环境，并配置相应的脚本及依赖。1.安装前置依赖Git：从官网下载并安装GitforWindows，安装时勾选“AddtoPATH”以
[python] del 进阶的小蜉蝣 Python python
在Python中，del语句用于删除对象的引用、删除列表中的元素、删除字典中的键值对、删除类的属性等，以下是一些应用场景示例：删除变量pythonx=10delx上述代码删除了变量x，之后再访问x会报错，因为它已从内存中移除。删除列表元素pythonmy_list=[1,2,3,4,5]delmy_list[2]这里删除了列表my_list中下标为2的元素，即3。也可以使用delmy_list[1
Python 面向对象高级编程-多重继承赔罪 Python 系统学习开发语言 python
目录多重继承MixIn小结继承是面向对象编程的一个重要的方式，因为通过继承，子类就可以扩展父类的功能。回忆一下Animal类层次的设计，假设我们要实现以下4种动物：Dog-狗狗；Bat-蝙蝠；Parrot-鹦鹉；Ostrich-鸵鸟。如果按照哺乳动物和鸟类归类，我们可以设计出这样的类的层次：但是如果按照“能跑”和“能飞”来归类，我们就应该设计出这样的类的层次：如果要把上面的两种分类都包含进来，我们
Python 面向对象高级编程-定制类赔罪 Python 系统学习 python 前端开发语言服务器
目录__str____iter____getitem____getattr____call__小结看到类似__slots__这种形如__xxx__的变量或者函数名就要注意，这些在Python中是有特殊用途的。__slots__我们已经知道怎么用了，__len__()方法我们也知道是为了能让class作用于len()函数。除此之外，Python的class中还有许多这样有特殊用途的函数，可以帮助我们
Python从0到100（十八）：面向对象编程应用是Dream呀 python 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python面向对象高级编程_Python 面向对象之高级编程 weixin_39613089 python面向对象高级编程
7.面向对象高级编程7.1使用__slots__python动态语言，new对象后绑定属性和方法Tip:给一个实例绑定的方法，对其他对象无效。可以通过对class绑定后，所有对象可以调用该方法如果我们现在只有实例可以添加属性，使用__slots__，只允许对Student实例添加name和age属性，添加其他属性报错classStudent(object):__slots__=('name','a
在OpenCV中放大后，Python会捕捉图像的特定部分潮易 opencv python 人工智能
在OpenCV中放大后，Python会捕捉图像的特定部分在使用OpenCV进行图像处理时，你可以通过不同的方法放大图像。以下是一些常见的方法以及Python代码示例：1.使用`cv2.resize()`函数：这是一个常用的函数，可以用来调整图像的大小。它接受三个参数：原始图像、新的尺寸以及插值方式。默认的插值方式为线性插值，但还可以选择其他如最近邻插值、双线性插值等。```pythonimport
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他