Python爬虫项目

使用Python构建论坛爬虫：抓取论坛主题、标签和讨论量

引言

随着互联网的发展，论坛作为一个信息交流的地方，承载了大量的讨论内容、主题和标签。通过抓取论坛的数据，用户可以了解最热的话题、讨论量大的主题以及与特定标签相关的内容。本篇博客将介绍如何使用Python构建一个论坛数据抓取爬虫，从论坛网站上抓取主题、标签和讨论量，并对数据进行存储和分析。

目标与背景

我们的目标是从多个论坛网站抓取以下内容：

论坛主题：讨论的主要内容或话题。
标签：与主题相关的分类信息。
讨论量：每个主题下的讨论次数或帖子数量。

在抓取这些数据之后，我们将进行一定的清洗和存储，最终可以通过分析这些数据来找到最受欢迎的话题和标签，帮助我们进行进一步的数据挖掘。

一、项目架构与技术栈

构建论坛爬虫的关键步骤包括：数据抓取、数据解析、数据存储、数据清洗和分析。

技术栈：

requests：用于发送HTTP请求，获取网页内容。
BeautifulSoup：用于解析HTML页面，提取所需的主题、标签和讨论量。
Selenium：用于处理动态加载的网页，抓取JavaScript渲染的数据。
pandas：用于存储和处理数据，进行后期的分析。
SQLite/MySQL：数据库存储抓取的数据，方便管理和查询。
APScheduler：定时调度爬虫任务，保证数据更新。

二、爬虫设计与实现

我们将以某论坛为例，抓取论坛上的主题、标签和讨论量。假设该论坛的页面包含静态和动态加载的内容，我们将分别使用requests和Selenium来抓取不同类型的页面。

1. 静态网页抓取（使用requests）

对于静态页面，我们可以直接使用requests库抓取页面内容。

python
复制编辑
import requests
from bs4 import BeautifulSoup

# 目标论坛URL
url = "https://www.exampleforum.com/topics"

# 发送请求并获取响应
response = requests.get(url)
response.encoding = 'utf-8'

# 解析HTML内容
soup = BeautifulSoup(response.text, "html.parser")

# 提取主题、标签和讨论量
topics = []
for topic_item in soup.find_all("div", class_="topic-item"):
    title = topic_item.find("a", class_="topic-title").get_text(strip=True)
    tags = [tag.get_text(strip=True) for tag in topic_item.find_all("span", class_="topic-tag")]
    discussion_count = topic_item.find("span", class_="discussion-count").get_text(strip=True)
    
    topics.append({
        "title": title,
        "tags": tags,
        "discussion_count": discussion_count
    })

# 存储数据为DataFrame
import pandas as pd
df_topics = pd.DataFrame(topics)
df_topics.to_csv("forum_topics.csv", index=False)

2. 动态网页抓取（使用Selenium）

对于需要通过JavaScript加载的动态内容，我们需要使用Selenium模拟浏览器进行抓取。

python
复制编辑
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 启动WebDriver
driver = webdriver.Chrome(executable_path="/path/to/chromedriver")

# 打开目标论坛页面
url = "https://www.exampleforum.com/topics"
driver.get(url)

# 等待页面加载
time.sleep(5)

# 获取网页内容
html = driver.page_source

# 解析HTML
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")

# 提取主题、标签和讨论量
topics = []
for topic_item in soup.find_all("div", class_="topic-item"):
    title = topic_item.find("a", class_="topic-title").get_text(strip=True)
    tags = [tag.get_text(strip=True) for tag in topic_item.find_all("span", class_="topic-tag")]
    discussion_count = topic_item.find("span", class_="discussion-count").get_text(strip=True)
    
    topics.append({
        "title": title,
        "tags": tags,
        "discussion_count": discussion_count
    })

# 存储数据为DataFrame
import pandas as pd
df_topics = pd.DataFrame(topics)
df_topics.to_csv("forum_topics_dynamic.csv", index=False)

# 关闭浏览器
driver.quit()

三、数据存储与清洗

抓取到的数据可能存在一些冗余信息或者缺失值，我们需要对数据进行清洗处理。以下是一些常见的数据清洗操作。

1. 清洗重复数据

python
复制编辑
df_topics.drop_duplicates(subset="title", keep="first", inplace=True)

2. 填充缺失值

python
复制编辑
df_topics.fillna({"discussion_count": 0, "tags": "No tags"}, inplace=True)

3. 数据格式化

python
复制编辑
df_topics["discussion_count"] = df_topics["discussion_count"].apply(lambda x: int(x.replace(",", "")))

4. 存储清洗后的数据

python
复制编辑
df_topics.to_csv("cleaned_forum_topics.csv", index=False)

对于大规模数据，可以使用数据库存储，例如使用SQLite或MySQL来存储数据。

python
复制编辑
import sqlite3

# 连接数据库
conn = sqlite3.connect('forum.db')
df_topics.to_sql('topics', conn, if_exists='replace', index=False)
conn.close()

四、定时抓取与自动化

为了定期抓取论坛上的主题信息，我们可以使用APScheduler定时任务来实现自动化抓取。

python
复制编辑
from apscheduler.schedulers.blocking import BlockingScheduler

def crawl_forum():
    # 调用抓取论坛的代码
    print("开始抓取论坛主题数据...")
    # 例如：上面写的爬虫抓取代码

# 设置定时任务，每天凌晨1点执行爬虫任务
scheduler = BlockingScheduler()
scheduler.add_job(crawl_forum, 'interval', days=1, start_date='2023-01-01 01:00:00')
scheduler.start()

五、数据分析与可视化

通过抓取论坛数据后，我们可以对数据进行分析，挖掘最受欢迎的标签和热门话题。以下是一个简单的数据分析示例，统计最常见的标签。

python
复制编辑
import matplotlib.pyplot as plt

# 统计标签出现频率
tags_flat = [tag for tags in df_topics["tags"] for tag in tags.split(",")]
tag_counts = pd.Series(tags_flat).value_counts()

# 可视化标签频率
plt.figure(figsize=(10, 6))
tag_counts[:10].plot(kind="bar")
plt.title("Top 10 Forum Tags")
plt.xlabel("Tags")
plt.ylabel("Frequency")
plt.xticks(rotation=45)
plt.show()

六、总结与展望

在本文中，我们介绍了如何使用Python抓取论坛的主题、标签和讨论量，并对数据进行了清洗、存储和分析。通过抓取和分析论坛数据，我们可以帮助用户发现最热门的话题和讨论，同时也可以为数据科学家提供一些有用的分析素材。

未来，我们可以将爬虫功能扩展到更多的论坛网站，进一步优化数据抓取效率，例如增加并发爬取，使用代理等方法来防止封禁。此外，我们还可以进一步分析论坛数据，发现论坛中的热点趋势、情感分析等。

你可能感兴趣的:(python,爬虫,开发语言,信息可视化,金融)

Python 字符串前缀详解
Python提供了多种字符串前缀，用于改变字符串的创建方式和行为。下面我将全面汇总并详细解释每种字符串前缀的特性、用途和示例。1.原始字符串(RawString)-r前缀语法:r'...'或r"..."作用:禁用字符串中的转义字符反斜杠\被视为普通字符特别适合处理包含大量反斜杠的字符串适用场景:文件路径(特别是Windows路径)正则表达式需要保留反斜杠的任何情况示例:#普通字符串中的转义path
Python中的条件语句：if-else使用指南 AI软件改变生活 Python 数据库前端 python
在编程中，条件语句是控制程序流程的核心工具之一，它允许程序根据不同的条件执行不同的代码块。Python提供了简洁而强大的条件语句语法，其中最常用的就是if-else语句。本文将详细介绍Python中if-else的使用方法、常见用法以及一些高级技巧。1.基本语法if-else语句的基本结构如下：Python复制if条件表达式:#如果条件表达式为True，执行这里的代码块passelse:#如果条件
情感语录：人生那么短，别为不是你的情浪费时间；心灵那么小，别为不值得的人投入情沉沦c
心里有你，怎样都行心里没你，怎样都不行在乎你的人，会视你如命忽略谁，也不会忽略你置顶你的名字，秒回你的信息牵挂你的悲喜，关心你的身体因为有你，才知道什么是惦记不在乎你的人，会拿你当风不主动，不热情更不想把你心疼你再付出，你再给予照样对你无动于衷心里有你的人，谁都没你重要就算再忙，也会抽时间把你找因为你的牵挂他知道就算再烦，也想把心里话和你聊因为有你就觉得有了依靠永远记住了想找你的人，时间总会有不想
HTTPS，不可或缺的数据安全锁 Arwen303 SSL证书 https 网络协议 http
一、HTTPS：数字时代的"隐形护卫"在网购时输入银行卡信息、登录社交平台发送私信、通过企业OA系统上传文件，这些日常操作背后都藏着一把无形的"安全锁"——HTTPS。↓https://www.joyssl.com/certificate/select/joyssl-dv-single-free-1.html?nid=59↑（注册码230959，赠送1个月有效期）它如同数据传输的"保险箱"，在客户
这么简单的从零到一做HTML 网页，你确定不来看看吗？ paid槮 html 服务器前端
HTML网页的介绍HTML(HypertextMarkupLanguage,超文本标记语言)是一种用于创建网页的标准标记语言,是一种与Python不同的编程语言。网页文件的扩展名通常为,html或.htm,这两种扩展名都可使用,并不会影响文件内容简单的HTML网页框架每一个HTML网页都包含一个基础框架，其他的内容都是在基础框架内进行扩充的。示例代码:这里是标题在这里填入正文这是一个较为基础的HT
银行家教你稳赚不赔的方法康森爱学习
我是康森，这是我每天一篇文章的第53篇，希望我的文章能为你赋能，也希望你能给我赋能。今天我们来讲一个金融领域的故事。在上个世纪80年代，美国埃克森石油公司发生了一起石油泄漏事故，导致公司的财务出现危机，于是埃克森向摩根大通银行申请一笔48亿美金的贷款。埃克森石油公司一直是摩根大通银行的大客户，所以这个贷款申请让摩根大通很为难，借吧，风险很大，万一还不上自己也没办法承担这笔损失；不借吧，这么大的客户
Python 2和Python 3的区别？山禾家的猫
Python社区，有这么个怪问题：“学Python到底是学2还是学3？”这个问题就像月经一样每隔断时间就出现在你面前，也成了很多初学者的选择困惑，这个问题的“始作俑者”当然是Python它爹，大家众说纷纭，有说Python2是主流，大公司都在用，你应该学2。也有说Python3才是未来主流，大多数第三方框架已基本支持Python3。个人看法是Python2还会存在很长一段时间（只要那些用Pytho
Python基础和高级【抽取复习】斟的是酒中桃 python 学习
1.Python的深拷贝和浅拷贝有什么区别？浅拷贝【ls.copy()】：将列表的不可变对象【值】复制一份，同时引用其中的可变对象【列表】，共用一个内存地址深拷贝【ls=copy.deepcopy(list)】：完全的复制原可变对象，生成新的可变对象，两个对象互相独立2.列表和元组的区别是什么？1.列表概念：有序序列，使用[]定义，元素之间用，隔开有序序列增删改操作：可以增删改列表的任意元素不可变
[Python]Python中if-else的语法，用法示例 LN花开富贵 Python python 学习笔记嵌入式单片机 opencv
Python中多条件判断通过if-elif-else结构实现，elif是elseif的缩写。一、基础语法结构if条件1:#条件1为真时执行的代码块elif条件2:#条件2为真时执行的代码块elif条件3:#条件3为真时执行的代码块else:#所有条件均不满足时执行的代码块顺序判断，当第一个条件满足时其对应的代码块会被执行，后续elif的条件不在检查，如果都是if语句，那么执行完第一个if后后面的i
你真的会阅读吗-如何阅读更高效？ sherri_方_0215
——关于阅读方法的主题阅读学习力是元能力。即一切认知思想行动的基础。现代社会，我们学习的渠道包括人、网、事和书。读书是我们重要的一种阅读方式，比其他方式跟简单、成本更低，而且系统化程度更高。阅读，指从文字或符号获得知识或信息的方法，可以是阅读文章或书籍。根据目的可将阅读分为娱乐类和致用类。这里主要指致用类阅读，是一种需要方法的阅读。前者目的在于消磨时间，只要看得舒服就行。阅读一本书，就像参加一门老
python源码下载
python源码下载(2010-12-1823:11)不知道python.org一直被堵在墙外…1、http://ftp.python.org/ftp/python/2、http://www.python.org/ftp/python/
基于Springboot + vue3实现的图书管理系统程序员南音经验分享
项目描述本系统包含管理员、读者两个角色。管理员角色：用户管理：管理系统中所有用户的信息，包括添加、删除和修改用户。配置管理：管理系统配置参数，如轮播图的路径等。权限管理：分配和管理不同角色的权限。图书借阅管理：管理图书借阅信息，包括查看、修改、删除和审核借阅记录。轮播图管理：管理轮播图信息，包括新增、查看、修改和删除轮播图。座位信息管理：管理阅览室座位信息，包括新增、查看、修改、删除和查看评论。图
基于Springboot + vue3实现的学生选课系统程序员南音经验分享
项目描述本系统包含管理员、教师、学生三个角色。管理员角色：用户管理：管理系统中所有用户的信息，包括添加、删除和修改用户。配置管理：管理系统配置参数，如上传图片的路径等。权限管理：分配和管理不同角色的权限。课程信息管理：管理课程信息，包括查看、修改和删除课程信息。学生管理：管理学生信息，包括新增、查看、修改和删除学生信息。轮播图管理：管理轮播图信息，包括新增、查看、修改和删除轮播图。教师管理：管理教
Python接地气入门。
欢迎来到"鑫哆哆"编程角世界上最好的语言PYTHON?鑫哆哆跟python的机缘为什么选择python合理的设计学习计划，有助于攻略的成功合理驯服自己脑子合理骗过自己脑子合理安排反馈鑫哆哆的学习python计划基础语法缩进语句规则控制语句规则表达式规则函数规则对象规则类型规则数学运算直接觉醒！鑫哆哆的课程选取迈出第一步恭喜大家成功入门python！总结世界上最好的语言PYTHON?新的一年祝大家心
Python镜像源染诗 python
https://www.cnblogs.com/songzhixue/p/11296720.html
公路桥梁施工质量管理与控制方法分析阿卞是宝藏啊
本文还有配套的精品资源，点击获取简介：本文深入探讨了公路桥梁施工中如何实施有效的质量管理与控制，强调了质量管理的重要性，详述了质量控制的理论基础，并概述了施工前后质量策划、材料与设备质量控制、施工过程监控、质量信息管理、问题处理与改进、竣工验收及后期维护的方法。强调了全面质量管理理论与现代信息技术的应用，旨在确保工程安全、可靠与耐久。1.质量管理的重要性1.1市场竞争中的质量要素在当今竞争日益激烈
python设置国内源 twilightdream python
mkdir.pipcd.piptouchpip.confnanopip.conf贴上[global]trusted-host=mirrors.aliyun.comindex-url=http://mirrors.aliyun.com/pypi/simple
华为OD机考 2025C卷 - 围棋的气 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD机考2025C卷华为OD2025C卷
围棋的气华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述围棋棋盘由纵横各19条线垂直相交组成，棋盘上一共19x19=361个交点，对弈双方一方执白棋，一方执黑棋，落子时只能将棋子置于交点上。“气”是围棋中很重要的一个概念，某个棋子有几口气，是指其上下左右方向四个相邻的交叉点中，有几个交叉点没有棋子，由此可知：在棋
华为OD机考 2025C卷 - 对称美学 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
对称美学华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述对称就是最大的美学，现有一道关于对称字符串的美学。已知：第1个字符串：R第2个字符串：BR第3个字符串：RBBR第4个字符串：BRRBRBBR第5个字符串：RBBRBRRBBRRBRBBR相信你已经发现规律了，没错！就是第i个字符串=第i-1号字符串取反+第
华为OD机试 2025 B卷 - We are a Team (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
WeareaTeam华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：消息构成为abc，整数a、b分别代表两个人的标号，整数c代表指令c==0代表a和b在一个团队内c==1
随笔敲zan嘞
大家都有过忘记回复别人信息的时候吧。下面的话都是我在希哥信箱的一个公众号里看到的，当时看到的时候感觉完完全全写的就是我啊！其实，我们自己都这样，有时候确实忙，心情烦闷，又或者看到了留言，刚好来了个什么事，就忘记回复了，都是很正常的事情。又或者，躺床上聊天，不小心睡着了，其实也无大碍，尤其是像这样的大冷天，被窝的催眠力，真的很强。我们聊天忘记回复，有时候确实有“情有可原”的理由，但这个时候的聊天不回
Python中if-else判断语句、while循环语句以及for循环语句的使用总结 bentou_
1.if-esle流程判断语句我们来直接看一个例子，如下，判断我们定义的用户名和用户输入的用户名是否一致。代码当中有几个注意点：判断的时候用双等号表示判断是否一致（三个等号表示赋值）你有没有注意到这里不是用的大括号而是用的冒号！python3对父级和子级的写法是极为严格的，就像这里的if跟else，都是父级，需要顶格写；下面的两个子级（print那里）就需要缩进一个tab。_username="b
感赏+投射106 黃燕华
感赏群里的师姐关注我的并点赞，让我倍受鼓舞，充满动力；感赏儿子的认真踏实，今天的语文默写又是全对，一次性过关了；感赏老公看到群里老师公布的没有过关的孩子名单，发现又没有儿子的姓名，给我发了一条信息——“今天也是没有”，还加了一个点赞的图标。我回复：是的，不错！昨天的英语默写也不错！老公说：希望儿子越来越努力！我又回复：我们一起祈祷、相信儿子会越来越努力的！我发现这样的感觉真好！感赏儿子昨晚跟我说要
盟接之桥说制造：IT创造价值，从认清矛盾开始盟接之桥产品运营人工智能大数据制造数据库
在现代企业中，信息技术（IT）部门的角色已不再局限于传统的技术支持，而是逐渐成为推动企业创新和提升竞争力的关键力量。然而，如何让IT部门真正发挥其价值，避免成为“形同虚设”的部门，是许多企业面临的重要课题。本文将从认清公司目前的主要矛盾和矛盾的主要方面出发，探讨如何依托公司平台，通过IT部门的主动，创造更大的价值。一、认清公司目前的主要矛盾和矛盾的主要方面企业运营中存在多种矛盾，例如：开源和节流的
Python库安装国内源奔跑的石头_ python python AI编程
关注公众号“码字读书会”，了解最新消息。Python国内源包括企业和高校机构打不得开源软件包资源。著名的有阿里云、华为云、清华。个人常用的有清华源临时使用命令如下：pipinstall-ittps://pypi.tuna.tsinghua.edu.cn/simple包名
酒厂生产信息化系统方案 liu854046222 技术解决方案大数据人工智能
一、背景目标白酒作为中国传统的高度酒精饮料，其生产过程复杂且历史悠久。随着消费者对高品质白酒的需求不断增长，以及食品安全和质量监管的日益严格，酒厂面临着提升产品品质、确保生产安全、提高生产效率和降低成本的多重挑战。为了满足市场需求，酒厂需要对原材料进行严格分析和追溯，优化生产流程，并通过数据收集和分析来持续改进生产工艺。目标：原材料优化：通过对原料的深入分析，选择最佳的原料组合，确保白酒的独特风味
共读书籍《反脆弱》的感悟平台创业者
我对失败者的特征描述就是，失败者往往在犯错后不内省、不探究，觉得难堪，听不得批评，试图解释自己的错误而不是用新的信息丰富自己，并开始新的历程。这些人往往视自己为“受害者”，受制于某个大阴谋、糟糕的老板或恶劣的天气。如果你急着要完成某事，不妨将其交给办公室里任务最繁忙的（或第二繁忙的）那个人去做。大多数人的空闲时间都会被浪费掉，因为空闲时间会让他们无所事事、懒惰、无心向学，而一旦他们忙起来，他们往往
数据并表技术全面指南：从基础JOIN到分布式数据融合熊猫钓鱼>_> 分布式
引言在现代数据处理和分析领域，数据并表（TableJoin）技术是连接不同数据源、整合分散信息的核心技术。随着企业数据规模的爆炸式增长和数据源的日益多样化，传统的数据并表方法面临着前所未有的挑战：性能瓶颈、内存限制、数据倾斜、一致性问题等。如何高效、准确地进行大规模数据并表，已成为数据工程师和架构师必须掌握的关键技能。数据并表不仅仅是简单的SQLJOIN操作，它涉及数据建模、算法优化、分布式计算、
Maven 配置文件核心配置：本地仓库、镜像与 JDK 版本巴拉巴巴巴拉 Java学习 java maven 开发语言
Maven配置文件核心配置：本地仓库、镜像与JDK版本在Maven项目开发中，合理配置settings.xml文件能显著提升依赖管理效率。本文将聚焦本地仓库、镜像加速和JDK版本这三个核心配置，结合IDEA环境详细讲解配置方法与作用。一、Maven配置文件简介Maven的核心配置文件是settings.xml，它负责管理Maven的全局行为，包括本地仓库位置、远程仓库镜像、JDK版本等关键信息。默
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他