金甲虫Scarb

我的第一个Python3 网络爬虫百度百科爬虫

最近学习Python
廖雪峰老师的Python 3教程
想要用项目练练手。Python网络爬虫看起来是不错的练手项目，于是着手学习爬虫的制作。
一开始并没有什么头绪，直到看到了慕课网的Python爬虫教程。
这个教程基于python2，但是给了我爬虫的基本思路。接着我用python3写了该教程上的百度百科（弱智）爬虫。

百度百科(弱智)爬虫基于python3

功能简介

爬取与某个百科页面相关的几百个百科页面。用的是深度优先搜索，所以会搜出很多莫名其妙的词条。实际上这个爬虫并没有什么卵用，只是拿来学习练手。

爬虫框架

有一个主程序和四个模块。
四个模块分别是

url管理器：管理url
html下载器：用request，下载网页的html代码
html解析器：用BeautifulSoup4，解析下载下来的html代码，获得词条的标题和简介
html输出器：输出为一个html，用表格的形式表现最终的数据

爬虫代码

主程序

# spider_main.py
from baike_spider import url_manager
from baike_spider import html_downloader
from baike_spider import html_parser
from baike_spider import html_outputer

class SpiderMain(object):
    def __init__(self):
        # init all objects
        self.urls = url_manager.UrlManager()
        self.downloader = html_downloader.HtmlDownloader()
        self.parser = html_parser.HtmlParser()
        self.outputer = html_outputer.HtmlOutputer()

    def crawl(self, root_url):
        count = 1
        # add root_url into url_manager
        self.urls.add_new_url(root_url)
        # start loop
        while self.urls.has_new_url():
            try:
                new_url = self.urls.get_new_url()
                print('crawling %d : %s' % (count, new_url))
                html_cont = self.downloader.download(new_url)
                new_urls, new_data = self.parser.parse(new_url, html_cont)  # get new urls and data
                self.urls.add_new_urls(new_urls)
                self.outputer.collect_data(new_data)        # collect data
                if count == 300:
                    break
                count = count + 1
            except:
                print('crawl failed.')

        self.outputer.output_html()


if __name__=='__main__':
    root_url = 'http://baike.baidu.com/view/1927.htm'
    obj_spider = SpiderMain()
    obj_spider.crawl(root_url)  # start spider

url管理器

# url_manager.py
class UrlManager(object):
    def __init__(self):
        self.new_urls = set()
        self.old_urls = set()

    def add_new_url(self, url):
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)

    def add_new_urls(self, urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def has_new_url(self):
        return len(self.new_urls) != 0

    def get_new_url(self):
        new_url = self.new_urls.pop()
        self.old_urls.add(new_url)
        return new_url

html下载器

# html_downloader
from urllib import request

class HtmlDownloader(object):
    def download(self, url):
        if url is None:
            return None
        response = request.urlopen(url)
        if response.status != 200:
            return None
        data = response.read()
        return data.decode('utf-8')

html解析器

# html_parser
from bs4 import BeautifulSoup
import re
from urllib.parse import urljoin

class HtmlParser(object):
    def parse(self, page_url, html_cont):
        if page_url is None or html_cont is None:
            return
        try:
            soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')
        except ValueError as e:
            print('except:', e)
        # parse
        new_urls = self._get_new_urls(page_url, soup)
        new_data = self._get_new_data(page_url, soup)
        return new_urls, new_data
# parse new urls
    def _get_new_urls(self, page_url, soup):
        new_urls = set()
        # /view/123.htm
        links = soup.find_all('a', href = re.compile(r"/view/\d+\.htm"))
        for link in links:
            new_url = link['href']      # get link
            new_full_url = urljoin(page_url, new_url)
            new_urls.add(new_full_url)
        return new_urls

# parse title and summary
    def _get_new_data(self, page_url, soup):
        res_data = {}

        # url
        res_data['url'] = page_url

        # 
        #  星际争霸Ⅱ
        title_node = soup.find('dd', class_='lemmaWgt-lemmaTitle-title',).find('h1')
        res_data['title'] = title_node.get_text()

        # 
        summary_node = soup.find('div', class_='lemma-summary')
        res_data['summary'] = summary_node.get_text()
        print('res_data[\'summary\'] = ', res_data['summary'])
        return res_data

html输出器

# html_outputer
class HtmlOutputer(object):

    def __init__(self):
        # a list to maintain datas
        self.datas = []

    def collect_data(self, data):
        if data is None:
            return
        self.datas.append(data)

    def output_html(self):
        fout = open('output.html', 'w', encoding='utf-8')

        fout.write('')
        fout.write('')    # important
        fout.write('')
        fout.write('')

        # python default:unicodefor data in self.datas:
            fout.write('')
            fout.write('' % data['url'])
            fout.write('' % data['title'])
            fout.write('' % data['summary'])
            fout.write('')

        fout.write('
        %s %s %s
')
        fout.write('')
        fout.write('')

        fout.close()

输出的结果示例

http://baike.baidu.com/view/1927.htm 星际争霸《星际争霸》（英语：StarCraft）是暴雪娱乐制作发行的一款即时战略游戏。这是星际争霸系列游戏的第一部作品，于1998年3月31日正式发行。游戏拥有3部资料片，但是正式发行的只有《母巢之战》。其续作《星际争霸II：自由之翼》已于2010年7月27日发行。《星际争霸》使用《魔兽争霸Ⅱ》引擎，但不同的是融合了三个截然不同的种族：Protoss，Zerg和Terran，他们各自有着迥然不同的战斗单位与科技树。
http://baike.baidu.com/view/174999.htm 吉尼斯世界纪录大全吉尼斯世界纪录大全于1955年问世，集世界上最好、最坏、最美、最怪、最惨、最伟大的事物，收录了许多光怪陆离、难以想象的纪录。
http://baike.baidu.com/view/293873.htm 碉堡碉堡是一个网络流音乐，由屌爆演化而来，主要有“震惊了”、“悲剧了”、“非常牛逼”几种意思，不同场合下意义也不同。
http://baike.baidu.com/view/969702.htm DuGalle DuGalle是暴雪开发的即时战略游戏星际争霸（StarCraft）中的角色。（2436年-2500年3月24日） Gerard DuGalle上将是来自地球的Terran，隶属UED（United Earth Directorate）。
http://baike.baidu.com/view/3306588.htm 兵营
http://baike.baidu.com/view/368419.htm 黑暗执政官黑暗执政官是星际争霸中神族的部队，在它们漫长的放逐过程中面对着各种各样的挑战。在这个过程中，它们不停地与命运做抗争，改进自己的武器技能，并把自己的生理形态转化成更适应周围恶劣的环境，最终就产生了黑暗执政官。
http://baike.baidu.com/view/565476.htm 金甲虫金甲虫创于一九九六年，店铺遍及四川、贵州、云南、重庆等四省十一市三十余个县，开业十五年无一假货，以“到金甲虫，买正宗货”闻名遐迩。[1]

你可能感兴趣的:(python)

python引入另外一个文件中的函数 serve the people 日常琐问 python java 前端
在Python中，可以通过import语句引入另一个文件中的函数。下面是具体的步骤和示例：准备两个Python文件文件1：utils.py这是定义了函数的文件，假设它包含一个简单的函数：utils.pydefgreet(name):returnf"Hello,{name}!"文件2：main.py在这个文件中，我们将引入utils.py中的greet函数并使用它。main.py引入utils.py
python中的迭代器和生成器争xx鸣 python 迭代器生成器
自学python过程中会遗漏一些东西，当初看书的时候碰到这些都跳过了，在一次面试中被问到了生成器，才意识到它在使用中的重要性，然后重新翻回去看了书并总结如下。1、迭代器（Iterator）在Python中的for循环使用的就是迭代器的机制，与C语言的循环有所不同。由于使用了迭代器，for循环除了支持常见的序列（元组、列表）外，还支持字典和文件对象。对于任何的可迭代对象都有一个iter方法，使用it
深入理解Python中的生成器与迭代器：概念、区别与实战应用清水白石008 python Python题库开源软件 python 开发语言
深入理解Python中的生成器与迭代器：概念、区别与实战应用开篇在Python编程世界中，生成器（Generators）和迭代器（Iterators）是两个核心概念，它们在处理大型数据集、节省内存以及实现高效循环结构方面扮演着至关重要的角色。本文旨在通过详尽的介绍和实例解析，帮助开发者们全面理解和掌握这两种机制，并能够灵活运用到实际开发中。一、迭代器（Iterators）的基本概念迭代器是一种设计
Python中的迭代器：深入理解与实践应用傻啦嘿哟关于python那些事儿 python android 开发语言 1024程序员节
一、引言在Python编程语言中，迭代器（Iterator）是一种特殊类型的对象，它允许我们遍历数据集合（如列表、元组、字典等）中的每一个元素，而无需了解集合的底层实现细节。迭代器提供了一种统一的方法来访问集合中的元素，使得代码更加简洁、易读，并且能够高效地处理大量数据。本文将深入探讨Python中迭代器的概念、工作原理、实现方式以及实际应用案例，旨在帮助新手朋友全面理解并掌握迭代器的使用技巧。二
Leetcode ---119. 杨辉三角 II（数组） Zrf@ Leetcode 数组
119.杨辉三角II给定一个非负索引k，其中k≤33，返回杨辉三角的第k行。在杨辉三角中，每个数是它左上方和右上方的数的和。示例1：输入:3输出:[1,3,3,1]python思路：与杨辉三角的思路一致。classSolution:defgetRow(self,rowIndex:int)->List[int]:yh=[[]]*(rowIndex+1)forrowinrange(len(yh)):y
Python中的迭代器与生成器程序猿-张益达 Python进阶 python 开发语言
Python中的迭代器与生成器在Python中存在两种好用的功能：迭代器与生成器。以list容器为例，在使用该容器迭代一组数据时，必须事先将所有数据存储到容器中，才能开始迭代；而生成器却不同，它可以实现在迭代的同时生成元素。也就是说，对于可以用某种算法推算得到的多个数据，生成器并不会一次性生成它们，而是什么时候需要，才什么时候生成。迭代器迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一
使用brew报错:Bad credentials/GitHub API Error: API rate limit exceeded for weixin_33868027 git php python
2019独角兽企业重金招聘Python工程师标准>>>背景描述XHProf是一个轻量级的PHP性能分析工具.使用XHProf的时候，在点击[ViewFullCallgraph]查看结果分析图时，会报错，原因是缺少graphviz绘图软件。在使用brew安装graphviz软件出现了一些错误，特此记录一下.具体内容首先使用brew搜索是否存在graphviz软件，报错：$brewsearchgrap
Python进阶————迭代器与生成器记得多吃点 Python进阶知识 python 开发语言
迭代器与生成器前言一、迭代器二、生成器2.1创建生成器的两种方式2.1.1生成器推导式2.1.2yield关键字2.2使用生成器生成批次数据三、区别与联系3.1区别3.2联系总结前言我们之前学习遍历的时候，系统会一下子给我们显示所有的数据，我们希望当我们需要数据的时候再给我们数据，那么，我们就需要迭代器与生成器的帮助。迭代器和生成器在Python中都是用来处理数据序列的重要工具，它们之间的主要区别
Python中的【迭代器】和【生成器】 Matthew575 Python python 开发语言
Python是一门被多层语法糖包装的编程语言，用户使用起来容易上手。但若不了解其底层机制，就无法精通其语言。最近研究了Python中的迭代器和生成器迭代器迭代是访问集合元素的一种方式，在Python中，迭代是通过for…in…语句来完成的。在Python中，可直接作用于for循环的对象都称为可迭代对象（Iterable），而可以作用于for循环的数据类型有以下两类：一类是集合数据类型，比如常见的s
Python Qt6快速入门-图形视图(Graphics View) 视觉与物联智能 Python编程实例 python pyqt6 qt6 GUI 开发语言
图形视图(GraphicsView)文章目录图形视图(GraphicsView)1、GraphicsView架构1.1场景(Scene)1.2视图(View)1.3项目(Item)2、GraphicsView坐标系统2.1项目坐标2.2场景坐标2.3视图坐标2.4坐标映射3、QGraphicsView使用实例GraphicsView提供了一个用于管理大量定制2D图形项目并与之交互的界面，以及一个用
python入门教程jupyter_Jupyter Notebooks的安装和使用介绍 weixin_39953618
最近又开始重新学习Python，学习中使用到了一款编辑器JupyterNotebooks，非常想安利给初学python的同学。注：本文内容仅针对windows环境下安装和配置JupyterNotebooks。1.JupyterNotebooks简介国际惯例还是来一段官方的介绍：Notebooks其实就像是你的python笔记本一样，不仅可以运行书写的python代码，同时还支持markdown格式
第03课：Anaconda 与 Jupyter Notebook 红色石头Will 深度学习 PyTorch 极简入门人工智能深度学习 PyTorch
本文将为大家介绍深度学习实战非常重要的两个工具：Anaconda和JupyterNotebook。Anaconda为什么选择Anaconda我们知道Python是人工智能的首选语言。为了更好、更方便地使用Python来编写深度学习相关程序，可以使用集成开发环境或集成管理系统，最流行的比如PyCharm和Anaconda。本文我推荐使用Anaconda。之所以选择Anaconda，是因为Anacon
Python程序员爬取大量视频资源，最终面临刑期2年的惩罚！夜色恬静一人 python 爬虫开发语言 Python
Python程序员爬取大量视频资源，最终面临刑期2年的惩罚！近日，一名Python程序员因为涉嫌大规模爬取视频资源而被判处2年有期徒刑。这个案例引起了广泛的关注，也引发了对于网络爬虫合法性和道德问题的讨论。据了解，这名程序员利用Python编程语言开发了一套自动化爬虫工具，通过抓取网站上的视频链接，批量下载了超过13万部视频资源。这些资源包括电影、电视剧以及其他各种类型的视频内容。然而，尽管他成功
PyDeequ库在AWS EMR启动集群中数据质量检查功能的配置方法和实现代码 weixin_30777913 python spark 大数据云计算 aws
PyDeequ是一个基于ApacheSpark的PythonAPI，专门用于定义和执行“数据单元测试”，从而在大规模数据集中测量数据质量。PyDeequ框架在PySpark代码中提供了全面的数据质量检查功能，能够帮助用户&有效地监控和提升大规模数据集的数据质量。它在PySpark代码中的数据质量检查功能主要包括以下几个方面：核心组件指标计算（MetricsComputation）：利用分析器（An
python实现简单的二维有限元计算成田日上曾经笔记 python 悬臂梁有限元结构力学
有限元算法依据常见的有限元法教材，简单复现悬臂梁在重力作用下的形变（为了变形更明显，重力大小扩大了10倍），还没来得及写注释。【卧槽快跑，没注释！】节点是随机函数撒的点，完全没有优化；meshpy库中的Delauny优化算法计算得到三角单元；pygame实现图形绘制，图形如下（文字是自己后来写上去的）：importnumpyasnpimportcopyimportpygame,sysfrompyg
Python报错：PermissionError: [Errno 13] Permission denied解决方案详解：642 python 开发语言
写项目时候出现了PermissionError:[Errno13]Permissiondenied:'C:\\Users\\lenovo\\AppData\\Local\\Temp\\tmpjbuaiz4w.wav'错误，测试了一下发现是项目中音频的错误，下方是测试代码frompydubimportAudioSegmentfrompydub.playbackimportplayaudio=Audi
yolov8使用Python训练识别枫林古月 YOLO从零开始 YOLO python 开发语言
环境要求:根据《yolov8训练环境搭建》搭建好运行环境参考文献:1、yolo官方文档python版本：https://docs.ultralytics.com/usage/python/2、github文档https://github.com/ultralytics/ultralytics/blob/main/README.zh-CN.md3、标定源数据的生成使用labelImg来标定类别,输出
设计转换Apache Hive的HQL语句为Snowflake SQL语句的Python程序方法 weixin_30777913 python 数据仓库 hive sql
首先，根据以下各类HQL语句的基本实例和官方文档记录的这些命令语句各种参数设置，得到各种HQL语句的完整实例，然后在Snowflake的官方文档找到它们对应的SnowflakeSQL语句，建立起对应的关系表。在这个过程中要注意HQL语句和SnowflakeSQL语句的区别，比如Hive可以给单个用户加权限，但是Snowflake数据仓库是RBAC，也就是基于角色的权限控制，所以HQL语句中给用户加
【Python百日基础系列】Day25 - 真机安装Ubuntu20.04服务器版 + Mysql8 岳涛@泰山医院 Dash python ubuntu
文章目录一、Ubuntu服务器版下载二、制作启动U盘，RAW写入三、笔记本真机安装Ubuntu20.04服务器版3.1设置笔记本U盘启动，插入启动U盘3.2检查安装文件完整性，需要一两分钟3.3选择语言3.4确认语言和布局3.5确认网络连接3.6输入代理地址，默认空着就行3.7确认服务器地址，默认就行3.8设置磁盘，默认就行3.9再次确认磁盘分区，默认就行3.10输入用户名、电脑名和密码3.11安
Erpnext安装人间不值得T皿T 开源项目 python erp 开源项目 javascript
Erpnext安装环境要求Ubuntu23.04x86_64Python3.10.12pip23.0.1nodev18.16.0npm9.5.1yarn1.22.22MariaDB10.11.2Redis7.0.8wkhtmltox0.12.6.1bench5.22.6环境安装Reids安装//安装7.0.8也可不指定版本直接执行sudoaptinstallredis-serversudoapti
wifi模块服务器通讯协议,模块之间通信协议高杉峻 wifi模块服务器通讯协议
模块之间通信协议内容精选换一换IEC61499是分布式工业测量，控制和监控系统的功能块标准，既然它是面向工业测量和控制的系统，对系统的确定性(Deterministic)要求必然也比较高。确定性又是安全性的前提。保证系统的确定性的两个重要措施是保证系统的实时性和同步性。分布式系统结构又进一步增加了实现确定性的难来自：博客网络编程一、网络编程基础python的网络编程模块主要支持两种Internet
呼叫中心部门如何激发员工的创新和潜能野蛮的大西瓜 FreeIPCC转载开源人工智能音频实时音视频视频编解码
呼叫中心部门如何激发员工的创新和潜能作者：基于Java、Python与FreeSWITCH的开源大模型智能呼叫中心系统FreeAICC，Github地址：https://github.com/FreeIPCC/FreeAICC激发员工的创新和潜能是提升组织竞争力、推动持续发展的关键。以下是一些有效的策略，旨在营造一个鼓励创新、促进个人成长的工作环境：一、建立创新文化倡导开放思维：鼓励员工提出新想法
Python 爬虫实战案例 - 获取拉勾网招聘职位信息西攻城狮北 python 爬虫拉勾网招聘信息
引言拉勾网，作为互联网招聘领域的佼佼者，汇聚了海量且多样的职位招聘信息。这些信息涵盖了从新兴科技领域到传统行业转型所需的各类岗位，无论是初出茅庐的应届生，还是经验丰富的职场老手，都能在其中探寻到机遇。对于求职者而言，能够快速、全面地掌握招聘职位的详细情况，如薪资待遇的高低、工作地点的便利性、职位描述所要求的技能与职责等，无疑能在求职路上抢占先机。而企业方，通过分析同行业职位信息的发布趋势、薪资水平
Python Flask框架基础（五）数据库 525小白菜 Python Web编程数据库 python flask
数据库是大多数动态Web程序的基础设施，本章主要介绍如何给Flask程序添加数据库支持，具体来说就是在Python中使用DBMS来对数据库进行管理和操作。使用ORM不光可以解决SQL注入的问题，而且它为不同的DBMS提供统一的Python接口库，使得切换数据库非常简单。ORM把底层的SQL数据实体转化成高层的Python对象，这样甚至不用了解SQL，只需要通过Python代码即可完成数据库操作，O
python调用git在windows,ImportError在Windows 10 Git Bash上使用Anaconda Python导入_ssl Kuchiki Touko
ContextIamworkingbehindacorporateproxywithaself-signedcertificate.Ihavedocumentedthisextensively.TheissuenowisthatTLS/SSLmoduleisnotloadingcorrectlytoevenverifythecertificates.Windows10Anaconda2018.12
在 MicroPython ESP32-C3 单片机中调用 DeepSeek API 以及部分问题的解决电池漏液 python 单片机嵌入式硬件
在MicroPythonESP32-C3单片机中调用DeepSeekAPI的实践与问题解决背景本文记录在MicroPythonESP32-C3上调用DeepSeekAPI时遇到的问题及解决方案，包含中文编码异常处理和请求报文长度限制问题。依赖代码使用到urequests模块(requests模块的micropython版本)安装方法参考mpremote安装第三方库mpremotemipinstal
Python Flask框架 Taopad PYthon web flask python
PythonFlask框架Flask框架简介安装过程Falsk程序的运行过程基本语法/结构如有错误，请指正Flask框架简介Flask是一个轻量级的可定制框架，使用Python语言编写，较其他同类型框架更为灵活、轻便、安全且容易上手。它可以很好地结合MVC模式进行开发，开发人员分工合作，小型团队在短时间内就可以完成功能丰富的中小型网站或Web服务的实现。另外，Flask还有很强的定制性，用户可以根
[问题]- pip install pyqt6-tool失败浅水鲤鱼 pip python 开发语言
问题(.venv)PSD:\PythonProject\demo1>pipinstallpyqt6-tools-i[https://pypi.tuna.tsinghua.edu.cn/simple](https://pypi.tuna.tsinghua.edu.cn/simple)Python安装pyqt6-tools工具失败原因pyqt6-tools目前（2024年12月）支持最高到Python
使用 Python 获取淘宝商品描述的 API 接口：示例代码解析 Jelena15779585792 API 示例代码 python 前端 java
在电商数据分析、商品信息展示或内容管理系统中，获取商品描述是一个常见的需求。淘宝开放平台提供了丰富的API接口，其中item_get接口可以用来获取商品的详细信息，包括商品描述。本文将通过一个完整的Python示例代码，详细解析如何调用淘宝item_get接口获取商品描述，并处理返回的数据。一、淘宝开放平台简介淘宝开放平台（TaobaoOpenPlatform）为开发者提供了丰富的API接口，用于
使用 Python 获取淘宝商品评论 API 接口的示例代码解析 Jelena15779585792 API 示例代码 python 前端
在电商数据分析、用户体验优化和竞品分析中，获取商品评论是一项重要的功能。淘宝开放平台提供了商品评论的API接口，允许开发者通过合法的方式获取商品的用户评论数据。本文将详细介绍如何使用Python调用淘宝商品评论API接口，并解析返回的数据。一、淘宝商品评论接口简介淘宝开放平台提供了taobao.traderate.items.get接口，用于获取商品的评论数据。该接口支持分页查询，可以获取用户的评
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他