无水先生

NLP 项目：维基百科文章爬虫和分类 - 语料库阅读器

塞巴斯蒂安

一、说明

自然语言处理是机器学习和人工智能的一个迷人领域。这篇博客文章启动了一个具体的 NLP 项目，涉及使用维基百科文章进行聚类、分类和知识提取。灵感和一般方法源自《Applied Text Analysis with Python》一书。

在接下来的文章中，我将展示如何实现维基百科文章爬虫，如何将文章收集到语料库中，如何应用文本预处理、标记化、编码和矢量化，以及最后应用机器学习算法进行聚类和分类。

本文的技术背景是Python v3.11和几个附加库，其中最重要的nltk v3.8.1是和wikipedia-api v0.6.0。所有示例也应该适用于较新的版本。

本文最初出现在我的博客admantium.com上。

二、项目概要

该项目的目标是下载、处理和应用维基百科文章上的机器学习算法。首先，下载并存储来自维基百科的选定文章。其次，生成一个语料库，即所有文本文档的总和。第三，对每个文档文本进行预处理，例如通过删除停用词和符号，然后进行标记化。第四，将标记化文本转换为向量以接收数字表示。最后，应用不同的机器学习算法。

在第一篇文章中，解释了步骤一和步骤二。

三、先决条件

我喜欢在Jupyter Notebook中工作并使用优秀的依赖管理器Poetry。在您选择的项目文件夹中运行以下命令以安装所有必需的依赖项并在浏览器中启动 Jupyter 笔记本。

# Complete the interactive project creation
poetry init

# Add core dependencies
poetry add nltk@^3.8.1 jupyterlab@^4.0.0 scikit-learn@^1.2.2 wikipedia-api@^0.5.8 matplotlib@^3.7.1 numpy@^1.24.3 pandas@^2.0.1

# Add NLTK dependencies
python3 -c "import nltk; \
    nltk.download('punkt'); \
    nltk.download('averaged_perceptron_tagger'); \
    nltk.download('reuters'); \
    nltk.download('stopwords');"

# Start jupyterhub
poetry run jupyterlab

浏览器中应该会打开一个新的 Jupyter Notebook。

四、Python 库

在这篇博文中，将使用以下 Python 库：

维基百科-API：

Page代表维基百科文章及其标题、文本、类别和相关页面的对象。

NLTK

PlaintextCorpusReader用于提供对文档的访问、提供标记化方法并计算有关所有文件的统计信息的可遍历对象
sent_tokenizer并word_tokenizer用于生成令牌

五、（第 1 部分）维基百科文章爬虫

该项目从创建自定义维基百科爬虫开始。尽管我们可以使用来自各种来源的维基百科语料库数据集（例如 NLTK 中的内置语料库），但自定义爬虫提供了对文件格式、内容和内容现实的最佳控制。

下载和处理原始 HTML 可能非常耗时，尤其是当我们还需要从中确定相关链接和类别时。一个非常方便的图书馆可以帮助您。wikipedia -api为我们完成了所有这些繁重的工作。在此基础上，我们逐步开发核心功能。

首先，我们创建一个基类，定义它自己的 Wikipedia 对象并确定存储文章的位置。

import os
import re
import wikipediaapi as wiki_api

class WikipediaReader():
    def __init__(self, dir = "articles"):
        self.pages = set()
        self.article_path = os.path.join("./", dir)
        self.wiki = wiki_api.Wikipedia(
                language = 'en',
                extract_format=wiki_api.ExtractFormat.WIKI)
        try:
            os.mkdir(self.article_path)
        except Exception as e:
            pass

这还定义了pages爬虫访问的一组页面对象。该page对象非常有用，因为它可以访问文章标题、文本、类别和其他页面的链接。

其次，我们需要接收文章名称的辅助方法，如果存在，它将page向集合中添加一个新对象。我们需要将调用包装在一个try except块中，因为某些包含特殊字符的文章无法正确处理，例如Add article 699/1000 Tomasz Imieliński. 此外，还有一些我们不需要存储的元文章。

def add_article(self, article):
    try:
        page = self.wiki.page(self._get_page_title(article))
        if page.exists():
            self.pages.add(page)
            return(page)
    except Exception as e:
        print(e)

第三，我们要提取一篇文章的类别。每篇维基百科文章都在页面底部的两个可见部分（请参阅以下屏幕截图）以及未呈现为 HTML 的元数据中定义类别。因此，最初的类别列表可能听起来令人困惑。看一下这个例子：

wr = WikipediaReader()
wr.add_article("Machine Learning")
ml = wr.list().pop()

print(ml.categories)
# {'Category:All articles with unsourced statements': Category:All articles with unsourced statements (id: ??, ns: 14),
#  'Category:Articles with GND identifiers': Category:Articles with GND identifiers (id: ??, ns: 14),
#  'Category:Articles with J9U identifiers': Category:Articles with J9U identifiers (id: ??, ns: 14),
#  'Category:Articles with LCCN identifiers': Category:Articles with LCCN identifiers (id: ??, ns: 14),
#  'Category:Articles with NDL identifiers': Category:Articles with NDL identifiers (id: ??, ns: 14),
#  'Category:Articles with NKC identifiers': Category:Articles with NKC identifiers (id: ??, ns: 14),
#  'Category:Articles with short description': Category:Articles with short description (id: ??, ns: 14),
#  'Category:Articles with unsourced statements from May 2022': Category:Articles with unsourced statements from May 2022 (id: ??, ns: 14),
#  'Category:Commons category link from Wikidata': Category:Commons category link from Wikidata (id: ??, ns: 14),
#  'Category:Cybernetics': Category:Cybernetics (id: ??, ns: 14),
#  'Category:Learning': Category:Learning (id: ??, ns: 14),
#  'Category:Machine learning': Category:Machine learning (id: ??, ns: 14),
#  'Category:Short description is different from Wikidata': Category:Short description is different from Wikidata (id: ??, ns: 14),
#  'Category:Webarchive template wayback links': Category:Webarchive template wayback links (id: ??, ns: 14)}

因此，我们根本不通过应用多个正则表达式过滤器来存储这些特殊类别。

def get_categories(self, title):
    page = self.add_article(title)
    if page:
        if (list(page.categories.keys())) and (len(list(page.categories.keys())) > 0):
            categories = [c.replace('Category:','').lower() for c in list(page.categories.keys())
                if c.lower().find('articles') == -1
                and c.lower().find('pages') == -1
                and c.lower().find('wikipedia') == -1
                and c.lower().find('cs1') == -1
                and c.lower().find('webarchive') == -1
                and c.lower().find('dmy dates') == -1
                and c.lower().find('short description') == -1
                and c.lower().find('commons category') == -1

            ]
            return dict.fromkeys(categories, 1)
    
    return {}

第四，我们现在定义抓取方法。这是一种可定制的广度优先搜索，从一篇文章开始，获取所有相关页面，将这些页面广告到页面对象，然后再次处理它们，直到文章总数耗尽或达到深度级别。说实话：我只用它爬过 1000 篇文章。


def crawl_pages(self, article, depth = 3, total_number = 1000):
    print(f'Crawl {total_number} :: {article}')

    page = self.add_article(article)
    childs = set()
    if page:
        for child in page.links.keys():
            if len(self.pages) < total_number:
                print(f'Add article {len(self.pages)}/{total_number} {child}')
                self.add_article(child)
                childs.add(child)
    depth -= 1
    if depth > 0:
        for child in sorted(childs):
            if len(self.pages) < total_number:
                self.crawl_pages(child, depth, len(self.pages))

让我们开始爬取机器学习文章：

reader = WikipediaReader()
reader.crawl_pages("Machine Learning")

print(reader.list())
# Crawl 1000 :: Machine Learning
# Add article 1/1000 AAAI Conference on Artificial Intelligence
# Add article 2/1000 ACM Computing Classification System
# Add article 3/1000 ACM Computing Surveys
# Add article 4/1000 ADALINE
# Add article 5/1000 AI boom
# Add article 6/1000 AI control problem
# Add article 7/1000 AI safety
# Add article 8/1000 AI takeover
# Add article 9/1000 AI winter

最后，当一组page对象可用时，我们提取它们的文本内容并将它们存储在文件中，其中文件名代表其标题的清理版本。需要注意的是：文件名需要保留其文章名称的投降，否则我们无法再次获取页面对象，因为使用小写文章名称的搜索不会返回结果。

def process(self, update=False):
    for page in self.pages:
        filename = re.sub('\s+', '_', f'{page.title}')
        filename = re.sub(r'[\(\):]','', filename)
        file_path = os.path.join(self.article_path, f'{filename}.txt')
        if update or not os.path.exists(file_path):
            print(f'Downloading {page.title} ...')
            content = page.text
            with open(file_path, 'w') as file:
                file.write(content)
        else:
            print(f'Not updating {page.title} ...')

这是该类的完整源代码WikipediaReader。

import os
import re
import wikipediaapi as wiki_api

class WikipediaReader():
    def __init__(self, dir = "articles"):
        self.pages = set()
        self.article_path = os.path.join("./", dir)
        self.wiki = wiki_api.Wikipedia(
                language = 'en',
                extract_format=wiki_api.ExtractFormat.WIKI)
        try:
            os.mkdir(self.article_path)
        except Exception as e:
            pass

    def _get_page_title(self, article):
        return re.sub(r'\s+','_', article)

    def add_article(self, article):
        try:
            page = self.wiki.page(self._get_page_title(article))
            if page.exists():
                self.pages.add(page)
                return(page)
        except Exception as e:
            print(e)

    def list(self):
        return self.pages

    def process(self, update=False):
        for page in self.pages:
            filename = re.sub('\s+', '_', f'{page.title}')
            filename = re.sub(r'[\(\):]','', filename)
            file_path = os.path.join(self.article_path, f'{filename}.txt')
            if update or not os.path.exists(file_path):
                print(f'Downloading {page.title} ...')
                content = page.text
                with open(file_path, 'w') as file:
                    file.write(content)
            else:
                print(f'Not updating {page.title} ...')
    def crawl_pages(self, article, depth = 3, total_number = 1000):
        print(f'Crawl {total_number} :: {article}')
        page = self.add_article(article)
        childs = set()
        if page:
            for child in page.links.keys():
                if len(self.pages) < total_number:
                    print(f'Add article {len(self.pages)}/{total_number} {child}')
                    self.add_article(child)
                    childs.add(child)
        depth -= 1
        if depth > 0:
            for child in sorted(childs):
                if len(self.pages) < total_number:
                    self.crawl_pages(child, depth, len(self.pages))
    def get_categories(self, title):
        page = self.add_article(title)
        if page:
            if (list(page.categories.keys())) and (len(list(page.categories.keys())) > 0):
                categories = [c.replace('Category:','').lower() for c in list(page.categories.keys())
                   if c.lower().find('articles') == -1
                   and c.lower().find('pages') == -1
                   and c.lower().find('wikipedia') == -1
                   and c.lower().find('cs1') == -1
                   and c.lower().find('webarchive') == -1
                   and c.lower().find('dmy dates') == -1
                   and c.lower().find('short description') == -1
                   and c.lower().find('commons category') == -1
                ]
                return dict.fromkeys(categories, 1)
        return {}

让我们使用维基百科爬虫来下载与机器学习相关的文章。

reader = WikipediaReader()
reader.crawl_pages("Machine Learning")

print(reader.list())
# Downloading The Register ...
# Not updating Bank ...
# Not updating Boosting (machine learning) ...
# Not updating Ian Goodfellow ...
# Downloading Statistical model ...
# Not updating Self-driving car ...
# Not updating Behaviorism ...
# Not updating Statistical classification ...
# Downloading Search algorithm ...
# Downloading Support vector machine ...
# Not updating Deep learning speech synthesis ...
# Not updating Expert system ...

六、（第 2 部分）维基百科语料库

所有文章均以文本文件形式下载到article文件夹中。为了提供所有这些单独文件的抽象，NLTK 库提供了不同的语料库阅读器对象。该对象不仅提供对单个文件的快速访问，还可以生成统计信息，例如词汇量、单个标记的总数或单词量最多的文档。

让我们使用该类PlaintextCorpusReader作为起点，然后初始化它，使其指向文章：

import nltk
from  nltk.corpus.reader.plaintext import PlaintextCorpusReader
from time import time

class WikipediaCorpus(PlaintextCorpusReader):
    pass

corpus = WikipediaCorpus('articles', r'[^\.ipynb].*', cat_pattern=r'[.*]')
print(corpus.fileids())
# ['2001_A_Space_Odyssey.txt',
#  '2001_A_Space_Odyssey_film.txt',
#  '2001_A_Space_Odyssey_novel.txt',
#  '3D_optical_data_storage.txt',
#  'A*_search_algorithm.txt',
#  'A.I._Artificial_Intelligence.txt',
#  'AAAI_Conference_on_Artificial_Intelligence.txt',
#  'ACM_Computing_Classification_System.txt',

好的，这已经足够好了。让我们用两种方法来扩展它来计算词汇量和最大单词数。对于词汇，我们将使用 NLTK 辅助类FreqDist，它是一个包含所有单词出现的字典对象，此方法使用简单辅助类消耗所有文本corpus.words()，从中删除非文本和非数字。

def vocab(self):
    return nltk.FreqDist(re.sub('[^A-Za-z0-9,;\.]+', ' ', word).lower() for word in corpus.words())

为了得到最大单词数，我们遍历所有带有的文档fileids()，然后确定的长度words(doc)，并记录最高值

def max_words(self):
    max = 0
    for doc in self.fileids():
        l = len(self.words(doc))
        max = l if l > max else max
    return max

最后，我们添加一个describe生成统计信息的方法（这个想法也源于上面提到的《Applied Text Analysis with Python》一书）。

该方法启动一个计时器来记录校园处理持续了多长时间，然后使用语料库阅读器对象的内置方法和刚刚创建的方法来计算文件数、段落数、句子数、单词数、词汇量和文档中的最大字数。

def describe(self, fileids=None, categories=None):
    started = time()

    return {
        'files': len(self.fileids()),
        'paras': len(self.paras()),
        'sents': len(self.sents()),
        'words': len(self.words()),
        'vocab': len(self.vocab()),
        'max_words': self.max_words(),
        'time': time()-started
        }
    pass

这是最后一WikipediaCorpus堂课：

import nltk
from  nltk.corpus.reader.plaintext import PlaintextCorpusReader
from time import time

class WikipediaCorpus(PlaintextCorpusReader):
    def vocab(self):
        return nltk.FreqDist(re.sub('[^A-Za-z0-9,;\.]+', ' ', word).lower() for word in corpus.words())
    
    def max_words(self):
        max = 0
        for doc in self.fileids():
            l = len(self.words(doc))
            max = l if l > max else max
        return max
    
    def describe(self, fileids=None, categories=None):
        started = time()
        return {
            'files': len(self.fileids()),
            'paras': len(self.paras()),
            'sents': len(self.sents()),
            'words': len(self.words()),
            'vocab': len(self.vocab()),
            'max_words': self.max_words(),
            'time': time()-started
            }
        pass

在撰写本文时，爬取维基百科有关人工智能和机器学习的文章后，可以获得以下统计数据：

corpus = WikipediaCorpus('articles', r'[^\.ipynb].*', cat_pattern=r'[.*]')

corpus.describe()
{'files': 1163,
 'paras': 96049,
 'sents': 238961,
 'words': 4665118,
 'vocab': 92367,
 'max_words': 46528,
 'time': 32.60307598114014}

七、结论

本文是 NLP 项目在维基百科文章上下载、处理和应用机器学习算法的起点。本文涵盖了两个方面。首先，创建WikipediaReader通过名称查找文章的类，并可以提取其标题、内容、类别和提到的链接。爬虫由两个变量控制：爬取的文章总数和爬取的深度。其次，WikipediaCorpusNLTK 的扩展PlaintextCorpusReader。该对象可以方便地访问单个文件、句子和单词，以及总语料库数据，例如文件数量或词汇、唯一标记的数量。下一篇文章将继续构建文本处理管道。

命硬的故事--孩子的童年被烧伤，抗疤妈妈手记张筱旌
作者：张筱旌小c的妈妈，湖北大学新闻系毕业，7年青岛电视台主持人、记者目前创办优加学科英语培训学校。抗疤妈妈心酸手记，愿所有抗疤妈妈与宝贝们加油，度过这迷茫、无助、焦灼的抗疤的日子。童年，似乎永远与无拘无束得大笑、四处自由得奔跑、天真无邪得笑脸联系在一起，可有这么一群儿童，因为种种意外，他们受到烧烫伤，他们的童年，多了卧床不动的煎熬、撕心裂肺的痛哭、被血水浸染的纱布和被疤痕折磨的百蚁嗜骨的痒，不能
启蒙力量功课牵手_禅
规画：已读微笑：完成自我确认：我是健康富足的，我是传递爱的使者爱的表达：对家人说爱你们，对遇到的伙伴表达我的爱。1感恩大慈大悲观世音菩萨的保佑，保佑着我，爱人以及两个女儿身体健康，平平安安。2感恩祖先赐予我们健康的身体，智慧的头脑，以及无限的庇佑。3感恩爱人的陪伴与支持和呵护。4感恩孩子们勇猛精进的自我成长。5感恩装修马老师对我人品的称赞6感恩所有为我服务的有形以及无形的众生7感恩好朋友为孩子打印
Go语言调度器深度解析：sysmon的核心作用与实现原理码农老gou GO golang 服务器
在Go语言的并发世界中，Goroutine的高效调度是性能保障的核心。除了众所周知的G-M-P模型，runtime中还有一个默默运行的"幕后英雄"——sysmon（系统监控协程）。作为Go调度器的重要组成部分，sysmon承担着系统级监控、网络轮询、垃圾回收触发等关键任务。本文将深入剖析sysmon的工作原理，通过源码和图示揭示其在Go运行时中的核心作用。一、sysmon的核心职责：系统级监控中枢
一般京东什么时候有大活动降价？京东新年降价多还是双十一降价多？高省APP
京东新年降价多还是双十一降价多？很多用户都想知道在哪个时候能享受到更多的降价优惠，是京东新年降价多还是双十一降价多？本篇文章将围绕此问题展开探讨，并尽力提供相关信息，以帮助您更好地了解京东的促销策略。网购你是直接下单吗？还是说用别人的口令和链接下单？千万不要这么做了，网购是可以领取隐藏优惠券和高额返佣的。如果你直接下单的话，就不能领取隐藏优惠券和商家给的返佣了。如果你是通过别人分享的链接或者口令下
【亲测免费】懒人Vim配置：lazyvim指南申华昶
懒人Vim配置：lazyvim指南懒人Vim配置（lazyvim）是一款专为追求高效简化工作流程的开发者设计的Vim配置集。本指南旨在帮助您快速了解并上手lazyvim，以享受定制化编辑器带来的高效率。1.项目介绍lazyvim是一个精心打造的Vim配置方案，它基于简约而不失强大的设计理念，致力于提供开箱即用且高度可定制化的Vim环境。这个项目旨在减少初学者和经验丰富的开发者在配置Vim上的时间消
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
直接封袖的暗恋文案 9a46a38f3f09
1、蛮普通的蛮心动的2、在茫茫人海中我总能一眼锁定你3、假装看不见，余光千百遍4、幸好思念无声，可惜思念无声5、怕你知道怕你不知道6、我把你写在风里，从此整个世界是你7、偶尔想你，时常偶尔8、比起你的脸，我更熟悉你的鞋子和背影9、我偷偷的碰了你一下，不料你像蒲公英一样散开，此后记忆里都是你的影子10、我也曾为了看你一眼，望遍整个校园11、其实别人提起你的时候，我都有认真偷听12你闪烁一下，我的世界
Python返回函数完全指南：从基础到高级应用 Python_trys python 数据库开发语言 Python教程 Python技巧 Python入门 Python基础
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取】前言在Python编程中，函数不仅可以执行操作，还可以作为返回值，这种特性为编程带来了极大的灵活性和强大的表达能力。本文将全面介绍Python中的返回函数，从基础概念到高级应用场景，帮助开发者掌握这一重要特性。一、返回函数的基本概念1.1什么是返回函数？返回函数指的是一个函数可以返回另一个函数作为其结果。在Python中，函数是一等对象，可
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
6月8日星期五雨天橄榄绿_7e3a
下午放学，送女儿去跆拳道馆的路上，我和女儿边走边聊天。“yueyue呀，今天和昨天，妈妈送姐姐去参加高考，七年后的今天，我就该送你去参加高考了。”我搂着女儿的肩膀开玩笑地对她说道。“是吗？”女儿扬起脑袋问我，小眼睛一眨一眨的。“是的，猪宝宝（女儿属猪），你准备好了吗？”我故意异常坚定的回答道。“没有。”女儿毫不犹豫地回答，同时哈哈大笑。“猪宝宝，那么从现在开始准备吧。”我拍拍她的肩膀。“妈妈，不许
神经网络常见激活函数 13-Softplus函数亲持红叶神经网络常见激活函数神经网络人工智能深度学习
文章目录Softplus函数+导函数函数和导函数图像优缺点PyTorch中的Softplus函数TensorFlow中的Softplus函数Softplus函数+导函数Softplus函数Softplus⁡(x)=ln⁡(1+e x)\begin{aligned}\operatorname{Softplus}(x)&=\ln\bigl(1+e^{\,x}\bigr)\end{aligned}Sof
油价猛涨突破110美元？加油更贵了该咋办？慕容随风
据证券时报3月2日的报道，在石油股暴涨的背后，是油价的再度飙涨。布伦特油价时隔多年再次突破110美元。而国内和石油相关的期货上午亦集体飙涨，多个相关期货品种涨停。行情数据显示，截至收盘，沪指跌0.13%，深成指跌1.05%，创业板指跌1.77%。行业板块方面，石油、有色金属、煤炭等资源类板块领涨。据彭博资讯，2021年俄罗斯向欧洲输送的管道天然气占欧洲总进口量的35%，俄罗斯原油出口占据欧洲进口总
个人成长|很庆幸，我放弃了北大光华和五道口的MBA 丽松Lisong
（照片摄于2018年10月，美丽的斯坦福校园）人生总是会有很多遗憾，但是可能到某个时间点，对于过往的一些遗憾，你会突然变得释然，甚至庆幸。虽然在有些人眼里MBA并不值钱，但北大光华和清华五道口金融学院的MBA项目并不是像很多人以为的“花钱就能上”，真的申请过的人会知道。到目前为止，我依然认为北大的光华管理学院是中国最好的商学院之一，五道口金融学院更是中国最好的金融学院（没有之一）。对于一个有“名校
Spring AI高级RAG功能查询重写和查询翻译非ban必选 deepseek spring 人工智能 java
1、创建查询重写转换器//创建查询重写转换器queryTransformer=RewriteQueryTransformer.builder().chatClientBuilder(openAiChatClient.mutate()).build();查询重写是RAG系统中的一个重要优化技术，它能够将用户的原始查询转换成更加结构化和明确的形式。这种转换可以提高检索的准确性，并帮助系统更好地理解用户
2021-03-18 Linux进阶-from Biotrainee 乔帮主_d2ac
vim编辑器Vim编辑器：大多数Linux都会自带的文本编辑器。功能强大：代码补全、编译及错误跳转等方便编程的功能特别丰富，在程序员中被广泛使用。功能强大到其官方现在对自己的定位是“程序开发工具”Vim编辑器：三种模式image.png命令模式方向键或者hjkl^和$：快速到所在行的开头和末尾（用0也可以到开头）30j：向下移动30行（数字+方向进行快速移动）ctrl+f或b:上下翻页（forwa
（连载）木鱼录第二十章独陌行
第二十章丹羽失踪迹青夕丢性命我和江璐已经辞职，和长风一起来帮着大头打理清缘茶社，我们的事情没有进展，茶社的生意却是越来越好。这天我们几个正坐在茶社大厅闲聊，张有一突然出现在面前，他告诉了我们一个惊人的消息，丹羽的炼丹房炸了，丹羽不知所踪，有人看见张守星和丹羽的徒弟青夕浑身是血，一前一后从废墟中出来，然后也不知道去了哪里。他还说，失踪的那六位正神都回来了，他们开始打理天庭事物，但是谁劫持了他们？为什
spring.factories文件的作用骆驼整理说分布式微服务框架开源框架及中间件 spring 后端 java springboot
目录配置项解析机制原理详解spring.factories文件在SpringBoot的jar包中，存在一个名为META-INF/spring.factories的文件，该文件定义了所有可用的自动配置类。配置项在spring.factories文件中，常见的配置项包括但不限于以下几种：自动配置类：用于指定自动配置类，这些类会在SpringBoot启动时根据类路径下的jar包和配置自动进行bean的创
鬼谷子：人有四种，你是哪种？永泉说鬼谷
鬼谷子原文：粤若稽古，圣人之在天地间也，为众生之先。观阴阳之开阖以名命物，知存亡之门户，筹策万类之终始，达人心之理，见变化之朕焉，而守司其门户。译文：从古至今，生活在天地之间的圣人，就是要成为众人的先导。通过观察阴阳开阖的变化来对事物作出判断，并进一步了解事物生存和死亡的关键。策划事情发展的开头与结尾，通晓其中的人性的之理，通过事物发展过程中的微小变化，而守住事物发展的关键要害。（1）如何做圣人人
HTML之创建容器和表格一百天成为python专家 java 开发语言前端 css html html5
创建容器为了让网页的布局更加美观，HTML提供了容器的概念，即在网页中占用一块区域,在此区域内可以添加多种标签,且这些标签只会在该区域内显示，使得标签有了各自的容器，能在各自的区域内显示内容。标签在HTML中使用标签来建立一个容器。其使用形式如下:kdiv>其他标签被标签所包含的标签都隶属于同一个容器,当使用标签设置属性样式(即style通用样式)时整个容器都会显示此样式。示例代码:这里是标题我是
写给未来的爱人-期望与失望 2021-08-25 豆豆_d009
嗨亲爱的：见字如面，又是想你的一天。想你会上瘾，包含的写文章也会上瘾了，慢慢养成这种迟来的记事习惯真好。这个月到8月底了，我来北京也快一年了，这一年像重获新生一般，迟来的自由和迟来的洒脱，昨天晚上冷风夜色，清澈的夜晚提醒我又到了一年结束时，又要年长一岁了。昨晚做了噩梦，梦到视频里有人跳楼，然后尸体很贴心的打了大大的马赛克。都说梦是反的，但是今天早上申请的老师打来电话，马来西亚公立不好申请上了，让改
方南的余生日记2022-06-13 方南一路向东南西北
昨晚8点40多睡的觉，早上6点半起的床。虽然中间睡睡醒醒，但加起来也睡了差不多10个小时——真舒服啊！昨晚睡觉的时候感觉体内燥热，整个嘴唇感觉要被”烧“裂了，但今天早上起床，整个人神清气爽，感觉好多了。果然人生病了，不舒服了，就是要多睡觉，睡一觉就好了，如果难受的睡不着那就要去看医生了。好羡慕00后啊，年轻真好。今天临近下班的时候，和一个同事唠了一会儿嗑，她说她感觉时间过得好慢啊，怎么还没到8月份
本周总结（12、21）糖果屋1968
一、本周回顾，自己的满意度打分(说明为什么)，还可以包括本周的计划完成情况,四象限时间管理分析，本周做得好的和需要改善的。9分本周开始真正关注自己的身体了，并付诸行动。扣一分是自己没有写觉察日记，有觉察但实在不想再趴在电脑前了。1、本周以听书为主，看书《卓有成效的领导者—德鲁克52周教练指南》，坚持每天看一点，循序渐进2、准备年会分享的PPT3、作为观察者参加教练个案（王卫民-祥宇），真实的反馈观
完美日记是哪个国家的品牌完美日记属于什么档次古楼
完美日记是一家备受欢迎的彩妆品牌，深受众多年轻人的喜爱。该品牌的口碑和知名度在短时间内飙升，引起了人们的广泛关注和讨论。那么，你知道完美日记是哪个国家的品牌吗？完美日记属于什么档次呢？让我们一起来了解一下。大家知道吗？网购前上高省app领券巨优惠，购物完成后还能赚一笔佣金。这么香的app，建议反手下载一个，高省官方邀请码VXJ7Q4。高省APP是2022年上线的一款全平台电商综合返利导购平台，由杭
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
Spring AI从入门到精通：构建智能Spring应用的全面指南 java干货仓库 Spring 八股文汇总大模型 spring 人工智能 java
随着人工智能技术的快速发展，将大语言模型（LLM）与企业应用集成已成为趋势。SpringAI作为Spring官方推出的AI集成框架，为开发者提供了便捷、标准化的方式来构建智能应用。本文将从基础概念到高级应用，全面介绍SpringAI的核心功能与实践技巧。一、SpringAI概述1.1什么是SpringAI？SpringAI是VMware于2023年推出的开源框架，旨在简化大语言模型（LLM）与Sp
2021-01-09 做个会思考的老师
写给我的小“猪”娃们亲爱的小猪娃们，新年好！之所以想到要给你们写这封信，源于这段时间来你们带给我的惊喜和改变。不知从什么时候开始，我们的课堂有了灵气，我们的互动也有了默契。每一节课，你们都在用自己的思考，自己的表达向我展示你们的进步。课堂上，最喜欢看到你们认真倾听其他同学的想法时那专注的神情，最喜欢听到你们说：“老师，我还有不同的想法！”你们现在所表现出来的学习状态，和开学时简直是有了180°的大
天寒地冻呵气成霜玄月阅读
好些年没有被冻透的感觉啦！寒潮来袭，正赶上限号，早上真是冻到透心凉！收到铺天盖地的寒潮预警，和四面八方穿暖防冻地叮咛，就提做了充分的准备，上身穿了厚打底➕高领厚羊绒衫➕厚的长羽绒服，下身着毛裤➕羽绒裤➕崭新的雪地靴。出门，楼群里的风打着转，虽隔着厚厚的羽绒服帽子，还能听到其呼啸而过的声音，庆幸口罩遮住口鼻，不然走到车站再等车的功夫，准得冻得鼻涕一把泪一把了。天寒地冻，车上的暖风怎么也不开了呢？一问
spring.factories和org.springframework.boot.autoconfigure.AutoConfiguration.imports 程序员老陈头面试学习路线阿里巴巴 spring java 数据库
spring.factories和org.springframework.boot.autoconfigure.AutoConfiguration.imports都是SpringBoot自动配置机制中的重要组成部分一、spring.factories文件位于resources/META-INF目录下，主要作用不仅可以用来注册自动配置类，还可以用来注册各种其他类型的处理器和服务提供者文件中的内容是一
RabitQ 量化：既省内存又提性能大禹智库《向量数据库指南》《实战AI智能体》人工智能 AI自动化大禹智库 AI智能体向量数据库
突破高维向量内存瓶颈：MlivusCloudRaBitQ量化技术的工程实践与调优指南作为大禹智库高级研究员，拥有三十余年向量数据库与AI系统架构经验的我发现，在当今多模态AI落地的核心场景中，高维向量引发的内存资源消耗问题已成为制约系统规模化部署的“卡脖子”因素。特别是在大规模图像检索、个性化推荐系统和语义搜索引擎中，动辄数亿级别的向量数据需要实时处理，传统全精度索引方式会让内存资源消耗呈指数级增
python爬虫从入门到精通大模型猫叔 python 爬虫数据库
目录一、正确认识Python爬虫二、了解爬虫的本质1.熟悉Python编程2.了解HTML3.了解网络爬虫的基本原理4.学习使用Python爬虫库三、了解非结构化数据的存储1.本地文件2.数据库四、掌握各种技巧，应对特殊网站的反爬措施1.User-Agent2.Cookies3.IP代理五、学习爬虫框架，搭建工程化的爬虫1.创建Scrapy项目2.创建Spider3.编写Spider4.运行Spi
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少