eecho1

nlp方向研究初步---Python爬虫学习心得

跟着导师做nlp方向的研究刚刚起步，首要任务是走一个中软杯项目的流程。此间，第一阶段是学习python爬虫相关知识，获取一些网页最好是功能性网页的数据，解析成json格式用作于后面的训练集。30+的网课学下来加上自己爬取baidu搜索信息，csdn个人博客，梨视频以及爆米花视频的实战，对Python爬虫有了些初步、浅薄的理解，于此分享一下，也记录下这一个月来的学习经历。

首先，爬虫是什么呢？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。——摘自百度百科。概况起来是一种获取数据的手段。就我个人初学而言，无论是抓取一些文本内容抑或是视频，爬虫的大框架是一定的，具体有三：

进入目标url，获取response
解析网页，抓取你想要的数据或进行深入，进入下层你的目标url，循环抓取
将获得的数据保存，例如存入数据库etc

以上是写一个一般中小爬虫的常规思路，优点是思路较为清晰，每一步都可以清楚的知道自己在干什么；缺点是代码耦合度高，有一些机械的工程并不需要重复编写。所以灵活的使用一些框架，如scrapy框架等，框架能够解决重复劳动的问题，让你写一些核心代码时候更为简单。

废话多不说，下面就来析解一下我试写的几个爬虫程序。

一、爬取csdn博主的所有博客

1、首先思考写这个程序要用到什么包，开头可以import几个 ‘搭眼一看呼之欲出’ 的包。如图1

import requests
import  re
import os
from pyquery import PyQuery as pq
from requests import RequestException
from config import *
import pymongo

requests模块一般是必要的，使用它可以对url进行请求，返回一个响应，你可以拿到你想要的html text内同，二进制content内容等等，是第一步进入对应url的工具。

re模块为正则表达式模块，利用re模块的相关方法，可以让你更灵活的解析网页内容，拿到你所需要的数据。同时，它还是很多解析库的根本，例如pyquery、beautifulsoup都是封装好的re类。

os模块开辟文件储存，是保存数据的一种方式。

使用pyquery模块可以更为方便的解析网页数据，它和jquery的语法结构很相像，如果之前你熟悉jquery，那么pyquery对你而言会更好用一些。细微之处可以也使用re方法微调

from requests import RequestException 在try except结构时候可以用到，捕捉一些在进行url请求时候可以预知的错误，使你的程序更加健壮，不会因为一些小情况就报错结束进程。

from config import * 其中，config是我们创建的python文件，我们可以将一些参数写在config文件里，方便spider.py清晰地调用。

import pymongo 导入pymongo模块。pymongo是一个比较好用的轻量型数据库，储存数据的一种选择。

2、接下来我们缕一缕思路，该怎么爬取csdn博主文章呢？随意打开一个博主的文章页面。

多打开几个博主的blog，会发现url规律：

'https://blog.csdn.net/{}/article/list/{}?t=1

第一个{}是博主id，第二个{}是页码数。好了，现在我们找到了两个直接参数，后续通过传入这两个参数，就可以实现爬取不同博主博客和翻页爬取的效果。

下面进入第一个步骤：请求网页，返回响应。因为csdn网页拒绝爬虫直接访问，我们要把它简单的伪装一下，加一个简易的header即可

header = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
         }

def get_csdn_page(bloger, page_number):

    response = requests.get(('https://blog.csdn.net/{}/article/list/{}?t=1').format(bloger, page_number), headers = header)
    try:
       if response.status_code == 200:
         html = response.text
         return html
       return  None
    except RequestException as a:
        print(a)

完成了第一步，我们拿到了html = response.text,就拿到了网页上所有数据，接下来就要进行解析，找到我们想要的有效数据。

观察网页结构 https://blog.csdn.net/myiloveuuu/article/list/1?t=1

Chrome浏览器邮件点击检查，可以看到博客的所在的div标签对非常清晰，他们在 div.article-list 的大div对里，这里直接对div.article-list copy selector，再选择其article-item-box类，定位到我们要的文章块，同时利用Pyquery解析，再以一个循环拿到我们要的各种文章属性。这里，像item('a').attr('href')这样的语句，是pyquery中选择元素，css样式从而抓取到对应内容，有时候标签过大或者过小都会对你抓取的内容产生影响，最好反复试验几次。

有关于pyquery中一些方法规则的使用，可以参考这个链接 https://www.jianshu.com/p/0194db905497

def parse_csdn_page(html):
    doc = pq(html)
    items = doc('#mainBox > main > div.article-list .article-item-box').items()
    for item in items:
        product =  {
            'url': item('a').attr('href'),
            'iscreate': item('span').text().strip(),
            'content': item('.content').text().strip(),
            'title': item('h4').text()[1:].strip()
         }

        url = product.get('url')
        if(get_csdn_detail(url)):
             parse_csdn_detail(get_csdn_detail(url))


        if (product):

          save_to_mongo(product)
        else:
         break

拿到了文章大略信息，我们还不满足，想进入每一个文章链接，爬取文章全部内容，所以我在后面编写了parse_csdn_detail （html) get_csdn_detail(url)这两个方法去拿到文章本身，其原理是类似的。

def get_csdn_detail(url):
    response = requests.get(url,  headers=header)
    try:
        if response.status_code == 200:
            html = response.text
            return html
        return None
    except RequestException as a:
        print(a)


def parse_csdn_detail(html):
    doc = pq(html)
    items = doc('#article_content > div.markdown_views').items()
    for item in items:
        content = {
            'article': item('.markdown_views') .text().strip().replace('\n', '  ')
        }
        save_to_mongo2(content)
    items = doc('#article_content > div.htmledit_views').items()
    for item in items:
        content = {
            'article2': item('.htmledit_views').text().strip().replace('\n', '  ')
        }
        save_to_mongo2(content)

csdn有个比较刁钻的地方，它的博主文章主页的结构会有不同，目前我见到了三种版本，文章块对应的div标签对主要有两种

如上图所示连个文段的大DIV标签对是不同的，要特别注意这个坑。我第一次测试的时候，只能爬到一部分的文章，代码段也没有报错，找了半天想到了可能是网页结构的细微变化，导致 items = doc('#article_content > div.markdown_views').items() 只能有定位到一部分网页的文章块。

可以看到，几段代码块中都调用了save_to_mongo或save_ton_mongo2函数，这是将拿到的数据存入数据库中的操作。

这样，通过外层的循环，遍历博客页中的每一条文章的基本信息（'url', 'iscreate', 'content' 'title'），将4项信息存入数据库中，同时对于每一条url进行请求，爬取文章全部内容，并存入数据库中，如果一页被爬完，则利用循环执行翻页操作。实现个人博客的全部爬取。

全部代码如下：

import requests
import  re
import os
from pyquery import PyQuery as pq
from requests import RequestException
from config import *
import pymongo

i = 1
client = pymongo.MongoClient(MONGO_URI)
db = client[MONGO_DB]
header = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
         }

def get_csdn_page(bloger, page_number):

    response = requests.get(('https://blog.csdn.net/{}/article/list/{}?t=1').format(bloger, page_number), headers = header)
    try:
       if response.status_code == 200:
         html = response.text
         return html
       return  None
    except RequestException as a:
        print(a)

def parse_csdn_page(html):
    doc = pq(html)
    items = doc('#mainBox > main > div.article-list .article-item-box').items()
    for item in items:
        product =  {
            'url': item('a').attr('href'),
            'iscreate': item('span').text().strip(),
            'content': item('.content').text().strip(),
            'title': item('h4').text()[1:].strip()
         }

        url = product.get('url')
        if(get_csdn_detail(url)):
             parse_csdn_detail(get_csdn_detail(url))


        if (product):

          save_to_mongo(product)
        else:
         break


def get_csdn_detail(url):
    response = requests.get(url,  headers=header)
    try:
        if response.status_code == 200:
            html = response.text
            return html
        return None
    except RequestException as a:
        print(a)


def parse_csdn_detail(html):
    doc = pq(html)
    items = doc('#article_content > div.markdown_views').items()
    for item in items:
        content = {
            'article': item('.markdown_views') .text().strip().replace('\n', '  ')
        }
        save_to_mongo2(content)
    items = doc('#article_content > div.htmledit_views').items()
    for item in items:
        content = {
            'article2': item('.htmledit_views').text().strip().replace('\n', '  ')
        }
        save_to_mongo2(content)




def save_to_mongo(result):
    try:
        if db[MONGO_TABLE].insert(result):
          print('保存到MongoDB成功', result)
    except Exception:
        print('存储到MongoDB时发生错误', result)



def save_to_mongo2(result):
    try:
        if db[MONGO_TABLE2].insert(result):
          print('保存到MongoDB成功', result)
    except Exception:
        print('存储到MongoDB时发生错误', result)



def main():
    for i in range(1, 20):
     parse_csdn_page(get_csdn_page('myiloveuuu',i))



if __name__ =='__main__':
  main()

此上代码也有很多需要改进的地方，如果使用selenium模块模拟操作，则可以使用

submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button')))
input.send_keys(KEYWORD)
submit.click()

模拟点击“下一页”实现更好的翻页操作，而不是像我这里简化省事，用for循环去做，直到获取不了相应内容，则break掉。

其次是

'article': item('.markdown_views') .text().strip().replace('\n', '  ')

'article2': item('.htmledit_views').text().strip().replace('\n', '  ')

这两块明显耦合，事实上，对于item来讲，这里一共有两个class，不过用or并没有作用，没想出好方法能够提供析取选择，于是分开写了两遍。很有改进的地方。

二、爬虫爬取梨视频

上面有提及，编写爬虫程序的思路大抵相同，就算不使用框架，也有一种惯用的思路贯穿其中。

进入目标url，获取response
解析网页，抓取你想要的数据或进行深入，进入下层你的目标url，循环抓取
将获得的数据保存，例如存入数据库etc

爬取视频和爬取文本网页区别不大，区别是一些视频的真实url是隐藏的，不会乖乖地束手就爬。但是相对的，拿到视频真实url后，下载视频并保存相对于文本来说并不是很复杂。下面是我爬取梨视频中社会视频的实战。

代码前段的设置header、获取url相应与之前相似。区别是这次的解析使用了beautifulsoup解析库，关于beautifulsoup的一些方法使用，可以参考 https://blog.csdn.net/love666666shen/article/details/77512353

代码如下所示，注释标注在代码里：

import requests
import  re
from bs4 import BeautifulSoup
import  urllib.request

#用header伪装浏览器
headers={

   'User-Agent':  'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
#试图爬取梨视频社会视频：http://www.pearvideo.com/category_1



def downloadvideo(url):
    html = requests.get(url,headers = headers)
    # 解析url

    soup = BeautifulSoup(html.text, 'lxml')

    # 观察到视频信息集中于vervideo-bd的div中，通过循环拿到有用的id 和 title

    for video in soup.select('.vervideo-bd'):
        id = video.select('a')[0]['href']
        title = video.select('.vervideo-title')[0].text
        # 单个视频的详情页
        new_url ='http://www.pearvideo.com/{}'.format(id)
        resp = requests.get(new_url, headers = headers).text
        req = re.compile(r'srcUrl="(.*?)"')
        #拿到视频真正url
        url_video = re.findall(req, resp)[0]
        global i

        print('正在下载第{}个小视频'.format(i), title, url_video)
        savevideo(url_video)
        i+=1

def savevideo(url):
    global i
    # 保存视频
    urllib.request.urlretrieve(url,'F:\pearvideo store\{}.mp4'.format(i))


def loadmorevideo():
    n= 12
    while True:
        url = 'http://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=1&start={}&mrd=0.7947432069877813&hotContIds=1448376,1448374,1448379'.format(n)
        downloadvideo(url)
        n+=12
        # 观察到加载更多时url start={}处数字每次叠加12
        if n>48:
            return


def main():
    loadmorevideo()




if __name__  == '__main__'  :
   i=1
   main()

经此一个月的学习，了解了一下爬虫的相关原理与基础知识，巩固了一下Python语法，初步掌握了一些基本解析库的使用，获取一些防护不强的网页的文本，图片，视频还是可以的。总结这段经历后，前路仍是漫漫，向着更远的地方前行吧！

我的投资组合网站：打造个性化的在线投资展示平台 Tranyn.X
本文还有配套的精品资源，点击获取简介：本文介绍如何创建和设计一个在线平台，用于展示个人或专业投资者的投资策略、历史表现和投资理念。网站的构建涉及网页布局、响应式设计、CSS样式控制、内容管理、数据分析、SEO优化、安全性、用户体验、个性化和社交媒体整合等多个方面，确保网站既具有吸引力又能够有效地传达投资者的专业形象和投资成就。1.投资组合网站构建与网页布局设计网站构建的初步规划在当今数字化时代，构
Manus AI：国产AI Agent的破局与隐忧 Hello kele 人工智能人工智能程序员经验分享 AI编程
2025年3月，国内AI领域突然杀出一匹黑马——ManusAI。这个自称全球首个通用AIAgent的产品，凭借"自主完成复杂任务"的核心能力，在技术圈掀起了不小的波澜。官网演示中，它能自动筛选简历、生成房产分析报告、甚至编写股票研究PPT，被网友戏称为"数字世界的私人助理"。但随着内测的展开，关于它的争议也开始浮出水面。一、技术突围背后的故事Manus的开发团队Monica.im颇为低调。创始人肖
DeepSeek与剪映短视频创作指南 meisongqing 人工智能 DeepSeek 剪映
DeepSeek（深度求索）作为一家专注实现AGI的中国公司，其技术可能涉及AI文本生成、图像处理等领域，结合剪映的智能剪辑功能，可以大幅提升短视频创作效率。以下是结合两者优势的详细创作步骤：一、创意策划阶段AI灵感激发使用DeepSeek的AI文本生成功能，输入关键词（如"美食教程"、"科技科普"）获取创意方向生成10-20个标题备选（示例Prompt："生成10个吸引年轻人的美妆短视频标题"）
中国团体保险行业发展规模及投资发展趋向研究报告2021-2027年 Le9420 电子商务
第1章：中国团体保险行业发展综述1.1团体保险行业定义及特点1.1.1团体保险行业的定义1.1.2团体保险行业产品/业务特点（1）团体保险与个人保险（2）团体保险与社会统筹保险1.2团体保险行业统计标准1.2.1团体保险行业统计口径1.2.2团体保险行业统计方法1.2.3团体保险行业数据种类1.2.4团体保险行业研究范围（1）团体人寿保险（2）团体健康保险（3）团体意外伤害保险第2章：美国团体健康
机试题——农田修复指针从不空 #hw机试题算法 c++
题目描述小明的农田受到地震的破坏，农田中的一些网点断开了联系。假设原本的农田网构成一个矩形，其中未被破坏的网点标记为1，被破坏的网点标记为0。标记为1的网点连在一起构成一个子网。现在，小明需要找到一个目标网点，并找出离它最近的其他子网。请注意，两个网点相连只能通过上下左右四个方向，不可以通过斜对角相连。两个网点的距离定义为从一个网点（假设网点名为C）到达另一个网点（假设网点名为D）需要经过相连网点
我与DeepSeek读《大型网站技术架构》（3）诺亚凹凸曼架构
大型网站架构的核心要素《大型网站技术架构：核心原理与案例分析》第三章聚焦于大型网站架构的核心要素，从技术维度剖析了构建高可用、高性能、可扩展系统的关键设计方向。1.五大核心架构要素(1)性能（Performance）目标：快速响应用户请求，优化用户体验。关键策略：前端优化：CDN加速静态资源、合并压缩JS/CSS、浏览器缓存。服务端优化：缓存（Redis/Memcached）、异步处理（消息队列）
HCIE数通 VS HCIE云计算：如何选择最适合你的方向？ IT程序媛-桃子数通华为认证云计算云计算华为数通
在华为认证体系中，HCIE（HuaweiCertifiedInternetworkExpert）无疑是技术专家级别的标志。而在众多HCIE认证方向中，数通（Datacom）和云计算（CloudComputing）成为了很多考生纠结的焦点。它们各有优势，那么对于不同的职业发展规划，应该选择哪个更适合自己呢？【点赞+关注】私我领取华为认证考试复习资料/题库今天，我们就从多个角度来详细对比HCIE数通和
JavaScript模块化开发的演进历程 IronKee JavaScript javascript 前端
写在前面的话js模块化历程记录了js模块化思想的诞生与变迁历史不是过去，历史正在上演，一切终究都会成为历史拥抱变化，面向未来延伸阅读-JavaScript诞生（这也解释了JS为何一开始没有模块化）JavaScript因为互联网而生，紧随着浏览器的出现而问世1990年底，欧洲核能研究组织（CERN）科学家Tim，发明了万维网（WorldWideWeb），最早的网页只能在操作系统的终端里浏览，非常不方
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
洛谷P5731 【深基5.习6】蛇形方阵 westdata-Tm 数组算法模拟
P5731【深基5.习6】蛇形方阵题目描述给出一个不大于999的正整数nnn，输出n×nn\timesnn×n的蛇形方阵。从左上角填上111开始，顺时针方向依次填入数字，如同样例所示。注意每个数字有都会占用333个字符，前面使用空格补齐。输入格式输入一个正整数nnn，含义如题所述。输出格式输出符合题目要求的蛇形矩阵。输入输出样例#1输入#14输出#112341213145111615610987说
使用css画三角形伊小小小凡 css 前端
使用css画三角形在CSS中，可以通过利用border属性来创建三角形。其原理是通过设置一个元素的宽高为0，然后给其设置不同方向的边框，并将不需要的边框颜色设置为透明，从而形成三角形的形状。以下是使用CSS创建三角形的示例代码：基本三角形.triangle{width:0;height:0;border-left:50pxsolidtransparent;/*左边框*/border-right:5
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
从零开始构建大模型(LLM)应用和老莫一起学AI 人工智能 ai 大模型语言模型 llm 自然语言处理学习
大模型（LLM）已经成为当前人工智能的重要部分。但是，在这个领域还没有固定的操作标准，开发者们往往没有明确的指导，需要不断尝试和摸索。在过去两年中，我帮助了许多公司利用LLM来开发了很多创新的应用产品。基于这些经验，我形成了一套实用的方法，并准备在这篇文章中与大家分享。这套方法将提供一些步骤，帮助需要的小伙伴在LLM应用开发的复杂环境中找到方向。从最初的构思到PoC、评估再到产品化，了解如何将创意
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
如果，你想找 AI大模型相关的工作，这三个建议你一定要看！我爱学大模型人工智能 chatgpt AI大模型 AI 大模型入门转行程序员
01各种大厂小厂创业团队和AI擦边的面试难度，由难到简单，依次是：大模型算法（⭐⭐⭐⭐⭐）模型部署加速（⭐⭐⭐⭐）RAG等相关技术（⭐⭐⭐）纯应用（⭐⭐）Prompt工程师等其他自媒体（⭐）会简单应用就行02这结果方向，B站找几个视频看看，这里推荐用Qwen7B，开源的模型，一个3060都能跑。例如这个，如何微调Qwen开源模型。https://www.bilibili.com/video/BV1
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention UnknownBody LLM Daily Multimodal 语言模型人工智能大数据
摘要共同注意是儿童早期语言发展的关键组成部分，也是亲子互动有效性的重要指标。然而，目前对共同注意的检测和分析研究仍然有限，尤其是在多模态大语言模型（MLLMs）方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频，评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段，作为评估模型解释能力的基准。我们的研究结果显示，由于当前的多模态大语言模型对儿童发起的眼神交
哪个AI论文生成助手好用？5 款AI论文工具深度评测 AI论文图鉴人工智能
2025年，AI论文写作工具如雨后春笋般涌现，迅速在学术圈走红。身为一个常被论文写作困扰的“懒人”，我对这些工具的实际表现充满好奇。于是，我亲测了五款当下国内外最热门的AI论文写作助手，从功能、交互、写作水平、写作效率等维度进行全面评测，结果令人惊喜。相信这篇文章能为仍在观望的你带来新的启发与认识。这次测评，我挑选了五款极具代表性的AI工具，以“基于大语言模型的医疗诊断研究”为主题，看它们如何大显
【Unity】灯光Light xiaoaiyu___ unity 游戏引擎
Type：光照类型，一共有四种Directionallight：方向光，类似太阳的日照效果。Pointlight：点光源，类似蜡烛。Spotlight：聚光灯，类似手电筒。AreaLight：区域光，无法用作实时光照，一般用于光照贴图烘培Color：光源的颜色，自己选Mode：光照模式Realtime实时：运行时每帧计算并更新实时灯光。没有预先计算实时灯光。Mixed混合：一种提供烘焙和实时功能的
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
AbMole| 纳米药物递送系统IL@H-PP在乳腺癌和脑转移光热疗法 AbMole AbMole 生物化学生物试剂科研生物实验
近年来，光热疗法（PTT）作为一种非侵入性的癌症治疗手段，因其独特的优势而受到广泛关注。来自四川大学华西药学院药物靶向与药物递送系统重点实验室的范童,胡海丽,徐燕燕等多名研究人员发表了题为《HollowcoppersulfidenanoparticlescarryingISRIBforthesensitizedphotothermaltherapyofbreastcancerandbrainmet
R+VIC 模型融合实践技术应用及未来气候变化模型预测 weixin_贾水文模型集合水文水资源防洪评价风险评估滑坡泥石流数学建模经验分享
目前，无论是工程实践或是科学研究中都存在很多著名的水文模型如SWAT/HSPF/HEC-HMS等。虽然，这些软件有各自的优点；但是，由于适用的尺度主要的是中小流域，所以在预测气候变化对水文过程影响等方面都有所不足。VIC模型是一个大尺度的半分布式水文模型，其设计之初就是为了模拟大流域的水文过程；它能够计算陆地－大气的能量通量，考虑土壤性质和土地利用的影响，自带有简化的湖泊/湿地模块，也能够将植被状
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
数据分享｜1961-2017年中国0.25°×0.25° 逐日地表水文数据集(VIC-CN05.1) JGiser GIS数据未分类（气象等等）arcgis
缺乏长期高精度的地表观测给我国水文气象研究带来了很大的不确定性。本数据基于陆面水文模式（VICv4.2.d,VariableInfiltrationCapacitymodel）模拟构建了中国1961~2017年0.25°×0.25°逐日地表水文数据集（VIC-CN05.1）。大气驱动场（降水、温度和风速）来自基于中国2400多个站点观测资料插值而成的0.25°×0.25°逐日气象数据集（CN05.
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
新的一年，新的感受和成长是小天才哦 #高职生闲谈服务器
本人现在是工作快2年的打工人，我是前年7月份毕业的大专生。其实我在大学刚开始的时候因为体验过社会的毒打，所以发誓一定要好好学习，而我也的确好好学习了，在学校2年时间里，大部分时间都是在图书馆里面看书，主要为啥天天在图书馆很大原因是本专业的课程自己不是非常喜欢（我是人工智能专业，人工智能专业大专学历出来基本也是打框的无聊活）所以我就自己学习了系统运维方向，这个过程也考取了RHCE认证，也是因为这个认
地理信息系统（ArcGIS）在水文水资源、水环境中的技术应用岁月如歌，青春不败水文水资源 arcgis 水文模型水文资源水文水资源水质模型洪水地理信息系统
在水文水环境保护中，对于信息的采集、处理和分析是关键步骤。水文水环境及其相关数据均具有空间分布特征，传统的方法难以发挥作用。地理信息系统（GIS）强大的空间数据管理和分析功能，在空间信息处理上有独到的优势，是研究区域水文水环境的空间差异的有力工具，GIS在水文水环境中的应用对解决水文水环境中许多问题起着重要的作用与意义。一：ARCGIS数据管理1.1ArcGIS界面及数据加载1.2ArcGIS常见
MySQL自动建立集合自动分片_1.mongodb初步使用总结海上行走的狮子 MySQL自动建立集合自动分片
mongoDB2.6使用总结一、准备工作下载java驱动包驱动包下载地址：http://www.doczj.com/doc/3305bc20960590c69ec376c0.html/artifact/org.mongodb/mongo-java-drivermongoDB下载：http://www.doczj.com/doc/3305bc20960590c69ec376c0.html/在线api
【氮化镓】用于低压射频电源的具有80.4% PAE的Si基E-Mode AlN/GaN HEMT 北行黄金橘氮化镓器件可靠性 GaN 科技氮化镓ＧａＮ　HEMT PAE
引言本文是一篇关于增强型（E-mode）AlN/GaN高电子迁移率晶体管（HEMTs）的研究论文，晶体管是在硅衬底上制造的，并在3.6GHz频率下展示了80.4%的峰值功率附加效率（PAE）。文章首先介绍了GaN器件在微波和毫米波功率放大器中的应用，特别是在雷达、卫星通信和民用移动通信系统中。这些应用对器件的性能要求极高，包括高功率密度、高效率和低供电电压。文章指出，与耗尽模式（D-mode）相比
【氮化镓】基于SiC脉冲I-V系统研究Schottky型p-GaN HEMT正栅极ESD机制北行黄金橘氮化镓器件可靠性人工智能氮化镓 GaN HEMT ESD 脉冲测试
这篇文章题为《InvestigatingForwardGateESDMechanismofSchottky-Typep-GaNGateHEMTsUsingaSiC-BasedHigh-SpeedPulsedI-VTestSystem》，发表于《IEEEElectronDeviceLetters》2024年7月刊。研究重点是探讨肖特基型p-GaN门极高电子迁移率晶体管（HEMTs）在正向门极人体模型
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

nlp方向研究初步---Python爬虫学习心得

一、爬取csdn博主的所有博客

二、爬虫爬取梨视频

你可能感兴趣的:(nlp方向研究初步---Python爬虫学习心得)