mnwl12_0

自然语言处理：提取长文本进行文本主要内容（文本意思）概括（两种方法，但效果都一般）

本文主要针对长文本进行文本提取和中心思想概括，原文档放在了附件里面：<科大讯飞公告>

-----------------------------------方法一：jieba分词提取文本（句子赋分法）-------------------------

1、首先导入相关库并读取文档内容：

import pandas as pd
df=pd.read_csv(r'C:\Users\59980\Desktop\peixun\科大讯飞_公告.csv',encoding='GBK')
#df['公告内容']
text=""
for line in df['公告内容'][0]:
    text+=line
text

这里仅作演示所以只读取了文档的第一条数据文本，如果要对每一行文本处理，可以做个for循环,这里就不演示，比较简单。

原文档内容格式：

证券代码：002230      证券简称：科大讯飞      公告编号：2022-001
                  科大讯飞股份有限公司

      关于合肥连山创新产业投资基金完成备案的公告

  本公司及董事会全体成员保证信息披露内容真实、准确和完整，没有虚假记载、误导性陈述或者重大遗漏。

    为加快构建人工智能技术应用生态体系，借助专业机构的投资管理经验及其他产业投资人在生命科技、新能源、智能制造、新消费等领域的产业资源优势，深化人工智能技术在新领域应用的探索，进行优质项目的发掘与培育，提升赋能支持能力，并推动人工智能在各行业应用的深度融合和广泛落地，科大讯飞股份有限公司（以下简称 “公司”）与普通合伙人合肥科讯创业投资管理合伙企业（有限合伙），及有限合伙人田明、曹仁贤、陈先保、安徽安科生物工程(集团)股份有限公司、三亚高卓佳音信息科技合伙企业（有限合伙）、郭子珍、魏臻、朱庆龙和吴华峰等共同出资设立合肥连山创新产业投资基金合伙企业（有限合伙）（以下简称“基金”）。其中科大讯飞以自有资金作为基金的有限合伙人出
资 11,000 万元，占基金总认缴出资额的 22%。具体内容详见公司于 2021 年 11 月 19 日在
《证券时报》《中国证券报》《上海证券报》《证券日报》和巨潮资讯网（www.cninfo.com.cn）披露的《关于对外投资的公告》（公告编号：2021-096）。

    近日，公司接到通知，该基金已根据《证券投资基金法》和《私募投资基金监督管理暂行办法》等法律法规的要求，在中国证券投资基金业协会完成备案手续，并取得《私募投资基金备案证明》。主要情况如下：

    备案编码：STP473

    基金名称：合肥连山创新产业投资基金合伙企业（有限合伙）

    管理人名称：合肥科讯创业投资管理合伙企业（有限合伙）

    托管人名称：招商银行股份有限公司

    公司将根据该基金的后续进展情况，按照有关法律法规的规定和要求，及时履行信息披露义务。敬请广大投资者注意投资风险。

    特此公告。

科大讯飞股份有限公司
      董 事 会

 二〇二二年一月八日

看文本提取的内容：

整理成一行了。

2、数据清洗

#清洗数据
import re
import jieba
text = re.sub(r'[[0-9]*]',' ',text)#去除类似[1]，[2]
text = re.sub(r'\s+',' ',text)#用单个空格替换了所有额外的空格
sentences = re.split('(。|！|\!|\.|？|\?)',text)#分句
sentences

这部分要安装的库包括：jieba，re，这部分作用是利用正则表达式把文本去除类似于：[数字]；空格等符号，并按标点符号进行分句。分完句子后效果如下：

3、加载停用词：

文档已经上传到附件里，利用停用词对上述句子进行切分：

#加载停用词

def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords
stopwords = stopwordslist(r'C:\Users\59980\Desktop\peixun\data_stop_word\stop_words.txt')

停用词内容如图：

4、对句子进行打分，形成最终文档：

#统计词频，首次出现赋值为1，否则统计
word2count = {} #line 1
for word in jieba.cut(text): #对整个文本分词
    if word not in stopwords:
        if word not in word2count.keys():
            word2count[word] = 1
        else:
            word2count[word] += 1
for key in word2count.keys():
    word2count[key] = word2count[key] / max(word2count.values())


#根据句子中单词的频率计算每个句子的得分
sent2score = {}#根据句子中单词的频率计算每个句子的得分
for sentence in sentences:#遍历句子
    for word in jieba.cut(sentence):#对每个句子进行分词
        if word in word2count.keys():#每个单词，检查它是否存在于word2count字典中
            if len(sentence)<300:
                if sentence not in sent2score.keys():
                    sent2score[sentence] = word2count[word]#每个单词，检查它是否存在于word2count字典中
                else:
                    sent2score[sentence] += word2count[word]#句子已经在sent2score中，则将来自word2count的单词频率的值加到该句子的现有得分上

#字典排序
def dic_order_value_and_get_key(dicts, count):
    # by hellojesson
    # 字典根据value排序，并且获取value排名前几的key
    final_result = []
    # 先对字典排序
    sorted_dic = sorted([(k, v) for k, v in dicts.items()], reverse=True)
    tmp_set = set()  # 定义集合 会去重元素 --此处存在一个问题，成绩相同的会忽略，有待改进
    for item in sorted_dic:
        tmp_set.add(item[1])
    for list_item in sorted(tmp_set, reverse=True)[:count]:
        for dic_item in sorted_dic:
            if dic_item[1] == list_item:
                final_result.append(dic_item[0])
    return final_result

#摘要输出
final_resul=dic_order_value_and_get_key(sent2score,5)
print(final_resul)

最终输出文本内容如图：

 为加快构建人工智能技术应用生态体系，借助专业机构的投资管理经验及其他产业投资人在生命科技、新能源、智能制造、新消费等领域的产业资源优势，深化人工智能技术在新领域应用的探索，进行优质项目的发掘与培育，提升赋能支持能力，并推动人工智能在各行业应用的深度融合和广泛落地，科大讯飞股份有限公司（以下简称 “公司”）与普通合伙人合肥科讯创业投资管理合伙企业（有限合伙），及有限合伙人田明、曹仁贤、陈先保、安徽安科生物工程(集团)股份有限公司、三亚高卓佳音信息科技合伙企业（有限合伙）、郭子珍、魏臻、朱庆龙和吴华峰等共同出资设立合肥连山创新产业投资基金合伙企业（有限合伙）（以下简称“基金”）', '主要情况如下： 备案编码：STP473 基金名称：合肥连山创新产业投资基金合伙企业（有限合伙） 管理人名称：合肥科讯创业投资管理合伙企业（有限合伙） 托管人名称：招商银行股份有限公司 公司将根据该基金的后续进展情况，按照有关法律法规的规定和要求，及时履行信息披露义务', '证券代码：002230 证券简称：科大讯飞 公告编号：2022-001 科大讯飞股份有限公司 关于合肥连山创新产业投资基金完成备案的公告 本公司及董事会全体成员保证信息披露内容真实、准确和完整，没有虚假记载、误导性陈述或者重大遗漏', ' 近日，公司接到通知，该基金已根据《证券投资基金法》和《私募投资基金监督管理暂行办法》等法律法规的要求，在中国证券投资基金业协会完成备案手续，并取得《私募投资基金备案证明》', '具体内容详见公司于 2021 年 11 月 19 日在 《证券时报》《中国证券报》《上海证券报》《证券日报》和巨潮资讯网（www'

-----------------------------------方法二：封装成界面（句子赋分法）-------------------------

二、把输入和输出封装成界面，最终效果如图：

全代码实现：（不用修改的部分）

import nltk
import jieba
import numpy

#pip install pyQt5，需要安装的库

#分句
def sent_tokenizer(texts):
    start=0
    i=0#每个字符的位置
    sentences=[]
    punt_list=',.!?:;~，。！？：；～'#标点符号

    for text in texts:#遍历每一个字符
        if text in punt_list and token not in punt_list: #检查标点符号下一个字符是否还是标点
            sentences.append(texts[start:i+1])#当前标点符号位置
            start=i+1#start标记到下一句的开头
            i+=1
        else:
            i+=1#若不是标点符号，则字符位置继续前移
            token=list(texts[start:i+2]).pop()#取下一个字符.pop是删除最后一个
    if start

 
  #对句子打分
def score_sentences(sentences,topn_words):#参数 sentences：文本组（分好句的文本，topn_words：高频词组
    scores=[]
    sentence_idx=-1#初始句子索引标号-1
    for s in [list(jieba.cut(s)) for s in sentences]:# 遍历每一个分句，这里的每个分句是分词数组 分句1类似 ['花', '果园', '中央商务区', 'F4', '栋楼', 'B33', '城', '，']
        sentence_idx+=1 #句子索引+1。。0表示第一个句子
        word_idx=[]#存放关键词在分句中的索引位置.得到结果类似：[1, 2, 3, 4, 5]，[0, 1]，[0, 1, 2, 4, 5, 7]..
        for w in topn_words:#遍历每一个高频词
            try:
                word_idx.append(s.index(w))#关键词出现在该分句子中的索引位置
            except ValueError:#w不在句子中
                pass
        word_idx.sort()
        if len(word_idx)==0:
            continue

        #对于两个连续的单词，利用单词位置索引，通过距离阀值计算族
        clusters=[] #存放的是几个cluster。类似[[0, 1, 2], [4, 5], [7]]
        cluster=[word_idx[0]] #存放的是一个类别（簇） 类似[0, 1, 2]
        i=1
        while imax_cluster_score:
                max_cluster_score=score
        scores.append((sentence_idx,max_cluster_score))#存放当前分句的最大簇（说明下，一个分解可能有几个簇） 存放格式（分句索引，分解最大簇得分）
    return scores; 
  需要修改的部分：（路径修改成自己的） 
  def results(texts,topn_wordnum,n):#texts 文本，topn_wordnum高频词个数,为返回几个句子
    stopwords = stopwordslist(r'C:\Users\59980\Desktop\peixun\data_stop_word\stop_words.txt')#加载停用词
    sentence = sent_tokenizer(texts)  # 分句
    words = [w for sentence in sentence for w in jieba.cut(sentence) if w not in stopwords if
             len(w) > 1 and w != '\t']  # 词语，非单词词，同时非符号
    wordfre = nltk.FreqDist(words)  # 统计词频
    topn_words = [w[0] for w in sorted(wordfre.items(), key=lambda d: d[1], reverse=True)][:topn_wordnum]  # 取出词频最高的topn_wordnum个单词

    scored_sentences = score_sentences(sentence, topn_words)#给分句打分

    # 1,利用均值和标准差过滤非重要句子
    avg = numpy.mean([s[1] for s in scored_sentences])  # 均值
    std = numpy.std([s[1] for s in scored_sentences])  # 标准差
    mean_scored = [(sent_idx, score) for (sent_idx, score) in scored_sentences if
                   score > (avg + 0.5 * std)]  # sent_idx 分句标号，score得分

    # 2，返回top n句子
    top_n_scored = sorted(scored_sentences, key=lambda s: s[1])[-n:]  # 对得分进行排序，取出n个句子
    top_n_scored = sorted(top_n_scored, key=lambda s: s[0])  # 对得分最高的几个分句，进行分句位置排序
    c = dict(mean_scoredsenteces=[sentence[idx] for (idx, score) in mean_scored])
    c1=dict(topnsenteces=[sentence[idx] for (idx, score) in top_n_scored])
    return c,c1 
  封装成界面，在界面里输入和输出： 
  from PyQt5.QtWidgets import QApplication, QWidget, QTextEdit, QVBoxLayout, QPushButton,QLabel,QLineEdit,QFormLayout
import sys

class TextEditDemo(QWidget):
    def __init__(self, parent=None):
        super(TextEditDemo, self).__init__(parent)
        self.setWindowTitle("中文摘要提取")
        self.resize(500, 570)
        self.label1 = QLabel('输入文本')
        self.textEdit1 = QTextEdit()

        self.lineedit1 = QLineEdit()#请输入高频词数

        self.lineedit2 = QLineEdit()#请输入返回句子数

        self.btnPress1 = QPushButton("点击运行")

        self.textEdit2 = QTextEdit()#方法1显示
        self.textEdit3 = QTextEdit()#方法2 显示

        flo = QFormLayout()#表单布局

        flo.addRow("请输入高频词数:", self.lineedit1)
        flo.addRow("请输入返回句子数:", self.lineedit2)

        layout = QVBoxLayout()
        layout.addWidget(self.label1)
        layout.addWidget(self.textEdit1)
        layout.addLayout(flo)
        layout.addWidget(self.btnPress1)
        layout.addWidget(self.textEdit2)
        layout.addWidget(self.textEdit3)
        self.setLayout(layout)
        self.btnPress1.clicked.connect(self.btnPress1_Clicked)

    def btnPress1_Clicked(self):
        try:
            text = self.textEdit1.toPlainText()  # 返回输入的文本
            topn_wordnum =  int(self.lineedit1.text())  # 高频词 20
            n =  int(self.lineedit2.text()) # 3个返回句子
            c, c1 = results(str(text), topn_wordnum, n)
            self.textEdit2.setPlainText(str(c))
            self.textEdit2.setStyleSheet("font:10pt '楷体';border-width:5px;border-style: inset;border-color:gray")

            self.textEdit3.setPlainText(str(c1))
            self.textEdit3.setStyleSheet("font:10pt '楷体';border-width:5px;border-style: inset;border-color:red")

        except:
            self.textEdit2.setPlainText('操作失误')
            self.lineedit1.setText('操作失误，请输入整数')
            self.lineedit2.setText('操作失误，请输入整数')


if __name__ == "__main__":
    app = QApplication(sys.argv)
    win = TextEditDemo()
    win.show()
    sys.exit(app.exec_()) 
  最终效果如图： 
   
  总结起来就是没有大模型训练的文本含义提取其效果都比较一般。 
  下面是上面封装界面代码的在python实现，非封装成界面： 
  
#coding:utf-8
import nltk
import jieba
import numpy



#分句
def sent_tokenizer(texts):
    start=0
    i=0#每个字符的位置
    sentences=[]
    punt_list=',.!?:;~，。！？：；～'#标点符号

    for text in texts:#遍历每一个字符
        if text in punt_list and token not in punt_list: #检查标点符号下一个字符是否还是标点
            sentences.append(texts[start:i+1])#当前标点符号位置
            start=i+1#start标记到下一句的开头
            i+=1
        else:
            i+=1#若不是标点符号，则字符位置继续前移
            token=list(texts[start:i+2]).pop()#取下一个字符.pop是删除最后一个
    if startmax_cluster_score:
                max_cluster_score=score
        scores.append((sentence_idx,max_cluster_score))#存放当前分句的最大簇（说明下，一个分解可能有几个簇） 存放格式（分句索引，分解最大簇得分）
    return scores;

#结果输出
def results(texts,topn_wordnum,n):#texts 文本，topn_wordnum高频词个数,为返回几个句子
    stopwords = stopwordslist(r'C:\Users\59980\Desktop\peixun\data_stop_word\stop_words.txt')#加载停用词
    sentence = sent_tokenizer(texts)  # 分句
    words = [w for sentence in sentence for w in jieba.cut(sentence) if w not in stopwords if
             len(w) > 1 and w != '\t']  # 词语，非单词词，同时非符号
    wordfre = nltk.FreqDist(words)  # 统计词频
    topn_words = [w[0] for w in sorted(wordfre.items(), key=lambda d: d[1], reverse=True)][:topn_wordnum]  # 取出词频最高的topn_wordnum个单词

    scored_sentences = score_sentences(sentence, topn_words)#给分句打分

    # 1,利用均值和标准差过滤非重要句子
    avg = numpy.mean([s[1] for s in scored_sentences])  # 均值
    std = numpy.std([s[1] for s in scored_sentences])  # 标准差
    mean_scored = [(sent_idx, score) for (sent_idx, score) in scored_sentences if
                   score > (avg + 0.5 * std)]  # sent_idx 分句标号，score得分

    # 2，返回top n句子
    top_n_scored = sorted(scored_sentences, key=lambda s: s[1])[-n:]  # 对得分进行排序，取出n个句子
    top_n_scored = sorted(top_n_scored, key=lambda s: s[0])  # 对得分最高的几个分句，进行分句位置排序
    c = dict(mean_scoredsenteces=[sentence[idx] for (idx, score) in mean_scored])
    c1=dict(topnsenteces=[sentence[idx] for (idx, score) in top_n_scored])
    return c,c1

if __name__=='__main__':
    texts = str(input('请输入文本：'))
    topn_wordnum=int(input('请输入高频词数：'))
    n=int(input('请输入要返回的句子个数：'))
    c,c1=results(texts,topn_wordnum,n)
    print(c)
    print(c1)


 
  结果如图：

左眼跳财右眼跳灾的科学依据是什么？医生告诉你答案高省张导师
俗话说“左眼跳财，右眼跳灾”。许女士对这句俗语深信不疑。从一年前开始，许女士总是左眼皮跳，但每次只要稍作休息就能恢复正常，所以许女士都没放在心上，甚至还心想：说不定能走财运了。大家好，我是高省APP最大团队，【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码520888，注册送2皇冠会员，送万元推广大礼包。给大家推荐一个公主号《张十五笔记》分享引流，思维
如何关闭微信支付的优惠券提醒？优惠券高省
要关闭微信支付的优惠券提醒，可以按照以下步骤操作：【高省APP】（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。珊珊导师高省邀请码666123，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。打开微信首页，在
笔记本电脑什么品牌质量最好？公认最好的笔记本品牌古楼
面对市面上层出不穷的笔记本电脑品牌，大家是不是比较困惑，不知道具体应该入手哪一款笔记本电脑。如果说大家确实存在这方面的情况，那么建议大家可以参考一下笔者如下所述。笔记本电脑什么品牌质量最好？下面，笔者给大家呈现实际情况！买笔记本上高省，领取隐藏优惠券，让你更省！大家好，我是高省APP最大团队，【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码520888
周末聆听色彩
现在周末我不怎么逛街，生活重心放在一家人在一起好好吃饭。我一早就是去买食材，百度做什么好吃。准备好食材，开始做，没有什么复杂工序，但是只要用心就能做出色香味俱全的饭食。民以食为天。只有吃得健康营养，身体才能健康！越来越多的在意生活中最本质的东西。
淘宝购物返利软件用哪个好,2023年返利最高的淘宝软件app,推荐分享一起高省
在淘宝优惠券返利app方面，有几个不错的选择。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师高省邀请码555888，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。一淘：返利比价，可以
西游记花上的露珠
孙悟空是石猴出世的，在它出生时，把玉皇大帝都惊动了，它又当上了美猴王。它出门求学，要学一个长生不老之术，它在班里面不安静，师傅敲了三下，三更半夜跑到师傅那，师傅教了它七十二变。因悟空卖弄被师傅赶出家门。图片发自百度悟空去龙王那里索取兵器。龙王不好推辞就给了他一把大刀，悟空不会使刀，又给了一个九股叉来，悟空觉得特别轻，不要。又给了一个方天戟，悟空觉得不趁手，又不要，又给了金箍棒，悟空才要。图片发自A
手机可以做的副业有哪些？如何利用手机赚钱？高省张导师
手机可以做的副业有哪些？如何利用手机赚钱如果你的工资不高，不想被“钱”束缚，那就来看看我是怎么利用手机赚钱的吧！如何利用手机做副业？手机可以做什么？这个问题在生活中经常遇到，所以在这里我就给大家简单的讲一讲。我给大家讲的这个赚钱方法，我们都可以去尝试一下。大家好，我是高省APP最大团队，【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码520888，注册
淘客推广的渠道有哪些？淘客怎么推广赚钱好项目高省
做淘宝客推广是可以赚钱的，我们先去注册一个账号，然后将产品分享出去，做好粉丝的维护，等账号等级上来了，赚钱是很容易的。要做淘宝客推广，先要找到好的推广平台。大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码11
抖音返佣奖励明细在哪里?如何增加抖音佣金?_ 测评君高省
抖音商品返佣方法攻略来了！想要在抖音购物的同时获得更多的实惠吗？那就跟随我们的脚步，一起探索如何利用抖音购物返利功能，轻松享受更多优惠吧！【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师高省邀请码55
外卖优惠券推广赚钱？外卖优惠券推广赚钱吗？高省APP珊珊
外卖优惠券推广赚钱是一种可行的商业模式，通过推广外卖优惠券来获得佣金收益。具体来说，推广者可以在社交媒体、公众号、小程序等渠道上发布外卖优惠券信息，吸引用户领取并使用，一旦用户使用优惠券下单，推广者即可获得一定的佣金收益。【高省APP】（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣
抖音优惠券返利app哪个好?抖音返利机器人古楼
哎呀呀，抖音上的小伙伴们，你们是不是经常在抖音上看到一些优惠券和返利活动呀？告诉你们一个小秘密，抖音上真的有返利app哦！那么，哪个抖音优惠券返利app最好用呢？让我来给你们揭秘一下！【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省
源力觉醒！百度文心4.5对比Qwen3：开源大模型双雄终极评测 Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>2024年大模型战场硝烟再起，百度携文心4.5强势入局开源领域，与阿里通义千问Qwen3上演"双雄争霸"。这场技术对决将如何重塑AI开发格局？本文将带您深入技术腹地，揭秘两大模型的真实战力！###一、战局全景：开源大模型进入"双巨头时代"####最新技术格局（2024年7月）|**维度**|**文心4.5**|**Qwen3**||----------------|---------------
236 小楷抄诗经·小雅·鱼藻之什·緜蛮 beikerray119
（以下内容来自百度百科）小雅·緜蛮贡献维护者朝阳山人《小雅·緜蛮》是中国古代第一部诗歌总集《诗经》中的一首诗。这是一首描写饱受行役之苦的人，渴望有人助他一臂之力的诗歌。全诗三章，每章八句，三章意思极为相近，但反复吟咏，给人一种强烈的紧迫感，生动地刻画了行役之人的心中渴望，准确地传递出行役者的愁苦心绪。此诗节奏舒缓，堪称颇具音乐特质的声乐作品。每章前半部分组成完整的叙事结构，情绪低沉，犹如主歌部分；
新手怎么做自媒体运营？新手做自媒体运营的4个重要方法优惠券高省
作为一个优秀的自媒体运营者，需要具备很多能力，现在的自媒体运营者越来越多。一个自媒体运营者需要具备哪些能力？下面给大家分享一下自媒体运营者必备的四大基本能力。大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码1
2022手机性价比排行榜最新手机，2022年哪一款手机值得买? 优惠券高省
大家都知道买手机最主要的是性价比高，用最少的价钱买到最好的性能配置，是大多数人的第一需求。今年什么手机性价比最高？最值得购买呢？我们一起盘点一下最具性价比的手机品牌，仅供大家参考！买手机推荐用高省【高省邀请码989898】在高省领取优惠券跳转淘宝等平台下单更优惠，下单成功还有返利折上折！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇
黑咖啡的功效与禁忌是什么？经常喝黑咖啡有什么好处？高省张导师
黑咖啡的功效与作用有以下几点买咖啡上高省领取商品隐藏优惠券，优惠完还会返利，让你更省钱！大家好，我是高省APP最大团队，【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码520888，注册送2皇冠会员，送万元推广大礼包。给大家推荐一个公主号《张十五笔记》分享引流，思维，认知，项目，干货，讲的非常有用，如果你也想提高自己的思维认知，打开自己的眼界，可以去关
直返APP的用户评价如何?其他用户对该APP的评价和反馈如何? 一起高省
直返的商品是否为正品，取决于具体的商家和商品。一些直返APP会与知名品牌或正规商家合作，提供正品保障的商品，但也有一些不良商家可能会通过直返方式销售假冒伪劣商品。因此，在选择直返商品时，需要注意商家的信誉和商品的质量。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更
android中百度定位、城市选择列表，右侧字母展示
好久好久没光顾过自己空空的博客了，做项目的时候都是逛着别人的博客急着把功能实现，近来闲下来了总结总结。这个城市选择功能也是当时做项目急着实现从哪找来的框架不记得了，然后改改用到项目中来的。非常感谢提供最初源码的博主，主要的区别是添加了搜索功能、定位功能，把以前的操作本地数据库sqlite的部分，改为操作对assest文件的操作，封装的有百度地图定位方法、可删除的edittext。百度地图的key需
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
诗人郑愁予去世：达达马蹄声远去，留下一个世纪的美丽诗篇羊城派2025-06-15 19:07据中国诗歌网消息，著名诗人郑愁予因心脏衰竭，6月13日在美国去世，享年92岁。“我达达的马蹄分享是一种传递，一种快乐杂学百货铺-啥都学 word
编辑百度首页编辑诗人郑愁予去世：达达马蹄声远去，留下一个世纪的美丽诗篇羊城派2025-06-1519:07据中国诗歌网消息，著名诗人郑愁予因心脏衰竭，6月13日在美国去世，享年92岁。“我达达的马蹄是美丽的错误/我不是归人，是个过客……”这传诵半世纪的诗句，如今成为诗人郑愁予留给世间的最后回响。郑愁予，原名郑文韬，祖籍河北宁河，1933年生于山东济南&#x
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
国内主流云服务平台对比：选型指南与价格全初解
大家好!在数字化转型的浪潮下，云服务器已成为企业和开发者的基础设施首选。面对阿里云、腾讯云、华为云、百度智能云等主流服务商，如何根据性能、价格和场景需求做出最优选择？本文结合最新市场数据，为你深度解析！一、四大云服务商核心特点与适用场景1.阿里云优势：国内市场份额超40%，全球覆盖最广（49个可用区），服务稳定性强，尤其适合电商、金融、政务等高并发场景。提供飞天操作系统、弹性计算ECS等核心技术，
7.11JS项目：倒计时页面跳转+评论发布椒盐螺丝钉前端
一、页面跳转演示思路构建html框架后，在JS中获取对象：跳转按钮与显示剩余时间文本添加事件监听：检测点击行为->调用跳转函数跳转函数：(1)获取时间戳，(2)延时函数实现跳转，(3)间歇函数显示剩余时间——参考倒计时html框架前往百度接下来是JS部分，获取按钮与显示文本对象，添加事件监听constdiv=document.querySelector('div')constspan=docume
BeanUtils.copyProperties拷贝失败原因双力臂404 apache java 开发语言
BeanUtils.copyProperties拷贝失败的坑集合一切皆有因果，这个失败的原因绝不会是平白出现的。在做项目的时候，我是因为copy失败后，因为赶进度并没有深入了解，就自己写了个copy的方法，其实重写的话可能更好，现在复盘下，我来深入查下原因。百度了些观点，然后代码中进行相应的测试。1、getter,setter的原因查看自己的代码，并没有问题，所以继续寻找原因2、两个包的搞混Jav
UI自动化测试 - POM设计模式什么鬼昵称 selenium 自动化设计模式
一、介绍基于selenium的ui自动化测试核心上只要定位到元素，对元素执行相应的操作即可。例如下面的脚本代码：打开Chrome浏览器，在百度页面搜索自动化测试：fromseleniumimportwebdriverimporttimedriver=webdriver.chrome()driver.implicitly_wait(30)#打开浏览器，百度driver.get("http://www
如何获取微信公众号用户的个人信息（包括OpenId）一杯冰美式_丶 Java相关知识
最近，对微信公众号有点兴趣，就自己研究了研究里面的一些内容，发现还挺有意思的，而且通过微信公众号可以调用一些比较有意思的接口，就比如百度开发服务平台点击进入里面的很有接口，就比较常见的翻译，语音识别，地理位置等等，都挺好的。好了，不多说，进入正题好了。我想，做微信公众号开发的，对于想获取关注了公众号的用户信息，或者说是当前与后台服务器进行交互的当前用户信息，这个功能是很重要的吧。因为，通过这个，可
基于Java+Maven+Testng+Selenium+Log4j+Allure+Jenkins搭建一个WebUI自动化框架（3）使用dataProvider实现数据驱动用例执行程序员的世界你不懂 UI自动化相关 java maven selenium
在测试一个系统的时候，通常需要对同一个模块的用例输入各种不一样的数据，验证实际结果是否达到了我们期望值，此时如果不对测试数据单独出来维护，会使得测试用例与测试数据的耦合度很高，难以维护，当后期我们想要提供一批新的测试数据，那么我们就得在测试用例中把所有的测试数据全都手动修改一遍，操作很繁琐，下面举个实际例子。我们现在想要测试百度输入框，想测试输入不同数据（手机号、人名、电影名、英文、特殊字符）等，
Spring RedisTemplate中文乱码 NO爷 Java Spring Boot Redis Jedis 乱码
Redis客户端中文乱码网上非常常见的乱码，百度一搜大部分都是这种情况。如果不是此种情况请看下一节。redis-cliredis127.0.0.1:6379>set'name''中文'OKredis127.0.0.1:6379>get'name'"\xd6\xd0\xce\xc4"redis127.0.0.1:6379>客户端查看乱码，这个情况我们只要将修改客户端命令行就可以。redis-cli-
uniapp页面间通信相关方法总结前端达人 vue python javascript java js
文章整理于：https://ask.dcloud.net.cn/article/35970uni-app是一个使用vue.js开发所有前端应用的框架，开发者编写一套代码，可发布到iOS、Android、Web（响应式）、以及各种小程序（微信/支付宝/百度/头条/QQ/钉钉/淘宝）、快应用等多个平台。利用url传参进行通讯A页面向B页面传递参数uni.navigateTo({url:'test/te
AIGC与自动驾驶：文心一言的车载交互设计 AI天才研究院 ChatGPT 实战计算 Agentic AI 实战 AIGC 自动驾驶文心一言 ai
AIGC与自动驾驶：文心一言的车载交互设计关键词：AIGC、自动驾驶、车载交互、文心一言、自然语言处理、多模态交互、用户体验摘要：本文深入探讨人工智能生成内容（AIGC）技术在自动驾驶领域的创新应用，特别是百度文心一言如何重构车载交互体验。通过解析文心一言的核心技术架构、多模态融合算法、场景化交互模型，结合具体代码实现和数学模型，揭示其在语音交互、情境理解、个性化服务等场景中的技术优势。同时通过项
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

自然语言处理：提取长文本进行文本主要内容（文本意思）概括 （两种方法，但效果都一般）

你可能感兴趣的:(百度)

自然语言处理：提取长文本进行文本主要内容（文本意思）概括（两种方法，但效果都一般）