weixin_30919429

python 搭建一个简单的搜索引擎

我把代码和爬好的数据放在了git上，欢迎大家来参考

https://github.com/linyi0604/linyiSearcher

我是在 manjaro linux下做的，使用python3 语言，爬虫部分涉及到安装ChromeDriver 可以参考我之前写的博文。

建立索引部分参考： https://baijiahao.baidu.com/s?id=1597426056496128414&wfr=spider&for=pc

检索过程，衡量文档相似度使用了余弦相似度，参考：https://www.cnblogs.com/liangjf/p/8283519.html

为了完成我的信息检索选修课大作业，写下了这个简单的小项目。

这里是一个python3 实现的简易的搜索引擎

我把它取名叫linyiSearcher

--------

所需要的python依赖包在requirements.txt中
可以使用 pip install -r requirements.txt 一次性安装全部

--------

一共分成3部分完成（后面有稍微详细点的解读）

1_spider.py 是一个爬虫， 爬取搜索引擎的语料库

2_clean_data_and_make_index  是对爬下来的数据 进行一些清晰工作，并且将数据存入数据库，建立索引

    这里使用了 sqlite数据库，为了方便数据和项目一同携带

3_searcher.py 简易的web后端， 实现了 

    1 在网页输入搜索关键字， 在后端接收到关键字

    2 对关键字进行分词

    3 在索引中查找和关键字有关的文档

    4 按照余弦相似度 对文档进行排序

    5 把相近的文档展示出来

--------

自己的知识储备和代码能力都捉襟见肘。

大神来看，还望海涵～欢迎大家批评指正共同学习

--------


1 爬虫：

    因为没有数据，只能写爬虫来做，　又只有自己的笔记本来跑，所以数据量也做不到非常大

    在这里　写了１程序　爬了百度贴吧 娱乐明星分类下面的所有1级页面帖子的标题 当做语料库

    爬取下来的数据存在了 ./data/database.csv 下

        数据有2列 分别是  title 和url


2 数据清洗 并 建立索引：

    database.db  是一个sqlite数据库文件

    首先将每个文档存到了数据库当中  

    数据库表为 page_info(id,keyword, title, url)

        id 自增主键 

        keyword: 存了该文档文字用jieba分词打散后的词汇列表（用空格隔开所有词语的字符串）

        title: 文档的文字内容 

        url: 该文档的网页链接

    然后 把每个文档 使用jieba分词工具， 打散成词语，把所有词语放到一个集合中（集合能去重）

        把所有词 存入数据库 建立索引  

        索引这样理解：

            关键词:  你好  包含关键词的文档： <1,2,6,8,9>

        表为 page_index(id, word, page_id)

            id: 自增 主键

            word: 当前关键词

            page_id: 包含该关键词的文档id 也就是page_info.id



3 实现检索：

    首先 使用了bottle框架，是一个非常轻巧的web后端框架，实现了一个简单的web后端

    前端页面使用了bootstrap 的css样式，，毕竟自己什么垃圾的一p

    检索的实现过程：

        1 后端拿到检索的关键词，用jieba分词 把拿到的语句打散成词汇 形成关键词keyword_list

        2 在建立的索引表page_index中，搜关keyword_list中出现的词汇的page_id

        3 在包含所有keyword的文档上 计算和keyword的余弦相似度，然后降序排列

        4 返回给前端显示搜索结果

看看检索结果：



1_spider.py  爬虫的代码

  1 import requests
  2 from lxml import etree
  3 import random
  4 import COMMON
  5 import os
  6 from selenium import webdriver
  7 import pandas as pd
  8 """
  9 这里是建立搜索引擎的第一步
 10 """
 11 
 12 
 13 class Spider_BaiduTieba(object):
 14 
 15     def __init__(self):
 16         self.start_url = "/f/index/forumpark?pcn=娱乐明星&pci=0&ct=1&rn=20&pn=1"
 17         self.base_url = "http://tieba.baidu.com"
 18         self.headers = COMMON.HEADERS
 19         self.driver = webdriver.Chrome()
 20         self.urlset = set()
 21         self.titleset = set()
 22 
 23     def get(self, url):
 24         header = random.choice(self.headers)
 25         response = requests.get(url=url, headers=header, timeout=10)
 26         return response.content
 27 
 28     def parse_url(self, url):
 29         """通过url 拿到xpath对象"""
 30         print(url)
 31         header = random.choice(self.headers)
 32         response = requests.get(url=url, headers=header, timeout=10)
 33         # 如果获取的状态码不是200 则抛出异常
 34         assert response.status_code == 200
 35         xhtml = etree.HTML(response.content)
 36         return xhtml
 37 
 38     def get_base_url_list(self):
 39         """获得第一层url列表"""
 40         if os.path.exists(COMMON.BASE_URL_LIST_FILE):
 41             li = self.read_base_url_list()
 42             return li
 43         next_page = [self.start_url]
 44         url_list = []
 45         while next_page:
 46             next_page = next_page[0]
 47             xhtml = self.parse_url(self.base_url + next_page)
 48             tmp_list = xhtml.xpath('//div[@id="ba_list"]/div/a/@href')
 49             url_list += tmp_list
 50             next_page = xhtml.xpath('//div[@class="pagination"]/a[@class="next"]/@href')
 51             print(next_page)
 52         self.save_base_url_list(url_list)
 53         return url_list
 54 
 55     def save_base_url_list(self, base_url_list):
 56         with open(COMMON.BASE_URL_LIST_FILE, "w") as f:
 57             for u in base_url_list:
 58                 f.write(self.base_url + u + "\n")
 59 
 60     def read_base_url_list(self):
 61         with open(COMMON.BASE_URL_LIST_FILE, "r") as f:
 62             line = f.readlines()
 63         li = [s.strip() for s in line]
 64         return li
 65 
 66     def driver_get(self, url):
 67         try:
 68             self.driver.set_script_timeout(5)
 69             self.driver.get(url)
 70         except:
 71             self.driver_get(url)
 72     def run(self):
 73         """爬虫程序入口"""
 74         # 爬取根网页地址
 75         base_url_list = self.get_base_url_list()
 76         data_list = []
 77         for url in base_url_list:
 78             self.driver_get(url)
 79             html = self.driver.page_source
 80             xhtml = etree.HTML(html)
 81             a_list = xhtml.xpath('//ul[@id="thread_list"]//a[@rel="noreferrer"]')
 82             for a in a_list:
 83                 title = a.xpath(".//@title")
 84                 url = a.xpath(".//@href")
 85                 if not url or not title or title[0]=="点击隐藏本贴":
 86                     continue
 87                 url = self.base_url + url[0]
 88                 title = title[0]
 89 
 90                 if url in self.urlset:
 91                     continue
 92 
 93                 data_list.append([title, url])
 94                 self.urlset.add(url)
 95                 data = pd.DataFrame(data_list, columns=["title,", "url"])
 96                 data.to_csv("./data/database.csv")
 97 
 98 
 99 
100 
101 if __name__ == '__main__':
102     s = Spider_BaiduTieba()
103     s.run()

2 清晰数据和建立索引部分代码这里是notebook 完成的，所以看起来有点奇怪

  1 #%%
  2 import pandas as pd
  3 import sqlite3
  4 import jieba
  5 #%%
  6 data = pd.read_csv("./data/database.csv")
  7 #%%
  8 def check_contain_chinese(check_str):
  9     for ch in check_str:
 10         if u'\u4e00' <= ch <= u'\u9fff':
 11             return True
 12         if "a" <= ch <= "z" or "A" <= ch <= "X":
 13             return True
 14         if "0" <= ch <= "9":
 15             return True
 16     return False
 17 #%%
 18 data2 = []
 19 for d in data.itertuples():
 20     title = d[1]
 21     url = d[2]
 22     cut = jieba.cut(title)
 23     keyword = ""
 24     for c in cut:
 25         if check_contain_chinese(c):
 26             keyword += " " + c
 27     keyword = keyword.strip()  
 28     data2.append([title, keyword, url])
 29 #%%
 30 data3 = pd.DataFrame(data2, columns=["title", "keyword", "url"])
 31 data3
 32 #%%
 33 data3.to_csv("./data/cleaned_database.csv", index=False)
 34 #%%
 35 for line in data3.itertuples():
 36     title, keyword, url = line[1],line[2],line[3]
 37     print(title)
 38     print(keyword)
 39     print(url)
 40     break
 41     
 42 #%%
 43 conn = sqlite3.connect("./data/database.db")
 44 c = conn.cursor()
 45 
 46 # 创建数据库
 47 sql = "drop table page_info;"
 48 c.execute(sql)
 49 conn.commit()
 50 
 51 sql = """
 52     create table page_info(
 53         id INTEGER PRIMARY KEY,
 54         keyword text not null,
 55         url text not null
 56     );
 57 """
 58 c.execute(sql)
 59 conn.commit()
 60 
 61 
 62 # 创建索引表
 63 sql = """
 64     create table page_index(
 65         id INTEGER PRIMARY KEY,
 66         keyword text not null,
 67         page_id INTEGER not null
 68     );
 69 """
 70 c.execute(sql)
 71 conn.commit()
 72 #%%
 73 sql = "delete from page_info;"
 74 c.execute(sql)
 75 conn.commit()
 76 
 77 
 78 # 插入到数据库
 79 i = 0
 80 for line in data3.itertuples():
 81     title, keyword, url = line[1],line[2],line[3]
 82     sql = """
 83         insert into page_info (url, keyword) 
 84         values('%s', '%s')
 85     """ % (url, keyword)
 86     c.execute(sql)
 87     conn.commit()
 88     i += 1
 89     if i % 50 == 0:
 90         print(i, len(data3))
 91         
 92         
 93 
 94 sql = "delete from page_index;"
 95 c.execute(sql)
 96 conn.commit()
 97 
 98 sql = "select * from page_info;"
 99 res = c.execute(sql)
100 res = list(res)
101 length = len(res)
102 
103 i = 0
104 for line in res:
105     pid, words, url = line[0], line[1], line[2]
106     words = words.split(" ")
107     for w in words:
108         sql = """
109         insert into page_index (keyword, page_id) 
110         values('%s', '%s')
111         """ % (w, pid)
112         c.execute(sql)
113         conn.commit()
114     i += 1
115     if i % 100 == 0:
116         print(i, length)
117 #%%
118 
119 #%%
120 
121 
122 #%%
123 titles = list(words)
124 colums = ["title", "url"] + titles
125 word_vector = pd.DataFrame(columns=colums)
126 word_vector
127 #%%
128 
129 #%%
130 data = pd.read_csv("./data/database.csv")
131 #%%
132 data
133 #%%
134 sql = "alter table page_info add title text;"
135 conn = sqlite3.connect("./data/database.db")
136 c = conn.cursor()
137 c.execute(sql)
138 conn.commit()
139 #%%
140 conn = sqlite3.connect("./data/database.db")
141 c = conn.cursor()
142 length = len(data)
143 i = 0
144 for line in data.itertuples():
145     pid = line[0]+1
146     title = line[1]
147     sql = "UPDATE page_info SET title = '%s' WHERE id = %s "%(title,pid)
148     try:
149         c.execute(sql)
150         conn.commit()
151     except:
152         continue
153     i += 1
154     if i % 50 == 0:
155         print(i, length)
156 
157 
158 #%%
159 
160 #%%

3 web后端 完成检索功能代码

 1 # coding=utf-8
 2 import jieba
 3 import sqlite3
 4 from bottle import route, run, template, request, static_file, redirect
 5 
 6 
 7 @route('/static/')
 8 def server_static(filename):
 9     if filename == "jquery.min.js":
10         return static_file("jquery.min.js", root='./data/front/js/')
11     elif filename == "bootstrap.min.js":
12         return static_file("bootstrap.js", root='./data/front/js/')
13     elif filename == "bootstrap.min.css":
14         return static_file("bootstrap.css", root='./data/front/css/')
15 
16 
17 @route('/')
18 def index():
19     return redirect("/hello/")
20 
21 
22 @route('/hello/')
23 def index():
24     form = request.GET.decode("utf-8")
25     keyword = form.get("keyword", "")
26     cut = list(jieba.cut(keyword))
27     # 根据索引查询包含关键词的网页编号
28     page_id_list = get_page_id_list_from_key_word_cut(cut)
29     # 根据网页编号 查询网页具体内容
30     page_list = get_page_list_from_page_id_list(page_id_list)
31     # 根据查询关键字和网页包含的关键字，进行相关度排序 余弦相似度
32     page_list = sort_page_list(page_list, cut)
33     context = {
34         "page_list": page_list[:20],
35         "keyword": keyword
36     }
37     return template("./data/front/searcher.html", context)
38 
39 
40 # 计算page_list中每个page 和 cut的余弦相似度
41 def sort_page_list(page_list, cut):
42     con_list = []
43     for page in page_list:
44         url = page[2]
45         words = page[1]
46         title = page[3]
47         vector = words.split(" ")
48         same = 0
49         for i in vector:
50             if i in cut:
51                 same += 1
52         cos = same / (len(vector)*len(cut))
53         con_list.append([cos, url, words, title])
54     con_list = sorted(con_list, key=lambda i: i[0], reverse=True)
55     return con_list
56 
57 
58 
59 # 根据网页id列表获取网页详细内容列表
60 def get_page_list_from_page_id_list(page_id_list):
61     id_list = "("
62     for k in page_id_list:
63         id_list += "%s,"%k
64     id_list = id_list.strip(",") + ")"
65     conn = sqlite3.connect("./data/database.db")
66     c = conn.cursor()
67     sql = "select * " \
68           + "from page_info  " \
69           + "where id in " + id_list + ";"
70     res = c.execute(sql)
71     res = [r for r in res]
72     return res
73 
74 
75 # 根据关键词在索引中获取网页编号
76 def get_page_id_list_from_key_word_cut(cut):
77     keyword = "("
78     for k in cut:
79         if k == " ":
80             continue
81         keyword += "'%s',"%k
82     keyword = keyword.strip(",") + ")"
83     conn = sqlite3.connect("./data/database.db")
84     c = conn.cursor()
85     sql = "select page_id " \
86             + "from page_index  " \
87             + "where keyword in " + keyword + ";"
88     res = c.execute(sql)
89     res = [r[0] for r in res]
90     return res
91 
92 
93 
94 if __name__ == '__main__':
95     run(host='localhost', port=8080)

转载于:https://www.cnblogs.com/Lin-Yi/p/10739327.html

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

python 搭建一个简单的 搜索引擎

你可能感兴趣的:(python 搭建一个简单的 搜索引擎)

python 搭建一个简单的搜索引擎

你可能感兴趣的:(python 搭建一个简单的搜索引擎)