weixin_39572442

python elasticsearch dsl_学习python库：elasticsearch-dsl

一、简介

elasticsearch-dsl是基于elasticsearch-py封装实现的，提供了更简便的操作elasticsearch的方法。

二、具体使用

elasticsearch的官方文档介绍一共包括六个部分，分别是：configuration、search dsl、persistence、update by query、API document。

2.1 Configuration

有许多方式可以配置连接，最简单且有效的方式是设置默认连接，该默认连接可以被未传递其他连接的API调用使用。

2.1.1 Default connection

默认连接的实现需要使用到connections.create_connection()方法。

from elasticsearch_dsl importconnections

connections.create_connection(hosts=['localhost'], timeout=20)

同时还可以通过alias给连接设置别名，后续可以通过别名来引用该连接，默认别名为default

from elasticsearch_dsl importconnections

connections.create_connection(alias='my_new_connection', hosts=['localhost'], timeout=60)

2.1.2 Multiple clusters

可以通过configure定义多个指向不同集群的连接。

from elasticsearch_dsl importconnections

connections.configure(

default={'hosts': 'localhost'},

dev={'hosts': ['esdev1.example.com:9200'],'sniff_on_start': True

}

)

还可以通过add_connection手动添加连接。

2.1.2.4 Using aliases

下面的例子展示了如何使用连接别名。

s = Search(using='qa')

2.1.3 Manual

如果你不想提供一个全局的连接，你可以通过使用using参数传递一个elasticsearch.Elasticsearch的实例做为连接，如下：

s = Search(using=Elasticsearch('localhost'))

你还可以通过下面的方式来覆盖已经关联的连接。

s = s.using(Elasticsearch('otherhost:9200'))

2.2 Search DSL

2.2.1 The search object

search对象代表整个搜索请求，包括：queries、filters、aggregations、sort、pagination、additional parameters、associated client。

API被设置为可链接的。search对象是不可变的，除了聚合，对对象的所有更改都将导致创建包含该更改的浅表副本。

当初始化Search对象时，你可以传递low-level elasticsearch客户端作为参数。

from elasticsearch importElasticsearchfrom elasticsearch_dsl importSearch

client=Elasticsearch()

s= Search(using=client)

注意

所有的方法都返回一个该对象的拷贝，这样可以保证它被传递给外部代码时是安全的。

该API是可以链接的，允许你组合多个方法调用在一个语句中：

s = Search().using(client).query("match", title="python")

执行execute方法将请求发送给elasticsearch：

response = s.execute()

如果仅仅是想要遍历返回结果提示，可以通过遍历Search对象(前提是执行过execute方法)：

for hit ins:print(hit.title)

可以通过to_dict()方法将Search对象序列化为一个dict对象，这样可以方便调试。

print(s.to_dict())

2.2.1.1 Delete By Query

可以通过调用Search对象上的delete方法而不是execute来实现删除匹配查询的文档，如下：

s = Search(index='i').query("match", title="python")

response= s.delete()

2.2.1.2 Queries

该库为所有的Elasticsearch查询类型都提供了类。以关键字参数传递所有的参数，最终会把参数序列化后传递给Elasticsearch，这意味着在原始查询和它对应的dsl之间有这一个清理的一对一的映射。

from elasticsearch_dsl.query importMultiMatch, Match#{"multi_match": {"query": "python django", "fields": ["title", "body"]}}

MultiMatch(query='python django', fields=['title', 'body'])#{"match": {"title": {"query": "web framework", "type": "phrase"}}}

Match(title={"query": "web framework", "type": "phrase"})

你可以使用快捷方式Q通过命名参数或者原始dict类型数据来构建一个查询实例：

from elasticsearch_dsl importQ

Q("multi_match", query='python django', fields=['title', 'body'])

Q({"multi_match": {"query": "python django", "fields": ["title", "body"]}})

通过.query()方法将查询添加到Search对象中：

q = Q("multi_match", query='python django', fields=['title', 'body'])

s= s.query(q)

该方法还可以接收所有Q的参数作为参数。

s = s.query("multi_match", query='python django', fields=['title', 'body'])

2.2.1.2.1 Dotted fields

有时候你想要引用一个在其他字段中的字段，例如多字段(title.keyword)或者在一个json文档中的address.city。为了方便，Q允许你使用双下划线‘__’代替关键词参数中的‘.’

s =Search()

s= s.filter('term', category__keyword='Python')

s= s.query('match', address__city='prague')

除此之外，如果你愿意，也可以随时使用python的kwarg解压缩功能。

s =Search()

s= s.filter('term', **{'category.keyword': 'Python'})

s= s.query('match', **{'address.city': 'prague'})

2.2.1.2.2 Query combination

查询对象可以通过逻辑运算符组合起来：

Q("match", title='python') | Q("match", title='django')#{"bool": {"should": [...]}}

Q("match", title='python') & Q("match", title='django')#{"bool": {"must": [...]}}

~Q("match", title="python")#{"bool": {"must_not": [...]}}

当调用.query()方法多次时，内部会使用&操作符：

s =s.query().query()print(s.to_dict())#{"query": {"bool": {...}}}

如果你想要精确控制查询的格式，可以通过Q直接构造组合查询：

q = Q('bool',

must=[Q('match', title='python')],

should=[Q(...), Q(...)],

minimum_should_match=1)

s= Search().query(q)

2.2.1.3 Filters

如果你想要在过滤上下文中添加查询，可以使用filter()函数来使之变的简单。

s =Search()

s= s.filter('terms', tags=['search', 'python'])

在背后，这会产生一个bool查询，并将指定的条件查询放入其filter分支，等价与下面的操作：

s =Search()

s= s.query('bool', filter=[Q('terms', tags=['search', 'python'])])

如果你想要使用post_filter元素进行多面导航，请使用.post_filter()方法，你还可以使用exculde()方法从查询中排除项目：

s =Search()

s= s.exclude('terms', tags=['search', 'python'])

2.2.1.4 Aggregations

你可以是使用A快捷方式来定义一个聚合。

from elasticsearch_dsl importA

A('terms', field='tags')#{"terms": {"field": "tags"}}

为了实现聚合嵌套，你可以使用.bucket()、.metirc()以及.pipeline()方法。

a = A('terms', field='category')#{'terms': {'field': 'category'}}

a.metric('clicks_per_category', 'sum', field='clicks')\

.bucket('tags_per_category', 'terms', field='tags')#{#'terms': {'field': 'category'},#'aggs': {#'clicks_per_category': {'sum': {'field': 'clicks'}},#'tags_per_category': {'terms': {'field': 'tags'}}#}#}

为了将聚合添加到Search对象中，使用.aggs属性，它是作为一个top-level聚合的。

s =Search()

a= A('terms', field='category')

s.aggs.bucket('category_terms', a)#{#'aggs': {#'category_terms': {#'terms': {#'field': 'category'#}#}#}#}

或者：

s =Search()

s.aggs.bucket('articles_per_day', 'date_histogram', field='publish_date', interval='day')\

.metric('clicks_per_day', 'sum', field='clicks')\

.pipeline('moving_click_average', 'moving_avg', buckets_path='clicks_per_day')\

.bucket('tags_per_day', 'terms', field='tags')

s.to_dict()#{#"aggs": {#"articles_per_day": {#"date_histogram": { "interval": "day", "field": "publish_date" },#"aggs": {#"clicks_per_day": { "sum": { "field": "clicks" } },#"moving_click_average": { "moving_avg": { "buckets_path": "clicks_per_day" } },#"tags_per_day": { "terms": { "field": "tags" } }#}#}#}#}

你可以通过名字来访问一个存在的桶。

s =Search()

s.aggs.bucket('per_category', 'terms', field='category')

s.aggs['per_category'].metric('clicks_per_category', 'sum', field='clicks')

s.aggs['per_category'].bucket('tags_per_category', 'terms', field='tags')

2.2.1.5 Sorting

要指定排序顺序，可以使用.order()方法。

s =Search().sort('category','-title',

{"lines" : {"order" : "asc", "mode" : "avg"}}

)

可以通过不传任何参数调用sort()函数来重置排序。

2.2.1.6 Pagination

要指定from、size，使用slicing API：

s = s[10:20]#{"from": 10, "size": 10}

要访问匹配的所有文档，可以使用scan()函数，scan()函数使用scan、scroll elasticsearch API：

for hit ins.scan():print(hit.title)

需要注意的是这种情况下结果是不会被排序的。

2.2.1.7 Highlighting

要指定高亮的通用属性，可以使用highlight_options()方法：

s = s.highlight_options(order='score')

可以通过highlight()方法来为了每个单独的字段设置高亮：

s = s.highlight('title')#or, including parameters:

s = s.highlight('title', fragment_size=50)

然后，响应中的分段将在每个结果对象上以.meta.highlight.FIELD形式提供，其中将包含分段列表：

response =s.execute()for hit inresponse:for fragment inhit.meta.highlight.title:print(fragment)

2.2.1.8 Suggestions

要指定一个suggest请求在你的search对象上，可以使用suggest()方法：

#check for correct spelling

s = s.suggest('my_suggestion', 'pyhton', term={'field': 'title'})

2.2.1.9 Extra properties and parameters

要为search对象设置额外的属性，可以使用.extra()方法。可以用来定义body中的key，那些不能通过指定API方法来设置的，例如explain、search_filter。

s = s.extra(explain=True)

要设置查询参数，可以使用.params()方法：

s = s.params(routing="42")

如果要限制elasticsearch返回的字段，可以使用source()方法：

#only return the selected fields

s = s.source(['title', 'body'])#don't return any fields, just the metadata

s =s.source(False)#explicitly include/exclude fields

s = s.source(includes=["title"], excludes=["user.*"])#reset the field selection

s = s.source(None)

2.2.1.10 Serialization and Deserialization

查询对象可以通过使用.to_dict()方法被序列化为一个字典。

你也可以使用类方法from_dict从一个dict创建一个Search对象。这会创建一个新的Search对象并使用字典中的数据填充它。

s = Search.from_dict({"query": {"match": {"title": "python"}}})

如果你希望修改现有的Search对象，并覆盖其属性，则可以使用update_from_dict()方法就地更改实例。

s = Search(index='i')

s.update_from_dict({"query": {"match": {"title": "python"}}, "size": 42})

2.2.2 Response

你可以通过调用execute方法来执行你的搜索，它会返回一个Response对象，Response对象允许你通过属性的方式访问返回结果字典中的任何key。

print(response.success())#True

print(response.took)#12

print(response.hits.total.relation)#eq

print(response.hits.total.value)#142

print(response.suggest.my_suggestions)

如果想要检查response对象的内容，可以通过to_dict方法访问原始数据。

2.2.2.1 Hits

可以通过hits属性访问返回的匹配结果，或者遍历Response对象。

response =s.execute()print('Total %d hits found.' %response.hits.total)for h inresponse:print(h.title, h.body)

2.2.2.2 Result

每个匹配项被封装到一个类中，可以方便通过类属性来访问返回结果字典中的key，所有的元数据存储在meta属性中。

response =s.execute()

h=response.hits[0]print('/%s/%s/%s returned with score %f' %(

h.meta.index, h.meta.doc_type, h.meta.id, h.meta.score))

2.2.2.3 Aggregations

可以通过aggregations属性来访问聚合结果：

for tag inresponse.aggregations.per_tag.buckets:print(tag.key, tag.max_lines.value)

2.2.3 MultiSearch

可以通过MultiSearch类同时执行多个搜索，它将会使用_msearch API：

from elasticsearch_dsl importMultiSearch, Search

ms= MultiSearch(index='blogs')

ms= ms.add(Search().filter('term', tags='python'))

ms= ms.add(Search().filter('term', tags='elasticsearch'))

responses=ms.execute()for response inresponses:print("Results for query %r." %response.search.query)for hit inresponse:print(hit.title)

2.3 Persistence

你可以使用dsl库来定义你的mappings和一个基本的持久化层为你的应用程序。

2.3.1 Document

如果你要为你的文档创建一个model-like的封装，可以使用Document类。它可以被用作创建在elasticsearch中所有需要的mappings和settings。

from datetime importdatetimefrom elasticsearch_dsl importDocument, Date, Nested, Boolean, \

analyzer, InnerDoc, Completion, Keyword, Text

html_strip= analyzer('html_strip',

tokenizer="standard",

filter=["standard", "lowercase", "stop", "snowball"],

char_filter=["html_strip"]

)classComment(InnerDoc):

author= Text(fields={'raw': Keyword()})

content= Text(analyzer='snowball')

created_at=Date()defage(self):return datetime.now() -self.created_atclassPost(Document):

title=Text()

title_suggest=Completion()

created_at=Date()

published=Boolean()

category=Text(

analyzer=html_strip,

fields={'raw': Keyword()}

)

comments=Nested(Comment)classIndex:

name= 'blog'

defadd_comment(self, author, content):

self.comments.append(

Comment(author=author, content=content, created_at=datetime.now()))def save(self, **kwargs):

self.created_at=datetime.now()return super().save(** kwargs)

2.3.1.1 Data types

定义Document实例时，除了可以使用python类型，还可以使用InnerDoc、Range等类型来表示非简单类型的数据。

from elasticsearch_dsl importDocument, DateRange, Keyword, RangeclassRoomBooking(Document):

room=Keyword()

dates=DateRange()

rb=RoomBooking(

room='Conference Room II',

dates=Range(

gte=datetime(2018, 11, 17, 9, 0, 0),

lt=datetime(2018, 11, 17, 10, 0, 0)

)

)#Range supports the in operator correctly:

datetime(2018, 11, 17, 9, 30, 0) in rb.dates #True

#you can also get the limits and whether they are inclusive or exclusive:

rb.dates.lower #datetime(2018, 11, 17, 9, 0, 0), True

rb.dates.upper #datetime(2018, 11, 17, 10, 0, 0), False

#empty range is unbounded

Range().lower #None, False

2.3.1.2 Note on dates

当实例化一个Date字段时，可以通过设置default_timezone参数来明确指定时区。

classPost(Document):

created_at= Date(default_timezone='UTC')

2.3.1.3 Document life cycle

在你第一次使用Post文档类型前，你需要在elasticsearch中创建mappings。可以通过Index对象或者调用init()方法直接创建mappings。

#create the mappings in Elasticsearch

Post.init()

所有metadata字段，可以通过meta属性访问。

post = Post(meta={'id': 42})#prints 42

print(post.meta.id)#override default index

post.meta.index = 'my-blog'

可以通过get()方法来检索一个存在的文档：

#retrieve the document

first = Post.get(id=42)#now we can call methods, change fields, ...

first.add_comment('me', 'This is nice!')#and save the changes into the cluster again

first.save()

要删除一个文档，直接调用delete()方法即可：

first = Post.get(id=42)

first.delete()

2.3.1.4 Analysis

要为text字段指定analyzer，你只需要使用analyze的名字，使用已有的analyze或者自己定义。

2.3.1.5 Search

为了在该文档类型上搜索，使用search方法即可。

#by calling .search we get back a standard Search object

s =Post.search()#the search is already limited to the index and doc_type of our document

s = s.filter('term', published=True).query('match', title='first')

results=s.execute()#when you execute the search the results are wrapped in your document class (Post)

for post inresults:print(post.meta.score, post.title)

2.3.1.6 class Meta options

在Meta类中定义了多个你可以为你的文档定义的metadata，例如mapping。

2.3.1.7 class Index options

Index类中定义了该索引的信息，它的名字、settings和其他属性。

2.3.1.8 Document Inheritance

2.3.2 Index

在典型情况下，在Document类上使用Index类足够处理任何操作的。在少量case下，直接操作Index对象可能更有用。

Index是一个类，负责保存一个索引在elasticsearch中的所有关联元数据，例如mapping和settings。由于它允许方便的同时创建多个mapping，所以当定义mapping的时候它是最有用的。当在迁移elasticsearch对象的时候是特别有用的。

from elasticsearch_dsl importIndex, Document, Text, analyzer

blogs= Index('blogs')#define custom settings

blogs.settings(

number_of_shards=1,

number_of_replicas=0

)#define aliases

blogs.aliases(

old_blogs={}

)#register a document with the index

blogs.document(Post)#can also be used as class decorator when defining the Document

@blogs.documentclassPost(Document):

title=Text()#You can attach custom analyzers to the index

html_strip= analyzer('html_strip',

tokenizer="standard",

filter=["standard", "lowercase", "stop", "snowball"],

char_filter=["html_strip"]

)

blogs.analyzer(html_strip)#delete the index, ignore if it doesn't exist

blogs.delete(ignore=404)#create the index in elasticsearch

blogs.create()

你可以为你的索引设置模板，并使用clone()方法创建一个指定的拷贝：

blogs = Index('blogs', using='production')

blogs.settings(number_of_shards=2)

blogs.document(Post)#create a copy of the index with different name

company_blogs = blogs.clone('company-blogs')#create a different copy on different cluster

dev_blogs = blogs.clone('blogs', using='dev')#and change its settings

dev_blogs.setting(number_of_shards=1)

2.3.2.1 Index Template

elasticsearch-dsl还提供了使用IndexTemplate类在elasticsearch中来管理索引模板的选项，该类与Index的API非常相似。

一旦一个索引模板被保存到elasticsearch，他的内容将会自动应用到匹配模式的新索引上(已存在的索引不会受影响)，即使索引是当索引一个文档时自动创建的。

from datetime importdatetimefrom elasticsearch_dsl importDocument, Date, TextclassLog(Document):

content=Text()

timestamp=Date()classIndex:

name= "logs-*"settings={"number_of_shards": 2}def save(self, **kwargs):#assign now if no timestamp given

if notself.timestamp:

self.timestamp=datetime.now()#override the index to go to the proper timeslot

kwargs['index'] = self.timestamp.strftime('logs-%Y%m%d')return super().save(**kwargs)#once, as part of application setup, during deploy/migrations:

logs = Log._index.as_template('logs', order=0)

logs.save()#to perform search across all logs:

search = Log.search()

2.4 Faceted Search

该API是实验性的，并且也没有用到，所以先跳过。

2.5 Update By Query

2.5.1 The Update By Query object

Update By Query对象允许使用_update_by_query实现在一个匹配过程中更新一个文档。

2.5.1.1 Serialization and Deserialization

该查询对象可以通过.to_dict()方法序列化为一个字典，也可以通过类方法from_dict()从一个字典构建一个对象。

ubq = UpdateByQuery.from_dict({"query": {"match": {"title": "python"}}})

2.5.1.2 Extra properties and parameters

可以通过.extra()方法设置额外的属性：

ubq = ubq.extra(explain=True)

可以通过.params()方法设置查询参数：

ubq = ubq.params(routing="42")

2.5.2 Response

你可以调用.execute()方法执行查询，它会返回一个Response对象。Response对象允许通过属性访问结果字典中的任何key。

response =ubq.execute()print(response.success())#True

print(response.took)#12

如果需要查看response对象的内容，使用to_dic()方法获取它的原始数据即可。

2.6 API Documentation

API Documention详细介绍了elasticsearch-dsl库中的公共类和方法的用法，具体使用的时候直接翻阅参考即可。

三、总结

1、elasticsearch-dsl相比于elasticsearch来说，提供了更简便的方法来操作elasticsearch，减少了生成DSL查询语言的复杂性，推荐使用。

2、elasticsearch-dsl的方法其实还是和elasticsearch的restful API对应的，所以它的API文档有些地方写的并不清晰，例如实例构造可以传递哪些参数？它的说明时可以接收任何关键字参数并会直接把参数传递给elasticsearch，所以要确定哪些参数生效，还是需要我们去查看elasticsearch的restful API文档。

你可能感兴趣的:(python,elasticsearch,dsl)

15. 条件语句 if_elif_else 丰收连山 python 数据库开发语言
一、基础语法结构if语句的基本格式概念定义if语句是Python中的条件控制语句，用于根据条件的真假执行不同的代码块。其基本结构如下：if条件:代码块使用场景if语句适用于需要根据条件决定是否执行某段代码的情况，例如：检查用户输入是否合法判断变量是否符合预期值根据计算结果选择不同的处理方式常见误区或注意事项条件表达式后必须加冒号（:）代码块必须缩进（通常4个空格或1个制表符）条件表达式的结果应为布
Python中if及else使用 moclocd Python编程 python
if、else使用{Python的if判断语句可以单独使用，也可搭配else使用：如：if(变量名运算符数值或另一个变量名)://括号可加可不加，如果不加，第一个变量名前就需要加一个空格。语句组1//语句组可多写，但是!!!语句组一定要和if的判断条件对齐!!!不然会报错!!!{例：if(a>=0):print(a)}或：if(变量名运算符数值或另一个变量名):语句组1else:语句组2//els
Python的判断语言if/elif/else Star___J python 开发语言后端
Python的判断语句分为"单分支"、"二分之"、"多分支"。Python判断语言"单分支"语句:if:if条件:代码块它包含这样几个部分:if关键字，表示这是一条判断语句；表示判断的条件，当这个条件被满足(即条件为真)时，执行中的代码，条件不满足时，中的代码不会被执行；冒号表示判断代码的开始；表示条件满足时，执行代码块。例如:x=5ifx>1:#if后面跟的就是条件，如果x大于1代码就会继续执行
【GitHub开源项目实战】高频交易系统实战解析：基于 Nautilus Trader 的策略回测与事件驱动架构优化观熵 GitHub开源项目实战 github 开源架构
高频交易系统实战解析：基于NautilusTrader的策略回测与事件驱动架构优化关键词：高频交易、事件驱动架构、NautilusTrader、量化回测、算法交易、PythonCython、交易引擎、回测系统、交易策略框架、实战优化摘要：本篇博客围绕GitHub上高质量的开源项目nautechsystems/nautilus_trader展开系统性实战解析。NautilusTrader是一套为专业
Python 中 if 和 else 基础知识的详解和使用点云SLAM Python python 开发语言 python基础学习 Python中流程控制语法 if和else语法人工智能基础计算机语言
一、基本语法结构if条件1:#条件1为真时执行的代码块elif条件2:#条件1不成立，条件2成立时执行else:#所有条件都不成立时执行注意：elif是“elseif”的缩写，可以有多个；else可省略；条件表达式必须是可以返回布尔值的语句（True或False）；Python使用缩进表示代码块，通常是4个空格。二、常见条件表达式表达式含义x==y等于x!=y不等于x>y,x=y,x0:print
python多线程：自定义线程类实现线程体、多线程锁机制、死锁问题的解决网小鱼的学习笔记 Python python 开发语言
自定义线程类实现线程体其实threading.Thread是threading模块内的一个类，我们可以自行设计一个类，让这个类继承threading.Thread类，接着在def_init_()内调用threading_Thread_init()方法，然后再所设计的类类别设计run方法，这个概念就称为自定义线程。自定义线程类实现线程体importthreadingimporttime#自定义子线程
深度剖析数据中台：大数据领域的核心技术架构大数据洞察大数据架构 java ai
深度剖析数据中台：大数据领域的核心技术架构关键词：数据中台、大数据、核心技术架构、数据治理、数据服务摘要：本文旨在对数据中台这一大数据领域的核心技术架构进行深度剖析。首先介绍了数据中台的背景，包括其目的、适用读者、文档结构和相关术语。接着阐述了数据中台的核心概念、原理和架构，通过文本示意图和Mermaid流程图进行直观展示。详细讲解了核心算法原理及具体操作步骤，并结合Python源代码进行说明。引
DOCKER教程 weixin_34388207 运维操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>注意事项1.官方申明docker还是在开发完善中，不建议在运营的产品中使用它，但是现在离正式版越来越接近了，请关注我们的博客http://blog.docker.io/2013/08/getting-to-docker-1-0/2.系统注意事项-由于现在的docker的局限性，现在只能使用在64位的服务器上边安装教程ubntu安装教程（12.0
Python简单理解1-10阶乘和运算小张不嚣张꒰ঌ(˚ᆺ˚)໒꒱ Python爬虫基础集合 python 后端
简单理解for循环实现1-10的阶乘运算基本思路;首先分析阶乘的关系如1!=12!=2*1=23!=3*2*1=64!=4*3*2*1=245!=5*4*3*2*1=120....10!=10*9*8*7*6*5*4*3*2*1=3628800自2以后的阶乘都是前面数的阶乘再乘以本身的数。如4的阶乘4!=43!(32*1),因此我们可以使用for循环来执行代码，定义一个变量啊a和一个总和sum然后
python实现回文数的判断简单理解
回文数的判断及解析第一种方法：第二种方法：回文数：简单来说就是，无论是从前往后读还是从后往前读，都是一样的第一种方法：通过字符串的一些特定的功能来判断是不是回文数a=str(input("请输入你要输入的数字:"))#输入字符串b=a[::-1]#倒序输出ifa==b:#判断是否相等print(f'{a}是回文数')else:print('{}不是回文数'.format(a))#format方法输
使用Python加载SubRip (.srt)字幕文件进行文本处理 zbb258 python 开发语言
SubRip文件格式是一种非常基础的字幕文件格式，通常使用扩展名.srt。这种格式的字幕文件是由一组组格式化的纯文本行组成，每组之间由一个空行分隔。字幕通常从1开始按顺序编号。时间码格式为小时:分钟:秒,毫秒，且时间单位固定为两个零填充的数字，分数固定为三个零填充的数字(例如00:00:00,000)。由于该程序是在法国编写的，分数分隔符使用逗号。在这篇文章中，我们将演示如何使用Python库加载
Flask + GPT 实践红鼻子时代 flask项目 flask gpt python
一、前言本篇文章会介绍从零开始构建一个基于Flask+GPT的小项目的过程。总共有四个版本的迭代，包括：1、调用GPT接口并渲染到前端页面；2、使用Flask提供的session来实现登录和登出功能；3、用SQLAlchemy管理数据库，实现用户注册和登录；4、记录和分页查看用户与GPT的对话历史。二、项目环境与依赖Python版本：建议3.7+Flask：最常用的PythonWeb框架之一ope
python初学者编程指南源码_Python可以这样学 PDF 带讲义代码版 weixin_39980917 python初学者编程指南源码
给大家带来的一篇关于Python编程相关的电子书资源，介绍了关于学Python方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小22MB，董付国编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.9。内容介绍读者评价已刷完，重点看前面部分基础知识，后面的挑着感兴趣的领域看。前面基础知识讲得不够系统，如果不是刷过别的python书的话单靠本书不一定能吃透。后半应用领域讲得较散，既不
elasticsearch 9200登录接口 leijmdas elasticsearch
嗯，关于Elasticsearch通过9200端口的登录接口，本质是启用安全认证后对HTTP请求的身份验证机制。以下是核心要点及操作指南：一、认证方式基础认证（用户名+密码）访问http://localhost:9200时会弹出登录框，需输入用户名和密码。默认超级用户：elastic，首次安装后密码需通过命令生成：./bin/elasticsearch-reset-password-uelasti
Python的GUI库选择指南（深度拓展）
前文我们分析了python的GUI库，有很多，面向应用场景也不尽相同，如何在使用过程中，选择合适的GUI库呢？可以查看：python有哪些常用的GUI（图形用户界面）库及选择指南-CSDN博客初学者推荐：Tkinter或PySimpleGUI，简单易学，文档丰富。复杂应用：PyQt5或WxPython，提供完整的功能集和高级组件。移动应用：Kivy或BeeWare（Toga），支持跨平台部署到iO
Python小游戏（井字棋）毛大猫（蓉火科技） python 开发语言数据库
Python的井字棋小游戏：方法一：初始化一个3x3的空棋盘（用数字1-9表示位置）board=[“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”]defprint_board():“”“打印当前棋盘”“”print(“\n”)print(f"{board[0]}|{board[1]}|{board[2]}“)print(”—|—|—“)print(f”{board[3]}|
使用matplotlib绘制散点图、柱状图和饼状图-学习篇 Zorione Python matplotlib 学习 python
一、散点图Python代码如下：num_points=100x=np.random.rand(num_points)#x点位随机y=np.random.rand(num_points)#y点位随机colors=np.random.rand(num_points)#颜色随机sizes=1000*np.random.rand(num_points)#大小随机alphas=np.random.rand(
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
AccuFace 在 iClone/Character Creator 导出 ARKit 52 子燕若水 iclone 3D daz3d 服务器 linux 运维
方案概览AccuFace在iClone/CharacterCreator里写入的是Reallusion60标准BlendShape曲线。要把它们导出为ARKit52并写入文本文件，可采用「iClone→FBX(ARKit52命名)→Blender→Python脚本→JSON/CSV」这一条相对稳妥的管线。关键步骤下面分拆说明，并给出可直接运行的脚本示例。步骤1：把Reallusion60映射到AR
Python 3 中tkinter 里的滚动文本框（ScrolledText）彭啊彭
最近在写一个模拟做题系统，里面有一个输出错题的功能，设置的文本框只有输出一道错题的大小，但是不能就一道题吧，就想到了平时页面里的滚动文本框，上网搜了搜，查到了ScrolledText，但是没找到实现我所需要功能的具体方法，没办法，我就自己研究了研究，好在最后实现了，现在就附上我的实现代码：defcuotiwin():globalscore#分数globallist2#存放错题var1=String
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
Django 4.x Models App settings 模型应用设置 Mr数据杨 Python Web开发 python django 模型 model 配置
在Django框架中，模型（Model）是用于定义和操作数据库表结构的核心组件。模型通过使用Python类的形式，帮助简化数据库操作，自动生成SQL语句，使得开发者能够专注于业务逻辑的实现，而无需直接编写复杂的SQL代码。Django的ORM（对象关系映射）提供了一种便捷的方式，将Python对象与数据库记录进行映射操作，从而有效地管理数据交互。对于那些想要在项目中使用Django构建数据库应用的
OpenGauss数据库-L.应用开发(Python)-选做 lovane_630 数据库 python oracle
第1关：简单查询#加载数据库模块importpsycopg2#连接数据库,创建连接并返回连接对象defconnect():conn=psycopg2.connect(database="finance",user="gaussdb",password="Passwd123@123",host="localhost")returnconn#建立与数据库连接mydb=connect()#获取游标#执行
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
Python 数据分析与机器学习入门 (三)：Pandas 数据导入与核心操作程序员阿超的博客 Python python 数据分析机器学习 Pandas DataFrame Series 数据清洗
引言：Pandas是什么，为何如此重要？如果说NumPy是处理原始数值数组的利器，那么Pandas则是驾驭结构化数据的瑞士军刀。在真实世界的数据分析项目中，数据很少是单纯的数字矩阵。它们通常以表格形式存在，包含行和列，每列可能有不同的数据类型（如文本、数字、日期），并且带有描述性的列名和行索引。Pandas正是为高效处理这类数据而生。Pandas构建于NumPy之上，它不仅继承了NumPy的高性能
GitHub 趋势日报 (2025年06月25日) qianmoQ GitHub 项目趋势日报 (2025年)github
由TrendForge系统生成|https://trendforge.devlive.org/本日报中的项目描述已自动翻译为中文今日获星趋势图今日获星趋势图880awesome788build-your-own-x691free-for-dev427best-of-ml-python404Self-Hosting-Guide403Best-websites-a-programmer-should-
python读mongodb很慢_Python3.5+Mongodb+Flask Web实战坑点小结【Dog Plus】 weixin_39604685
我不是程序员，也不是设计师，我只是碰巧有一些想法和一台电脑。Iamnotadesignernoracoder.I'mjustaguywithapoint-of-viewandacomputer.写在前言前：第一个WEB部署完毕，觉得有必要做一个小结：开发平台及工具：Win10+Pycharm+Py3.5+Flask+Mongodb回头看看，一旦选择这样的套装就注定要有很多坑来填。建议后来者能用Li
深入探索Python内存回收机制：原理与实践南风以南 Python进阶 python 开发语言性能优化后端
一、引言1.1Python内存管理的重要性Python内存管理是Python程序性能优化和稳定运行的重要组成部分。合理的内存管理能够确保程序在运行过程中有效地利用系统资源，防止不必要的内存消耗，避免内存泄露，并确保不再使用的对象能被及时释放，从而腾出内存供其他对象使用。Python通过其独特的引用计数、循环引用检测以及垃圾回收机制，在自动化内存管理方面表现出色，使得开发者无需显式地进行内存申请与释
Selenium 二次封装通用页面基类 BasePage —— Python 实践 xiaoming0818 selenium pyhton selenium python
一、项目背景在自动化测试中，页面对象模型（PageObjectModel）是一种非常重要的设计模式，它将页面元素和操作封装成类，提升代码复用性、可维护性和可读性。本文将以一个完整的BasePage页面基类实现为例，详细讲解如何构建一个结构清晰、功能强大的Selenium页面基类，并结合日志记录、截图、等待等常用功能进行二次封装，为后续编写测试用例打下坚实基础。二、项目结构概览Auto_seleni
[Python] -基础篇3-掌握Python中的条件语句与循环踏雪无痕老爷子 Python python 开发语言
在Python编程中，条件语句和循环是极为基本而重要的概念。它们决定了程序的执行进程和逻辑分支，是极其基础的程序控制结构。一、条件语句if/elif/elsePython中的条件语句使用if、elif和else来表达分支逻辑：x=10y=20ifx>y:print("x比y大")elifxyelsey</
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s