暖仔会飞

日常学习之：如何基于 OpenAI 构建自己的向量数据库

文章目录

原理
前期准备
- 依赖安装
- Pinecone 数据库注册
- Index 创建（相当于传统数据库中的创建 table）
基于 pinecone 数据库的代码实现
- 尝试用 OpenAI 的 API 构建 embedding
- 将示例的数据 embedding 后写入你的 pinecode （构建向量数据库）
- - 参考
- 构建查询 query
- 删除 Index （慎用）
基于 chroma 数据库的代码实现
- 原理介绍
- 依赖安装
- 代码

原理

将数据集通过 OpenAI 的模型转换成 embedding 的向量
将这些向量存储到向量数据库 pinecone
当构建一个应用的时候，给出一个查询的句子 query，依然通过 OpenAI 的模型进行 embedding 得到查询向量
query 向量被拿来与 pinecone 中的每一个向量进行相似度匹配，最终返回相似度最高的 topk

前期准备

依赖安装

# 如果你要基于 pinecone 来构建向量数据库就安装这些库
pip install -qU pinecone-client openai datasets

Pinecone 数据库注册

https://www.pinecone.io/

Index 创建（相当于传统数据库中的创建 table）

基于 pinecone 数据库的代码实现

尝试用 OpenAI 的 API 构建 embedding

"""
 @file: embedding_database.py
 @Time    : 2023/9/25
 @Author  : Peinuan qin
 """
import openai
import os


openai.api_key = "[去 OPENAI 官网复制粘贴你自己的 API KEY]"
# get API key from top-right dropdown on OpenAI website

MODEL = "text-embedding-ada-002"

# 基于 text-embedding-ada-002 模型尝试一下将两个句子进行 embedding，默认会构建每个向量的维度是 1536，每个句子都会单独构建一个 embedding 向量
res = openai.Embedding.create(
    input=[
        "Sample document text goes here",
        "there will be several phrases in each batch"
    ], engine=MODEL
)

print(f"vector 0: {len(res['data'][0]['embedding'])}\nvector 1: {len(res['data'][1]['embedding'])}")

embeds = [record['embedding'] for record in res['data']]
print(len(embeds))

import pinecone

index_name = 'paper-semantic-search'

# initialize connection to pinecone (get API key at app.pinecone.io)
pinecone.init(
    api_key="[去 Pinecone 注册一个账号，并且在你自己的账号下手动创建一个 index，然后将这个 index 的 API Key 拷贝到这里",
    environment="[这个也是系统默认的，当你复制 API_KEY 的时候就能看见，在同一个页面上]"  # find next to api key in console
)

# check if 'openai' index already exists (only create index if not)
if index_name not in pinecone.list_indexes():
    pinecone.create_index(index_name, dimension=len(embeds[0]))
# connect to index
index = pinecone.Index(index_name)

将示例的数据 embedding 后写入你的 pinecode （构建向量数据库）

参考

基于 pinecone + OpenAI LLM 构建向量数据库视频
源码地址

from tqdm.auto import tqdm

from datasets import load_dataset

# load the first 1K rows of the TREC dataset
trec = load_dataset('trec', split='train[:1000]')
count = 0  # we'll use the count to create unique IDs

# 设定 batch = 32
batch_size = 32  # process everything in batches of 32
for i in tqdm(range(0, len(trec['text']), batch_size)):
    # set end position of batch
    i_end = min(i+batch_size, len(trec['text']))
    # get batch of lines and IDs
    # 按照 trec 数据集中的数据的存放方式将每个句子的原文本提取出来, lines_batch 就是个字符串列表，每个列表中有 32 个字符串
    lines_batch = trec['text'][i: i+batch_size]
    # 给一个 batch 中的每个句子标号，例如这是第五个 batch，那么对应的编号应该是 160-192
    ids_batch = [str(n) for n in range(i, i_end)]
	# 为 batch 中的每个句子创建 embeddings， 使用的模型是 "text-embedding-ada-002"
    res = openai.Embedding.create(input=lines_batch, engine=MODEL)
	
	# OpenAI 返回的结果中不只是包含 embedding 的值，而是为每个 sentence 都创建了一个 json 的形式，因此，利用列表表达式提取出这些 embedding 的值
    embeds = [record['embedding'] for record in res['data']]
    
    # 保留所有的 text 的内容当做元数据（metadata），保留元数据的目的是为了当你在 query pinecone 数据库得到最相似的向量之后，我们可以直接拿到他的文本数据，而不用将这一个最匹配的 embedding 再用 openai 的 api 解码。
    # 每个 embedding 都对应了一个 json 结构体可以存放他们的元数据，可以存放很多字段
    meta = [{'text': line} for line in lines_batch]
	
	# 最终将他们的 id，embedding 数据和 metadata 打包，放到 pinecode 数据库中存储
    to_upsert = zip(ids_batch, embeds, meta)
    # upsert to Pinecone
    index.upsert(vectors=list(to_upsert))

构建查询 query

# 查询语句
query = "What caused the 1929 Great Depression?"

# 将查询语句进行 embedding
xq = openai.Embedding.create(input=query, engine=MODEL)['data'][0]['embedding']

# 使用查询语句的 embedding 从数据库中索引出 cosine 相似度最高的 5 个结果，同时返回这些 embedding 的 metadata
res = index.query([xq], top_k=5, include_metadata=True)


# 将这些结果循环打印出来
for match in res['matches']:
    print(f"{match['score']:.2f}: {match['metadata']['text']}")

删除 Index （慎用）

pinecone.delete_index(index_name)

基于 chroma 数据库的代码实现

原理介绍

下图来源于博客

依赖安装

pip install langchain
pip install tiktoken
pip install chromadb 
pip install unstructured
pip install "unstructured[md]"

代码

"""
 @file: retrival.py
 @Time    : 2023/9/25
 @Author  : Peinuan qin
 """
import os
import openai
from langchain.document_loaders import TextLoader, DirectoryLoader
from langchain.indexes import VectorstoreIndexCreator

os.environ['OPENAI_API_KEY'] = "[去 OPENAI 官网复制粘贴你自己的 API KEY]"
query = "[给一个你自己想要的 query]"

# 构建 loader 从某个文本文件中建立 index
loader = TextLoader("./data/test.txt")

# 也可以直接从目录中构建
# loader = DirectoryLoader("./papers", glob='*.md') # 从一个目录文件夹中将所有扩展名为 md 的文件进行构建 index，但是这需要安装单独的依赖 pip install "unstructure[md]"

# 构建基于 chromadb 的索引
index = VectorstoreIndexCreator().from_loaders([loader])


llm = ChatOpenAI()
llm.model_name = 'gpt-4'
while True:
    query = input(">")

	# 这里的 llm 参数可以不给，当给了 llm 参数之后，系统不仅会在你构建的数据库中进行索引，还会根据 llm 模型对你的答案进行进一步的扩展	
    print(index.query(query, llm=llm))

当然还涉及到一些 chromadb 持久化的操作，或者使用原生的 chromadb 进行存储而不是使用 langchain 封装的 chromadb 的方式，可以参考

你可能感兴趣的:(日常学习,数据库,gpt,向量数据库)

《高等代数》线性相关和线性无关无关典型例题代码小白菜菜高等代数笔记高等代数
说明：此文章用于本人复习巩固，如果也能帮到大家那就更加有意义了。注：1）一般情况下题目要求证明哪个向量组线性相关或线性无关就用线性相关和线性无关的定义将等式写出来，然后再用适当的方法进行求解。2）在这题中，利用了行列式有解无解和线性相关和线性无关的关系进行判断是线性相关还是线性无关。
线性相关和线性无关我推是大富翁线性代数线性代数
在线性代数中，线性相关和线性无关是刻画向量组性质的核心概念，以下是关于它们的重要结论总结：一、基本定义与核心判定线性相关的定义向量组{α1,α2,…,αm}\{\alpha_1,\alpha_2,\dots,\alpha_m\}{α1,α2,…,αm}线性相关，当且仅当存在不全为零的实数k1,k2,…,kmk_1,k_2,\dots,k_mk1,k2,…,km线性无关的定义向量组{α1,α2,…,
分享一些 SQL 优化工具王宇帆avalanche sql 数据库
一、数据库自带的性能监控和分析工具MySQL：MySQLEnterpriseMonitor：这是MySQL官方推出的一款企业级监控工具，它提供了全面的数据库性能监控和管理功能。功能特点：可以实时监控MySQL服务器的各种关键性能指标，如查询响应时间、吞吐量、连接数、缓存命中率等。它还能深入分析SQL查询的执行计划，帮助用户找出性能瓶颈和优化点。通过直观的图形界面，管理员可以轻松了解数据库的运行状态
pgsql处理文档类型数据_PostgreSQL数据类型
http://blog.csdn.net/neo_liu0000/article/category/797059第六章数据类型6.1概述PostgreSQL提供了丰富的数据类型。用户可以使用CREATETYPE命令在数据库中创建新的数据类型。PostgreSQL的数据类型被分为四种，分别是基本数据类型、复合数据类型、域和伪类型。基本数据类型是数据库内置的数据类型，包括integer、char、va
centos7下docker安装postgresql+postgis
环境:centos7/docker最初直接拉取的postgresql数据，在导入.bakup文件时始终会报错，最后才想到该数据库默认不带postgis空间组件###一、拉取镜像这里我们拉取postgres和gis组合的镜像目前组合的版本有如下几个-11.0-2.5-10.0-2.4-9.6-2.4这里以拉取postgresqlv11.0和postgisv2.5的镜像为例dockerpullkart
PostgreSQL数据类型总结渝州居士 PostgreSQL postgresql 数据库
PostgreSQL数据库相比其他数据库，支持更多的数据类型，包括常用的数值类型、字符串类型、日期/时间类型外，还有几何类型、网络地址类型、xml类型和json类型，且还可以使用CREATETYPE自行添加数据类型，本文主要介绍PostgreSQL数据库主要的数据类型1.数值类型常用数值类型如下表所示：名称别名存储大小范围描述与其他数据库对比smallintint22字节-225~215-1有符号
探秘高效数据库备份利器：pg_probackup 郦岚彬Steward
探秘高效数据库备份利器：pg_probackuppg_probackuppg_probackup是一个开源的PostgreSQL备份和恢复工具，用于在PostgreSQL中进行在线备份和恢复操作。-功能：PostgreSQL备份和恢复工具；在线备份；恢复操作。-特点：易于使用；轻量级；支持多种编程语言；高性能。项目地址:https://gitcode.com/gh_mirrors/pg/pg_pr
RAG系列：提升RAG检索力：三大Query变形术，助你玩转AI知识检索！数智前沿数字化转型人工智能 RAG
之前的帖子大多在优化向量化的过程，让文本内容分块更合理和更精准，本篇重点介绍使用RAG时如何优化提示词，以提高查询结果的精准度！一、RAG的“灵魂拷问”：你真的会提问吗？在AI时代，信息检索的效率和质量，80%取决于你“怎么问”。RAG系统的本质，就是“你问得好，我答得妙”。但现实往往是——用户提问：“AI会抢我饭碗吗？”检索系统：一脸懵逼，给你扔来一堆“AI是什么”“就业趋势”……用户：？？？这
Squirrel：通用SQL、NoSQL客户端 antui1957
安装配置数据库配置驱动配置连接如果你的工作中，需要使用到多个数据库，又不想在多种客户端之间切换来切换去。那么就需要找一款支持多数据库的客户端工具了。如果你要连接多个关系型数据库，你就可以使用NavicatPremium。但是如果你有使用到NOSQL（譬如HBase、MongoDB等），还是建议使用SquirrelSQLClient。1、安装下载地址：http://squirrel-sql.sour
postgresql增量备份系列二 pg_probackup necessary653 postgresql postgresql 数据库
已经很久没有发文章了，主要是最近工作上的内容都不适合发文章公开。可能往后文章发表也不这么频繁了，不过大家有问题我们可以交流。之前有写过PG增量备份的其他工具使用方法，pg_probackup也是应用比较多的PG备份工具。一.pg_probackuppg_probackup是一个用于管理PostgreSQL数据库集群备份与恢复的实用工具，截止2.5.15版本，支持PostgreSQL11-16及以上
Django 4.x Models App settings 模型应用设置 Mr数据杨 Python Web开发 python django 模型 model 配置
在Django框架中，模型（Model）是用于定义和操作数据库表结构的核心组件。模型通过使用Python类的形式，帮助简化数据库操作，自动生成SQL语句，使得开发者能够专注于业务逻辑的实现，而无需直接编写复杂的SQL代码。Django的ORM（对象关系映射）提供了一种便捷的方式，将Python对象与数据库记录进行映射操作，从而有效地管理数据交互。对于那些想要在项目中使用Django构建数据库应用的
OpenGauss数据库-L.应用开发(Python)-选做 lovane_630 数据库 python oracle
第1关：简单查询#加载数据库模块importpsycopg2#连接数据库,创建连接并返回连接对象defconnect():conn=psycopg2.connect(database="finance",user="gaussdb",password="Passwd123@123",host="localhost")returnconn#建立与数据库连接mydb=connect()#获取游标#执行
Statement 和 PreparedStatement 详解风起携月归 java JavaEE SQL python 数据库开发语言
Statement和PreparedStatement详解文章目录Statement和PreparedStatement详解一、定义二、Statement三、PreparedStatement四、Statement和PreparedStatement的区别一、定义在Java数据库编程中，Statement和PreparedStatement是两种用于执行SQL语句的接口理解：在Java语句里执行S
国产化关系型数据库都有哪些？哪些数据库使用的频次最高？信创天地数据库开发语言 java 大数据网络安全运维开发
以下是国产化关系型数据库的主要产品及其在信创项目中的应用频次分析，结合技术特性、行业适配性和市场占有率综合评估：一、主流国产关系型数据库列表1.传统集中式数据库数据库名称厂商技术路线核心特点达梦DM武汉达梦自研内核（兼容Oracle）高兼容Oracle，政务/金融领域占有率第一人大金仓KingBase人大金仓PostgreSQL分支优化军工背景，党政机关标配GaussDB华为自研（兼容Postgr
JDBC中PreparedStatement对象详解（认真看完包学会）码力无边-OEC java 后端
JDBC（JavaDatabaseConnectivity）是Java用于访问数据库的标准API。PreparedStatement是JDBC中用于执行预编译的SQL语句的接口，能够有效地防止SQL注入，并提高性能。以下是关于PreparedStatement的详细讲解：1.什么是PreparedStatementPreparedStatement是一种SQL语句的预编译版本。与Statement
对象池模式：减少GC的Kotlin实战指南时小雨 Android实战与技巧 android kotlin
对象池模式通过对象复用机制，将对象生命周期从"创建-销毁"转变为"借出-归还"，显著减少GC压力。下面通过完整实例展示其实现细节。一、对象池工作原理图解是否对象池初始化预创建对象对象池客户端请求对象从池中借出对象创建新对象使用对象归还对象到池二、数据库连接池完整实现（Kotlin）importjava.util.concurrent.ArrayBlockingQueueimportjava.uti
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
RAG检索增强生成在垂类AI应用效能优化中的应用 TechVision大咖圈人工智能 RAG 检索增强生成垂类AI 效能优化知识库向量检索
关键词：RAG、检索增强生成、垂类AI、效能优化、知识库、向量检索、大模型应用文章目录引言：为什么垂类AI需要RAGRAG技术原理深度解析垂类AI应用的痛点与挑战RAG在垂类AI中的解决方案效能优化的核心策略实战案例分析最佳实践与踩坑指南总结与展望引言：为什么垂类AI需要RAG在AI大模型满天飞的今天，每个企业都想搭建自己的"智能助手"。但是现实很骨感——通用大模型虽然知识渊博，却像个"万金油"，
ECharts后台读取数据动态生成折线图：实时数据可视化解决方案窦菲芊Harriet
ECharts后台读取数据动态生成折线图：实时数据可视化解决方案【下载地址】ECharts后台读取数据动态生成折线图该项目提供了一种高效的方法，利用PHP从数据库中读取数据，并通过JSON格式传输到前端，结合ECharts库动态生成折线图。通过AJAX技术，数据能够实时刷新，确保折线图始终反映最新数据变化。项目集成了ECharts和jQuery，简化了开发流程，适合需要实时数据可视化的场景。只需将
二次开发源码借贷系统uniapp/借贷认证系统/小额信贷系统/工薪贷APP/资金贷系统h5 csdndddsd uniapp借贷系统开发小额贷系统app 工薪贷系统安装搭建信用贷认证系统 h5资金贷系统安装搭建教程借贷系统安装搭建借贷系统二次开发
前端：UNIAPP后端：ThinkPHP数据库：Mysql前端使用的uniapp可以打包APPH5小程序系统提供了完善的网络借贷体系，为金融中介平台提供从获客到贷后管理全流程服务，解决了借贷手续繁琐、流程缓慢等问题此源码为运营中版本，具有极高稳定性，防注入，防攻击，修复全部已知后门漏洞仅供学习演示、二次开发专用，禁止一切违法行为的利用！可提现金额(元)￥{{qbMoney}}充值提现余额明细余额变
大学专业科普 | 物联网、自动化和人工智能
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。物联网专业课程设置基础课程：包括物联网概论、电子电工基础、计算机网络技术、数据库应用基础、C语言程序设计等。专业核心课程：传感器与传感网技术、自动识别技术与应用、单片机基础、物联网通信技术、嵌入式系统设计、无线传感器网络等。实践课
数据库事务全面指南：概念、语法、机制与最佳实践步行cgn 数据库数据库
数据库事务全面指南：概念、语法、机制与最佳实践事务是数据库管理系统的核心功能，它确保数据库操作满足ACID特性（原子性、一致性、隔离性、持久性）。正确使用事务对于维护数据完整性和系统可靠性至关重要。一、事务核心概念ACID特性详解特性描述实现机制原子性(Atomicity)事务的所有操作要么全部完成，要么全部不执行回滚日志(UndoLog)一致性(Consistency)事务使数据库从一个一致状态
数据库视图详解：概念、语法、应用场景与注意事项步行cgn 数据库数据库 oracle
数据库视图详解：概念、语法、应用场景与注意事项视图（View）是数据库中的虚拟表，它基于SQL查询结果动态生成数据，不实际存储数据。视图是数据库设计中的强大工具，正确使用可以显著提升系统的安全性和可维护性。一、视图核心概念1.视图的本质虚拟表：不存储数据，仅存储查询定义动态生成：每次访问时执行底层SQL安全层：控制数据访问权限抽象层：隐藏底层表结构复杂性2.视图vs表特性表(Table)视图(Vi
C#库存管理系统源码与详解 weixin_42613017
本文还有配套的精品资源，点击获取简介：本文深入剖析C#开发的库存管理系统源码，涵盖从设计到实现的各个方面。详细解释了面向对象编程思想在库存管理中的应用，包括商品、仓库、订单等实体的类设计，以及关键的库存管理模块如入库、出库、查询、预警、盘点、报表生成、数据库设计、用户界面设计、错误处理与安全性的实现。此项目旨在帮助开发者深入理解C#语言及其在业务系统开发中的实践经验，涵盖软件工程的核心概念。1.面
怎么java链接数据库_Java 如何使用JDBC连接数据库悦时光里的背包客怎么java链接数据库
一、使用JDBC连接数据库1.使用JDBC-ODBC桥驱动程序连接数据库基本步骤：(1)加载并注册数据库驱动(2)通过DriverManager获取数据库连接(3)通过Connection对象获取Statement对象(4)使用Statement接口执行SQL语句(5)操作ResultSet结果集(6)关闭连接，释放资源2.下面进行代码演示1.注册数据库驱动程序的语法格式如下：DriverMana
MyBatis缓存机制深度解析搞怪青年布响丸辣 mybatis 缓存 spring
在软件开发中，性能优化是一个永恒的话题。对于频繁访问数据库的应用来说，缓存是提高性能的重要手段之一。MyBatis作为一款流行的持久层框架，自然提供了丰富的缓存支持。本文将深入探讨MyBatis的一级缓存、二级缓存以及集成第三方缓存的机制和使用注意事项。一、MyBatis缓存概述MyBatis缓存主要分为两类：一级缓存（SqlSession级别的缓存）和二级缓存（Mapper级别的缓存）。一级缓存
JDBC连接PgSQL（PostgreSQL）数据库 AIGC镜像空间面试学习路线阿里巴巴 postgresql 数据库 intellij-idea linux 物联网
一、工具（1）Java开发平台：IntelliJIDEA2018.3.6（2）PgSQL数据库：postgresql-9.5.21（其他版本也行）（3）数据库管理软件：NavicatPremium15（4）PgSQL连接驱动：postgresql-42.3.3.jar二、准备工作在连接之前应先完成一下工作：（1）在IDEA中新建一个JAVA项目文件（2）下载安装PgSQL数据库（3）下载安装Nav
MySQL 数据操纵与数据库优化熬夜的猪数据库 sql mysql
MySQL数据库的DML一、创建（Create）1.基本语法INSERTINTO表名[(列名1,列名2,...)]VALUES(值1,值2,...);省略列名条件：当值的顺序与表结构完全一致时，可省略列名（需包含所有字段值）批量插入：单条语句插入多行数据提升效率INSERTINTOstudent(id,name,score)VALUES(1,'张三',99),(2,'李四',88),(3,'王五'
音频单声道跟立体声道的区别张海森_168820 音视频
音频单声道跟立体声道的区别摘自chatgpt单声道（Mono）和立体声（Stereo）的区别，主要在于声道数与空间感的不同：1.定义对比：项目单声道（Mono）立体声（Stereo）声道数1个2个（左声道+右声道）声音来源所有声音都从一个声道发出声音分布在两个声道，模拟空间感空间效果无空间感有方向、空间定位感（左右差异）文件大小相对较小文件更大（多一倍音频数据）常见应用电话、对讲机、语音识别等音乐
推荐系统的视频特征-视频关键帧特征提取与向量生成
总体流程概览视频文件(.mp4)↓关键帧抽取（FFmpeg/SceneDetect）↓帧图像（.jpg）↓图像模型提取特征（CLIP/CNN/ViT）↓多帧聚合成视频向量（均值池化等）↓向量库/推荐系统模型特征提取推荐：使用OpenAI的CLIP模型CLIP（ContrastiveLanguage-ImagePretraining）适合推荐系统做跨模态建模，对视频封面帧或场景帧提取效果非常好。✅1
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他