羊城迷鹿

基于数据库和NER构建知识图谱流程记录

文章目录

- 环境准备
- 拓扑设计
- 构建流程设计
- 文件流设计
- 交互解析算法实现
- - 数据库交互
  - NER解析
  - 相似度计算
- 基于数据库的文件生成
- - 从数据库中读取字段
  - 将字段后处理后保存为文件
- 基于文件的知识图谱构建
- bug修改与算法优化
- - 图数据库连接问题
  - 批量构建知识图谱问题
  - 批量删除边问题
  - 空值处理问题
  - 去重时的大小写问题
  - 加速构建边优化
  - 将属性修改为节点

环境准备

本任务中知识图谱里的内容主要有两个来源，一个是数据库中的字段值，一个是从数据库中的描述字段中通过NER提取出的关键词。

因此，除了在服务器上安装neo4j图数据库环境，在本地安装py2neo包负责与图数据库间交互，还要安装pymysql包负责与数据库间交互，安装paddlenlp完成NER任务。

拓扑设计

从数据库中提取有用的信息，并对应于节点和关系，使用presson绘制出知识图谱的整体拓扑。其中蓝色为节点，黄色为不同节点间的关系（虚线为反向边），绿色同同一类型节点间的关系（基于相似性度量）。

选中节点，点击数据属性，可以为不同节点添加属性，并记录其在数据库中的来源

构建流程设计

其实知识图谱的构建常常是节点和边同时构建的，但由于我们的数据量非常大，同时构建逻辑比较复杂，所以采取了先统一建节点，后统一建边的逻辑。

节点构建时有两个来源：一个是从数据库直接读取，一个是从数据库中的一个描述字段中通过NER提取关键词来构建。

边在构建时除了这两个来源，还有一种来源是同一类型节点间基于相似性计算出连边。

文件流设计

构建节点时，为了让流程更为清晰可控，首先根据预先定义的节点数据库CSV文件和NER解析JSON文件去生成节点数据CSV文件，再根据节点数据CSV文件去生成节点。

节点数据库CSV文件名为节点名称，内容包含数据库名、字段和属性三列，其中字段是数据库中的字段名，属性是节点中的属性名。

注意第一行的第三列必须是name，第二列如果以加号开头说明要确保字段的唯一性，下面是一个常规示例：

写这个文件时可以做一些骚操作，例如在字段中将SQL语句融入进去，比如说我想构建一个坐标节点，其名字为“坐标X，坐标Y”，这个文件的后两列就可以写成："+CONCAT_WS(',', zbx, zby)",name。

节点数据CSV文件，第一列是name，后面是其他属性，相当于把上面的节点数据库CSV文件横过来。以坐标节点为例：

构建边时，首先根据预先定义的关系数据库CSV文件和NER解析JSON文件以及相似性计算算法去生成关系数据CSV文件，再根据关系数据CSV文件去生成边。

关系数据库CSV文件名为关系名称，内容只有一行，包含数据库,起点字段,起点label,起点所用属性,终点字段,终点label,终点所用属性这几列。其中label指的是头实体和尾实体的节点类型，属性是查询时用到的属性。

关系数据CSV文件，列数不固定，第一部分是连接时用到的头实体节点属性，形如name1, axx1, bxx1,...；第二部分是连接时用到的尾实体节点属性，形如name2, axx2, bxx2, ...；最后两列固定为label1, label2，对应头实体节点类型和尾实体节点类型，以时间相似的关系为例：

交互解析算法实现

为了将数据库中字段解析为知识图谱的内容，需要完成以下几部分的功能：一是直接与数据库交互，二是通过NER解析文本描述内容，三是计算时间和地点间的相似度。

数据库交互

定义下述数据库交互类，输入SQL查询语句后将返回结果封装为dataframe。

import pymysql
import pandas as pd
class SQLSelector:
    def __init__(self):
        # 初始化数据库连接
        self.db_config = {
            'host':'',
            'user':'',
            'password':'',
            'db':'',
            'charset':'utf8'
        }
        self.cursor, self.connection = self.connect_db()

    def connect_db(self):
        try:
            connection = pymysql.connect(**self.db_config)
            cursor = connection.cursor()
            return cursor, connection
        except Exception as e:
            print(f"Error connecting to the database: {e}")
            raise

    def close_db(self):
        try:
            self.cursor.close()
            self.connection.close()
        except Exception as e:
            print(f"Error closing the database connection: {e}")

    def __del__(self):
        # 关闭数据库连接
        self.close_db()

    def execute_db(self, sql_query):
        # 返回执行状态和结果
        try:
            self.cursor.execute(sql_query)
            execute_result = pd.DataFrame(self.cursor.fetchall(), columns=[desc[0] for desc in self.cursor.description])
            execute_state = True
        except Exception as e:
            execute_result = str(e)
            execute_state = False
        return execute_state, execute_result

NER解析

定义下列文本解析类，由于没有经过训练，直接使用paddlenlp做解析，并把结果保存为json，因此结果不是很准确，后续需要后处理，下面的代码做了脱敏处理。

from paddlenlp import Taskflow
import pandas as pd
import json
from utils import write_json_file, read_json_file, is_id_card, count_elements_in_nested_list
from tqdm import tqdm

tqdm.pandas()


class PaddleNLP:

    def __init__(self):
        self.ner_file_path = "./Data/NER_data"

    def paddle_ner(self, batch_size, input_list):
        ner = Taskflow("ner", batch_size=batch_size)
        print("start NER")
        result_list = ner(input_list)
        return result_list

    def paddle_ie(self, batch_size, input_list, schema):
        ner = Taskflow("knowledge_mining", batch_size=batch_size)
        print("start IE")
        result_list = ner(input_list)
        return result_list

    def ner_data_save(self, path):
        ner_source_data = pd.read_json(path)
        ner_source_data[''] = ner_source_data[''].fillna("此处为空")
        input_list = ner_source_data[""].tolist()
        ner_result_list = self.paddle_ner(batch_size=50, input_list=input_list)
        write_json_file(self.ner_file_path + "./ner_result_no_na.json", ner_result_list)

    def ie_data_save(self, path):
        ner_source_data = pd.read_json(path)
        ner_source_data[''] = ner_source_data[''].fillna("此处为空")
        input_list = ner_source_data[""].tolist()[0:100]
        schema = []
        ner_result_list = self.paddle_ie(batch_size=10, input_list=input_list, schema=schema)
        print(ner_result_list)

    def combine_ner_data(self, ner_path, source_data_path):
        ner_data = read_json_file(ner_path)
        print(len(ner_data))
        source_df = pd.read_json(source_data_path)
        print(len(source_df) - len(ner_data))
        source_df["ner_result"] = ner_data
        output_file_path = self.ner_file_path + '/ner_data.json'
        source_df.to_json(output_file_path, force_ascii=False, orient='records')

    def analysis_ner_data(self, data_path):
        ner_df = pd.read_json(data_path)
        results = ner_df.progress_apply(combined_entity_check, axis=1)
        ner_df[''] = results['']
        ner_df[''] = results['']
        ner_df.drop('ner_result', axis=1, inplace=True)
        output_file_path = self.ner_file_path + '/updated_ner_data.json'
        ner_df.to_json(output_file_path, force_ascii=False, orient='records')

    def check_data(self, data_path):
        ner_data = pd.read_json(data_path)
        qtr_xm = ner_data["qtr_xm"]
        print(count_elements_in_nested_list(qtr_xm))

def combined_entity_check(row):
    # 提取人物类实体
    human_entities = set(item[0] for item in row['ner_result'] if item[1] == '人物类_实体')
    xy = row[''].split(',') if row[''] else []
    sa = row[''].split(',') if row[''] else []
    check_result = []
    qtr_xm = []
    return pd.Series([check_result, qtr_xm], index=['check_result', 'qtr_xm'])

if __name__ == "__main__":
    paddle_nlp = PaddleNLP()
    ner_data_path = paddle_nlp.ner_file_path + "/updated_ner_data.json"
    source_data_path = paddle_nlp.ner_file_path + "/ner_source.json"
    paddle_nlp.check_data(ner_data_path)

相似度计算

基于KD-Tree计算坐标和时间相似度

def filter_coordinate_nodes(nodes, label, threshold_distance=0.02):
    print("计算坐标相似度中...")
    coordinates = np.array([
    (float(node[1]), float(node[2])) 
    for node in nodes 
    if node[1] != "NULL" and node[2] != "NULL"
])

    # Build KD-tree
    kdtree = cKDTree(coordinates)

    # Query pairs within the threshold distance
    pairs = kdtree.query_pairs(threshold_distance, output_type='ndarray')
    
    unique_pairs = set()
    for i, j in pairs:
        pair = (min(nodes[i][0], nodes[j][0]), max(nodes[i][0], nodes[j][0]), label, label)
        unique_pairs.add(pair)
    
    print("计算坐标相似度完成！")
    return list(unique_pairs)


def filter_time_nodes(nodes, label, threshold=21600):
    print("Calculating time similarity...")

    # Extract timestamps from nodes
    timestamps = np.array([
        int(datetime.strptime(time_str, '%Y-%m-%d %H:%M:%S').timestamp())
        if time_str.strip() and time_str.strip() != "NULL"
        else None
        for time_str in nodes
    ])

    # Build KD-tree
    kdtree = cKDTree(timestamps.reshape(-1, 1))

    # Query pairs within the threshold time difference
    pairs = kdtree.query_pairs(threshold, output_type='ndarray')

    unique_pairs = set()
    for i, j in pairs:
        pair = (min(nodes[i], nodes[j]), max(nodes[i], nodes[j]), label, label)
        unique_pairs.add(pair)

    print("Time similarity calculation completed!")
    return list(unique_pairs)

经过比较，其运行速度不如下面这种矩阵运算

def filter_coordinate_nodes(nodes, label, threshold_distance=0.001):
    print("计算坐标相似度中...")
    # 提取坐标信息并转换为NumPy数组
    coordinates = []
    for node in nodes:
        if node[1] != "NULL" and node[2] != "NULL":
            x_str = re.sub("[^0-9.]", "", str(node[1]))
            y_str = re.sub("[^0-9.]", "", str(node[2]))
            if x_str and y_str:  # 确保字符串不为空
                coordinates.append((float(x_str), float(y_str)))
    coordinates = np.array(coordinates)
    # 使用广播计算两两之间的绝对值距离
    unique_pairs = set()
    for i in tqdm(range(len(coordinates)), desc="相似度计算"):
        # 计算点i与其他所有点的距离
        distances = np.sqrt(np.sum((coordinates - coordinates[i]) ** 2, axis=1))
        # 找到距离小于阈值的点
        close_points = np.where(distances < threshold_distance)[0]
        # 避免将点i与自身比较
        close_points = close_points[close_points != i]

        for j in close_points:
            pair = (min(nodes[i][0], nodes[j][0]), max(nodes[i][0], nodes[j][0]), label, label)
            unique_pairs.add(pair)
    print("计算坐标相似度完成！")
    return list(unique_pairs)


def filter_time_nodes(nodes, label, threshold=10800):
    print("计算时间相似度中...")
    placeholder = -1

    # 将时间字符串转换为时间戳，对于无效值使用占位符
    timestamps = np.array([
        int(datetime.strptime(time_str, '%Y-%m-%d %H:%M:%S').timestamp())
        if time_str.strip() and time_str.strip() != "NULL"
        else placeholder  # 使用占位符代替 None
        for time_str in nodes
    ])

    # 使用广播计算两两之间的距离
    unique_pairs = set()
    # 使用 tqdm 包裹您的循环来显示进度条
    for i in tqdm(range(len(timestamps)), desc="计算进度"):
        if timestamps[i] is not None:
            # 计算时间点 i 与其他所有时间点的差异
            distances = np.abs(timestamps - timestamps[i])
            # 找到小于阈值且不是自己的时间点
            close_points = np.where((distances < threshold) & (distances != 0))[0]

            for j in close_points:
                pair = (min(nodes[i], nodes[j]), max(nodes[i], nodes[j]), label, label)
                unique_pairs.add(pair)
    print("计算时间相似度完成！")
    return list(unique_pairs)

基于数据库的文件生成

下面是根据生成节点和关系数据库CSV文件去生成数据CSV文件的部分，基于NER和基于相似度的文件生成逻辑与之类似，在此略过。

从数据库中读取字段

import os
import pandas as pd
class DbInfoReader:
    def __init__(self):
        # 数据库CSV文件存放路径
        self.node_file_path = "./NodeDb"
        self.rel_file_path = "./RelDb"
        # 必要时只对filter里面的做更新
        self.node_filter = []

    def generate_node_info(self):
        node_files = os.listdir(self.node_file_path)
        for node_file in node_files:
            node_db_dict = {}
            df = pd.read_csv(os.path.join(self.node_file_path, node_file), index_col=False)
            # CSV文件名代表节点label，第一列是数据库名，第二列是数据库字段，第三列是对应属性名
            # 注意第一行的第三列必须是name
            # 第二列如果以加号开头说明要确保该字段的唯一性
            assert df.iloc[0,2] == "name"
            label = os.path.splitext(os.path.basename(node_file))[0]
            if len(self.node_filter) == 0 or label in self.node_filter:
                for _, row in df.iterrows():
                    # 转化为字典
                    data_dict = row.to_dict()
                    key_name = data_dict.pop('数据库')
                    if key_name not in node_db_dict:
                        node_db_dict[key_name] = {}
                    node_db_dict[key_name][data_dict['字段']] = data_dict['属性']
                yield label, node_db_dict

    def generate_rel_info(self):
        rel_files = os.listdir(self.rel_file_path)
        for rel_file in rel_files:
            # CSV格式：库,起点字段,起点label,起点所用属性,终点字段,终点label,终点所用属性
            df = pd.read_csv(os.path.join(self.rel_file_path, rel_file), index_col=False)
            label = os.path.splitext(os.path.basename(rel_file))[0]
            for _, row in df.iterrows():
                # 转化为字典
                data_dict = row.to_dict()
            yield label, data_dict

if __name__ == "__main__":
    dbinforeader = DbInfoReader()
    dbinforeader.generate_rel_info()

将字段后处理后保存为文件

from SQLSelector import *
from DbInfoReader import *
from utils import generate_sql_dict, read_json, is_name
from tqdm import tqdm
class DbInfoSaver:
    def __init__(self):
        # 属性CSV文件存放路径
        self.node_file_path = "./NodeFile"
        self.rel_file_path = "./RelFile"
        self.ner_file_path = "./Data/NER_data"
        self.split_files = []
        self.delete_unknown_files = []
        self.dbinforeader = DbInfoReader()
        self.sqlselector = SQLSelector()
        self.sql_dict = generate_sql_dict()

    def save_node_file_in_sql(self):
        # 节点来源一：从数据库里直接建节点
        for label, node_db_dict in self.dbinforeader.generate_node_info():
            data = pd.DataFrame()
            for db, pair in node_db_dict.items():
                # 添加唯一约束
                columns = []
                for db_name, node_name in pair.items():
                    ddb_name = db_name
                    if db_name[0] == "+":
                        ddb_name = "DISTINCT " + db_name[1:]
                    columns.append("{} AS {}".format(ddb_name, node_name))
                column_str = ", ".join(columns)
                sql_query = "SELECT {} FROM {}".format(column_str, db)
                results = self.sqlselector.execute_db(sql_query)[1]
                data = pd.concat([data, results], ignore_index=True)
            # 使用字典对字段值做映射，异常值映射为未知
            if label in self.sql_dict:
                for col, dic in self.sql_dict[label].items():
                    data[col] = data[col].map(lambda x: dic.get(x, '未知'))
                    # print(col, set(data[col]))
            # 对多值情况做分割
            if label in self.split_files:
                new_df = data['name'].str.split(',', expand=True).reset_index(drop=True).drop_duplicates().stack().reset_index(drop=True).drop_duplicates()
                new_df = pd.DataFrame(new_df)
                new_df.columns = ["name"]
                data = new_df
            # 对每一列删除多余空格
            for col in data.columns:
                data[col] = data[col].apply(lambda x: x.strip() if isinstance(x, str) else x)
            data = data.drop_duplicates(subset = data.columns).reset_index(drop=True)
            # 删除每行全部未知的节点
            if label in self.delete_unknown_files:
                cols_to_check = data.columns[1:]
                to_drop = data[cols_to_check].eq('未知') | data[cols_to_check].isna() | data[cols_to_check].eq('')
                data = data[~to_drop.all(axis=1)]
            data.to_csv(os.path.join(self.node_file_path, f"{label}.csv"), index=False)
    
        

    def save_rel_file_in_sql(self):
    	# 关系来源一：从数据库里直接建关系
        for label, rel_db_dict in tqdm(self.dbinforeader.generate_rel_info()):
            # 构建起点和终点的 SELECT 子句
            start_column = "{} AS {}".format(rel_db_dict['起点字段'], rel_db_dict['起点所用属性']+'1')
            end_column = "{} AS {}".format(rel_db_dict['终点字段'], rel_db_dict['终点所用属性']+'2')
            # 构建 SQL 查询语句
            sql_query = "SELECT DISTINCT {}, {} FROM {}".format(start_column, end_column, rel_db_dict['库'])
            # 执行 SQL 查询
            results = self.sqlselector.execute_db(sql_query)[1]
            results['label1'] = rel_db_dict['起点label']
            results['label2'] = rel_db_dict['终点label']
            # 对每一列删除多余空格
            for col in results.columns:
                results[col] = results[col].apply(lambda x: x.strip() if isinstance(x, str) else x)
            results = results.drop_duplicates(subset=results.columns).reset_index(drop=True)
            # 保存结果到 CSV 文件
            results.to_csv(os.path.join(self.rel_file_path, f"{label}.csv"), index=False)

if __name__ == "__main__":
    dbinfosaver = DbInfoSaver()
    dbinfosaver.save_node_file_in_sql()

基于文件的知识图谱构建

在生成了节点和关系的数据CSV文件之后，直接读取文件内容并生成知识图谱中的节点和关系，全流程走完。

import pandas as pd
from py2neo import Graph, Node, NodeMatcher, Relationship
import os
from tqdm import tqdm
import logging

# Set up logging configuration
logging.basicConfig(filename='error_log.txt', level=logging.ERROR)

class GraphGenerator:
    def __init__(self) -> None:
        self.node_file_path = "./NodeFile"
        self.rel_file_path = "./RelFile"
        self.graph = Graph("http://localhost:7474", auth=("neo4j", "123456"), name='neo4j')

    
    def generate_nodes_list(self, csv_file_path):
        """
        将节点CSV文件中的数据导入到图数据库中
        :param graph: 图数据库
        :param csv_file_path: csv文件的路径
        """
        # 读取CSV文件
        df = pd.read_csv(csv_file_path, index_col=False)
        # df.dropna(subset=['name'], inplace=True)
        df.fillna("NULL", inplace=True)
        
        nodes = []
        label = os.path.splitext(os.path.basename(csv_file_path))[0]
        
        # 遍历数据，将数据导入到图数据库中
        for _, row in tqdm(df.iterrows(), total=len(df), desc="Processing Rows"):
            # 转化为字典
            data_dict = row.to_dict()
            # 创建一个节点并添加到列表中
            node = Node(label, **data_dict)
            nodes.append(node)

        return nodes


    def generate_relationship_list(self, graph: Graph, csv_file_path):
        """
        将边CSV文件中的数据导入到图数据库中
        :param graph: 图数据库
        :param csv_file_path: csv文件的路径
        """
        # 读取CSV文件
        df = pd.read_csv(csv_file_path, index_col=False)
        df.fillna("NULL", inplace=True)
        relationship_label = os.path.splitext(os.path.basename(csv_file_path))[0]
        start_label = df['label1'][0]
        end_label = df['label2'][0]
        start_keys = [x for x in list(df.columns[0:-2]) if x[-1] == '1']
        node_start_keys = [x[:-1] for x in start_keys]
        end_keys = [x for x in list(df.columns[0:-2]) if x[-1] == '2']
        node_end_keys = [x[:-1] for x in end_keys]
        # 预先加载所有需要的节点，实现节点的大小写不敏感快速匹配算法
        start_nodes = list(NodeMatcher(graph).match(start_label))
        end_nodes = list(NodeMatcher(graph).match(end_label))
        start_nodes_map = {tuple(node[key].lower() if isinstance(node[key], str) else node[key] for key in node_start_keys): node for node in start_nodes}
        end_nodes_map = {tuple(node[key].lower() if isinstance(node[key], str) else node[key] for key in node_end_keys): node for node in end_nodes}
        # 创建一个空的关系列表
        relationships = []
        # 遍历数据，将数据导入到图数据库中
        for _, row in tqdm(df.iterrows(), total=len(df), desc="Processing Rows"):
            # 转化为字典
            data_dict = row.to_dict()
            # 查询节点
            start_node = start_nodes_map.get(tuple(data_dict[key].lower() if isinstance(data_dict[key], str) else data_dict[key] for key in start_keys))
            end_node = end_nodes_map.get(tuple(data_dict[key].lower() if isinstance(data_dict[key], str) else data_dict[key] for key in end_keys))
            # 未找到相关节点
            if start_node is None or end_node is None:
                error_message = f"Error: Node not found for relation {data_dict}"
                print(error_message)  # This will print the error message to the console
                logging.error(error_message)
                continue
            # 创建关系并添加到关系列表
            relationship = Relationship(start_node, relationship_label, end_node)
            relationships.append(relationship)
        return relationships


    def create_nodes_or_relationships(self, graph: Graph, nodes_or_relations):
        batch_size = 10000
        for batch in [nodes_or_relations[i:i+batch_size] for i in range(0, len(nodes_or_relations), batch_size)]:
            tx = graph.begin()
            for data in batch:
                tx.create(data)
            graph.commit(tx)

    def generate_all(self, mode='all'):
        """
        根据指定的模式生成节点、关系或两者。

        参数:
        - mode (str): 指定操作模式。'all' 生成节点和关系，'node' 仅生成节点，'rel' 仅生成关系。

        返回:
        无
        """
        
        if mode in ['all', 'node']:
            # 遍历节点文件夹下的所有节点文件
            # 每次先清空图数据库
            self.graph.delete_all()
            for node_file in tqdm(os.listdir(self.node_file_path), desc="处理节点csv中:"):
                if node_file.endswith(".csv"):
                    csv_path = os.path.join(self.node_file_path, node_file)
                    nodes = self.generate_nodes_list(csv_path)
                    self.create_nodes_or_relationships(graph=self.graph, nodes_or_relations=nodes)
                    
        
        if mode in ['all', 'rel']:
            # 遍历边文件夹下的所有边文件
            # 每次先清空所有边
            if mode == 'rel':
                 rel_types = self.graph.schema.relationship_types
                 for rel_type in rel_types:
                     query = f"MATCH (n)-[r:{rel_type}]-(m) DELETE r"
                     self.graph.run(query)
            for edge_file in tqdm(os.listdir(self.rel_file_path), desc="处理边csv中:"):
                if edge_file.endswith(".csv"):
                    csv_path = os.path.join(self.rel_file_path, edge_file)
                    relationships = self.generate_relationship_list(self.graph, csv_path)
                    self.create_nodes_or_relationships(graph=self.graph, nodes_or_relations=relationships)

if __name__ == "__main__":
    graph_generator = GraphGenerator()
    graph_generator.generate_all(mode='node')
    print(graph_generator)

进入浏览器后查看，知识图谱建立成功！

bug修改与算法优化

图数据库连接问题

一开始使用Graph("http://localhost:7474", auth=("neo4j", "123456"))连接图数据库，在执行tx = graph.begin()这句会报错

py2neo.errors.ProtocolError: Cannot decode response content as JSON

连接的时候加上name参数就好了。

批量构建知识图谱问题

构建函数的实现一开始为：

def create_nodes_or_relationships(self, graph: Graph, nodes_or_relations):
        tx = graph.begin()
        for node_or_relation in nodes_or_relations:
            tx.create(node_or_relation)
        graph.commit(tx)

这样会导致下列两种问题

py2neo.errors.ProtocolError: Cannot decode response content as JSON
[Transaction.TransactionNotFound] Unrecognized transaction id. Transaction may have timed out and been rolled back.

如果改成下面这种一个一个建，就不会报错，所以分析应该是一次建立的节点或关系太多了：

def create_nodes_or_relationships(self, graph: Graph, nodes_or_relations):
        for node_or_relation in nodes_or_relations:
        	tx = graph.begin()
            tx.create(node_or_relation)
        	graph.commit(tx)

为了加速，改成了现在这种一次批量建10000个的方法。

批量删除边问题

由于建边时出了一点问题，试图将所有边删除，删边语句一开始为"MATCH ()-[r]-() DELETE r'，会导致下列错误：

py2neo.errors.DatabaseError: [Statement.ExecutionFailed] Java heap space

应该是边的数量太多了，所以我改成现在这种，每次删除一类边。

空值处理问题

图数据库中节点的属性不能为空值，解决方法是将CSV数据文件的空值替换为"NULL"，也就是这句：

df.fillna("NULL", inplace=True)

去重时的大小写问题

数据库中使用DISTINCT关键词去重，这是大小写不敏感的，无法区分大写和小写字母
dataframe数据使用drop_duplicates方法去重，这是大小写敏感的

当这两种方法同时用于生成数据文件，就会造成不匹配问题，后来通过在节点匹配时加入lower()方法统一转换为小写解决。

加速构建边优化

在构建边的时候，首先要找到对应的头实体和尾实体，之前的匹配算法是使用了内置的全局匹配

matcher = NodeMatcher(graph)
start_node = matcher.match(data_dict['label1'], **start_property).first()
end_node = matcher.match(data_dict['label2'], **end_property).first()

这样跑是能跑，但是速度会非常慢，因为每次都从所有的节点里面找。我们可以观察到，对某种特定的关系，头实体和尾实体都属于某种特定的节点类型，因此可以先把所有这一类型的节点存到一个字典里，再在这个字典里做匹配，这也是目前实现的算法。

将属性修改为节点

这个任务的需求是之前将一个字段建立为了某类节点的一个属性，现在想把它拿出来，作为单独的一类节点使用。考虑到任务量不多，这里采取了节点和关系同时建立的策略。

    def generate_new_kg(self):
        # 尝试将属性抽离为节点
        new_nodes = list(NodeMatcher(self.graph).match('xx'))
        node_dict = {}
        edge_list = []
        for new_node in tqdm(new_nodes, '根据属性构建新的节点和关系'):
            node = new_node['xxx']
            if node not in node_dict:
                node_dict[node] = Node('节点类型', name=node)
            edge_list.append(Relationship(node_dict[node], 'xxxx', new_node))
        subgraph = Subgraph(list(node_dict.values()), edge_list)
        tx = self.graph.begin() 
        tx.create(subgraph)
        self.graph.commit(tx)

你可能感兴趣的:(知识图谱,数据库,知识图谱)

laravel 对数据库 json 字段的查询方式汇总王大爷~ laravel 数据库 json
1:查询json字段,多层级publicstaticfunctionformRoleDelCheck($params){$user=Auth::user();$check=WorkorderSet::whereRaw('JSON_CONTAINS(auto_assign_rule,?)',[json_encode(['rules'=>[['type'=>'field','field_key'=>"
Ubuntu MySQL 安装指南：五步轻松构建你的数据基石海棠AI实验室 “数智未来“-探索AI驱动的大数据新境界 ubuntu mysql adb
目录前言：数据驱动的时代，MySQL为你保驾护航第一步：扬帆起航前的准备-系统软件包更新第二步：一键启航，MySQL服务器轻松就位第三步：引擎启动，让MySQL飞速运转第四步：安全护盾，为数据安全保驾护航第五步：初识MySQL，开启你的数据探索之旅进阶操作：打造更强大的数据港湾创建数据库、用户和权限：精细化管理你的数据开放远程访问：迎接来自远方的连接总结：迈出数据管理的关键一步前言：数据驱动的时代
索引-最左匹配 HBryce24 数据库数据库 mysql
在数据库索引中，最左匹配原则确实在遇到某些范围查询时会停止向右匹配，但对于>=、2ANDc=3。❌无效的条件：b=2（未指定a）、a=1ANDc=3（跳过b）。2.范围查询对索引匹配的影响当遇到范围查询时，其右侧的索引列可能无法被使用，但具体行为因操作符而异：(1)严格范围查询（如>、2ANDc=3;(2)闭合范围查询（如>=、=2ANDc=3;(3)前缀匹配的LIKE（如LIKE'abc%'）索
mysql vs oracle HBryce24 数据库 mysql oracle 数据库
以下是Oracle数据库与MySQL数据库的详细比较，从架构设计、功能特性、性能、适用场景等多个维度进行综合分析：1.基础特性与定位Oracle：定位：面向大型企业级应用，强调高并发、高可用性和复杂事务处理能力。授权模式：闭源商业软件，需购买许可证，成本较高。架构：多进程架构（每个用户连接对应独立进程），支持分布式集群（如RAC）。MySQL：定位：轻量级开源数据库，适合中小型应用及Web开发。授
pytesseract使用 weixin_30254435 开发工具数据库
1.安装pipinstallpytesseract2.安装tesseract-ocr，下载地址：https://github.com/UB-Mannheim/tesseract/wiki，我安装的版本tesseract-ocr-setup-3.05.01.exe，安装的时候选择把chi_sim(中文简体)和chi_tra(中文繁体)数据库安装上3.设置环境变量4.vcode=pytesseract
OceanBase数据库常用巡检SQL MoMoSQL666 数据库 oceanbase mysql sql
本文为墨天轮数据库管理服务团队原创内容，如需转载请联系小墨（VX：modb666）并注明来源。一、版本信息select*frominformation_schema.GLOBAL_VARIABLESWHEREVARIABLE_NAMElike'version%';二、集群状态select*fromoceanbase.v$ob_cluster;三、服务器状态检查所有服务器的状态，包括这个Server
Navicat 17 for Mac 数据库管理 1alisa 数据库
Navicat17forMac数据库管理文章目录Navicat17forMac数据库管理一、介绍二、效果三、下载一、介绍NavicatPremium17forMac是一款专业的数据库管理工具，适用于开发人员、数据库管理员和分析师等用户。它提供了强大的数据管理功能和丰富的工具，使用户能够轻松地管理和维护数据库，提高数据处理效率。提供了无缝数据迁移功能;多元化操作工具，可以轻松地将不同格式的数据传输到
巨人学术搜索官网入口，免费参考文献论文及学术搜索引擎黄豆匿zlib 学习方法
巨人学术搜索自2024年上线以来，迅速成为学术界不可或缺的重要工具，尤其受到研究人员、教师及学生的青睐。这款专注于学术领域的专业搜索引擎，覆盖了自然科学、人文科学、社会科学等多个学科领域，整合了国内外众多主流数据库，包括维普、万方、Elsevier、WebofScience等，为用户提供了期刊论文、学位论文、专利、图书、预印本等多种类型资源的精准检索服务。与普通搜索引擎相比，巨人学术搜索的优势在于
分布式事务解决方案：Seata原理详解与实战教程 Cloud_. 分布式 wpf seata
一、为什么需要Seata？在微服务架构中，跨服务的事务管理成为核心痛点：传统事务失效：服务拆分导致无法使用本地事务数据不一致风险：网络抖动、服务宕机等情况导致数据错乱复杂场景处理难：涉及多个数据库、消息队列等异构存储Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，提供AT模式、TCC模式、Saga模式三
学习积累规划一个DBA的成功之路小藤椅 Oracle基础知识数据库 db2 sql server informix ibm oracle
一个DBA的数据库学习经验：选定发展方向1999年，我在开始读研时就给自己确定了以后的发展方向。当时有两个方向：网络，数据库技术。因为在2000年之时，网络大热，市场上拥有CCNP、CCIE证书的人特别牛。所以我当时也考下了CCNP证书，但后来发现网络方向涉及很多硬件层面的东西，这些都对厂商的依赖性太强，个人发挥空间不大。而我喜欢钻研，所以慢慢开始转向专攻数据库技术。在认准数据库这个方向后，我开始
DataEase二开记录--踩坑和详细步骤（一）风_间 DataEase 数据库 mysql java
最近在看DataEase，发现挺好用的，推荐使用。用的过程中萌生了二开的想法，于是自己玩了玩，并做了一些记录。开发环境问题下载源码，选稳定版本的，本案例是1.17.0版本。下载地址开源社区-FIT2CLOUD飞致云数据库配置数据库初始化：DataEase使用MySQL数据库，推荐使用MySQL5.7版本。同时DataEase对数据库部分配置项有要求，请参考下附的数据库配置，修改开发环境中的数据库配
PostgreSQL技术大讲堂 - 第82讲，主题：数据安全利器--密码安全策略构建 m0_65303136 postgresql 数据库
PostgreSQL技术大讲堂-第82讲，主题：数据安全利器--密码安全策略构建讲课内容：1、密码安全概述2、启用密码安全策略3、深入密码安全构建4、PG密码安全策略漏洞数据库用户的密码安全关系在整个数据库的安全，控制密码的复杂度、密码复用控制、密码定期重置直接影响密码的安全，本期技术公开课为大家展示如何构建密码安全策略。欢迎持续关注CUUGPostgreSQL技术大讲堂。
ocp考试有判断题吗?多少分及格? m0_65303136 开闭原则
ocp考试有判断题吗?多少分及格?OCP考试没有判断题。OCP考试指的是OracleOCP中级认证考试，是数据库领域非常有含金量的一种认证，如果拿到OCP证书对于个人入职或者涨薪都有帮助。OCP考试，可以说是数据库领域最值得考的一个认证，根据最新的OCP19c认证考试要求，以下是考试题型和通过成绩的详细信息：考试题型OCP认证考试均为全英文选择题，包括单选题和多选题，没有操作题或其他题型(如判断题
零基础掌握分布式ID生成：从理论到实战的完整指南 [特殊字符] 添砖Java中分布式分布式id java
一、为什么需要分布式ID？在单机系统中，使用数据库自增ID就能满足需求。但在分布式系统中，多个服务节点同时生成ID时会出现以下问题：ID冲突：不同节点生成相同ID扩展困难：数据库自增ID无法水平扩展安全性差：连续ID暴露业务数据量性能瓶颈：高并发场景下生成速度慢典型应用场景：✅电商订单号生成✅社交平台用户ID✅物流运单号生成✅金融交易流水号二、分布式ID的核心要求特性说明重要性全局唯一性整个分布式
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑 mysql数据库程序员后端
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑去年面试字节跳动时，我遇到了一个至今印象深刻的场景：面试官在白板上写了一条包含三表JOIN且带有子查询的SQL，淡淡地说"请分析这条SQL的性能问题"。当时我的后背瞬间绷直——这道题考察的不仅是SQL优化技巧，更是对数据库底层原理的深刻理解。一、面试官到底在考察什么？实战经验：是否真正处理过线上慢查询问题，能否结合业务场景分析知识体系：从索引设
烧掉 700 亿学费后，中国企业终于懂了：换软件才是真正的省钱程序员安全数据库
2018年深圳宝安机场，76岁的中兴创始人侯为贵拖着行李箱赶赴美国的照片全网刷屏。芯片断供7天，这家通信巨头市值蒸发700亿；2022年某新能源车企因EDA软件禁用，耗资数十亿的研发项目直接停摆。中国企业终于意识到：躺在全球化温床上的时代，结束了。从芯片到数据库，从工业软件到办公系统，中国企业正把“进口零件”一个个抠下来——这不是赌气，而是被逼出来的生存智慧。一、当“卡脖子”变成商机2020年哈工
华纳云如何优化 MySQL 的内存使用？服务器
优化MySQL的内存使用是提高数据库性能和效率的关键步骤。以下是一些有效的策略和方法，结合了多轮对话中的信息，帮助您优化MySQL的内存使用：1.调整缓冲区和缓存大小InnoDB缓冲池（InnoDBBufferPool）：作用：用于缓存InnoDB表的数据和索引，是MySQL中最重要的内存区域之一。优化建议：将innodb_buffer_pool_size设置为物理内存的50%-80%，具体取决于
【MYSQL学习】5分钟学会MySQL登录，新手也能轻松搞定？墨瑾轩 MySql入门~精通 mysql 学习 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5分钟学会MySQL登录，新手也能轻松搞定？引言嘿，小伙伴们！今天我们来聊聊MySQL的登录问题。对于初学者来说，登录数据库可能是你接触MySQL的第一步，也是最重要的一步。那么，MySQL是如何登录的呢？有哪些常见的问题需要注意？别急，今天我就带你一步步了解
记服务器MongoDB数据库迁移实战记录【云MongoDB数据库迁移】一键难忘数据库 mongodb 服务器
文章目录一.服务器MongoDB数据库迁移实战记录1.1备份MongoDB数据库步骤1.2恢复数据库到新服务器里1.3总结一.服务器MongoDB数据库迁移实战记录1.背景：我原来的服务器到期了，因为高昂的费用我只能使用新用户的身份购买一个服务器。2.需求：将原来的云端MongoDB数据库迁移到新购买的服务器上。3.注意：之前的MongoDB并没有使用宝塔的可视化创建，而是使用命令行，导致，可视化
java 实现数据库备份李逍遙️ mysql 数据库 java mysql
importcom.guangyi.project.model.system.DataBaseInFo;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.Inp
golang接口用法-代码案例 JavaPub-rodert golang golang 开发语言后端
文章目录Go语言中接口（interface）的含义接口的常见应用场景示例1示例2（Dog和Cat）使用场景-多数据库Go语言中接口（interface）的含义接口在Go语言中是一种类型，它定义了一组方法的集合。一个类型只要实现了接口中定义的所有方法，就认为该类型实现了该接口。接口不关心具体的实现细节，只关心方法的签名（即方法的名称、参数和返回值类型）。接口可以看作是不同类型之间的桥梁，它允许不同类
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
Couchbase Analytics 的结构 PersistDZ 数据存储 couchbase
CouchbaseAnalytics的结构CouchbaseAnalytics服务专为大规模、并发、复杂的分析查询而设计，同时不会影响事务性工作负载的性能。下面将详细介绍其结构和架构，以帮助您深入理解CouchbaseAnalytics的运作方式。1.Couchbase集群架构CouchbaseServer是一个多维度可扩展的分布式数据库，其核心架构由多个服务组成：数据服务（DataService
美团Leaf分布式ID生成器使用教程：号段模式与Snowflake模式详解 Cloud_. 分布式
引言在分布式系统中，生成全局唯一ID是核心需求之一。美团开源的Leaf提供了两种分布式ID生成方案：号段模式（高可用、依赖数据库）和Snowflake模式（高性能、去中心化）。本文将手把手教你如何配置和使用这两种模式，并解析其核心机制。一、Leaf号段模式使用教程1.环境准备数据库：MySQL5.7+Java环境：JDK1.8+Leaf源码：从GitHub克隆Leaf仓库（推荐使用feature/
腾讯云与MongoDB战略合作升级，瞄准AI时代的数据管理服务 CSDN资讯腾讯云 mongodb 人工智能
2025年3月20日，腾讯云与MongoDB联合宣布续签战略合作协议，双方将围绕AI时代的技术变革为全球用户提供卓越的数据管理服务。文档数据库MongoDB以其灵活的数据结构、强大的性能和原生的分布式扩展性等特点，成为最受欢迎的NoSQL数据库之一，广泛应用于游戏、社交媒体、电商、金融和物联网等各行各业。在DB-Engines全球数据库排行榜上，MongoDB长期位居NoSQL数据库第一。据了解，
RuoYi框架连接SQL Server时解决“SSL协议不支持”和“加密协议错误” 专注代码十年 ssl 网络协议网络
RuoYi框架连接SQLServer时解决“SSL协议不支持”和“加密协议错误”在使用RuoYi框架进行开发时，与SQLServer数据库建立连接可能会遇到SSL协议相关的问题。以下是两个常见的错误信息及其解决方案。错误信息1com.zaxxer.hikari.pool.HikariPool$PoolInitializationException:Failedtoinitializepool;'e
深入解析 MySQL 数据库：隔离级别的选择幽兰的天空 MYSQL数据库数据库 mysql oracle
在数据库中，创建事务一般包含几个简单的步骤。以下是如何在MySQL中创建事务的基本指南，包括相关的SQL语句和操作流程：1.启动事务在MySQL中，你可以使用STARTTRANSACTION或BEGIN语句来启动一个新的事务。这表示你将开始执行一系列操作，这些操作要么全部成功（提交），要么全部失败（回滚）。STARTTRANSACTION;--或者使用BEGIN;2.执行操作在事务被启动后，你可以
掌握C#企业级应用的数据一致性与分布式事务：从基础到高级的全面解析墨夶 C#学习资料1 c#分布式 wpf
在当今的企业级应用开发中，确保数据的一致性是至关重要的。尤其是在涉及分布式系统时，如何处理跨服务、跨数据库的操作以保证数据的一致性和可靠性成为了一个复杂但必须解决的问题。本文将深入探讨使用C#进行企业级应用开发时的数据一致性和分布式事务管理，提供详细的代码示例和最佳实践。第一部分：理解数据一致性与分布式事务的基础知识1.1数据一致性的重要性在企业级应用中，数据一致性是指关联数据之间的逻辑关系是否正
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc