AI航海家(Ethan)

Dify知识库-RAG流程解析

Dify知识库RAG代码流程图

源码解析

document_indexing_task

代码目录：dify/api/tasks/document_indexing_task.py

主要做了以下两件事

1.查询dataset的文章限制是否超出限制，超出抛出异常，将所有document_ids状态改为 error 如果正常，则更新所有文章状态为 “解析中” parsing

@shared_task(queue='dataset')
def document_indexing_task(dataset_id: str, document_ids: list):
    """
    异步处理文档索引任务。
    :param dataset_id:数据集ID
    :param document_ids:需要处理的文档ID列表

    Usage: document_indexing_task.delay(dataset_id, document_id)
    主要功能：1.查询dataset的文章限制是否超出 入宫超出抛出异常，将所有document_ids状态改为 error 如果正常，则更新所有文章状态为 “解析中” parsing
    2.IndexingRunner.run()中包含了RAG索引的实现细节
    """


    # 初始化文档列表和开始时间
    documents = []
    start_at = time.perf_counter()
    # 从数据库中获取数据集信息
    dataset = db.session.query(Dataset).filter(Dataset.id == dataset_id).first()

    # 检查文档数量限制
    features = FeatureService.get_features(dataset.tenant_id)
    try:
        if features.billing.enabled:
            # 获取向量空间信息
            vector_space = features.vector_space
            count = len(document_ids)
            # 批量上传限制
            batch_upload_limit = int(dify_config.BATCH_UPLOAD_LIMIT)
            if count > batch_upload_limit:
                raise ValueError(f"You have reached the batch upload limit of {batch_upload_limit}.")

            # 检查是否超过订阅限制
            if 0 < vector_space.limit <= vector_space.size:
                raise ValueError("Your total number of documents plus the number of uploads have over the limit of "
                                 "your subscription.")
    except Exception as e:
        # 如果有异常，更新所有相关文档的状态为错误，并记录异常信息
        for document_id in document_ids:
            document = db.session.query(Document).filter(
                Document.id == document_id,
                Document.dataset_id == dataset_id
            ).first()
            if document:
                document.indexing_status = 'error'
                document.error = str(e)
                document.stopped_at = datetime.datetime.now(datetime.timezone.utc).replace(tzinfo=None)
                db.session.add(document)
        db.session.commit()
        return
    # 更新文档状态为解析中，并添加到处理列表
    for document_id in document_ids:
        logging.info(click.style('Start process document: {}'.format(document_id), fg='green'))

        document = db.session.query(Document).filter(
            Document.id == document_id,
            Document.dataset_id == dataset_id
        ).first()

        if document:
            document.indexing_status = 'parsing'
            document.processing_started_at = datetime.datetime.now(datetime.timezone.utc).replace(tzinfo=None)
            documents.append(document)
            db.session.add(document)
    db.session.commit()
    #......

2.IndexingRunner.run()中包含了RAG索引的实现细节

@shared_task(queue='dataset')
def document_indexing_task(dataset_id: str, document_ids: list):
    """
    异步处理文档索引任务。
    :param dataset_id:数据集ID
    :param document_ids:需要处理的文档ID列表

    Usage: document_indexing_task.delay(dataset_id, document_id)
    主要功能：1.查询dataset的文章限制是否超出 入宫超出抛出异常，将所有document_ids状态改为 error 如果正常，则更新所有文章状态为 “解析中” parsing
    2.IndexingRunner.run()中包含了RAG索引的实现细节
    """
    #......
    # 尝试运行索引处理
    try:
        # RAG索引的实现细节
        indexing_runner = IndexingRunner()
        indexing_runner.run(documents)
        end_at = time.perf_counter()
        logging.info(click.style('Processed dataset: {} latency: {}'.format(dataset_id, end_at - start_at), fg='green'))
    except DocumentIsPausedException as ex:
        # 如果文档被暂停，记录信息
        logging.info(click.style(str(ex), fg='yellow'))
    except Exception:
        pass

IndexingRunner

代码目录：dify/api/core/indexing_runner.py

run() 该函数主要做了以下三件事

1.提取文本

2.转化数据切片

3.将切片后的文本构造 document_segment 入库

4.索引中间件加载

def run(self, dataset_documents: list[DatasetDocument]):
    """Run the indexing process."""
    """
    运行索引过程，对每个提供的数据集文档进行处理。
    """
    for dataset_document in dataset_documents:
        try:
            # get dataset
            dataset = Dataset.query.filter_by(
                id=dataset_document.dataset_id
            ).first()

            if not dataset:
                raise ValueError("no dataset found")

            # 获取处理规则
            processing_rule = db.session.query(DatasetProcessRule). \
                filter(DatasetProcessRule.id == dataset_document.dataset_process_rule_id). \
                first()
            index_type = dataset_document.doc_form  # 文档的形式，用于确定索引处理器类型
            index_processor = IndexProcessorFactory(index_type).init_index_processor()  # 创建索引处理器实例
            # 提取文本数据
            text_docs = self._extract(index_processor, dataset_document, processing_rule.to_dict())
            # print('提取文本数据', text_docs)
            # 转换数据
            documents = self._transform(index_processor, dataset, text_docs, dataset_document.doc_language,
                                        processing_rule.to_dict())
            # print('转换数据', documents)
            # 保存片段 将最终切片后的 chunks 构造 document_segment 入库
            self._load_segments(dataset, dataset_document, documents)

            # load
            self._load(
                index_processor=index_processor,
                dataset=dataset,
                dataset_document=dataset_document,
                documents=documents
            )
        except DocumentIsPausedException:
            # 如果文档被暂停，抛出异常
            raise DocumentIsPausedException('Document paused, document id: {}'.format(dataset_document.id))
        except ProviderTokenNotInitError as e:
            # 如果提供商令牌未初始化，更新文档状态并提交更改
            dataset_document.indexing_status = 'error'
            dataset_document.error = str(e.description)
            dataset_document.stopped_at = datetime.datetime.now(datetime.timezone.utc).replace(tzinfo=None)
            db.session.commit()
        except ObjectDeletedError:
            # 如果对象被删除，记录警告日志
            logging.warning('Document deleted, document id: {}'.format(dataset_document.id))
        except Exception as e:  # 对于其他异常，记录异常信息并更新文档状态
            logging.exception("consume document failed")
            dataset_document.indexing_status = 'error'
            dataset_document.error = str(e)
            dataset_document.stopped_at = datetime.datetime.now(datetime.timezone.utc).replace(tzinfo=None)
            db.session.commit()

提取文本

text_docs = self._extract(index_processor, dataset_document, processing_rule.to_dict())

假如 index_processor根据用户所选为： ParagraphIndexProcessor类，则self._extract调用的实际为ParagraphIndexProcessor.extract

self._extract()

加载数据源，判断数据类型根据数据类型匹配不同的提取设置，最终调用extract函数

def _extract(self, index_processor: BaseIndexProcessor, dataset_document: DatasetDocument, process_rule: dict) \
        -> list[Document]:
    """
        根据数据源类型提取文档内容。
        :param index_processor: 索引处理器实例
        :param dataset_document: 数据集文档对象
        :param process_rule: 处理规则字典
        :return: 包含提取后文档内容的列表
        这段代码定义了一个名为_extract的方法，用于根据不同的数据源类型（上传文件、Notion导入、网站爬取）提取文档内容。
        它首先检查数据源类型，然后根据类型创建相应的ExtractSetting对象，
        并调用index_processor的extract方法来提取文档。
        之后，它会更新文档的状态为“分割”，计算并更新文档的词数，以及完成解析的时间。
        最后，它会更新提取的文档元数据中的文档ID和数据集ID，以关联到正确的数据集文档。

    """
    # 加载文件，如果数据源类型不是上传文件、Notion导入或网站爬取，则返回空列表
    if dataset_document.data_source_type not in ["upload_file", "notion_import", "website_crawl"]:
        return []

    data_source_info = dataset_document.data_source_info_dict
    text_docs = []  # 初始化文本文档列表
    # 处理上传文件数据源
    if dataset_document.data_source_type == 'upload_file':
        if not data_source_info or 'upload_file_id' not in data_source_info:
            raise ValueError("no upload file found")

        # 查询上传文件详情
        file_detail = db.session.query(UploadFile). \
            filter(UploadFile.id == data_source_info['upload_file_id']). \
            one_or_none()

        if file_detail:
            # 创建提取设置
            extract_setting = ExtractSetting(
                datasource_type="upload_file",
                upload_file=file_detail,
                document_model=dataset_document.doc_form
            )
            # 使用索引处理器提取文档
            text_docs = index_processor.extract(extract_setting, process_rule_mode=process_rule['mode'])
    # 处理Notion导入数据源
    elif dataset_document.data_source_type == 'notion_import':
        if (not data_source_info or 'notion_workspace_id' not in data_source_info
                or 'notion_page_id' not in data_source_info):
            raise ValueError("no notion import info found")
        # 创建提取设置
        extract_setting = ExtractSetting(
            datasource_type="notion_import",
            notion_info={
                "notion_workspace_id": data_source_info['notion_workspace_id'],
                "notion_obj_id": data_source_info['notion_page_id'],
                "notion_page_type": data_source_info['type'],
                "document": dataset_document,
                "tenant_id": dataset_document.tenant_id
            },
            document_model=dataset_document.doc_form
        )
        # 使用索引处理器提取文档
        text_docs = index_processor.extract(extract_setting, process_rule_mode=process_rule['mode'])
    # 处理网站爬取数据源
    elif dataset_document.data_source_type == 'website_crawl':
        if (not data_source_info or 'provider' not in data_source_info
                or 'url' not in data_source_info or 'job_id' not in data_source_info):
            raise ValueError("no website import info found")
        # 创建提取设置
        extract_setting = ExtractSetting(
            datasource_type="website_crawl",
            website_info={
                "provider": data_source_info['provider'],
                "job_id": data_source_info['job_id'],
                "tenant_id": dataset_document.tenant_id,
                "url": data_source_info['url'],
                "mode": data_source_info['mode'],
                "only_main_content": data_source_info['only_main_content']
            },
            document_model=dataset_document.doc_form
        )
        # 使用索引处理器提取文档
        text_docs = index_processor.extract(extract_setting, process_rule_mode=process_rule['mode'])
    # update document status to splitting
    # 更新文档状态为“分割”阶段
    self._update_document_index_status(
        document_id=dataset_document.id,
        after_indexing_status="splitting",
        extra_update_params={
            DatasetDocument.word_count: sum(len(text_doc.page_content) for text_doc in text_docs),
            DatasetDocument.parsing_completed_at: datetime.datetime.now(datetime.timezone.utc).replace(tzinfo=None)
        }
    )

    ## 替换文档ID为数据集文档模型ID
    text_docs = cast(list[Document], text_docs)  # 类型断言，确保text_docs为Document列表
    for text_doc in text_docs:
        text_doc.metadata['document_id'] = dataset_document.id
        text_doc.metadata['dataset_id'] = dataset_document.dataset_id

    return text_docs

ParagraphIndexProcessor.extract()

代码目录：api/core/rag/index_processor/processor/paragraph_index_processor.py

实际进来调用的是ExtractProcessor这个类的extract。这个类具体编写了所有常见文本格式的提取器的具体实现

class ParagraphIndexProcessor(BaseIndexProcessor):

    def extract(self, extract_setting: ExtractSetting, **kwargs) -> list[Document]:

        text_docs = ExtractProcessor.extract(extract_setting=extract_setting,
                                             is_automatic=kwargs.get('process_rule_mode') == "automatic")

        return text_docs

ExtractProcessor.extract()

代码目录：api/core/rag/extractor/extract_processor.py

根据文件后缀名调用不同的文档解析器提取文档内容，根据不同的文本格式，调用不同的类，去处理文本，最终会返回提取的文本内容

def extract(cls, extract_setting: ExtractSetting, is_automatic: bool = False,
            file_path: str = None) -> list[Document]:
    if extract_setting.datasource_type == DatasourceType.FILE.value:
        with tempfile.TemporaryDirectory() as temp_dir:
            if not file_path:
                upload_file: UploadFile = extract_setting.upload_file
                suffix = Path(upload_file.key).suffix
                file_path = f"{temp_dir}/{next(tempfile._get_candidate_names())}{suffix}"
                storage.download(upload_file.key, file_path)
            input_file = Path(file_path)
            file_extension = input_file.suffix.lower()
            etl_type = current_app.config['ETL_TYPE']
            unstructured_api_url = current_app.config['UNSTRUCTURED_API_URL']
            unstructured_api_key = current_app.config['UNSTRUCTURED_API_KEY']
            if etl_type == 'Unstructured':
                if file_extension == '.xlsx' or file_extension == '.xls':
                    extractor = ExcelExtractor(file_path)
                elif file_extension == '.pdf':
                    extractor = PdfExtractor(file_path)
                elif file_extension in ['.md', '.markdown']:
                    extractor = UnstructuredMarkdownExtractor(file_path, unstructured_api_url) if is_automatic \
                        else MarkdownExtractor(file_path, autodetect_encoding=True)
                elif file_extension in ['.htm', '.html']:
                    extractor = HtmlExtractor(file_path)
                elif file_extension in ['.docx']:
                    extractor = WordExtractor(file_path, upload_file.tenant_id, upload_file.created_by)
                elif file_extension == '.csv':
                    extractor = CSVExtractor(file_path, autodetect_encoding=True)
                elif file_extension == '.msg':
                    extractor = UnstructuredMsgExtractor(file_path, unstructured_api_url)
                elif file_extension == '.eml':
                    extractor = UnstructuredEmailExtractor(file_path, unstructured_api_url)
                elif file_extension == '.ppt':
                    extractor = UnstructuredPPTExtractor(file_path, unstructured_api_url, unstructured_api_key)
                elif file_extension == '.pptx':
                    extractor = UnstructuredPPTXExtractor(file_path, unstructured_api_url)
                elif file_extension == '.xml':
                    extractor = UnstructuredXmlExtractor(file_path, unstructured_api_url)
                elif file_extension == 'epub':
                    extractor = UnstructuredEpubExtractor(file_path, unstructured_api_url)
                else:
                    # txt
                    extractor = UnstructuredTextExtractor(file_path, unstructured_api_url) if is_automatic \
                        else TextExtractor(file_path, autodetect_encoding=True)
            else:
                if file_extension == '.xlsx' or file_extension == '.xls':
                    extractor = ExcelExtractor(file_path)
                elif file_extension == '.pdf':
                    extractor = PdfExtractor(file_path)
                elif file_extension in ['.md', '.markdown']:
                    extractor = MarkdownExtractor(file_path, autodetect_encoding=True)
                elif file_extension in ['.htm', '.html']:
                    extractor = HtmlExtractor(file_path)
                elif file_extension in ['.docx']:
                    extractor = WordExtractor(file_path, upload_file.tenant_id, upload_file.created_by)
                elif file_extension == '.csv':
                    extractor = CSVExtractor(file_path, autodetect_encoding=True)
                elif file_extension == 'epub':
                    extractor = UnstructuredEpubExtractor(file_path)
                else:
                    # txt
                    extractor = TextExtractor(file_path, autodetect_encoding=True)
            return extractor.extract()
    elif extract_setting.datasource_type == DatasourceType.NOTION.value:
        extractor = NotionExtractor(
            notion_workspace_id=extract_setting.notion_info.notion_workspace_id,
            notion_obj_id=extract_setting.notion_info.notion_obj_id,
            notion_page_type=extract_setting.notion_info.notion_page_type,
            document_model=extract_setting.notion_info.document,
            tenant_id=extract_setting.notion_info.tenant_id,
        )
        return extractor.extract()
    elif extract_setting.datasource_type == DatasourceType.WEBSITE.value:
        if extract_setting.website_info.provider == 'firecrawl':
            extractor = FirecrawlWebExtractor(
                url=extract_setting.website_info.url,
                job_id=extract_setting.website_info.job_id,
                tenant_id=extract_setting.website_info.tenant_id,
                mode=extract_setting.website_info.mode,
                only_main_content=extract_setting.website_info.only_main_content
            )
            return extractor.extract()
        else:
            raise ValueError(f"Unsupported website provider: {extract_setting.website_info.provider}")
    else:
        raise ValueError(f"Unsupported datasource type: {extract_setting.datasource_type}")

2.转化数据切片（和提取文本类似）最终会调用ParagraphIndexProcessor.transform

# 转换数据
documents = self._transform(index_processor, dataset, text_docs, dataset_document.doc_language,
                            processing_rule.to_dict())

ParagraphIndexProcessor.transform()

代码目录：api/core/rag/index_processor/processor/paragraph_index_processor.py

将文本文档分割成节点，并对每个节点进行清理和元数据处理。

def transform(self, documents: list[Document], **kwargs) -> list[Document]:
    """
       将文本文档分割成节点，并对每个节点进行清理和元数据处理。

       :param documents: 待处理的文档列表
       :param kwargs: 关键字参数，包括处理规则、嵌入模型实例等
       :return: 处理后的文档节点列表
       这段代码实现了将一系列文档分割成更小的节点，并对这些节点进行清理和元数据处理的功能。
       它首先根据传入的处理规则和嵌入模型实例选择一个适当的文档分割器。
       然后，遍历每个文档，先清理文档内容，再使用分割器将其分割成多个节点。
       对于每个节点，它生成一个唯一的文档ID和内容的哈希值，更新节点的元数据，并清除可能存在的分割符。
       最后，将处理后的文档节点添加到结果列表中并返回。
       """
    #  # 选择文档分割器
    splitter = self._get_splitter(processing_rule=kwargs.get('process_rule'),  # 处理规则
                                  embedding_model_instance=kwargs.get('embedding_model_instance'))# 嵌入模型实例
    all_documents = []  # 初始化所有文档节点列表
    for document in documents: # 遍历每个文档
        # 清理文档内容
        document_text = CleanProcessor.clean(document.page_content, kwargs.get('process_rule'))
        document.page_content = document_text # 更新文档内容
        #  # 将文档分割成节点
        document_nodes = splitter.split_documents([document]) #为文档的切片具体实现
        split_documents = [] # 初始化分割后的文档节点列表
        for document_node in document_nodes: # 遍历每个文档节点

            if document_node.page_content.strip():  # 如果节点内容非空
                # 生成唯一文档ID和哈希值
                doc_id = str(uuid.uuid4())
                hash = helper.generate_text_hash(document_node.page_content)
                # 更新文档节点元数据
                document_node.metadata['doc_id'] = doc_id
                document_node.metadata['doc_hash'] = hash
                # # 清除分割符
                page_content = document_node.page_content
                if page_content.startswith(".") or page_content.startswith("。"):
                    page_content = page_content[1:].strip() # 去除开头的点或句号
                else:
                    page_content = page_content
                if len(page_content) > 0: # 如果处理后的内容长度大于0
                    document_node.page_content = page_content # 更新文档节点内容
                    split_documents.append(document_node)  # 添加到分割文档列表
        all_documents.extend(split_documents) # 将分割后的文档添加到总列表
    return all_documents # 返回处理后的文档节点列表

其中CleanProcessor.clean(document.page_content, kwargs.get('process_rule'))是做了文本清除

splitter.split_documents([document]) 是文档的切片具体实现目录：dify/api/core/splitter

对 text_splitter的分析：

TextSplitter

抽象方法 split_text：这个方法必须在子类中实现。
方法 create_documents、splits_documents、transfer_documents、_merge_splits：这些是TextSplitter类中的具体方法，可以在子类中调用或重写。

RecursiveCharacterTextSplitterSplitter

继承自 TextSplitter。
方法 split_text：这个方法重写了TextSplitter中的抽象方法split_text。

EnhanceRecursiveCharacterTextSplitterSplitter

继承自 RecursiveCharacterTextSplitterSplitter。
类方法 from_encoder：这是一个类方法，可以通过类本身而不是类的实例来调用。

splitter.split_documents([document])最终调用的是RecursiveCharacterTextSplitter._split_text

里面包含了_split_text_with_regex(text, separator, self._keep_separator)去分割字符串

self._merge_splits(_good_splits, _separator)合并短句

class RecursiveCharacterTextSplitter(TextSplitter):
    #......
    def _split_text(self, text: str, separators: list[str]) -> list[str]:
        """
        将输入文本按照给定的分隔符分割成块，并递归地处理过长的文本块。
    
        :param text: 待分割的原始文本
        :param separators: 可选的分隔符列表，用于文本分割
        :return: 分割后的文本块列表
        此段代码实现了一个文本分割算法，主要逻辑如下：
    
        从给定的分隔符列表中选择一个有效的分隔符，用于分割文本。
        使用选定的分隔符将文本分割成多个部分。
        遍历分割后的每一部分，如果部分的长度小于设定的块大小，将其标记为合适的短文本块；否则，如果还有其他分隔符可用，递归地继续分割这部分文本；如果没有其他分隔符，直接将这部分文本作为块添加到最终结果中。
        在每次处理完一个长文本块后，将之前累积的短文本块合并，并添加到最终的文本块列表中。
        最终返回分割后的所有文本块组成的列表。
        """
        """Split incoming text and return chunks."""
        final_chunks = []  # 初始化最终的文本块列表
        # 从separators中选取一个有效的分隔符
        separator = separators[-1]  # 默认使用最后一个分隔符
        new_separators = []  # 初始化新的分隔符列表
        for i, _s in enumerate(separators):
            if _s == "":  # 初始化新的分隔符列表
                separator = _s
                break
            if re.search(_s, text):# 如果当前分隔符在文本中存在
                separator = _s# 使用这个分隔符
                new_separators = separators[i + 1:] # 更新新的分隔符列表
                break
        # 使用选定的分隔符分割文本
        splits = _split_text_with_regex(text, separator, self._keep_separator)
        # # 合并短文本块，递归分割长文本块
        _good_splits = [] # 初始化合适的短文本块列表
        _separator = "" if self._keep_separator else separator # 确定是否保留分隔符
        for s in splits:
            if self._length_function(s) < self._chunk_size:  # 如果文本块长度小于设定的块大小
                _good_splits.append(s) # 将其添加到合适的短文本块列表
            else:
                if _good_splits:  # 如果有合适的短文本块
                    merged_text = self._merge_splits(_good_splits, _separator) # 合并它们
                    final_chunks.extend(merged_text)  # 将合并后的文本块添加到最终的文本块列表
                    _good_splits = [] # 清空短文本块列表
                # 如果没有新的分隔符，直接将当前过长的文本块添加到最终列表
                if not new_separators:
                    final_chunks.append(s)
                else:
                    # 如果有新的分隔符，递归地分割当前过长的文本块
                    other_info = self._split_text(s, new_separators)
                    final_chunks.extend(other_info) # 将递归分割的结果添加到最终列表
        # 最后处理剩余的合适短文本块
        if _good_splits:
            merged_text = self._merge_splits(_good_splits, _separator)
            final_chunks.extend(merged_text)
        return final_chunks

3.存储片段

保存片段将最终切片后的 chunks 构造 document_segment 入库

self._load_segments(dataset, dataset_document, documents)

代码目录：api/core/indexing_runner.py

def _load_segments(self, dataset, dataset_document, documents):
    # 创建一个DatasetDocumentStore实例，用于存储文档片段
    doc_store = DatasetDocumentStore(
        dataset=dataset,
        user_id=dataset_document.created_by,
        document_id=dataset_document.id
    )

    # 将文档片段添加到文档存储中
    doc_store.add_documents(documents)

    # 获取当前时间，用于记录文档处理的完成时间
    cur_time = datetime.datetime.now(datetime.timezone.utc).replace(tzinfo=None)
    # 更新文档的状态至“索引中”，并记录文档的清洗和分割完成时间
    self._update_document_index_status(
        document_id=dataset_document.id,
        after_indexing_status="indexing",
        extra_update_params={
            DatasetDocument.cleaning_completed_at: cur_time,
            DatasetDocument.splitting_completed_at: cur_time,
        }
    )

    ## 更新文档片段的状态至“索引中”，并记录片段的索引开始时间
    self._update_segments_by_document(
        dataset_document_id=dataset_document.id,
        update_params={
            DocumentSegment.status: "indexing",
            DocumentSegment.indexing_at: datetime.datetime.now(datetime.timezone.utc).replace(tzinfo=None)
        }
    )
    pass

4.索引中间件加载

self._load(
    index_processor=index_processor,
    dataset=dataset,
    dataset_document=dataset_document,
    documents=documents
)

def _load(self, index_processor: BaseIndexProcessor, dataset: Dataset,
          dataset_document: DatasetDocument, documents: list[Document]) -> None:
    """
    插入索引并更新文档/片段状态至已完成。
    """
    # 如果索引技术设置为'high_quality'，则获取相应的嵌入模型实例
    embedding_model_instance = None
    if dataset.indexing_technique == 'high_quality':
        embedding_model_instance = self.model_manager.get_model_instance(
            tenant_id=dataset.tenant_id,
            provider=dataset.embedding_model_provider,
            model_type=ModelType.TEXT_EMBEDDING,
            model=dataset.embedding_model
        )

    # 记录索引开始时间
    indexing_start_at = time.perf_counter()
    # 初始化计数器，用于统计处理的token数量
    tokens = 0
    # 设置每次处理的文档块大小
    chunk_size = 10

    # 创建关键词索引的线程
    create_keyword_thread = threading.Thread(target=self._process_keyword_index,
                                             args=(current_app._get_current_object(),
                                                   dataset.id, dataset_document.id, documents))
    create_keyword_thread.start()  # 启动线程
    # 如果索引技术为'high_quality'，则并行处理文档块
    if dataset.indexing_technique == 'high_quality':
        with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
            futures = []  # 存储Future对象的列表
            # 将文档列表分割成多个块
            for i in range(0, len(documents), chunk_size):
                chunk_documents = documents[i:i + chunk_size]
                # 提交任务到线程池
                futures.append(
                    executor.submit(self._process_chunk, current_app._get_current_object(), index_processor,
                                    chunk_documents, dataset,
                                    dataset_document, embedding_model_instance))
            # 收集并处理所有Future的结果
            for future in futures:
                tokens += future.result() # 累加处理的token数量
    # 等待关键词索引线程完成
    create_keyword_thread.join()

    # 记录索引结束时间
    indexing_end_at = time.perf_counter()

    # 更新文档状态至已完成
    self._update_document_index_status(
        document_id=dataset_document.id,  # 文档ID
        after_indexing_status="completed", # 更新后的状态
        extra_update_params={ # 额外更新参数
            DatasetDocument.tokens: tokens,  # 处理的token总数
            DatasetDocument.completed_at: datetime.datetime.now(datetime.timezone.utc).replace(tzinfo=None), # 完成时间
            DatasetDocument.indexing_latency: indexing_end_at - indexing_start_at, # 索引延迟时间
        }
    )

你可能感兴趣的:(Dify项目,后端框架,python,python,设计模式)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
C++ 设计模式：抽象工厂（Abstract Factory）冀晓武 C++设计模式 c++设计模式抽象工厂模式
链接：C++设计模式链接：C++设计模式-工厂方法链接：C++设计模式-原型模式链接：C++设计模式-建造者模式抽象工厂（AbstractFactory）是一种创建型设计模式，它提供一个接口，用于创建一系列相关或相互依赖的对象，而无需指定它们的具体类。抽象工厂模式通常用于创建一组相关的产品对象，例如不同类型的机器人和它们的配件。1.问题分析在某些情况下，我们需要创建一组相关或相互依赖的对象，但我们
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
C++设计模式：简单工厂、工厂方法、抽象工厂起个别名 C++算法 c++
1.工厂模式的特点在我们现实生活中，买馒头和自己蒸馒头、去饭店点一份大盘鸡和自己养鸡，杀鸡，做大盘鸡，这是全然不同的两种体验：自己做麻烦，而且有失败的风险，需要自己承担后果。买现成的，可以忽略制作细节，方便快捷并且无风险，得到的肯定是美味的食物。对于后者，就相当于是一个加工厂，通过这个工厂我们就可以得到想要的东西，在程序设计中，这种模式就叫做工厂模式，工厂生成出的产品就是某个类的实例，也就是对象。
本地包解决npm error code E404 雅痞yuppie npm 前端 node.js
这个错误提示表明npm找不到名为create-vue-admin-cli的包。这是因为你开发的CLI工具还没有发布到npm官方注册表。要解决这个问题，有两种方法：方法一：使用本地开发模式测试1.确保你的CLI已正确链接到全局在你的vue-admin-cli项目根目录下执行：npmlink这会在全局环境中创建一个符号链接，指向你本地的CLI项目。2.使用本地链接的CLI创建项目直接使用命令：vue-
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
cesium添加原生MVT矢量瓦片方案 zhu_zhu_xia cesium vue arcgis cesium webgl javascript
项目中需要基于cesium接入mvt格式的服务并支持属性拾取查询，通过一系列预研测试，最后选择cesium-mvt-imagery-provider开源插件完成，关键源码信息如下：npmicesiumcesium-mvt-imagery-provider//安装依赖包//加载图层importCesiumMVTImageryProviderfrom"cesium-mvt-imagery-provid
npm 切换 node 版本和npm的源爱敲代码的小冰 npm 前端 node.js
在开发过程中，不同项目可能需要不同版本的Node.js，同时于由XX原因，我们需要切换npm的源。这时如果需要切换node版本或者npm的源，我们可以使用以下方法。使用nvm切换Node版本1、安装npminstallnvm-g2、使用#列出所有可用版本nvmlist-remote#安装指定版本nvminstall16.15.1#使用指定版本nvmuse16.15.1#查看当前使用的版本nvmcu
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开