橙橙小狸猫

python 性能优化实例练习一——爬虫、多线程和Cython

以下内容是根据Fernando Doglio写的《Python性能分析与优化》第8章付诸实践中的内容手动尝试的实际练习记录。在这本书中对Python方面性能优化进行了比较全面的介绍，包括优化方法、优化策略、优化脚本等，个人感觉比较适合对Python有一定熟练度，但不太了解怎么优化的人入门。
在这里强烈推荐需要对Python代码进行优化的小伙伴们学习原书，在我的资源中也有代码等的相关整理。

0. 前言
1. 第一部分——代码撰写
- 1. 1 主要应用到的库
- 1. 2 代码和运行结果
2. 第二部分——多线程优化IO操作
- 2.1 代码和运行结果
3. 第三部分——使用Cython优化数据分析
- 3.1 Cython是什么
- 3.2 如何安装Cython
- 3.3 Cython怎么用
- - 3.3.1 代码和运行结果
- 3.4 Cython参考链接

0. 前言

第一部分——代码撰写
这部分的主要任务是抓取科幻与灵异网（Science Fiction & Fantasy， http://scifi.stackexchange.com/）上的数据，主要抓取的是问题的标题，问题的正文，作者（原书中答案列表信息，我这里进行了省略）信息最后生成json文件。另外我也没有用性能分析工具分析性能，而是直接根据书中的内容进行优化。
关键词：爬虫、获取网页信息（gets)、html、json
第二部分——多线程优化IO操作
对第一部分进行速度上的优化。
关键词：多线程、threading
第三部分——使用Cython优化数据分析
这部分是对于第一部分生成的json文件进行数据分析，分析的问题有返回提问问题数量最多的作者排名、返回使用最常用词组数量最多的问题排名、返回问题标题中最常见的主题排名。

Cython，一种优化过的静态编译器，可以让我们写静态代码，并轻松借助C和C++的力量

关键词：Cython

原书中是提供代码的，但在实际使用过程中不太理想，所以对代码进行了一部分修改。

1. 第一部分——代码撰写

1. 1 主要应用到的库

BeautifulSoup

它是一个工具箱，通过解析文档为用户提供需要抓取的数据。

对格式进行转换，方便抓取？代码中涉及很多对html中信息的抓取，由于个人不太会html和CSS，所以参考了文章soup.select()函数的使用用法，另外转换后的数据一定要是Python支持的数据格式不然会出错（如果还是HTML格式的数据，在转换成JSON过程中就会报错，但是string格式就不会）。
具体实现方式我是通过单步调试，查看每个数据的结果，再结合“soup.select()函数的使用用”这篇文章选择出我所需要的数据。
requests
json
今年差不多已经遇到了五六次json格式了，python中json库的使用可以参考Python JSON。

1. 2 代码和运行结果

from bs4 import BeautifulSoup
import requests
import json

SO_URL = "http://scifi.stackexchange.com"
QUESTION_LIST_URL = SO_URL + "/questions"
#  http://scifi.stackexchange.com/questions

MAX_PAGE_COUNT = 1
global_results = []  # 用于存储从网站上提取到的数据

initial_page = 1  # 首页就是第一页


#  问题的作者
def get_author_name(body):
    # link_name = body.select(".user-details a")
    # if len(link_name) == 0:
    #     text_name = body.select(".user-details")
    #     return text_name[0].text if len(text_name) > 0 else 'N/A'
    # else:
    #     return link_name[0].text
    link_name = body['href']
    link_name = link_name.split('/')[-1]
    return link_name


#  问题的内容
def get_question_answers(body):
    answers = body.select(".answer")
    a_data = []
    if len(answers) == 0:
        return a_data
    for a in answers:
        data = {
            'body': a.select(".post-text")[0].get_text(),
            'author': get_author_name(a)
        }
        a_data.append(data)
    return a_data


def get_question_data(url):
    print("Getting data from question page: %s " % url)
    resp = requests.get(url)
    if resp.status_code != 200:
        print("Error while trying to scrape url: %s" % url)
        return
    body_soup = BeautifulSoup(resp.text)
    # 定义一个将被转换成JSON格式的输出词典
    q_data = {
        # 问题的标题
        # 'title': body_soup.select('title')[0].text,
        'title': body_soup.select('title')[0].text,
        # 问题的正文 这个有bug的，就是如果问题正文有两段，那么只能取第一段
        'body': body_soup.select('.s-prose p')[0].text,
        # 作者
        'author': get_author_name(body_soup.select(".user-gravatar32 a")[0]),
        # 答案列表
        # 'answers': get_question_answers(body_soup)
    }
    return q_data


def get_questions_page(page_num, partial_results):
    print("=====================================================")
    print(" Getting list of questions for page %s" % page_num)
    print("=====================================================")
    url = QUESTION_LIST_URL + "?sort=newest&page=" + str(page_num)
    # url = http://scifi.stackexchange.com/questions?sort=newest&page=1
    resp = requests.get(url)
    if resp.status_code != 200:
        print("Error while trying to scrape url: %s" % url)
        return
    body = resp.text
    main_soup = BeautifulSoup(body)
    # 获取每个问题的网络链接
    # questions = main_soup.select('.question-summary .question-hyperlink')
    questions = main_soup.select('.s-post-summary--content .s-link')
    urls = [SO_URL + x['href'] for x in questions]
    # urls = http://scifi.stackexchange.com/questions/269140/manwha-manga-where-the-main-female-character-can-see-the-future
    for url in urls:
        q_data = get_question_data(url)
        partial_results.append(q_data)
    # 递归进行下一页搜索
    if page_num < MAX_PAGE_COUNT:
        get_questions_page(page_num + 1, partial_results)


get_questions_page(initial_page, global_results)
with open('scrapping-results.json', 'w') as outfile:
    json.dump(global_results, outfile, indent=4)
print('----------------------------------------------------')
print('Results saved')
# 正常情况下会把爬取到的数据放入scrapping-results.json

代码运行成功后，会出现一个json文件：

文件里的内容：

注意：代码可能存在一些时效性的，网站内容更新后json文件里的内容会与我的不同，另外如果原网站的html修改，可能会导致运行错误。

2. 第二部分——多线程优化IO操作

网络爬虫脚本基本算是一个IO密集型的循环任务，通过最少的处理步骤从互联网上获取数据。因此，我们可以找到的第一条也是最符合逻辑的一条优化需求，就是网络爬虫没有并行地处理请求。由于我们的代码不是CPU密集型，所以我们可以安全地使用多线程模块。

关于Python中线程的基本使用以前写过一篇：python 多线程编程
以下代码是对每一页创建一个单独的线程，每个线程负责爬取网站内容、转换格式等。

2.1 代码和运行结果

from bs4 import BeautifulSoup
import requests
import json
import threading

SO_URL = "http://scifi.stackexchange.com"
QUESTION_LIST_URL = SO_URL + "/questions"
#  http://scifi.stackexchange.com/questions
MAX_PAGE_COUNT = 1


class ThreadManager:
    instance = None
    final_results = []
    threads_done = 0
    # 并行线程的数量，
    # 将决定每个线程获取的页面总数量
    totalConnections = 1

    @staticmethod
    def notify_connection_end(partial_results):
        print("==== Thread is done! =====")
        ThreadManager.threads_done += 1
        ThreadManager.final_results += partial_results
        # 本例中会创建4个线程，当4个线程全部完成后才会执行if后面的内容
        if ThreadManager.threads_done == ThreadManager.totalConnections:
            print("==== Saving data to file! ====")
            with open('scrapping-results-optimized.json', 'w') as outfile:
                json.dump(ThreadManager.final_results, outfile, indent=4)


#  问题的作者
def get_author_name(body):
    # link_name = body.select(".user-details a")
    # if len(link_name) == 0:
    #     text_name = body.select(".user-details")
    #     return text_name[0].text if len(text_name) > 0 else 'N/A'
    # else:
    #     return link_name[0].text
    link_name = body['href']
    link_name = link_name.split('/')[-1]
    return link_name


#  问题的内容
def get_question_answers(body):
    answers = body.select(".answer")
    a_data = []
    if len(answers) == 0:
        return a_data
    for a in answers:
        data = {
            'body': a.select(".post-text")[0].get_text(),
            'author': get_author_name(a)
        }
        a_data.append(data)
    return a_data


def get_question_data(url):
    print("Getting data from question page: %s " % url)
    resp = requests.get(url)
    if resp.status_code != 200:
        print("Error while trying to scrape url: %s" % url)
        return
    body_soup = BeautifulSoup(resp.text)
    # 定义一个将被转换成JSON格式的输出词典
    q_data = {
        # 问题的标题
        # 'title': body_soup.select('title')[0].text,
        'title': body_soup.select('title')[0].text,
        # 问题的正文 这个有bug的，就是如果问题正文有两段，那么只能取第一段
        'body': body_soup.select('.s-prose p')[0].text,
        # 作者
        'author': get_author_name(body_soup.select(".user-gravatar32 a")[0]),
        # 答案列表
        # 'answers': get_question_answers(body_soup)
    }
    return q_data


def get_questions_page(page_num, end_page, partial_results):
    print("=====================================================")
    print(" Getting list of questions for page %s" % page_num)
    print("=====================================================")
    url = QUESTION_LIST_URL + "?sort=newest&page=" + str(page_num)
    resp = requests.get(url)
    if resp.status_code != 200:
        print("Error while trying to scrape url: %s" % url)
    else:
        body = resp.text
        main_soup = BeautifulSoup(body)
        # 获取每个问题的网络链接
        questions = main_soup.select('.s-post-summary--content .s-link')
        urls = [SO_URL + x['href'] for x in questions]
        for url in urls:
            q_data = get_question_data(url)
            partial_results.append(q_data)
        if page_num + 1 < end_page:
            get_questions_page(page_num + 1, end_page, partial_results)
        else:
            # 当该线程负责的页数调用完时，调用ThreadManager的静态方法
            ThreadManager.notify_connection_end(partial_results)


pages_per_connection = MAX_PAGE_COUNT / ThreadManager.totalConnections
# 1 = 1 / 1
# 即创建1个线程，每个线程负责采集1页的内容， 第一个线程第1页，哪怕两页都被被那个网址反爬虫
for i in range(ThreadManager.totalConnections):
    init_page = i * pages_per_connection
    end_page = init_page + pages_per_connection
    t = threading.Thread(target=get_questions_page, args=(int(init_page), int(end_page), [],), name='connection-%s' % (i))
    t.start()

在本例中只爬了一页的内容，因为即使两页也会被网页反爬虫，运行结果与上一篇相同，由于只生成了单线程，运行时间也与上一段代码类似，如果爬的页数多，这个多线程的优势体现出来，但应该需要一定的爬虫知识来避免网址的反爬虫。

3. 第三部分——使用Cython优化数据分析

数据分析脚本与网络爬虫脚本不同。它不是一个I/O密集型的脚本，而是CPU密集型脚本。它需要的I/O操作极少，主要是读取文件，输出结果。

3.1 Cython是什么

从技术角度看， Cython（http://cython.org/）并没有使用另一种与CPython不同的解释器，但是它可以让我们直接将Python代码编译成C语言（CPython不会这么做）。
你会看到Cython其实是一个转换器，可以简单看成一个软件，它可以把源代码从一种语言翻译成另一种语言。类似的软件还有CoffeeScript和Dart。这两个是不同的软件，使用不同的语言，但是都翻译成JavaScript。

3.2 如何安装Cython

环境	版本
操作系统	win11
IDE	PyCharm 2022.2.3 (Professional Edition)
解释器	anaconda python3.8

步骤一：
我先安装了windows11安装C++编译器mingw-w64

步骤二：
在终端中输入python analyzer-setup.py build_ext --inplace，出现了以下错误。
报错1：我按链接中的步骤完成下载：

error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/

按网站上的提示下载Visual Studio Installer，并安装了以下组件，并且将win10 SDK添加到了系统变量。

报错2：
完成以下步骤之后，出现了下面的错误提示。

(venv) PS D:\Python_workspace\test> python analyzer-setup.py build_ext --inplace
running build_ext
"C:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools\VC\Tools\MSVC\14.33.31629\bin\HostX86\x64\cl.exe" /c /nologo /O2 /W3 /GL /DNDEBUG /MD -ID
:\Python_workspace\test\venv\include -IC:\Users\Yaoyao\AppData\Local\Programs\Python\Python39\include -IC:\Users\Yaoyao\AppData\Local\Programs\Python\Pyt
hon39\Include "-IC:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools\VC\Tools\MSVC\14.33.31629\include" "-IC:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools\VC\Auxiliary\VS\include" /Tcanalyzer_cython.c /Fobuild\temp.win-amd64-3.9\Release\analyzer_cython.obj
analyzer_cython.c
C:\Users\Yaoyao\AppData\Local\Programs\Python\Python39\include\pyconfig.h(59): fatal error C1083: 无法打开包括文件: “io.h”: No such file or directory
error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio\\2022\\BuildTools\\VC\\Tools\\MSVC\\14.33.31629\\bin\\HostX86\\x64\\cl.exe' failed with exit code 2

我根据Cannot open include file: ‘io.h’: No such file or directory中的一个答案，以管理员身份运行Developer Command Prompt for VS 2022,切换到相应目录
报错3：

analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyBaseObject_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_SetAttr
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyUnicode_InternFromString
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyCFunction_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyOS_snprintf
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyThreadState_Get
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_SetObject
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyCode_NewEmpty
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_GivenExceptionMatches
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___PyObject_CallFunction_SizeT
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyLong_AsUnsignedLong
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_WarnEx
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_RuntimeWarning
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyFunction_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyFrame_New
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_DeprecationWarning
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_KeyError
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__Py_LeaveRecursiveCall
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyImport_ImportModule
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___PyLong_AsByteArray
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyImport_ImportModuleLevelObject
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_NormalizeException
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_SelfIter
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_Occurred
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyLong_FromSsize_t
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_GenericGetAttr
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyTraceBack_Here
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___PyThreadState_UncheckedGet
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_RuntimeError
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyMethod_New
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_SetAttrString
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyLong_FromLong
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_GC_UnTrack
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_Hash
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_UnboundLocalError
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_SetNone
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyDict_GetItemWithError
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyInterpreterState_GetID
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyLong_FromUnsignedLongLong
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__Py_GetVersion
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_GetAttr
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyDict_Contains
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyLong_AsUnsignedLongLong
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyRun_StringFlags
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___Py_NoneStruct
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyLong_AsLongLong
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyTuple_New
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PySequence_Contains
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyDict_SetItemString
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyDict_Size
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyLong_FromLongLong
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyFloat_FromDouble
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyDict_Items
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_AttributeError
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyTuple_GetSlice
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_SetString
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_WriteUnraisable
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_GetIter
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyNumber_Add
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_WarnFormat
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyIter_Send
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_ValueError
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyLong_FromUnsignedLong
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyDict_Next
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_Format
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyDict_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_RichCompare
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyTuple_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___Py_FalseStruct
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyCoro_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyNumber_InPlaceAdd
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyFloat_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___PyLong_FromByteArray
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyModule_NewObject
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyMethod_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyLong_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyType_IsSubtype
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyUnicode_Join
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_OverflowError
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___Py_Dealloc
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyTuple_GetItem
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyImport_GetModuleDict
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyModule_GetDict
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_Free
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_ExceptionMatches
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_GC_Del
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_CallFunctionObjArgs
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyLong_AsLong
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyDescr_IsData
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_ClearWeakRefs
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_Init
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_Not
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyUnicode_AsUTF8
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyUnicode_FromFormat
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyList_New
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PySlice_New
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyImport_AddModule
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyType_Ready
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_GetAttrString
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyErr_Clear
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyList_Append
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyUnicode_Decode
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyCode_New
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyException_SetTraceback
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyDict_SetItem
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyDict_New
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_CallFinalizerFromDealloc
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___PyDict_GetItem_KnownHash
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_StopIteration
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyCMethod_New
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___PyGen_SetStopIterationValue
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyList_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyDict_GetItemString
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_GetItem
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_CallObject
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyModuleDef_Init
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_GC_Track
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyBytes_FromStringAndSize
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyUnicode_Compare
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_StopAsyncIteration
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_IsSubclass
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_TypeError
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyMem_Realloc
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_IsTrue
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_NameError
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyTuple_Pack
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyMem_Malloc
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__Py_EnterRecursiveCall
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_ImportError
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyGen_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___Py_TrueStruct
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyArg_UnpackTuple
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_SystemError
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___PyObject_GC_New
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyException_SetCause
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyAsyncGen_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyTraceBack_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyMethodDescr_Type
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyExc_GeneratorExit
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyUnicode_FromString
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___PyType_Lookup
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyObject_Call
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp__PyUnicode_FromStringAndSize
analyzer_cython.obj : error LNK2001: 无法解析的外部符号 __imp___PyObject_GetDictPtr
build\lib.win32-cpython-310\analyzer_cython.cp310-win_amd64.pyd : fatal error LNK1120: 144 个无法解析的外部命令
error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio\\2022\\BuildTools\\VC\\Tools\\MSVC\\14.33.31629\\bin\\HostX86\\x86\\link.exe' failed with exit code 1120

将python调整成了32位的python3.8
报错4：在python中无法导入生成的.pyd文件
摆烂了，知道的朋友提示一下

3.3 Cython怎么用

主要的软件和流程如图所示：

首先，需要用Cython把.pyx文件编译（翻译）成.c文件。这些文件里的源代码，基本都是纯Python代码加上一些Cython代码（写Cython代码也是小难点）。
然后， .c文件被C语言编译器编译成.so库，这个库之后可以导入Python(.so是一个动态链接库，但与普通.so不同的是它可以导入python，这就与普通gcc编译出来的有点不一样)。
~~3. 编译代码有一些方法：~~
~~- 我们可以创建一个distutils配置文件。 bistutils是一个创建其他模块的工具，我们可以用它生成自定义的C语言编译文件。~~
~~- 运行cython命令将.pyx文件编译成.c文件。~~
~~- 然后用C语言编译器把C代码手动编译成库文件。最后一种方法是用pyximport，像导入.py文件一样导入.pyx直接使用。~~
为了有效地编译代码，可以用下面的命令：
$ python analyzer-setup.py build_ext --inplace

3.3.1 代码和运行结果

全部代码中analyzer-use-cython.py代码还存在问题，因为我弄不明白在win11中pyd文件的导入。
analyzer_cython.pyx

import operator
import string
import nltk
from nltk.util import ngrams
import json
import re

SOURCE_FILE = './scrapping-results.json'


# 返回提问问题数量最多的作者排名
def get_most_active_users(data, int limit):
    names = {}
    for q in data:
        if q['author'] not in names:
            names[q['author']] = 1
        else:
            names[q['author']] += 1
    return sorted(names.items(), reverse=True, key=operator.itemgetter(1))[:limit]


# 把问题的正文内容组合成一个列表
def flatten_questions_body(data):
    body = []
    for q in data:
        body.append(q['body'])
    return '. '.join(body)


# 返回使用最常用词组数量最多的问题排名
def get_most_common_phrases(d, int limit, int length):
    body = flatten_questions_body(d)
    phrases = {}
    for sentence in nltk.sent_tokenize(body):
        words = nltk.word_tokenize(sentence)
        for phrase in ngrams(words, length):
            if all(word not in string.punctuation for word in phrase):
                key = ' '.join(phrase)
                if key in phrases:
                    phrases[key] += 1
                else:
                    phrases[key] = 1
    return sorted(phrases.items(), reverse=True, key=operator.itemgetter(1))[:limit]


def get_node_content(node):
    return ' '.join([x[0] for x in node])

# 把问题的标题内容组合成一个小写的列表
def flatten_questions_titles(data):
    body = []
    pattern = re.compile('(\[|\])')
    for q in data:
        lowered = q['title'].lower()
        filtered = re.sub(pattern, ' ', lowered)
        body.append(filtered)
    return '. '.join(body)

# 返回问题标题中最常见的主题排名
def get_most_active_topics(data, int limit):
    body = flatten_questions_titles(data)
    sentences = nltk.sent_tokenize(body)
    sentences = [nltk.word_tokenize(sent) for sent in sentences]
    sentences = [nltk.pos_tag(sent) for sent in sentences]
    grammar = "NP: {?}"
    cp = nltk.RegexpParser(grammar)
    results = {}
    for sent in sentences:
        parsed = cp.parse(sent)
    trees = parsed.subtrees(filter=lambda x: x.label() == 'NP')
    for t in trees:
        key = get_node_content(t)
    if key in results:
        results[key] += 1
    else:
        results[key] = 1
    return sorted(results.items(), reverse=True, key=operator.itemgetter(1))[:limit]
    # 返回答题最多的用户排名

# 加载JSON文件并返回输出结果的词典
def load_json_data(file):
    with open(file) as input_file:
        return json.load(input_file)

def analyze_data(d):
    return {
        'most_active_users': get_most_active_users(d, 10),
        'most_active_topics': get_most_active_topics(d, 10),
        'most_common_phrases': get_most_common_phrases(d, 10, 4),
    }

analyzer-setup.py

from distutils.core import setup
from Cython.Build import cythonize

setup(
    name='Analyzer app',
    ext_modules=cythonize("analyzer_cython.pyx"),
)

analyzer-use-cython.py

import xxx.pyd as analyzer
import visualizer

data_dict = analyzer.load_json_data(analyzer.SOURCE_FILE)
results = analyzer.analyze_data(data_dict)


print("=== ( Most Active Users ) === ")
visualizer.displayMostActiveUsers(results['most_active_users'])
print("=== ( Most Active Topics ) === ")
visualizer.displayMostActiveTopics(results['most_active_topics'])
print("=== ( Most Common Phrases ) === ")
visualizer.displayMostCommonPhrases(results['most_common_phrases'])

结果
以下是运行文件和生成的文件。

3.4 Cython参考链接

10分钟入门Cython
Cython 基本用法
Cython入门教程
Cython 3.0 中文文档

你可能感兴趣的:(Python里的碰撞,python,开发语言,爬虫,性能优化)

最新整理的50个网络安全必知术语，想要入行网安，建议收藏！ wljslmz 网络技术 web安全安全网络安全
想象一下，你刚入行网络安全（Cybersecurity），兴冲冲地打开一本专业书，或者加入一个网安论坛，结果满屏的“漏洞”“威胁”“DDoS”“加密”……脑袋瞬间一片迷雾。这时候，你会不会觉得自己像个“数字文盲”，完全摸不着北？别慌，这正是网络安全术语存在的意义——它们是你进入这个高能领域的“通行证”！网络安全术语可不是什么枯燥的学术名词，而是行业里沟通的“通用语言”。它就像一张地图，能帮你快速定
微信小程序云开发的sql语法 where `$and` 运算符怎么用？踩坑总结！代码简单说 2025开发必备微信小程序 sql 小程序 where 微信小程序and
微信小程序云开发$and组合查询时间戳转换**最近在小程序云开发里用$and组合查询，结果直接翻车，明明条件写对了，却总是查不出数据，要么就是报错，真是要被折腾疯了，官方文档也没给完整示例，最终折腾了半天，终于找到正确用法，现在分享出来，避免大家踩坑1.$and查询失败的真正原因在云开发数据库查询时，如果你的$and组合条件查不出数据，大概率是因为数据类型不匹配，特别是在时间筛选时，很多人会写成这
PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析 weixin_30777913 python spark 数据分析云计算
编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值，得到一个包含两个维度字段和度量字段的分组总计值字段的dataframe，再从另一个包含多个Parquet数据文件的S3目录的dataframe数据里取两个维度字段，一个度量字段的数据组成一
我的投资组合网站：打造个性化的在线投资展示平台 Tranyn.X
本文还有配套的精品资源，点击获取简介：本文介绍如何创建和设计一个在线平台，用于展示个人或专业投资者的投资策略、历史表现和投资理念。网站的构建涉及网页布局、响应式设计、CSS样式控制、内容管理、数据分析、SEO优化、安全性、用户体验、个性化和社交媒体整合等多个方面，确保网站既具有吸引力又能够有效地传达投资者的专业形象和投资成就。1.投资组合网站构建与网页布局设计网站构建的初步规划在当今数字化时代，构
Spring 中的依赖注入 web13093320398 面试学习路线阿里巴巴 java
依赖注入当某个java实例需要另一个java实例的协助时，在传统的程序设计过程中，通常由调用者来创建被调用者的实例在spring中，创建被调用者的工作不再由调用者来完成，因此称为控制反转，创建被调用者实例的工作通常由spring容器来完成，然后注入调用者，因此也称为依赖注入注入方式通过构造器注入将被依赖对象通过构造函数的参数注入给依赖对象，并且在初始化对象的时候注入优点：对象初始化完成后便可获得可
Spring @Around 注解 web13093320398 面试学习路线阿里巴巴 spring java 后端
@Around是SpringAOP（面向切面编程）中的一个注解，它用于定义一个环绕通知（AroundAdvice）。环绕通知是AOP中最强大的一种通知类型，因为它能够在方法执行之前和之后都执行自定义的逻辑，并且可以控制方法是否继续执行或改变其返回值。@Around注解的基本用法要使用@Around注解，你需要先定义一个切面（Aspect），然后在该切面中使用@Around注解来标注一个方法，该方法
tcc编译器教程6 进一步学习编译gmake源代码刘阿去学习 c语言
本文以编译gmake为例讲解如何使用tcc进行复杂一点的c代码的编译1简介前面主要讲解了如何编译lua解释器,lua解释器的编译很简单也很容易理解.当然大部分c语言程序编译没那么简单,下面对前面的gmake程序进行编译.2gmake源码结构首先打开之前tcc-busybox-for-win32\gmake文件夹,具体文件如下主要有3个文件夹和3个文件,分别为0.tcc-主要为编译所用的信息lib-
Golang实现一个事务型内存数据库 qingwave Code 数据库 golang redis
内存数据库经我们经常用到，例如Redis，那么如何从零实现一个内存数据库呢，本文旨在介绍如何使用Golang编写一个KV内存数据库MossDB。特性MossDB是一个纯Golang编写、可嵌入的、键值型内存数据库，包含以下特性可持久化，类似RedisAOF(AppendonlyLog)支持事务支持近实时的TTL(TimetoLive),可以实现毫秒级的过期删除前缀搜索Watch接口，可以监听某个键
入坑 Python 全能实战小白训练营，470 集干货 12.9G 大揭秘！七七知享 Python python 开发语言 pandas numpy matplotlib java php
家人们，我最近挖到了一个Python学习的宝藏——Python全能实战小白训练营。整整470集，内容超丰富，资源包有12.9G，完全就是为咱们这些想系统学习Python的小白量身定制的。接下来就给大家好好唠唠。随着课程深入，会涉及到Python的各种高级特性，比如面向对象编程、模块与包的使用。在讲面向对象编程时，老师通过打造一个小型游戏角色系统，把类、对象、继承、多态这些抽象概念诠释得生动形象，让
golang 事务tx 乒乒乓乓丫 golang 开发语言后端
1.事务txgolang事务-Mr.peter-博客园Go操作Mysql（三）-kaichenkai-博客园golang中事务的使用_zh1303300的博客-CSDN博客_golang事务golangMysql--Tx-Go语言中文网-Golang中文社区2.golangmysql事务（增、删、改、查）golangmysql事务_golang操作mysql示例（增、删、改、查、事务）_Zhuan
深度学习训练中GPU内存管理 @Mr_LiuYang 遇到过的问题内存管理内存溢出 out of memory GPU内存
文章目录概述常见问题1、设备选择和数据迁移2、显存监控函数3、显存释放函数4、自适应batchsize调节5、梯度累积概述在深度学习模型训练中，主流GPU显存通常为8GB~80GB，内存不足会导致训练中断或BatchSize受限，GPU内存管理是优化性能和避免OutOfMemoryError的关键挑战。本博客简介PyTorch中GPU内存管理的核心函数、用法和实战技巧，帮助开发者高效利用显存资源。
深度学习pytorch之简单方法自定义9类卷积即插即用 @Mr_LiuYang 计算机视觉基础卷积类型非对称卷积深度卷积空洞卷积组卷积深度可分离卷积动态卷积
本文详细解析了PyTorch中torch.nn.Conv2d的核心参数，通过代码示例演示了如何利用这一基础函数实现多种卷积操作。涵盖的卷积类型包括：标准卷积、逐点卷积（1x1卷积）、非对称卷积（长宽不等的卷积核）、空洞卷积（扩大感受野）、深度卷积（逐通道滤波）、组卷积（分组独立处理）、深度可分离卷积（深度+逐点组合）、转置卷积（上采样）和动态卷积（动态生成卷积核），帮助读者理解如何通过调整参数灵活
家居巨头的觉醒，永洪科技为林氏家居开启一站式智慧决策永洪科技科技大数据人工智能数据分析数据可视化报表
在现代企业经营中，数据不仅是资产，更是决策的指南针。永洪科技与林氏家居的合作，是共同开发了一个企业级的一站式大数据分析平台。在合作多年的积累下，已逐步成为家居行业数字化转型的代表性案例。这不仅是两家企业间的合作，更是对于如何有效整合企业内部数据资产，支持各领域业务分析的一次深度实践。以下，我们将深入探讨该项目的每个关键阶段，展示永洪科技的专业能力和对潜在客户的价值承诺。广东林氏家居股份有限公司，创
65%的家庭有人“啃老”，数据解读国内版巨婴是如何炼成的？永洪科技大数据啃老单身房价
近日，韩国“30-39岁的未婚人口中有54.8%变成啃老族；40-44岁的未婚人口中有44.1%变成啃老族”的数据在网上引发热议。而反观国内，2020年数据显示，中国的啃老族已经占据了中国超过60%的家庭，30%的年轻人靠“啃老”过活，65%以上的家庭存在“啃老”方面的问题。对此，很多80、90后纷纷表示不服。网友调侃：贵族的啃老叫继承家业，到了穷人就成了啃老了。其实，啃老现象在各国都存在，是全人
PyCharm 对接 DeepSeek 大模型的详细操作流程程之编 pycharm ide python
以下是使用PyCharm对接DeepSeek大模型的详细操作流程，基于Python开发环境。假设你已具备DeepSeekAPI的访问权限（需提前申请APIKey）：步骤1：PyCharm环境准备创建新项目打开PyCharm→NewProject→选择纯Python项目→指定项目路径→创建虚拟环境（建议选Virtualenv）。安装依赖库打开终端（Terminal）执行以下命令：pipinstall
Manus AI：国产AI Agent的破局与隐忧 Hello kele 人工智能人工智能程序员经验分享 AI编程
2025年3月，国内AI领域突然杀出一匹黑马——ManusAI。这个自称全球首个通用AIAgent的产品，凭借"自主完成复杂任务"的核心能力，在技术圈掀起了不小的波澜。官网演示中，它能自动筛选简历、生成房产分析报告、甚至编写股票研究PPT，被网友戏称为"数字世界的私人助理"。但随着内测的展开，关于它的争议也开始浮出水面。一、技术突围背后的故事Manus的开发团队Monica.im颇为低调。创始人肖
DeepSeek与剪映短视频创作指南 meisongqing 人工智能 DeepSeek 剪映
DeepSeek（深度求索）作为一家专注实现AGI的中国公司，其技术可能涉及AI文本生成、图像处理等领域，结合剪映的智能剪辑功能，可以大幅提升短视频创作效率。以下是结合两者优势的详细创作步骤：一、创意策划阶段AI灵感激发使用DeepSeek的AI文本生成功能，输入关键词（如"美食教程"、"科技科普"）获取创意方向生成10-20个标题备选（示例Prompt："生成10个吸引年轻人的美妆短视频标题"）
一学就会的深度学习基础指令及操作步骤（5）使用预训练模型小圆圆666 深度学习人工智能 python 卷积神经网络
文章目录使用预训练模型加载预训练模型图像加载与预处理预测使用预训练模型查看模型库和常用模型加载预训练模型fromtorchvision.modelsimportvgg16#VGG16模型架构的定义fromtorchvision.modelsimportVGG16_Weights#VGG16的预训练权重配置#loadtheVGG16network*pre-trained*ontheImageNetd
2025 DeepSeek 10 大王炸组合，赋能职场效率革命 meisongqing 人工智能
在当下这个被AI深度渗透的时代，职场竞争愈发激烈，效率成为了制胜的关键因素。DeepSeek作为一款功能强大的AI工具，正引领着职场人的工作方式变革。当DeepSeek与其他热门应用巧妙搭配，便诞生了一系列能够大幅提升工作效率的王炸组合。无论你是忙碌的职场人士，还是充满创意的内容创作者，这些组合都将为你带来前所未有的工作体验，助你轻松应对各种复杂任务。接下来，让我们一同深入了解2025年DeepS
不同存储器组织和交叉编址技术的工作方式及举例说明海大超级无敌暴龙战士计算机组成原理学习方法
不同存储器组织和交叉编址技术的工作方式及举例说明本节介绍内存系统中常见的组织方式以及如何通过交叉编址来提高存储器性能，主要内容包括：多模块存储器单体多字存储器多体并行存储器高位交叉编址（顺序方式）低位交叉编址（交叉方式）下面依次说明这些结构的工作原理和实际应用中的举例。1.多模块存储器原理简介：多模块存储器将整个存储系统划分为多个独立模块（或称“块”），每个模块具有一定的存储容量和独立的控制电路。
【C语言】结构体篇熬夜超级玩家 C语言 c语言算法开发语言
目录结构体的定义结构体变量的声明和初始化声明结构体变量初始化结构体变量访问结构体成员结构体数组结构体指针结构体嵌套结构体作为函数参数值传递指针传递结构体的内存对齐位域结构体的定义结构体是一种自定义的数据类型，它把不同类型的数据组合成一个整体，方便管理和操作相关的数据。在定义结构体时，使用struct关键字，后面跟着结构体的名称，再用花括号{}包含结构体的成员列表，每个成员由数据类型和成员名组成，成
Flink-DataStreamAPI-生成水印隔着天花板看星星 flink 大数据分布式
下面我们将学习Flink提供的用于处理事件时间戳和水印的API，也会介绍有关事件时间、流转时长和摄取时间，下面就让我们跟着官网来学习吧一、水印策略介绍为了处理事件时间，Flink需要知道事件时间戳，这意味着流中的每个元素都需要分配其事件时间戳。这通常是通过使用TimestampAssigner从元素中的某个字段访问/提取时间戳来完成的。时间戳分配与生成水印密切相关，水印告诉系统事件时间的进度。我们
中信银行太原分行营业部开展“金融知识普及共筑消费安全”宣传活动 lsrsyx 金融安全
在第62个学雷锋纪念日与“3・15消费者权益保护日”来临之际，３月５日，中信银行太原分行营业部积极响应号召，以“金融知识普及，共筑消费安全”为主题，走进社区，传递金融知识，开展了一系列丰富多彩且富有成效的消费者权益保护活动，致力于提升公众金融素养与风险防范意识。分行营业部组织志愿者深入平阳路街道社区，开展“央行支付，惠企利民”主题宣传活动。活动现场，志愿者们通过发放精心制作的宣传单页，向居民们详细
DeepSeek赋能机器人革命：从推理引擎到行业落地的全栈技术实践量子纠缠BUG DeepSeek部署 AI DeepSeek 机器人人工智能 AI编程
——解析大模型如何重塑机器人产业的智能化未来引言：机器人产业的技术范式转移在2025年全球机器人市场规模突破2000亿美元的关键节点，DeepSeek凭借其创新的"推理优先"技术架构，正在重构机器人产业的智能化路径。通过将大模型的认知推理能力与机器人执行系统深度融合，DeepSeek在商业服务、工业制造、智慧城市等领域创造了多个标杆案例。本文将从技术架构、行业应用、开发实践三个维度，深度解读Dee
在 cmake_modules 目录下编写 FindG2O.cmake 以集成 G2O XU磊260 SLAM c++开发语言
1.简介在使用G2O（GeneralGraphOptimization）库进行优化问题求解时，通常需要在CMake项目中正确配置G2O的头文件和库文件路径。由于G2O并未提供官方的CMake配置文件，因此需要手动编写FindG2O.cmake以确保CMake能够正确找到G2O的依赖项。本文将详细解析FindG2O.cmake的编写方式，并介绍其工作原理。2.CMake中的FindG2O.cmake
总结一下c++的STL容器各个容器的特点和常用方法已是上好佳 c++开发语言
序列容器1.std::vector特点：动态数组，支持随机访问，可通过下标直接访问元素，访问效率高（时间复杂度为$O(1)$）。内存是连续分配的，在尾部插入和删除元素的效率较高（平均时间复杂度为$O(1)$），但在中间或头部插入和删除元素时，需要移动大量元素，效率较低（时间复杂度为$O(n)$）。会自动管理内存，当容量不足时会自动重新分配更大的内存空间，并将原有元素复制过去。常用方法：
目前使用ORACLE EBS的公司列表又是两个大汉堡
(相关文章:目前使用SAP的公司列表)1摩托罗拉2LG电子3济南钢铁4长安福特5百度6伊利7亚信8佳通9移动10电信11湘钢12韶钢13三角轮胎14广州铁道车辆厂15美的集团16青岛啤酒17珠江啤酒18德赛集团19大唐电力20云南白药21白沙集团22万家乐集团23华为24松下电工25华润涂料26广西柳工机械股份有限公司27天津中新药业集团28浦东机场29涟源钢铁集团30衡阳钢管厂31顺达电脑，32
百奥赛图的AI野心：用2500万抗体序列改写医药研发规则港股研究社人工智能大数据
在生物医药领域，技术突破的浪潮从未停歇。随着DeepSeek的爆火，AI技术也正在深度渗透生物医药行业。近日，百奥赛图作为行业先锋，率先DeepSeek平台本地化部署，结合“千鼠万抗”计划，打造“AI+抗体药物研发”的全新模式，大幅提升药物研发效率与成功率，引领行业迈向智能化创新时代。回顾百奥赛图的发展之路，公司创始人沈月雷博士，凭借十余年深耕免疫学和基因编辑领域的经验，带领团队从锻造靶点人源化小
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
NTIRE比赛：技术前沿、国内企业表现与计算机视觉未来展望 AndrewHZ 深度学习新浪潮计算机视觉人工智能深度学习调研报告算法 NTIRE 画质算法
一、NTIRE比赛概述：图像恢复与增强领域的全球竞技场1.1NTIRE的定位与历史NTIRE（NewTrendsinImageRestorationandEnhancement）是计算机视觉领域最具影响力的国际赛事之一，聚焦于图像恢复与增强技术的前沿探索。自2017年首次举办以来，NTIRE每年与计算机视觉顶会CVPR联合召开，成为学术界与工业界技术实力的重要展示平台。其竞赛内容涵盖图像超分辨率、
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri