lzz957748332

[Python]Flask构建网站分析应用

原文Saturday morning hacks: Building an Analytics App with Flask - 由orangleliu友情翻译，主要是通过埋点技术来实现web网页的统计分析需求

几年前我曾今写过一篇使用Cassandra构建分析服务当时只是为了好玩写的，实际上 Cassandra 根本不适合我真正的需求，所以我决定写些简单的东西。我很高兴宣布新的统计应用在过去的5个月非常稳定的运行，并且只消耗了 20M 内存。这篇文章我会展示怎样使用 Flask 来构建一个轻量的统计分析服务。

分析请求/响应流程

我们将要构建的分析服务有点类似 Google Analytics (更像是个简化版)

工作流程：

每个要被跟踪的页面都会使用 <script> 标签引入一个 JavaScript 文件，这个文件由我们的应用(例如，放在被分析网站的基础模板中)
当有人访问你的网站的时候，他们的浏览器会执行这个 JavaScript 文件
JavaScript 中的代码可以读取当前网页的标题，URL，还有其他感兴趣的元素。
最酷的地方是，这个脚本会动态的创建一个 <img> 标签(一般来说是个1*1px的空白图片)，这个标签的 src 属性的 URL 正式指向我们的分析应用
当前页面中的信息收集完毕并且编码之后就会设置成图片的 src 属性，我们的分析服务端就会收到并解析这些信息
分析服务解析完成，把这条信息存入数据库，然后返回一个1像素的gif图片

下面是交互图:

设计考虑

因为要在资源有限的 VPS(可以认为是配置非常低的服务器) 上运行, 我的博客也没有多少流浪，所以要轻量，灵活。不管什么类型的项目我都喜欢使用 Flask，这个项目更是如此。我们将使用 peewee ORM 来存储PV(页面访问数据）和查询分析数据。告诉大家吧，我们的应用不会超过100行代码（包括注释）。

PV （page view）页面访问

数据库相关

为了能方面的查询数据，我们将使用关系型数据库存储PV数据。我选择了 BerkeleyDB’s SQLite 接口，因为它是个轻量的嵌入数据库，也不会用多少内存。我曾考虑过 SQLite，但是 BerkeleyDB 在并发访问时候比 SQLite 性能高很多。当分析应用遭到某些破坏的时候，仍然可以保持稳定运行。

如果你已经安装了 Postgresql 或者 MySQL，那么请自由选择。

WSGI Server

虽然有非常多的选择，但是我还是比较喜欢使用 gevent。 Gevent 是一个基于协程的网络库，使用了 libev 的事件机制来实现轻线程(greenlets)。通过使用 monkey-patching ，不需要特殊的API或者是语法，gevent 会把正常阻塞的 python 程序变成非阻塞的。 Gevent 的 WSGI server，尽管非常基础，但是有着非常高的性能和非常低的资源消耗。和数据库一样，如果你使用别的库比较顺手，请自由选择。

创建 virtualenv

我们先给这个分析应用创建一个隔离的环境，安装上 flask, peewee（选择安装gevent）.

$ virtualenv analytics
New python executable in analytics/bin/python2
Also creating executable in analytics/bin/python
Installing setuptools, pip...done.

$ cd analytics/
$ source bin/activate
$ pip install flask peewee
...
...
Successfully installed flask peewee Werkzeug Jinja2 itsdangerous markupsafe
Cleaning up...

$ pip install gevent  # Optional.

如果你想编译 Python SQLite 驱动来支持 BerkeleyDB, 检出 playhouse 模块(lib/python2.7/site-packages/playhouse/berkeley_build.sh) 中的 berkeley_build.sh 脚本。这个脚本将会下载和编译 BerkeleyDB ，然后再编译 pysqlite，详细的过程请看这篇文章。你也可以跳过这个步骤，直接使用 peewee 的 SqliteDatabase 类。

实现Flask应用

让我们从整体代码框架开始吧。正如前面讨论的，我们将会创建2个 view，一个用来返回 JavaScript 文件，另一个用来创建1像素的GIF图片。在 analytics目录（这是作者开发使用的目录，没有请自行创建），创建 analytics.py 文件，代码在下面列出。这些代码包括了应用的代码结构，还有基本配置。

#coding:utf-8
from base64 import b64decode
import datetime
import json
import os
from urlparse import parse_qsl, urlparse

from flask import Flask, Response, abort, request
from peewee import *
from playhouse.berkeleydb import BerkeleyDatabase  # Optional.


# 1 pixel GIF, base64-encoded.
BEACON = b64decode('R0lGODlhAQABAIAAANvf7wAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==')

# Store the database file in the app directory.
APP_DIR = os.path.dirname(__file__)
DATABASE_NAME = os.path.join(APP_DIR, 'analytics.db')
DOMAIN = 'http://127.0.0.1:5000'  # TODO: change me.

# Simple JavaScript which will be included and executed on the client-side.
JAVASCRIPT = '' # TODO: add javascript implementation.

# Flask application settings.
DEBUG = bool(os.environ.get('DEBUG'))
SECRET_KEY = 'secret - change me'  # TODO: change me.

app = Flask(__name__)
app.config.from_object(__name__)

database = BerkeleyDatabase(DATABASE_NAME)  # or SqliteDatabase(DATABASE_NAME)

class PageView(Model):
    # TODO: add model definition.

    class Meta:
        database = database

@app.route('/a.gif')
def analyze():
    # TODO: implement 1pixel gif view.

@app.route('/a.js')
def script():
    # TODO: implement javascript view.

@app.errorhandler(404)
def not_found(e):
    return Response('Not found.')

if __name__ == '__main__':
    database.create_tables([PageView], safe=True)
    app.run()

从浏览器获取信息

我们开始写收集客户端信息的 JavaScript 文件，主要就是抽取一些页面基本信息

URL信息，包括查询信息(document.location.href)
页面的title (document.title)
页面的feferring信息，如果有的话 (document.referrer)

下面的一些属性也可以提取出来，如果你感兴趣的话（我：其实可能比列出的多的多，特别是H5），例如：
* cookie信息(document.cookie)
* 文档的最后修改时间(document.lastModified)
* 更多

提取了这些信息之后，我们通过url的查询字符串传给 analyze 这个view。为了简单，这个 js 将在页面加载的时候立即触发，我们把所有的代码封装到一个匿名函数中。最后使用 encodeURIComponent 方法对所有参数进行转义，确保所有参数安全：

(function() {
  var img = new Image,
      url = encodeURIComponent(document.location.href),
      title = encodeURIComponent(document.title),
      ref = encodeURIComponent(document.referrer);
  img.src = '%s/a.gif?url=' + url + '&t=' + title + '&ref=' + ref;
})();

我们预留Python中的占位符 %s，用来读取 DOMAIN 配置并插入到其中，组成完整的JS代码

在py文件中我们定义一个 JAVASCRIPT 变量来存储上面的 js代码：

# Simple JavaScript which will be included and executed on the client-side.
JAVASCRIPT = """(function(){ var d=document,i=new Image,e=encodeURIComponent; i.src='%s/a.gif?url='+e(d.location.href)+'&ref='+e(d.referrer)+'&t='+e(d.title); })()""".replace('\n', '')

在view中这样处理

@app.route('/a.js')
def script():
    return Response(
        app.config['JAVASCRIPT'] % (app.config['DOMAIN']),
        mimetype='text/javascript')

保存PV信息

上面的脚本将会传3个值给 analyze 这个view，包括页面的URL，title，和 referring page。现在我们来定义一个 PageView 模型来存储这些数据。

在服务端，我们也可以读取到访问者的IP和请求头信息，所以我们也为这些信息创建字段，还要加上请求的时间戳字段。

因为每个浏览器有着不同的请求头，每个页面请求的查询参数也不尽相同，我们将把他们用 JSON 格式存储到 TextField字段中。如果你使用 Postgresql，可以用 HStore 或者 native JSON data-type。

下面是 PageView 模型的定义，还定义了一个 JSONField 用来存储查询参数和请求头信息：

class JSONField(TextField):
    """Store JSON data in a TextField."""
    def python_value(self, value):
        if value is not None:
            return json.loads(value)

    def db_value(self, value):
        if value is not None:
            return json.dumps(value)

class PageView(Model):
    domain = CharField()
    url = TextField()
    timestamp = DateTimeField(default=datetime.datetime.now, index=True)
    title = TextField(default='')
    ip = CharField(default='')
    referrer = TextField(default='')
    headers = JSONField()
    params = JSONField()

    class Meta:
        database = database

先我们给 PageView 添加一个方法，让它可以从请求中提取所有需要的值，并存到数据库。 urlparse 模块中包含了很多提取 request 信息的方法，我们用这些方法来获取访问URL和请求参数：

class PageView(Model):
    # ... field definitions ...

    @classmethod
    def create_from_request(cls):
        parsed = urlparse(request.args['url'])
        params = dict(parse_qsl(parsed.query))

        return PageView.create(
            domain=parsed.netloc,
            url=parsed.path,
            title=request.args.get('t') or '',
            ip=request.headers.get('X-Forwarded-For', request.remote_addr),
            referrer=request.args.get('ref') or '',
            headers=dict(request.headers),
            params=params)

analyze view 最后一步是返回一个1像素的GIF图片，为了安全起见，我们将检查下 URL是否存在，确保不会再数据库插入一个空白记录。

@app.route('/a.gif')
def analyze():
    if not request.args.get('url'):
        abort(404)

    with database.transaction():
        PageView.create_from_request()

    response = Response(app.config['BEACON'], mimetype='image/gif')
    response.headers['Cache-Control'] = 'private, no-cache'
    return response

启动应用

这个时候如果你想测试下应用，可以先在命令行设置下 DEBUG=1 来启动debug模式

(analytics) $ DEBUG=1 python analytics.py
 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)
 * Restarting with reloader

访问 http://127.0.0.1:5000/a.js 可以看到js文件。如果本地有其他的web应用，可以把这段js嵌入到它的页面中，测试下分析应用

<script src="http://127.0.0.1:5000/a.js" type="text/javascript"></script>

为了把应用部署到生产环境，建议使用专用的 WSGI 服务器。我喜欢用 gevent，非常轻量和高性能。你可以修改 analytics.py 文件，使用 gevent 代替原来的 Flask server。下面是使用 gevent 来运行应用在 5000端口的写法：

if __name__ == '__main__':
   from gevent.wsgi import WSGIServer
   WSGIServer(('', 5000), app).serve_forever()

因为 gevent 是使用 monkey-patching 来实现高并发的，需要在 analytics.py 加上下面一行：

from gevent import monkey; monkey.patch_all()

查询数据

真正感觉到快乐的是收集了几天数据，查询的时候。这部分我们将看看怎样从收集的数据中查询出来一些有意思的信息。

下面使用我博客的数据，我们将会对最近7天的数据进行一些查询

>>> from analytics import *
>>> import datetime
>>> week_ago = datetime.date.today() - datetime.timedelta(days=7)
>>> base = PageView.select().where(PageView.timestamp >= week_ago)

首先，我们来看看过去一周的PV

>>> base.count()
1133

有多少不同的IP访问过我的网站

>>> base.select(PageView.ip).group_by(PageView.ip).count()
850

访问最多的10个页面？

print (base
       .select(PageView.title, fn.Count(PageView.id))
       .group_by(PageView.title)
       .order_by(fn.Count(PageView.id).desc())
       .tuples())[:10]

# Prints...
[('Postgresql HStore, JSON data-type and Arrays with Peewee ORM',
  88),
 ("Describing Relationships: Django's ManyToMany Through",
  73),
 ('Using python and k-means to find the dominant colors in images',
  66),
 ('SQLite: Small. Fast. Reliable. Choose any three.', 58),
 ('Using python to generate awesome linux desktop themes',
  54),
 ("Don't sweat the small stuff - use flask blueprints", 51),
 ('Using SQLite Full-Text Search with Python', 48),
 ('Home', 47),
 ('Blog Entries', 46),
 ('Django Patterns: Model Inheritance', 44)]

4个小时为单位，一天中哪个时间访问的人最多呢？

hour = fn.date_part('hour', PageView.timestamp) / 4
id_count = fn.Count(PageView.id)
print (base
       .select(hour, id_count)
       .group_by(hour)
       .order_by(id_count.desc())
       .tuples())[:]
[(3, 208),
 (2, 201),
 (0, 194),
 (1, 183),
 (4, 178),
 (5, 169)]

基于这些数据，看起来每天午餐时间访问的人最多，网上午夜前访问的人数最少，总得流量比较平均。

哪些 user-agents 最流行呢？

from collections import Counter
c = Counter(pv.headers.get('User-Agent') for pv in base)
print c.most_common(5)
[(u'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36',
  81),
 (u'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36',
  70),
 (u'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:32.0) Gecko/20100101 Firefox/32.0',
  50),
 (u'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) AppleWebKit/537.78.2 (KHTML, like Gecko) Version/7.0.6 Safari/537.78.2',
  37),
 (u'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:32.0) Gecko/20100101 Firefox/32.0',
  37)]

你想要什么数据全看你。一个有意思的就是查询某个IP访问所有页面的次序列表。这也就能看到人们怎么再你的网站上一页一页的访问

inner = base.select(PageView.ip, PageView.url).order_by(PageView.timestamp)
query = (PageView
         .select(PageView.ip, fn.GROUP_CONCAT(PageView.url).alias('urls'))
         .from_(inner.alias('t1'))
         .group_by(PageView.ip)
         .order_by(fn.Count(PageView.url).desc())
print {pv.ip: pv.urls.split(',') for pv in query[:10]}

# Prints something like the following:
{
  u'xxx.xxx.xxx.xxx': [
    u'/blog/peewee-was-baroque-so-i-rewrote-it/',
    u'/blog/peewee-was-baroque-so-i-rewrote-it/',
    u'/blog/',
    u'/blog/postgresql-hstore-json-data-type-and-arrays-with-peewee-orm/',
    u'/blog/search/',
    u'/blog/the-search-for-the-missing-link-what-lies-between-sql-and-django-s-orm-/',
    u'/blog/how-do-you-use-peewee-/'],
  u'xxx.xxx.xxx.xxx': [
    u'/blog/dont-sweat-small-stuff-use-flask-blueprints/',
    u'/',
    u'/blog/',
    u'/blog/migrating-to-sqlite/',
    u'/blog/',
    u'/blog/saturday-morning-hacks-revisiting-the-notes-app/'],
  u'xxx.xxx.xxx.xxx': [
    u'/blog/using-python-to-generate-awesome-linux-desktop-themes/',
    u'/',
    u'/blog/',
    u'/blog/customizing-google-chrome-s-new-tab-page/',
    u'/blog/-wallfix-using-python-to-set-my-wallpaper/',
    u'/blog/simple-botnet-written-python/'],
  # etc...
}

提升应用的想法

建立一个web接口或者是API来查询pv数据
使用表或者是类似 Postgresql HStore 来标准化请求头数据
收集用户cookies 跟踪用户访问路径
使用 GeoIP 来确定用户的地理位置
使用 canvas 指纹来更好的确定用户的唯一性
更多更酷的查询来研究数据

感谢阅读

感谢阅读，有什么问题请联系我。项目的 gist地址在这

使用Jmeter进行接口测试的基本步骤有哪些？海姐软件测试 Jmeter 测试工具职场和发展面试
使用JMeter进行接口测试通常包含以下基本步骤：1.环境准备下载与安装：访问ApacheJMeter的官方网站（ApacheJMeter-ApacheJMeter™）下载适合你操作系统的JMeter版本，解压下载的压缩包到指定目录。启动JMeter：在解压后的目录中，找到bin文件夹，根据操作系统不同，双击jmeter.bat（Windows）或jmeter.sh（Linux/Mac）启动JMe
python读取excel数据和提取图片我就是全世界 python excel 开发语言
1.引言1.1日常工作中Excel的使用在现代办公环境中，Excel（电子表格软件）是数据管理和分析的重要工具之一。无论是财务报表、销售数据、项目管理还是日常报告，Excel都扮演着不可或缺的角色。其强大的数据处理能力、灵活的格式设置以及丰富的图表功能，使得Excel成为各行各业专业人士的首选工具。Excel的主要功能包括：数据录入与管理：用户可以轻松输入、编辑和管理大量数据。数据分析：通过内置的
从 0 开始使用 cursor 开发一个移动端跨平台应用程序沐怡旸 react native
1.安装必要的工具和环境在开始之前，确保你的开发环境已经安装了以下工具：a.安装Node.js和npmReactNative依赖Node.js和npm（NodePackageManager）。你可以从Node.js官网下载并安装最新版本。b.安装PythonReactNative的Android开发需要Python。确保你已经安装了Python2.7或Python3.x。c.安装Java环境Rea
2020年第十一届蓝桥杯python组省赛 Ruoki~ 蓝桥杯python真题蓝桥杯职场和发展
前言：python最简单的一套题了，适合小白入门练手目录填空题门牌制作寻找2020跑步锻炼蛇形填数排序编程大题成绩统计单词分析数字三角形平面切分装饰珠填空题门牌制作题目：小蓝要为一条街的住户制作门牌号。这条街一共有2020位住户，门牌号从1到2020编号。小蓝制作门牌的方法是先制作0到9这几个数字字符，最后根据需要将字符粘贴到门牌上，例如门牌1017需要依次粘贴字符1、0、1、7，即需要1个字符0
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
iOS发布app到App Store教程 Cloudox_ iOS 拾遗iOS之海 iOS 发布App 发布证书 App Store
要发布首先需要发布证书，其获取和安装的基本流程和真机调试证书一致，关于真机调试证书的获取和使用可以参考这篇文章。不过现在Xcode7不需要真机调试证书也可实现真机调试了，可以参考这篇文章。要获取证书，以及发布app，都需要开发者账号，开发者账号分为个人和企业两种，在https://developer.apple.com/programs/这个网站注册。关于申请开发者账号，有时间再写一篇文章好啦。获
Python 问题：ModuleNotFoundError: No module named ‘matplotlib‘ 我命由我12345 Python -问题清单 python matplotlib 开发语言 c++c#后端
问题与处理策略1、问题描述importmatplotlib.pyplotaspltfig,ax=plt.subplots()ax.plot([1,2,3,4],[1,4,2,3])plt.show()执行上述代码，报如下错误ModuleNotFoundError:Nomodulenamed'matplotlib'#翻译ModuleNotFoundation错误：没有名为matplotlib的模块2
Python函数专题：引用传参圣逸从入门到精通Python语言 python 开发语言 Python入门精通python 数据结构
在Python编程中，函数是一个非常重要的概念。函数不仅能提高代码的可重用性，还能够使代码结构更加清晰。在函数的设计和使用中，参数的传递方式是一个关键的因素。Python中的参数传递有两种主要形式：值传递和引用传递。虽然Python的参数传递机制有时被称为"引用传递"，但实际上它更接近于"对象引用传递"。本文将深入探讨Python中的引用传参及其相关概念。一、基本概念在讨论引用传参之前，首先要理解
python函数支持哪些参数类型_Python函数的几种参数类型 weixin_39965283
以下代码均以Python3为基础理解。初识Python函数大部分常见的语言如C、Java、PHP、C#、JavaScript等属于C系语言，Python不属于他们中的一员（ruby亦然）。在这些语言中，Python也属于比较新奇的一派，就函数来说，它没有大括号，用def关键字定义一个函数，定义后用:然后换行tab指定函数函数的范围，当然也不存在什么分号。作为一个函数，那个它肯定是有参数的，Pyth
python自定义函数的参数有多种类型_Python实现自定义函数的5种常见形式分析 weixin_39632728
Python自定义函数是以def开头，空一格之后是这个自定义函数的名称，名称后面是一对括号，括号里放置形参列表，结束括号后面一定要有冒号“：”，函数的执行体程序代码也要有适当的缩排。Python自定义函数的通用语法是：def函数名称(形参列表)：执行体程序代码Python自定义函数的5种常见形式：1、标准自定义函数：形参列表是标准的tuple数据类型>>>defabvedu_add(x,y):pr
深入了解Python的shutil模块上官美丽技术分享 python
在Python编程中，处理文件和目录是一个常见的需求。而shutil模块就像一个得力助手，专门用于文件和目录的操作！这篇文章将带你深入探索shutil模块的各种功能，让你在管理文件时游刃有余。什么是shutil模块？shutil是Python的一个标准库，主要用于高效地处理文件和目录。这个模块提供了很多有用的功能，比如复制、移动、删除文件，甚至可以压缩和解压文件！无论你是要整理文档、备份数据，还是
Django ORM自定义排序的实用示例上官美丽技术分享 django 数据库 sqlite
在使用Django进行开发时，ORM（对象关系映射）是一个非常强大的工具。它让我们可以用Python代码直接操作数据库，而不需要写SQL语句。当我们需要对数据进行排序时，DjangoORM同样提供了丰富的功能。今天，我们就来聊聊如何在Django中实现自定义排序，帮助你更好地管理和展示数据！理解DjangoORM的排序功能DjangoORM提供了order_by()方法，允许我们对查询集进行排序。
Python for循环详解红虾程序员 Python 开发语言 ide python pycharm
目录一、基本语法二、用法示例1、遍历字符串2、遍历列表3、遍历元组4、遍历字典5、使用range()函数6、使用enumerate()函数7、嵌套循环8、break和continue语句9、else子句三、优点四、缺点在Python中，for循环是一种用于迭代可迭代对象（如列表、元组、字典、集合、字符串或任何实现了迭代协议的对象）的语句，它允许按顺序访问可迭代对象中的每个元素，并对每个元素执行一组
Python：区块链 Blockchain 入门的技术指南拾荒的小海螺 Python python 区块链开发语言
1、简述区块链（Blockchain）是一种去中心化、不可篡改的分布式账本技术，最初因比特币而广为人知。如今，区块链已发展成为一种可以应用于金融、供应链管理、智能合约等多个领域的技术。本文将简要介绍区块链的基本概念和原理，并通过Python实现一个简化的区块链原型，帮助您快速上手区块链的实践。2、基本原理区块链是一种链式结构，由多个“区块”串联而成。每个区块中包含若干交易信息，并通过加密哈希指向前
python实现一个通讯录，拥有添加联系人，删除联系人，修改联系人，查询联系人，查找通讯录，退出功能新手懒羊哥 python 开发语言
print('-'*25)#输出25个横杠print('-'*25)print("欢迎使用通讯录")print("1.添加联系人")print("2.查看通讯录")print("3.删除联系人")print("4.修改联系人")print("5.查找联系人")print("6.退出")print('-'*25)list1=[0]*10all_user=[]whileTrue:choose=inpu
基于Python爬虫的商业新闻趋势分析：数据抓取与深度分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言媒体游戏
在信息化和数字化日益发展的今天，商业新闻成为了行业动向、市场变化、竞争格局等多方面信息的重要来源。对于企业和投资者来说，及时了解商业新闻不仅能帮助做出战略决策，还能洞察市场趋势和风险。在此背景下，商业新闻分析的需求日益增长。通过爬虫技术获取和分析商业新闻数据，不仅可以节省时间和成本，还能高效、精准地进行趋势预测与决策支持。本篇博客将详细介绍如何使用Python爬虫技术抓取商业新闻数据，并进行趋势分
基于Python的金融领域AI训练数据抓取实战（完整技术解析）海拥✘ python 金融人工智能
项目背景与需求分析场景描述为训练一个覆盖全球金融市场的多模态大语言模型（LLM），需实时采集以下数据：全球30+主要证券交易所（NYSE、NASDAQ、LSE、TSE等）的上市公司公告企业财报PDF文档及结构化数据社交媒体舆情数据（Twitter、StockTwits）新闻媒体分析（Reuters、Bloomberg）技术挑战地理封锁：部分交易所（如日本TSE）仅允许本国IP访问历史数据动态反爬：
视频转音频, 音频转文字言之。 python 音视频
Ubuntu24环境准备#系统级依赖sudoaptupdate&&sudoaptinstall-yffmpegpython3-venvgitbuild-essentialpython3-dev#Python虚拟环境python3-mvenv~/ai_summarysource~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper语音识别pipinstallope
SvelteKit 最新中文文档教程（7）—— 构建和部署
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
项目经理的验收突围战：从风险预判到价值交付的破局之道
在软件项目交付失败的统计中，近40%的问题集中爆发在验收环节。当某智慧城市项目在验收阶段遭遇23个功能点争议时，项目经理发现合同中的验收标准竟写着"系统运行稳定"这样的模糊表述——这个真实案例折射出验收管理的复杂性。项目经理需要构建从需求源头到价值交付的全周期验收防御体系。一、验收危机的三大引爆点与拆解策略需求迷雾：概念共识的断层某医疗AI项目开发时，客户口中的"智能分诊"被工程师理解为规则引擎，
用 Python 实现每秒百万级请求 weixin_33719619 python 网络后端
本文讲的是用Python实现每秒百万级请求，用Python可以每秒发出百万个请求吗？这个问题终于有了肯定的回答。许多公司抛弃Python拥抱其他语言就为了提高性能节约服务器成本。但是没必要啊。Python也可以胜任。Python社区近来针对性能做了很多优化。CPython3.6新的字典实现方式提升了解释器的总体性能。得益于更快的调用约定和字典查询缓存，CPython3.7会更快。对于计算密集型工作
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
Argos Translate 开源项目教程经优英
ArgosTranslate开源项目教程argos-translateOpen-sourceofflinetranslationlibrarywritteninPython项目地址:https://gitcode.com/gh_mirrors/ar/argos-translate项目介绍ArgosTranslate是一个开源的离线翻译库，使用Python编写。它利用OpenNMT进行翻译，Sent
pytesseract，一个超强的 Python 库！大模型开发 python 开发语言
大家好，今天为大家分享一个超强的Python库-pytesseract。在当今数字化时代，文字识别技术扮演着越来越重要的角色。Pythonpytesseract库是一个强大的工具，能够帮助开发者轻松实现图像中文字的识别。本文将深入探讨pytesseract库的原理、功能、使用方法以及实际应用场景，并提供丰富的示例代码，让读者更全面地了解这个工具库。什么是Pythonpytesseract库？Pyt
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
暗链威胁与检测方法之Screaming Frog SEO Spider qq_39541626 黑帽研究 windows
尖叫青蛙，网站暗链检测方法网站暗链是指那些隐藏在网页上，对普通用户不可见或难以察觉的超链接。这些链接可能被故意设置为与背景颜色相同、使用极小的字体、或通过CSS技巧使其隐藏，从而在视觉上对用户隐藏。暗链通常用于不良的SEO实践，如操纵搜索引擎排名，或链接到恶意网站。这种做法可能导致网站在搜索引擎中被降级或罚款，损害网站的可信度和用户体验为了解决网站暗链，一次性筛选所有暗链买了一个软件Screami
3月TIOBE编程语言排行：Python稳居榜首，C++和Java市场份额稳步上升朱公子的Note 编程语言 python c++java TIOBE编程语言排行
TIOBE编程语言排行榜是一个基于全球程序员数量、课程数量和第三方供应商数量的指标，旨在反映编程语言的流行度。根据TIOBEIndex，它每月更新一次，计算方法基于搜索引擎（如Google、Bing、Wikipedia等）的查询结果，涵盖专业开发者的兴趣和需求。需要注意的是，TIOBE指数不代表“最佳”编程语言或代码量最多的语言，而是反映语言在开发者社区中的热度。2025年3月的排行榜特别提到Py
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
Python第六章03：列表的常用操作苹果.Python.八宝粥 python windows 开发语言
#列表的常用操作"""如:定义、下标索引获取数据、插入元素、删除元素、清空列表、修改元素、统计修改元素个数在Python中，如果将函数定义为class的成员，那么函数称为方法函数：defadd(x,y):returnx+y方法：classStudent:defadd(self,x,y):returnx+y方法和函数的功能一样，可以传入参数，有返回值，方法调用使用格式不同：函数的使用：num=add
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少