Hellespontus

【AI核心能力】第2讲机器学习初探

第2讲机器学习初探

Optimization——优化问题

对于银行运钞车来说，哪条路线是最优路径？
对于一家公司而言，手里的钱是有限的，如何把这些金额分配到不同的项目组中？
如何选取合理的存货地点，货仓里的不同位置应该放哪些商品？
制造一部手机，如何选取合理的元器件成本从而达到最优利润？
物流、航空业、交通、外卖配送如何让用户满意度最高？

A Simple Optimization Example: Cut Rod Problem

例如8m的木头拆成6+2更赚钱。

From Dynamic Programming to Machine Learning

original_price = [1, 5, 8, 9, 10, 17, 17, 20, 24, 30, 33] # 长度为1到11的价钱

price = {i+1:p for i, p in enumerate(original_price)} # 将长度和价钱存成字典

solution = {}

def r(n): # the revenue of length n
    candidates = [] # 用于记录对于长度为i的木材，所有切法的收益
    for i in range(1, n):
        candidates.append((r(i) + r(n-i), i))
    candidates.append((price[n], 0)) 
    max_price, split_point = max(candidates, key=lambda x: x[0]) # 按第一个元素找最大

    global solution
    solution[n] = (split_point, n-split_point)

    return max_price

长度为8的最优解

r(8)

=========================================================
Output:

22

打印一下切割方法，8分成2+6，2是0+2，6是0+6

solution

{1: (0, 1),
 2: (0, 2),
 3: (0, 3),
 4: (2, 2),
 5: (2, 3),
 6: (0, 6),
 7: (1, 6),
 8: (2, 6)}

当然上面代码的问题在于字典长度只能是11，如果要求分一根长度为12的木材则无能为力。

为了解决这个问题，在python中可以如下修改代码：

from collections import defaultdict
price = defaultdict(int)
for i, p in enumerate(original_price):
    price[i+1] = p

但是这种解决问题的方法会导致子问题以指数级上升，使用%%time可以发现增加一个木材长度运行耗时会显著增加。

Decorator——装饰器

为了能对程序运行时间有个准确的度量，python中通常会采用用下面的方式

from datetime import datetime
import time

def func_1(n):
    begin = datetime.now()
    time.sleep(0.1)
    print('used time = {}'.format(datetime.now() - begin))
    return n
    
def func_2(n):
    begin = datetime.now()
    sum_ = 0
    for i in range(n**n):
        sum_ += 1
    print('used time = {}'.format(datetime.now() - begin))
    return n

func_1(9)
func_2(9)

=========================================================
Output:

used time = 0:00:00.104540
9
used time = 0:00:57.352702
9

这种方法通常只用在debug中，若在实际情况下，通常使用下面这种方式

## Python 是一个可以面向函数编程的语言
def func_1(n):
    time.sleep(0.1)
    return n

def get_func_time(func):
    def _wrap(n):
        begin = datetime.now()
        result = func(n)
        print('used time = {}'.format(datetime.now() - begin))
        return result
    return _wrap

func_1_with_time = get_func_time(func_1)
func_1_with_time(9)

=========================================================
Output:

used time = 0:00:00.109891
9

这样做的好处是，如果以后想知道其他函数的运行时间，可以避免修改源代码，直接调用get_func_time函数即可。

在python中还可以进一步使用装饰器简化

"""
@another_func
def some_func():
	pass
==> some_func = another_func(some_func)
"""
@get_func_time
def func_1(n):
    time.sleep(0.1)
    return n

def get_func_time(func):
    def _wrap(n):
        begin = datetime.now()
        result = func(n)
        print('used time = {}'.format(datetime.now() - begin))
        return result
    return _wrap

func_1(9)

那么装饰器如何来帮助我们动态规划呢？

我们用空间换时间，使用数组chache存储已经计算过的值避免重复计算

def memo(func):
    cache = {}
    def _wrap(n):
        if n in cache: 
            result = cache[n]
        else:
            result = func(n)
            cache[n] = result
        return result
    return _wrap

下面要执行memo®，使得每次调用函数r时都先访问cache数组，而我们要做的的，就是加上一句话@memo。

solution = {}

@memo  # 只要加一句话
def r(n):
    candidates = []
    for i in range(1, n):
        candidates.append((r(i) + r(n-i), i))
    candidates.append((price[n], 0))
    max_price, split_point = max(candidates, key=lambda x: x[0])

    global solution
    solution[n] = (split_point, n-split_point)

    return max_price

下面是原来的运行时间

%%time
r(14)

=========================================================
Output:

Wall time: 5.14 s
41

使用cache之后

%%time
r(14)

Output:

Wall time: 0 ns
41

%%time
r(256)

=========================================================
Output:

Wall time: 59.2 ms
768

效率上有了飞跃。

代码还可以进一步简化

solution = {}

@memo  # 只要加一句话
def r(n):
    # candidates = []
    # for i in range(1, n):
    #     candidates.append((r(i) + r(n-i), i))
    # candidates.append((price[n], 0))
    # max_price, split_point = max(candidates, key=lambda x: x[0])
    max_price, split_point = max([price[n], 0] + [(r(i)+r(n-i), i) for i in range(1, n)], key=lambda x:x[0])
    global solution
    solution[n] = (split_point, n-split_point)

    return max_price

下面我们再来写一个解析函数

def not_cut(n): return n == 0

def parse_solution(target_length, revenue_solution):
    left, right = revenue_solution[target_length]

    if not_cut(left): return [right]

    return parse_solution(left, revenue_solution) + parse_solution(right, revenue_solution)

parse_solution(111, solution)

=========================================================
Output:

[10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 11]

r(111)

=========================================================
Output:

333

动态规划·解决问题——分治（Divide and Conquer）

识别子问题 Sub-Problems Dividing——这个问题可以被分割成若干子问题
识别子问题中的重叠特点 Over-Lapping Sub-Problem——子问题之间存在overlapping重合
存储子问题的答案 Cache Sub-Solutions——对重合的子问题进行cache（缓存）
合并问题答案 Combine Solutions——依据cache数据加速解决问题
解析答案 Parse Solutions——还要构建parse solution函数解析最终的结果

eg.

Edit Distance 编辑距离
基因测序里边的相似基因判断
图形学里边的覆盖问题
路径规划问题
……

机器学习 Machine Learning

可是，如果我们现在的条件极其多，或者分解情况极其复杂，分治可能会很困难。

于是乎，就有了机器学习的出现。

监督式学习 Supervised Learning

可见，根据向量计算结果可以把机器学习分为好几类

在email语境下，

判断邮件内容真假的可能性是一个回归问题——Regression
判断邮件内容真假是真是假是一个分类问题——Binary Classification | Multiclass Classification
输入邮件向量并生成符合该邮件类型的一段文字——Sequence Learning
邮件重要性排序——Rank

非监督式学习 Unsupervised Learning

聚类

Framework 机器学习的通用框架

监督式学习和非监督式学习的区别

监督式学习会提供y，其核心是梯度下降（Gradient Descent），用来使 loss function 最小，这与优化问题的思路是一致的。

梯度下降 Gradient Descent

通过梯度计算函数的最小值

下面以函数
$f(x) = 10x^2+37x+9$
为例

import numpy as np

def func(x):
    return 10 * x**2 + 37*x + 9

import matplotlib.pyplot as plt

x = np.linspace(-10, 10)
plt.plot(x, func(x))

=========================================================
Output:

[]

def gradient(x):
    return 20*x + 37

import random

steps = []

x_optimal = random.choice(x)

x_optimal

=========================================================
Output：

2.6530612244897966

下面要做的就是不断更新x的值，其中 alpha 是学习率
$(-1)*\frac{\partial{y}}{\partial{x}}*\alpha$

alpha = 1e-4

for i in range(200):
    x_optimal = x_optimal + (-1) * gradient(x_optimal) * alpha
    steps.append(x_optimal)

for s in steps:
    print(s, func(s))

=========================================================
Output:

2.5630000000000006 169.52069000000006
2.4747400000000006 161.80876067600005
2.3882452000000005 154.40222375323043
2.3034802960000005 147.28898569260252
2.2204106900800005 140.45743185917547
2.1390024762784003 133.8964075575521
2.0592224267528323 127.59519981827302
1.9810379782177756 121.54351990546942
1.90441721865342 115.73148651721283
...
-1.8499998932529995 -25.224999999999888
-1.8499998934664936 -25.224999999999888
-1.8499998936795607 -25.224999999999895
-1.8499998938922015 -25.22499999999988

结果稳定在x=-1.85左右

聚类 Cluster Problem

聚类是一种非监督学习

一个实际的问题：

淘宝国际上经常有境外人员从国外销售违禁违法物品，国家要求这些东西全部下架，但是这些人员会更换物品的名字。

例如：
枪支 - 狗子
赌博账号 - 米料
毒品 - 野狼

这些我们称为“暗语”，但是我们只知道10 – 30个暗语，所以找到的内容非常有限。

K-Means聚类的思路是像下面这样的

方法论：非常重要的两个经验

算法工程师最重要的不是记住了多少算法，而是能把实际问题抽象成算法问题，然后得到答案的能力
机器学习方法很多时候是作为整个项目的一部分，单靠机器学习很难解决完整项目

向量a和向量b的偏好preference是更相近的

K-means Finding Center

import math

coordination_source = """
{name:'兰州', geoCoord:[103.73, 36.03]},
{name:'嘉峪关', geoCoord:[98.17, 39.47]},
{name:'西宁', geoCoord:[101.74, 36.56]},
{name:'成都', geoCoord:[104.06, 30.67]},
{name:'石家庄', geoCoord:[114.48, 38.03]},
{name:'拉萨', geoCoord:[102.73, 25.04]},
{name:'贵阳', geoCoord:[106.71, 26.57]},
{name:'武汉', geoCoord:[114.31, 30.52]},
{name:'郑州', geoCoord:[113.65, 34.76]},
{name:'济南', geoCoord:[117, 36.65]},
{name:'南京', geoCoord:[118.78, 32.04]},
{name:'合肥', geoCoord:[117.27, 31.86]},
{name:'杭州', geoCoord:[120.19, 30.26]},
{name:'南昌', geoCoord:[115.89, 28.68]},
{name:'福州', geoCoord:[119.3, 26.08]},
{name:'广州', geoCoord:[113.23, 23.16]},
{name:'长沙', geoCoord:[113, 28.21]},
{name:'海口', geoCoord:[110.35, 20.02]},
{name:'沈阳', geoCoord:[123.38, 41.8]},
{name:'长春', geoCoord:[125.35, 43.88]},
{name:'哈尔滨', geoCoord:[126.63, 45.75]},
{name:'太原', geoCoord:[112.53, 37.87]},
{name:'西安', geoCoord:[108.95, 34.27]},
{name:'台湾', geoCoord:[121.30, 25.03]},
{name:'北京', geoCoord:[116.46, 39.92]},
{name:'上海', geoCoord:[121.48, 31.22]},
{name:'重庆', geoCoord:[106.54, 29.59]},
{name:'天津', geoCoord:[117.2, 39.13]},
{name:'呼和浩特', geoCoord:[111.65, 40.82]},
{name:'南宁', geoCoord:[108.33, 22.84]},
{name:'西藏', geoCoord:[91.11, 29.97]},
{name:'银川', geoCoord:[106.27, 38.47]},
{name:'乌鲁木齐', geoCoord:[87.68, 43.77]},
{name:'香港', geoCoord:[114.17, 22.28]},
{name:'澳门', geoCoord:[113.54, 22.19]}
"""

首先通过提取出得到各城市的坐标

import re

pattern = re.compile(r"name:'(\w+)',\s+geoCoord:\[(\d+.\d+),\s(\d+.\d+)\]")

city_location = {}

for line in coordination_source.split('\n'):
    city_info = pattern.findall(line)

    if not city_info: continue

    city_name, long, lat = city_info[0]

    long, lat = float(long), float(lat)

    city_location[city_name] = [long, lat]

city_location

=========================================================
Output:

{'兰州': [103.73, 36.03],
 '嘉峪关': [98.17, 39.47],
 '西宁': [101.74, 36.56],
 '成都': [104.06, 30.67],
 '石家庄': [114.48, 38.03],
 
...
 '西藏': [91.11, 29.97],
 '银川': [106.27, 38.47],
 '乌鲁木齐': [87.68, 43.77],
 '香港': [114.17, 22.28],
 '澳门': [113.54, 22.19]}

有了各城市的坐标，我们可以通过球面地理距离计算得到两地距离

def geo_distance(origin, destination):
    """
    Calculate the Haversine distance.

    Parameters
    ----------
    origin : tuple of float
        (lat, long)
    destination : tuple of float
        (lat, long)

    Returns
    -------
    distance_in_km : float

    Examples
    --------
    >>> origin = (48.1372, 11.5756)  # Munich
    >>> destination = (52.5186, 13.4083)  # Berlin
    >>> round(distance(origin, destination), 1)
    504.2
    """
    lon1, lat1 = origin
    lon2, lat2 = destination
    radius = 6371  # km

    dlat = math.radians(lat2 - lat1)
    dlon = math.radians(lon2 - lon1)
    a = (math.sin(dlat / 2) * math.sin(dlat / 2) +
         math.cos(math.radians(lat1)) * math.cos(math.radians(lat2)) *
         math.sin(dlon / 2) * math.sin(dlon / 2))
    c = 2 * math.atan2(math.sqrt(a), math.sqrt(1 - a))
    d = radius * c

    return d

geo_distance(city_location['上海'], city_location['杭州'])

=========================================================
Output:

163.0760821403945

下面我们把各省会的地理位置画出来看看

from pylab import mpl

mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题

import matplotlib.pyplot as plt
%matplotlib inline

import networkx as nx

city_graph = nx.Graph()
city_graph.add_nodes_from(list(city_location.keys()))
nx.draw(city_graph, city_location, with_labels=True, node_size=30)

下面我们来找到合理的能源中心

首先，我们需要初始化5个随机位置

import random

all_x = []
all_y = []

for _, location in city_location.items():
    x, y = location
    
    all_x.append(x)
    all_y.append(y)

def get_random_center(all_x, all_y):
    r_x = random.uniform(min(all_x), max(all_x))
    r_y = random.uniform(min(all_y), max(all_y))
    
    return r_x, r_y

K = 5
centers = {'{}'.format(i+1): get_random_center(all_x, all_y) for i in range(K)}

centers

=========================================================
Output:

{'1': (104.34863684999705, 42.66669683611392),
 '2': (105.02489029295833, 24.957143321255987),
 '3': (89.2924475965155, 33.698874993456734),
 '4': (120.592499526194, 42.26908667672668),
 '5': (123.67108212169859, 29.10021861496785)}

下面进入K-means的核心部分

from collections import defaultdict

changed = True  # 中心点有无更新

threshold = 5  # 更新阈值

while changed:
    closest_points = defaultdict(list)
	# 以center为索引记录所有节点，表示节点距离哪个center最近
    for x, y in zip(all_x, all_y):
        closest_c, closest_dis = min([(k, geo_distance((x,y), centers[k])) for k in centers], key=lambda t:t[1])
        # print('for {}, {} the closest center is {}'.format(x, y, closest_c))
        closest_points[closest_c].append([x,y])

    changed = False
	# 对每个center找其neighber节点，根据是否大于阈值判断是否更新
    for c in closest_points:
        former_center = centers[c]

        neighbors_belong_to_c = closest_points[c]

        neighbors_center = np.mean(neighbors_belong_to_c, axis=0)

        if geo_distance(neighbors_center, former_center) > threshold:
            print('Updated: {} center'.format(c))
            centers[c] = neighbors_center # 赋值新的中心点
            changed = True

=========================================================
Output:

Updated: 1 center
Updated: 2 center
Updated: 4 center
Updated: 5 center
Updated: 3 center
Updated: 1 center
Updated: 4 center
Updated: 2 center

closest_points

=========================================================
Output:

defaultdict(list,
            {'1': [[103.73, 36.03],
              [98.17, 39.47],
              [101.74, 36.56],
              [104.06, 30.67],
              [108.95, 34.27],
              [106.27, 38.47]],
             '4': [[114.48, 38.03],
              [113.65, 34.76],
              [117.0, 36.65],
              [123.38, 41.8],
              [125.35, 43.88],
              [126.63, 45.75],
              [112.53, 37.87],
              [116.46, 39.92],
              [117.2, 39.13],
              [111.65, 40.82]],
             '2': [[102.73, 25.04],
              [106.71, 26.57],
              [113.23, 23.16],
              [113.0, 28.21],
              [110.35, 20.02],
              [106.54, 29.59],
              [108.33, 22.84],
              [114.17, 22.28],
              [113.54, 22.19]],
             '5': [[114.31, 30.52],
              [118.78, 32.04],
              [117.27, 31.86],
              [120.19, 30.26],
              [115.89, 28.68],
              [119.3, 26.08],
              [121.3, 25.03],
              [121.48, 31.22]],
             '3': [[91.11, 29.97], [87.68, 43.77]]})

centers

=========================================================
Output:

{'1': array([103.82      ,  35.91166667]),
 '2': array([109.84444444,  24.43333333]),
 '3': array([89.395, 36.87 ]),
 '4': array([117.833,  39.861]),
 '5': array([118.565  ,  29.46125])}

下面我们把这几个点可视化表现出来

plt.scatter(all_x, all_y)
plt.scatter([x for x,y in centers.values()], [y for x,y in centers.values()])
### 高级Python编程技巧：下面两句话与上面等价
### *可以理解为拆开，zip用于把x和y组合成坐标
# plt.scatter(*[all_x, all_y])
# plt.scatter(*zip(*centers.values()))

最后我们把结果放到地图上

city_location_with_station = {
    '能源站-{}'.format(i): position for i, position in centers.items()
}

city_location_with_station

=========================================================
Output:

{'能源站-1': array([103.82      ,  35.91166667]),
 '能源站-2': array([109.84444444,  24.43333333]),
 '能源站-3': array([89.395, 36.87 ]),
 '能源站-4': array([117.833,  39.861]),
 '能源站-5': array([118.565  ,  29.46125])}

def draw_cities(cities, color=None):
    city_graph = nx.Graph()
    city_graph.add_nodes_from(list(cities.keys()))
    nx.draw(city_graph, citise, node_color=color, with_labels=True, node_size=30)

plt.figure(1,figsize=(10,10)) 
draw_cities(city_location_with_station, color='green')
draw_cities(city_location, color='red')

我们保留一下初始随机的5个点就可以发现明显实现了聚类的效果

draw_cities({'初始点-{}'.format(int(i)+1):p for i,p in the_first_center.items()}, color='yellow')

最后我们用sklearning的聚类结果跟我们的结果比对一下

from sklearn.cluster import KMeans

Xs = np.array(list(city_location.values()))
kmeans = KMeans(n_clusters=5, random_state=0).fit(Xs)

draw_cities({'sk-求解点-{}'.format(int(i)+1):p for i,p in enumerate(kmeans.cluster_centers_)}, color='cyan')

sklearning的算法进行过一些优化，与我们结果有少许出入，但大体还是一致的。

KMeans文本聚类

1 数据集信息

## 澳大利亚广播公司 ABC 发布的新闻头条数据

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction import text
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from nltk.tokenize import RegexpTokenizer
from nltk.stem.snowball import SnowballStemmer
%matplotlib inline

字段过多的行（例如，带有太多逗号的csv行）会引发异常。如果为False，则将这些“坏行”从返回的DataFrame中删除

# 读取数据集
data = pd.read_csv("../abcnews-date-text/abcnews-date-text.csv",error_bad_lines=False,usecols =["headline_text"])
data.head()
data = data.head(10000)  # 获取部分数据快速运行，你可以尝试修改使用的数据量查看后续的建模效果，不过注意使用的数据越多后续模型训练的时间越长

# 打印数据信息
# DataFrame的简短摘要
data.info()

=========================================================
Output:


RangeIndex: 10000 entries, 0 to 9999
Data columns (total 1 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   headline_text  10000 non-null  object
dtypes: object(1)
memory usage: 78.2+ KB

1.1 删除重复数据

查看重复的数据行，pandas.DataFrame.duplicated 使用方法详见：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html

duplicate 用法：用True或False标记是否是重复行

keep 参数：

1.=‘first’，第一次出现为False其他为True；

2.=‘last’，最后一次出现为False其他为True；

3.=False，所有重复项均为False

data[data['headline_text'].duplicated(keep=False)].sort_values('headline_text').head(8)

# 删除重复行，pandas.DataFrame.drop_duplicates 使用方法详见：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html
########## 第一题 ～ 1行 ##########
######### your code #########
data = data.drop_duplicates('headline_text')

2. 数据预处理

2.1 为向量化表示进行前处理

进行自然语言处理时，必须将单词转换为机器学习算法可以利用的向量。如果目标是对文本数据进行机器学习建模，例如电影评论或推文或其他任何内容，则需要将文本数据转换为数字。此过程称为“嵌入”或“向量化”。

进行向量化时，请务必记住，它不仅仅是将单个单词变成单个数字。单词可以转换为数字，整个文档就可以转换为向量。向量的维度往往不止一个，而且对于文本数据，向量通常是高维的。这是因为特征数据的每个维度将对应一个单词，而我们所处理的文档通常包含数千个单词。

2.2 TF-IDF

在信息检索中，tf–idf 或 TFIDF（term frequency–inverse document frequency）是一种数值统计，旨在反映单词对语料库中文档的重要性。在信息检索，文本挖掘和用户建模的搜索中，它通常用作加权因子。 tf-idf 值与单词在文档中出现的次数成正比，同时被单词在语料库中的出现频率所抵消，这有助于调整某些单词通常会更频繁出现的事实。如今，tf-idf是最流行的术语加权方案之一。在数字图书馆领域，有83％的基于文本的推荐系统使用tf-idf。

搜索引擎经常使用tf–idf加权方案的变体作为在给定用户查询时对文档相关性进行评分和排名的主要工具。tf–idf可成功用于各种领域的停用词过滤，包括文本摘要和分类。

排名函数中最简单的是通过将每个查询词的tf–idf相加得出，许多更复杂的排名函数是此简单模型的变体

> TF-IDF（Term Frequency-inverse Document Frequency）是一种针对关键词的统计分析方法，用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比，跟它在语料库出现的次数成反比。

> 一个词在语料库中的 TF-IDF = TF * IDF

>> TF = 词频 / 当前文档中所有词的数量

IDF = log{ 所有文档的总数 / （包含该词有多少个文档数量+1）}

举个例子：数据集中一共有三个文档：【我可太喜欢姚明了】，【谁的老婆是叶莉啊】，【叶莉有一个女儿和一个儿子】

【我可太喜欢姚明了】中的 “姚明” TF-IDF = (1/5) * log( 3/(1+1) )

punc = ['.', ',', '"', "'", '?', '!', ':', ';', '(', ')', '[', ']', '{', '}',"%"]
# 取并集，去除停用词（词频高但无意义）可以减少计算量
stop_words = text.ENGLISH_STOP_WORDS.union(punc)
desc = data['headline_text'].values
############ 第二题 ～ 1行 ############
############ your code start ############
# TfidfVectorizer 使用方法详见：http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
vectorizer = TfidfVectorizer(stop_words=stop_words) # 实例化
############ your code end ############
X = vectorizer.fit_transform(desc) # 拟合并向量化文本数据

word_features = vectorizer.get_feature_names() # 拿出特征（Tf-idf靠前的多少个词），每个词就是一个特征
print(len(word_features))
print(word_features[5000:5100])

=========================================================
Output:

9820
['later', 'latest', 'latham', 'latif', 'latrobe', 'laughing', 'launceston', 'launch', 'launched', 'launches', 'laundering', 'laureates', 'laureus', 'lavender', 'laverton', 'law', 'lawful', 'lawnmowers', 'laws', 'lawyer', 'lawyers', 'lax', 'lay', 'lazaridis', 'lazio', 'lazios', 'lead', 'leader', 'leaderboard', 'leaders', 'leadership', 'leading', 'leads', 'league', 'leagues', 'leak', 'leaks', 'leaney', 'leap', 'learn', 'learner', 'learning', 'learns', 'lease', 'leases', 'leave', 'leaves', 'leaving', 'lebouc', 'lecturer', 'led', 'lee', 'leeds', 'lees', 'left', 'leg', 'legal', 'legality', 'legend', 'legionella', 'legislation', 'legislative', 'legitimacy', 'lehmann', 'leicester', 'leisel', 'leisure', 'lemon', 'lend', 'length', 'leniency', 'lennox', 'lens', 'lent', 'lenton', 'leonard', 'leone', 'leopards', 'lesbian', 'lessen', 'lester', 'let', 'lethal', 'letter', 'letters', 'letting', 'levee', 'level', 'levels', 'leven', 'leverkusen', 'levy', 'lewdness', 'lewis', 'lewiss', 'lga', 'liability', 'liable', 'liaison', 'lib']

2.3 Stemming

stemming 是将单词还原为词干（即词根形式）的过程。词根形式不一定是单词本身，而是可以通过连接正确的后缀来生成单词。例如，“fish”，“fishes”和“fishing”这几个词的词干都是“fish”，这是一个正确的单词。另一方面，“study”，“studies”和“studying”一词源于“studi”，这不是一个正确的英语单词。

对英文单词才需要用Stemming来还原词干

2.4 Tokenizing

Tokenization 将句子分解为单词和标点符号

中文对应的分词工具典型的有jieba，用法如下

# jieba分词
import jieba
chinese = '南京市长江大桥'
chi = =jieba.cut(chinese)
li = [i for i in chi] # 列表推导式：变量 = 【变量或变量的处理结果 for i in 容器类型数据】
li

=========================================================
Output:

['南京市', '长江大桥']

stemmer = SnowballStemmer('english')  # SnowballStemmer 使用方法详见： https://www.kite.com/python/docs/nltk.SnowballStemmer
tokenizer = RegexpTokenizer(r'[a-zA-Z\']+')  #  RegexpTokenizer 使用方法详见： https://www.kite.com/python/docs/nltk.RegexpTokenizer

def tokenize(text):
    """先进行 stemming 然后 tokenize
    params:
    text: 一个句子
    
    return:
    tokens 列表
    """
    ############ 第三题 ～ 1行 （使用列表推导） ############ 
    ############ your code start ############
    return [stemmer.stem(word) for word in tokenizer.tokenize(text.lower())]
    ############ your code end ############

2.5 使用停用词、stemming 和自定义的 tokenizing 进行 TFIDF 向量化

vectorizer2 = TfidfVectorizer(stop_words = stop_words, tokenizer = tokenize)
X2 = vectorizer2.fit_transform(desc)
word_features2 = vectorizer2.get_feature_names()
print(len(word_features2))
print(word_features2[:50])

=========================================================
Output:

6909
['aa', 'aac', 'ab', 'aba', 'abalon', 'abandon', 'abar', 'abattoir', 'abbott', 'abc', 'abdic', 'abduct', 'abid', 'abigroup', 'abil', 'abl', 'ablaz', 'aboard', 'abolit', 'aborigin', 'abort', 'abov', 'abreast', 'abroad', 'absenc', 'absent', 'abu', 'abund', 'abus', 'abysm', 'ac', 'aca', 'academ', 'academi', 'acapulco', 'acb', 'accc', 'accent', 'accept', 'access', 'accid', 'accident', 'accommod', 'account', 'accredit', 'accus', 'ace', 'aceh', 'achiev', 'acid']

vectorizer3 = TfidfVectorizer(stop_words = stop_words, tokenizer = tokenize, max_features = 1000)
X3 = vectorizer3.fit_transform(desc)
words = vectorizer3.get_feature_names()
print(len(words))
print(words[:50])

=========================================================
Output:

1000
['abattoir', 'aborigin', 'abus', 'accc', 'accept', 'access', 'accid', 'accus', 'act', 'action', 'ad', 'address', 'adelaid', 'adf', 'admit', 'advanc', 'affect', 'afl', 'africa', 'age', 'agre', 'agreement', 'ahead', 'aid', 'aim', 'air', 'airlin', 'airport', 'ajax', 'al', 'alert', 'alic', 'aliv', 'alleg', 'allow', 'alp', 'ama', 'ambassador', 'ambul', 'american', 'amid', 'amp', 'announc', 'anoth', 'answer', 'anti', 'apologis', 'appeal', 'appoint', 'approv']

3 K-Means聚类

3.1 使用手肘法选择聚类簇的数量

随着聚类数k的增大，样本划分会更加的精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小，并且当k小于真实的簇类数时，由于k的增大会大幅增加每个簇的聚合程度，因此SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系类似于手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。因此这种方法被称为手肘法。

$SSE=\sum_{i=1}^k\sum_{p\in C_i}|p-m_i|^2$
SSE是聚类平方和，是所有样本的聚类误差，代表着聚类效果的好坏

Ci是第i个簇

p是Ci中的样本点

mi是ci的质心（Ci中所有样本的均值）

from sklearn.cluster import KMeans  # 使用方法详见： http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
wcss = []
for i in range(1,11):
    ############ 第四题 ～ 1行 （初始化 KMeans） ############ 
    ############ your code start ############     
    kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init=10, random_state=0)
    ############ your code end ############
    kmeans.fit(X3)
    wcss.append(kmeans.inertia_)
plt.plot(range(1,11),wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.ylabel('WCSS')
plt.savefig('elbow.png')
plt.show()

=========================================================
Output:

由于可能产生多个肘点，所以有时候不得不通过反复试验来选择合适数量的簇。下面展示不同数量簇的结果，以找出合适数量的簇。

如上图中的肘点就有3、5、6、8

3.2 Cluster等于3

kmeans = KMeans(n_clusters = 3, n_init = 20, n_jobs = 1) # n_init(number of iterations for clsutering) n_jobs(number of cpu cores to use)
kmeans.fit(X3)
# We look at 3 the clusters generated by k-means.
# argsort 使用方法详见： https://numpy.org/doc/stable/reference/generated/numpy.argsort.html
common_words = kmeans.cluster_centers_.argsort()[:,-1:-26:-1]
for num, centroid in enumerate(common_words):
    print(str(num) + ' : ' + ', '.join(words[word] for word in centroid))

3.3 Cluster等于5

############ 第五题 ############ 
# 重复上面的做法，仅改变聚类簇的数量 (尝试将上述过程封装成一个函数，减少代码的重读性，方便传参调用)
kmeans = KMeans(n_clusters = 5, n_init = 20, n_jobs = 1) # n_init(number of iterations for clsutering) n_jobs(number of cpu cores to use)
kmeans.fit(X3)
# We look at 3 the clusters generated by k-means.
# argsort 使用方法详见： https://numpy.org/doc/stable/reference/generated/numpy.argsort.html
common_words = kmeans.cluster_centers_.argsort()[:,-1:-26:-1]
for num, centroid in enumerate(common_words):
    print(str(num) + ' : ' + ', '.join(words[word] for word in centroid))

3.4 Cluster等于6

# 同上
kmeans = KMeans(n_clusters = 6, n_init = 20, n_jobs = 1) # n_init(number of iterations for clsutering) n_jobs(number of cpu cores to use)
kmeans.fit(X3)
# We look at 3 the clusters generated by k-means.
# argsort 使用方法详见： https://numpy.org/doc/stable/reference/generated/numpy.argsort.html
common_words = kmeans.cluster_centers_.argsort()[:,-1:-26:-1]
for num, centroid in enumerate(common_words):
    print(str(num) + ' : ' + ', '.join(words[word] for word in centroid))

3.5 Cluster等于8

# 同上
kmeans = KMeans(n_clusters = 8, n_init = 20, n_jobs = 1) # n_init(number of iterations for clsutering) n_jobs(number of cpu cores to use)
kmeans.fit(X3)
# We look at 3 the clusters generated by k-means.
# argsort 使用方法详见： https://numpy.org/doc/stable/reference/generated/numpy.argsort.html
common_words = kmeans.cluster_centers_.argsort()[:,-1:-26:-1]
for num, centroid in enumerate(common_words):
    print(str(num) + ' : ' + ', '.join(words[word] for word in centroid))

ns.cluster_centers_.argsort()[:,-1:-26:-1]
for num, centroid in enumerate(common_words):
print(str(num) + ’ : ’ + ', '.join(words[word] for word in centroid))


##### 3.4 Cluster等于6

```python
# 同上
kmeans = KMeans(n_clusters = 6, n_init = 20, n_jobs = 1) # n_init(number of iterations for clsutering) n_jobs(number of cpu cores to use)
kmeans.fit(X3)
# We look at 3 the clusters generated by k-means.
# argsort 使用方法详见： https://numpy.org/doc/stable/reference/generated/numpy.argsort.html
common_words = kmeans.cluster_centers_.argsort()[:,-1:-26:-1]
for num, centroid in enumerate(common_words):
    print(str(num) + ' : ' + ', '.join(words[word] for word in centroid))

3.5 Cluster等于8

# 同上
kmeans = KMeans(n_clusters = 8, n_init = 20, n_jobs = 1) # n_init(number of iterations for clsutering) n_jobs(number of cpu cores to use)
kmeans.fit(X3)
# We look at 3 the clusters generated by k-means.
# argsort 使用方法详见： https://numpy.org/doc/stable/reference/generated/numpy.argsort.html
common_words = kmeans.cluster_centers_.argsort()[:,-1:-26:-1]
for num, centroid in enumerate(common_words):
    print(str(num) + ' : ' + ', '.join(words[word] for word in centroid))

你可能感兴趣的:(AI核心能力,人工智能,机器学习,python,tf-idf,聚类,动态规划)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
蘩漪：新女性？利己主义者赮_红雨
蘩漪是曹禺《雷雨》笔下的女性形象。对于她的喜爱，曹禺在之前的访谈中，就已经表达得很清楚了，蘩漪是他所倾心的女子的“代替者”。在这个女性身上有着曹禺最精心的描写，但同时她的身上又存在着一些时代的问题。图片发自App首先，繁漪是追求自由和幸福的新女性形象。她是精神悲剧的核心人物，她对周朴园的反抗，具有典型意义。她是位资产阶级家庭出身的小姐，受过五四新思潮的影响，她任性、傲慢，追求人格独立、个性自由和爱
《中华小厨师》单行VS爱藏：姜是老的辣，书是新的好 cicoky
《汉书·郦食其传》有曰：“王者以民为天，而民以食为天。”自古以来，吃饱饭是每一个人的基本要求，而吃好饭却是每一个人的最终追求。于是，厨师这一职业孕育而生，其渊源之久，甚至可追溯到4000年前的奴隶时代。职业本身无贵贱，但职业能力却有高低之分。所以一家餐馆生意好不好，厨师的水平决定一切，而站在所有厨师顶端的就被称之为“特级厨师”。今天要说的就是一个关于“特级厨师刘昴星”的故事。连载历程1995年第4
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

【AI核心能力】第2讲 机器学习初探

第2讲 机器学习初探

Optimization——优化问题

A Simple Optimization Example: Cut Rod Problem

From Dynamic Programming to Machine Learning

Decorator——装饰器

动态规划·解决问题——分治（Divide and Conquer）

机器学习 Machine Learning

监督式学习 Supervised Learning

非监督式学习 Unsupervised Learning

Framework 机器学习的通用框架

监督式学习和非监督式学习的区别

梯度下降 Gradient Descent

聚类 Cluster Problem

K-means Finding Center

KMeans文本聚类

1 数据集信息

1.1 删除重复数据

2. 数据预处理

2.2 TF-IDF

2.3 Stemming

2.4 Tokenizing

2.5 使用停用词、stemming 和自定义的 tokenizing 进行 TFIDF 向量化

3 K-Means聚类

3.1 使用手肘法选择聚类簇的数量

3.2 Cluster等于3

3.3 Cluster等于5

3.4 Cluster等于6

3.5 Cluster等于8

3.5 Cluster等于8

你可能感兴趣的:(AI核心能力,人工智能,机器学习,python,tf-idf,聚类,动态规划)

【AI核心能力】第2讲机器学习初探

第2讲机器学习初探