franztao

数据预处理

通过准备和转换对数据集进行预处理，以用于训练。

Intuition

数据预处理可以分为两类过程：准备和转换。将探索常见的预处理技术，然后针对特定应用逐步完成相关过程。

warning

某些预处理步骤global（不依赖于数据集，例如小写文本、删除停用词等）和其他步骤local（结构仅从训练拆分中学习，例如词汇、标准化等）。对于本地的、依赖于数据集的预处理步骤，要确保在预处理之前先拆分数据以避免数据泄漏。

准备中

准备数据涉及组织和清理数据。

加入

与现有数据表执行 SQL 连接，将您需要的所有相关数据组织到一个视图中。这使得使用数据集变得更加容易。

SELECT * FROM A
INNER JOIN B on A.id == B.id

warning

需要小心执行时间点有效连接以避免数据泄漏。例如，如果表 B 可能具有表 A 中的对象的特征，而这些特征在当时需要进行推理时不可用。

缺失值

首先，必须确定具有缺失值的行，一旦确定，有几种方法可以处理它们。

异常值（异常）

关于什么是“正常”预期值的工艺假设

# Ex. Feature value must be within 2 standard deviations
df[np.abs(df.A - df.A.mean()) <= (2 * df.A.std())]

注意不要删除重要的异常值（例如欺诈）
当应用转换（例如幂律）时，值可能不是异常值
异常可以是全局的（点）、上下文的（有条件的）或集体的（个体点不异常，集体是异常值）

特征工程

特征工程涉及以独特的方式组合特征以提取信号。

# Input
df.C = df.A + df.B

tips

特征工程可以与领域专家合作完成，领域专家可以指导设计和使用哪些特征。

cleaning

清理数据涉及应用约束，使模型更容易从数据中提取信号。

使用领域专业知识和 EDA
通过过滤器应用约束
确保数据类型一致性
删除具有特定列值或空列值的数据点

图像（裁剪、调整大小、剪辑等）

# Resize
import cv2
dims = (height, width)
resized_img = cv2.resize(src=img, dsize=dims, interpolation=cv2.INTER_LINEAR)

文本（下部、词干、词形还原、正则表达式等）
```
# Lower case the text
text = text.lower()
```

转换

转换数据涉及特征编码和工程。

缩放

输入规模影响过程的模型需要
从训练拆分中学习构造并应用于其他拆分（本地）
不要盲目地缩放特征（例如分类特征）

标准化：将值重新调整为均值为 0，标准为 1

# Standardization
import numpy as np
x = np.random.random(4) # values between 0 and 1
print ("x:\n", x)
print (f"mean: {np.mean(x):.2f}, std: {np.std(x):.2f}")
x_standardized = (x - np.mean(x)) / np.std(x)
print ("x_standardized:\n", x_standardized)
print (f"mean: {np.mean(x_standardized):.2f}, std: {np.std(x_standardized):.2f}")

x: [0.36769939 0.82302265 0.9891467 0.56200803] mean: 0.69, std: 0.24 x_standardized: [-1.33285946 0.57695671 1.27375049 -0.51784775] mean: 0.00, std: 1.00

min-max：在最小值和最大值之间重新调整值

# Min-max
import numpy as np
x = np.random.random(4) # values between 0 and 1
print ("x:", x)
print (f"min: {x.min():.2f}, max: {x.max():.2f}")
x_scaled = (x - x.min()) / (x.max() - x.min())
print ("x_scaled:", x_scaled)
print (f"min: {x_scaled.min():.2f}, max: {x_scaled.max():.2f}")

x: [0.20195674 0.99108855 0.73005081 0.02540603] min: 0.03, max: 0.99 x_scaled: [0.18282479 1. 0.72968575 0. ] min: 0.00, max: 1.00

分箱：使用分箱将连续特征转换为分类特征

# Binning
import numpy as np
x = np.random.random(4) # values between 0 and 1
print ("x:", x)
bins = np.linspace(0, 1, 5) # bins between 0 and 1
print ("bins:", bins)
binned = np.digitize(x, bins)
print ("binned:", binned)

x: [0.54906364 0.1051404 0.2737904 0.2926313 ] bins: [0. 0.25 0.5 0.75 1. ] binned: [3 1 2 2]

还有更多！

编码

允许有效地表示数据（保持信号）和有效地（学习模式，例如 one-hot 与嵌入）

label：分类值的唯一索引

# Label encoding
label_encoder.class_to_index = {
"attention": 0,
"autoencoders": 1,
"convolutional-neural-networks": 2,
"data-augmentation": 3,
... }
label_encoder.transform(["attention", "data-augmentation"])

array([2, 2, 1])

one-hot：表示为二进制向量

# One-hot encoding
one_hot_encoder.transform(["attention", "data-augmentation"])

array([1, 0, 0, 1, 0, ..., 0])

嵌入：能够表示上下文的密集表示

# Embeddings
self.embeddings = nn.Embedding(
    embedding_dim=embedding_dim, num_embeddings=vocab_size)
x_in = self.embeddings(x_in)
print (x_in.shape)

(len(X), embedding_dim)

还有更多！

Extraction

从现有特征中提取信号
结合现有功能
迁移学习：使用预训练模型作为特征提取器并对其结果进行微调
自动编码器：学习编码压缩知识表示的输入

主成分分析（PCA）：在较低维空间中对项目数据进行线性降维。

# PCA
import numpy as np
from sklearn.decomposition import PCA
X = np.array([[-1, -1, 3], [-2, -1, 2], [-3, -2, 1]])
pca = PCA(n_components=2)
pca.fit(X)
print (pca.transform(X))
print (pca.explained_variance_ratio_)
print (pca.singular_values_)

[[-1.44245791 -0.1744313] [-0.1148688 0.31291575] [ 1.55732672 -0.13848446]] [0.96838847 0.03161153] [2.12582835 0.38408396]

counts (ngram)：文本的稀疏表示作为标记计数矩阵——如果特征值有很多有意义的、可分离的信号，则很有用。

# Counts (ngram)
from sklearn.feature_extraction.text import CountVectorizer
y = [
    "acetyl acetone",
    "acetyl chloride",
    "chloride hydroxide",
]
vectorizer = CountVectorizer()
y = vectorizer.fit_transform(y)
print (vectorizer.get_feature_names())
print (y.toarray())
#  Repeat above with char-level ngram vectorizer
# vectorizer = CountVectorizer(analyzer='char', ngram_range=(1, 3)) # uni, bi and trigrams

['acetone', 'acetyl', 'chloride', 'hydroxide'] [[1 1 0 0] [0 1 1 0] [0 0 1 1]]

similarity：类似于计数向量化，但基于标记的相似性
还有更多！

随着时间的推移，通常会检索实体（用户、项目等）的特征值，并在不同项目中重用相同的特征。为确保检索到正确的特征值并避免重复工作，可以使用特征存储。

维度的诅咒

如果一个特征有很多唯一值但每个唯一值都有足够的数据点（例如 URL 作为特征），该怎么办？

显示答案

可以使用散列或使用它的属性而不是确切的实体本身来对数据进行编码。例如，通过用户的位置和收藏夹来表示用户而不是使用他们的用户 ID，或者使用其域而不是确切的 url 来表示网页。这种方法有效地减少了独特特征值的总数并增加了每个特征值的数据点数量。

应用

对于应用程序，将实施一些与数据集相关的预处理步骤。

特征工程

可以结合现有的输入特征来创建新的有意义的信号（帮助模型学习）。但是，如果不对不同的组合进行经验性试验，通常没有简单的方法可以知道某些特征组合是否有帮助。在这里，可以将项目的标题和描述分别用作特征，但会将它们组合起来创建一个输入特征。

# Input
df["text"] = df.title + " " + df.description

clean

由于正在处理文本数据，因此可以应用一些常见的文本预处理步骤：

!pip install nltk==3.7 -q

import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re

nltk.download("stopwords")
STOPWORDS = stopwords.words("english")
stemmer = PorterStemmer()

def clean_text(text, lower=True, stem=False, stopwords=STOPWORDS):
    """Clean raw text."""
    # Lower
    if lower:
        text = text.lower()

    # Remove stopwords
    if len(stopwords):
        pattern = re.compile(r'\b(' + r"|".join(stopwords) + r")\b\s*")
        text = pattern.sub('', text)

    # Spacing and filters
    text = re.sub(
        r"([!\"'#$%&()*\+,-./:;<=>?@\\\[\]^_`{|}~])", r" \1 ", text
    )  # add spacing between objects to be filtered
    text = re.sub("[^A-Za-z0-9]+", " ", text)  # remove non alphanumeric chars
    text = re.sub(" +", " ", text)  # remove multiple spaces
    text = text.strip()  # strip white space at the ends

    # Remove links
    text = re.sub(r"http\S+", "", text)

    # Stemming
    if stem:
        text = " ".join([stemmer.stem(word, to_lowercase=lower) for word in text.split(" ")])

    return text

# Apply to dataframe
original_df = df.copy()
df.text = df.text.apply(clean_text, lower=True, stem=False)
print (f"{original_df.text.values[0]}\n{df.text.values[0]}")

YOLO 和 RCNN 在真实世界视频上的比较将理论带入实验很酷。可以轻松地在 Colab 中训练模型，并在几分钟内找到结果。比较 yolo rcnn 真实世界视频带来理论实验很酷很容易训练模型 colab 找到结果分钟

warning

将希望在它们变得更频繁时引入频率较低的特征，或者以巧妙的方式对它们进行编码（例如分箱、提取一般属性、常见的 n-gram、使用其他特征值进行平均编码等），以便可以减轻特征值维度问题，直到能够收集更多数据。

更换标签

根据EDA的发现，将应用几个约束来标记数据：

如果数据点有目前不支持的标签，将用 other
如果某个标签没有 足够的样本，会将其替换为 other

import json
# Accepted tags (external constraint)
ACCEPTED_TAGS = ["natural-language-processing", "computer-vision", "mlops", "graph-learning"]# Out of scope (OOS) tags
oos_tags = [item for item in df.tag.unique() if item not in ACCEPTED_TAGS]
oos_tags

# Samples with OOS tags
oos_indices = df[df.tag.isin(oos_tags)].index
df[df.tag.isin(oos_tags)].head()

	ID	创建于	标题	描述	标签
3个	15	2020-02-28 23:55:26	很棒的蒙特卡洛树搜索	蒙特卡洛树搜索论文的精选列表......	强化学习
37	121	2020-03-24 04:56:38	TensorFlow2 中的深度强化学习	deep-rl-tf2 是一个实现...	强化学习
67	218	2020-04-06 11:29:57	使用 TensorFlow2 的分布式强化学习	各种分布式资源的实现...	强化学习
74	239	2020-04-06 18:39:48	Prophet：大规模预测	为...生成高质量预测的工具	时间序列
95	277	2020-04-07 00:30:33	强化学习课程	课程学习应用于强化学习...	强化学习

# Replace this tag with "other"
df.tag = df.tag.apply(lambda x: "other" if x in oos_tags else x)
df.iloc[oos_indices].head()

	ID	创建于	标题	描述	标签
3个	15	2020-02-28 23:55:26	很棒的蒙特卡洛树搜索	蒙特卡洛树搜索论文的精选列表......	其他
37	121	2020-03-24 04:56:38	TensorFlow2 中的深度强化学习	deep-rl-tf2 是一个实现...	其他
67	218	2020-04-06 11:29:57	使用 TensorFlow2 的分布式强化学习	各种分布式资源的实现...	其他
74	239	2020-04-06 18:39:48	Prophet：大规模预测	为...生成高质量预测的工具	其他
95	277	2020-04-07 00:30:33	强化学习课程	课程学习应用于强化学习...	其他

还将限制映射到仅高于特定频率阈值的标签。没有足够项目的标签将没有足够的样本来建模它们的关系。

# Minimum frequency required for a tag
min_freq = 75
tags = Counter(df.tag.values)

# Tags that just made / missed the cut
@widgets.interact(min_freq=(0, tags.most_common()[0][1]))
def separate_tags_by_freq(min_freq=min_freq):
    tags_above_freq = Counter(tag for tag in tags.elements()
                                    if tags[tag] >= min_freq)
    tags_below_freq = Counter(tag for tag in tags.elements()
                                    if tags[tag] < min_freq)
    print ("Most popular tags:\n", tags_above_freq.most_common(3))
    print ("\nTags that just made the cut:\n", tags_above_freq.most_common()[-3:])
    print ("\nTags that just missed the cut:\n", tags_below_freq.most_common(3))
)))

Most popular tags: [('natural-language-processing', 388), ('computer-vision', 356), ('other', 87)] Tags that just made the cut: [('computer-vision', 356), ('other', 87), ('mlops', 79)] Tags that just missed the cut: [('graph-learning', 45)]

def filter(tag, include=[]):
    """Determine if a given tag is to be included."""
    if tag not in include:
        tag = None
    return tag

# Filter tags that have fewer than  occurrences
tags_above_freq = Counter(tag for tag in tags.elements()
                          if (tags[tag] >= min_freq))
df.tag = df.tag.apply(filter, include=list(tags_above_freq.keys()))

# Fill None with other
df.tag = df.tag.fillna("other")

编码

将对输出标签进行编码，将为每个标签分配一个唯一索引。

import numpy as np
import random

# Get data
X = df.text.to_numpy()
y = df.tag

将编写自己的基于 scikit-learn实现的 LabelEncoder 。能够为想要创建的对象编写干净的类是一项非常有价值的技能。

class LabelEncoder(object):
    """Encode labels into unique indices"""
    def __init__(self, class_to_index={}):
        self.class_to_index = class_to_index or {}  # mutable defaults ;)
        self.index_to_class = {v: k for k, v in self.class_to_index.items()}
        self.classes = list(self.class_to_index.keys())

    def __len__(self):
        return len(self.class_to_index)

    def __str__(self):
        return f""

    def fit(self, y):
        classes = np.unique(y)
        for i, class_ in enumerate(classes):
            self.class_to_index[class_] = i
        self.index_to_class = {v: k for k, v in self.class_to_index.items()}
        self.classes = list(self.class_to_index.keys())
        return self

    def encode(self, y):
        encoded = np.zeros((len(y)), dtype=int)
        for i, item in enumerate(y):
            encoded[i] = self.class_to_index[item]
        return encoded

    def decode(self, y):
        classes = []
        for i, item in enumerate(y):
            classes.append(self.index_to_class[item])
        return classes

    def save(self, fp):
        with open(fp, "w") as fp:
            contents = {"class_to_index": self.class_to_index}
            json.dump(contents, fp, indent=4, sort_keys=False)

    @classmethod
    def load(cls, fp):
        with open(fp, "r") as fp:
            kwargs = json.load(fp=fp)
        return cls(**kwargs)

如果您不熟悉装饰器，请从Python 课程@classmethod中了解更多信息。

# Encode
label_encoder = LabelEncoder()
label_encoder.fit(y)
num_classes = len(label_encoder)

label_encoder.class_to_index

{'computer-vision': 0, 'mlops': 1, 'natural-language-processing': 2, 'other': 3}

label_encoder.index_to_class

{0: 'computer-vision', 1: 'mlops', 2: 'natural-language-processing', 3: 'other'}

# Encode
label_encoder.encode(["computer-vision", "mlops", "mlops"])

array([0, 1, 1])

# Decode
label_encoder.decode(np.array([0, 1, 1]))

['computer-vision', 'mlops', 'mlops']

要对输入文本特征进行的许多转换都是特定于模型的。例如，对于简单的基线，可以做label encoding→tf-idf而对于更复杂的架构，可以做label encoding→ one-hot encoding→ embeddings。因此，在实施基线时，将在下一组课程中介绍这些内容。

在下一节中，将对预处理后的数据集执行探索性数据分析 (EDA)。但是，步骤的顺序可以颠倒，具体取决于问题的定义程度。如果不确定如何准备数据，可以使用 EDA 来弄清楚，反之亦然。

本文主体源自以下链接：

@article{madewithml,
    author       = {Goku Mohandas},
    title        = { Made With ML },
    howpublished = {\url{https://madewithml.com/}},
    year         = {2022}
}

本文由 mdnice 多平台发布

程序人生——Java中基本类型使用建议 Perley620 #Java面试上岸专栏程序人生 java python
目录引出Java中基本类型使用建议建议21：用偶判断，不用奇判断建议22：用整数类型处理货币建议23：不要让类型默默转换建议24：边界、边界、还是边界建议25：不要让四舍五入亏了一方建议26：提防包装类型的null值建议27：谨慎包装类型的大小比较建议28：优先使用整型池建议29：优先选择基本类型建议30：不要随便设置随机种子深入认识JVMJVM内存分配，类加载创建对象的4种方法总结垃圾回收GCJ
程序人生——Java开发中通用的方法和准则，Java进阶知识汇总 Perley620 #Java面试上岸专栏程序人生 java 职场和发展
目录引出Java开发中通用的方法和准则建议1：不要在常量和变量中出现易混淆的字母建议2：莫让常量蜕变成变量建议3：三元操作符的类型务必一致建议4：避免带有变长参数的方法重载建议5：别让null值和空值威胁到变长方法建议6：覆写变长方法也循规蹈矩建议7：警惕自增的陷阱建议8：不要让旧语法困扰你建议9：少用静态导入建议10：不要在本类中覆盖静态导入的变量和方法建议11：养成良好的习惯，显式声明UID建
程序人生-Hello’s P2P zuo_zy 文档资料
计算机系统大作业题目程序人生-Hello’sP2P专业计算学部学号120L022413班级2003008学生左曾元指导教师吴锐计算机科学与技术学院2022年5月摘要本文分析hello程序从C文件转变为可执行文件的过程,介绍了hello程序在Linux系统下的生命周期。对预处理、编译、汇编、链接的过程进行了分析，并讨论了hello的进程管理、存储管理以及IO管理，介绍了汇编指令、机器代码、重定位、动
程序人生-Hello’s P2P jjzbkn linux
摘要Hello，一个十分简单的程序，可以说是几乎全世界的程序员编写的第一个程序，我们一行一行地对着教程缓慢地输入Hello的几行代码，点击运行，惊喜地看到屏幕中输出的“Hello，World!”，然后就迅速地爱上了其他程序，却又不再回头，哪怕再多观望它一眼。然而，可以这么说，在这个简单的Hello中，囊括一个程序运行的所有过程，蕴含着无数计算机科学家的思想精华。从它的诞生再到它的逝去，它经历了每一
【程序人生】上海，想说爱你不容易蛮三刀酱
1.还记得18年秋天，我研究生第二年，在繁忙的金九银十校招季里，我最常对别人说的一句话就是，尽管上海工作机会多，可我不想去上海工作。“为什么不愿意选择上海呢？”，通常HR会在面试时候反问我。“也没有什么特别的理由，就是感觉，在那里生活压力蛮大的。”我话里也带着些许真诚，和无知。当时的我对上海很熟悉吗？显然不熟。我二十几年的人生中，去上海旅游的次数不是特别多，最重要的是，我根本没有在上海长时间生活过
python中使用BeautifulSoup模块爬取中彩网福彩3D的开奖数据烟雨风渡网络爬虫网络爬虫 BeautifulSoup python 中彩网
在上一篇博客中，介绍了网络爬虫的基本流程，然后以“使用BeautifulSoup爬取盗版小说网站”的例子对上述流程加以实现。最近看到微信公众号“程序人生”中的一篇文章：点击打开网页，在这篇文章中作者爬取了中彩网福彩3D的开奖数据并对其进行了简单分析。打开福彩3D开奖数据所在的网页，谷歌浏览器F12+F5可以看到这个网站的结构很简单，很适合初学者练手，所以写了这篇博客。建议读者自己先尝试实现本篇博客
csapp 大作业 Pht_ywy
计算机系统大作业题目程序人生-Hello’sP2P专业计算机类学号1180100406班级1903006学生袁文宇指导教师史先俊计算机科学与技术学院2021年5月摘要本文重点关注hello.c从c语言程序到可执行目标文件hello的转换过程，及可执行目标文件hello作为进程运行的过程。本文旨在通过了解hello进程的诞生，以及从诞生到执行结束后被回收的全过程，分析理解计算机系统
程序人生-Hello’s P2P -七月份- p2p 程序人生网络协议
计算机系统大作业题目程序人生-Hello’sP2P专业计算机科学与技术学号2021113352班级2103101学生乔宇凡指导教师刘宏伟计算机科学与技术学院2022年5月摘要本文对hello程序的整个生命周期进行了系统的分析，一开始是hello.c源程序，之后运行C预处理器（cpp）将其进行预处理生成hello.i文件，运行C编译器（ccl）将其进行翻译生成汇编语言文件hello.s，然后运行汇编
哈工大程序人生 m0_63437715 c语言
摘要每一位程序员都对hello熟悉不已，hello是我们走向又爱又恨的计算机专业的开始。hello并不是像那几行代码那样简单，究其根本，它要经过预处理，编译，汇编，链接等一系列步骤才能成为一个可执行文件。真正运行这个程序又要应用程序，操作系统，硬件系统的紧密联系。本文将重走hello一生，感受计算机的魅力。关键词：hello;预处理；编译；汇编；链接；进程；目录第1章概述.............
哈尔滨工业大学程序人生-Hello’s P2P sanqian0 p2p 程序人生网络
计算机系统大作业题目程序人生-Hello’sP2P专业计算机科学与技术学号2021111050班级2103101学生吕泽楷指导教师刘宏伟计算机科学与技术学院2022年11月摘要HelloWorld是每个程序员接触的第一个程序，本文观察hello.c文件在Linux系统中的生命周期，从预处理编译开始，观察其如何一步步生成hello可执行文件，从计算机底层解释了存储、分配、I/O过程、子程序的创建和回
CSAPP大作业程序人生 kbforever8 ubuntu linux
计算机系统大作业题目程序人生-Hello’sP2P专业计算学部学号班级学生指导教师吴锐计算机科学与技术学院2022年5月摘要本文通过分析一个简单地hello程序，通过分析其预处理，编译，汇编，链接，进程，内存管理，I/O管理几大模块，即分析了hello的从编译到执行结束输出的过程，又将CSAPP所学的内容串联了起来关键词：预处理；编译；汇编；链接；进程；内存管理；I/O管理（摘要0分，缺失-1分，
GPT每日面试题—如何理解事件循环 CreatorRay 面试前端 ChatGPT 前端 javascript chatgpt 面试
充分利用ChatGPT的优势，帮助我们快速准备前端面试。Q：如果在前端面试中，有人问你如何理解事件循环，怎么回答最好？A：在前端面试中，对于事件循环（EventLoop）的理解是一个重要的面试点。以下是一个较为全面的回答，可以帮助你展示对事件循环的理解：公众号：Code程序人生，个人网站：https://creatorblog.cn回答示例：事件循环是浏览器或Node.js执行JavaScript
GPT每日面试题—如何理解闭包 CreatorRay 面试 ChatGPT 前端 chatgpt 面试前端 javascript
充分利用ChatGPT的优势，帮助我们快速准备前端面试。今日问题：如何理解闭包？Q：如果在前端面试中，被问到如何理解闭包，怎么回答比较好？A：当面试官问到如何理解闭包时，你可以通过以下详细全面的回答来展示你的理解：公众号：Code程序人生，个人网站：https://creatorblog.cn1.定义：闭包是指在函数内部创建的函数可以访问其外部函数的作用域，即使外部函数已经执行完毕，内部函数仍然可
程序人生：是不是Jenkins大神，看这几个技巧就够测试界的飘柔软件测试职场经验 IT jenkins 程序人生运维职场和发展自动化测试
01Performance插件兼容性问题自由风格项目中，有使用Performance插件收集构建产物，但是截至到目前最新版本（Jenkinsv2.298，Performance：v3.19），此插件和Jenkins都存在有兼容性问题，会导致项目配置页面table，div错位，而导致无法保存配置，这个问题已经存在了好长时间了（至少半年），插件作者一直没有修复，目前在项目中要想使用这个插件，有以下三种
程序人生：如何提效，如何管理时间 Java程序员笔记
平时常听到“天呐，这周就这么过去了，我啥都没干”“今天我啥都没做”这种焦虑时间过得快、没时间学习的话语，分享一些个人的见解花时间补基础，读文档作为程序猿，debug是我们的日常操作，debug即费时间又费脑力精神力，但是你是否发现很多问题归根到底是因为基础不扎实或者文档没有看透。基础是技术的支撑，花时间打好基础而不是一味追各种新技术。一旦基础扎实，学习各种新技术分分钟搞定，因为新的技术，究其根本都
程序人生系列1-2021年通过私活累积收益1.5w 只是甲程序人生程序员接单私活留学生课程作业
博主在B站更新了接私活的视频，感兴趣的可以移步到我的B站:博主私活记录一.个人介绍 2011年毕业，计算机专业科班出身，10年及以上金融信贷、通信行业数据库运维管理、数据仓库及大数据相关工作经验，持有OracleOCP和LinuxRHCE认证证书。毕业第一份工作很幸运的成为了一个OracleDBA，刚毕业就开始维护TB级的数据。在知道自身实力不足的情况下，报名培训机构，相继考了OracleO
生产发版前准备【经验分享给萌新程序员】 ss_Tina 经验分享其他
#【中秋征文】程序人生，中秋共享#经验分享自从当了码农，已经不知道有多少个日日夜夜熬夜到凌晨三四点了。不知道大家有没有想过，生产上线发布新版本到凌晨三、四点都有可能是哪些原因呢？下面我将分享下自己以前跟进生产版本发布的经验，经验丰富的老前辈们肯定都比我清楚（可忽略此篇文章~哈哈~）。这篇文章可能更适合萌新程序员体质。争取不熬夜工作（只能熬夜玩乐，不能熬夜工作~）目录经验分享一、网络权限申请涉及网络
React Hooks大全—useContext CreatorRay 面试 react 前端 react.js 前端 javascript
在本文中，我们将重点介绍useContext这个Hook，它可以让你在函数组件中轻松地访问ReactContext，从而实现跨组件的状态共享。我们将从基本使用，实现原理，最佳实践，以及一些常见的问题和解决方案来探讨useContext的用法和优势。我们还将给出一些必要的代码示例，帮助你更好地理解和应用useContext。基本使用公众号：Code程序人生，个人网站：https://creatorb
互联网为何变得如此这般 CreatorRay 互联网程序人生经济互联网程序员程序人生经济
2023年是难过的一年，在经济下行周期内，作为互联网打工人，很明显感觉到时过境迁、物是人非，互联网行业究竟为何变得如何这般？前言公众号：Code程序人生，个人网站：https://creatorblog.cn先自我介绍一下，我是一名00后前端程序员，在北京工作，全职工作经验一年半左右，全网2.5w+粉丝，博文访问量500w+。互联网行业在最近两年发生了巨变，我的感受很深刻。2021年还在实习的时候
React Hooks大全—useCallback CreatorRay react 前端面试 javascript 前端 react.js
在本文中，我们将重点介绍一个React常用的内置Hook，即useCallback。useCallback可以让我们缓存函数，避免因为函数引用的变化而导致不必要的子组件重渲染。我们讲解它的基本使用、实现原理、与useMemo的区别、最佳实践等。基本使用公众号：Code程序人生，个人网站：https://creatorblog.cnuseCallback是一个ReactHook，所以我们只能在函数式
React Hooks大全—useRef CreatorRay react 前端面试 react.js javascript 前端
本文将重点介绍useRef这个Hook，它可以让你在组件的整个生命周期中访问一个可变的引用对象。useRef的主要用途是直接访问DOM子元素，但这并不是它的唯一用途。useRef也可以用来保存一个在不同渲染中不变的可变值，例如在使用一些非React的外部库时很有用。本文将介绍useRef的基本使用，实现原理，最佳实践和一些常见的问题。公众号：Code程序人生，个人网站：https://creato
程序人生-Hello’s P2P Baigker 程序人生
摘要本文介绍了在Linux操作系统下hello的整个生命周期。借助gcc，objdump等工具，对hello的预处理、编译、汇编、链接等过程进行分析。并对程序hello运行过程中的动态链接库调用、内存管理、系统级I/O等进行介绍。关键词：预处理；编译；汇编；链接；进程；内存管理；IO；目录第1章概述-4-1.1Hello简介-4-1.2环境与工具-4-1.3中间结果-5-1.4本章小结-5-第2章
优化Java开发：快速排查难点和Bug、高效沟通与业务的方法！在Java开发中，遇到难点和出现Bug是家常便饭。如何快速排查这些问题，提高开发效率，是每个Java开发者都需要掌握的技能王大师王文峰 Java基础到框架 java bug 开发语言
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）优化Java开发：快速排查难点和Bug、高效沟通与业务的方法！在Java开发中，遇到难点和出现Bug是家常便饭。如何快速排查这些
【程序人生】研二，来北京100天了，记录一下农民真快落程序人生程序人生 Chisel fft 数字ic fpga开发
文章目录中科院牛马的100天工作总结①OFDM系统搭建与建模②数字IC设计流程及相关工具调研③芯片通信架构调研——片上网络计算机、芯片的魅力何在？7月23日坐飞机从连云港来到北京大兴机场，辗转地铁到中关村，收拾一下分配的破烂宿舍，在暑假提前开始了我的研二生活。今天开题报告改不动了，干脆记录下最近的生活，权当放松一下。一看日期10月31日，刚好一百天。北京大兴机场中科院牛马的100天工作总结这一百天
【程序人生】研二上快结束了~整理最近的思路农民真快落程序人生片上网络程序人生
看一下自己的《每日科研进展》群聊，把最近做的事情和后面要做的事情整理一下思路。1月1日到1月7日在整理NoCRouter执行流程和Chisel环境Setup流程：NoCRouter执行流程Chisel安装流程总结：先安装jdk，配置环境变量安装sbt，不用配置环境变量安装idea社区版离线安装scala的idea插件配置sbt换源利用template工程验证helloworld，注意：6.1配置自
设计模式简单工厂，策略模式，几种基本原则,Unity基础所恋皆洛尘学习笔记 c#设计模式
学习笔记感受设计演变过程中蕴含的大智慧，体会乐于怒的程序人生中值得回味的一幕幕。设计模式来自于建筑领域，作为软件工程的一个分支，是在软件工程实践过程中，程序员们总结出的良好的编程方法。第一种模式简单工厂模式图片来源，点这里上面是简单工厂的UML图我简单介绍一下首先是一个主类，下面有3个子类(可以是多个)继承它每个子类都是一个方法，都独自封装成类把它们的共性写入基类(也就是父类)写成抽象或者写成虚函
【程序人生】马斯克：我一直有种存在的危机感 OpenChat ChatGPT 程序人生人工智能程序人生技术简史 AIGC 大模型
01我一直有种存在的危机感小时候，人们常会问我，长大要做什么，我其实也不知道。后来我想，搞发明应该会很酷吧，因为科幻小说家亚瑟·克拉克（《2001太空漫游》作者）曾说过：任何足够先进的科技，都与魔法无异。想想看，三百年前的人类，如果看到今天我们可以飞行、可以远距沟通、可以使用网路、可以马上找到世界各地的资讯，他们一定会说，这是魔法。要是我能够发明出很先进的科技，不就像是在变魔法吗？我一直有种存在的
2022-06-03怎么查询公网IP 南陵笑笑生
怎么查询公网IP别扒拉我代码于2022-01-1410:45:34发布13853收藏1文章标签：tcp/ip服务器网络协议程序人生版权如果我们连接的是公司或者学校的局域网，查询公网的IP方法有：①:在浏览器上输入http://ip.cn。②:在浏览器上打开http://ip138.com,这是一个国内的外网地址；③:同样通过浏览器访问http://ifconfig.me,国外的外网地址；Needa
33 ES6中的类和对象 CurryCoder
技术交流QQ群:1027579432，欢迎你的加入！欢迎关注我的微信公众号：CurryCoder的程序人生1.面向对象面向对象的思维特点：a.抽取(抽象)对象共有的属性和行为组织(封装)成一个类(模板)；b.对类进行实例化，获取类的对象；面向对象编程考虑的是有哪些对象，按照面向对象的思维特点，不断的创建对象，使用对象，指挥对象做事情。2.对象现实生活中，万物皆对象，对象是一个具体的事物，看得见摸得
程序人生：突围金三银四面试季！附学习笔记+面试整理+进阶书籍 6年老Java 程序员 java 后端面试
前言又到一年金九银十之际。Java作为目前用户最多，使用范围最广的软件开发技术之一。Java的技术体系主要由支撑Java程序运行的虚拟机，提供各开发领域接口支持的Java,Java编程语言及许多第三方Jvav框架构成。其中，以Java的虚拟器为今天的着重点以下是我整理收藏的一些JVM大厂面试经典问题与相应答案，希望可以给看文的朋友一些帮助由于篇幅过长，请耐心往下看，文末提供小编收藏已久的JVM面试
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

数据预处理

数据预处理

Intuition

准备中

加入

缺失值

异常值（异常）

特征工程

cleaning

转换

缩放

编码

Extraction

应用

特征工程

clean

更换标签

编码

你可能感兴趣的:(程序人生)