机器学习【标准库和超参数】

机器学习【标准库和超参数】

1. python有哪些标准库

  1. os - 提供与操作系统交互的功能,如文件和目录操作。
  2. sys - 提供对Python解释器的访问和控制。
  3. math - 提供数学运算功能,如数值计算、三角函数等。
  4. datetime - 提供日期和时间的处理和操作。
  5. random - 生成随机数和随机选择元素。
  6. re - 提供正则表达式操作,用于模式匹配和文本处理。
  7. json - 用于JSON(JavaScript Object Notation)数据的编码和解码。
  8. urllib - 用于处理URL(Uniform Resource Locator)和进行网络请求。
  9. sqlite3 - 提供对SQLite数据库的访问。
  10. csv - 读取和写入CSV(Comma Separated Values)文件。
  11. collections - 提供了额外的数据结构,如字典、队列等。
  12. pickle - 用于序列化和反序列化Python对象。
  13. gzip - 对gzip格式的文件进行压缩和解压缩。
  14. tarfile - 对tar文件进行操作,如创建、提取等。
  15. socket - 提供网络编程的接口,用于创建网络套接字和进行网络通信。
  16. multiprocessing - 支持多进程编程。
  17. threading - 支持多线程编程。
  18. unittest - 提供单元测试框架。
  19. email - 用于发送和接收电子邮件。
  20. http - 提供HTTP协议相关的功能,如构建HTTP请求、处理HTTP响应等。

2. sklearn的kmeans的API中超参数

  1. n_clusters:整数,指定要聚类成的簇的数量。默认值为8。
  2. init:字符串或可调用对象,表示初始化簇中心的方法。可以选择"k-means++"、“random"或自定义的初始化方法。默认值为"k-means++”,使用改进的k-means++算法进行初始化。
  3. n_init:整数,指定运行算法的次数,每次运行都使用不同的初始化。默认值为10。
  4. max_iter:整数,指定算法的最大迭代次数。默认值为300。
  5. tol:浮点数,指定算法的收敛阈值。当簇中心的变化小于该阈值时,算法停止迭代。默认值为1e-4。
  6. random_state:整数或RandomState实例,用于控制随机数生成过程的种子。默认值为None。
  7. algorithm:字符串,指定用于计算KMeans的算法。可以选择"auto"、“full"或"elkan”。默认值为"auto",表示根据数据的特征数量和样本数量自动选择最适合的算法。
  8. precompute_distances:布尔值,指定是否提前计算所有样本点之间的距离。可以加速算法,但对于大型数据集可能会消耗较多内存。默认值为"auto",表示自动选择是否提前计算。

3.DBSCAN的超参数

  1. eps:浮点数,代表邻域的半径大小。控制样本点是否属于同一个簇的一个关键参数。默认值为0.5。
  2. min_samples:整数,定义一个核心点所需要的最小邻居样本数。如果一个样本点的邻域内的样本数大于等于min_samples,则该样本点被视为核心点。默认值为5。
  3. metric:字符串或可调用对象,用于计算样本点之间的距离。可以使用预定义的距离度量,如"euclidean"(欧氏距离)或"manhattan"(曼哈顿距离),也可以传入自定义的距离度量函数。默认值为"euclidean"。
  4. algorithm:字符串,指定用于计算DBSCAN的算法。可以选择"auto"、“ball_tree”、“kd_tree"或"brute”。默认值为"auto",表示根据数据的特征数量和样本数量自动选择最适合的算法。
  5. leaf_size:整数,指定BallTree或KDTree的叶子节点大小。影响构建树的速度和内存消耗。默认值为30。
  6. p:整数,当metric为"Minkowski"时,指定距离度量的幂参数。默认值为2,表示使用欧氏距离。

你可能感兴趣的:(机器学习,机器学习,人工智能)