有聚类算法知道哪些(回答k-means,和密度聚类的dascan),密度聚类的重要参数
K-Means
核心思想与步骤
1.随机选择k个点作为初始质心。
2.将每个数据点分配到距离最近的质心所在的簇。
3.重新计算每个簇的质心(即该簇所有点的均值)。
4.重复步骤2和3,直到质心的变化很小或达到最大迭代次数。
knn和k-means介绍
K-Nearest Neighbors (KNN) - K近邻算法
核心思想:一种用于分类回归监督学习算法。“物以类聚,人以群分”。它的工作原理是:在特征空间中,如果一个样本附近的K个最相邻(距离最近)的样本大多数属于某一个类别,则该样本也属于这个类别。
算法流程
  1. 计算待分类样本与数据集中所有样本的距离。
  1. 按距离递增次序排序。
  1. 选取距离最小的K个点。
  1. 统计这K个点中各个类别的出现频率。
  1. 返回出现频率最高的类别作为待分类样本的预测类别(分类)或返回K个点的标签平均值(回归)。
关键参数K值。K值越小,模型越复杂,容易过拟合;K值越大,模型越简单,容易欠拟合。
K-Means - K均值聚类算法
核心思想:一种最经典的聚类算法,属于无监督学习。它的目标是将数据划分为K个簇,使得同一簇内的点尽可能相似,不同簇的点尽可能不同。
算法流程
  1. 随机初始化K个簇的中心点(质心)。
  1. 分配步骤:将每个数据点分配到距离它最近的质心所在的簇。
  1. 更新步骤:重新计算每个簇的质心(该簇所有点的平均值)。
  1. 重复步骤2和3,直到质心的变化很小或达到最大迭代次数。
求距离公式有哪些
notion image
notion image
rnn和Transformer的区别
Recurrent Neural Network (RNN) - 循环神经网络
核心思想:引入“循环”结构,使网络具备短期记忆能力,专门用于处理序列数据(如时间序列、文本、语音)。其核心是循环单元(如Simple RNN, LSTM, GRU),每个单元处理序列中的一个元素,并将隐藏状态传递给下一个单元。
关键机制
  • 顺序处理:必须按时间步一步一步地处理序列,无法并行化,计算效率低。
  • 隐藏状态:一个向量,用于携带之前所有时间步的信息。但存在梯度消失/爆炸问题,导致难以学习长距离依赖关系(即序列开头的信息很难传递到末尾)。LSTM和GRU通过门控机制缓解了此问题,但未根本解决。
Transformer
核心思想:完全基于自注意力机制的模型架构,摒弃了RNN的循环结构。它通过注意力机制让序列中的任何一个词都能直接与所有其他词进行交互和计算,从而捕获全局的上下文信息。
关键机制
  • 自注意力机制:计算序列中每个词对于所有其他词的“关注程度”(权重)。这使得模型能够直接捕捉长距离依赖关系,无论两个词在序列中相隔多远。
  • 并行化:由于自注意力机制可以同时计算所有词之间的关系,整个序列的计算可以完全并行进行,极大地提升了训练速度。
  • 编码器-解码器架构:经典Transformer由编码器(理解输入序列)和解码器(生成输出序列)堆叠而成。
SVM支持向量机的原理
SVM的核心思想是寻找一个最优超平面,使得该超平面能够将不同类别的样本分开,并且使得所有样本点到该超平面的最小距离(间隔)最大化。位于间隔边界上的样本点称为“支持向量”。
引入核技巧的原因:对于在原始特征空间中线性不可分的数据,SVM通过核函数将数据映射到一个更高维的特征空间中,使得数据在这个高维空间中变得线性可分。核技巧的妙处在于,它不需要显式计算高维空间中的坐标,而是直接通过原空间中的向量计算高维空间中的内积,极大地降低了计算复杂度。常用核函数有线性核、多项式核、高斯径向基核。
过拟合?解决方案
过拟合:指模型在训练数据上表现非常好,但在未见过的测试数据上表现很差的现象。模型过于复杂,“记忆”了训练数据中的噪声和细节,而非学习其内在规律。
原因
  • 模型拥有大量参数、表现力强。
  • 训练数据少。
解决方案:
  • 增加数据量:更多的数据可以让模型学习到更普遍的模式。
  • 简化模型:选择更简单的模型结构(如降低多项式回归的阶数、减少决策树的深度、减少神经网络的层数和神经元数)。
  • 正则化:在损失函数中加入惩罚项(如L1/L2正则化),限制模型参数的大小,降低模型复杂度。
  • 集成方法:如Bagging(随机森林)和Boosting,可以有效降低方差,减少过拟合风险。
激活函数有哪些?有什么特点?
 
 
Loading...