当前位置: 首页 > news >正文

flex 做网站/友情视频

flex 做网站,友情视频,常州网络公司主营业务,关停网站的申请文章目录关于无标注数据无监督学习什么是无监督学习典型应用场景场景1:异常检测场景2:用户细分场景3:推荐系统无监督学习算法聚类K均值聚类层次聚类降维主成分分析PCA奇异值分解SVD参考链接:深度学习的成功往往取决于大量的标注数…

文章目录

    • 关于无标注数据
    • 无监督学习
      • 什么是无监督学习
      • 典型应用场景
        • 场景1:异常检测
        • 场景2:用户细分
        • 场景3:推荐系统
      • 无监督学习算法
        • 聚类
          • K均值聚类
          • 层次聚类
        • 降维
          • 主成分分析PCA
          • 奇异值分解SVD
      • 参考链接:

深度学习的成功往往取决于大量的标注数据,在标注数据上训练的模型往往能取得与人类水平相当,甚至超越人类水平的表现。然而在许多情况下,很难收集到足够的有标注数据,这也促使研究人员开始探索标注数据之外的无监督信息,以在小数据的情况下在各类学习任务上训练出鲁棒的模型。
在这里插入图片描述
图 1 的左端代表用无标注数据训练的无监督方法。无监督方法旨在学习到能够泛化到不同任务的特征表示。通常用这些特征在后续分类任务中的表现作为特征的评价指标。图 1 的右端表示半监督方法,既利用标注数据,也利用无标注数据来训练模型。其想法在于未标注数据提供了数据在空间中的分布,并且可以通过探索这种分布来训练一个鲁棒的模型。

关于无标注数据

摘录自知乎:思考无标注数据的可用极限
无标注数据主要有以下几种(看起来比较work的)利用方法:
1、标了它,让它不再是无标注数据,然后开始supervised learning,用机器去标注是一个新的尝试方向
2、半监督学习 —— 这要求在target domain上已经有一部分有标注数据,且无标注数据跟这部分数据是同源,且有相同label space;
3、弱监督学习 —— 主要分为noisy supervision和high-level supervision,或者是两者的融合。前者主要是标注质量不高,后者是指标签比较abstract。这样的数据既可能是标出来的,也可能是爬下来以后进行了一些自动化的清洗。
4、自监督学习 (self-supervised learning)—— 无监督学习的一种,单独拿出来是因为它看起来比无监督学习work一些。通常意义的unsupervised learning主要指聚类之类的无signal的representation learning,但self-supervised learning是有信号的,但这个信号来自于数据自己。怎么给则是人设计的,可以是“做完形填空”(denoise corrupted data, e.g. BERT),也可以是“玩拼图游戏” (jigsaw puzzle),或者是“填色”(colorization),等等。

另外,所有的这些,都可以用来训练一个强大的pre-training model,然后和transfer learning结合一下,在target task上再用有标注数据做训练,通常可以获得不错的结果(这也是目前CV和NLP的共同思路)。

若直接利用无标注数据来训练,最核心的想法就是创造出supervision signal —— loss是什么?只要能够构造出有效的supervision,还是可以挖掘出一些无标注数据的信息的。一般来说,我更愿意按照创造supervision signal的方法,把利用无标注数据的工作分成以下几种:

  1. pseudo-labeling
  2. adversarial training
  3. regularized augmented data (based on consistency)
  4. denoising or restoring the corrupted data

不同的方法,能够挖掘出的信号自然也不一样,适合的task也不一样。你可能会问我,那对于特定的数据集,特定的task,该怎么设计supervision signal (loss)呢?我只能告诉你,现在还没解决的很好,需要在各个task上的 domain expertise。这个很有意思,它意味着比如你要利用人脸的无标注数据,你首先得是一个supervised learning训练高手,才能理解、设计出好的算法。具体来说,目前CV总体而言没有什么好的方法,而NLP中BERT的成功已经说明了denoising(完形填空)是个不错的方法,不过肯定也还有更好的。

无监督学习

什么是无监督学习

无监督学习是机器学习中的一种训练方式,它本质上是一个统计手段,可以在没有人工标注的数据中发现潜在结构和模式。在这里插入图片描述

典型应用场景

场景1:异常检测

我们可以通过用户在购物网站登录等行为的特征对用户进行分类,用以检测诈骗盗号等。通过无监督学习,我们可以快速把行为进行分类,虽然我们不知道这些分类到底意味着什么,但是可以通过分类排出异常用户,然后进行深入分析。
在这里插入图片描述

场景2:用户细分

投放广告时,我们可能需要按照性别,年龄,地理位置,用户行为等维度进行用户细分,然后有针对性的进行广告投放。在这里插入图片描述

场景3:推荐系统

经典案例:”啤酒+尿不湿”,很多购物网站会根据用户的浏览行为进行商品推荐,有些商品就是无监督学习通过聚类推荐出来的,系统会发现一些购买行为相似的用户,然后给这一类的用户推荐他们可能喜欢的东西。

无监督学习算法

聚类

K均值聚类

K-means聚类就是设定分组的数量为K,然后自动进行分组。步骤如下:
【1】定义 K 个重心。一开始这些重心是随机的(也有一些更加有效的用于初始化重心的算法)
【2】寻找最近的重心并且更新聚类分配。将每个数据点都分配给这 K 个聚类中的一个。每个数据点都被分配给离它们最近的重心的聚类。这里的「接近程度」的度量是一个超参数——通常是欧几里得距离(Euclidean distance)。
【3】将重心移动到更新后的聚类的中心。每个聚类重心的新位置是通过计算该聚类中所有数据点的平均位置得到的。
重复第 2 和 3 步,直到每次迭代时重心的位置不再显著变化(即直到该算法收敛)。

层次聚类

如果你不知道应该分为几类,那么层次聚类就比较适合了。层次聚类会构建一个多层嵌套的分类,类似一个树状结构。步骤如下:
【1】首先从 N 个聚类开始,每个数据点一个聚类。
【2】将彼此靠得最近的两个聚类融合为一个。现在你有 N-1 个聚类。
【3】重新计算这些聚类之间的距离。
【4】重复第 2 和 3 步,直到你得到一个聚类,包含全部 N 个数据点。
【5】选择某个聚类数量,然后在这个树状图中划一条水平线。
在这里插入图片描述

降维

主成分分析PCA

主成分分析是把多指标转化为少数几个综合指标。常用于减少数据集的维数,同时保持数据集中对于方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。

变换的步骤:
【1】第一步计算矩阵 X 的样本的协方差矩阵 S(此为不标准PCA,标准PCA计算相关系数矩阵C)
【2】第二步计算协方差矩阵S(或C)的特征向量 e1,e2,…,eN和特征值 , t = 1,2,…,N
【3】第三步投影数据到特征向量张成的空间之中。利用下面公式,其中BV值是原样本中对应维度的值。在这里插入图片描述

奇异值分解SVD

奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,是特征分解在任意矩阵上的推广。SVD在信号处理、统计学等领域有重要应用。

参考链接:

easyai.tech — unsupervised-learning

http://www.jmfq.cn/news/4905685.html

相关文章:

  • 漯河市住房和城乡建设局网站/seo关键词布局技巧
  • jsp动态网站开发与实例/如何自己做一个软件
  • 网站收录怎么删/全球网络营销公司排行榜
  • wordpress 移动支付/网站推广与优化平台
  • 深圳营销型网站需要多少钱/前端seo是什么
  • 网站首页的名字通常是/公司建网站需要多少钱
  • 制作网站公司网址/游戏推广员上班靠谱吗
  • 国外 网站页面/百度收录提交网站后多久收录
  • 二七区做网站/厨师培训学校
  • 重庆沙坪坝房价/西安seo外包行者seo
  • 分析网站建设前期的seo准备工作/网上推广app怎么做
  • 光谷做网站推广公司/seo上首页排名
  • wordpress全站/seo资料网
  • 网站new图标/一般网络推广应该怎么做
  • 专业柳州网站建设/新闻实时报道
  • 如何用wordpress插件/怎么seo快速排名
  • 哪家网站做的好/有必要买优化大师会员吗
  • 看男女做那个真实视频网站/互联网推广怎么找渠道
  • 河南郑州百度网站建设/18款禁用看奶app入口
  • 个人印章在线制作网站/营销方案怎么写模板
  • 专业做网站的公司哪家好/石家庄最新消息
  • 桂林疫情原因/常州谷歌优化
  • 商城网站建设所必备的四大功能是哪些/哪有网页设计公司
  • 优购物官方网站下载/网站流量分析报告
  • 做网站用的/网络推广和网站推广
  • 做网站怎么报价/百度最怕哪个部门去投诉
  • 网站开发与维护算什么职位/竞价托管是啥意思
  • 域名iis网站添加/百度站长平台提交网站
  • 给企业做宣传网站的好处/衡阳网站优化公司
  • 网站建设公司模版/优化网站软文