当前位置: 首页 > news >正文

厦门集团网站建设/长沙线上引流公司

厦门集团网站建设,长沙线上引流公司,设计公司名字参考,最简单的网站开发工具k近邻法(k-nearest neighbor, k-NN)是一种基本分类与回归方法。本文讨论分类问题中的k近邻法。 k近邻算法 k近邻法: 输入:训练数据集T{(x1,y1),(x2,y2),...,(xN,yN)}T\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}T{(x1​,y1​),(x2​,y2​),...,(xN​,yN​…

k近邻法(k-nearest neighbor, k-NN)是一种基本分类与回归方法。本文讨论分类问题中的k近邻法。

k近邻算法

k近邻法

输入:训练数据集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}T={(x1,y1),(x2,y2),...,(xN,yN)}
其中xi∈X⊆Rn,yi∈Y={c1,c2,...,cK}x_i\in X \subseteq R^n,y_i \in Y = \{c_1,c_2,...,c_K\}xiXRn,yiY={c1,c2,...,cK}

输出:实例xxx所属的类yyy

  • (1) 根据给定的距离度量,在训练集TTT中找出与xxx最近的k个点,涵盖这k个点的邻域记作Nk(x)N_k(x)Nk(x)
  • (2) 在Nk(x)N_k(x)Nk(x)中根据分类决策规则(如多数表决)决定xxx的类别yyy
    y=argmaxcj∑xi∈Nk(x)I(yi=cj)y=arg max_{c_j}\sum_{x_i\in N_k(x)}I(y_i=c_j)y=argmaxcjxiNk(x)I(yi=cj)

其中 i=1,2,...,N,j=1,2,...,Ki=1,2,...,N,j=1,2,...,Ki=1,2,...,N,j=1,2,...,KIII为指示函数,相等为1否则为0

k近邻法没有显示的学习过程。

k值的选择

k值的选择对k近邻的结果产生重大影响。

如果k过小,对近邻的实例点十分敏感,容易过拟合
如果k过大,可以减小学习的估计误差,但是近似误差会增大,欠拟合

一般k取一个较小的值,采用交叉验证法来选择最优的k值

k近邻法的实现:kd树

实现k近邻法,主要考虑的问题是如何快速k近邻搜索。这点在高维度,数据量大时尤为重要。

构造kd树

kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。

kd树是二叉树,表示对k维空间的一个划分。

构造平衡kd树
输入:k维空间数据集T=x1,x2,...,xNT={x_1,x_2,...,x_N}T=x1,x2,...,xN
输出:kd树

  • (1) 开始:构造根结点,根结点对应于包含TTT的k维空间的超矩形区域。
    选择x(1)x^{(1)}x(1)为坐标轴,以所有实例的x(1)x^{(1)}x(1)坐标轴的中位数作为切分点,沿着通过切分点并与坐标轴垂直的超平面将超矩形区域切成两个子区域。
    由根结点生成深度为1的左右子结点,左子结点对应坐标x(1)x^{(1)}x(1)小于切分点的子区域。将落在切分超平面上的实例点保存在根结点。

  • (2) 重复:对深度为j的结点,选择x(l)x^{(l)}x(l)为切分的坐标轴,l=j(mod k) + 1。以该结点的区域中所有实例的x(l)x^{(l)}x(l)坐标的中位数为切分点,沿着通过切分点并与坐标轴垂直的超平面将超矩形区域切成两个子区域

  • (3) 直到两个子区域都没有实例存在则停止。

搜索kd树

用kd树的最近邻搜索
输入:已构造的kd树,目标点x
输出:x的最近邻

  • (1)在kd树中找出包含目标点x的叶节点,从根结点出发,递归向下访问kd树。若x当前维的坐标小于切分点的坐标,则移动到左子结点,否则移动到又子结点。直到子结点为叶子节点为止
  • (2)以此叶节点为“当前最近点”
  • (3)递归向上回归,每个结点进行以下操作:
    • (a)如果该结点保存的实例比当前最近点距离目标点更近,则以该实例点为“当前最近点”
    • (b)当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一个子结点对应的区域是否有更近的点。具体的,检查另一子结点对应的区域是否与以目标点为球心,以目标点与当前最近点间的距离为半径的超球体相交。
      • 如果相交,可能在另一个子结点对应的区域内存在距目标点更近的点,移动到另一个子结点。接着,递归的进行最近邻搜索。
      • 如果不相交,向上回退
  • (4)当回退到根结点时,搜索结束,最后的“当前最近点”即为x的最近邻点。

如果实例点是随机分布的,kd树搜索的平均计算复杂度是O(logN)O(logN)O(logN)
kd树适用于训练实例数远大于空间维数的k近邻搜索。当维度和实例数接近时,效率会迅速下降,几乎接近线性扫描

http://www.jmfq.cn/news/5268061.html

相关文章:

  • 建门户网站需要多少钱/系统优化软件十大排名
  • 网站代码seo优化/国产十大erp软件
  • 哪个网站做设计可以挣钱/俄罗斯搜索引擎yandex推广
  • 电商网站建设与管理/aso搜索优化
  • 机械设备网站/公司企业网站模板
  • 怎么把网站加入黑名单/百度上怎么免费开店
  • 口碑好的东莞网站建设/百度指数指的是什么
  • 小型网站建设公司/整站优化服务
  • 广东平台网站建设找哪家/广州seo站内优化
  • web程序设计网站开发工具/制作网站费用
  • 用win2008做网站/今日国内重大新闻事件
  • wordpress电影模板下载/如何将网站的关键词排名优化
  • iis6 网站无法访问/公司网站
  • 烟台做网站的公司/游戏推广员好做吗
  • wordpress模板 更换/seo刷关键词排名免费
  • 石家庄市最新公告/苏州整站优化
  • 吉林seo基础知识/上首页seo
  • 网站建设费用:做个网站要多少钱?/影视剪辑培训机构排名
  • 自己做网站能宣传自己的产品吗/网络推广员为什么做不长
  • 北京建设网站的公司兴田德润优惠/seo 优化顾问
  • 营销型网站 开源程序/大数据营销系统软件
  • 做美女网站挣钱/百度首页关键词推广
  • 兰州企业做网站/软文写作服务
  • 海南智能网站建设公司/外贸独立站推广
  • 网页的制作教案/成都网站seo厂家
  • 做公司网站需要准备什么/怎么有自己的网站
  • 重庆金融网站建设/搜索引擎优化心得体会
  • 网站制作团队分工/网站seo价格
  • 深圳有哪些网站是做餐饮沙龙的/关键词优化公司排名榜
  • 做电影网站犯罪吗/百度灰色词排名代发