洛阳网站推广怎么做/社群营销的十大案例
【私信获取圆桌会视频】
5月26日,FATE开源社区第九期圆桌会圆满落幕。本次圆桌会,微众陈伟敬为我们分享了SecureBoost:挑战千万级别样本训练之性能提升篇。
接下来带大家回顾经典问答环节,为新老朋友答疑解惑。
问答环节
● Q1:
想问下fast-sbt在不同数据上和hetero-sbt对比?
● A1:
以fast sbt的mix模式为例,mix模式下,一代用guest的特征建树,一代用host的特征建树,以此往复,这样很像是跑hetero-sbt时对特征做一个列采样。我们在几份样例数据上测试fast-sbt,最终达到的效果是差不多的,但是fast-sbt它可能会需要多跑一些代数,最终才能达到hetero-sbt的效果。
● Q2:
为什么没有使用lightGBM的优化呢,Xgboost只是lifewise,leafwise ?
● A2:
Xgboost是层优先的,layer-wise,是一层一层的构建的,lightgbm的是leafwise,lightgbm用到的goss, 直方图相减FATE-1.6都是用到了的。
● Q3:
1.7的升级会在架构上和1.6有很大差别吗?还是侧重于训练过程优化?
● A3:
4月圆桌我们有对1.7进行展望,有兴趣可以去回顾(文末有链接),1.7fate-flow等会拆分,架构会有比较大的变动。
● Q4:
想问下sbt安全性问题,目前像mix模式, host方的完整树结构是需要发给guest,这会不会有一定安全性问题。
● A4:
mix模式,host树结构是不会发给guest的。
● Q5:
有没有考虑实现密文下比大小的操作?这样host就不需要回传分裂点给guest。
● A5:
是在host做分裂点收益比较吗?目前在同态加密的情况下,在host没有办法计算出分裂点收益,所以也就没办法进行比较了。
● Q6:
用eggroll来做的计算框架,用单机standalone的时候,按照我的CPU的核数来分配的,就是单机的,后来我变成集群模式的时候,也是相当于核数有几台就扩充了几台,总核数都利用上,但是在效果上发现训练时长甚至比原来单机的时间还要长,不知道有没有这方面的一个排查问题的思路?
● A6:
配置里面会有一些并发参数,有两个参数,一个是 computing_partition: 数据的分块,分了几个partition;还有一个是task_cores:并行的时候,用上多少个核,如果没有配上的话,确实有可能是跑得比较慢的,另外一个情况是集群模式下有调度和网络传输开销。
● Q7:
(接上一个问题)这两个参数都是有配置的,而且配置了48,和我们的核数符合。
● A7:
在运行Hetero-SBT的时候,我们这边也碰到一种情况,partition越大的时候,写出的时候,每个partition就会涉及一个加密直方图写出的过程,这个过程每个partition根据key将结果分发到不同的nodemanager上,这是一个shuffle的过程。那么这种情况下涉及IO开销和调度开销。所以当你数据量不是很大,计算已经很快了,那增大partition可能会导致其他方面有出现瓶颈。
● Q8:
(接上一个问题)所以其实有的时候是需要去减少分区数量?
● A8:
是的,数据量比较小,或者计算性能提升到极致后,会导致有其他瓶颈的情况出现。
● Q9:
(接上一个问题)所以你建议的一个优化的方案就是说适当去减小分区数吗?
● A9:
理论上来说计算和IO调度等消耗是有一个平衡点的,并不是无限的增大资源,就一定会提升速度。
以下为本次圆桌会的部分内容介绍,添加小助手可获取详细资料:
以上就是本次圆桌会互动环节内容。
想报名参与下一期的圆桌会?
或者对以上内容还有疑问,
私信获取协助。