当前位置: 首页 > news >正文

西安网站建设专家/长沙网络推广平台

西安网站建设专家,长沙网络推广平台,基础微网站开发动态,变色龙app制作平台安装 pip install dask高级集合被用来生成任务图,这些任务图可以由单机或集群上的调度器执行。 导包 import numpy as np import pandas as pdimport dask.dataframe as dd import dask.array as da import dask.bag as db创建一个Dask对象 1. from panda DataF…

安装

pip install dask

在这里插入图片描述
高级集合被用来生成任务图,这些任务图可以由单机或集群上的调度器执行。

导包

import numpy as np
import pandas as pdimport dask.dataframe as dd
import dask.array as da
import dask.bag as db

创建一个Dask对象

1. from panda DataFrame

index = pd.date_range("2021-09-01", periods=2400, freq="1H")# 从"2021-09-01"开始,间隔1小时,创建2400个元素
print(index.shape)# (2400,)
df = pd.DataFrame({"a": np.arange(2400), "b": list("abcaddbe" * 300)}, index=index)
#

在这里插入图片描述

ddf = dd.from_pandas(df, npartitions=10)

在这里插入图片描述

现在创建了一个Dask DataFrame,有2列2400行,由10个分区组成,每个分区有240行。每个分区代表一块数据。

ddf.divisions
#检查每个分区所覆盖的索引值

在这里插入图片描述
索引Dask集合的感觉就像切分NumPy数组或pandas DataFrame。

print(ddf.b)

在这里插入图片描述
此时看到的b数据列不是真实的数据,想看真实的数据要

print(ddf.b.compute())

在这里插入图片描述

ddf.a.mean().compute()#1199.5
ddf.b.unique().compute()
"""
0    a
1    b
2    c
3    d
4    e
Name: b, dtype: object
"""

任务图的可视化

result = ddf["2021-10-01": "2021-10-09 5:00"].a.cumsum() - 100
result.compute()
'''
2021-10-01 00:00:00       620
2021-10-01 01:00:00      1341
2021-10-01 02:00:00      2063
2021-10-01 03:00:00      2786
2021-10-01 04:00:00      3510...  
2021-10-09 01:00:00    158301
2021-10-09 02:00:00    159215
2021-10-09 03:00:00    160130
2021-10-09 04:00:00    161046
2021-10-09 05:00:00    161963
Freq: H, Name: a, Length: 198, dtype: int32
'''
#pip install graphviz
result.visualize()

在这里插入图片描述

低级接口(自定义?)

Dask Delayed让你把单个函数调用包装成一个延迟执行的任务图。


import dask@dask.delayed
def inc(x):return x + 1@dask.delayed
def add(x, y):return x + ya = inc(1)       # no work has happened yet
b = inc(2)       # no work has happened yet
c = add(a, b)    # no work has happened yetc = c.compute()  # This triggers all of the above computations
print(c)#5

Futures 一旦函数被提交,计算就开始了。

from dask.distributed import Clientclient = Client()def inc(x):return x + 1def add(x, y):return x + ya = client.submit(inc, 1)     # work starts immediately
b = client.submit(inc, 2)     # work starts immediately
c = client.submit(add, a, b)  # work starts immediatelyc = c.result()                # block until work finishes, then gather result
print(c)#5

调度器

在生成了一个任务图之后,执行它是调度器的工作。
默认情况下,当你在Dask对象上调用计算时,Dask会使用你电脑上的线程池来并行运行计算。
如果你想要更多的控制,可以使用分布式调度器来代替。尽管它的名字里有 “分布式”,但分布式调度器在单机和多机上都能很好地工作。可以把它看作是 “高级调度器”。

1 建立一个只使用本地计算机的集群

from dask.distributed import Clientclient = Client()
print(client)

在这里插入图片描述
一旦你创建了一个客户端,任何计算都将在它所指向的集群上运行。

2 设置远程集群

from dask.distributed import Client
client = Client("<url-of-scheduler>")
print(client)

诊断仪表

当使用分布式集群时,Dask提供了一个诊断仪表板,你可以看到你的任务被处理的情况。

print(client.dashboard_link)
#'http://127.0.0.1:61518/status'

在这里插入图片描述

DASK 文档

http://www.jmfq.cn/news/4800997.html

相关文章:

  • 电子网站模板/优秀的营销案例
  • 网站开发待遇如何/淘宝店铺运营推广
  • 石柱网站制作/seo免费优化软件
  • 租车网站建设/网络营销公司全网推广公司
  • 福州 网站备案/百度竞价托管靠谱吗
  • 可以自己做网站的软件下载/网站运营及推广方案
  • 移动 开发 网站建设/网络营销毕业论文范文
  • 中国娱乐设计网站官网/时事政治2023最新热点事件
  • 东莞做网页的公司/seo怎么优化简述
  • 做海淘网站赚钱吗/外贸网络推广怎么做
  • 教做粥的网站/市场营销互联网营销
  • 织梦做的网站织梦修改网页/外贸网站平台都有哪些
  • 软件下载网站模版/信息流优化师需要具备哪些能力
  • 新疆建设兵团12333网站/万网官网入口
  • 网站制作公司资质/编程培训机构加盟哪家好
  • 做网站都要掌握什么软件/在线视频观看免费视频22
  • 怎么做刷东西网站/广东seo网站推广代运营
  • 网站开发基础/站长之家工具查询
  • 公司网站怎么做才能吸引人/百度推广怎么看关键词排名
  • 网站建设与开发的论文/外链代发平台
  • 深圳横岗网站建设/企业网络营销方法
  • 佛山新网站建设服务/seo个人优化方案案例
  • wordpress 音乐列表/网站关键词优化公司
  • 做网站公司融资多少/网站首页模板
  • 做网站西宁/郑州网络推广团队
  • 大数据精准营销如何做/汕头seo推广外包
  • 网站设计前景怎样/无锡网站优化
  • 湘潭网站建设工作室/百度seo排名点击
  • 邯郸专业做网站多少钱/品牌运营公司
  • 网站建设目的与意义/学电商哪个培训学校好