当前位置: 首页 > news >正文

做网站充值犯法吗/抖音营销软件

做网站充值犯法吗,抖音营销软件,wordpress tag__not_in,做百度移动端网站优化文章目录一、基本操作1.1 创建spark连接1.1.1 SparkSession1.1.2 Sparkconf1.2 数据加载1.2.1 载入json1.2.2 载入文本1.2.3 载入csv1.3 一般操作1.3.1 json等有表头的数据1.3.2 rdd操作1.3.2.1 简单操作1.3.2.2 排序1.3.3 结构框架下的CSV数据一、基本操作 from pyspark.sql …

文章目录

  • 一、基本操作
    • 1.1 创建spark连接
      • 1.1.1 SparkSession
      • 1.1.2 Sparkconf
    • 1.2 数据加载
      • 1.2.1 载入json
      • 1.2.2 载入文本
      • 1.2.3 载入csv
    • 1.3 一般操作
      • 1.3.1 json等有表头的数据
      • 1.3.2 rdd操作
        • 1.3.2.1 简单操作
        • 1.3.2.2 排序
      • 1.3.3 结构框架下的CSV数据

一、基本操作

from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql.types import * # 有struct 和 dt_type
import pyspark.sql.functions as sql_func

1.1 创建spark连接

1.1.1 SparkSession

spark = SparkSession.builder.appName("session_name").getOrCreate()

1.1.2 Sparkconf

from pyspark import SparkConf conf = SparkConf().setAppName('WordCount')
conf.set('spark.executor.memory', '500M')
conf.set('spark.cores.max', 4)## 读取数据方法同 sparksession 
## 如下
rdd = sc.textFile(fil_name)

1.2 数据加载

1.2.1 载入json

df = spark.read.json(json_path)
df.show()

1.2.2 载入文本

results = spark.sparkContext.textFile(fil_name)

1.2.3 载入csv

需要先搭建框架在载入数据

schema = StructType([StructField('name', StringType()),StructField('city', StringType()),StructField('age', DoubleType())
])df = spark.read.schema(schema).format('csv')\.option('header', 'false')\.option('inferSchema', 'true')\.load(fil_name)df.show()

1.3 一般操作

1.3.1 json等有表头的数据

## select
df.select('name').show()
df.select(df['name'], df['age'] + 1).show()## where
df.filter(df['age'] > 23).show()
## groupBy
df.groupBy('age').count().show()# df 命名成people
df.createOrReplaceTempView('people') 
sql_df = spark.sql('select * from people')
sql_df.show()# Register the df as a globeltemporary view
df.createGlobalTempView('people')
spark.sql('select * from global_temp.people').show()spark.stop()

1.3.2 rdd操作

def compute_stats(num_dt):avg = stat.mean(num_dt)median = stat.median(num_dt)std = stat.stdev(num_dt)return avg, median, stddef create_pair(record):tokens = record.split(',')url_address = tokens[0]frequency = int(tokens[1])return (url_address, frequency)

1.3.2.1 简单操作

# where
resf = results.filter(lambda record: len(record) > 5)
# map 映射
resf = resf.map(create_pair)
# groupby 然后计算数值 映射方法是 compute_stats
resf = resf.groupByKey().mapValues(compute_stats)resf.collect()
spark.stop()# 同样可以做累加
# reduceByKey(lambda x, y: x + y) 

1.3.2.2 排序

records = spark.sparkContext.textFile(fil_name)
print("展平>>增加一列>>排序")
sorted_cnt = records.flatMap(lambda rec: rec.split(' '))\.map(lambda n: (int(n), 1)).sortByKey()
print(sorted_cnt.collect())
output = sorted_cnt.collect()

1.3.3 结构框架下的CSV数据

  • 链式操作
average_method1 = df.groupBy('city').agg(sql_func.avg('age').alias('average'))
average_method1.show()
  • spark.sql 操作
    需要创建视图
df.createOrReplaceTempView('df_tbl')
average_method2 = spark.sql("select city, avg(age) avg_age from df_tbl group by city")
average_method2.show()
spark.stop()

参考: https://github.com/mahmoudparsian/pyspark-algorithms

http://www.jmfq.cn/news/5051161.html

相关文章:

  • 网站要做手机版怎么做/做一个企业网站大概需要多少钱
  • 商务网站页面设计技术/建设公司网站大概需要多少钱?
  • 网站备案找哪个部门/最新军事动态最新消息
  • 找公司开发网站/制作一个简单的html网页
  • 济源建设企业网站公司/网站数据分析
  • 东昌府网站建设公司/社交网络推广方法
  • wordpress内链插件/宝鸡seo外包公司
  • 网站备案帐号/seo赚钱项目
  • 网上学编程的有哪些比较好的网站/网络推广与优化
  • 做动态表情包的网站/西安今日头条新闻
  • 淄博网站制作建设/网络推广公司方案
  • 网站建设实训报告模板/视频营销
  • 网站正在建设中界面设计/找培训机构的平台
  • 十元精品店做网站/佛山网站建设方案咨询
  • 徐州学习网站建设/百度网站下拉排名
  • 哪些网站可以做推广/短视频新媒体推广
  • wordpress 声明子主题/苏州seo推广
  • 采购网站建设招标方案/北京网站外包
  • 网站设计制作的服务和质量/网络营销策划方案怎么做
  • 企业网站需要在电信做哪些备案/惠州seo关键词排名
  • 网页设计素材哪里找/重庆网站seo诊断
  • 建设网站要多少钱/学网络营销去哪个学校
  • 南京网站建设与维护/应用商店优化
  • 沈阳做网站怎样收费/软文推广渠道主要有
  • 二手书网站建设策划书/推广自己产品的文案
  • 做网站 长/广州网站营销推广
  • 青岛网站制作公司 网络服务/武汉网站建设推广公司
  • 南阳seo网站排名优化/seo查询系统
  • 任县网站制作/安卓优化大师官网
  • 广州一次做网站/微博营销的特点