13518219792

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

PySpark常见类库及名词解释

哈喽大家好,我是了不起。

创新互联是专业的丰镇网站建设公司,丰镇接单;提供成都网站设计、网站制作,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行丰镇网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!

PySpark是一个非常复杂的系统,我们初次接触就会感觉有很多的名词或者简称,今天就带大家看一下常见的类库和名词的解释,也是方便大家统一收藏,方便后续查找,先了解单一名词的解释,有利于快速的理解整个PySpark的运行机制。

PySpark核心类

Spark的基本概念

Application由多个Job组成,Job由多个Stage组成,Stage由多个Task组成。Stage是作业调度的基本单位。

RDD操作的两种类型

RDD的操作有两种类型,即Transformation操作和Action操作。转换操作是从已经存在的RDD创建一个新的RDD,而行动操作是在RDD上进行计算后返回结果到 Driver。

(1) Transformation操作:

用于对RDD的创建,还包括大量的操作方法,如map、filter、groupBy、join等,RDD利用这些操作生成新的RDD。

transformation都具有 Lazy 特性,即 Spark 不会立刻进行实际的计算,只会记录执行的轨迹,只有触发Action操作的时候,它才会根据 DAG 图真正执行。

(2) action操作:

数据执行部分,通过执行count、reduce、collect等真正执行数据的计算。RDD的lazy模式,使得大部分前期工作都在transformation时已经完成。

PySpark - MLlib

Apache Spark提供了一个名为MLlib的机器学习API。PySpark也在Python中使用这个机器学习API。它支持不同类型的算法。

总结

今天给大家带来的是PySpark常见类库和名词解释,了解这些最基础的名词以后,我们看大段的相关资料就不会犯难了。


新闻名称:PySpark常见类库及名词解释
网页链接:http://cdbrznjsb.com/article/ccdepph.html

其他资讯

让你的专属顾问为你服务