科普SparkSpark是什么如何使用Spark

Posted 操作

篇首语:不戚戚于贫贱,不汲汲于富贵。本文由小常识网(cha138.com)小编为大家整理,主要介绍了科普SparkSpark是什么如何使用Spark相关的知识,希望对你有一定的参考价值。

科普SparkSpark是什么如何使用Spark

科普SparkSpark是什么如何使用Spark  以下文字资料是由(本站网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!

科普Spark,Spark是什么,如何使用Spark

1.Spark基于什么算法的分布式计算(很简单)

2.Spark与MapReduce不同在什么地方

3.Spark为什么比Hadoop灵活

4.Spark局限是什么

5.什么情况下适合使用Spark

什么是Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

其架构如下图所示:

Spark与Hadoop的对比

Spark的中间数据放到内存中,对于迭代运算效率更高。

Spark更适合于迭代运算比较多的ML和DM运算。

因为在Spark里面,有RDD的抽象概念。

Spark比Hadoop更通用

Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。

比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,Spark把这些操作称为Transformations。

同时还提供Count, collect, reduce, lookup, save等多种actions操作。

这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便。

各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。

用户可以命名,物化,控制中间结果的存储、分区等。

可以说编程模型比Hadoop更灵活。

不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。

就是对于那种增量修改的应用模型不适合。

容错性

在分布式数据集计算时通过checkpoint来实现容错,而checkpoint有两种方式,一个是checkpoint data,一个是logging the updates。

用户可以控制采用哪种方式来实现容错。

可用性

Spark通过提供丰富的Scala, Java,Python API及交互式Shell来提高可用性。

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写,同样支持Spark on YARN。

Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。

Spark的适用场景

Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。

需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数据库架构中这是是否考虑使用Spark的重要因素)

由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。

就是对于那种增量修改的应用模型不适合。

总的来说Spark的适用面比较广泛且比较通用。

运行模式

本地模式

Standalone模式

Mesoes模式

yarn模式

Spark生态系统

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口,为了最大程度的保持和Hive的兼容性,Shark使用了Hive的API来实现query Parsing和 Logic Plan generation,最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。

通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。

同时,Shark通过UDF用户自定义函数实现特定的数据分析学习算法,使得SQL数据查询和运算分析能结合在一起,最大化RDD的重复使用。

Spark streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。

Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+)可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),RDD数据集更容易做高效的容错处理。

此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。

方便了一些需要历史数据和实时数据联合分析的特定应用场合。

Bagel: Pregel on Spark,可以用Spark进行图计算,这是个非常有用的小项目。

Bagel自带了一个例子,实现了Google的PageRank算法。

End.

相关参考

中学生的科普小论文

青少年科技活动充满趣味性、探索性、好奇性和创造性,积极开展科技活动是贯彻实施以培养创新意识为核心的素质教育的一个重要渠道。科技小论文是科技活动的总结,是在科技实践活动的基础上进行分析归纳、演绎推理、类

知识科普:你知道历史上的36个地理常识吗?

1【中国】现为中华人民共和国简称。但在古代文献中它是一个多义性的词组。从春秋战国至宋元明清,多用来泛指中原地区。如孟子《齐桓晋文之事》:“莅中国而抚四夷也。”司马光《赤壁之战》:“若能以吴、越之众与中

科普:世界七大奇蹟你瞭解嗎

一:胡夫金字塔建造時間:約公元前2631年—公元前2498年胡夫金字塔是古埃及金字塔中最大的金字塔。塔高146.59米,因年久風化,頂端剝落10米,現高136.5米,相當於40層大廈高。金字塔不是由外

科普一下祝册、玉册、封册、哀册、赠册、谥册、免册等都是什么

册,又叫做册文、策、册书、策书,册原是指编在一起的竹简,后来逐渐成为皇帝的御用文体。唐以前「”册”、「”策”混用,唐代正式确立「”册”的文种,一开始只是皇帝封赠臣下所用,慢慢应用越来越繁杂,按照册文的

隋朝50年科普,隋炀帝醒悟时已为时已晚

上篇文章我们聊了当时北周是如何一步一步变成隋朝的。其实先说一下隋朝,唐朝和北周是一脉相承,根本都是一个‘关陇贵族集团’所形成的一个新的朝代,或者中国的王朝从秦汉开始一直到南边的南朝宋齐梁陈,中国的第一

科普知识:中国人最易误解的十大历史常识

导读:被误解的十大历史常识,你知道吗?小编给大家整理了一些,普及下一直被误解的历史常识,盘点人们日常中最易误解的历史常识,我们看下有哪些?1、古代的和尚不吃“荤”真的指不吃肉吗?这种看法是日常生活中最

谁来科普下三菱发动机的历史和型号性能

事先说明:以下所涉及的三菱发动机代号均为在中国(DAE、SAME)制造的发动机所使用的代号1,代号与排量挂钩。4G13发动机排量1.3L,4G15发动机排量1.5L。那么4G18发动机排量就应该是1.

赫舍里现在姓什么,谁能科普一下赫舍里姓氏,据说满族的赫舍里

谁能科普一下赫舍里姓氏,据说满族的赫舍里网上有很多赫舍里家族的介绍,不妨去搜一下看看。各赫舍里分支有自己的迁徙史、发展史及家谱家族排字,还有一些隐秘的家族史,一般不会对外人开放。Bimanjvhese

对高高在上的转基因科普精英们说几句话

  首先,表明一下我的立场,我既不挺转,也不反转,因为我对转基因知之甚少,转基因对我来说只是一个模糊的概念。但我坚决不主动购买转基因食品,不过,如果家里有人买了转基因大豆油之类的话,我也不会生气,也是

這套入圍英國皇家科學獎的科普書,孩子為什麼會看上癮

育兒過程中,最讓老母親心累的場景,莫過於娃揪住一個問題刨根問底。比如,有一次四歲的娃問我:「媽媽,魚為什麼生活在水裡?」我答:「因為魚一旦離開了水,就不能正常呼吸,時間久了會死掉。」娃又問:「那它為什