大数据实战三十课-Spark Streaming02

本文深入讲解Spark Streaming核心概念,包括mapWithState的使用、foreachRDD设计模式及案例、ConnectionPool优化,探讨Window编程与transform操作,助您掌握实时数据处理技巧。

第一章: 上次课回顾

第二章:mapWithState的使用

第三章:Window编程(了解)

第四章:tranform操作(重要)

第一章:上次课回顾

https://blog.csdn.net/zhikanjiani/article/details/100191911
我们首先要明白SparkStreaming是对core的一个扩展,目的为了处理实时数据。
1、Spark:以批处理为主,用微批处理来处理流数据;
2、Flink:以流处理为主,用流处理来处理批数据;

Spark streaming已经不加入新特性了,结构化流编程方式类似DF、DS。

数据是从外部接进来:注意有无Receiver(local[1]和local[2]的区别),数据源接进来后会变成InputDStream;
有无Receiver打开源码就能知道;

Source进来后就变成了 --> DStream(一系列的RDD) --> Transformation --> Output;

DStream做任何一个Transformation其实就是对一系列的RDD作用上相同的算子。
编程的入口点是StreamingContext。

Core的数量一定是要大于Receiver的数量,否则接收到的数据是无法进行后续处理。

完成从某一个时间到当前时间段的,要使用更新UpdateStateByKey,要使用checkpoint指定输出路径,但是会产生小文件,解决是写到外部数据库中去。

第二章:mapWithState的使用

UpdateStateByKey是老版本中的,新版本中推荐我们使用mapWithState.

注意:它是一个实验性的算子。

package SparkStreaming02

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, State, StateSpec, StreamingContext}

object Test {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("TestApp").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf,Seconds(10))
    ssc.checkpoint(".")
    
    val  lines = ssc.socketTextStream("hadoop002",8888)

    val result = lines.flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_)

    val mappingFunc = (word: String, value: Option[Int], state: State[Int]) => {
          val sum = value.getOrElse(0) + state.getOption().getOrElse(0)
          state.update(sum)
           (word,sum)
    }

    val state = result.mapWithState(StateSpec.function(mappingFunc))

    state.print()

    ssc.start()
    ssc.awaitTermination()
  }

}

测试:在hadoop002机器上:使用nc -lk 8888

  • 和updateStateByKey的区别是:UI展示的区别

在生产过程中关于处理结果肯定是输出到:RDBMS/NOSQL

2.1 数据写到外部存储系统中去

  • Output operations allow DStream’s data to be pushed out to external systems like a database or a file systems. Since the output operation actually allow the transformed data to be consumed by external systems, they trigger the actual execution of all the DStream transformations (similar to actions for RDDs)

翻译:允许DStream的数据push到外部存储系统,有如下算子:

生产上不建议使用如下三个算子,也不常用:

  1. saveAsTextFiles(prefix,suffix)
  2. saveAsObjectFiles(prefix,suffix)
  3. saveAsHadoopFiles(prefix,suffix)

foreachRDD(func):

概念:

  • The most generic(通用) output operator that applies a function(作用上一个函数),func, to each RDD generated(生成) from the stream.This function should push the data in each RDD to an external system(一个外部系统),such as saving the RDD to files(保存RDD到文件中), or writing it over the network to a database(通过网络传输把它写入到数据库).Note that the function (func) is executed in the driver process running the streaming application(运行Streaming程序的时候在Driver端执行的), and will usually have RDD actions in it that will force the computation of the streaming RDDs.

处理结果写到Mysql中,虚拟机中启动MySQL,使用数据库g6,创建数据库表:

1、g6数据库中创建wc数据表:
create table wc(
	word varchar(20) default null,
	cnt int(10)
)

查看foreachRDD方法描述:

1、Apply a function to each RDD in this DStream. This is an output operator, so
‘this’ DStream will be registered as an output stream and therefore materialized.

  • 作用函数到每一个RDD上去,这是一个输出操作,所以这个DStream将被注册以一个输出流以此来实现。

报错:要实现序列化,就引出了foreachRDD的设计模式:

2.2 使用foreachRDD的设计模式

  • dstream.foreachRDD is a powerful primitive(原始的) that allows data to be sent out to external systems(外部系统). However, it is important to understand how to use this primitive correctly and efficiently. Some of the common mistakes to avoid are as follows.

一些常见的误解如下:

  • Often writing data to external system requires creating a connection object(写数据到外部系统需要创建一个连接对象)(eg. TCP connection to a remote server)and using it to send data to a remote system(发送数据到远端系统). For this purpose, a developer may inadvertently(无意中) try creating a connection object at the Spark driver(在Spark Driver上创建一个链接对象), and then try to use it in a Spark worker to save records in the RDDs

如下这段代码是一个错误的示范:

dstream.foreachRDD { rdd => 
		val connection = createNewConnection()			//executed at the driver
		rdd.foreach {	record =>
			connection.send(record)				//executed at the worker
		}
		}
  • This is incorrect at this requires the connection object to be serialized and sent from the driver to the worker. Such connection objects are rarely transferable across machines(很少能跨机器间转移). This error may manifest as serialization errors(显示为序列化错误)(connection object not serializable), initialization errors (初始化错误)(connection object needs to be initialized at the workers), etc. The correct solution is to create the connection object at the worker.

  • However,this can lead to another common mistake - creating a new connection for every record. (会产生新的问题,每一条记录都会发起一个connection)

2.3 foreachRDD的案例

foreachRDD使用IDEA代码实现:

package SparkStreaming02

import java.sql.DriverManager

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, State, StateSpec, StreamingContext}

object Test {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("TestApp").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf,Seconds(10))
    ssc.checkpoint(".")

    val  lines = ssc.socketTextStream("hadoop002",8888)

    val result = lines.flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_)

    val mappingFunc = (word: String, value: Option[Int], state: State[Int]) => {
          val sum = value.getOrElse(0) + state.getOption().getOrElse(0)
          state.update(sum)
           (word,sum)
    }

    val state = result.mapWithState(StateSpec.function(mappingFunc))

//    state.print()


    state.foreachRDD(rdd => {
          val connection = getConnection()
          rdd.foreach(kv => {
            val sql = s"insert into wc(word,cnt) values ('${kv._1}','${kv._2}')"
            connection.createStatement().execute(sql)
          })

    })

    ssc.start()
    ssc.awaitTermination()
  }

  def getConnection()= {
    Class.forName("com.mysql.jdbc.Driver")
    DriverManager.getConnection("jdbc://mysql://hadoop002:3306/g6","root","960210")

  }

}

好的方式是使用foreachPartition:

思路:foreachRDD --> foreachPartiiton --> foreach

package SparkStreaming02

import java.sql.DriverManager

import org.apache.spark.SparkConf
import org.apache.spark.internal.Logging
import org.apache.spark.streaming.{Seconds, State, StateSpec, StreamingContext}

object Test extends Logging{
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("TestApp").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf,Seconds(10))
    ssc.checkpoint(".")

    val  lines = ssc.socketTextStream("hadoop002",8888)

    val result = lines.flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_)

    val mappingFunc = (word: String, value: Option[Int], state: State[Int]) => {
          val sum = value.getOrElse(0) + state.getOption().getOrElse(0)
          state.update(sum)
           (word,sum)
    }

    val state = result.mapWithState(StateSpec.function(mappingFunc))

//    state.print()


    state.foreachRDD((rdd,time) => {
         rdd.foreachPartition(partitionOfRecords => {
           if (partitionOfRecords.size > 0){
             val connection = getConnection()
             logError("--------")
             partitionOfRecords.foreach( kv => {
               val sql = s"insert into wc(word,cnt) values ('${kv._1}','${kv._2}')"
                connection.createStatement().execute(sql)
             })
             connection.close()

           }
         })

    })

    ssc.start()
    ssc.awaitTermination()
  }

  def getConnection()= {
    Class.forName("com.mysql.jdbc.Driver")
    DriverManager.getConnection("jdbc://mysql://hadoop002:3306/g6","root","960210")

  }

}

这段代码有点问题:size判断的问题。

解决办法如下:

dstream.foreachRDD {	rdd  => 
		rdd.foreach {	record =>
			val connection = createNewConnection()			//把connection移进来
			connection.send(record)
			connection.close()
		}
}


扩充打印日志级别为error:
object test extends Logging

This amortizes(平摊) the connection creation overheads(连接消耗开销) over many records.

测试:

代码修改完后:nc -lk 8888后开始测试:

每一条记录打开了一个connection,性能很低。

自己实现一个功能:k v time upsert

2.4 ConnectionPool的案例:

更好的方法是使用ConnectionPool:

  • Finally, this can be further optimized(优化) by reusing connection objects across multiple RDD/batches. One can maintain a static pool of a connection objects than can be reused as RDDs of multiple batches are pushed to the external system, thus further reducing the overheads.
  • 可以维护一个连接对象的静态池,当多个批的RDDs被推送到外部系统时,可以重用该连接对象,从而进一步减少开销。

IDEA编程:


代码还可以改进,加一个私有的pool,外部方法只能get和return;只暴露给外面两个方法。

一个partition中创建一个链接,如果分区数远大于线程池呢,要么等待,或者直接多拿点资源出来。

SparkStreaming写数据库的唯一一条正确的线路:

  • foreachRDD ==> foreachPartition ==> foreach

怎么写到HBase、MongoDB、Redis呢??

  • 学习永无止境,学习一种通用的方法。

第三章:Window编程(了解)

概念:

  • Spark Streaming also provides windowed computations, which allow you to apply transformations over a sliding window of data(数据滑动窗口). The following figure illustrates this sliding window.

在这里插入图片描述
time1 time2 time3 time4 time5,5个批次,一秒一个批次,第一个窗口统计的是time1到3的数据,第二个窗口统计的是time3到5的数据。

两个属性:
1、窗口长度(window length):

2、滑动间隔(sliding interval):

第四章:transform操作(重要)

transform(func):

  • Return a new DStream by applying a RDD-to-RDD function to every RDD of the source DStream.This can be used to do arbitrary RDD operations on the DStream.

目前是有一个DataStream,有一份数据是文本的,我们需要使用DStream和文本作关联操作,
DStream 和 RDD混合,怎么做处理?

val spamInfoRDD = ssc.sparkContext.newAPIHadoopRDD(....)	//RDD containing span information

val cleanDStream = wordCounts.tranform	{
	rdd.join(spamInfoRDD).filter(....)				// join data stream with spam information to do data cleaning
	.......
}

应用:黑名单 ==> 双写;我们正在处理一批日志,上了新业务,先上20%,这部分的数据怎么和原有的数据做区分;

我们通过hadoop002控制台:nc -lk 8888 输入一些信息:ruoze jepson 17er
以后不管再输入17er,打印出来的都会过滤掉17er这个信息。

package SparkStreaming02

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object TransformApp {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("TestApp").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf,Seconds(10))

    //TODO业务逻辑
    val lines = ssc.socketTextStream("hadoop002",8888)

    val blacks = List("17er")
    val blackRDD = ssc.sparkContext.parallelize(blacks).map( x => (x,true))

    /*我们控制台输入进来的数据laoer,3,2 --> (名字,年龄,性别)
      * ==>
      * (laoer,<laoer,3,2>)
     */
    val result = lines.map( x => (x.split(",")(0),x))
            .transform(rdd => {
        rdd.leftOuterJoin(blackRDD)
                .filter(x => x._2._2.getOrElse(false) == true)
                .map(x => x._2._1)      //laoer,3,2
      })

      result.print()

  }

}

这不是一个好的方式,我们去Spark UI上查看DAG图:
在这里插入图片描述

需要掌握的是:怎么样DStream转换成RDD和正常的RDD之间操作。

内容概要:本文档详细介绍了基于直驱永磁同步发电机(PMSG)的1.5MW风力发电系统在Simulink环境下的建模与仿真全过程,涵盖了风力机空气动力学模型、PMSG电磁特性建模、不可控整流与逆变电路、直流环节、空间矢量脉宽调制(SVPWM)技术以及核心控制策略的设计。重点实现了最大功率点跟踪(MPPT)控制以提升风能捕获效率,并构建了电压外环与电流内环协同工作的双闭环控制系统,通过仿真验证了系统在不同风速条件下稳定运行的能力及动态响应性能。; 适合人群:适用于具备电力系统、电机控制理论基础及Simulink仿真操作经验的研究生、科研人员和从事新能源发电系统开发的工程技术人员;特别适合正在进行风电系统建模、控制算法研究或完成相关毕业设计的专业人士。; 使用场景及目标:①深入理解直驱式PMSG风力发电系统的整体架构与工作机理;②掌握从物理部件建模到控制策略实现的完整Simulink仿真流程;③学习并复现MPPT控制、双闭环控制等关键技术方案;④为后续开展低电压穿越、并网稳定性分析、故障诊断等高级题提供可靠的仿真平台支撑。; 阅读建议:建议结合Matlab/Simulink软件动手实践,逐模块搭建模型,重点关注各控制环节的参数设计与调试方法,同时可参照文中提供的其他风电相关资源进行拓展学习与对比分析。
已经博主授权,源码转载自 https://pan.quark.cn/s/868afdd63918 在信息技术领域中,前端开发构成了Web应用程序构建的关键环节,而登录注册页面则是用户与网站进行互动的起始界面。"150款web登录注册页面模板(附带效果图+源码)"这一资源为前端工程师们提供了一系列预先设计的界面组件,支持他们迅速构建既美观又实用的登录及注册界面,从而有效缩减开发周期并增强工作效率。 这些模板囊括了多样化的风格和设计潮流,涵盖了扁平化设计、Material Design、渐变色彩、暗黑模式等,能够适应不同项目的特定要求。在设计中强调用户体验,通过科学的布局安排,提升了表单的便捷操作性和可辨识度,并且不忽视视觉层面的吸引力。设计师通常会关注自适应设计,保证页面在多种设备(涵盖手机、平板及桌面电脑)上均能呈现良好的视觉效果。 这些模板均配备了源代码,使得开发者得以深入探究并个性化定制每个构成部分,涉及HTML的页面构造、CSS的样式修饰以及JavaScript的交互逻辑。HTML主要承担着页面基础结构的搭建,CSS用于实现页面美化与布局控制,JavaScript则常用于处理表单验证和交互效果。对于那些精通这三种技术的开发者而言,他们可以根据个人需求对模板进行功能扩展和样式调整。 在实际部署时,登录注册页面通常需要集成基础的输入项,例如用户名、密码、电子邮箱等,并且必须重视安全性考量,诸如密码强度指引、验证码系统等。除此之外,为了优化用户体验,还可能集成记住密码、自动填充、社交平台登录(例如微信、QQ、微博)等功能。 在开发阶段,前端工程师还需关注Web标准和无障碍访问(WCAG)规范,确保页面的通用友好性,这包括视障、听障或其他有特殊需求的用户群体。具体措施涉及标...
源码直接下载地址: https://pan.quark.cn/s/9af8b9f95652 ### Multisim模型的导入和使用 ### 一、引言 随着电子设计自动化(EDA)工具的进步,Multisim已经成为电子工程师进行电路仿真、分析和设计的关键工具之一。借助Multisim,工程师们能够便捷地构建电路模型,并对电路进行仿真验证。本文将系统阐述如何在Multisim中导入并运用芯片仿真模型,这对于提升电子产品的研发效能具有显著价值。 ### 、Multisim中构建新元器件 构建新元器件是Multisim中的核心功能,特别是对于那些需要特定模型或无法从Multisim库中直接获取的元器件来说更为关键。以下为构建新元器件的具体流程: ##### 步骤1:录入元器件信息 在Multisim中启动“Component Wizard”,即元器件向导,开始创建新的元器件。首先需要录入元器件的基本资料,包括型号、主要功能、类型等。这些资料将有助于用户更高效地管理和检索元器件。 ##### 步骤2:录入封装信息 接下来需要设定元器件的封装信息。在这一环节中,用户需要依据实际芯片的封装规格来选择适宜的引脚数量。同时,还需明确是构建单一部件元器件还是复合部件元器件。如果是复合部件元器件,则必须确保引脚数量与符号中使用的引脚数量保持一致。 ##### 步骤3:录入符号信息 在此步骤中,用户可以编辑元器件在仿真过程中的显示符号。编辑符号可以通过三种途径进行:直接编辑、从数据库中复制现有符号或复制当前符号以备将来使用。编辑符号时应注重其在电路图中的可辨识度和清晰度。 ##### 步骤4:设定管脚参数 在该步骤中,用户需要参照数据手册上的管脚顺序为每个管脚命名,并选择恰当的类型。...
代码转载自:https://pan.quark.cn/s/7b1a6710052c Vivado 2018.2 与 ModelSim 的协同仿真操作 Vivado 2018.2 是由 Xilinx 公司开发的一款用于 FPGA 设计的工具,它包含了丰富的设计和仿真功能。然而,在实际应用过程中,用户可能会遇到其自带的仿真工具运行效率不高的问题。为了提升仿真效率并简化设计验证流程,可以考虑采用第三方仿真工具 ModelSim。ModelSim 是一款性能卓越且市场应用广泛的仿真软件,接下来的内容将详细阐述如何实现 Vivado 2018.2 与 ModelSim 的联合使用。 配置 ModelSim 的安装路径 在使用 Vivado 2018.2 时,首先需要配置 ModelSim 的安装位置。用户可以通过点击 Vivado 菜单中的“Tools”——>“Settings...”选项,然后在弹出的设置界面中,选择“Tool Settings”下的“3rd Party Simulators”选项卡。在“Install Paths”区域,找到“ModelSim”条目,并在此输入或选择 ModelSim 的具体安装路径。 执行器件库编译操作 在 ModelSim 的安装目录下,创建一个名为 xilinx_lib 的子文件夹。随后,在 Vivado 菜单中通过“Tools”——>“Compile Simulation Libraries...”选项启动器件库编译流程,并设定相应的编译参数。在打开的对话框里,将仿真工具选择为“ModelSim Simulator”,保持语言和库的默认设置不变,同时指定编译器件库的存放位置和 ModelSim 可执行文件的路径。 ...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值