spark exactly once 语义随笔

Spark具备很好的机制来保证exactly once的语义,具体体现在数据源的可重放性、计算过程中的容错性、以及写入存储介质时的幂等性或者事务性。exactly once指的是在处理数据的过程中,系统有很好的容错性(fault-tolerance),能够保证数据处理不重不丢,每一条数据仅被处理一次。

语言所蕴含的意义就是语义(semantic)。简单的说,符号是语言的载体。符号本身没有任何意义,只有被赋予含义的符号才能够被使用,这时候语言就转化为了信息,而语言的含义就是语义。
语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。

一、三种语义

spark exactly once 语义是spark很重要的一个概念。分布式系统中都基本上会有三种关键的语义

  • at most once:至多一次,数据可能会丢,但不会重复
  • at least once:至少一次,数据肯定不会丢失,但可能重复
  • exactly once:有且只有一次,数据不丢失不重复,且只出现一次; 该语义是最理想的,但也难以实现

Spark具备很好的机制来保证exactly once的语义,具体体现在数据源的可重放性、计算过程中的容错性、以及写入存储介质时的幂等性或者事务性。exactly once指的是在处理数据的过程中,系统有很好的容错性(fault-tolerance),能够保证数据处理不重不丢,每一条数据仅被处理一次。

一个典型的 Spark Streaming 应用程序会包含三个处理阶段:接收数据、处理汇总、输出结果。每个阶段都需要做不同的处理才能实现相应的语义

二、接收数据 – 数据源的可重放性

取决于上游数据源的特性

  • HDFS 这类支持容错的文件系统中读取文件,能够直接支持 Exactly-once 语义。
  • 上游消息系统支持 ACK(如RabbitMQ),我们就可以结合 Spark 的 Write Ahead Log 特性来实现 At-least-once 语义。
  • 非可靠的数据接收器(如 socketTextStream),当 Worker 或 Driver 节点发生故障时就会产生数据丢失,提供的语义也是未知的。
  • Kafka 消息系统是基于偏移量(Offset)的,它的 Direct API 可以提供 Exactly-once 语义

SparkStreaming接入Kafka的数据有两种模式

一种为Receiver模式,一种为Direct模式。

Receiver模式

Receiver模式都不能够实现exactly once的语义,其根本原因是Kafka自己管理的offset与SparkStreaming实际处理数据的offset没有同步导致的。

Receiver模式采用Kafka的高阶consumer API,Kafka自己封装了对数据的获取逻辑,且通过Zookeeper管理offset信息,这种模式在与SparkStreaming对接时,有以下特点:

  1. Kafka中的partition数量与SparkStreaming中的并行度不是一一对应的,SparkStreaming通过创建Receiver去读取Kafka中数据,createStream()方法传入的并发参数代表的是读取Kafka中topic+partition的线程数,并不能提高SparkStreaming读取数据的并行度。
  2. Kafka自己管理offset,Receiver作为一个高层的Consumer来消费数据,其消费的偏移量(offset)由Kafka记录在Zookeeper中,一旦出现错误,那些已经标记为消费过的数据将会丢失。
  3. Receiver模式下,为了解决读取数据时的并行度问题,可以创建多个DStream,然后union起来
  4. 为了解决数据丢失的问题,可以选择开启Spark的WAL(write ahead log)机制,每次处理数据前将预写日志写入到HDFS中,如果节点出现错误,可以从WAL中恢复。这种方法其实效率低下,不仅数据冗余(Kafka中有副本机制,Spark中还要存一份),且无法保证exactly once,数据可能重复消费。

Direct模式

Spark1.3中引入了Direct模式来替代Receiver模式,它使用Kafka的Simple consumer API,由Spark应用自己管理offset信息,以达成exactly once的语义,其特点如下:

  1. Kafka中的partition与SparkStreaming中的partition一一对应,也就是SparkStreaming读取数据的并行度取决于Kafka中partition的数量。
  2. 不依赖Receiver,而是通过低阶api直接找到topic+partition的leader获取数据,并由SparkStreaming应用自己负责追踪维护消费的offset。
  3. Direct模式下,SparkStreaming应用管理offset的方法案例,其中offset依然是存放在zookeeper中,但是由应用自身来管理的,offset也可以放在Redis、MySQL、HBase中进行管理,根据具体情况进行选择。

转化或汇总 – 计算过程中的容错性

Spark RDD 本身就是一种具备容错性、不变性、以及计算确定性的数据结构。只要数据来源是可用的,且处理过程中没有副作用(Side effect),我们就能一直得到相同的计算结果;撇去Driver与Executor的高可用性不说,Spark应用内部则采用checkpoint和lineage的机制来确保容错性。

lineage

一般翻译为血统,简单来说就是RDD在转化的过程中,由于父RDD与子RDD存在依赖关系(Dependency),从而形成的lineage,也可以理解为lineage串起了RDD DAG。

RDD可以进行缓存,通过调用persist或者cache方法,将RDD持久化到内存或者磁盘中,这样缓存的RDD就可以被保留在计算节点的内存中被重用,缓存是构建Spark快速迭代的关键。

当一个RDD丢失的情况下,Spark会去寻找它的父RDD是否已经缓存,如果已经缓存,就可以通过父RDD直接算出当前的RDD,从而避免了缓存之前的RDD的计算过程,且只有丢失数据的partition需要进行重算,这样Spark就避免了RDD上的重复计算,能够极大的提升计算速度。

缓存虽然可以提升Spark快速迭代计算的速度,但是缓存是会丢失的。

checkpoint

检查点机制就是为了可以切断lineage的依赖关系,在某个重要的节点,将RDD持久化到文件系统中(一般选择HDFS),这样就算之前的缓存已经丢失了,也可以保证检查点数据不会丢失,这样在恢复的时候,会直接从检查点的数据开始进行计算,检查点机制在SparkStreaming这种流式计算中发挥的作用会更大。

可以通过以下源码为入口进一步了解Spark的缓存和检查点机制,RDD在进行计算的时候会调用其iterator方法,在该方法中会首先去读取缓存的数据,如果没有缓存的数据则会去读取checkpoint的数据

final def iterator(split: Partition, context: TaskContext): Iterator[T] = {
  if (storageLevel != StorageLevel.NONE) {
    getOrCompute(split, context)
  } else {
    computeOrReadCheckpoint(split, context)
  }
}

Spark在计算过程中采用的lineage和checkpoint机制相互结合,取长补短,再加上Spark各个组件底层本身就是具有高可用性,所以在Spark应用在转化计算的过程中,可是保证数据处理的exactly once。

结果输出 – 写入存储介质的幂等性或事务性

幂等更新

  • 多次写入会产生相同的结果数据,我们可以认为这类写入操作是幂等的;saveAsTextFile 就是一种典型的幂等写入
  • 幂等写入只适用于 Map-only 型的计算流程,即没有 Shuffle、Reduce、Repartition 等操作
  • 对 Kafka DStream 做一些额外设置:
    1. 将 enable.auto.commit 设置为 false。默认情况下,Kafka DStream 会在接收到数据后立刻更新自己的偏移量,我们需要将这个动作推迟到计算完成之后。
    2. 打开 Spark Streaming 的 Checkpoint 特性,用于存放 Kafka 偏移量。但若应用程序代码发生变化,Checkpoint 数据也将无法使用,这就需要改用在数据输出之后手动提交 Kafka 偏移量。HasOffsetRanges 类,以及 commitAsync API 可以做到这一点
      messages.foreachRDD { rdd =>
        val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
        rdd.foreachPartition { iter =>
          // output to database
        }
        messages.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
      }

事务更新

  • 务型写入时,我们需要生成一个唯一 ID,这个 ID 可以使用当前批次的时间、分区号、或是 Kafka 偏移量来生成
dstream.foreachRDD { (rdd, time) =>
  rdd.foreachPartition { partitionIterator =>
    val partitionId = TaskContext.get.partitionId()
    val uniqueId = generateUniqueId(time.milliseconds, partitionId)
    // use this uniqueId to transactionally commit the data in partitionIterator
  }
}
  • 通常会在 foreachPartition 方法中来执行数据库写入操作。对于 Map-only 流程来说是适用的
  • 这种流程下 Kafka 分区和 RDD 分区是一一对应的,我们可以用以下方式获取各分区的偏移量:
messages.foreachRDD { rdd =>
  val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
  rdd.foreachPartition { iter =>
    val offsetRange = offsetRanges(TaskContext.get.partitionId)
  }
}
  • 对于包含 Shuffle 的计算流程(如上文的错误日志统计),我们需要先将处理结果拉取到 Driver 进程中,然后才能执行事务操作;如果偏移量写入失败,或者重复处理了某一部分数据(offset != $fromOffset 判断条件不通过),该事务就会回滚,从而做到 Exactly-once。
messages.foreachRDD { rdd =>
  val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
  val result = processLogs(rdd).collect() // parse log and count error
  DB.localTx { implicit session =>
    result.foreach { case (time, count) =>
      // save to error_log table
    }
    offsetRanges.foreach { offsetRange =>
      val affectedRows = sql"""
      update kafka_offset set offset = ${offsetRange.untilOffset}
      where topic = ${topic} and `partition` = ${offsetRange.partition}
      and offset = ${offsetRange.fromOffset}
      """.update.apply()

      if (affectedRows != 1) {
        throw new Exception("fail to update offset")
      }
    }
  }
}

exactly once固然是个理想的状态,但其实现成本也是非常高的,在对数据可靠性要求不是很高的场景中,at-least-once甚至丢失少量数据也是可以作为一个选项考虑的

总结

官方已经不再推荐使用Receiver模式

Receiver接收方式

  • 多个Receiver接受数据效率高,但有丢失数据的风险
  • 开启日志(WAL)可防止数据丢失,但写两遍数据效率低。
  • Zookeeper维护offset有重复消费数据可能。
  • 使用高层次的API

Direct直连方式

  • 不使用Receiver,直接到kafka分区中读取数据
  • 不使用日志(WAL)机制
  • Spark自己维护offset
  • 使用低层次的API

spark Accumulator AccumulatorV2 累加器学习随笔

spark Accumulator AccumulatorV2 累加器是Spark的核心数据结构之一 — Spark的三大核心数据结构:RDD、累加器(只写不读)、广播变量(只读不写),累加器在不同的spark版本中有不一样的具体实现逻辑

spark累加器图示

spark Accumulator AccumulatorV2 累加器是Spark的核心数据结构之一 — Spark的三大核心数据结构:RDD、累加器(只写不读)、广播变量(只读不写),累加器在不同的spark版本中有不一样的具体实现逻辑;而累加器的基本逻辑过程如下

  1. 自定义变量在Spark中运算时,会从Driver中复制一份副本到Executor中运算,但变量的运算结果并不会返回给Driver,所以无法实现自定义变量的值改变,一直都是初始值,所以针对这个问题,引入了累加器的概念;
  2. 系统累加器longAccumulator和自定义累加器(extends AccumulatorV2[类型,类型])实际都是两步,new累加器,然后sc.register注册累加器;
  3. 先在Driver程序中创建一个值为0或者空的累加器对象,Task运算时,Executor中会copy一份累加器对象,在Executor中进行运算,累加器的运算结果返回给Driver程序并合并Merge,得出累加器最终结果
  4. 累加器.add(元素);具体对元素的操作包括数据sum、增加、删减、筛选等要求,都可以写在自定义累加器的.add()方法中。

Spark API

  • spark API的地址都可以在该网址中找到: https://spark.apache.org/docs/
  • 点击想要看到的版本,页面打导航栏有 API Docs ,点击想要了解的语言名称即可,例如点击 Scala,则进入对应的API地址 : https://spark.apache.org/docs/2.0.0/api/scala/index.html#org.apache.spark.package
  • 我们查看具体的类和方法的时候就特别注意一个单词 【Deprecated】,它有时候会出现类声明的最开始 Annotations,或者直接在具体的方法说明中出现。当出现这个单词的时候就意味着这个类或者方法在以后的版本中要慢慢被弃用或者替代

Accumulator 和 AccumulatorParam

Spark1.x 中实现累加器需要用到类 Accumulator和 AccumulatorParam。以spark1.6.3为例,内置数值类型的累加器用Accumulator类,而自定义累加器需要继承接口AccumulatorParam ,并实现相应的方法,而在2.0版本之后这个方式开始不再推荐使用了。

    // 在类的声明中出现了如下的说明,也就是该类将被 AccumulatorV2 所替代。
    Annotations @deprecated
    Deprecated (Since version 2.0.0) use AccumulatorV2
    trait AccumulatorParam[T] extends AccumulableParam[T, T]

While this code used the built-in support for accumulators of type Int, programmers can also create their own types by subclassing AccumulatorParam. The AccumulatorParam interface has two methods: zero for providing a “zero value” for your data type, and addInPlace for adding two values together. For example, supposing we had a Vector class representing mathematical vectors, we could write:

object VectorAccumulatorParam extends AccumulatorParam[Vector] {
  def zero(initialValue: Vector): Vector = {
    Vector.zeros(initialValue.size)
  }
  def addInPlace(v1: Vector, v2: Vector): Vector = {
    v1 += v2
  }
}

// Then, create an Accumulator of this type:
val vecAccum = sc.accumulator(new Vector(...))(VectorAccumulatorParam)

AccumulatorV2

从spark2.0开始自定义累加器的实现不再提倡使用AccumulatorParam, 而是使用AccumulatorV2, 自定义类继承AccumulatorV2,并重写其固定的几个方法

  • reset:用于重置累加器为0
  • add:用于向累加器加一个值
  • merge:用于合并另一个同类型的累加器到当前累加器
  • copy():创建此累加器的新副本
  • isZero():返回该累加器是否为零值
  • value():获取此累加器的当前值
def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setMaster("local[*]").setAppName("Application")
        //构建Spark上下文对象
        val sc = new SparkContext(conf)

        //创建累加器
        val sum = new MyAccumulator()

        //注册累加器
        sc.register(sum,"accumulator")

        val rdd = sc.makeRDD(Array(1,2,3,4,5))

        rdd.map(item=>{
            sum.add(item)
        }).collect()
        println("sum = "+sum.value)

        //释放资源
        sc.stop()
    }

//自定义累加器
class MyAccumulator extends AccumulatorV2[Int,Int]{
    var sum = 0

    //1. 是否初始状态(sum为0表示累加器为初始状态)
    override def isZero: Boolean = sum == 0

    //2. 执行器执行时需要拷贝累加器对象(把累加器对象序列化后,从Driver传到Executor)
    override def copy(): AccumulatorV2[Int,Int] = {
        val mine = new MyAccumulator
        mine
    }

    //3. 重置数据(重置后看当前累加器是否为初始状态)
    override def reset(): Unit = sum = 0

    //累加数据
    override def add(v: Int): Unit = {
        sum = sum + v
    }

    //合并计算结果数据(把所有Executor中累加器value合并)
    override def merge(other: AccumulatorV2[Int, Int]): Unit = {
        sum = sum + other.value
    }

    //累加器的结果
    override def value: Int = sum
}

gradle idea 基础入门

一、环境参数

  1. MacBook Pro (13-inch, M1, 2020) Apple M1
  2. java version “1.8.0_291”
  3. Gradle 7.5.1
  4. IntelliJ IDEA 2022.2.2 (Community Edition)

二、基本命令

指令 作用
gradle clean 清空build目录
gradle classes 编译业务代码和配置文件
gradle test 编译测试代码,生产测试报告
gradle build 构建项目
gradle build -x test 跳过测试构建构建

三、修改maven下载源

主要通过两个方式修改maven的下载源。

  • 第一种是全局修改,在开发环境中电脑上修改GRADEL_HOME下的配置文件;
  • 第二种是针对单一项目修改maven源

    1、全局修改 – init.gradle文件

    ==在windows环境下的gradle_home 目录下默认有一个init.d的文件夹;而macos中是没有的init.d文件夹,但是不影响整体的配置效果,Macos用户只需要收到创建对应的文件夹即可==

  • 在 gradle 的 init.d 目录下创建以.gradle 结尾的文件,.gradle 文件可以实现在 build 开始之前执行
  • 在 init.d 文件夹创建 init.gradle 文件,文件内容如下
    allprojects { 
    repositories {
        mavenLocal()
        maven { 
            name "Alibaba" ; 
            url "https://maven.aliyun.com/repository/public" 
        } 
        maven { 
            name "Bstek" ; 
            url "https://nexus.bsdn.org/content/groups/public/" 
        } 
        mavenCentral()
    }
    buildscript { 
    repositories {
        maven { 
            name "Alibaba" ; 
            url 'https://maven.aliyun.com/repository/public'
        } 
        maven { 
            name "Bstek" ; 
            url 'https://nexus.bsdn.org/content/groups/public/'
            } 
        maven { 
            name "M2" ; 
            url 'https://plugins.gradle.org/m2/'
        }
    } }
    }

    ==allprojects 是对所有 project(包括 Root Project+ child Project[当前工程和所有子工程])的进行统一配置,而 subprojects 是对所有 Child Project 的进行统一配置。==
    如果是直接在根 project 配置 repositories 和 dependencies 则只针对根工程有效。

  • 启用 init.gradle 文件的方法有以下说明
1.在命令行指定文件,例如:gradle --init-script yourdir/init.gradle -q taskName。你可以多次输入此命令来指定多个init文件 
2.把init.gradle文件放到 USER_HOME/.gradle/ 目录下
3.把以.gradle结尾的文件放到 USER_HOME/.gradle/init.d/ 目录下
4.把以.gradle结尾的文件放到 GRADLE_HOME/init.d/ 目录下
如果存在上面的4种方式的2种以上,gradle会按上面的1-4序号依次执行这些文件,
如果给定目录下存在多个init脚本,会按拼音a-z顺序执行这些脚本,每个init脚本都存在一个对应的gradle实例,
你在这个文件中调用的所有方法和属性,都会 委托给这个gradle实例,每个init脚本都实现了Script接口。
  • 仓库说明
mavenLocal(): 指定使用maven本地仓库,而本地仓库在配置maven时settings文件指定的仓库位置。如E:/repository,gradle 查找jar包顺序如下:USER_HOME/.m2/settings.xml >> M2_HOME/conf/settings.xml >> USER_HOME/.m2/repository
mavenCentral():这是Maven的中央仓库,无需配置,直接声明就可以使用
gradle可以通过指定仓库地址为本地maven仓库地址和远程仓库地址相结合的方式;默认在 USER_HOME/.gradle/caches目录,当然如果我们配置过GRADLE_USER_HOME环境变量,则会放在 GRADLE_USER_HOME/caches目录
那么可不可以将gradle caches指向maven repository。我们说这是不行的,caches下载 文件不是按照maven仓库中存放的方式
  • 阿里云仓库地址请参考:https://developer.aliyun.com/mvn/guide
  • GRALE_USER_HOME 相当于配置 Gradle 本地仓库位置和 Gradle Wrapper 缓存目录。没有配置过 GRALE_USER_HOME 环境变量,默认在当前用户家目录下的.gradle 文件夹中

2、局部修改 – build.gradle 文件

每个gradle项目目录下会有一个build.gradle文件,它可以通过与init.gradle文件一下的配置内容来执行maven的下载源头

  • uild.gradle 是一个 gradle 的构建脚本文件,支持 java、groovy 等语言。
  • 每个 project 都会有一个 build.gradle 文件,该文件是项目构建的入口,可配置版本、插件、依赖库等信息。
  • 每个 build 文件都有一个对应的 Project 实例,对 build.gradle 文件配置,本质就是设置 Project 实例的属性和方法。
  • 由于每个 project 都会有一个 build 文件,那么 Root Project 也不列外.Root Project 可以获取到所有 Child Project,所以在
    Root Project 的 build 文件中我们可以对 Child Project 统一配置,比如应用的插件、依赖的 maven 中心仓库等。

2.1 常见属性

//指定使用什么版本的JDK语法编译源代码,跟编译环境有关,在有java插件时才能用
sourceCompatibility = 1.8 //指定生成特定于某个JDK版本的class文件:跟运行环境有关,在有java插件时才能用
targetCompatibility = 1.8 
//业务编码字符集,注意这是指定源码解码的字符集[编译器] 
compileJava.options.encoding "UTF-8"
//测试编码字符集,注意这是指定源码解码的字符集[编译器] 
compileTestJava.options.encoding "UTF-8"
//编译JA VA文件时采用UTF-8:注意这是指定源码编码的字符集【源文件】 
tasks.withType(JavaCompile) {
    options.encoding = "UTF-8" 
}
//编译JA VA文件时采用UTF-8:注意这是指定文档编码的字符集【源文件】 
tasks.withType(Javadoc) {
    options.encoding = "UTF-8" 
}

2.2 Repositories

repositories { 
//gradle中会按着仓库配置的顺序,从上往下依次去对应的仓库中找所需要的jar包: //如果找到,则停止向下搜索,如果找不到,继续在下面的仓库中查找 //指定去本地某个磁盘目录中查找:使用本地file文件协议:一般不用这种方式
maven { 
    url 'file:///D:/repos/mavenrepos3.5.4'
}
maven { url "$rootDir/lib/release" }
//指定去maven的本地仓库查找
mavenLocal()
//指定去maven的私服或者第三方镜像仓库查找
maven { name "Alibaba" ; url "https://maven.aliyun.com/repository/public" }
maven { name "Bstek" ; url "https://nexus.bsdn.org/content/groups/public/" } //指定去maven的远程仓库查找:即 https://repo.maven.apache.org/maven2/ mavenCentral()
//去google仓库查找
google()
}

2.3 ext 用户自定义属性

//自定义一个Project的属性 
ext.age = 18 
//通过代码块同时自定义多个属性 
ext {
    phone = 19292883833
    address="北京尚硅谷"
}
task extCustomProperty { 
//在task中自定义属性 
    ext {
        desc = "奥利给"
        }
    doLast {
        println "年龄是:${age}" 
        println "电话是:${phone}" 
        println "地址是:${address}" 
        println "尚硅谷:${desc}"
    }
}

2.4 gradle.properties

ext 配置的是用户自定义属性,而 gradle.properties 中一般定义 系统属性、环境变量、项目属性、JVM 相关配置 信息。
详细请参考:https://docs.gradle.org/current/userguide/build_environment.html#sec:gradle_configuration_properties

## 设置此参数主要是编译下载包会占用大量的内存,可能会内存溢出 
org.gradle.jvmargs=-Xms4096m -Xmx8192m
## 开启gradle缓存
org.gradle.caching=true
#开启并行编译 
org.gradle.parallel=true 
#启用新的孵化模式 
org.gradle.configureondemand=true
#开启守护进程 
org.gradle.daemon=true

2.5 Buildscript

  • buildscript 里是 gradle 脚本执行所需依赖,分别是对应的 maven 库和插件
  • buildscript{}必须在 build.gradle 文件的最前端
  • 对于多项目构建,项目的 buildscript()方法声明的依赖关系可用于其所有子项目的构建脚本
  • 构建脚本依赖可能是 Gradle 插件

案例1:

import org.apache.commons.codec.binary.Base64 
buildscript {
    repositories {   
        mavenCentral()
    } 
    dependencies {
        classpath group: 'commons-codec', name: 'commons-codec', version: '1.2
    }
} 

tasks.register('encode') {
    doLast {
        def byte[] encodedString = new Base64().encode('hello world\n'.getBytes()) 
        println new String(encodedString)
    }
}

案例2:

//老式apply插件的引用方式,使用apply+buildscript 
buildscript {
    ext {
        springBootVersion = "2.3.3.RELEASE"
    } 
    repositories {
        mavenLocal()
        maven { url 'http://maven.aliyun.com/nexus/content/groups/public' } 
        jcenter()
    } //此处引入插件
    dependencies { 
        classpath("org.springframework.boot:spring-boot-gradle-plugin:${springBootVersion}")
    }
}
apply plugin: 'java' //核心插件,无需事先引入
apply plugin: 'org.springframework.boot' //社区插件,需要事先引入,才能应用,不必写版本号

四、Wrapper 包装器

Gradle Wrapper 实际上就是对 Gradle 的一层包装,用于解决实际开发中可能会遇到的不同的项目需要不同版本的 Gradle 问题;
新建的Gradle项目都会有一个gradle文件夹,如下,它的子目录是wrapper,而wrapper文件夹下有gradle-wrapper.jar和gradle-wrapper.properties两个文件

.
├── build.gradle
├── gradle
│   └── wrapper
│       ├── gradle-wrapper.jar
│       └── gradle-wrapper.properties
├── gradlew
├── gradlew.bat
├── settings.gradle
└── src
    ├── main
    │   ├── java
    │   │   └── org
    │   │       └── lifefunker
    │   │           └── Main.java
    │   └── resources
    └── test
        ├── java
        └── resources
  1. 何时使用 gradle wrapper?
    • 本地电脑没有gradle
    • 电脑已有gradle版本过旧
  2. 如何使用 gradle wrapper?
    • 项目中的gradlew、gradlew .cmd脚本用的就是wrapper中规定的gradle版本
    • gradlew、gradlew .cmd的使用方式与gradle使用方式完全一致,只不过把gradle指令换成了gradlew指令
    • gradle指令和gradlew指令所使用的gradle版本有可能是不一样的
  3. 主要参数
参数名 说明
–gradle-version 用于指定使用的gradle版本
–gradle-distribution-url 用于指定下载gradle发行版的url地址

Demo:

  • gradle wrapper –gradle-version=4.4:升级wrapper版本号,只是修改gradle.properties中wrapper版本,未实际下载
  • gradle wrapper –gradle-version 5.2.1 –distribution-type all :关联源码用
  1. GradleWrapper执行流程
    • 1.当我们第一次执行 ./gradlew build 命令的时候,gradlew 会读取 gradle-wrapper.properties 文件的配置信息
    • 2.准确的将指定版本的 gradle 下载并解压到指定的位置(GRADLE_USER_HOME目录下的wrapper/dists目录中)
    • 3.并构建本地缓存(GRADLE_USER_HOME目录下的caches目录中),下载再使用相同版本的gradle就不用下载了
    • 4.之后执行的 ./gradlew 所有命令都是使用指定的 gradle 版本
    • gradle-wrapper.properties 说明
字段名称 说明
distributionBase 下载Gradle压缩包解压后存储的主目录
distributionPath 相对于distributionBase的解压后的gradle压缩包的路径
distributionUrl Gradle发行版压缩包的下载地址
zipStoreBase 同distributionBase,但是存放的是zip压缩包
zipStorePath 同distributionPath,存放的是zip压缩包

五、java插件

官网:https://docs.gradle.org/current/userguide/plugin_reference.html,以 Java 插件为例。
一些插件对工程目结构有约定,所以我们一般遵循它的约定结构来创建工程,这也是 Gradle 的“约定优于配置”原则

  1. 插件引入
    plugins {
    id 'java'
    }
  2. java 插件规定的项目源集目录
    
    └── src
    ├── main
    │   ├── java
    │   │   └── org
    │   │       └── lifefunker
    │   │           └── Main.java
    │   └── resources
    └── test
        ├── java
        └── resources
修改默认目录结构, 如下操作
```groovy
    sourceSets { 
    main {
        java {
            srcDirs = ['src/java']
    } 
    resources {
        srcDirs = ['src/resources'] }
    } 
   }
  1. java插件常见属性
属性名称 类型 默认值 描述
reportsDirName String reports 生成报告的目录名称
reportsDir File(只读) buildDir/reportsDirName 生成报告的目录
testResultsDirName String test-results 生成测试 result.xml 文件的目录名称
testResultsDir File(只读) reportsDir/testReportDirName 生成测试报告的目录
libsDirName String libs 生成 lib 库的目录名称
libsDir File(只读) buildDir/libsDirName 生成 lib 库的目录
distsDirName String distributions 生成发布文件的目录名称
distsDir File(只读) buildDir/distsDirName 生成发布文件的目录
docsDirName String docs 生成帮助文档的目录名称
docsDir File(只读) buildDi r/docsDirName 生成帮助文档的目录
dependencyCacheDirName String dependency-cache 存储缓存资源依赖信息的目录名称
dependencyCacheDir File(只读) buildDir/dependencyCacheDirName 存储缓存资源依赖信息的目录
sourceSets SourceSetContainer (只读) Not null 包含工程的资源集合(source sets.)
sourceCompatibility JavaVersion,也可以使用字符串或数字比如 ‘1.5’ 或者 1.5 根据使用的 JVM 定 编译 java 文件时指定使用的 java 版本
targetCompatibility JavaVersion,也可以使用字符串或数字比如 ‘1.5’ 或者 1.5 sourceCompatibility 生成 classes 的 java 版本
archivesBaseName String projectName 作为归档文件的默认名称,如 JAR 或者 ZIP 文件的名称
  1. 常见的依赖类型
类型名称 说明
compileOnly 由 java 插件提供,曾短暂的叫 provided,后续版本已经改成了 compileOnly,适用于编译期需要而不需要打包的情 况
runtimeOnly 由 java 插件提供,只在运行期有效,编译时不需要,比如 mysql 驱动包。,取代老版本中被移除的 runtime
implementation 由 java 插件提供,针对源码[src/main 目录] ,在编译、运行时都有效,取代老版本中被移除的 compile
testCompileOnly 由 java 插件提供,用于编译测试的依赖项,运行时不需要
testRuntimeOnly 由 java 插件提供,只在测试运行时需要,而不是在测试编译时需要,取代老版本中被移除的 testRuntime
testImplementation 由 java 插件提供,针对测试代码[src/test 目录] 取代老版本中被移除的 testCompile
providedCompile war 插件提供支持,编译、测试阶段代码需要依赖此类 jar 包,而运行阶段容器已经提供了相应的支持,所 以无需将这些文件打入到 war 包中了;例如 servlet-api.jar、jsp-api.jar
compile 编译范围依赖在所有的 classpath 中可用,同时它们也会被打包。在 gradle 7.0 已经移除
runtime runtime 依赖在运行和测试系统的时候需要,在编译的时候不需要,比如 mysql 驱动包。在 gradle 7.0 已经移除
api java-library 插件提供支持,这些依赖项可以传递性地导出给使用者,用于编译时和运行时。取代老版本中被 移除的 compile
compileOnlyApi java-library 插件提供支持,在声明模块和使用者在编译时需要的依赖项,但在运行时不需要。

官方文档参考:

六、Gretty插件

在 idea 新版本的创建项目中,无法自己选择创建项目是普通 java 工程还是 web 工程了【IDEA 旧版本是可以的】,所以我 们如果想创建 web 工程,只需要自己在 src/main/目录下添加 webapp/WEB-INF/web.xml 及页面即可。

  • 底层支持 jetty,tomcat 等 Servlet 容器
  • 支持项目热部署、HTTPS、调试
  • 效果等同于将项目打成 war 包,部署到本地 tomcat 运行

    1. 引入插件
      plugins {
      id ‘war’
      id 'org.gretty' version '2.2.0' 
      }

      引入插件后,刷新右边框的gradle插件,加载几分钟后插件中间就会有gretty插件的具体的任务列表

    2. 指定maven仓库
      repositories { 
      //指定jcenter仓库,一定要放在前面 
      jcenter()
      mavenCentral()
      }
    3. 设置gretty插件参数
      gretty {
      httpPort = 8888
      contextPath = "/web"
      debugPort = 5005
      debugSuspend = true
      httpsEnabled = true
      managedClassReload=true //修改了类之后重新加载
      //servletContainer = 'tomcat8' //如果不指定默认的servlet容器,支持tomcat7/8,默认是使用的是Jetty服务器 
      httpsPort = 4431
      }   
    4. 运行
      gradle appRun

      七、SpringBoot插件

    5. 引入插件
      plugins {
      id 'org.springframework.boot'version'2.3.7.RELEASE' //维护springboot版本号,不单独使用,和下面两个插件一起用 
      id 'io.spring.dependency-management' version '1.0.10.RELEASE' //进行依赖管理,在引入其它boot依赖时省略版本号、解决jar包冲突问题 
      id 'java'
      }
    6. 引入依赖
      dependencies {
      implementation 'org.springframework.boot:spring-boot-starter'
      implementation 'org.springframework.boot:spring-boot-starter-web' //省略版本,原生bom支持,插件management提供 
      testImplementation('org.springframework.boot:spring-boot-starter-test') 
      {
      exclude group: 'org.junit.vintage', module: 'junit-vintage-engine' 
      }
      }
      test { 
      useJUnitPlatform()
      }
    7. 执行命令

    要想运行当前 Springboot 项目,直接执行 gradle bootRun 指令或者 idea 右侧按钮即可。
    当然如果想让当前项目打成可执行 jar 包,只需执行: gradle bootJar 指令即可。
    Cloud 项目创建也可以借助于脚手架创建,与 Boot 项目类似。

  1. 拓展spring-boot-gradle-plugin 插件
    buildscript { 
    repositories {
        maven { url 'https://maven.aliyun.com/repository/public' }
    }
    dependencies {
        classpath 'org.springframework.boot:spring-boot-gradle-plugin:2.4.1'
    } 
    }
    apply plugin: 'org.springframework.boot'
    apply plugin: 'io.spring.dependency-management'

八、maven发布插件

  1. 引入插件
    plugins {
        id 'java-library' //如果发布war包,需要war插件,java-library支持带源码、文档发布 
        id 'maven-publish'
    }
  2. 设置发布代码
    //带源码和javadoc的发布:需要'java-library'插件支持:它是java的升级版,java插件的功能java-library都有 //javadoc.options.encoding="UTF-8"
    //java {
    // withJavadocJar()
    // withSourcesJar() 
    //}
    publishing {
    publications { 
        myLibrary(MavenPublication) {
        groupId = 'org.gradle.sample' //指定GAV坐标信息 
        artifactId = 'library'
        version = '1.1'
        from components.java//发布jar包
        //from components.web///引入war插件,发布war包 
        }
    }
    repositories {
        //本地仓库位于USER_HOME/.m2/repository 
        mavenLocal()
        //发布项目到私服中
        maven{
            name = 'myRepo' //name属性可选,表示仓库名称,url必填 //发布地址:可以是本地仓库或者maven私服
            //url = layout.buildDirectory.dir("repo")
            // change URLs to point to your repos, e.g. http://my.org/repo
            def releasesRepoUrl = layout.buildDirectory.dir('repos/releases')
            def snapshotsRepoUrl = layout.buildDirectory.dir('repos/snapshots')
            url = version.endsWith('SNAPSHOT') ? snapshotsRepoUrl : releasesRepoUrl
            credentials{
                username = 'user'
                password = 'secret'
            }
        }
    }
    }
  3. 执行命令

    执行发布命令,将项目发布到本地仓库或者远程仓库。常见的发布指令有:

    • generatePomFileForPubNamePublication: 生成 pom 文件
    • publishPubNamePublicationToRepoNameRepository:发布项目到指定仓库,如果没有仓库名,默认为 maven
    • publishPubNamePublicationToMavenLocal: 将 PubName 发布复制到本地 Maven 仓库中包括 POM 文件和其他元数据。
    • publish: 发布到 repositories 中指定的仓库(为比如 Maven 私服)
    • publishToMavenLocal: 执行所有发布任务中的操作发布到本地 maven 仓库【默认在用户家目录下的.m2/repository】。