Spark中Vector转变成Array

Convert a Spark Vector of features into an array

在spark处理数据的时候经常会有某个字段处理成Vector的情况,这样的字段在很多的数据固化组件中可能不能直接存储,这个时候需要我们变通一下,把得到的向量转变成Array或者字符串的格式,便于存储

Spark 3.0 增加了 vector_to_array 的UDF. 不需要自我实现了,直接调用即可。但是如果spark的版本较低,则需要自己实现转换逻辑。

时光机:https://github.com/apache/spark/pull/26910

提供两个代码示例,如果读者明确知道自己的数据是什么格式的向量,例如

import org.apache.spark.ml.linalg.DenseVector
val toArr: Any => Array[Double] = _.asInstanceOf[DenseVector].toArray
val toArrUdf = udf(toArr)
val dataWithFeaturesArr = dataWithFeatures.withColumn("features_arr",toArrUdf('features))

但是如果读者不清楚自己的向量是哪个,那就尽可能去兼容一下,如下

import org.apache.spark.ml.linalg.{SparseVector, Vector}
import org.apache.spark.mllib.linalg.{Vector => OldVector}

private val vectorToArrayUdf = udf { vec: Any =>
    vec match {
      case v: Vector => v.toArray
      case v: OldVector => v.toArray
      case v => throw new IllegalArgumentException(
        "function vector_to_array requires a non-null input argument and input type must be " +
        "`org.apache.spark.ml.linalg.Vector` or `org.apache.spark.mllib.linalg.Vector`, " +
        s"but got ${ if (v == null) "null" else v.getClass.getName }.")
    }
  }.asNonNullable()

scala时间处理-获取今天,昨天,本周,本月,时间戳转换日期,时间比较

在用spark或者Scala本身处理问题的时候,我们一般会用到时间处理的地方,针对集中可能出现的情况做以下总结:

1、获取今天日期

def getNowDate():String={
    var now:Date = new Date()
    var  dateFormat:SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd")
    var hehe = dateFormat.format( now )
    hehe
  }

2、获取昨天的日期

  def getYesterday():String={
    var  dateFormat:SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd")
    var cal:Calendar=Calendar.getInstance()
    cal.add(Calendar.DATE,-1)
    var yesterday=dateFormat.format(cal.getTime())
    yesterday

3、获取本周开始日期

  def getNowWeekStart():String={
    var period:String=""
    var cal:Calendar =Calendar.getInstance();
    var df:SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd");
    cal.set(Calendar.DAY_OF_WEEK, Calendar.MONDAY)
     //获取本周一的日期
    period=df.format(cal.getTime())
    period
  }

4、获取本周末的时间

  def getNowWeekEnd():String={
    var period:String=""
    var cal:Calendar =Calendar.getInstance();
    var df:SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd");
    cal.set(Calendar.DAY_OF_WEEK, Calendar.SUNDAY);//这种输出的是上个星期周日的日期,因为老外把周日当成第一天
    cal.add(Calendar.WEEK_OF_YEAR, 1)// 增加一个星期,才是我们中国人的本周日的日期
    period=df.format(cal.getTime())
    period
  }

5、本月的第一天

 def getNowMonthStart():String={
    var period:String=""
    var cal:Calendar =Calendar.getInstance();
    var df:SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd");
    cal.set(Calendar.DATE, 1)
    period=df.format(cal.getTime())//本月第一天
    period
  }

6、本月的最后一天

  def getNowMonthEnd():String={
    var period:String=""
    var cal:Calendar =Calendar.getInstance();
    var df:SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd");
    cal.set(Calendar.DATE, 1)
    cal.roll(Calendar.DATE,-1)
    period=df.format(cal.getTime())//本月最后一天
    period
  }

7、将时间戳转化成日期
时间戳是秒数,需要乘以1000l转化成毫秒

 def DateFormat(time:String):String={
    var sdf:SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd")
    var date:String = sdf.format(new Date((time.toLong*1000l)))
    date
  }

8、时间戳转化为时间,原理同上

  def timeFormat(time:String):String={
    var sdf:SimpleDateFormat = new SimpleDateFormat("HH:mm:ss")
    var date:String = sdf.format(new Date((time.toLong*1000l)))
    date
  }

9、计算时间差

   //核心工作时间,迟到早退等的的处理
    def getCoreTime(start_time:String,end_Time:String)={
      var df:SimpleDateFormat=new SimpleDateFormat("HH:mm:ss")
      var begin:Date=df.parse(start_time)
      var end:Date = df.parse(end_Time)
      var between:Long=(end.getTime()-begin.getTime())/1000//转化成秒
      var hour:Float=between.toFloat/3600
      var decf:DecimalFormat=new DecimalFormat("#.00")
      decf.format(hour)//格式化

    }