python typing 模块分析 Union Optional Any

ython typing是python的基础模块,里边有很多看似普通但是确很重要的基础类型和特殊类型, 例如与所有类型都兼容的不受限的特殊类型typing.Any,联合类型typing.Union,可选类型typing.Optional

python typing是python的基础模块,里边有很多看似普通但是确很重要的基础类型和特殊类型, 例如与所有类型都兼容的不受限的特殊类型typing.Any,联合类型typing.Union,可选类型typing.Optional等,由于python的版本更新经常会有向下不兼容的问题,所有经常关注python的选手在预估最基础的版本影响时还是要多关注typing这个模块在每个更新版本中的变化。

python的安全本文不做赘述,如果读者想知道具体的安装步骤可以看读者之前的文章

Union 传多参和返回多值

from typing import Union
def FunkerTest(a:Union[float,int])->Union[float,int]:
  return a*4
def FunkerTest(a: float or int)-> float or int:
  return a*4
def FunkerTest(a: float | int)-> float | int:
  return a*4

以上几种情况都可以是等价的,而最后一种写法在3.10版本后才出现,所以这里也就体现了关注typing模块的重要性

Optional可选类型

Optional[X] 等价于 X | None (或 Union[X, None] ),X | None 的写法 也是在3.10版本后才支持的。如下,传入int或者None皆可。

def FunkerTest(arg: Optional[int] = None) -> None:
    ...
首页 » 归档于 6月 2022

scrapy python 框架爬虫 基础浅析

scrapy python 框架爬虫 这些词初接触者肯定不知所云。所以读者可以直接度娘或者Google这些词条“什么是scrapy python“,“what is scrapy python”,“scrapy 基础入门”,“scrapy python example”,“Scrapy框架模组”,“Scrapy框架流程”等,笔者直接带大家实操一下基于scrapy python的基本网页爬取。

scrapy python 框架爬虫 这些词初接触者肯定不知所云。所以读者可以直接度娘或者Google这些词条“什么是python“,“what is scrapy”,“scrapy 基础入门”,“scrapy example”等等诸如此类的。可以看到各种各样的文章,读者都可以快速的对scrapy python做基本的了解。

故笔者不再做多余的赘述最最基础的简介如什么是爬虫Scrapy框架模组Scrapy框架流程等,笔者直接带大家实操一下基于scrapy的基本网页爬取。

爬虫 就是遥摘星辰

scrapy python 框架爬虫

爬虫 就是遥摘星辰

 

scrapy 基本步骤

创建工程、编写爬虫文件、执行工程

  • scrapy startproject xxxPro — 固定模型创建工程,自动生成items.py, pipeline.py,settings.py等文件。
  • 在项目目录下输入: scrapy genspider spiderName www.XXX.com 创建具体的爬虫文件
  • 修改相应的爬虫文件、items、pipelines、settings、中间件等文件来完善具体的爬取细节
  • 在项目目录下执行: scrapy crawl spiderName

基本命令

  1. scrapy bench: 测试scrapy的基本性能等
  2. scrapy fetch: 通过scrapy下载器下载指定的url
  3. scrapy genspider : 创建爬虫,类似于python XX.py
  4. scrapy runspider: 启动爬虫
  5. scrapy settings: 获取setting值
  6. scrapy shell ‘http://XXX.com‘: 启动一个shell界面,类似于ipthon的效果,可以通过命令行来对指定的url进行单步调试
  7. scrapy startproject: 创建工程项目

scrapy 框架爬虫 入门实例介绍

  1. scrapy startproject feixiaohao: 生成如下结构的文件夹及文件
    # windows 可以需要通过命令 tree /f , 来看到结构
    └─feixiaohao
    │  scrapy.cfg
    │
    └─feixiaohao
        │  items.py
        │  middlewares.py
        │  pipelines.py
        │  settings.py
        │  __init__.py
        │
        └─spiders
                __init__.py

    项目中自动生成文件说明

    • scrapy.cfg: 项目的配置文件,会包含项目的基本信息和一些基础设置,每个版本的scrpay可能会有些许的差异
    • items.py 项目目标文件,结构化的数据字段,提供一些数据校验的防护,减少错误;类似orm映射
    • pipelines.py 项目管道文件
    • middlewares.py 项目中间件文件
    • settings.py 项目设置文件,默认启动项,公共资源配置等
  2. scrapy genspider -l : 指定
     scrapy genspider -l
     Available templates:
        basic  : 基础爬虫类型的文件
        crawl  :定义一些rules,适合深度爬取一些有规律网站
        csvfeed :按行遍历解析csv源文件
        xmlfeed :按各节点迭代解析xml源文件
  3. cd 到feixiaohao文件夹里, 输入命令: scrapy genspider feixh “https://www.feixiaohao.co/” 来只做具体的爬虫文件,在spiders文件中会初始化一个新的具体爬虫文件
    │  scrapy.cfg
    │
    └─feixiaohao
        │  items.py
        │  middlewares.py
        │  pipelines.py
        │  settings.py
        │  __init__.py
        │
        └─spiders
                feixh.py
                __init__.py
  4. feixh.py文件的核心内容
    class FeixhSpider(scrapy.Spider):
        name = 'feixh'
        allowed_domains = ['https://www.feixiaohao.co/']
        start_urls = ['https://www.feixiaohao.co/news?tab=0']
        ##start_urls = ['https://www.feixiaohao.co']
        def parse(self, response):
            pass

    正常情况feixh.py文件的start_urls是咱们在构建爬虫文件时指定的地址, 因为笔者要爬虫咨询相关的内容,所有手动换到的具体的地址。
    接下来我们要做的就是要对爬取的网页进行页面分析,如何分析呢? 之前笔者在爬虫入门的文章中介绍过在浏览器中查看元素xpath的方法,或者直接对页面做正则解析,但是不管哪种方式都需要我们在浏览器中查看页面源码来看一下页面是如何加载的。

  5. 利用Chrome 的Xpath Helper插件辅助解析页面内容
    我们定义需要爬取的item.py

     

    class FeixiaohaoItem(scrapy.Item):
        # define the fields for your item here like:
        # name = scrapy.Field()
        title = scrapy.Field()  # 咨讯标题
        href = scrapy.Field()   # 咨讯地址 
        date = scrapy.Field()   # 咨讯发布日期
        source_name = scrapy.Field()    # 资讯来源
        spider_time = scrapy.Field()    # 资讯爬取时间

    feixh.py的parse方法具体如下,里边涉及到的xpath解析就是先在页面找到元素再复制过来修正得到的,但是有一个问题就是页面的xpath路径是绝对路径定位到元素本身,一般我们到代码中时需要往上一层。
    这里涉及到一些细节的调试,这个调试我们可以通过scrapy shell来达到具体的效果

    def parse(self, response):
        html = etree.HTML(response.body.decode('utf-8'))
        datas = html.xpath('//*[@id="__layout"]/section/div[1]/div/div[1]/div/div[2]/div[2]')[0]
        for data in datas.xpath('./article'):
            item = FeixiaohaoItem()
            title = data.xpath('.//div[@class="info"]/a[1]/text()')[0]
            href = data.xpath('.//div[@class="info"]/a[1]/@href')[0]
            source = data.xpath('.//div[@class="info"]//a[@class="name"]/text()')[0]
            date = data.xpath('.//div[@class="info"]/div[@class="time"]/span/text()')[0]
            item['title'] = title
            item['href'] = href
            item['date'] = date
            item['source_name'] = source
            item['spider_time'] = time.time()
            yield item
  6. scrapy shell “https://www.feixiaohao.co/news?tab=0
    scrapy shell 这个命令我们可以dos窗口或者pycharm的 Terminal里来执行,这个就类似于ipython的运行环境,这样我们就可以逐步的对response进行解析,因为当scrapy shell运行出来后就已经可以解析到response了,读者可以自行print(response)看到相关的内容
    有一点需要主要,这个环境中所有用到的包都需要自行import,就跟运行ipython是一样的效果。
  7. 正常的逻辑就是继续找到翻页的连接地址或者翻页按钮跳转的地址,做循环解析。
    但是如果页面是翻页按钮或者后续加载按钮是用js触发的接口,那么我们就需要调整start_url列表的内容。,需要我们在浏览器中找到翻页按钮对应的接口地址。

     

        start_url= ['https://***/news/hot?page={}&per_page=20&webp=1'.format(i) for i in range(1, 29)]

    这样做的话我们的parse方法就要从新写逻辑,就不能用xpath来做解析了,而是直接接口对应的返回值做json处理。

首页 » 归档于 6月 2022

scala spark dataframe 转置 透视表 行转列 列转行

大数据方向的 分析师 利用scala spark dataframe 进行表的转置,透视表,行专列,列转行,合并列,多行合并等操作

scala spark dataframe 是大数据从业者必须掌握的基础知识点。 对于数据分析人员经常会有对数据表进行转置/透视的需求,还有对数据进行行转列,列转行,多列多行合并的处理。无论哪种情况,对于常年使用SQL语句来进行数据分析的技术人员应该都是信手拈来的操作,但是对于很大使用大数据组件Spark来进行数据处理和分析的选手来说可能就需要了解除了常规SQL之外的操作方式了。

数据样例

val spark = SparkSession
	  .builder()
	  .appName("HelloWorld")
	  .getOrCreate()
	import spark.implicits._

	val data = spark.sparkContext.parallelize(List(
	  ( 1, "张三", 88.0, "Mat"),
	  ( 2, "李四", 67.0, "Mat"),
	  ( 3, "赵六", 77.0, "Mat"),
	  ( 4, "王五", 65.0, "Mat"),
	  ( 1, "张三", 77.0, "Eng"),
	  ( 2, "李四", 90.0, "Eng"),
	  ( 3, "赵六", 24.0, "Eng"),
	  ( 4, "王五", 90.0, "Eng"),
	  ( 1, "张三", 33.0, "Chinese"),
	  ( 2, "李四", 87.0, "Chinese"),
	  ( 3, "赵六", 92.0, "Chinese"),
	  ( 4, "王五", 87.0, "Chinese")
	  ))
	val df = data.toDF("id","name","scores","class_names").cache()
	df.show(false)
	val _cla = df.select("class_names").distinct().rdd.map(_ (0).toString).collect()
	print(_cla.toList)
# dataframe show
+---+----+------+-----------+
|id |name|scores|class_names|
+---+----+------+-----------+
|1  |张三  |88.0  |Mat        |
|2  |李四  |67.0  |Mat        |
|3  |赵六  |77.0  |Mat        |
|4  |王五  |65.0  |Mat        |
|1  |张三  |77.0  |Eng        |
|2  |李四  |90.0  |Eng        |
|3  |赵六  |24.0  |Eng        |
|4  |王五  |90.0  |Eng        |
|1  |张三  |33.0  |Chinese    |
|2  |李四  |87.0  |Chinese    |
|3  |赵六  |92.0  |Chinese    |
|4  |王五  |87.0  |Chinese    |
+---+----+------+-----------+
# 三门课程
List(Eng, Chinese, Mat)

转置/透视表 pivot unpivot 一行转多列

以下代码是通过dataframe的pivot方法,按照名字分组,分组后去第一个分数;最终实现转置表或者是透视表的效果。

	val _pivot = df.groupBy("name").pivot("class_names", _cla).agg(functions.first("scores"))
	_pivot.show(false)
+----+----+-------+----+
|name|Eng |Chinese|Mat |
+----+----+-------+----+
|王五  |90.0|87.0   |65.0|
|李四  |90.0|87.0   |67.0|
|赵六  |24.0|92.0   |77.0|
|张三  |77.0|33.0   |88.0|
+----+----+-------+----+

而如果想要把透视表逆转回去就要用hive 的stack函数来实现,而spark dataframe中没有相关的方法,具体实现如下两种实现方式的代码;但是有两个知识点要注意下

  • 数字一定要能被后边参数名称去重后的个数整出, 如代码中’Analytics’, Mat, ‘BI’, Eng, ‘Ingestion’, Chinese ,去重后肯定能整除3;
  • stack从第二个参数开始两两一组,’Analytics’, 和 Mat, 分别是变成行之后的具体数值 ,以及之前的字段名是什么,读者可以从下边的show详情中看到。
  • 如果字段名称有中文,要使用反引号**`** 把字段包起来;如”stack(2, ‘数学’, `数学`,’英语’,`英语`), 第一个数学是单引号,第二个是反引号,第一个是要最终展示的文本,第二个是字段名
_pivot.select($"Name", 
unctions.expr("stack(3, 'Analytics', Mat, 'BI', Eng, 'Ingestion', Chinese) as (kecheng, fenshu)")).show(false)
# 相同效果的实现方式
//	_pivot.selectExpr("name","stack(3, 'Analytics', Mat, 'BI', Eng, 'Ingestion', Chinese) as (kecheng, fenshu)").show(false)
+----+---------+------+
|Name|kecheng  |fenshu|
+----+---------+------+
|王五  |Analytics|65.0  |
|王五  |BI       |90.0  |
|王五  |Ingestion|87.0  |
|李四  |Analytics|67.0  |
|李四  |BI       |90.0  |
|李四  |Ingestion|87.0  |
|赵六  |Analytics|77.0  |
|赵六  |BI       |24.0  |
|赵六  |Ingestion|92.0  |
|张三  |Analytics|88.0  |
|张三  |BI       |77.0  |
|张三  |Ingestion|33.0  |
+----+---------+------+

行专列 多行合并成一列

df.groupBy("name").agg(functions.concat_ws(",",functions.collect_set($"scores".cast("string"))).as("fenshu")).show(false)
+----+--------------+
|name|fenshu        |
+----+--------------+
|王五  |90.0,65.0,87.0|
|李四  |67.0,90.0,87.0|
|赵六  |77.0,92.0,24.0|
|张三  |88.0,77.0,33.0|
+----+--------------+

列转行 一列转多行

通过functions的split 方法把字符串类型的列先转换成Array类型,之后在通过explode方法把Array转换成多行

import org.apache.spark.sql.functions
val res = df.groupBy("name").agg(functions.concat_ws(",",functions.collect_set($"scores".cast("string"))).as("fenshu"))
	res.show(false)
	res.select($"name", functions.explode(functions.split($"fenshu", ",")).as("score")).show(false)
# 多个数值在一列中
+----+--------------+
|name|fenshu        |
+----+--------------+
|王五  |90.0,65.0,87.0|
|李四  |67.0,90.0,87.0|
|赵六  |77.0,92.0,24.0|
|张三  |88.0,77.0,33.0|
+----+--------------+
# 一列数据拆分成多行
+----+-----+
|name|score|
+----+-----+
|王五  |90.0 |
|王五  |65.0 |
|王五  |87.0 |
|李四  |67.0 |
|李四  |90.0 |
|李四  |87.0 |
|赵六  |77.0 |
|赵六  |92.0 |
|赵六  |24.0 |
|张三  |88.0 |
|张三  |77.0 |
|张三  |33.0 |
+----+-----+
首页 » 归档于 6月 2022