7 月 2022 - 无聊世界

数据集成和应用集成你瞅啥？

数据集成和应用集成是组织利用来自不同系统的数据的方法，但它们满足不同的需求。它们经常被错误地视为相同，然而应用程序集成和数据集成的概念有很大的不同，尤其是在它们的使用方式和用途方面。

数据集成

数据集成是集成两个或多个数据库数据的过程(process)。关注于管理数据流，并且每个标准化的信息获取方式；是面向批处理的，它处理静态数据。换句话说，数据集成是对应用系统已产生并“落地”后的数据进行感知、抽取、传输、处理、加载到目标库的整个过程，即数据集成的任务开始时，源端应用系统的数据产生过程已完成了。

数据集成领域还包括一些特殊的应用场景，如异构数据库间的复制同步(即按事务边界实时复制Replicate)、 CDC(日志DML、DDL获取及同步)、数据文件(txt、csv、excel等)加载数据库、以及非结化文件交换传输(文件目录、FTP、HDFS)等应用场景。

特征

参与数据集成的各个应用系统与集成任务是互相独立的，应用系统无需知道运行中的数据集成任务;
数据集成任务可以是实时的、准实时的、或批处理定时的;
当交换的数据完成时，目标系统无需立即给源端系统反馈信息，因而往往是异步处理过程;
ETL、ELT、CDC技术往往用于数据集成场景中

应用集成

应用集成是指两个或多个应用之间的协同处理过程(process)。在两个或多个应用程序之间创建连接器，以确保它们可以一起运行。应用程序集成过程涉及实时处理小数据集；这使公司能够在与性能相关的问题、新信息等出现时加快响应速度。

特征

参与应用集成的数据库无需知道运行中的应用集成过程（process）;
消费数据的应用系统在应用层保持之间的依赖性(耦合度相对高);
应用集成是实时的且需要双向的握手（handshake）；
消费数据后，目标业务过程可以返回执行结果给源端应用，因而往往是同步的处理过程；
被集成交换的数据可无需“落地”数据库，仅由用户界面使用数据进行展示；
面向服务的架构(SOA)设计理念及ESB技术产品往往应用于应用集成领域。

首页 » 归档于 7 月 2022

numpy array matrix 矩阵和数组的区别与联系

numpy array matrix指的是 numpy.array() 和numpy.matrix() .是numpy的n维度数组与矩阵, 这是numpy支持数学运算的两个基础结构。

numpy array matrix指的是 numpy.array() 和numpy.matrix() .是numpy的n维度数组与矩阵, 这是numpy支持数学运算的两个基础结构。笔者在之前的篇幅中介绍过array的基本概念，读者可以去自行阅读；这两个数据结构存在一定的共性，同时也有一些区别差异。

Matrix包含于Array, matrix 拥有array的所有特性；numpy arrays (ndarrays) 可以是多维的（1D，2D，3D····ND），而Matrix必须是2纬的。在numpy里，“mat”是“matrix”的一个别名， matrix 类是ndarray的一个Python子类

matrix特性

矩阵有几个特有的属性使得计算更加容易，这些属性有：
    (a) .T －－ 返回自身的转置， 而array也同样可以通过相同的方式得到转置
    (b) .H －－ 返回自身的共轭转置
    (c) .I －－ 返回自身的逆矩阵
    (d) .A －－ 返回自身数据的2维数组的一个视图（没有做任何的拷贝）

array和matrix 创建方式

import numpy as np
# 矩阵和数组
def mat_array():
    a1 = [[1, 2], [3, 4]]
    a2 = ([1, 2], [3, 4])
    a3 =((1, 2), (3, 4))

    for i in [a1, a2, a3]:
        print(np.mat(i))
        print(np.array(i))
        print("-------")

mat_array()

[[1 2]
 [3 4]]
[[1 2]
 [3 4]]
-------
[[1 2]
 [3 4]]
[[1 2]
 [3 4]]
-------
[[1 2]
 [3 4]]
[[1 2]
 [3 4]]
-------

通过以上的python代码我们可以看到我们使用python基础数据结构 list嵌套、tuple嵌套或者两者组合的嵌套方式，再直接调用矩阵和数组创建的方法都是可以到二维数组–矩阵的。

矩阵乘法运算

1、当矩阵a的列数等于矩阵b的行数时，a和b可以相乘。

2、矩阵c的行数等于矩阵a的行数，c的列数等于b的列数。

3、积c的第m行第n列的元素等于矩阵a的第m行的元素和矩阵b的第n列的对应元素的积之和。

a = np.mat(a1)
b = np.dot(a, a)
print(a ** 2)
print(b)
print("-------")
c = np.array(a1)
print(c ** 2)
print(np.dot(c, c))

[[ 7 10]
 [15 22]]
[[ 7 10]
 [15 22]]
-------
[[ 1  4]
 [ 9 16]]
[[ 7 10]
 [15 22]]

matrix和array都可以调用numpy.dot()方法，并且都是矩阵乘法的效果；而matrix可以通过运算符 ** 来达到相同的效果。

array()的乘法是矩阵中对应位置的两个数相乘。

mat()的乘法是矩阵乘法。

array()乘法：*代表点乘（对应元素相乘），dot()代表矩阵乘。

mat()乘法：*代表矩阵乘，multiply()代表点乘。

首页 » 归档于 7 月 2022

python stock 量化投资和股票分析 mpl_finance 画图

python stock 量化投资和股票分析，python的numpy、pandas包写上几行代码，再用matplotlib画上几张图，用sklearn(scikit-learn)包的模型画个传统机器学习的模型又或用tensorflow或者pytorch等框架套入深度学习，云云如是

python stock 这两个词原本是互不相干的，不知具体从何时起，量化投资、股票分析、数据模型、python数据分析等等各种词汇的联系越来越多，从而使得很多所谓的交易高手、股市技术流、股票大佬在各个平台来吹嘘自己的交易策略有多么的厉害。
拿着python的numpy、pandas包写上几行很多小白看不明白的代码，再用matplotlib画上几张图，就说自己的交易策略;稍微知道的多就会在用sklearn(scikit-learn)包的模型画个传统机器学习的模型;再厉害一些的呢就用tensorflow或者pytorch等框架套入数据做个深度学习的模型，云云如是… 基本的教学大纲差不多是下边这样的。
我和我的小伙伴都惊呆了...
呆！股市大狗在此，哪里逃…

python stock 股票数据来源

合法爬虫
现成的python包数据调用,如yfinance
臆想出来的

雅虎的yfinance还是很好用的，如果读者没法使用就可以参考笔者之前的爬虫文章去正规的网站上爬取股票数据，至于怎么做到合法呢？就是看网站域名下的robots.txt文件是什么样的，比如很多人都是知道的东方财富网，我们直接在它的根域名后边跟一个robots.txt,在浏览器地址栏中加载看一下

https://www.eastmoney.com/robots.txt

而浏览器加载的结果如下，我们看到User-agent没有具体的指向，并且Disallow 又没有说不允许谁来爬，所以呢爬TM的没问题。

User-agent: *
Allow: /
Sitemap: http://www.eastmoney.com/sitemap.xml

数据初探和哔哩哔哩

如上文所说我们用yfinance加载数据,用特斯拉(TSLA)的日交易数据来演示一哈。

import yfinance as yf

tsla= yf.Ticker("tsla")
data = tsla.history(start="2020-06-01", end="2022-06-30", interval="1d")
print(data.head(2))
print(data.columns)

                           Date        Open  ...  Dividends  Stock Splits
2020-06-01  2020-06-01 00:00:00  171.600006  ...          0           0.0
2020-06-02  2020-06-02 00:00:00  178.940002  ...          0           0.0

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Volume', 'Dividends',
       'Stock Splits'],
      dtype='object')

到了这里大佬们会比哔哩哔哩一下这些数据都是啥,比如这些数据的含义啊，什么日开盘价、收盘价、交易量等等，然后会在介绍一下，要用什么来计算指标，然后又用这些指标来达到什么样的效果。自己知道且有耐心的老师还会给说一下这些指标具体的数学本质是啥。

matplotlib画个MACD图

先计算上线布林线，整个过程都是pandas dataframe的常规计算，没有什么特殊的，如果非要摆一摆就是把这个MACD的含义啊，pandas的使用啊，数学意义啊，股市指标价值啊，巴拉巴拉讲上几节课。

import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
plt.style.use('seaborn-colorblind')

# 短线EMA
shortEMA = history.Close.ewm(span=12, adjust=False).mean()
# 长线EMA
longEMA = history.Close.ewm(span=26, adjust=False).mean()
# MACD
MACD = shortEMA - longEMA

single_line = MACD.ewm(span=9, adjust=False).mean()

plt.figure(figsize=(12.2, 4.5))
plt.plot(history.index, MACD, label='TSLA MACD', color='r')
plt.plot(history.index, single_line, label='Single Line', color='b')
plt.xticks(rotation=45)
plt.legend(loc='upper left')
plt.show()

mplfinance 画个K线图

malfinace 本身以前是matplotlib的一个模块，但是从19年开始独立出来了，所以读者如果用的是较新的python环境必须的从新安装一下,模块也好，包也罢都可能会是另一个知识点，因为小白们是不知道怎么用这些工具的，得学啊。

==================================

   WARNING: `mpl_finance` is deprecated:

    Please use `mplfinance` instead (no hyphen, no underscore).

    To install: `pip install --upgrade mplfinance` 

   For more information, see: https://pypi.org/project/mplfinance/

======================================

BOLLING 计算

data['SMA'] = data['Close'].rolling(window=20).mean()
# 计算 standard deviation
data['STD'] = data['Close'].rolling(window=20).std()
data['UpperLine'] = data['SMA'] + (data['STD'] * 2)
data['LowerLine'] = data['SMA'] - (data['STD'] * 2)

add_plot = mpf.make_addplot(data[['UpperLine', 'LowerLine']],linestyle='dashdot')
mpf.plot(data, addplot=add_plot, type='ohlc', volume=True)

机器学习做个模型吧

嘿嘿嘿，笔者不想在此篇文章里写模型的代码了，至此算是骗个炮吧:stuck_out_tongue_winking_eye:，以后空了再来后续骗。

首页 » 归档于 7 月 2022