使用LSTM神经网络预测股价涨跌

Contents

1 数据获取
2 数据清洗及样本构建
3 模型构建及训练
4 预测
- 4.1 保存至数据库中
- 4.2 从数据库中读取并预测

将股价未来的表现分为涨、平、跌三类，可利用过去一段时间内的数据来预测未来一段时间（如未来5天）的股价涨跌。利用的数据包含技术面K线数据和基本面财务数据。此处选用LSTM网络结构。

数据获取

使用baostock可以获取个股的历史K线数据、季频财务数据、季频公司报告数据和宏观经济数据。由于季频公司报告数据非强制披露，宏观经济数据也缺失较多，因此仅使用前两者进行预测。

采用baostock来获取股票的历史K线数据和财务数据，使用方法可参考官网：

http://baostock.com/baostock/index.php/%E9%A6%96%E9%A1%B5

获取K线数据

使用query_history_k_data_plus()方法获取历史K线数据，可以通过参数设置获取日k线、周k线、月k线，以及5分钟、15分钟、30分钟和60分钟k线数据。能获取1990-12-19至当前时间的数据。

import baostock as bs

bs.login() #登录
k_df=bs.query_history_k_data_plus('sz.000001',adjustflag="2",fields='date,code,open,high,low,close,preclose,volume,amount,adjustflag,turn,tradestatus,pctChg,peTTM,pbMRQ,psTTM,pcfNcfTTM,isST').get_data()#.tail(50)
k_df

获取财务数据

baostock为查询财务数据提供了6个方法，分别从盈利、营运、成长、偿债、现金流量和杜邦指数六个角度反映公司的财务状况，查询时以季度为单位查询。可以通过参数设置获取对应年份、季度数据。baostock提供2007年至今数据。方法如下：

季频盈利能力：query_profit_data()

季频营运能力：query_operation_data()

季频成长能力：query_growth_data()

季频偿债能力：query_balance_data()

季频现金流量：query_cash_flow_data()

季频杜邦指数：query_dupont_data()

几个方法的参数都相同，均为代码、年份、季度：

code：股票代码，sh或sz.+6位数字代码，或者指数代码，如：sh.601398。sh：上海；sz：深圳。此参数不可为空；

year：统计年份，为空时默认当前年；

quarter：统计季度，可为空，默认当前季度。不为空时只有4个取值：1，2，3，4。

返回值有所不同。

将上述各项财务数据合并起来，得到较大的数据框：

bs.login()
def get_FS_df(code,year,quarter):
    profit_df=bs.query_profit_data(code,year,quarter).get_data()
    operation_df=bs.query_operation_data(code,year,quarter).get_data()
    growth_df=bs.query_growth_data(code,year,quarter).get_data()
    balance_df=bs.query_balance_data(code,year,quarter).get_data()
    cash_flow_df=bs.query_cash_flow_data(code,year,quarter).get_data()
    dupont_df=bs.query_dupont_data(code,year,quarter).get_data()
    FS_df=pd.concat([profit_df,operation_df,growth_df,balance_df,cash_flow_df,dupont_df],axis=1)
    FS_df=FS_df.loc[:,~FS_df.columns.duplicated()]#列去重
    return FS_df
FS_df=get_FS_df(code="sz.000001", year=2007, quarter=1)
FS_df

数据保存

为了后面更自由地使用数据，我们将需要长时间获取的数据尽可能多地保存在本地，比如K线数据和季频财务数据。

K线数据：将所有能查询到的公司的K线数据存放在一张表中，表头包括股票代码、日期及其他各种指标，以日为单位；

季频财务数据：将所有能查询到的公司的季频财务数据存放在一张表中，表头包括股票代码、统计日期（季度）及其他各种指标，时间可以从2007年第1季度起，以季度为单位；

保存K线数据

首先使用query_stock_industry()方法获取所有股票代码：

from tqdm import tqdm
import pandas as pd
import baostock as bs

bs.login()
stock_industry_df=bs.query_stock_industry().get_data()
code_list=list(stock_industry_df.code)
#code_list
stock_industry_df

接下来获取每只股票的K线数据。季频财务数据只能获取2007年以后的，K线数据这里从2010年开始。试了下前10个：

bs.login()
all_k_df_list=[]
for code in tqdm(code_list[:10]):
    k_df=bs.query_history_k_data_plus(code,adjustflag="2",start_date='2010-01-01',fields='date,code,open,high,low,close,preclose,volume,amount,adjustflag,turn,tradestatus,pctChg,peTTM,pbMRQ,psTTM,pcfNcfTTM,isST').get_data()
    all_k_df_list.append(k_df)
all_k_df=pd.concat(all_k_df_list)
all_k_df.to_feather('data/test.feather')

一只股票要花超过1s钟的时间，5000多只要花两个小时，无法忍受。baostock不支持多线程，因此这里采用多进程的方法。jupyter中无法直接运行多进程程序（会卡住），需要将程序写成py文件，再用run方法运行。且用run方法运行多进程py文件时时，子进程函数输出语句失效，因此这里将程序写入py文件，使用命令行执行py文件（中间有报错，需要将numpy降级到1.X，如1.26.4），并将数据框拼接后保存成体积较少且易于读取的feather格式：

%%writefile multiprocessing_get_k_data.py 
#在jupyter notebook中运行时，需将代码写入py文件，再在notebook中运行py文件
from multiprocessing import Pool
import time
import baostock as bs
import pandas as pd

def print_error(value): #当进程函数报错时，该函数能输出错误，但不能指示出错误位置
    print("error: ", value)
def mycallback(x): #该函数将子进程的处理结果添加到总的结果列表中
    total_result_list.append(x)
def operation_fun(num,num_list): #子进程操作函数
    print('\r%d/%d:%s'%(num_list.index(num)+1,len(num_list),num)) #进度
    #time.sleep(1)
    bs.login()#这里也需要登录
    k_df=bs.query_history_k_data_plus(num,adjustflag="2",start_date='2010-01-01',fields='date,code,open,high,low,close,preclose,volume,amount,adjustflag,turn,tradestatus,pctChg,peTTM,pbMRQ,psTTM,pcfNcfTTM,isST').get_data()
    return k_df
if __name__ == '__main__':
    __spec__ = "ModuleSpec(name='builtins', loader=<class '_frozen_importlib.BuiltinImporter'>)"#添加此行可在jupyter notebook中重复运行
    #num_list=list(range(100)) #待处理的数据列表
    bs.login()
    stock_industry_df=bs.query_stock_industry().get_data()
    code_list=list(stock_industry_df.code)
    
    total_result_list=[] 
    process_num=20 #设置进程数
    pool = Pool(process_num)
    start_time=time.time()
    for code in code_list[:]:
        pool.apply_async(operation_fun, (code,code_list), callback=mycallback,error_callback=print_error)
    pool.close()
    pool.join()
    end_time=time.time()
    print('%d进程处理%d个数，耗时%.2fs'%(process_num,len(code_list),end_time-start_time))
    print(len(total_result_list))
    all_k_df=pd.concat(total_result_list)
    all_k_df.reset_index(drop=True,inplace=True)
    all_k_df.to_feather('data/k_2010-2025.feather')

使用命令行执行上述py文件即可。

保存季频财务数据

运营同样的方法获取季频财务数据：

%%writefile multiprocessing_get_FS_data.py 
#在jupyter notebook中运行时，需将代码写入py文件，再在notebook中运行py文件
from multiprocessing import Pool
import time
import baostock as bs
import pandas as pd

def print_error(value): #当进程函数报错时，该函数能输出错误，但不能指示出错误位置
    print("error: ", value)
def mycallback(x): #该函数将子进程的处理结果添加到总的结果列表中
    total_result_list.append(x)
def operation_fun(num,num_list): #子进程操作函数
    print('\r%d/%d:%s'%(num_list.index(num)+1,len(num_list),num)) #进度
    #time.sleep(1)
    bs.login()#这里也需要登录
    FS_df_list=[]
    for year in range(2007,2026):
        for quarter in range(1,5):
            FS_df=get_FS_df(num,year,quarter)
            FS_df_list.append(FS_df)
    merged_FS_df=pd.concat(FS_df_list)
    return merged_FS_df
def get_FS_df(code,year,quarter):
    profit_df=bs.query_profit_data(code,year,quarter).get_data()
    operation_df=bs.query_operation_data(code,year,quarter).get_data()
    growth_df=bs.query_growth_data(code,year,quarter).get_data()
    balance_df=bs.query_balance_data(code,year,quarter).get_data()
    cash_flow_df=bs.query_cash_flow_data(code,year,quarter).get_data()
    dupont_df=bs.query_dupont_data(code,year,quarter).get_data()
    FS_df=pd.concat([profit_df,operation_df,growth_df,balance_df,cash_flow_df,dupont_df],axis=1)
    FS_df=FS_df.loc[:,~FS_df.columns.duplicated()]#列去重
    return FS_df
if __name__ == '__main__':
    __spec__ = "ModuleSpec(name='builtins', loader=<class '_frozen_importlib.BuiltinImporter'>)"#添加此行可在jupyter notebook中重复运行
    #num_list=list(range(100)) #待处理的数据列表
    bs.login()
    stock_industry_df=bs.query_stock_industry().get_data()
    code_list=list(stock_industry_df.code)
    
    total_result_list=[] 
    process_num=20 #设置进程数
    pool = Pool(process_num)
    start_time=time.time()
    for code in code_list[:]:
        pool.apply_async(operation_fun, (code,code_list), callback=mycallback,error_callback=print_error)
    pool.close()
    pool.join()
    end_time=time.time()
    print('%d进程处理%d个数，耗时%.2fs'%(process_num,len(code_list),end_time-start_time))
    print(len(total_result_list))
    all_FS_df=pd.concat(total_result_list)
    all_FS_df.reset_index(drop=True,inplace=True)
    all_FS_df.to_feather('data/FS_2007-2025.feather')

数据清洗及样本构建

模型的输入应包含K线数据、季频财务数据，这里使用最近D天的K线数据、最近Q个季度的财务数据来预测股价在未来F天的涨跌情况。

此处使用K线数据构建样本标签。取连续的（D+F）天的K线数据，若最后F天内的平均收盘价格（此处也可使用其他价格，或其平均价格）高于当前收盘价格（或者自定义其他价格）P%，则标记为涨；若低于当前价格P%，则标记为跌；否则标记为平；

目标是构建N个样本，可在1000多万行的K线数据框中随机选取N行，取这些行股票之前的D天K线数据和之后的F天K线数据计算样本标签，若数据长度不满足则舍弃。

取样会是一个漫长的过程，因此需要将生成的样本固定下来，以便后面直接读取。由于K线数据和财务数据具有不同的维度，因此分别保存为一个文件。

import pandas as pd
import baostock as bs
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
import datetime

K线数据清洗

读取k线数据：

all_k_df=pd.read_feather('data/k_2010-2025.feather')
all_k_df.reset_index(drop=True,inplace=True) #重置行索引
all_k_df

查看缺失值个数：

all_k_df.isna().sum()

数据无缺失值，但有空值，将空值替换为缺失值再统计：

all_k_df.replace('',np.nan,inplace=True) #空值替换为缺失值以便进行筛选
all_k_df.isna().sum()

不同字段缺失值的数量不同。应根据各字段的含义采用不同的策略进行填充。这里查看各字段的含义：

查看各字段数据类型：

all_k_df.dtypes

各字段均为object类型，为便于处理，这里将数字列转换为float类型：

for c in tqdm(all_k_df.columns[2:]):
    all_k_df[c]=all_k_df[c].astype('float64')
all_k_df.dtypes

对于停牌日（tradestatus=0）的股票，这里将volume、amount、turn、pctChg填充为0，而peTTM、pbMRQ、psTTM、pcfNcfTTM 则可以使用该股票最近一次的数据填充。

all_k_df.loc[all_k_df['tradestatus']==0,['volume','amount','turn','pctChg']]=[0,0,0,0]
all_k_df.isna().sum()

对于余下未填充的缺失值，使用前向填充和后向填充的方法。

如果将含有缺失值的股票的k线数据单独分离出来再进行填充，填充后再拼接在一起，像下面这样，那么速度会巨慢：

# 获取含有缺失值的股票列表
lack_k_code_list=all_k_df[all_k_df.isna().sum(axis=1)>=1]['code'].unique()
print(len(lack_k_code_list))#这里5000多只股票均有缺失值
"""
filled_k_df_list=[]
for code in tqdm(lack_k_code_list):
    k_df=all_k_df[all_k_df['code']==code]
    k_df.ffill(inplace=True)
    k_df.ffill(inplace=False)
    filled_k_df_list.append(k_df)
filled_all_k_df=pd.concat([all_k_df[~all_k_df.code.isin(lack_k_code_list)],pd.concat(filled_k_df_list)])
filled_all_k_df.isna().sum()
"""

这里改变一下策略，缺失值逐个填充：

for c in tqdm(['volume','amount','turn','pctChg','peTTM','pbMRQ','psTTM','pcfNcfTTM']):
    na_index_list=all_k_df[all_k_df[c].isna()].index
    for i in na_index_list:#向前填充，若首行为空则会遗漏
        if i and all_k_df.loc[i,'code']==all_k_df.loc[i-1,'code']:
            all_k_df.loc[i,c]=all_k_df.loc[i-1,c]
    na_index_list=all_k_df[all_k_df[c].isna()].index
    for i in na_index_list[::-1]:#向后填充
        if i!=len(all_k_df) and all_k_df.loc[i,'code']==all_k_df.loc[i+1,'code']:
            all_k_df.loc[i,c]=all_k_df.loc[i+1,c]
all_k_df.isna().sum()

当前已填充完成。所有看adjustflag均相同，该特征对于分类无意义，可以去掉。

filled_k_df=all_k_df.drop('adjustflag',axis=1)

季频财务数据清洗

all_FS_df=pd.read_feather('data/FS_2007-2025.feather')

同样，将空值替换为缺失值再统计并排序：

all_FS_df.replace('',np.nan,inplace=True) #空值替换为缺失值以便进行筛选
all_FS_df.isna().sum().sort_values()

查看缺失值所占百分比：

na_percent_series=all_FS_df.isna().sum()/len(all_FS_df)
na_percent_series.sort_values()

可以看到ebitToInterest（已或利息倍数）、MBRevenue（主营营业收入）缺失较多，填充意义不大，后面不考虑此两项。

接下来对all_FS_df进行处理。

对于每只股票，都需要将其季频财务数据整理为连续的。先根据statDate列提取出年份和月份。

先看下统计日期，仅有4种，都在每季度的最后一天：

set(map(lambda s:s[5:],all_FS_df['statDate']))
{'03-31', '06-30', '09-30', '12-31'}

接下来提取出年份并根据统计日期确定季度：

if 'year' not in all_FS_df.columns:
    all_FS_df.insert(3,'year',list(map(lambda s:int(s[:4]),all_FS_df['statDate'])))
if 'quarter' not in all_FS_df.columns:
    all_FS_df.insert(4,'quarter',list(map(lambda s:1 if s[5:7]=='03' else 2 if s[5:7]=='06' else 3 if s[5:7]=='09' else 4,all_FS_df['statDate'])))

查看每只股票的季频财务数据是否连续，打印出季频财务数据有完全缺失的股票，根据前后的时间差来计算有无缺失：

lack_FS_code_list=[]
for code in tqdm(all_FS_df.code.unique()):
    code_df=all_FS_df[all_FS_df.code==code]
    quarters=(code_df.year.iloc[-1]-code_df.year.iloc[0])*4+(code_df.quarter.iloc[-1]-code_df.quarter.iloc[0])+1
    if len(code_df)<quarters:
        lack_FS_code_list.append(code)
print(len(lack_FS_code_list))
print(lack_FS_code_list[:5])

接下来对缺失的季度数据进行填充，这里直接采用上一季度的数据：

filled_FS_df_list=[]
for code in tqdm(lack_FS_code_list):
    code_df=all_FS_df[all_FS_df.code==code]
    i=1
    while i<len(code_df):
        last_date=datetime.datetime.strptime(code_df.iloc[i-1]['statDate'],'%Y-%m-%d')
        this_date=datetime.datetime.strptime(code_df.iloc[i]['statDate'],'%Y-%m-%d')
        if (this_date-last_date).days>92:
            last_quarter=code_df.iloc[i-1]['quarter']
            last_year=code_df.iloc[i-1]['year']
            added_row_df=code_df.iloc[[i-1]].copy()
            added_row_df['year']=last_year if last_quarter<4 else last_year+1
            added_row_df['quarter']=last_quarter+1 if last_quarter<4 else 1
            date_str=str(last_year)+('-03-31' if last_quarter==4 else '-06-30' if last_quarter==1 else '-09-30' if last_quarter==2 else '-12-31')
            added_row_df['pubDate']=date_str
            added_row_df['statDate']=date_str
            code_df=pd.concat([code_df.iloc[:i],added_row_df,code_df.iloc[i:]])
            break
        i+=1
    filled_FS_df_list.append(code_df)
all_FS_df=pd.concat([all_FS_df[~all_FS_df.code.isin(lack_FS_code_list)],pd.concat(filled_FS_df_list)])
all_FS_df

移除缺失值较多的列:

all_FS_df.drop(columns=['ebitToInterest','MBRevenue'],inplace=True)
all_FS_df

接下来对缺失值进行填充。这里需要取出每只股票，单独填充，填充后再拼接起来。对于每只股票，数据按照时间顺序排列，因此对于缺失的数据，采用之前的数据向后填充；如果之前没有数据，则用后面的数据向前填充：

filled_FS_df_list=[]
for code in tqdm(all_FS_df.code.unique()):
    code_df=all_FS_df[all_FS_df.code==code]
    if code_df.isna().sum().sum():
        code_df.ffill(inplace=True)
        code_df.bfill(inplace=True)
    filled_FS_df_list.append(code_df)
filled_FS_df=pd.concat(filled_FS_df_list)
filled_FS_df

还有一部分股票所有季度的某个数据完全缺失，这里使用平均值进行填充。先查看下数据类型：

filled_FS_df.dtypes

涉及财务数据的特征数据类型为object，直接获取其平均值会失败，这里先转换下数据类型，填充后再替换原来位置的数据：

feature_df=filled_FS_df.loc[:,'roeAvg':].astype('float64')
feature_df.fillna(feature_df.mean(),inplace=True)
filled_FS_df.loc[:,'roeAvg':]=feature_df
filled_FS_df

样本构建

现在通过随机采样的方式从清洗后的数据框中选取时间序列片段构建样本：

K线数据的维度：（样本数N，时间序列长度(D+F)，K线数据特征数）

季频财务数据维度：（样本数N，历史季频财务数据长度Q，季频财务数据特征数）

重新清洗季频财务数据：

filled_FS_df.reset_index(inplace=True,drop=True)
filled_FS_df

下面构造训练数据。根据将股票在未来F天内的平均价格与当日价格相比，涨幅高于C的标记为3，在-C到C之间的标记为2，低于-C的标记为1。这里open、high、low和close都计算一下，后面方便灵活改变。先尝试200个采样，观察结果：

N=20000
D=100
F=5
Q=12
C=0.1#变化0.1，即10%

sample_idx_list=random.sample(range(D+F,len(filled_k_df)),N)
sample_k_df_list=[]
sample_FS_df_list=[]
label_2d_list=[]#分别以open，high,low,close计算有四个标签
for i in tqdm(sample_idx_list[:200]):
    sample_k_df=filled_k_df[i-(D+F)+1:i+1]
    last_date=datetime.datetime.strptime(sample_k_df['date'].iloc[-1],'%Y-%m-%d')
    first_date=datetime.datetime.strptime(sample_k_df['date'].iloc[0],'%Y-%m-%d')
    if len(sample_k_df['code'].unique())==1 and (last_date-first_date).days<=1.6*D:#100个交易日，前后的时间差在150天左右，超过160天的可能会有较多停牌日，此类过滤掉
        # 查找预测当天最近的FS_past个季频财务报告，获取不全的也舍弃掉
        predict_date=sample_k_df['date'].iloc[-(F+1)]
        code=sample_k_df['code'].iloc[-1]
        past_FS_df=filled_FS_df[(filled_FS_df.code==code) & (filled_FS_df.pubDate<=predict_date)]
        if len(past_FS_df)>=Q:
            sample_k_df_list.append(sample_k_df.loc[:,'open':])#仅保存数字特征值
            sample_FS_df_list.append(past_FS_df[-Q:].loc[:,'roeAvg':]) 
            future_average_price_array=sample_k_df.iloc[-5:][['open','high','low','close']].mean().to_numpy()
            now_price_array=sample_k_df.iloc[[-6]][['open','high','low','close']].mean().to_numpy()#此处可以选当前价格或过去几天的平均价格作为计算基准
            change_percent_array=future_average_price_array/now_price_array-1
            label_list=list(map(lambda x:3 if x>=C else 2 if x>=-C else 1,change_percent_array))
            label_2d_list.append(label_list)

观察收盘价每类标签的数量：

np.unique(np.array(label_2d_list)[:,3],return_counts=True)
(array([1, 2]), array([  3, 134]))

可以看到，准备200个采样，保留的仅有一半，不同标签数量差异大，样本极不均衡，需要更改策略。

可在整个K线数据框中，对几乎所有行先打上标签，然后再从每类标签中取样。首先插入4列标签列：

if 'open_label' not in filled_k_df.columns:
    filled_k_df.insert(2,'open_label',np.nan)
if 'high_label' not in filled_k_df.columns:
    filled_k_df.insert(3,'high_label',np.nan)
if 'low_label' not in filled_k_df.columns:    
    filled_k_df.insert(4,'low_label',np.nan)
if 'close_label' not in filled_k_df.columns:    
    filled_k_df.insert(5,'close_label',np.nan)

接下来要填充这四列。1000多万行，如果使用如下逐行计算的方法，速度慢到难以想象：

"""
for i in tqdm(range(len(filled_k_df)-F)):
    if filled_k_df.iloc[i]['code']==filled_k_df.iloc[i+F]['code']:
        now_price_array=np.array(filled_k_df[i:i+1][['open','high','low','close']].mean())
        future_mean_price_array=np.array(filled_k_df[i+1:i+6][['open','high','low','close']].mean())
        label_list=list(map(lambda x:3 if x>=C else 2 if x>=-C else 1,future_mean_price_array/now_price_array-1))
        filled_k_df.loc[i,['open_label','high_label','low_label','close_label']]=label_list
filled_k_df
"""

因此这里使用rolling方法，计算出四个价格列的移动平均值，再将未来几天的移动平均价格与当前价格比较，计算出标签。这里不用考虑不同股票的价格参与了同一平均值的计算，边缘处的计算结果后面取样时会被过滤掉：

for c in tqdm(['open_label','high_label','low_label','close_label'][:]):
    s=pd.concat([filled_k_df[c[:-6]].rolling(F).mean()[F:],pd.Series([np.nan]*F)])#补全长度
    change_array=np.array(s)/filled_k_df[c[:-6]]
    filled_k_df[c]=(change_array>=(1-C)).astype('int')-(change_array<=(1+C)).astype('int')+2
filled_k_df

好了，查看下四列的各标签数量：

print(filled_k_df['open_label'].value_counts())
print(filled_k_df['high_label'].value_counts())
print(filled_k_df['low_label'].value_counts())
print(filled_k_df['close_label'].value_counts())

open_label
1    13087572
Name: count, dtype: int64
high_label
1    13087572
Name: count, dtype: int64
low_label
2    12514806
3      325819
1      246947
Name: count, dtype: int64
close_label
2    12469206
3      375248
1      243118
Name: count, dtype: int64

从close_label列中三类标签分别选取10000个：

sample_k_df_list=[]
sample_FS_df_list=[]
label_2d_list=[]
for i in [1,2,3]:
    index_list=list(filled_k_df[filled_k_df['close_label']==i].index)
    count=0
    while count<10000 and len(index_list)>0:
        print('\r',count,end='')
        sample_index=random.sample(index_list,1)[0]
        index_list.remove(sample_index)
        if sample_index<D-1:
            continue
        sample_k_df=filled_k_df[sample_index-D+1:sample_index+1]
        last_date=datetime.datetime.strptime(sample_k_df['date'].iloc[-1],'%Y-%m-%d')
        first_date=datetime.datetime.strptime(sample_k_df['date'].iloc[0],'%Y-%m-%d')
        if len(sample_k_df['code'].unique())==1 and (last_date-first_date).days<=1.6*D:#100个交易日，前后的时间差在150天左右，超过160天的可能会有较多停牌日，此类过滤掉
            predict_date=sample_k_df['date'].iloc[-1]
            code=sample_k_df['code'].iloc[-1]
            past_FS_df=filled_FS_df[(filled_FS_df.code==code) & (filled_FS_df.pubDate<=predict_date)]
            if len(past_FS_df)>=Q:
                sample_k_df_list.append(sample_k_df.loc[:,'open':])#仅保存数字特征值
                sample_FS_df_list.append(past_FS_df[-Q:].loc[:,'roeAvg':])
                label_2d_list.append(np.array(sample_k_df.loc[sample_index,['open_label','high_label','low_label','close_label']]))
                count+=1
#label_2d_list
print('Finished')

以上采样的数据转换为numpy数组，并查看其形状：

k_array=np.array(sample_k_df_list)
FS_array=np.array(sample_FS_df_list)
label_array=np.array(label_2d_list).astype('int')
k_array.shape,FS_array.shape,label_array.shape
((30000, 100, 15), (30000, 12, 38), (30000, 4))

保存数据，这里k线数据仅保存前D行：

k_array[:,:D,:].tofile(f'data/k_{k_array.shape[0]}x{k_array.shape[1]}x{k_array.shape[2]}.dat')

FS_array=FS_array.astype(float)
FS_array.tofile(f'data/FS_{FS_array.shape[0]}x{FS_array.shape[1]}x{FS_array.shape[2]}.dat')
label_array.tofile(f'data/label_{label_array.shape[0]}x{label_array.shape[1]}.dat')

模型构建及训练

支付 ¥10 购买本节后解锁剩余49%的内容

微信支付

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
import tensorflow as tf
import keras
from keras.models import Model
from keras.layers import LSTM,Input,concatenate,Dense,Activation
from keras.utils import plot_model,to_categorical
from keras import optimizers
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
from IPython.display import clear_output
import warnings

from livelossplot import PlotLossesKerasTF
from livelossplot.outputs import MatplotlibPlot#'''

这里选close列作为标签，需要将标签类别转换为独热编码，由于独热编码是从0到n-1，标签是1,2,3，因此需要把标签减1：

y_close_array=label_array[:,3]
y_close_onehot=to_categorical(y_close_array-1)
y_close_onehot

划分数据集:

X_k_train, X_k_valid, X_FS_train, X_FS_valid,y_train, y_valid = train_test_split(k_array,FS_array,y_close_onehot)

先用keras构建一个简单的LSTM模型，能输出即可。下未训练过的模型的准确率，达到30%，即随机状态：

def build_model(k_lstm_cells=16,FS_lstm_cells=16,learning_rate=0.01):
    k_input=Input(shape=(100,15),name='k_input')
    k_lstm=LSTM(k_lstm_cells,return_sequences=False,name='k_lstm')(k_input)
    FS_input=Input(shape=(12,38),name='FS_input')
    FS_lstm=LSTM(FS_lstm_cells,return_sequences=False,name='FS_lstm')(FS_input)
    x = concatenate([k_lstm, FS_lstm],name='Concatenate')
    main_output = Dense(3, activation='softmax',name='Dense')(x)
    model = Model(inputs=[k_input,FS_input],outputs=main_output)
    adam=optimizers.Adam(learning_rate=learning_rate)
    model.compile(loss='categorical_crossentropy',optimizer=adam,metrics=['accuracy'])
    model_str='k_lstm('+str(k_lstm_cells)+')  FS_lstm('+str(FS_lstm_cells)+')\nConcatenate()\n'+'Dense(3)\nlr='+str(learning_rate)
    return model,model_str

model,model_str=build_model()
model.evaluate([X_k_valid,X_FS_valid],y_valid)
#[1.2296799421310425, 0.304666668176651]

下面对模型进行稍微的训练，都用默认值即可，训练1个epoch，再看下验证结果：

model.fit([X_k_train,X_FS_train],y_train)
model.evaluate([X_k_valid,X_FS_valid],y_valid)
#[1.0970499515533447, 0.3635999858379364]

准确率并没有提高。多训练几遍，看看：

model.fit([X_k_train,X_FS_train],y_train,epochs=6,batch_size=64)
model.evaluate([X_k_valid,X_FS_valid],y_valid)
#[1.0936743021011353, 0.3619999885559082]

准确率还是没有变化。更改一下模型的参数，增加神经元的个数并增大学习率，再看看：

model,model_str=build_model(32,32,0.03)
model.fit([X_k_train,X_FS_train],y_train,epochs=6,batch_size=64)
model.evaluate([X_k_valid,X_FS_valid],y_valid)
#[1.1077427864074707, 0.3726666569709778]

变化仍然不大，随后多次调整参数，使模型更复杂，几乎都是无任何效果。怀疑是不同股票价格相差较大的原因，这里尝试在训练前把数据做一下预处理再进行训练：

minMaxScaler=MinMaxScaler()
norm_k_array=np.array(list(map(minMaxScaler.fit_transform,k_array)))
norm_FS_array=np.array(list(map(minMaxScaler.fit_transform,FS_array)))
X_norm_k_train, X_norm_k_valid, X_norm_FS_train, X_norm_FS_valid,y_train, y_valid = train_test_split(norm_k_array,norm_FS_array,y_close_onehot)
model.evaluate([X_norm_k_valid,X_norm_FS_valid],y_valid)
#[1.2631981372833252, 0.3234666585922241]

model.fit([X_norm_k_train,X_norm_FS_train],y_train,epochs=6,batch_size=64)
model.evaluate([X_norm_k_valid,X_norm_FS_valid],y_valid)
#[1.0658458471298218, 0.4429333209991455]

预处理后的准确率有明显提高，说明进行数据预处理还是有些效果的。所以后面的训练使用预处理后的数据。

为了更直观地观察训练过程，并及时停止，这里使用回调函数绘制损失及准确率的曲线。

model.fit()方法可以计算每一个batch的训练集的loss及accuracy，但验证集的loss及accuracy只在一个epoch结束时计算。在数据集较大，遍历一遍较费时的时候，如果想急于看到训练过程的变化，可以通过设置steps_per_epoch参数为1来将1个batch当做1个epoch（设置为2就是将两个batch当做一个epoch）。验证集的accuracy及loss只能在on_epoch_end()方法中获取，训练集的accuracy及loss可在on_epoch_end()或on_batch_end()方法中获取。为简单计，均写在on_epoch_end(）方法中：

class LossHistory(keras.callbacks.Callback):
    def __init__(self,fig,ax,ax2,model):
        pass
    def on_train_begin(self, logs={}):
        self.train_loss_list = []
        self.val_loss_list= []
        self.train_acc_list=[]
        self.val_acc_list=[]
    def on_batch_end(self, batch, logs={}):
        pass
        
    def on_epoch_end(self, epoch, logs={}):
        ax.cla()
        ax2.cla()
        self.train_loss_list.append(logs.get('loss'))
        self.val_loss_list.append(logs.get('val_loss'))        
        self.train_acc_list.append(logs.get('accuracy'))
        self.val_acc_list.append(logs.get('val_accuracy'))
        ax.plot(self.train_loss_list,'r-',label='train_loss')
        ax.plot(self.val_loss_list,'r--',label='val_loss')
        ax2.plot(self.train_acc_list,'g-',label='train_acc')
        ax2.plot(self.val_acc_list,'g--',label='val_acc')
        fig.legend(loc='upper right',bbox_to_anchor=(0.8,0.8), bbox_transform=ax.transAxes)
        ax2.set_ylabel('accuracy',color='green')
        ax.set_ylabel('loss',color='red')
        ax.tick_params(axis='y',labelcolor='red')        
        ax2.tick_params(axis='y',labelcolor='green')
        display(fig)
        clear_output(wait=True)
        plt.pause(0.1)

此处在fit()方法中自行划分训练集和验证集，需要先把整体数据打乱：

row_idx = list(range(len(norm_k_array)))
np.random.shuffle(row_idx)
shuffled_norm_k_array=norm_k_array[row_idx]
shuffled_norm_FS_array=norm_FS_array[row_idx]
shuffled_y_onehot=y_close_onehot[row_idx]

def build_model(k_lstm_cells=16,FS_lstm_cells=16,learning_rate=0.01):
    k_input=Input(shape=(100,15),name='k_input')
    k_lstm=LSTM(k_lstm_cells,return_sequences=False,name='k_lstm')(k_input)
    FS_input=Input(shape=(12,38),name='FS_input')
    FS_lstm=LSTM(FS_lstm_cells,return_sequences=False,name='FS_lstm')(FS_input)
    x = concatenate([k_lstm, FS_lstm],name='Concatenate')
    main_output = Dense(3, activation='softmax',name='Dense')(x)
    model = Model(inputs=[k_input,FS_input],outputs=main_output)
    adam=optimizers.Adam(learning_rate=learning_rate)
    model.compile(loss='categorical_crossentropy',optimizer=adam,metrics=['accuracy'])
    model_str='k_lstm('+str(k_lstm_cells)+')  FS_lstm('+str(FS_lstm_cells)+')\nConcatenate()\n'+'Dense(3)\n\noptimizer:'+adam.name+'\nlr='+str(learning_rate)
    return model,model_str
model,model_str=build_model()

fig=plt.figure(figsize=(15,4))
gs = gridspec.GridSpec(1,4)
text_ax,ax = fig.add_subplot(gs[0,0]),fig.add_subplot(gs[0,1:])
text_ax.text(0.1, 0.5, model_str,alpha=0.5,verticalalignment='center',transform=fig.transFigure)
text_ax.axis('off')
ax2=ax.twinx()

history = LossHistory(fig,ax,ax2,model)
earlyStopping=keras.callbacks.EarlyStopping(patience=50)
model.fit([shuffled_norm_k_array,shuffled_norm_FS_array],shuffled_y_onehot,batch_size=1024,epochs=10, validation_split=0.25, verbose=0,steps_per_epoch=1,callbacks=[history,earlyStopping])
#model.fit([X_norm_k_train,X_norm_FS_train],y_train,batch_size=1024,epochs=1000, validation_split=0.25, verbose=0,steps_per_epoch=1,callbacks=[history,earlyStopping])
#model.fit([k_array,FS_array],y_close_onehot,shuffle=True,batch_size=1024,epochs=100, validation_split=0.25, verbose=0,steps_per_epoch=1,callbacks=[history,earlyStopping])
fig

此处建立几个不同的模型，查看结果有无差异。使用早停法，当验证集损失达到50个epoch不再下降时，训练停止，保存模型及训练曲线变化图：

def build_model1(k_lstm_cells=16,FS_lstm_cells=16,learning_rate=0.01):
    k_input=Input(shape=(100,15),name='k_input')
    k_lstm=LSTM(k_lstm_cells,return_sequences=False,name='k_lstm')(k_input)
    FS_input=Input(shape=(12,38),name='FS_input')
    FS_lstm=LSTM(FS_lstm_cells,return_sequences=False,name='FS_lstm')(FS_input)
    x = concatenate([k_lstm, FS_lstm],name='Concatenate')
    main_output = Dense(3, activation='softmax',name='Dense')(x)
    model = Model(inputs=[k_input,FS_input],outputs=main_output)
    adam=optimizers.Adam(learning_rate=learning_rate)
    model.compile(loss='categorical_crossentropy',optimizer=adam,metrics=['accuracy'])
    model_str='k_lstm('+str(k_lstm_cells)+')  FS_lstm('+str(FS_lstm_cells)+')\nConcatenate()\n'+'Dense(3)\n\noptimizer:'+adam.name+'\nlr='+str(learning_rate)
    return model,model_str
def build_model2(k_lstm_cells=16,FS_lstm_cells=16,learning_rate=0.01):
    k_input=Input(shape=(100,15),name='k_input')
    k_lstm=LSTM(k_lstm_cells,return_sequences=False,name='k_lstm')(k_input)
    FS_input=Input(shape=(12,38),name='FS_input')
    FS_lstm=LSTM(FS_lstm_cells,return_sequences=False,name='FS_lstm')(FS_input)
    x = concatenate([k_lstm, FS_lstm],name='Concatenate')
    x=Activation('tanh')(x)
    main_output = Dense(3, activation='softmax',name='Dense')(x)
    model = Model(inputs=[k_input,FS_input],outputs=main_output)
    adam=optimizers.Adam(learning_rate=learning_rate)
    model.compile(loss='categorical_crossentropy',optimizer=adam,metrics=['accuracy'])
    model_str='k_lstm('+str(k_lstm_cells)+')  FS_lstm('+str(FS_lstm_cells)+')\nConcatenate()\n'+'tanh()\nDense(3)\n\noptimizer:'+adam.name+'\nlr='+str(learning_rate)
    return model,model_str
def build_model3(k_lstm_cells=16,FS_lstm_cells=16,learning_rate=0.01):
    k_input=Input(shape=(100,15),name='k_input')
    k_lstm=LSTM(k_lstm_cells,return_sequences=False,name='k_lstm')(k_input)
    FS_input=Input(shape=(12,38),name='FS_input')
    FS_lstm=LSTM(FS_lstm_cells,return_sequences=False,name='FS_lstm')(FS_input)
    x = concatenate([k_lstm, FS_lstm],name='Concatenate')
    x=Activation('relu')(x)
    main_output = Dense(3, activation='softmax',name='Dense')(x)
    model = Model(inputs=[k_input,FS_input],outputs=main_output)
    adam=optimizers.Adam(learning_rate=learning_rate)
    model.compile(loss='categorical_crossentropy',optimizer=adam,metrics=['accuracy'])
    model_str='k_lstm('+str(k_lstm_cells)+')  FS_lstm('+str(FS_lstm_cells)+')\nConcatenate()\n'+'relu()\nDense(3)\n\noptimizer:'+adam.name+'\nlr='+str(learning_rate)
    return model,model_str
def build_model4(k_lstm_cells=16,FS_lstm_cells=16,learning_rate=0.01):
    k_input=Input(shape=(100,15),name='k_input')
    k_lstm=LSTM(k_lstm_cells,return_sequences=False,name='k_lstm')(k_input)
    FS_input=Input(shape=(12,38),name='FS_input')
    FS_lstm=LSTM(FS_lstm_cells,return_sequences=False,name='FS_lstm')(FS_input)
    x = concatenate([k_lstm, FS_lstm],name='Concatenate')
    x=Activation('sigmoid')(x)
    main_output = Dense(3, activation='softmax',name='Dense')(x)
    model = Model(inputs=[k_input,FS_input],outputs=main_output)
    adam=optimizers.Adam(learning_rate=learning_rate)
    model.compile(loss='categorical_crossentropy',optimizer=adam,metrics=['accuracy'])
    model_str='k_lstm('+str(k_lstm_cells)+')  FS_lstm('+str(FS_lstm_cells)+')\nConcatenate()\n'+'sigmoid()\nDense(3)\n\noptimizer:'+adam.name+'\nlr='+str(learning_rate)
    return model,model_str
def build_model5(k_lstm_cells=16,FS_lstm_cells=16,learning_rate=0.01):
    k_input=Input(shape=(100,15),name='k_input')
    k_lstm=LSTM(k_lstm_cells,return_sequences=True,name='k_lstm')(k_input)
    k_lstm=LSTM(k_lstm_cells,return_sequences=False,name='k_lstm2')(k_lstm)
    FS_input=Input(shape=(12,38),name='FS_input')
    FS_lstm=LSTM(FS_lstm_cells,return_sequences=True,name='FS_lstm')(FS_input)
    FS_lstm=LSTM(FS_lstm_cells,return_sequences=False,name='FS_lstm2')(FS_lstm)
    x = concatenate([k_lstm, FS_lstm],name='Concatenate')
    main_output = Dense(3, activation='softmax',name='Dense')(x)
    model = Model(inputs=[k_input,FS_input],outputs=main_output)
    adam=optimizers.Adam(learning_rate=learning_rate)
    model.compile(loss='categorical_crossentropy',optimizer=adam,metrics=['accuracy'])
    model_str='k_lstm('+str(k_lstm_cells)+')  FS_lstm('+str(FS_lstm_cells)+'\nk_lstm('+str(k_lstm_cells)+')  FS_lstm('+str(FS_lstm_cells)+')\nConcatenate()\n'+'Dense(3)\n\noptimizer:'+adam.name+'\nlr='+str(learning_rate)
    return model,model_str
def build_model6(k_lstm_cells=16,FS_lstm_cells=16,learning_rate=0.01):
    k_input=Input(shape=(100,15),name='k_input')
    k_lstm=LSTM(k_lstm_cells,return_sequences=True,name='k_lstm')(k_input)
    k_lstm=LSTM(k_lstm_cells,return_sequences=False,name='k_lstm2')(k_lstm)
    FS_input=Input(shape=(12,38),name='FS_input')
    FS_lstm=LSTM(FS_lstm_cells,return_sequences=True,name='FS_lstm')(FS_input)
    FS_lstm=LSTM(FS_lstm_cells,return_sequences=False,name='FS_lstm2')(FS_lstm)
    x = concatenate([k_lstm, FS_lstm],name='Concatenate')
    x=Activation('relu')(x)
    main_output = Dense(3, activation='softmax',name='Dense')(x)
    model = Model(inputs=[k_input,FS_input],outputs=main_output)
    adam=optimizers.Adam(learning_rate=learning_rate)
    model.compile(loss='categorical_crossentropy',optimizer=adam,metrics=['accuracy'])
    model_str='k_lstm('+str(k_lstm_cells)+')  FS_lstm('+str(FS_lstm_cells)+'\nk_lstm('+str(k_lstm_cells)+')  FS_lstm('+str(FS_lstm_cells)+')\nConcatenate()\n'+'relu()\nDense(3)\n\noptimizer:'+adam.name+'\nlr='+str(learning_rate)
    return model,model_str
model_dict={'model1':build_model1(16,16,0.01),
            'model2':build_model1(32,32,0.01),
            'model3':build_model1(64,64,0.01),
            'model3':build_model1(64,64,0.01),
            'model3':build_model1(128,128,0.01),
            'model4':build_model2(64,64,0.01),
            'model5':build_model3(64,64,0.01),
            'model6':build_model4(64,64,0.01),
            'model7':build_model5(64,64,0.01),
            'model8':build_model6(64,64,0.01),
           }
for name in model_dict:
    model,model_str=model_dict[name]
    
    fig=plt.figure(figsize=(15,4))
    gs = gridspec.GridSpec(1,4)
    text_ax,ax = fig.add_subplot(gs[0,0]),fig.add_subplot(gs[0,1:])
    text_ax.text(0.1, 0.5, model_str,alpha=0.5,verticalalignment='center',transform=fig.transFigure)
    text_ax.axis('off')
    ax2=ax.twinx()

    history = LossHistory(fig,ax,ax2,model)
    earlyStopping=keras.callbacks.EarlyStopping(patience=50)
    #model.fit([k_array,FS_array],y_close_onehot,batch_size=1024,epochs=1000, validation_split=0.25, verbose=0,steps_per_epoch=1,callbacks=[history,earlyStopping])
    model.fit([shuffled_norm_k_array,shuffled_norm_FS_array],shuffled_y_onehot,batch_size=1024,epochs=1000, validation_split=0.25, verbose=0,steps_per_epoch=1,callbacks=[history,earlyStopping])
    replaced_model_str=model_str.replace('\n','_').replace(' ','_').replace(':','_')
    model.save('model/'+replaced_model_str+'.keras')
    fig.savefig('model/'+replaced_model_str+'.jpg')

以上模型的效果相当，准确率也只能达到60%左右。

预测

import baostock as bs
import datetime
import pandas as pd
from sqlalchemy import create_engine
import pymysql
import mysql.connector
from tqdm import tqdm
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import keras
import math,requests,json
import matplotlib.pyplot as plt
import mplfinance as mpf
import mpl_finance as mp_f

接下来使用上述训练的模型去挑选一些可能会涨的股票。

A股市场全部有数千支股票，使用baostock对所有股票临时获取历史数据再做出预测筛选将是一个漫长的过程。因此最好将需要的历史数据保存下来，比如保存到数据库中并每日更新，这样在实时做出决策时才不会浪费太多时间去获取历史数据。

保存至数据库中

建一个名为stock的MySQL数据库，包含K线数据表KDaily和季频财务数据Quarter两个表，获取最近半年的K线历史数据及最近12个季度的季频财务数据并保存到数据库中。

创建数据库：

create database stock;

KDaily数据表的字段如下：

建表SQL语句：

create table KDaily(id int(10) auto_increment,date date,code char(9),open float,high float,low float,close float,preclose float,volume float,amount float,adjustflag tinyint,turn float,tradestatus tinyint,pctChg float,peTTM float,pbMRQ float,psTTM float,pcfNcfTTM float,isST tinyint,primary key (id)) engine=innodb default charset=utf8;

Quarter数据表的字段如下：

建表SQL语句：

create table Quarter(id int(10) auto_increment,code char(9),pubDate date,statDate date,roeAvg float,npMargin float,gpMargin float,netProfit float,epsTTM float,MBRevenue float,totalShare float,liqaShare float,NRTurnRatio float,NRTurnDays float,INVTurnRatio float,INVTurnDays float,CATurnRatio float,AssetTurnRatio float,YOYEquity float,YOYAsset float,YOYNI float,YOYEPSBasic float,YOYPNI float,currentRatio float,quickRatio float,cashRatio float,YOYLiability float,liabilityToAsset float,assetToEquity float,CAToAsset float,NCAToAsset float,tangibleAssetToAsset float,ebitToInterest float,CFOToOR float,CFOToNP float,CFOToGr float,dupontROE float,dupontAssetStoEquity float,dupontAssetTurn float,dupontPnitoni float,dupontNitogr float,dupontTaxBurden float,dupontIntburden float,dupontEbittogr float,primary key(id))engine=innodb default charset=utf8;

先将已获取的数据写入数据库中。这里使用sqlalchemy，可以直接将这个数据框直接写入数据库。写入近半年的K线数据，50多万行花费大约2min；再写入最近4年的财务数据：

host='localhost'#也可换成服务器IP
user='root'
password='password'

con = pymysql.connect(host=host,user=user,port=3306,database='stock',password=password)
cur= con.cursor()
cur.execute("select MAX(date) from KDaily")
last_date=cur.fetchone()
if not last_date:#若查询结果为空，则未写入过数据，可以写入
    
    start_date_str= datetime.date.strftime(datetime.date.today()-datetime.timedelta(180),"%Y-%m-%d")
    recent_halfYear_k_df=all_k_df[all_k_df['date']>=start_date_str]
    print(len(recent_halfYear_k_df))
    connect=create_engine('mysql+pymysql://'+user+':'+password+'@'+host+':3306/stock')
    pd.io.sql.to_sql(recent_halfYear_k_df[:],'KDaily',connect,if_exists='append',index=False) #这行跑不通时重新运行一次即可
    
    # 用同样的方法写入季频财务数据：
    start_year=datetime.date.today().year-4
    all_FS_df.replace('',np.nan,inplace=True)
    for c in tqdm(all_FS_df.columns[5:]):
        all_FS_df[c]=all_FS_df[c].astype('float64')
    sql_all_FS_df=all_FS_df[all_FS_df['year']>=start_year].drop(['year','quarter'],axis=1)
    pd.io.sql.to_sql(sql_all_FS_df,'Quarter',connect,if_exists='append',index=False)

接下来获取已保存的数据中未包含的最近的数据，每只股票的K线数据及财务数据都需要重新获取，再拼接在一起，写入数据库：

可以写成一个程序放在服务器上每天执行，获取新的K线数据和财务数据并写入到数据库中：

def get_FS_df(code,year,quarter):
    profit_df=bs.query_profit_data(code,year,quarter).get_data()
    operation_df=bs.query_operation_data(code,year,quarter).get_data()
    growth_df=bs.query_growth_data(code,year,quarter).get_data()
    balance_df=bs.query_balance_data(code,year,quarter).get_data()
    cash_flow_df=bs.query_cash_flow_data(code,year,quarter).get_data()
    dupont_df=bs.query_dupont_data(code,year,quarter).get_data()
    FS_df=pd.concat([profit_df,operation_df,growth_df,balance_df,cash_flow_df,dupont_df],axis=1)
    FS_df=FS_df.loc[:,~FS_df.columns.duplicated()]#列去重
    return FS_df
def get_merged_FS_df(code,start_year,start_quarter):
    FS_df_list=[]
    end_year=datetime.date.today().year
    end_quarter=datetime.date.today().month//4
    for year in range(start_year,end_year+1):
        for quarter in range(1,5):
            if (year>start_year or quarter>=start_quarter):
                FS_df=get_FS_df(code,year,quarter)
                FS_df_list.append(FS_df)
            if year==end_year and quarter==end_quarter:
                break
    merged_FS_df=pd.concat(FS_df_list)
    return merged_FS_df
def update_database():
    # 更新K线数据
    con = pymysql.connect(host=host,user=user,port=3306,database='stock',password=password)
    cur= con.cursor()
    cur.execute("select MAX(date) from KDaily")
    last_date=cur.fetchone()[0]
    print(last_date)
    start_date_str=datetime.date.strftime(last_date+datetime.timedelta(1),"%Y-%m-%d")
    bs.login()
    stock_industry_df=bs.query_stock_industry().get_data()
    code_list=list(stock_industry_df.code)
    k_df_list=[]
    for code in tqdm(code_list):
        k_df=bs.query_history_k_data_plus(code,adjustflag="2",start_date=start_date_str,fields='date,code,open,high,low,close,preclose,volume,amount,adjustflag,turn,tradestatus,pctChg,peTTM,pbMRQ,psTTM,pcfNcfTTM,isST').get_data()
        k_df_list.append(k_df)
    concated_k_df=pd.concat(k_df_list)
    concated_k_df.replace('',np.nan,inplace=True)
    for c in tqdm(concated_k_df.columns[2:]):
        concated_k_df[c]=concated_k_df[c].astype('float64')
    connect=create_engine('mysql+pymysql://'+user+':'+password+'@'+host+':3306/stock')#
    pd.io.sql.to_sql(concated_k_df,'KDaily',connect,if_exists='append',index=False)

    # 更新财务数据
    con = pymysql.connect(host=host,user=user,port=3306,database='stock',password=password)
    cur= con.cursor()
    cur.execute("select code,MAX(statDate) from Quarter group by code")
    result_tuple=cur.fetchall()
    last_statDate_dict=dict(result_tuple)
    now_quarter=datetime.date.today().month//4+1
    now_year=datetime.date.today().year
    FS_df_list=[]
    bs.login()
    for code in tqdm(code_list):
        if code in last_statDate_dict:
            last_year=last_statDate_dict[code].year
            last_quarter=last_statDate_dict[code].month//4+1
            next_quarter=last_quarter+1 if last_quarter<4 else 1
            next_year=last_year+1 if next_quarter==1 else last_year        
            if next_quarter<now_quarter or next_year<now_year:
                FS_df=get_merged_FS_df(code,next_year,next_quarter)
                FS_df_list.append(FS_df)
        else:
            start_year=now_year=datetime.date.today().year-4
            FS_df=get_merged_FS_df(code,start_year,1)
            FS_df_list.append(FS_df)
    concated_FS_df=pd.concat(FS_df_list)
    for c in tqdm(concated_FS_df.columns[3:]):
        concated_FS_df[c]=concated_FS_df[c].astype('float64')
    connect=create_engine('mysql+pymysql://'+user+':'+password+'@'+host+':3306/stock')
    pd.io.sql.to_sql(concated_FS_df,'Quarter',connect,if_exists='append',index=False)

host='localhost'
user='root'
password='password'
update_database()
print('Fininshed.')

从数据库中读取并预测

先获取数据并预处理：

def fill_k_df(all_k_df):
    print('Filling k_df...')
    containNan_series=all_k_df.isna().sum()>0
    containNan_index=containNan_series[containNan_series==True].index
    for c in tqdm(containNan_index):
        na_index_list=all_k_df[all_k_df[c].isna()].index
        for i in na_index_list:#向前填充，若首行为空则会遗漏
            if i and all_k_df.loc[i,'code']==all_k_df.loc[i-1,'code']:
                all_k_df.loc[i,c]=all_k_df.loc[i-1,c]
        na_index_list=all_k_df[all_k_df[c].isna()].index
        for i in na_index_list[::-1]:#向后填充
            if i!=len(all_k_df) and all_k_df.loc[i,'code']==all_k_df.loc[i+1,'code']:
                all_k_df.loc[i,c]=all_k_df.loc[i+1,c]
    k_feature_df=all_k_df.loc[:,'open':]
    k_feature_df.fillna(k_feature_df.mean(),inplace=True)#均值填充
    all_k_df.loc[:,'open':]=k_feature_df
    return all_k_df
def fill_FS_df(all_FS_df):
    print('Filling FS_df...')
    if 'year' not in all_FS_df.columns:
        all_FS_df.insert(3,'year',list(map(lambda s:int(str(s)[:4]),all_FS_df['statDate'])))
    if 'quarter' not in all_FS_df.columns:
        all_FS_df.insert(4,'quarter',list(map(lambda s:1 if str(s)[5:7]=='03' else 2 if str(s)[5:7]=='06' else 3 if str(s)[5:7]=='09' else 4,all_FS_df['statDate'])))    

    lack_FS_code_list=[]
    for code in tqdm(all_FS_df.code.unique()):
        code_df=all_FS_df[all_FS_df.code==code]
        quarters=(code_df.year.iloc[-1]-code_df.year.iloc[0])*4+(code_df.quarter.iloc[-1]-code_df.quarter.iloc[0])+1
        if len(code_df)<quarters:
            lack_FS_code_list.append(code)
    filled_code_df_list=[]
    for code in tqdm(lack_FS_code_list):
        code_df=all_FS_df[all_FS_df.code==code]
        i=1
        while i<len(code_df):
            last_date=datetime.datetime.strptime(str(code_df.iloc[i-1]['statDate']),'%Y-%m-%d')
            this_date=datetime.datetime.strptime(str(code_df.iloc[i]['statDate']),'%Y-%m-%d')
            if (this_date-last_date).days>92:
                last_quarter=code_df.iloc[i-1]['quarter']
                last_year=code_df.iloc[i-1]['year']
                added_row_df=code_df.iloc[[i-1]].copy()
                added_row_df['year']=last_year if last_quarter<4 else last_year+1
                added_row_df['quarter']=last_quarter+1 if last_quarter<4 else 1
                date_str=str(last_year)+('-03-31' if last_quarter==4 else '-06-30' if last_quarter==1 else '-09-30' if last_quarter==2 else '-12-31')
                added_row_df['pubDate']=date_str
                added_row_df['statDate']=date_str
                code_df=pd.concat([code_df.iloc[:i],added_row_df,code_df.iloc[i:]])
                break
            i+=1
        filled_code_df_list.append(code_df)
    if filled_code_df_list:
        all_FS_df=pd.concat([all_FS_df[~all_FS_df.code.isin(lack_FS_code_list)],pd.concat(filled_code_df_list)])

    filled_FS_df_list=[]
    for code in tqdm(all_FS_df.code.unique()):
        code_df=all_FS_df[all_FS_df.code==code]
        if code_df.isna().sum().sum():
            code_df.ffill(inplace=True)
            code_df.bfill(inplace=True)
        filled_FS_df_list.append(code_df)
    filled_FS_df=pd.concat(filled_FS_df_list)
    FS_feature_df=filled_FS_df.loc[:,'roeAvg':]
    FS_feature_df.fillna(FS_feature_df.mean(),inplace=True)
    filled_FS_df.loc[:,'roeAvg':]=FS_feature_df
    return filled_FS_df
    
host='localhost'#
user='root'
password='password'

bs.login()
halfYearAgo_date=datetime.date.strftime(datetime.date.today()-datetime.timedelta(180),'%Y-%m-%d')
trade_state_df=bs.query_trade_dates(start_date=halfYearAgo_date).get_data()
query_k_start_date=trade_state_df[trade_state_df['is_trading_day']=='1'].iloc[-100]['calendar_date']# 首先获取最近100个交易日的起始日期
cnx = mysql.connector.connect(user=user, password=password,host=host,database='stock')
recent_k_df = pd.read_sql_query("select * from KDaily where date>='%s'"%query_k_start_date, cnx)
recent_k_df.drop(['id','adjustflag'],axis=1,inplace=True)

today=datetime.date.today()
now_quarter=today.month//4+1
now_year=today.year
start_statDate1=today-datetime.timedelta(365*3+180)#获取三年半之前的日期作为起始日期
recent_FS_df=pd.read_sql_query("select * from Quarter where statDate>='%s'"%start_statDate1, cnx)
recent_FS_df.drop(['id','ebitToInterest','MBRevenue'],axis=1,inplace=True)

filled_k_df=fill_k_df(recent_k_df)
filled_FS_df=fill_FS_df(recent_FS_df)
fs_tuple=np.unique(filled_FS_df['code'],return_counts=True)
FS_enough_code_set=set(fs_tuple[0][fs_tuple[1]>=12])
k_tuple=np.unique(filled_k_df['code'],return_counts=True)
k_enough_code_set=set(k_tuple[0][k_tuple[1]>=100])
enough_code_list=list(FS_enough_code_set.intersection(k_enough_code_set))

k_df_list=[]
FS_df_list=[]
for code in tqdm(enough_code_list):
    latest_k_df=filled_k_df[filled_k_df['code']==code][-100:]
    latest_FS_df=filled_FS_df[filled_FS_df['code']==code][-12:]
    k_df_list.append(latest_k_df.loc[:,'open':])
    FS_df_list.append(latest_FS_df.loc[:,'roeAvg':])
k_array=np.array(k_df_list)
FS_array=np.array(FS_df_list)
minMaxScaler=MinMaxScaler()
norm_k_array=np.array(list(map(minMaxScaler.fit_transform,k_array)))
norm_FS_array=np.array(list(map(minMaxScaler.fit_transform,FS_array)))
norm_k_array.shape,norm_FS_array.shape

预测并筛选出上涨概率较大的前几只股票，画出其K线图：

model=keras.models.load_model('model/k_lstm(64)__FS_lstm(64)_Concatenate()_relu()_Dense(3)__optimizer_adam_lr=0.01.keras')
predict_array=model.predict([norm_k_array,norm_FS_array])
sorted_code_tuple=sorted(zip(predict_array[:,2],enough_code_list),reverse=True)#按照涨的可能性从大到小排序
sorted_code_list=[i[1] for i in sorted_code_tuple[:10]]#选前10个

plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号 '-' 显示为方块的问题

def plot_k(code,ax,lmt=90):
    #url='https://push2his.eastmoney.com/api/qt/stock/kline/get?cb=jQuery3510994187652125889_1718687134220&secid=0.000638&ut=fa5fd1943c7b386f172d6893dbfba10b&fields1=f1%2Cf2%2Cf3%2Cf4%2Cf5%2Cf6&fields2=f51%2Cf52%2Cf53%2Cf54%2Cf55%2Cf56%2Cf57%2Cf58%2Cf59%2Cf60%2Cf61&klt=101&fqt=1&end=20500101&lmt=120&_=1718687134234'
    url='https://push2his.eastmoney.com/api/qt/stock/kline/get?cb=jQuery3510994187652125889_1718687134220&secid='+('0' if code[0]!='6' else '1')+'.'+code+'&ut=fa5fd1943c7b386f172d6893dbfba10b&fields1=f1%2Cf2%2Cf3%2Cf4%2Cf5%2Cf6&fields2=f51%2Cf52%2Cf53%2Cf54%2Cf55%2Cf56%2Cf57%2Cf58%2Cf59%2Cf60%2Cf61&klt=101&fqt=1&end=20500101&lmt='+str(lmt)+'&_=1718687134234'
    text=requests.get(url).text
    data_dict=json.loads(text[text.index('{'):-2])['data']
    k2D_list=[[j if j.count('-')==2 else float(j) for j in i.split(',')] for i in data_dict['klines']]
    open_list=[i[1] for i in k2D_list]
    close_list=[i[2] for i in k2D_list]
    high_list=[i[3] for i in k2D_list]
    low_list=[i[4] for i in k2D_list]
    mp_f.candlestick2_ochl(ax,open_list,close_list,high_list,low_list,width=0.5,colorup='r',colordown='g')
    ax.plot(pd.Series(close_list).rolling(window=5).mean())
    #ax.plot(pd.Series(close_list).rolling(window=10).mean())
    #ax.plot(pd.Series(close_list).rolling(window=20).mean())
    #添加行业说明
    url2='https://datacenter.eastmoney.com/securities/api/data/v1/get?reportName=RPT_F10_BASIC_ORGINFO&columns=SECUCODE%2CSECURITY_CODE%2CSECURITY_NAME_ABBR%2CORG_CODE%2CORG_NAME%2CORG_NAME_EN%2CFORMERNAME%2CSTR_CODEA%2CSTR_NAMEA%2CSTR_CODEB%2CSTR_NAMEB%2CSTR_CODEH%2CSTR_NAMEH%2CSECURITY_TYPE%2CEM2016%2CTRADE_MARKET%2CINDUSTRYCSRC1%2CPRESIDENT%2CLEGAL_PERSON%2CSECRETARY%2CCHAIRMAN%2CSECPRESENT%2CINDEDIRECTORS%2CORG_TEL%2CORG_EMAIL%2CORG_FAX%2CORG_WEB%2CADDRESS%2CREG_ADDRESS%2CPROVINCE%2CADDRESS_POSTCODE%2CREG_CAPITAL%2CREG_NUM%2CEMP_NUM%2CTATOLNUMBER%2CLAW_FIRM%2CACCOUNTFIRM_NAME%2CORG_PROFILE%2CBUSINESS_SCOPE%2CTRADE_MARKETT%2CTRADE_MARKET_CODE%2CSECURITY_TYPEE%2CSECURITY_TYPE_CODE%2CEXPAND_NAME_ABBR%2CEXPAND_NAME_PINYIN&quoteColumns=&filter=(SECUCODE%3D%22'+code+'.'+('SH' if code[0]=='6' else 'SZ')+'%22)&pageNumber=1&pageSize=1&sortTypes=&sortColumns=&source=HSF10&client=PC&v=07123931473791763'
    text2=requests.get(url2).text
    basicInfo_dict=json.loads(text2)['result']['data'][0]
    industry1_str=basicInfo_dict['INDUSTRYCSRC1']
    industry2_str=basicInfo_dict['EM2016']
    ax.set_xlabel(code+' '+data_dict['name']+'\n'+industry1_str+'\n'+industry2_str,fontdict={'size':14})
code_list2=[i[3:] for i in sorted_code_list]
print('code_list2:',code_list2)
cols=3 #每行显示数量
lmt=90 #展示最近K线数量
close_list=[]
rows=math.ceil(len(code_list2)/cols)
fig,ax=plt.subplots(rows,cols,figsize=(16,rows*4),sharex=True)
for i,code in enumerate(code_list2):
    if rows>=2:
        plot_k(code,ax[i//3][i%3],lmt=lmt)
    else:
        plot_k(code,ax[i%3],lmt=lmt)
fig.tight_layout()

分类：

未分类

同步CSDN博客至wordpress

基于java-SWT的图书管理系统设计

财务自由之路

使用LSTM神经网络预测股价涨跌

数据获取

获取K线数据

获取财务数据

数据保存

保存K线数据

保存季频财务数据

数据清洗及样本构建

K线数据清洗

季频财务数据清洗

样本构建

模型构建及训练

预测

保存至数据库中

从数据库中读取并预测

Previous Post

Next Post

发表回复取消回复

使用LSTM神经网络预测股价涨跌

数据获取

获取K线数据

获取财务数据

数据保存

保存K线数据

保存季频财务数据

数据清洗及样本构建

K线数据清洗

季频财务数据清洗

样本构建

模型构建及训练

预测

保存至数据库中

从数据库中读取并预测

Previous Post

Next Post

发表回复 取消回复

发表回复取消回复