tushare使用经验介绍
基于tushare量化平台(我的ID:471789),我完成了一个量化投资相关的项目,通过对tushare量化平台的接口调用金融市场的数据,利用数据分析和数据挖掘来对大量的金融市场数据进行计算处理、统计分析,从而形成时效性极强的投顾建议。 结合对于A股市场的大量数据进行分析计算和我个人对于经济金融领域的了解,我完全通过个人力量,写出了一个可以预测、监控沪深主板股票的主力机构(庄家)炒作行为的Python程序,虽然期间经历了几次挫折和失败,但是我不断地调整对数据的清洗过滤方式和计算参数,最终取得了较好的成效:有至少5成的几率,我可以通过提前运行程序,预测某个特定的股票的庄家短期炒作股价行为。经历了多次实盘操作(在我的程序指导下进行股票买入),我的超短线(7天以内)平均收益可以达到6%左右。服务流程:在每天股票市场交易结束后对tushare量化平台的接口调用,导入最新市场数据以更新数据库,并对最新的数据进行处理计算,得到满足我所设置的阈值的几只证券,将这几只证券反馈给用户,作为第二天的买入建议。大致步骤:1.通过tushare量化平台接口直接获取格式化的金融市场数据。2.数据清洗——我的程序处理数据的行为之一就是将沪深主板股票池中3000多支股票最近的成交额数据进行遍历式的计算,以从中找出设定最符合条件的个别股票。这就要求各个股票在时间序列上具有相同的索引和结构。但是很不幸,公司停牌重组、退市、上市是证券交易的家常便饭,而且不同股票出现上述“交易日不交易”状态的时间并不一样且几乎完全没有规律。这就为下一步的数据处理带来不便。对此,有进行数据清洗的需要。我最初计划采取以下两种路线:将停牌时期的成交额数据设置成0,直接代入计算。此方法简单粗暴有效,但是不能很好地顾及新上市和退市公司和有重大事故而长期停牌的公司的情况。修改遍历日期,先将有股票停牌的日期从数据计算列表中过滤掉,直接计算剩下的时间的日期。此方法破坏掉了操作的流水线特性,使得各个股票计算方法差异较大,而且互相的停牌日期会有影响。考虑到新上市和退市公司和有重大事故而长期停牌的公司只占少数,所以选择方法(1)进行数据清洗。3.数据分析——这个步骤的处理是我的监控程序核心灵魂所在。但是没必要在此过多赘述,因为这其间很大程度上运用到的是金融市场方面的知识,而不是什么新兴的深度学习之类的方法技术。我的运算过程包含求和、求差、求比率、求最大值、设置阈值、调整阈值等操作。通过这一系列的操作,我可以八九不离十地认定:这只股票的庄家最近要进行股价操纵(拉高出货),相较于之前长久的低迷,它的成交量和价格会在最近几天有一个不小的提升。在进行数据分析的过程中,我也曾遇到过一些困难,在一段时间内,由于我阈值设置的原因,总是有很多股票符合我设置的标准而被最终呈现,但是实际上根本不可能同时有如此多的增量资金进行炒作,于是我依据试验的结果不断倒逼反推我的数据分析过程和阈值设置方法,进行了多次调整,最终终于可以做到在3000多支中每日符合条件的只有五六支,这才是比较符合逻辑的结果。
|