分类
期权新手入门

基于这个指标的策略效果更好

下图基于参数(0.8,0.5),但根据不同成交金额PCR指标的策略净值图,次主力合约成交金额PCR(PCR_amount_2)的效果最优。图为策略参数(0.8,0.5)基于不同成交金额PCR指标的策略净值表现

为什么回测效果非常好的策略实盘却不行?

幸存者偏差(英语:survivorship bias),另译为“生存者偏差 [1]”或“存活者偏差”。常用俗语“死人不会说话”来解释其成因。 意思是指,当取得资讯之管道,仅来自于幸存者时(因为无从由死者获得来源),此资讯可能会存在与实际情况不同之偏差。常见于财务金融领域之文章。
此情况常见于投资理财之节目或文章,例如当投资理财之电视节目仅邀请投资成功者上节目谈论其成功投资之经验,观众会将该成功投资者投资之方式,视为高成功率之投资方式,但观众并不会在电视节目看到以相同或类似投资方式,但最后失败的投资者,因而高估此投资方式之成功机率。

4. 过拟合。先给定义,来自百度百科:

为了得到一致假设而使假设变得过度复杂称为过拟合。想像某种学习算法产生了一个过拟合的分类器,这个分类器能够百分之百的正确分类样本数据(即再拿样本中的文档来给它,它绝对不会分错),但也就为了能够对样本完全正确的分类,使得它的构造如此精细复杂,规则如此严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别。
标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 ----《Machine Learning》Tom 基于这个指标的策略效果更好 M.Mitchell

好吧,数据挖掘的人写的东西,看来国内搞金融的人都高端大气不愿意用百科,有空我把wiki的英文翻译过来好了。针对量化交易的小方向来说,就是说交易策略中参数用多了、或者交易流程设置过于复杂了,导致交易策略过度提取了样本数据中的某些显性信息,而误读了整体数据中的真实信息。如果你有较好的统计基础或者计量基础,你应该明白过拟合的含义,学界为了R方和结果显著性不顾一切乱来的太多了,负面例子不胜枚举,如果不太理解请补课。

5. 泛化能力。与“过拟合”关系密切,在绝大部分情况下就是“过拟合”问题导致的结果,不过含义是截然不同的,且存在例外,因此单列出来。最出名的例外就是现在红火到爆的Deep Learning了,简单来看就是隐层数增加的人工神经网络,所以亦称Deep Neural Network,虽然由于隐层的问题,参数一度多到无法正确估计,但是有了数据量的巨大提升和Autoencoder之类的处理方法之后屌丝逆袭干掉了一众分类算法。最近去百度的吴恩达就是这方面的专家,更不用提Hinton他老人家,Google的科技吉祥物好嘛。扯远了,回来,下面的定义来自百度百科:

泛化能力是量化交易盈利的灵魂,涉及到哲学和技术两个层面。有空我会增加这部分的内容。

7. 策略周期。策略是有周期的,站在风口上,猪都会飞。在趋势行情下,盘整策略会亏,在盘整行情下,趋势策略会亏。那我用技术手段,区分趋势行情和盘整行情呢?这是对未来行情的预测,提前固化的预测手段是具有时效性的,依然是一个大的周期问题。存不存在不会过期的盈利性策略呢,我认为有,具体的内容我会在后面混沌等内容中展开来讲,因为太哲学。目前而言,我寄希望于找到一个有效周期足够长的策略,我还没有找到,但会继续努力。

想做沪深300股指期权,基于这个指标的策略效果更好!

成交量PCR指数是指看跌期权成交量和看涨期权成交量的比值,根据合约月份的不同,分为主力合约成交量PCR(PCR_volume_1)、次主力合约成交量PCR(PCR_volume_2)、总成交量PCR(PCR_volume_all)。理论上,成交量PCR和标的价格呈反向关系,但有时也有误判,比如5月底、6月底成交量PCR的高位对应着股指的低位,但是2月中下旬成交量PCR的高位并不是股指阶段性的低位。图为沪深300股指期权成交量PCR和沪深300指数

持仓量PCR同样分为主力合约持仓量PCR(PCR_oi_1)、次主力合约持仓量PCR(PCR_oi_2)、总持仓量PCR(PCR_oi_all),理论上持仓量PCR和标的价格指数呈现正向关系。2020年6月底之前持仓量PCR和沪深300指数拟合度较高,正相关性较佳,但6—7月二者出现比较明显的背离。图为沪深300股指期权持仓量PCR和沪深300指数

3.成交金额PCR和股指呈现负相关关系图为沪深300股指期权成交金额PCR和沪深300指数

具体看各项PCR和沪深300指数的相关关系,从下表可以看出,持仓量PCR和沪深300指数收盘价呈现正相关关系,成交量PCR和沪深300指数关系不强,成交金额PCR和沪深300指数呈现比较强的负相关关系,就PCR指标和沪深300指数收盘价相关系数的绝对数额来看,成交金额>持仓量>成交量。表为各项PCR和沪深300指数的相关系数

1.成交量PCR应用图为PCR_volume_1基于不同参数组合的策略净值

下图为基于参数(0.8,0.5)但根据不同成交量PCR指标的策略净值,主力合约成交量PCR(PCR_volume_1)的效果最优。图为策略参数(0.8,0.5)基于不同成交量PCR指标的策略净值

下图是所有合约持仓量PCR(PCR_oi_all)基于上述策略操作的净值表现,高阈值分别选取1.0/1.1/1.2,低阈值分别选取0.5/0.6/0.7,一共9个组合。累计收益最高的组合(1.1,0.6)的年化收益率为37.15%,最大回撤是20.51%,但是部分组合的年化收益为负值。由于在2020年6—7月持仓量PCR和股指的正相关关系出现了背离,所以这段时间的净值曲线出现了较大的回撤,影响了整体的收益率。图为PCR_oi_all基于不同参数组合的策略净值图为策略参数(1.0,0.6)基于不同成交量PCR指标的策略净值

成交金额PCR策略和成交量PCR策略类似,交易方向也一样。策略的参数同样有两个,分别为高阈值、低阈值,高阈值分别选取0.8/0.9/1.0,低阈值分别选取0.3/0.4/0.5,一共9个组合。下图是主力合约成交金额PCR基于不同策略组合的净值表现。累计收益最高的组合(0.9,0.4)的年化收益率为63.54%,最大回撤是14.8%,累计收益最低的组合(1,0.3)的年化收益率为36.33%,最大回撤是14.8%。尽管最佳组合和最差组合的年化收益率差距较大,但不同策略组合都取得较佳的回报。图为PCR_amount_1基于不同参数组合的策略净值表现

下图基于参数(0.8,0.5),但根据不同成交金额PCR指标的策略净值图,次主力合约成交金额PCR(PCR_amount_2)的效果最优。图为策略参数(0.8,0.5)基于不同成交金额PCR指标的策略净值表现

沪深300股指期权怎么做?基于这个指标的策略效果更好!

头像

图为沪深300股指期权成交量PCR和沪深300指数

图为沪深300股指期权成交量PCR和沪深300指数

图为沪深300股指期权持仓量PCR和沪深300指数

图为沪深300股指期权持仓量PCR和沪深300指数

图为沪深300股指期权成交金额PCR和沪深300指数

图为沪深300股指期权成交金额PCR和沪深300指数

图为PCR_volume_1基于不同参数组合的策略净值

图为PCR_volume_1基于不同参数组合的策略净值

图为策略参数(0.8,0.5)基于不同成交量PCR指标的策略净值

图为策略参数(0.8,0.5)基于不同成交量PCR指标的策略净值

图为PCR_oi_all基于不同参数组合的策略净值

图为PCR_oi_all基于不同参数组合的策略净值

图为策略参数(1.0,0.6)基于不同成交量PCR指标的策略净值

图为策略参数(1.0,0.6)基于不同成交量PCR指标的策略净值

图为PCR_amount_1基于不同参数组合的策略净值表现

图为PCR_amount_1基于不同参数组合的策略净值表现

图为策略参数(0.8,0.5)基于不同成交金额PCR指标的策略净值表现

图为策略参数(0.8,0.5)基于不同成交金额PCR指标的策略净值表现

推荐系统系列之推荐系统概览(下)

在进行召回的时候,经常需要构建索引。对所有的用户进行索引是非常耗存储和费时的,所以在构建索引的时候,可能选择月活用户来构建索引是合适的。在做实时召回的时候,用户的行为序列特征除了可以考虑推荐业务相关的行为,还可以考虑同一个应用的其他形态比如用户在搜索业务中的行为。比如YoutubeDNN召回模型的特征,除了有用户最近观看过的video id序列/video embedding,还有该用户最近搜索过的word序列或者word的embedding。作者提到加入搜索业务的用户行为对整个效果提升不错。有意思的地方是YoutubeDNN排序模型并没有把用户最近搜索过的word序列或者embedding建模进来。

排序阶段常用的排序模型

  • LR逻辑回归模型,它是CTR预估排序任务早期使用最多的模型。LR的预测函数如下:

  • GBDT+LR级联模型(具体可以参考Facebook的论文),思路是用GBDT对所有的原始特征进行编码,然后把得到的编码结果送入级联的LR做分类。本质上是利用GBDT自动进行特征筛选和组合,它的一个变体是GBDT+FM模型,利用FM来替换LR。

  • FM因子分解机模型(参考博客),它是在深度排序模型流行之前,使用的比较多的排序模型。FM一般需要把category特征包括ID类特征都要变成one-hot向量,因此维度会很高(下图中的例子是针对3个user,3个item的情况) 。爱奇艺使用用户的观看历史以及兴趣标签代替user id,降低了特征维度,并且因为用户兴趣是可以复用的,同时也提高了对应特征的泛化能力。

FM可以看作是Matrix Factorization(MF,矩阵分解)的进一步拓展,除了User 基于这个指标的策略效果更好 ID和Item ID这两类特征外,很多其它类型的特征都可以进一步引入FM。FM自动计算特征二阶交叉,它将所有这些特征转化为embedding低维向量表达,并计算任意两个特征embedding的内积,作为这两个特征组合的权重。