Monday 5 March 2018

Análise de regressão e estratégias de negociação quantitativas


QuantStart.
Junte-se ao portal de membros privados da Quantcademy que atende à comunidade de comerciantes de varejo de varejo em rápido crescimento. Você encontrará um grupo bem informado de mentalistas quant pronto para responder suas perguntas comerciais mais importantes.
Confira meu ebook sobre o comércio de quant, onde eu ensino você como criar estratégias de negociação sistemáticas lucrativas com ferramentas Python, desde o início.
Dê uma olhada no meu novo ebook sobre estratégias de negociação avançadas usando análise de séries temporais, aprendizado de máquina e estatísticas bayesianas, com Python e R.
Por Michael Halls-Moore em 6 de janeiro de 2018.
No artigo anterior sobre o estudo para se tornar um comerciante quantitativo, abordamos a importância da aprendizagem estatística e mecânica. Muitos de vocês me contataram em relação ao "estado da arte" de tais métodos de aprendizado de máquina e como eles são aplicados no mundo das finanças de quant. Neste artigo, quero delinear os recursos necessários para aprender técnicas de aprendizado de máquina para que você esteja melhor preparado para um papel como comerciante de quant.
A aprendizagem estatística é extremamente importante na pesquisa comercial de quant. Podemos trazer todo o peso do método científico e teste de hipóteses, a fim de avaliar rigorosamente o processo de pesquisa comercial. Para o comércio quantitativo estamos interessados ​​em resultados testáveis ​​e repetitivos que estão sujeitos a um exame minucioso constante. Isso permite uma fácil substituição das estratégias de negociação à medida que o desempenho se degrada. Note-se que isso está em contraste com a abordagem adotada na negociação "discricionária", onde o desempenho e o risco não são frequentemente avaliados dessa maneira.
Por que devemos usar o método científico na negociação quantitativa?
A abordagem estatística para o comércio de quant é projetada para eliminar problemas que envolvem métodos discricionários. Uma grande negociação técnica discricionária é abundante em viés cognitivos, incluindo aversão a perdas, viés de confirmação e o efeito do movimento. Quant trading Research usa métodos matemáticos alternativos para mitigar tais comportamentos e, assim, melhorar o desempenho comercial.
Para realizar um processo tão metódico, os pesquisadores de negociação de quantos possuem uma mentalidade continuamente céptica e quaisquer idéias de estratégia ou hipóteses sobre o comportamento do mercado estão sujeitas a um escrutínio contínuo. Uma idéia de estratégia só será colocada em um ambiente de "produção" após uma extensa análise estatística, teste e refinamento. Isso é necessário porque o mercado tem uma relação sinal / ruído bastante baixa. Isso cria dificuldades na previsão e, portanto, leva a um ambiente comercial desafiador.
Que Problemas de Modelagem Encontramos em Finanças Quantitativas?
O objetivo da pesquisa comercial quantitativa é produzir algoritmos e tecnologia que possam satisfazer um determinado mandato de investimento. Na prática, isso se traduz em criar estratégias de negociação (e infra-estrutura relacionada) que produzam retornos consistentes acima de um determinado benchmark pré-determinado, líquido dos custos associados às transações de negociação, ao mesmo tempo que minimiza o "risco". Por isso, existem algumas alavancas que podem ser puxadas para melhorar os objetivos financeiros.
Muita atenção é freqüentemente dada ao gerador sinal / alfa, ou seja, "a estratégia". Os melhores fundos e quitações de varejo gastarão uma quantidade significativa de tempo de modelagem / redução de custos de transação, efetivamente gerenciando riscos e determinando o portfólio ideal. Este artigo destina-se principalmente ao componente gerador alfa da pilha, mas esteja ciente de que os outros componentes são de igual importância se forem realizadas estratégias de longo prazo bem-sucedidas.
Vamos agora investigar os problemas encontrados na geração de sinal e como resolvê-los. O seguinte é uma lista básica de tais métodos (que se sobrepõem claramente) que são freqüentemente encontrados em problemas de geração de sinal:
Previsão / Previsão - A técnica mais comum é a previsão direta de um preço / direção do ativo financeiro com base em preços anteriores (ou fatores fundamentais). Isso geralmente envolve a detecção de um sinal subjacente no "ruído" do mercado que pode ser previsto e assim negociado. Isso também pode envolver regredir contra outros fatores (incluindo atrasos na série temporal original), a fim de avaliar a resposta futura contra futuros preditores. Clustering / Classification - Clustering ou técnicas de classificação são métodos projetados para agrupar dados em determinadas classes. Estes podem ser de natureza binária, e. "para cima" ou "para baixo", ou agrupados em múltiplas, e. "volatilidade fraca", "forte volatilidade", "volatilidade média". Sentiment Analysis - Novas inovações no processamento de linguagem natural e na velocidade computacional levaram a técnicas sofisticadas de "análise de sentimento", que são essencialmente um método de classificação, projetado para agrupar dados com base em alguns fatores de sentimento subjacentes. Estes podem ser de natureza direcional, e. "bullish", "bearish", "neutro" ou emocional como "feliz", "triste", "positivo" ou "negativo". Em última análise, isto levará a um sinal comercial de alguma forma. Dados importantes - Fontes alternativas de dados, como atividades de mídia social do consumidor, muitas vezes levam a terabytes (ou maiores) de dados que exigem mais software / hardware novo para interpretar. Novas implementações de algoritmo foram criadas para lidar com esses "grandes dados".
Metodologia de modelagem.
Existem inúmeros livros didáticos sobre modelagem estatística, probabilidade e aprendizado automático. Na verdade, é bastante desafiante saber por onde começar. Eu mesmo tive que passar por esse processo ao transitar de uma mentalidade de modelagem física (durante meu próprio doutorado) para uma abordagem estatística enquanto na indústria. Descrevi os dois livros que considero o "melhor" para começar neste campo no artigo anterior, mas para recapitular são:
O primeiro livro não exige muita sofisticação matemática. O fundo necessário inclui a álgebra linear típica da faculdade, cálculos e teoria da probabilidade. O segundo livro é mais avançado e aprofunda a teoria. Para isso, você deve ter algum bom fundamento na teoria da probabilidade, métodos estatísticos anteriores e modelagem.
Estes livros vão te ensinar sobre os seguintes tópicos. Ao estudar os livros (e realizar os "laboratórios" associados em R), você obterá uma visão sólida sobre quando determinados algoritmos forem aplicáveis.
Modelagem Estatística e Limitações - Os livros descrevem o que é a aprendizagem estatística e não é capaz de junto com as compensações que são necessárias ao realizar essa pesquisa. A diferença entre predição e inferência é delineada, bem como a diferença entre a aprendizagem supervisionada e não supervisionada. A compensação de desvio de tendência também é explicada em detalhes. Regressão linear - A regressão linear (LR) é uma das técnicas de aprendizagem supervisionadas mais simples. Ele assume um modelo onde os valores previstos são uma função linear da (s) variável (s) do preditor. Embora isso possa parecer simplista em comparação com os métodos restantes nesta lista, a regressão linear ainda é amplamente utilizada no setor financeiro. Estar ciente de LR é importante para compreender os métodos posteriores, alguns dos quais são generalizações de LR. Classificação Supervisada: Regressão Logística, LDA, QDA, KNN - Técnicas de classificação supervisionada, como Regressão Logística, Análise Discriminante Linear / Quadratic e K-Nearest Neighbours são técnicas para modelar situações de classificação qualitativa, como a previsão de se um índice de ações subirá ou baixo (ou seja, um valor binário) no próximo período de tempo. Técnicas de remampling: Bootstrapping, Cross-Validation - As técnicas de remampling são necessárias nas finanças quantitativas (e estatísticas em geral) devido aos perigos da montagem do modelo. Tais técnicas são usadas para verificar como um modelo se comporta em diferentes conjuntos de treinamento e como minimizar o problema dos modelos de "superposição". Métodos da árvore de decisão: ensacamento, florestas aleatórias - árvores de decisão são um tipo de gráfico que geralmente são empregados em configurações de classificação. As técnicas de ensacamento e floresta aleatória são métodos de conjunto que utilizam essas árvores para reduzir a superposição e reduzir a variação em métodos de aprendizagem supervisionados individualmente. Redes Neurais - Redes Neurais Artificiais (ANN) são uma técnica de aprendizado de máquinas freqüentemente empregada de maneira supervisionada para encontrar relações não-lineares entre preditores e respostas. No domínio financeiro, eles são freqüentemente usados ​​para previsão e previsão de séries temporais. Suporte de máquinas vetoriais - SVMs também são ferramentas de classificação ou regressão, que funcionam construindo um hiperplano em espaços dimensionais altos ou infinitos. O truque do kernel permite que a classificação não-linear ocorra através de um mapeamento do espaço original em um espaço de produto interno. Métodos não supervisionados: PCA, K-Means, Clustering hierárquico, NNMF - As técnicas de aprendizado não supervisionadas são projetadas para encontrar estrutura escondida em dados, sem o uso de uma função objetiva ou de recompensa para "treinar". Além disso, as técnicas não supervisionadas são freqüentemente usadas para pré-processar dados. Métodos Ensemble - Os métodos Ensemble utilizam múltiplos modelos de aprendizagem estatística separados, a fim de obter maior capacidade preditiva do que poderia ser alcançado a partir de qualquer modelo individual.
Para se tornar um pesquisador de negociação quantitativo adepto, é essencial conhecer o processo de modelagem estatística. Um conhecimento exaustivo das técnicas de aprendizagem de máquinas é de menor importância do que uma compreensão mais profunda do próprio processo de modelagem. Certifique-se sempre de ter em mente as idéias centrais sobre os pressupostos de modelagem, a compensação de tendência-desvio, a aplicabilidade do algoritmo e os vícios cognitivos ao realizar pesquisas comerciais quantitativas.
Apenas iniciando o comércio quantitativo?
3 razões para se inscrever para a lista de e-mails QuantStart:
1. Quant Trading Lessons.
Você terá acesso instantâneo a um curso de e-mail gratuito de 10 partes, repleto de sugestões e dicas para ajudá-lo a começar a negociação quantitativa!
2. Todo o conteúdo mais recente.
Todas as semanas, vou enviar-lhe um envoltório de todas as atividades no QuantStart para que você nunca mais perca uma postagem novamente.
Real, dicas de negociação viáveis, sem tonturas.

A Regressão Linear de Tempo e Preço.
Analistas técnicos e quantitativos aplicaram princípios estatísticos ao mercado financeiro desde a sua criação. Algumas tentativas têm sido muito bem-sucedidas, enquanto algumas foram qualquer coisa além disso. A chave é encontrar uma maneira de identificar tendências de preços sem a falibilidade e o viés da mente humana. Uma abordagem que pode ser bem sucedida para os investidores e está disponível na maioria das ferramentas de gráficos é a regressão linear.
A regressão linear analisa duas variáveis ​​separadas para definir uma relação única. Na análise de gráfico, isso se refere às variáveis ​​de preço e tempo. Investidores e comerciantes que usam gráficos reconhecem os altos e baixos do preço impresso horizontalmente do dia a dia, minuto a minuto ou semana a semana, dependendo do prazo avaliado. As diferentes abordagens do mercado são o que torna a análise de regressão linear tão atraente. (Saiba mais sobre análise quantitativa na Análise Quantitativa de Fundos de Hedge.)
Os estatísticos usaram o método da curva do sino, também conhecido como distribuição normal, para avaliar um determinado conjunto de pontos de dados. A Figura 1 é um exemplo de uma curva de sino, que é denotada pela linha azul escuro. A curva do sino representa a forma das várias ocorrências de pontos de dados. A maior parte dos pontos ocorre normalmente em direção ao meio da curva do sino, mas ao longo do tempo, os pontos se desviam ou se desviam da população. Pontos incomuns ou raros às vezes estão bem fora da população "normal".
Figura 1: Uma curva de sino, distribuição normal.
Como ponto de referência, é comum a média dos valores para criar um escore médio. A média não representa necessariamente o meio dos dados e, em vez disso, representa a pontuação média, incluindo todos os pontos de dados externos. Depois que um meio é estabelecido, os analistas determinam a frequência com que o preço se desvia da média. Um desvio padrão para um lado da média geralmente é 34% dos dados, ou 68% dos pontos de dados, se olharmos para um desvio padrão positivo e um negativo, que é representado pela seta de laranja. Dois desvios padrão incluem aproximadamente 95% dos pontos de dados e as seções de laranja e rosa são agregadas. As ocorrências muito raras, representadas pelas setas roxas, ocorrem nas caudas da curva do sino. Como qualquer ponto de dados que aparece fora de dois desvios padrão é muito raro, muitas vezes é assumido que os pontos de dados voltarão para a média ou regredir. (Para ler mais, veja o Modern Portfolio Theory Stats Primer.)
Preço de estoque como um conjunto de dados.
Imagine se tomarmos a curva do sino, apontei para o lado e aplicamos a um gráfico de ações. Isso nos permitiria ver quando uma segurança é sobrecompra ou sobrevenda e está pronta para reverter para a média. Na Figura 2, o estudo de regressão linear é adicionado ao gráfico, dando aos investidores o canal externo azul e a linha de regressão linear no meio de nossos pontos de preço. Este canal mostra aos investidores a tendência atual do preço e fornece um valor médio. Usando uma regressão linear variável, podemos definir um canal estreito com um desvio padrão, ou 68%, para criar canais verdes. Embora não haja uma curva de sino, podemos ver que o preço agora reflete as divisões da curva do sino, observadas na Figura 1.
Figura 2: Ilustração da negociação da reversão média usando quatro pontos.
Negociando a Reversão Média.
O n. º 2 fornece um ponto de parada em caso de que a causa dos outliers continue a afetar negativamente o preço. Definir a ordem stop-loss facilmente define o valor do risco do comércio.
Serão estabelecidos dois objectivos de preços em No.3 e No.4 para saídas rentáveis. Nossa primeira expectativa com o comércio foi reverter para a linha média, e na Figura 2, o plano é sair da metade da posição perto de US $ 26,50 ou o valor médio atual. O segundo alvo funciona sob o pressuposto de uma tendência contínua, então outro alvo será definido na extremidade oposta do canal para a outra linha de desvio padrão, ou US $ 31,50. Este método define a possível recompensa de um investidor.
Figura 3: Preenchendo o preço médio.
Ao longo do tempo, o preço irá subir e descer e o canal de regressão linear experimentará mudanças à medida que os preços antigos caem e novos preços aparecem. No entanto, os alvos e as paradas devem permanecer iguais até o preenchimento do preço médio (ver Figura 3). Neste ponto, um lucro foi bloqueado e a parada-perda deve ser movida até o preço de entrada original. Supondo que seja um mercado eficiente e líquido, o restante do comércio deve ser sem risco. (Saiba mais em Trabalhar através da Hipótese do Mercado Eficiente).
Figura 4: Preenchendo o preço médio.
Lembre-se, uma segurança não precisa fechar a um preço específico para o seu pedido de preenchimento; Só precisa alcançar o preço intradiário. Você pode ter sido preenchido no segundo alvo durante qualquer uma das três áreas na Figura 4.
Técnicos e comerciantes de quant muitas vezes trabalham um sistema para uma determinada segurança ou estoque e acham que os mesmos parâmetros não funcionarão em outros títulos ou ações. A beleza da regressão linear é que o preço e o período de tempo da segurança determinam os parâmetros do sistema. Use estas ferramentas e as regras definidas neste artigo sobre vários títulos e prazos e você ficará surpreso com sua natureza universal. (Para ler mais, veja Melhorando o seu portfólio com questões Alpha e Beta e estilo na modelagem financeira.)

Análise de regressão.
6. Demonstrações Financeiras 7. Rácios Financeiros 8. Ativos 9. Passivos 10. Red Flags.
16. Investimentos alternativos 17. Gestão de carteira.
Uma regressão linear é construída ajustando uma linha através de um gráfico de dispersão de observações pareadas entre duas variáveis. O esboço abaixo ilustra um exemplo de uma linha de regressão linear desenhada através de uma série de observações (X, Y):
Uma linha de regressão linear geralmente é determinada quantitativamente por um procedimento de melhor ajuste, como mínimos quadrados (isto é, a distância entre a linha de regressão e cada observação é minimizada). Na regressão linear, uma variável é plotada no eixo X e a outra na Y. A variável X é dita ser a variável independente e o Y é dito ser a variável dependente. Ao analisar duas variáveis ​​aleatórias, você deve escolher qual variável é independente e dependente. A escolha de independentes e dependentes segue a hipótese - para muitos exemplos, essa distinção deve ser intuitiva. O uso mais popular da análise de regressão é sobre os retornos dos investimentos, onde o índice de mercado é independente, enquanto a segurança individual ou o fundo mútuo é dependente do mercado. Em essência, a análise de regressão formula uma hipótese de que o movimento em uma variável (Y) depende do movimento no outro (X).
A equação de regressão descreve a relação entre duas variáveis ​​e é dada pelo formato geral:
Onde: Y = variável dependente; X = variável independente,
a = intercepção de linha de regressão; b = inclinação da linha de regressão
Tirar conclusões sobre a variável dependente exige que façamos seis pressupostos, os pressupostos clássicos em relação ao modelo de regressão linear:
A relação entre a variável dependente Y e a variável independente X é linear na inclinação e os parâmetros de interceptação a e b. Este requisito significa que nenhum parâmetro de regressão pode ser multiplicado ou dividido por outro parâmetro de regressão (por exemplo, a / b) e que ambos os parâmetros são criados para o primeiro poder somente. Em outras palavras, não podemos construir um modelo linear onde a equação era Y = a + b 2 X + & epsilon ;, uma vez que as mudanças de unidade em X teriam um efeito b 2 sobre a, e a relação seria não linear. A variável independente X não é aleatória. O valor esperado do termo de erro "& epsilon;" é 0. As suposições # 2 e # 3 permitem que o modelo de regressão linear produza estimativas para a inclinação b e intercepte a. A variância do termo de erro é constante para todas as observações. A suposição # 4 é conhecida como a "suposição de homossexia". Quando uma regressão linear é heterossegástica, os termos de erro variam e o modelo pode não ser útil na predição de valores da variável dependente. O termo de erro & epsilon; não está correlacionado em todas as observações; em outras palavras, a covariância entre o termo de erro de uma observação eo termo de erro do outro é assumida como 0. Esta suposição é necessária para estimar as variâncias dos parâmetros. A distribuição dos termos de erro é normal. A suposição # 6 permite que os métodos de teste de hipóteses sejam aplicados aos modelos de regressão linear. Erro padrão de estimativa.
Abreviada SEE, esta medida dá uma indicação de quão bem um modelo de regressão linear está funcionando. Ele compara os valores reais na variável dependente Y com os valores previstos que resultariam se Y tivesse seguido exatamente a partir da regressão linear. Por exemplo, tome um caso em que o analista financeiro da empresa desenvolveu um modelo de regressão que relaciona o crescimento anual do PIB com o crescimento das vendas da empresa pela equação Y = 1,4 + 0,8X.
Para encontrar o erro padrão da estimativa, tomamos a soma de todos os termos residuais quadrados e dividimos por (n - 2) e, em seguida, retire a raiz quadrada do resultado. Neste caso, a soma dos resíduos quadrados é 0,09 + 0,16 + 0,64 + 2,25 + 0,04 = 3,18. Com cinco observações, n - 2 = 3 e SEE = (3,18 / 3) 1/2 = 1,03%.
Como o erro padrão, esta estatística dá uma indicação de quão bem um modelo de regressão linear serve como um estimador de valores para a variável dependente. Ele funciona medindo a fração da variação total na variável dependente que pode ser explicada pela variação na variável independente.
Variação total da variação total.
Para o coeficiente de regressão (interceptar a, ou inclinação b), um intervalo de confiança pode ser determinado com a seguinte informação:
Um valor de parâmetro estimado de uma amostra Erro padrão da estimativa (SEE) Nível de significância para a distribuição t Graus de liberdade (que é tamanho de amostra - 2)
Para um coeficiente de declive, a fórmula para o intervalo de confiança é dada por b & plusmn; t c * SEE, onde t c é o valor t crítico no nosso nível significativo escolhido.
Os coeficientes de regressão são freqüentemente testados usando o procedimento de teste de hipóteses. Dependendo do que o analista pretenda provar, podemos testar um coeficiente de inclinação para determinar se explica chances na variável dependente e na medida em que explica mudanças. Betas (coeficientes de inclinação) podem ser determinados acima ou abaixo de 1 (mais voláteis ou menos voláteis do que o mercado). Alphas (o coeficiente de intercepção) pode ser testado em uma regressão entre um fundo mútuo e o índice de mercado relevante para determinar se há evidência de um alfa suficientemente positivo (sugerindo valor agregado pelo gerente do fundo).
De nossa amostra, tínhamos estimado b de 1,18 e erro padrão de 0,147. Nossa estatística de teste é calculada com esta fórmula: t = coeficiente estimado - coeficiente de hipótese. / erro padrão = (1.18 - 1.0) /0.147 = 0.18 / 0.147, ou t = 1.224.
O exame CFA provavelmente dará as estatísticas resumidas de uma regressão linear e pedirá interpretação. Para ilustrar, assuma as seguintes estatísticas para uma regressão entre um fundo de crescimento de pequena capitalização e o índice Russell 2000:
O que cada um desses números nos conta?
A variação no fundo é de cerca de 75%, explicada por mudanças no índice Russell 2000. Isso é verdade porque o quadrado do coeficiente de correlação, (0.864) 2 = 0.746, nos dá o coeficiente de determinação ou R-quadrado. O fundo subjugará ligeiramente o índice quando os retornos do índice forem planos. Isso resulta do valor da intercepção sendo -0.417. Quando X = 0 na equação de regressão, a variável dependente é igual à intercepção. O fundo será em média mais volátil do que o índice. Este fato segue da inclinação da linha de regressão de 1,317 (ou seja, por cada alteração de 1% no índice, esperamos que o retorno do fundo a mudança seja de 1,317%). O fundo superará em períodos de mercado fortes e apresentará desempenho inferior em mercados fracos. Esse fato segue da regressão. O risco adicional é compensado com uma recompensa adicional, sendo o contrário verdadeiro nos mercados abaixo. Os valores previstos do retorno do fundo, dado um retorno para o mercado, podem ser encontrados solucionando para Y = -0.417 + 1.317X (X = retorno Russell 2000). Análise de Variância (ANOVA)
A análise de variância, ou ANOVA, é um procedimento no qual a variabilidade total de uma variável aleatória é subdividida em componentes para que ela possa ser melhor compreendida ou atribuída a cada uma das várias fontes que fazem com que o número varie.
A fórmula para a estatística F em uma regressão com uma variável independente é dada pelo seguinte:
F = soma de regressão média de quadrados / erro quadrático médio.
As duas abreviaturas para entender são RSS e SSE: RSS, ou a soma de regressão de quadrados, é a quantidade de variação total na variável dependente Y que é explicada na equação de regressão. O RSS é calculado calculando cada desvio entre um valor Y predito e o valor Y médio, esquadrinhando o desvio e somando todos os termos. Se uma variável independente explica nenhuma das variações em uma variável dependente, então os valores previstos de Y são iguais ao valor médio, e RSS = 0. SSE, ou a soma do erro quadrado dos resíduos, é calculada encontrando o desvio entre um Y predito e um Y real, quadrando o resultado e somando todos os termos. TSS, ou variação total, é a soma de RSS e SSE. Em outras palavras, esse processo ANOVA quebra a variância em duas partes: uma que é explicada pelo modelo e um que não é. Essencialmente, para que uma equação de regressão tenha alta qualidade preditiva, precisamos ver um RSS elevado e um SSE baixo, o que tornará a relação (RSS / 1) / [SSE / (n - 2)] alta e (com base em uma comparação com um F-valor crítico) estatisticamente significativo. O valor crítico é retirado da distribuição F e é baseado em graus de liberdade.
Os modelos de regressão são freqüentemente usados ​​para estimar as estatísticas econômicas, como a inflação e o crescimento do PIB. Suponha que a seguinte regressão seja feita entre a inflação anual estimada (X ou variável independente) e o número real (Y, ou variável dependente):
As previsões baseadas neste modelo parecem funcionar melhor para estimativas de inflação típicas e sugerem que estimativas extremas tendem a exagerar a inflação - por exemplo, uma inflação real de apenas 4,46 quando a estimativa foi de 4,7. O modelo parece sugerir que as estimativas são altamente preditivas. Embora para avaliar melhor este modelo, precisamos ver o erro padrão eo número de observações em que se baseia. Se conhecemos o valor verdadeiro dos parâmetros de regressão (inclinação e interceptação), a variância de qualquer valor previsto de Y seria igual ao quadrado do erro padrão.
Onde: s 2 é o erro padrão quadrado da estimativa, n é o número de observações, X é o valor da variável independente usada para fazer a predição, X é o valor médio estimado da variável independente e sx 2 é a variância de X.

Estatísticas básicas para estratégias de negociação (parte 3) e # 8211; Regressão, correlação e co-integração.
Esta publicação é parte de nossa série sobre o uso de estatísticas e análise de dados para negociação. Em nossa primeira publicação, discutimos estatísticas resumidas, como média, desvio padrão, volatilidade e amp; Bandas de Bollinger. Na segunda publicação, conversamos sobre as funções de distribuição de probabilidade e os retornos logarítmicos dos preços das ações.
Nesta publicação, tentaremos entender a relação entre um estoque e um índice de mercado. Os termos que entenderemos são regressão, correlação e co-integração. Esta publicação também tenta responder a pergunta básica no gerenciamento de portfólio: "o que é o beta de um estoque?"
Continuaremos trabalhando com o conjunto de dados usado na publicação anterior: MARUTI SUZUKI India Limited - Dados diários de 01 de janeiro de 2018 a 31 de dezembro de 2018. Além disso, usaremos dados Nifty para o mesmo período de tempo. Você pode baixar os dados do preço agregado CNX Nifty da fonte abaixo:
O CNX Nifty é um índice bem diversificado de 50 ações que contabiliza 23 setores da economia. Ele é usado para uma variedade de propósitos, como portfólio de fundos de benchmarking, derivados baseados em índice e fundos indexados. (Fonte: nseindia / produtos / conteúdo / ações / índices / cnx_nifty. htm)
Nosso estoque, Maruti, é um dos estoques CNX Nifty.
Dado que Maruti é uma das ações Nifty, a mudança no índice Nifty & amp; Os preços de Maruti devem ser correlacionados, ou seja, a mudança em um deve estar relacionada à mudança em outro. Deixe-nos descobrir!
Depois de fundir os dois conjuntos de dados pela coluna comum de "Data", a correlação que obtemos é de 0,55! Como esperado, os dois conjuntos de dados estão positivamente correlacionados.
Compreendendo a correlação.
A correlação é um número livre de unidades entre -1 e 1, o que nos dá a mensuração da relação entre as variáveis. Um valor de correlação altamente positivo entre 0,7 e 1,0 nos informa que a mudança em uma variável está positivamente relacionada à mudança na outra variável. Isso significa que, se uma variável aumentar, existe uma alta probabilidade de que outra também aumente. O comportamento será consistente em outros casos de diminuição ou sem alteração de valor também.
Por outro lado, um valor de correlação altamente negativo entre -0,7 a -1,0 nos diz que a mudança em uma variável está negativamente relacionada à mudança na outra variável. Isso significa que, se uma variável aumentar, há uma alta probabilidade de que a outra diminua.
O baixo valor de correlação em torno de -0,2 e 0,2 nos diz que não existe uma forte relação entre as duas variáveis.
Um ponto a observar é que a correlação não nos diz nada sobre causalidade. Assim, por exemplo, é possível que casos de câncer de pulmão estejam correlacionados com o número de cigarros fumados em uma vida entre uma população, que não estabelece uma causalidade de tabagismo ao câncer de pulmão. Seria necessário fazer um estudo de grupo controlado mantendo constantes todos os outros fatores influentes para estabelecer essa relação de causalidade.
A correlação é a medida do relacionamento linear. Por exemplo, a correlação entre x e x 2 pode ser tão próxima quanto 0. Mesmo que exista uma forte relação entre as duas variáveis, não seria capturado no valor de correlação.
Agora que estabelecemos estatisticamente que Nifty e Maruti estão positivamente correlacionados, gostaríamos de fazer mais. Gostaríamos de ver se, dado o valor do índice Nifty, podemos prever os preços da Maruti. Uma medida popular de volatilidade ou risco sistemático para um estoque quando comparado ao índice de mercado é "coeficiente beta", que é usado no Modelo de Preços de Ativos de Capital (CAPM) para gerenciamento de portfólio. Este modelo calcula os retornos esperados de um estoque com base nos resultados de mercado esperados e beta.
Beta é calculado usando a análise de regressão.
Regressão linear.
É uma técnica simples para modelar ou prever a variável dependente (y) usando variáveis ​​independentes (x 1, x 2, etc.). Na regressão linear simples, existe apenas uma variável independente, x e uma variável dependente, y. Os valores de x & amp; y são plotados em um gráfico de dispersão como mostrado abaixo e uma linha é desenhada, que melhor se adapta a esses dados ou minimiza a distância dos pontos à linha.
Uma vez que nosso objetivo é a predição, utilizamos os dados da amostra para criar um modelo de regressão e, em seguida, use o modelo ajustado para novas previsões.
No caso de Nifty & amp; Maruti, o modelo de regressão linear é.
Y = 0,0004 + 0,9349 * X,
onde Y representa Log Returns no Nifty Index & amp; X representa Log Retorna em Maruti Closing Prices para o mesmo período.
O coeficiente de X na equação acima dá o valor de beta. Portanto, o beta do estoque é 0.9349 neste caso. Este número é inferior a 1, representando que o preço da ação será menos volátil do que o mercado. No entanto, também é muito próximo de 1 e, portanto, pode-se interpretar que o preço das ações mantém o mesmo movimento que o mercado.
R 2 = 0.3088 que é um número pequeno, nos diz que a variação do retorno de Maruti e variância dos retornos de índice não está fortemente relacionada.
O valor beta é usado por alguns gerentes de risco para diversificar seu portfólio de modo que eles tenham uma mistura de diferentes ações beta, de modo a ganhar lucros conforme seu apetite de risco.
O Beta é calculado usando os dados históricos durante um período de tempo sem contabilizar a tendência do mercado durante esse período. Portanto, o valor beta não garante o movimento futuro dos preços das ações.

Análise de regressão e estratégias de negociação quantitativas
Obter através da App Store Leia esta publicação em nosso aplicativo!
Uso de florestas aleatórias na análise quantitativa de ações.
Tenho uma pergunta sobre as florestas aleatórias e como elas podem ser utilizadas na negociação? Ouvi que as florestas aleatórias são usadas para a classificação, isso é preciso? Em caso afirmativo, alguém poderia dar um exemplo de que tipo de classificação ele ajuda?
Caso contrário, quais são as florestas aleatórias usadas para a Quant finance?
Eu também não usei florestas aleatórias, mas conheço um cara que aplicou essa técnica de classificação aos algoritmos de aprendizado de máquina aplicados ao reconhecimento de padrões.
Assim, penso que suas vantagens em relação às abordagens de regressão clássicas podem ser aplicadas para discernir padrões em dados financeiros, embora eu tenha a impressão de que ele supera demais os dados e, assim, você acaba com o trade-off clássico que muitos quants enfrentam.
Eu também leio que é usado pela SEC onde eles o aplicam em sua busca para analisar padrões de negociação para denunciar violações de insider trading.
Recentemente, assisti a uma apresentação do primeiro autor do artigo que nos forneceu um meio criativo e iluminador (tipo de meta) de florestas aleatórias em Quant Finance:
por Thomas Wiecki, Andrew Campbell, Justin Lent, Jessica Stauth (tudo quantopian)
Quando as estratégias de negociação automatizadas são desenvolvidas e avaliadas usando backtests em dados de preços históricos, existe uma tendência a se superar ao passado. Usando um conjunto de dados exclusivo de 888 estratégias de negociação algorítmicas desenvolvidas e testadas na plataforma de Quantopian com pelo menos 6 meses de desempenho fora da amostra, estudamos a prevalência e o impacto da superação de backtest. Especificamente, achamos que as métricas de avaliação de backtest comummente relatadas, como a taxa de Sharpe, oferecem pouco valor na previsão do desempenho da amostra (R² & lt; 0,025). In contrast, higher order moments, like volatility and maximum drawdown, as well as portfolio construction features, like hedging, show significant predictive value of relevance to quantitative finance practitioners. Moreover, in line with prior theoretical considerations, we find empirical evidence of overfitting – the more backtesting a quant has done for a strategy, the larger the discrepancy between backtest and out-of-sample performance. Finally, we show that by training non-linear machine learning classifiers on a variety of features that describe backtest behavior, out-of-sample performance can be predicted at a much higher accuracy (R² = 0.17) on hold-out data compared to using linear, univariate features. A portfolio constructed on predictions on hold-out data performed significantly better out-of-sample than one constructed from algorithms with the highest backtest Sharpe ratios.
So what they basically did was to take all kinds of real quant trading algos and asked the old EMH question whether in sample performance has any predictive power for out of sample performance. They calculated all kinds of measures for these algos and used them (and combinations thereof) to predict the out of sample performance. Then they extracted the most important features from the random forest model - the following picture is taken from the paper (p. 9)
As with many machine learning technologies, you can run a separate training and testing phase before deploying it live for prediction. All it does is build a collection of decision trees based on the parameters you give it - if the output field is a factor, you get classification (a finite enumerated set of values); if it's numeric, you get prediction. One approach might be to add a column forwhether a commodity reaches a given profit level within an affordable time period; the random forest can then build a logic to correlate that against all the other input columns (such as technical indicators, etc).
A while ago I have implemented a binary fuzzy decision tree forest to classify credit applications as a semesters project.
Let's say a tree looks like this:
The benefits of decision tree techniques in general are:
Comprehensibility : The paths down the tree have a direct interpretation: "If condition C1 and condition C11 then X". For example "If debt>0 and income == 0 then no_credit." Expert knowledge : It is possible to change the trees based on background knowledge. Extensibility : It is possible to include other classification tools at the nodes, for example you could have a neural network which detects trends and then go down the tree depending on the output of the network.
Decicion tree forests have additional benefits:
Adaptation : If the problem splits into several domains, the trees can fit to their region more closely. Smaller trees : The trees can be restricted to much smaller size, which makes them easier to understand. Confidence information : If a lot of the trees in the forrest vote for the same classification, this can be seen as a measure of confidence.
On the downside forests can be much more expensive to compute and manage. Also, whereas a single tree can avoid overfitting by using standard pruning techniques, there does not seem to be concensus which is the best approach for forrests, yet.
Any application of machine learning techniques this approach is only as good as the data and the indicators used to train it on.
Interesting papers include.
It could help with things like fraud detection, analysis of bankruptcy probability, default risk, unsupervised learning for qualitative/descriptive purposes, or for a purely backwards looking supervised analysis on returns again for descriptive/understanding purposes (variable important, etc, perhaps impulse response analysis).
It may also be good at forecasting low-frequency volatility which is well known to be easy to forecast; intuitively this works because it is likely to be combinations of events that cause very high volatility which is difficult to incorporate into a GARCH variance equation. You could just rely on the forest to learn regimes, breaks, etc (consider a dynamic forest).
To be more precise, random forests work by building multiple trees by using sample with replacement from the same training data. Each tree is also built using a random subset of the features (attributes). Pruning is usually done for each tree before its inclusion. Hypothesis values are a result of averaging over all trees. One of the primary uses of random forests is the reduction of variance. If bias is the problem, then one should use boosting (Adaboost).
check out this paper: "Predicting the direction of stock market prices using random forest" Luckyson Khaidem Snehanshu Saha Sudeepa Roy Dey, Applied Mathematical Finance.
These have been combined into a single paper which also talks about specific stocks from Big pharma companies. Email me if you need that.
You can find an Excel and VBA implementation of Random Forest using the open source ALGLIB Libary here.

No comments:

Post a Comment