Desempenho de métodos de preenchimento de falhas para velocidade do vento sobre o Estado do Rio Grande do Norte
A aquisição completa de séries temporais com dados meteorológicos confiáveis é relevante para dar subsídios a estudos ambientais, previsão do tempo e clima, energias renováveis (eólica e solar) e entre outras. No entanto, tem sido um desafio às empresas privadas, órgãos governamentais ou instituições acadêmicas, uma vez que é provável que alguns dados coletados sejam inválidos (dados com valores incorretos ou ausentes) ocorridos no processo de leitura e/ou armazenamento. Esses problemas surgem por diversas causas, a principal é o sensor instalado ou observador que verifica a informação na estação meteorológica. Isso gera dificuldades para avaliar e simular atmosfera por meio da modelagem numérica desses dados, comprometendo assim, os resultados prognósticos da velocidade do vento.
Nesse contexto, o estudo com métodos para o preenchimento de falhas utilizando séries temporais tem sido desenvolvido nas últimas décadas para tratar do problema de dados faltantes de forma rápida, a fim de reduzir a propagação de erros sobre o resultado em estudos meteorológicos de longo prazo. Existem outras técnicas diferentes das quais foram utilizadas neste estudo para o preenchimento de falha, como por exemplo, interpolação, geoestatística, redes neurais, regressão linear, algoritmos genéticos, ponderação regional, entre outras. Entretanto, diversos estudos têm focado no aspecto da estatística multivariada em diversas áreas de pesquisas. Os estudos [1,2,3] concluíram que os procedimentos multivariados apresentaram melhor desempenho e acurácia do que os de univariados.
O objetivo desse estudo é testar e validar três métodos estatísticos multivariados sobre a série de velocidade do vento (m.s-1) para o Estado do Rio Grande do Norte, usando como variáveis preditoras as reanálises ECMFW/ERA-INTERIM e medidas das estações meteorológicas com falhas.
Estrutura de dados
Os dados meteorológicos de velocidade do vento (m.s-1) a 10 metros foram extraídos do banco de dados do Instituto Nacional de Meteorologia (Inmet) no horário 00:00 UTC, das estações meteorológicas convencionais instaladas nos municípios de Apodi, Caicó, Ceará Mirim, Cruzeta, Florânia, Macau e Natal, localizadas no Estado do Rio Grande do Norte, como mostrado em detalhes na Tabela 1.
A Tabela 2 apresentam-se os valores em porcentagens das falhas por mês, registradas em cada estação meteorológica para o período de estudo (Tabela 1).
Os dados de reanálises são ferramentas importantes para estudos de padrões atmosféricos em várias escalas. Esses dados são utilizados como condição inicial e de contorno para os modelos de circulação geral da atmosfera nas escalas global até mesoescala [4]. Também podem ser utilizados para corrigir problemas comuns quando se tentam imputar dados faltantes [5].
O procedimento adotado com os dados de reanálises com a série original de medidas para velocidade do vento com falhas foi formatado como matriz, onde a primeira coluna foi representada com o dado medido (com falha) e as próximas quatro colunas foram colocadas lado a lado representando os quatro pontos de grade mais próximos da localização da estação meteorológica com falha.
Para melhor entendimento do parágrafo anterior, a Tabela 3 apresenta como foi formatada cada matriz, mês a mês, para todo período (anos) em cada estação meteorológica com falha. Os dados de reanálises Era-Interim [6] das componentes dos ventos u (zonal) e v (meridional) foram obtidos para o mesmo horário e altura da série medida de velocidade do vento. Após sua obtenção, foi calculado a magnitude do vento com uso da ferramenta GrADs. Os dados de reanálises podem ser encontrados no site do ECMWF (http://www.ecmwf.int/en/forecasts/datasets), com uma resolução temporal de seis horas e com espaçamento de grade de 0,125º de latitude e longitude.
Técnicas de imputação de dados faltantes
Foram utilizadas três diferentes técnicas estatísticas multivariadas para o preenchimento de dados com falhas. Um algoritmo foi desenvolvido em linguagem R para os preenchimentos de falhas por meio dos seguintes pacotes disponíveis para download: (i) MICE (Multivariate Imputation by Chained Equations) [7]; (ii) Amelia II [8] e (iii) MTSDI (Multivariate Time Series Data Imputation) [9]. O algoritmo de imputação gera estruturas de correlações entre as observações levadas em consideração na matriz de covariâncias dos dados. Além disso, o método é especialmente adaptado para os dados climáticos com falhas das medidas de logo prazo.
Avaliação dos métodos
A avaliação do desempenho destes métodos de preenchimento de dados faltantes diários foi realizada por meio da remoção de dados observados no banco de dados originais, sem falha, para um mês específico, e a subsequente imputação para cada técnica foi validada com os índices dos erros desses mesmos dados removidos. A proporção de dados removidos para validação das sete estações meteorológicas variou entre 10% e 70%. A partir do conjunto de dados, foram gerados sete cenários de imputação para cada estação meteorológica utilizada. Em todos os casos, o preenchimento de falhas foi feito para todos os dados faltantes e não apenas para aqueles removidos artificialmente. As medidas de erros utilizadas para comparar os resultados obtidos foram RMSE e MAE, calculados a partir das Equações (1) e (2).
Em que é o dado preenchido e é o dado observado para o mesmo período.
Resultados
A Figura 1 apresenta os desempenhos das três técnicas de preenchimento nos sete cenários pré-determinados (10, 20, 30, 40, 50, 60 e 70%) para todas as estações meteorológicas. Por meio dos resultados das Figuras 1 (a) e (b), pode-se destacar melhor desempenho para a técnica MTSDI, com valores de MAE e RMSE iguais e/ou menor do que 0.5 m.s-1 do valor medido. Para a técnica do MICE, o MAE e o RMSE variaram entre 1,0 m.s-1 a 1,5 m.s-1, exibindo erros decrescentes à medida que as falhas aumentaram. Da mesma forma, observa-se, no geral, que os erros foram menores para a técnica MTSDI quando se comparou com Amelia e MICE. A técnica Amelia II apresentou o menor RMSE para 10% de dados faltantes, no entanto, à medida que as falhas aumentam, esta técnica torna-se menos precisa. Dentre os métodos, a técnica MICE exibiu erros substancialmente maiores, indicando desvantagem no preenchimento de falhas.
Figura 1 – MAE (a) e RMSE (b) para as três abordagens de imputação MICE, Amelia II e MTSDI, aplicadas à variável velocidade do vento.
A Figura 2 apresenta os cenários com as séries de dados medidos da estação meteorológica de Natal (removidos) e imputados com o método que apresentou menor erro por meio dos índices MAE e RMSE, que foi o MTSDI, para a variável velocidade do vento.
Figura 2 – Séries de dados de velocidade do vento (m/s) observados (em preto) e imputados (em vermelho) para a abordagem de imputação com o melhor desempenho para os sete cenários (MTSDI).
Dessa forma, apresentam-se as séries temporais de Apodi e Florânia com falhas e preenchidas como ilustrações deste trabalho através da Figura 3. Aqui, como exemplos, plotaram-se as séries temporais preenchidas para os meses de janeiro (estação de Apodi) e julho (estação de Florânia), todo o período dos anos, para as respectivas estações meteorológicas. As séries temporais das sete estações meteorológicas que apresentaram falhas durante os meses e anos utilizados (Tabela 1) foram preenchidas com o método MTSDI (menores erros MAE e RMSE). Nota-se, por meio da Figura 3, a importância do preenchimento através do método MTSDI, com seus critérios de comportamento da sazonalidade, resíduos e tendência das séries temporais para, assim, obter um melhor planejamento nas áreas que possam vir a utilizar essa variável, como por exemplo, na energia eólica.
Figura 3 – Séries de dados de velocidade do vento (m.s-1) medidos (em preto) e preenchimento (em vermelho) para abordagem (MTSDI) empregada na estação de Apodi e Florânia nos meses de janeiro e julho para o período dos anos, respectivamente.
Conclusão
Os métodos de preenchimento apresentados mostraram-se adequados por conta dos erros baixos nos dados imputados para velocidade do vento a 10 metros. O objetivo foi tentar preencher as falhas nos dados diários de velocidade do vento a 10 metros provenientes de sete estações meteorológicas convencionais localizadas no Estado do Rio Grande do Norte com imputações de dados que levam em consideração erros sem comprometer as séries temporais.
As variáveis de reanálises do Era-Interim como preditores (variáveis explicativas) para velocidade do vento na mesma altura da estação meteorológica apresentaram adequadas para serem utilizadas com as técnicas de preenchimento de falhas dos dados medidos. Evitam-se, assim, problemas comuns quando se tenta imputar dados: (a) preditores também com dados ausentes; (b) variáveis de origem ou natureza diferentes; e (c) relações não lineares entre os dados usados para o preenchimento de falhas.
Os resultados mostraram que a utilização do MTSDI preencheu os dados ausentes com uma qualidade adequada, visto que os erros calculados não ultrapassaram de 0,5 m.s-1 do valor medido para todos os cenários que apresentaram falhas nos dados.
Esta técnica, junto aos dados de reanálises, são ferramentas bastante úteis para estudos climáticos e eólicos, uma vez que se necessita de séries temporais de longo prazo, as quais usualmente apresentam falhas.
É importante afirmar que um estudo bem acurado para preenchimento de falhas pode aumentar consideravelmente a confiabilidade dos resultados obtidos, tornando-se as análises mais relevantes.
Nomenclatura
MAE – Erro absoluto médio
PMM – Predictive Mean Matching
RMSE – Raiz do Erro Médio Quadrático
MICE – Multivariate Imputation by Chained Equations
MTSDI – Multivariate Time Series Data Imputation
EMB – Expectation-Maximization Bootstrapping
EM – Expectation-Maximization
ECMWF – European Center for Medium range Weather Forecasting
OMM – Organização Meteorológica Mundial
INMET – Instituto Nacional de Meteorologia
Referências
[1] Junger, W. L., 2008. Análise, imputação de dados e interfaces computacionais em estudos de séries temporais epidemiológicas. Tese (Doutorado). Rio de Janeiro, UFRJ.
[2] Nunes, L.N., Klück, M.M, Fachel, J.M.G; 2009; Uso da imputação múltipla de dados faltantes: uma simulação utilizando dados epidemiológicos; Caderno de Saúde Pública; Vol 25; 268-278.
[3] Silva, F. D. S; Cenários climáticos atuais e futuros da produtividade do algodão herbáceo no nordeste do Brasil; DCA\CCT\UFPB; Campina Grande-PB; 105p.; 2014.
[4] Kalnay, E., et al.; 1996; The NCEP/NCAR 40-year reanalysis project; Bull. Amer. Meteor. Soc.; Vol. 77; 437–471.
[5] Costa, R. L; Silva; F. D. S; Sarmanho, G. F; Lucio, P. S; 2012; Imputação Multivariada de Dados Diários de Precipitação e Análise de Índices de Extremos Climáticos; Revista Brasileira de Geografia Física; Vol. 03; 661-675.
[6] Dee et al.; 2011; The ERA-Interim reanalysis: configuration and performance of the data assimilation system; Q.J.R. Meteorol. Soc.; Vol.; 137; 553-597.
[7] Van Buuren, S.; Groothuis-Oudshoorn, K.; 2011; MICE: Multivariate Imputation by Chained Equations in R; Journal of Statistical Software; Vol. 45(3); 1-67.
[8] Honaker, J., King, G; 2010; What to Do about Missing Values in Time-Series Cross-Section Data. American Journal of Political Science; vol. 54; p. 561-581.
[9] Junger, W.L., Ponce de Leon, A., Santos, N.; 2003; Missing data imputation in multivariate time series via EM algorithm; Cadernos do IME; vol. 15; p. 8-21.
Por:
*Moniki Dara de Melo Ferreira é graduanda em Ciências Atmosféricas e Climáticas pela Universidade Federal do Rio Grande do Norte (UFRN) e atua no Laboratório de Mapas e Dados de Recursos Energéticos do CTGAS-ER.
Alexandre Torres Silva dos Santos possui graduação e mestrado no curso de Meteorologia pela Universidade Federal de Alagoas e doutorado pela UFRN. É pesquisador do LMD-CTGÁS-ER.
Paulo Sérgio Lucio possui graduação em Matemática pela Universidade Federal do Espírito Santo, Mestrado em Estatística pela Universidade Estadual de Campinas (1991), doutorado em Geofísica pelo “Institut de Physique du Globe de Paris” e pós-doutorado no Instituto Superior Técnico de Lisboa (2001), no Centro de Geofísica da Universidade de Évora (2002-2005) e no “Laboratoire d’Océanographie et du Climat, Expérimentation et Approches Numériques” (2011/2012). Atualmente, é professor associado do Departamento de Ciências Atmosféricas e Climáticas da Universidade Federal do Rio Grande do Norte (UFRN), investigador científico do Centro de Geofísica da Universidade de Évora e coordenador do Grupo de Pesquisas do CNPq sobre “Clima, Ambiente, Saúde e Educação”.
Fonte: Osetoreletrico