と ある 時 系列。 傾向推定

Pythonのstatsmodelsで時系列分析をする

と ある 時 系列

新規作成:2017年05月16日 最終更新:2017年05月16日 ここでは、時系列データを手にした際に、どのような手順で回帰分析をかけていけばいいのか、フローチャートを交えて解説します。 時系列データは特殊でして、普通の回帰分析を行うと、p値がおかしくなり、正しく検定ができなくなることがよくあります。 これを見せかけの回帰と呼びます。 シミュレーションを通して、見せかけの回帰という現象を確認したうえで、それらに対応する手法としての単位根検定・共和分検定・一般化最小二乗法 GLS の基本的な考え方とRでの実装方法について説明します。 ソースコードはまとめてに置いてあります。 スポンサードリンク 目次• 時系列データへの回帰分析フローチャート• 単位根と見せかけの回帰• データチェック1 単位根検定とADF検定• 解決策1 差分系列への回帰分析• 差分系列への回帰分析の問題点• データチェック2 共和分とPO検定• 自己相関と見せかけの回帰• データチェック3 ダービンワトソン検定• 解決策2 一般化最小二乗法 GLS 1.時系列データへの回帰分析フローチャート 以下に、分析フローチャートを載せます。 なお、誤差分布には正規分布を仮定していることに注意してください。 正規分布以外の確率分布が相手だった場合は、状態空間モデル等で対応することになります。 この記事では状態空間モデルは使わず、比較的容易に実行できると思う計量経済学の手法を使うようにしました。 専門用語が多く出てきますが、各々のキーワードは記事の中で詳細を説明しています。 また、検定の方法はいろいろあり、このフローチャート通りにしてもうまくいかないorこのやり方以外のうまい方法がある場合もあるので、あくまで参考程度にお使いください。 そのうえで最適な手法を選ぶという流れになります。 2.単位根と見せかけの回帰 なぜ普通の回帰分析ではダメなのか 回帰分析は「最小二乗法」という手法を用いて推定されます。 この「普通の最小二乗法」のことをOLS Ordinary Least Squares と略することもあります。 この「普通の最小二乗法」はよくできていて、データ分析をする際、よくお世話になるのですが、データが満たさなくてはならない条件がいくつかあります。 その一つがデータの独立性です。 独立でないデータとは、例えば「昨日売り上げが多ければ、今日も売り上げが増える」といったように、「ほかのデータに合わせて自分の値が変わってきてしまう」データなどが挙げられます。 このようなデータを「自己相関があるデータ」とも言います。 そして、時系列データでは、この独立性が満たされていることは多くない。 というわけで、「普通の最小二乗法」を使った「普通の回帰分析」では検定が正しくできないことがしばしばあります。 それは例えば「本来ならば無関係の2つのデータに対して、有意な回帰係数が得られてしまう」という問題です。 こういう問題を「見せかけの回帰」と呼びます。 なお、たまに勘違いされるのですが、単位根でなかったとしても、独立性が満たされていなければ、正しく検定することはできません。 まずは単位根であるかどうかを判別することが第一ですが、単位根がなかったとしても、自己相関があるかどうかは必ずチェックをします。 単位根とは 単位根をもつデータを「単位根過程」と呼びます。 単位根過程は別名「1次和分過程」とも言われます。 和分とは、文字通り「足し合わせる」という意味ですね。 なので、単位根とは「値が足しあわされて出来上がったデータである」と言えます。 単位根過程の代表として挙げられるのが「ランダムウォーク」です。 ランダムウォークはホワイトノイズの累積和として定義されます。 ホワイトノイズは、自己相関も何もない、正規分布に従った、ただの「ノイズ」です。 このようなノイズの累積和のことを単位根と呼びます。 単位根過程に対して回帰分析を行うとどうなるか 単位根過程に対して、普通の最小二乗法を適用するとどうなるか、シミュレーションをして確かめてみましょう。 まずは、単位根でない、独立なデータに対して回帰分析を200回実行します。 6975 alternative hypothesis: stationary 単位根であることを棄却できませんでした。 このような場合は、データが単位根を持っていることを前提として解析を進めなければなりません。 なお、単位根検定には、ADF検定以外にもPP検定やKPSS検定などもあります。 これらを併用して、結果もすべて合わせて記載する論文も見受けられます。 今回はADF検定だけを実行して次に移ります。 4.解決策1 差分系列への回帰分析 単位根を持つデータへ回帰分析をする最も簡単な方法は、差分系列に対して回帰分析を行うことです。 単位根は、和分過程でした。 なので、その差分をとってやれば、和分過程ではなくなります。 やってみましょう。 シミュレーションをして、その成果を確認します。 767 -1. 283 1. 796 5. 479 13. 091 Coefficients: Estimate Std. 53200 0. 01421 -37. 3704 alternative hypothesis: stationary p値が0. 05よりも大きいので「単位根であることを棄却できない」ことになります。 共和分しているデータをグラフに描画してみます。 ggplot2とreshape2パッケージを使っていることに注意してください。 4650 -0. 6586 0. 0970 0. 9177 3. 4208 Coefficients: Estimate Std. 64249 0. 00997 64. 2689 -0. 9975 -0. 0603 0. 9983 5. 4392 Coefficients: Estimate Std. 01614 0. 07767 0. 208 0. 836 x2Diff 0. 03659 0. 04712 0. 777 0. 438 Residual standard error: 1. 551 on 397 degrees of freedom Multiple R-squared: 0. 001517, Adjusted R-squared: -0. 0009984 F-statistic: 0. 603 on 1 and 397 DF, p-value: 0. 4379 回帰係数は有意とはなりませんでした。 本来ならばx2とy2の間には、何らかの関係があるはずです。 それを見過ごしてしまうことになってしまいました。 差分系列への回帰分析は、きわめて簡便で効果の高い手法ではありますが、このような欠点があることも覚えておくとよいかと思います。 スポンサードリンク 7.自己相関と見せかけの回帰 今までの手順で「単位根がある時」の回帰分析ができるようになりました。 次は単位根がないときです。 単位根がないから大丈夫、と安心はできません。 単位根がなかったとしても、自己相関を持つデータであれば、正しく検定ができなくなることが知られています。 ただし有効性が担保されないので、やはり検定はしちゃダメです。。 これもシミュレーションをして確認してみましょう。 また、ごくまれに「検定がダメでもAICなら大丈夫なのでは?」と勘違いされる方がいるので、これも確認しておきます。 結論から言うと、AICでもダメです。 もちろんAICではなく尤度比検定でもモデル選択は可能です。 これは普通の回帰モデルや一般化線形モデルと同じですね。 397 2526. 357 -1254. 640 2106. 586 -1041. 320 1 vs 2 425. 640 2106. 586 -1041. 454 2112. 387 -1041. 227 1 vs 2 0. 1861273 0. 397 2526. 357 -1254. 454 2112. 387 -1041. 227 1 vs 2 425. 64 2106. 586 -1041. 8165839 Coefficients: Value Std. Error t-value p-value Intercept 1. 4846091 0. 8807621 1. 6855962 0. 0927 x -0. 0157816 0. 0513654 -0. 3072424 0. 7588 Correlation: Intr x -0. 054 Standardized residuals: Min Q1 Med Q3 Max -2. 57816753 -0. 77693814 0. 01240527 0. 65788286 2. 68824774 Residual standard error: 5. 651155 Degrees of freedom: 400 total; 398 residual せっかくですので、GLSも200回ほどのシミュレーションにかけてみてp値のヒストグラムを描いてみましょう。 コードを一気に載せます。 これは、計算にやや時間がかかることに注意してください。 1、2分くらいです。 1 plot histPlot 結果はこちら。 赤色がGLSです。 p値の偏りがなくなったことがわかります。 今回はシミュレーションデータを使ったので、毎回きれいな結果となりましたが、現実はなかなか泥臭い作業となります。 単位根があることが分かった~差分系列をとった。 とした後にもやはり「単位根検定」と「残差の自己相関の検定」は行ったほうが良いかと思います。 差分をとったから大丈夫、という訳にはいきません。 今回はデータの特徴がわかっていたのですんなり検定できましたが、単位根検定一つとっても「ドリフトあり」か「定数項あり」か「なにもなし」かで検定のパタンが変わってきます。 実際のデータを扱う際はそこも注意して分析してください。 参考文献 その名の通り、Rを用いた計量経済分析の手法が一通り載った書籍です。 時系列解析関連の内容も多いです。 今回のRのコードは、多くをこの本を参考にしました。 このサイトで時系列解析関連の記事を書く際は必ず参照している本です。 時系列解析の基本となる考え方から始めて、モデルの詳しい説明まで載っています。 今、時系列解析を学びたいと思った方はこの本から入ると良いでしょう。 単位根検定や共和分の解説も載っています。 書籍以外の参考文献 ・ 有名なブログ様です。 単位根過程における見せかけの回帰についての解説があります。 ベクトル誤差修正モデルについても一部言及されているので、興味のある方はぜひ。 スポンサードリンク コメントありがとうございます。 返信が遅れてすいません。 共和分が起こるメカニズムは様々あり、一概には言えません。 2つ以上のデータがいわゆる均衡の関係にあるだろうと想定できる理由があれば、それが共和分を生じさせることがあります。 沖本 2010 「計量時系列分析」では、購買力平価仮説が紹介されていますね。 ペアトレードの場合は、メカニズムには着目せずに 「共和分があれば、均衡関係がある」という信念だけに着目しているのでしょう。

次の

「時系列データ分析の基礎」についての覚え書き | uk.mylively.com

と ある 時 系列

傾向への適合: 最小二乗法 [ ] データ群が与えられ、そのデータから何らかのモデル(この場合、データに適合する関数を意味する)を構築したい場合、選択可能な関数は様々である。 しかしそのデータについて何らかの事前の解釈が存在しない場合、最も単純な直線的関数を適合させるのが基本である。 直線に適合させると決めた場合にも様々な手法が存在する。 しかし圧倒的に多く使われるのはである。 以下では、最小二乗法で求めた「傾向」について述べる。 問題は、その傾向の有意性であり、「」とはどういうことか、である。 無作為データにおける傾向 [ ] 実データにおける傾向を考える前に、無作為データにおける傾向を理解する必要がある。 2 である。 無作為であることが分かっているデータ列(例えばサイコロを振った結果やコンピュータが生成したランダムな数列)があるとき、その傾向を求めるとゼロ傾向となることはほとんどない。 しかし、その傾向が極めて小さいことは予測される。 ある決まった程度のノイズを含む決まったサイズ(例えば100個)のデータ列があり、それを多数生成する(例えば10万組)と、その10万組のデータ列から傾向を計算することができ、傾向の分布があることを経験的に知ることになる(右図参照)。 その分布は(完全にランダムなら)ゼロを中心とするとなるだろう()。 細かいことを言えば、分布は正と負の両方に広がっており、両方を対象と考える場合もあるし、一方だけを対象と考える場合もある。 以上のように多数回の試行によって経験的に経験の分布を計算することを示した。 単純な場合(正規分布の無作為なノイズ)、傾向の分布は正確に求められる。 ここで、それまでのランダムデータ列とおおよそ同じ分散特性の新たなデータ列を考える。 逆に本当に傾向を持つデータ列の残り部分は、傾向を持たないと宣言される可能性がある。 傾向+ノイズとしてのデータ [ ] 時系列データを解析するため、データ列は傾向要素とノイズ要素から成ると仮定する。 特殊な例として気温の時系列がある。 気温データは時間に対して均質でないことが分かっている。 一般に気象観測データは最近になるに従って増えており、従って気温の推定に関わる誤差は時と共に減少している。 このため気象データの傾向推定を行うにはこれを考慮する。 上述の無作為データ列の傾向の分散の話から、無作為な(本来傾向のない)データからも傾向が得られることがあることが分かる。 ノイズの多い時系列 [ ] ノイズの多い時系列から傾向を抽出することは難しい。 具体例として、が示した過去140年間の気温の記録を見てみよう。 年間気温の分散は約 0. 従ってこの傾向は統計的に 0 とは有意な差がある。 もっとも、気温の変動の具体的原因はこのデータからは分からない。 傾向推定と残差 [ ] フィルタリングによって残差の二乗は変化するが、傾向は変わらない 最小二乗法による傾向推定では、残差の二乗を推定後に捨てる。 それはつまり推定された傾向のラインで説明されるデータの分散の部分がどれだけかということでもある。 それは傾向の有意性には関係しない(右図参照)。 ノイズの多い系列では残差の二乗は非常に小さいこともあるが、推定の有意性が非常に大きいこともある。 フィルタリングを行うと残差の二乗は増大する傾向があるが、推定される傾向そのものやその有意性にはあまり違いが生じない。 自己相関的な実データ [ ] これまで、データ列は傾向とノイズから構成されるとしてきた。 また、ノイズは各データで「独立」であった(、ノイズ)。 ノイズが定常的なに従うという前提は情報最小の原理から生じた。 これは統計の容易さという点で大きな意味がある。 気象データのような実データはこの前提を満たさないかもしれない。 的時系列はを使ってモデル化される。 関連項目 [ ]• 参考文献 [ ]• Chatfield, C. 1993 "Calculating Interval Forecasts," Journal of Business and Economic Statistics, 11 2 121-135.

次の

レールガンTはどこの時系列?【とある科学の超電磁砲】

と ある 時 系列

概略 [ ] 時系列解析や 時系列分析はそのような時系列を解釈するための手法であり、データ列の背後にある理論(なぜそのような時系列になったのか?)を見出すか、予測を行うためのものである。 時系列予測は、既知の過去の事象に基づいて将来のを構築し、将来ありうべきデータポイントを測定前に予測することである。 例えば、の過去の価格推移から将来の価格を予測することなどが挙げられる。 線形モデル [ ] 時系列データのモデルには様々な形式がある。 古典的に有名なモデルとしては、(ARMA)があり、これは(autoregressive; AR)とモデル(moving average; MA)を組み合わせたものである。 更に、和分モデル(integrated; I)を組み合わせた(ARIMA)がある。 これらは過去のデータ列およびノイズに線形に依存している。 過去のデータへの非線形な依存は、的時系列を生む可能性があり、興味深い。 ARMA や ARIMA もこの線形モデルで扱うことが出来る。 手法 [ ] 時系列データを分析するツールには以下のようなものがある:• の系列の分析としての• を除去するの使用• (または分析)• 状態空間モデル• 、拡張カルマンフィルタ、• 産業への応用 [ ] 任意の時刻と数値の連想配列は時系列とみなすことができる。 その場合の時刻は必ずしも一定の間隔である必要はない。 例えば、株式や商品先物の相場の履歴情報は、一種の時系列データである。 経営アナリストらは、ここで列挙したようなツールを駆使し、経営に役立てている。 例えば、エネルギートレーダーは平年の天候と短期の天気予報に基づいて電力消費量を予測する。 出典 [ ]• 広辞苑第五版【時系列】• 『時系列解析入門』岩波書店、2005年、209頁。 関連項目 [ ]• -「時系列データ型」をデフォルトで備えたデータ解析用言語。 外部リンク [ ]• - SAS を使った時系列分析に関するオープンソースブック• - National Instruments 社の時系列解析用商用ソフトウェア•

次の