Q&A集
データサイエンス相談会
やメール等で、過去にいただいたご質問についてのQ&Aです。
ご質問は具体的な事についていただくことが多いですが、Q&A集では、一般的な表現に変えています。
データサイエンスの手法
検定
正規分布ではないのですが、どうすれば良いですか?
p値が0.05よりも大きいので、「差はなし」ですね?
データ(N数)は、いくつ取れば良いのですか?
「平均値の数値的な差」というのは、どういうことですか?
21世紀の検定の式は、サンプル数の部分を取り除いてできているのですか?
検定で、一番大事な事は何ですか?
事前にサンプル数を決めていれば、問題にならないのではないでしょうか?
「相関あり」になる相関係数は、いくつ以上ですか?
原因の分析
原因の分析では、相関の強い変数を見つけるのですね?
原因は、この変数ですか?
結果の方が前に起きることもあるから、仮説が間違いでは?
モデルの作成
受注予測をしたいのですが、受注データと気象データの関係は、どのようなモデルを使えば良いのですか?
このデータに、一番良いモデルは?
高次元(多変量)のモデルを作ることはありますか?
Yが量的変数の時はT法で、質的変数の時はMT法を使えば良いのですか?
抜き取り検査のデータから、歩留を推定できませんか?
特徴量エンジニアリング
センサーデータの分析に、移動窓(窓関数)は使わないのですか?
時刻が等間隔ではない時は?
フーリエ変換で分析するのでしょうか?
相互情報量をPythonで実装するので、アルゴリズムを教えてください。
その他
品質工学と実験計画法の違いは何ですか?
大量の文章があるのですが、要約を自動で作れませんか?
ばらつきを小さくするには、どうすれば良いですか?
行と列を入れ替えれば、良いのでは?
データサイエンスのツール
よく使うツール(ソフト)は何ですか?
どのような手法(モデル)を実務で使いますか?
マシン(コンピュータ)はどのくらいのスペックが必要ですか?
勉強の仕方
どうやって参考文献を読んでいるのですか?
Kaggleはやっていますか?
※
このページは2020年5月21日から作っています。
とりあえず思い出した範囲でまとめたものです。
過去のQ&Aは、思い出したり、記録が見つかれば、順次増やしています。