新着記事
30代未経験からデータサイエンティストとして転職する【体験談】
本記事では30代未経験からデータサイエンティストとして転職した私自身の経験をまとめます。本記事の目的はプログラミングスクールや転職エージェントに斡旋するなどの目的ではなく、私自身の経験を共有することでデータサイエンティストとして社会人から新しくキャリアを踏みたいと思っている方の参考になる情報を発信することです。 したがって事実を曲げて理想論を述べるようなことはありませんのでご安心ください。 また、20代ではなく30代からのデータサイエンティスト転職に関して記載するため、生え抜きのデータサイエンティストを目 ...
【Python/Scipy】正規分布かどうかを定量的に確認する方法
脳みそ男 手元のデータが正規分布かどうかを定量的に確認するにはどうしたらいい? 正規分布であることを確認することでどんなメリットがあるの? 脳筋太郎' 本記事ではそんな疑問に対してサンプルコードを添えてお答えします。 回帰予測を行う際に目的変数が正規分布にしたがっているのかどうか確認することは精度向上のために非常に重要です。本記事ではデータをヒストグラム等で可視化した際に実際にどの程度正規分布に一致するのかそれとも逸脱しているのかを定量的に確認する方法を説明します。 最後まで読めば手元のデータが簡単に正規 ...
脳みそ男 学習データと推論データの分布がどのように予測に影響を与えるの? データのタイプごとに分布を確認するには? 脳筋太郎 本記事ではそんな疑問に対してサンプルコードを添えてお答えします。 コンペなどで学習データと訓練データが与えられた際にそのデータの分布を確認することは予測精度を上げる際に非常に重要になってきます。 推論データに学習データに無い項目が多く含まれていた場合どれだけ学習データでモデルを訓練しても精度向上は見込めません。しっかりとデータのタイプごとに分布を確認した上で対応策を考える必要があり ...
脳みそ男 pandasで欠損値を簡単に確認する方法は? 欠損値に何かパターンがあるみたいだけどどうやって確認すれば良いかわからない 脳筋太郎 本記事ではそんな疑問に対してサンプルコードを添えてお答えします。 scikit-learnなどのサンプルデータで機械学習を学び始めるとデータの欠損などはないため、特に気にすることはないかと思いますが、実データを扱い出すとまず欠損値がないなんてことはありません! 欠損値をそのまま省いてしまう方法もデータ量が多ければありですが、欠損値があるパターンなどを理解することで新 ...
脳みそ男 wordpressでの記事投稿を自動化したいけどどうすればいいの? ブログ更新に時間がかかりすぎる、、もっと効率化する方法はないかなぁ 脳筋太郎 本記事ではそんな疑問に対してサンプルコードを添えてお答えします。 WordPressの投稿にはGutenbergがエディタとして使われることが多いかと思います。しかしながら個人的に文章を書くエディタとしての機能はいまいち。。またスマホやタブレットでのドラフトをGutenbergに直接書くのもスマートに行かないので、いつもNotionやCraftでの原稿 ...