データ分析の講座で統計ツールが必要になったんだけど、自分のmacには残念ながらExcelが入っていない。
LibreOfficeを使ってみたんだけど、件数が1000件程度のデータでも何か重くなって使いづらい。
という訳で、統計と言えばRってのがあったなと、下記を参考にインストールしてみた。
RおよびRStudioのインストール方法(Mac/Windows)
そもそも統計の勉強してる最中に新しいツール入れたら死ぬんじゃないかと思ってたけど、使ってみたら意外とやりやすい。
CUIの方が何かしっくりくると言うか、補完も効くので、何となくやってたらとりあえず動かす事は出来た。
てことで、忘れないようにメモを残していく。
cwd相当のやつ
getwd()
cd相当のやつ
setwd("移動先dir")
文字コードを指定してcsvファイル読み込み
data1 = read.csv("ファイルパス", fileEncoding = "文字コード")
「=」は「<-」でも良いと言うか、本当は(?)「<-」を使うらしい
読み込んだCSVの特定列を参照
data1$参照したい列名
カンマ入りの数字からカンマを除去
gsub(",", "", data1$参照したい列名)
文字を数値に変換
as.integer(data1)
ヒストグラムを表示(ラベルも出す)
hist(data1, label=TRUE)
ヒストグラムを表示(最小、最大、階級範囲?を指定)
hist(data1, breaks=seq(0, 5000, 1000))
数字をフィルタ
subset(data1, data1 > 1000)
関数を作る(試しに標準偏差を求めるやつ)
get_deviation = function(data) {
int_val = as.integer(gsub(",", "", data))
m = mean(int_val)
deviation = int_val - m
deviation2 = deviation^2
variance = sum(deviation2) / length(int_val)
std_deviation = sqrt(variance)
return(std_deviation)
}
まとめ
Rって素晴らしい。今後も付き合っていこう。
コメント