Rを使ってみた

データ分析の講座で統計ツールが必要になったんだけど、自分のmacには残念ながらExcelが入っていない。
LibreOfficeを使ってみたんだけど、件数が1000件程度のデータでも何か重くなって使いづらい。

という訳で、統計と言えばRってのがあったなと、下記を参考にインストールしてみた。

RおよびRStudioのインストール方法(Mac/Windows)

そもそも統計の勉強してる最中に新しいツール入れたら死ぬんじゃないかと思ってたけど、使ってみたら意外とやりやすい。
CUIの方が何かしっくりくると言うか、補完も効くので、何となくやってたらとりあえず動かす事は出来た。

てことで、忘れないようにメモを残していく。

cwd相当のやつ

getwd()

cd相当のやつ

setwd("移動先dir")

文字コードを指定してcsvファイル読み込み

data1 = read.csv("ファイルパス", fileEncoding = "文字コード")

「=」は「<-」でも良いと言うか、本当は(?)「<-」を使うらしい

読み込んだCSVの特定列を参照

data1$参照したい列名

カンマ入りの数字からカンマを除去

gsub(",", "", data1$参照したい列名)

文字を数値に変換

as.integer(data1)

ヒストグラムを表示(ラベルも出す)

hist(data1, label=TRUE)

ヒストグラムを表示(最小、最大、階級範囲?を指定)

hist(data1, breaks=seq(0, 5000, 1000))

数字をフィルタ

subset(data1, data1 > 1000)

関数を作る(試しに標準偏差を求めるやつ)

get_deviation = function(data) {
    int_val = as.integer(gsub(",", "", data))
    m = mean(int_val)
    deviation = int_val - m
    deviation2 = deviation^2
    variance = sum(deviation2) / length(int_val)
    std_deviation = sqrt(variance)
    return(std_deviation)
}

まとめ

Rって素晴らしい。今後も付き合っていこう。

コメント

タイトルとURLをコピーしました