最近のRのメモ
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
[[Rのメモ]]
**大きなデータの取り込み [#vc4bc9ad]
-通常の read.csv()は遅いので、tidyverseパッケージのインス...
install.packages("tidyverse")
library(tidyverse)
data <-read.csv("data")
-自分のマシンでは 40MB くらいのデータで3倍高速(`system....
**Encoding のチェック [#le4bcdbc]
-文字コードの確認は guess_encoding()関数を使うといい
guess_encoding("data.csv")
-結果は以下のように返してくれる:
<chr> <dbl>
1UTF8 1.00
2Shift_JIS 0.780
-それを指定した読み込みは以下:
product_enc <- read_csv("data.csv", locale=locale(encodi...
**データフレーム操作 [#g2e5a0b6]
-[[dplyr 入門>https://www.jaysong.net/dplyr_intro/]]
library(dplyr)
newdataset <- select(dataset, variable1, variable2, ...)...
1つのデータフレーム dataset から必要な変数(variable1...
filter(newdataset, variable1 > 56) %>% select(variable2,...
newdataset の variable 1の値(ここでは56より大きい)...
%>% はこのコマンドを逐次的に実行するという意味
-mosaic ライブラリ
--欠損値を調べる際に、mosaic ライブラリの tally() 関数で ...
library(mosaic)
tally(~ is.na(variable), data=dataset)
---そうすると TRUE で出てきた件数が欠損値にあたる
--同様のことは favstat()関数でもできる
favstats(~ variable, data=dataset)
min Q1 median Q3 max mean ad n missing
---このような項目の summary が出る。最後の missing が欠損...
**変数の再集計 [#tee4c604]
-memisc ライブラリ
--dplyr と合わせて以下のようなコードを書くと、論理演算の...
> library(dplyr)
> library(memisc)
> newdataset = mutate(newdataset, new_variablename=
cases(
"LABEL A" = variable1==0,
"LABEL B" = (variable1>0 & variable1<=1 & variabl...
(variable1>0 & variable1<=2...
"LABEL C" = ((variable1>1 | variable2>3) & var...
((variable1>2 | variable2>4...
--- variable1, 2, 3 の値の論理式の組み合わせで LABEL A, B...
---
終了行:
[[Rのメモ]]
**大きなデータの取り込み [#vc4bc9ad]
-通常の read.csv()は遅いので、tidyverseパッケージのインス...
install.packages("tidyverse")
library(tidyverse)
data <-read.csv("data")
-自分のマシンでは 40MB くらいのデータで3倍高速(`system....
**Encoding のチェック [#le4bcdbc]
-文字コードの確認は guess_encoding()関数を使うといい
guess_encoding("data.csv")
-結果は以下のように返してくれる:
<chr> <dbl>
1UTF8 1.00
2Shift_JIS 0.780
-それを指定した読み込みは以下:
product_enc <- read_csv("data.csv", locale=locale(encodi...
**データフレーム操作 [#g2e5a0b6]
-[[dplyr 入門>https://www.jaysong.net/dplyr_intro/]]
library(dplyr)
newdataset <- select(dataset, variable1, variable2, ...)...
1つのデータフレーム dataset から必要な変数(variable1...
filter(newdataset, variable1 > 56) %>% select(variable2,...
newdataset の variable 1の値(ここでは56より大きい)...
%>% はこのコマンドを逐次的に実行するという意味
-mosaic ライブラリ
--欠損値を調べる際に、mosaic ライブラリの tally() 関数で ...
library(mosaic)
tally(~ is.na(variable), data=dataset)
---そうすると TRUE で出てきた件数が欠損値にあたる
--同様のことは favstat()関数でもできる
favstats(~ variable, data=dataset)
min Q1 median Q3 max mean ad n missing
---このような項目の summary が出る。最後の missing が欠損...
**変数の再集計 [#tee4c604]
-memisc ライブラリ
--dplyr と合わせて以下のようなコードを書くと、論理演算の...
> library(dplyr)
> library(memisc)
> newdataset = mutate(newdataset, new_variablename=
cases(
"LABEL A" = variable1==0,
"LABEL B" = (variable1>0 & variable1<=1 & variabl...
(variable1>0 & variable1<=2...
"LABEL C" = ((variable1>1 | variable2>3) & var...
((variable1>2 | variable2>4...
--- variable1, 2, 3 の値の論理式の組み合わせで LABEL A, B...
---
ページ名: