データ分析において、「データの選択」は最も重要でありかつ時間を要する処理の一つである。ここでデータの選択には2つの意味がある。レコード項目構造のデータでは、レコード(行)と項目(列)のそれぞれを選択することができる。通常、項目の選択に関しては、「選択」という言葉よりも「切り出し」という言葉をよく用いる。
ここではデータ構造については特に解説はしないが、ある程度の知識は身につけておいておいてもらいたい(データ構造参照)。
bash$ mselstr field=2 string=19981010 <dat
>xxtmp
(OK) mselstr field=2 string=19981010 [In:107473 Out:300 1998/04/09 17:52:34] |
bash$ mselstr fild=2 string=19981010 <dat
>xxa
(NG) mselstr fild=2 string=19981010 (8)invalid keyword in the parameter |
bash$ less xxtmp
10216 19981010 1000 15390 * 416771 1 240 10216 19981010 1000 15391 * 41033 1 260 10216 19981010 1000 15392 * 120464 1 448 10216 19981010 1000 15394 * 286711 1 1440 10216 19981010 1000 15395 * 151319 1 0 10216 19981010 1000 15395 * 151319 -1 -700 10216 19981010 1000 15395 * 151319 1 700 10216 19981010 1000 15395 * 60682 1 0 : : |
bash$ mselstr field=2 string=19981010,19981011,19981012
<dat >dat2-1
(OK) mselstr field=2 string=19981010,19981011,19981012 [In:107473 Out:1034 1998/04/09 17:52:34] |
bash$ mselnum field=2 range=19981010_19981030
<dat >xxtmp
(OK) selnum field=2 range=19981010_19981030 [In:107473 Out:10148 1998/04/09 17:52:34] |
bash$ mselnum field=2 range=19981030_ <dat
>xxtmp
(OK) mselnum fild=2 range=19981030_ [In:107473 Out:34098 1998/04/09 17:52:34] |
以上で説明して意外にも多くの選択コマンドが用意されている。Lessonを進める中で随時取り入れていく。
bash$ mcut field=2 <xxa >xxb
(OK) mcut field=2 [In:1034 Out:1034 1998/04/09 17:58:42] |
bash$ mcut field=3,14,13 <dat2-1 >dat2-2
(OK) mcut field=3,14,13 [In:1034 Out:1034 1998/04/09 17:58:42] |
bash$ less dat2-2
1034 1 198 1710 1 370 1713 1 498 1714 1 280 1745 1 195 1823 1 880 1855 1 370 : : |
bash$ mcut field=3,7_8 <dat2-1 >xxtmp
(OK) mcut field=3,7,8 [In:1034 Out:1034 1998/04/09 17:58:42] |