หากไม่นับว่าเคยพยายามใช้ R มาวิเคราะห์ข้อมูลทำ Thesis และพับเก็บเข้ากล่องไปด้วยความสงสัยบางอย่าง (แล้วย้ายไป SPSS แทน) สองสามปีผ่านไปไวหยั่งกับโกหก วันนี้ (วันที่เขียน) ได้ไปนั่งเรียน Exploratory Data Analysis and Statistical Graphic for Business Analytics Using R Commander มาเพราะขี้เกียจ ไม่มีเวลาหาอ่านเองและอยากไปถามข้อข้องใจบางอย่าง รวมถึงด้วยความหน้าสนใจ ของ R ที่ “ฟรี” และ “Open-Source” และ ตอนนี้คนทั้งโลกหันมาใช้และพัฒนาต่อยอด รวมถึง Microsoft ก็มาร่วมวงกับเค้าด้วย เลยคิดว่าเขียนไว้ดีกว่าเพราะ “อาจจะ” มีประโยชน์

 

ก่อนเริ่ม

Blog นี้ “อาจจะ” เหมาะเป็นจุดเริ่มต้นให้กับ

  • คนสนใจ R
  • นักเรียน อาจารย์ ที่เรียน สอน สถิติ ที่ยังไม่เคยใช้ R มาก่อน และไม่อยากเสียเงินให้ SPSS แล้ว
  • Programmer ที่ทำงานบน VS.NET แล้วสนใจ R

ปล.  ที่บอกว่า “อาจจะ” ถึงสองครั้ง เพราะคนเขียนก็มือใหม่ ฮิๆๆ

 

Rlogo

เป็นธรรมเนียมอันดีงามที่เราควรรู้ประวัติ ผู้ให้กำเนิดกันก่อน

ประวัติ R [1]
R เป็นระบบสำหรับคำนวนและแสดงผลกราฟฟิกด้านสถิติ ถูกริเริ่มสร้างโดย Ross Ihaka and Robert Gentleman แห่ง The University of Auckland, New Zealand และต่อมาก็มีคนอีกจำนวนมากช่วยกันพัฒนาเพิ่มเติมรวมถึงรายงานข้อผิดพลาดต่างๆ

จนเมื่อกลางปี คศ. 1997 มีการรวมกลุ่มหลัก ที่เรียกว่า the “R Core Team” ซึ่งเป็นผู้ที่สามารถแก้ไขปรับปรุง source code หลัก ซึ่งกลุ่มนี้มีสมาชิกประกอบไปด้วย Doug Bates, John Chambers, Peter Dalgaard, Seth Falcon, Robert Gentleman, Kurt Hornik, Stefano Iacus, Ross Ihaka, Friedrich Leisch, Uwe Ligges, Thomas Lumley, Martin Maechler, Duncan Murdoch, Paul Murrell, Martyn Plummer, Brian Ripley, Deepayan Sarkar, Duncan Temple Lang, Luke Tierney, and Simon Urbanek.

เว็บไซต์หลักของ R อยู่ที่ https://www.r-project.org/ และ R ก็เป็น Free software ภายใต้ GNU-Style copyleft

Note : Weka  (โปรแกรมด้าน Data mining / Machine Learning) ก็จาก New Zealand  แต่ มาจาก The University of Waikato,

เริ่มใช้ R- หา R จากที่ไหน?

เราจะหา R มาใช้ได้จาก  The Comprehensive R Archive Network (CRAN) ซึ่งซึ่งรองรับ ระบบปฏิบัติการหลักๆ ได้แก่ Linux (Ubuntu, Debian, Red-Hat,SuSe), OS X, MS Windows (32bits/64bits) โดยจะมีการอัพเดทอยู่เรื่อยๆ  ซึ่ง ณ วันที่เขียนนี้ Version ที่ Stable ที่สุด คือ 3.2.5  แต่ถ้าใช้ศึกษาหาความรู้ จะใช้ 3.3.0 ก็ได้ หรือ Pre-Release ก็ 3.3.1 (Bug in Your Hair)

blog-CRAN-0

 

เราก็กด Download ในที่นี้ จะเลือกของ Windows ละกันนะ จะเจอหน้าแบบนี้

blog-CRAN-1

แล้วก็ กด ไปที่ base จะเจอหน้านี้

blog-CRAN-2

เราก็กด Download R3.3.0 for Windows ก็จะมีหน้าต่าง pop up มาให้โหลดโปรแกรม แบบนี้ เราก็เลือก folder ที่เราต้องการไป

blog-CRAN-3

เสร็จแล้วเราก็ run เลย อาจจะเจอ message box ของ User Account Control กรณีนี้ไม่ต้องคิดมาก ตอบ Yes

  • หน้าแรก จะ “Select Setup Language” เลือก “English” กด “OK”
  • หน้าจอ Welcome กด Next
  • หน้าจอ Information กด Next
  • หน้าจอ Select Destination Location กด Next (ถ้าไม่จำเป็นอย่าไปเปลี่ยนเลย)
  • หน้าจอ Select Components ถ้าไม่คิดมาก เลือกหมด (default) กด Next
  • หน้าจอ Startup options ถ้าไม่คิดมาก ก็เอาที่กำหนดมาคือ No (default) กด Next
  • หน้าจอ Select Start Menu Folder โดย default จะชื่อ R ซึ่งดีอยู่แล้ว กด Next
  • หน้าจอ Select Additional Tasks ก็ กด Next ได้เลย
  • หน้า Installing รอแป๊บนึง จนเปลี่ยนไปที่ Completing the R for Windows 3.3.0 Set up Wizard  กด Finish

    blog-CRAN-4

ง่ายมะ “Next”  อย่างเดียวเสร็จ

ทางเลือกอื่นๆ

นอกจากจะหา R จาก CRAN แล้ว ตอนนี้จะมี Microsoft Open R 3.2.5  ซึ่งเป็น Enhanced distribution ของ R ที่ไปหา download ได้จาก Microsoft R Application Network (MRAN) ที่ปล่อย ซึ่งถ้าให้อธิบายง่ายๆ ไวๆ ก็คือเป็น R แบบ

  • เพิ่มประสิทธิภาพการคำนวนแบบหลาย Core จาก R ปกติที่ทำบน Core เดียว (by Default)
  • ป้องกันเรื่อง package update ซึ่ง MOR 3.2.5 จะยึด R 3.2.5 ณ วันที่ 1 พฤษภาคม 2016 UTC เท่านั้น (ซึ่งเป็น version ที่ stable สุด ณ ตอนนี้) จนกว่าจะมี version ใหม่ หรือเราไปทำ ข้อถัดไป (อธิบายเพิ่มคือ ปกติ package บน CRAN อาจจะมีการอัพเดทเรื่อยๆ ซึ่ง แบบด้านบน เราก็จัด R 3.3.0 มาใช้แล้ว (ทั้งๆ ที่ยังไม่ stable แต่ เพื่อการศึกษาเราเลยไม่ต้องสนใจเยอะนัก)
  • มี package ชื่อ checkpoint เอาใช้ดึงแพ็คเกจเก่าๆ ที่ MS จะดึงมาเก็บไว้ให้ บน checkpoint server ของ MRAN เพื่อนำมาใช้กับบางโปรเจคที่จำเป็นต้องใช้

หน้าตาเว็บ Portal ของ MRAN

MRAN

พอเข้าหน้า Download จะเจอหน้านี้

MRAN-1

ซึ่ง MRO 3.2.5 มีครบทุกค่าย ยกเว้นของ Mac ต้อง ไปใช้ Version 3.2.4 แทน  (ซึ่งไม่รู้ว่าจะมีเพิ่มอีกมั๊ย)  ขั้นตอนการ install ง่ายๆ คือ ปิด R ทั้งหมด แล้ว ลง Microsoft R Open ก่อน แล้ว ตามด้วย Kernel Library (MKL) เพื่อเปิดฟังก์ชั้น multi-threaded computing.   ซึ่งใน “คู่มือการ install MRO” บอกว่า แต่ละ version จะไม่ทับกัน ใช้แยกกันได้ตาม folder ที่ลงเลย

ส่วนตัวคิดว่า ถ้าไม่ได้ต้องการประมวลผลปริมาณมากๆๆๆ  R ดั้งเดิมก็น่าจะพอแล้ว

คราวหน้าถ้ามีเวลาจะมาต่อเรื่อง IDE (Integrated Development Environment) ที่ใช้กับ R (บน windows นะ) เช่น RScript ของ R เอง, R-Studio, R Commander, R tools for VS.NET และอื่นๆ (เท่าที่หาเจอ)

เที่ยงคืนครึ่งแล้ว เราไม่ดูบอลยูโรและพรุ่งนี้มีเรียนอีกวัน นอนดีกว่า

สวัสดีครับ

 

อ้างอิง

[1] K. Hornik, 2016. [Online]. Available: https://CRAN.R-project.org/doc/FAQ/R-FAQ.html.