Big Data กับ วงการยา ตอนที่3

ก่อนที่จะมาพูดถึงToolในการVisualizationข้อมูลด้วย Programต่างๆนะครับ
มีคำถามจากหลายๆท่านในวงการถามมาว่า
ไอ้คำว่า Big Data มันต้องDataขนาดไหน
วันนี้เลยมาแปลบทความจาก https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html
มาให้อ่านเพื่อได้เข้าใจใน นิยามของคำว่า Big Data กันครับ

Image result for big data



ต้องเกร่นก่อนว่า ในการทำBig data Analysis มักใช้Program Hadoop เป็นToolในการAnalytic
ซึ่งจากที่อ้างอิงมา คำถามว่า ข้อมูลที่เรามีถือเป็นBig Dataไหม ก็คงจะเหมือนคำถามที่ว่า
ข้อมูลที่เรามีใช้Hadoopดีไหม

600 MB ข้อมูลใส่ใน Flashdrive ได้ ถือเป็น Big Data ไหม(ใช้Hadoop ดีไหม?)
เสียใจด้วยครับไม่ต้องถึงมือ Hadoop หรอก ใช้ Python, R, Matlab ได้สบาย เช่น สั่งคำสั่ง panda.read_csv ก็อ่านไฟล์เข้าไปอยู่ในหน่วยความจำของเครื่อง (RAM) หมดแล้ว
บางคนอาจจะมีคำถามต่อมาว่า ข้อมูลของผมมันเปิดด้วยExcelไม่ได้(อาจจะประมวลผลช้าจนน่ารำคาญ หรือ Hangไปดื้อๆเลย)
เป็นความจริงที่ Excelไม่เหมาะกับการประมวลผลในข้อมูลเยอะ(600 - 1000 MB) แต่จริงๆใช้แค่ Python,R หรือ Rapid Miner ก็เพียงพอ ไม่ต้องถึงมือ Hadoop หรือครับ

ถ้าผมมีข้อมูล 10 GB
ข้อมูลอาจจะดูแล้วเยอะครับ แต่จริงๆแล้วการอ่านข้อมูลขนาด 10GB เราเพิ่มRamเป็น 16 GB หรือมากกว่านั้น แล้วใช้ Python,R หรือ Rapid Miner ในการทำการวิเคราะห์ น่าจะคุ้มกว่า

For an enterprise class Hadoop cluster, a mid-range Intel server is recommended. These typically cost $4,000 to $6,000 per node with disk capacities between 3TB to 6TB depending desired performance. This means node cost is approximately$1,000 to $2,000 per TB.

ดูจากราคาแล้ว ใช้Python,R หรือ Rapid Miner น่าจะดีกว่าครับ

แล้วถ้าข้อมูลของผม 100GB/500GB/1TB ละครับ

จริงๆก็เกือบได้นะครับ แต่เค้าแนะนำว่าถ้าข้อมูลของคุณนั้นยังสามารถใส่ในHarddiskได้ ใช้Python,R หรือ Rapid Miner ดีกว่าครับ เพราะการวิเคราะห์ข้อมูลยังถือว่าเร็วกว่า Hadoop(ในระดับขนาดข้อมูลขนาดนี้นะครับ)

แต่ถ้าข้อมูลของผม มากกว่า 5 TB ละ

ก่อนอื่นต้องขอแสดงความยินดีด้วยที่คุณมีโอกาสได้ใช้ Hadoopแล้วนะครับ ด้วยขนาดข้อมูลขนาดนี้ตัวเลือกของคุณค่อนข้างน้อยละ แต่อย่างน้อยคุณก็สามารถคุยได้ละว่า องค์กรของคุณใช้Big data Analysisละ

หลายท่านน่าจะพอเห็นแล้วว่า ไอ้คำว่าBig Dataที่กำลังฮิตกัน หรือไปถึงอาชีพด้วยData Science ต่างๆ องค์กรเราอาจจะยังไม่ต้องมีก็ได้ เพราะDataที่เรามีมันยังไม่Bigพอนั้นเองครับ แต่สุดท้าย Dataขององค์กรท่านจะBigหรือไม่Bigไม่ใช่ประเด็นครับ สำคัญที่สุดคือท่านได้นำข้อมูลที่ท่านมีมาทำการวิเคราะห์อย่างจริงจังหรือยัง ต่างหากครับ 
สุดท้ายขอตอบในหลายคำถามว่า วงการยาควรจะต้องทำ
Big Data Analysisหรือยัง ก็ขอตอบว่าควรทำได้ตั้งนานแล้ว แต่ใช้Programอะไรอันนี้ก็แล้วแต่ความถนัดของท่านๆครับ
ส่วนที่ผมจะมาสอนในตอนต่อๆไปจะเป็น Program Rapid Miner แล้วมาติดตามกันต่อนะครับ

เรียบเรียง

ภก.ภูริทัต ว่องพุฒิพงศ์
PharmConnection


ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

ทฤษฎีโครงสร้างการเล่าเรื่อง (Storytelling)

ตัวอย่าง Cover Letter ที่ถูกต้อง

น้องตูน MSL