logo

Select Sidearea

Populate the sidearea with useful widgets. It’s simple to add images, categories, latest post, social media icon links, tag clouds, and more.
hello@youremail.com
+1234567890
0
  • No products in the cart.

A little bit about BIG DATA

pnxinfo > BIG DATA  > A little bit about BIG DATA
image

A little bit about BIG DATA

ในโลกยุคใหม่นี้ ปรากฎแน่ชัดแล้วว่าบทบาทความสำคัญของระบบข้อมูลแบบ Big Data มีมากขึ้นจนหลีกเลี่ยงไม่ได้สำหรับหน่วยงานหรือองค์กรต่างๆ เพราะหากองค์กรมีแนวคิดในการเพิ่มประสิทธิภาพ โดยใช้งานจากข้อมูลที่กระจายอยู่ทุกภาคส่วนให้เกิดประโยชน์ ส่ิงแรกที่จำเป็นและสำคัญคือ การปรับปรุงรูปแบบการเก็บข้อมูล และเรียกใช้ข้อมูลเสียใหม่


ในมุมของคนที่มีเป้าหมายจะเป็น Data Engineer แล้ว เป็นเรื่องจำเป็นมากๆ ที่ต้องรู้เรื่องนี้ก่อนจะรู้ว่าเงินเดือนของ Data Engineer โดยค่าเฉลี่ยเท่าไรเสียอีก เพราะหน้าที่หลักของเราคือต้องไปยุ่งเกี่ยวกับข้อมูลมันจำเป็นมากๆ ที่ต้องรู้ว่าแต่ละอย่างที่เราเข้าไปยุ่งนั้น หลักการมันทำงานอย่างไร


แล้วระบบแบบไหน ยังไงล่ะ ที่จะเรียกว่าเป็น BIG DATA? เท่าที่ผมได้รู้ว่า มีการแบ่งง่ายๆ แบบหนึ่งคือใช้หลัก 3V’s มาจาก Volume, Variety และ Velocity ซึ่งข้อมูลเหล่านี้จะใช้การจัดเก็บรูปแบบเดิมไม่ได้เลย เพราะข้อมูลที่มี 3V’s นั่นจะทำให้พื้นที่เก็บต้องมีขนาดใหญ่ขึ้นเรื่อยๆ ข้อมูลมีความซับซ้อนมากขึ้นๆ การเข้าถึงข้อมูลในที่เก็บข้อมูลช้าหนักขึ้นเรื่อยๆ โดยมีปัญหา 2 อย่างหลักๆ คือ 1 Large Scale Data Storage และ 2 Large Scale Data Analysis


จากปัญหาใหญ่ 2 อย่างข้างต้น ก็มีคนคิดค้นระบบจัดเก็บไฟล์มหึหาแบบนี้อยู่ด้วยตลอดเวลา เดือนธันวาคมในปี 2004 Google ปล่อยเอกสารการจัดการไฟล์แบบ MapReduce ซึ่งจริงๆ Google ก็ใช้ระบบจัดการพวกนี้อยู่แล้ว เพียงแต่ไม่ปล่อยออกมาเป็น Open Source ปล่อยแค่เอกสารบางตัว จึงทำให้ไม่แพร่หลายและคนอื่นก็ใช้ไม่ได้ด้วย แล้วหลังจากนั้นไม่นาน พระเอกของเรา Hadoop ก็โผล่ขึ้นมา (เป็นชื่อของเล่นช้างน้อยของลูกชายหัวหน้าทีมพัฒนา) เกิดขึ้นจากการรวมกันของทีมพัฒนากลุ่มหนึ่ง ส่วนหนึ่งก็ศิษย์เก่า google นี่ล่ะที่ย้ายมาทำงานกับ Yahoo! มาทำระบบโดยเอาแนวคิด MapReduce มาใช้เองก่อน จากนั้นราวหนึ่งปี ก็เปิดให้เป็นแบบ OpenSource เอาไปเข้าร่วมโครงการ Apache ถือกำเนิดเป็น version แรก 1.0 ในปี 2008 (เป็นโครงการ Open Source มีการวิจารณ์หนาหูว่าเลียนแบบ Google มา ดราม่ามั้ยล่ะ แต่ก็จบสวยเพราะ Google ประกาศไม่เอาเรื่องใครด้วยสิทธิบัตร MapReduce)


Hadoop Framework มีระบบจัดเก็บไฟล์ที่ชื่อว่า HDFS (Hadoop Distributed File System) โดยมี MapReduce ที่ทำการวิเคราะห์การจัดเก็บข้อมูลลงในระบบ โดย Hadoop จะติดตั้งอยู่บน Cluster ที่รวมกันขึ้นมาจาก Node ซึ่งเป็นหน่วยเล็กย่อยที่ใช้ทรัพยากรน้อย


เมื่อมีการจัดเก็บข้อมูลสักไฟล์หนึ่งบน HDFS ไฟล์จะถูกแตกออกเป็นชิ้นๆ เป็น file block (64Mb หรือ 128 Mb แล้วแต่จะตั้งค่า) แล้วจะถูกนำไปวางกระจายไว้ตาม Node ต่างๆ ใน Cluster เพื่อช่วยด้านความเร็วในการจัดการไฟล์ต่างๆ โดยแต่ละ File blocks จะถูกสำเนาขึ้นอีก 3 ครั้ง (ค่าเริ่มต้น) ใน Node อื่นๆ


ใน Node ทั้งหลายนี้ จะมี Node พิเศษหนึ่งที่ชื่อว่า Name Node ทำหน้าที่จัดการ File blocks ของข้อมูล ในกรณีเกิดเหตุต่างๆ และเพื่อเป็นการป้องกัน หาก Name Node เกิดทำงานไม่ได้ จะมี Node อีกอันที่เรียกว่า Standby Name Node มาคอย support โดย sync กันอยู่ตลอดเวลา


เข้าใจกันคราวๆ แล้วสำหรับจุดเริ่มต้นของโลก BIG DATA ใบนี้ หลังจาก Hadoop เกิดขึ้นมาและเป็น Open Source อะไรหลายๆ อย่างก็เปลี่ยนไปด้วยความเร็วมากขึ้นจนเราแทบจะตามไม่ทันกันเลยทีเดียว กลายเป็น Ecosystem ขนาดใหญ่ที่มีอะไรต่อมิอะไรภายในหยุบหยับไปเสียแล้ว (ปี 2008 เราทำอาชีพไรอยู่หว่า?)


ยังไงซะบทความนี้ก็จบแค่นี้ก่อนก่อนแล้วกัน เดี๋ยวจะเทคนิเคิลจ๋าเกินไปนะคร้าบ


pnxinfo

ฝันอยากเป็น Programmer สร้างสรรค์ Software ก็ได้เป็นล่ะ ถึงจะไม่จบสายงานนี้มา ต่อไปก็อยากจะเป็น Data Engineer ดีกว่า ชีวิตจะได้มีเป้าหมาย...