ในยุคดาต้า 5.0 ที่การตลาด ธุรกิจ ไปจนถึงเศรษฐกิจ และทุกด้านในชีวิตล้วนขับเคลื่อนด้วยดาต้า หลังจากสองบทความแรกในชุด Data 101 ที่พาไปรู้จักว่า Big Data คืออะไรและทำไมถึงสำคัญ กับ 4V ของ Big Data นั้นประกอบด้วยอะไรบ้าง ในบทความนี้เราจะพามารู้จักกับประเภทของดาต้าที่มีอยู่ในปัจจุบัน ซึ่งประกอบด้วย Structured data, Unstructured data และ Semi-structured data นั้นแตกต่างกันอย่างไร และถ้าเราเป็นบริษัทที่ Data-Driven ดาต้าประเภทไหนสำคัญมากที่สุด
แรกเริ่มเดิมทีก่อนโลกจะก้าวเข้าสู่ยุคดิจิทัลที่ค่อยๆ ผันตัวกลายมาเป็นยุคของดาต้านั้น โลกเราส่วนใหญ่รู้จักกันแต่ Structured data ซึ่งเป็นข้อมูลที่ถูกบันทึกจัดเก็บไว้อย่างเป็นระเบียบเรียบร้อยพร้อมใช้งาน แต่พอเราก้าวเข้าสู่ยุคอินเทอร์เน็ต ก้าวเข้าสู่ยุคดิจิทัล(แบ่งด้วยโซเชียลมีเดีย) จนเราก้าวเราสู่ยุคของดาต้า 5.0 ก็ก่อให้เกิดข้อมูลจำนวนมากที่ไม่เหมือนกับรูปแบบเดิมสักเท่าไหร่ นั่นก็คือ Unstructured data
เช่นเดียวกันกับข้อมูลตัวเลขที่อยู่ในช่องของราคาการจ่ายเงิน เราก็จะเน้นการเอามาวิเคราะห์ดูยอดขายรวม หรือวิเคราะห์หาช่วงราคาที่ลูกค้าส่วนใหญ่ชอบซื้อต่อหนึ่งบิลเป็นต้น เห็นไหมครับว่าแม้จะเป็นข้อมูลรูปแบบตัวเลขเหมือนกัน แต่ประเภทของข้อมูลก็ต่างกัน ดังนั้นข้อมูลประเภทนี้จึงง่ายต่อการเอาไปใช้งานเป็นอย่างมาก ใน Excel อาจจะใช้แค่ VLOOKUP ก็เพียงพอ หรือการจะเอาไปทำ Data Visualization ต่อด้วย Data Studio หรือ Power BI ก็สามารถทำได้แทบจะทันทีเพราะข้อมูลถูกจัดเก็บไว้เป็นระเบียบพร้อมใช้งาน
เปรียบให้เห็นภาพมากขึ้นก็เหมือนกับการซื้ออาหารสำเร็จรูปที่แค่ฉีกออกจากซองก็สามารถอุ่นหรือทอดกินได้เลย ไม่ต้องเตรียมตัวอะไรให้ยุ่งยาก แต่ดาต้าประเภทนี้มีปริมาณน้อยที่สุดในวันนี้ เพราะนี่เป็นดาต้ายุคแรกเริ่มก่อนยุคของ Big Data ในยุคที่เรายังมีข้อมูลให้จัดเก็บเป็นจำนวนไม่มากจึงสามารถกำหนดโครงสร้างได้ง่าย ครั้นเวลาผ่านไปจะต่อเพิ่มก็สามารถสร้างความเชื่อมโยงหรือ Relationship on data ได้สบายๆ แค่ต้องรู้ว่าจะเอาไฟล์นี้ไปเชื่อมกับไฟล์ไหน
แต่ก็นั่นแหละครับด้วยความที่มันถูกกำหนดโครงสร้างของข้อมูลเป็นอย่างดีก็ส่งผลให้ดาต้าชนิดนี้มีน้อยจนอาจไม่เพียงพอสำหรับบริษัทที่อยากจะไปต่อในยุคดาต้า 5.0 เพราะยุคนี้นั้นเต็มไปด้วยข้อมูลประเภทถัดมาที่เราจะทำความรู้จักกัน นั่นก็คือ Unstructured data ข้อมูลปริมาณมหาศาลจนก่อให้เกิดคำว่า Big Data ขึ้นมานั่นเอง
Unstructured data ข้อมูลจำนวนมากของยุคดิจิทัลจนเป็นที่มาของคำว่า Big Data
ถ้าจะพูดว่า Big data คำนี้เกิดขึ้นมาได้เพราะ Unstructured data ก็ไม่ผิดนักครับ เพราะในวันที่เราเริ่มก้าวเข้าสู่ยุคอินเทอร์เน็ต ก็เริ่มก่อให้เกิดข้อมูลในรูปแบบใหม่ๆ ที่ไม่มีโครงสร้างชัดเจนเพิ่มขึ้นเรื่อยๆ และจุดที่พลิกผันก็คือยุคดิจิทัล ยุคที่เรามี 3G ใช้ ยุคที่เราเริ่มหันมาใช้สมาร์ทโฟนแทนโทรศัพท์มือถือแบบมีปุ่มกดทั่วไป ยุคนี้เองก่อให้เกิด Unstructured data มากมาย ซึ่งคนที่ทำให้ข้อมูลประเภทนี้เกิดขึ้นมากมายขนาดนี้ก็คือเราทุกคนไม่ว่าจะคุณหรือผมครับ
Unstructured data คือข้อมูลมีโครงสร้างชัดเจน หรือถ้าเรียกให้ถูกต้องบอกว่าไม่มีโครงสร้างใดๆ เลย ตัวอย่างข้อมูลประเภทนี้ก็เช่น รูปภาพ เพลง คลิปวิดีโอ โพสบ่นๆ บนโซเชียลมีเดีย กระทู้ความเห็นตามเว็บบอร์ดต่างๆ หรือแม้แต่ไฟล์ข้อมูลเอกสารประเภท Word และ PDF ก็เช่นกัน
เพราะ Google เองก็ประกาศตัวแต่วันแรกว่าพวกเขาจะจัดอันดับข้อมูลทั้งหมดบนโลก(เท่าที่เข้าถึงได้) ให้ง่ายต่อการใช้งาน สิ่งที่ Google ทำคือส่ง Bot ออกไปวิเคราะห์ข้อมูลเว็บต่างๆ อยู่ตลอดเวลาว่าเว็บไหนเกี่ยวกับอะไร เพื่อที่ถ้ามีใครค้นหาในเรื่องที่เกี่ยวข้องกับเว็บนี้จะได้เจอคำตอบที่ใช่โดยไวที่สุด
ดังนั้น Google จึงพยายามจัดการข้อมูลต่างๆ อยู่เสมอให้มีโครงสร้างง่ายต่อการใช้งาน ลองคิดว่าถ้าเราไม่ตั้งชื่อไฟล์ Word หรือติด Tag คนหรือสิ่งของภายในรูปภาพนั้นเราจะสามารถเข้าถึงข้อมูลที่ต้องการได้โดยง่ายหรือไม่
ข้อมูลประเภทนี้บางทีก็เรียกกันว่า NoSQL ที่ย่อมาจาก Not Only Structured Query Language ซึ่งจะเห็นว่าตรงกันข้ามกับ Structued data หรือที่เป็น SQL (Structured Query Language) โดยชิ้นเชิง
และนั่นก็เลยก่อให้เกิดข้อมูลประเภทที่สามที่เรียกว่า Semi-structured data ครับมาเพื่ออุดช่องว่างนี้ครับ
Semi-structured data ข้อมูลกึ่งสำเร็จรูป เก็บง่าย ใช้งานง่าย
Credit – https://www.json.org/
เมื่อ Structured data นั้นง่ายต่อการเอาไปใช้งานมากๆ แต่ก็วุ่นวายตอนกำหนดโครงสร้างขึ้นมาเพื่อจัดเก็บ ส่วน Unstructured data นั้นก็เก็บได้หมดทุกอย่าง แต่ครั้นวันที่จะเอามาใช้งานก็ช่างยากเย็นเหลือเกิน จึงเกิดข้อมูลอีกหนึ่งประเภทที่เรียกว่า Semi-unstructured data ซึ่งอยู่ตรงกลางค่อนไปทาง Structured data เพราะแม้จะไม่ได้ถูกจัดเก็บไว้แบบมีโครงสร้างที่ชัดเจน แต่ก็พอจะมีตัวกำกับไว้ว่าข้อมูลนี้คืออะไร ข้อมูลนี้อยู่ในลำดับชั้นต่อจากออะไร ทำให้สามารถเอาไปใช้งานต่อได้ง่ายกว่าข้อมูลแบบไร้โครงสร้าง เพียงแต่อาจจะต้องผ่านขั้นตอนทำข้อมูลให้พร้อมสักหน่อย เช่น XML, CSV หรือ JSON
หรือถ้าอธิบายให้เห็นภาพชัดขึ้นก็คือข้อมูลประเภท Web log ว่าใครเข้าใช้งานเมื่อไหร่ เข้าใช้งานผ่านอะไร, อีเมล มีเนื้อหาข้างในกำกับระดับหนึ่ง หรือถ้าใกล้ตัวขึ้นอีกก็คือข้อมูลประเภท Tag ในโซเชียลมีเดียที่ผู้คนนิยมทำกัน
เพราะข้อมูลบนโซเชียลมีเดียก็นับว่าเป็น Semi-structured data คือเราพอจะรู้ว่าใคร โพสเมื่อไหร่ โพสในรูปแบบไหน ส่วนจะเป็นการโพสอะไรอันนี้ก็ต้องเข้าไปทำความเข้าใจบริบทของเนื้อหาอีกทีนึง ซึ่งเจ้า Tag หรือ #Hashtag นี่แหละก็คือการจัดระเบียบสร้างโครงสร้างให้ข้อมูลอีกทีหนึ่ง ถ้าเปรียบเทียบกับการใช้ Social listening ก็คือการ Query หรือค้นหาข้อความที่มีคำที่ต้องการอีกครั้งหนึ่งหลังจากเราดึงข้อมูลออกมา ทำให้การทำวิเคราะห์ข้อมูลต่อนั้นง่ายและเร็วกว่าเดิมมาก
บริษัทจำนวนไม่น้อยมักโฟกัสกับแค่ Structured data แน่นอนว่าถ้าในช่วงเริ่มต้นใช้ Data-Driven ก็ถือว่าเหมาะสมแล้ว แต่ถ้าทำในระดับหนึ่งแล้วก็ต้องอย่าลืมหาดาต้าประเภทอื่นเข้ามาใช้งานด้วย เพราะอย่าลืมว่าข้อมูลประเภท Structured data นั้นมีสัดส่วนแค่ 10-20% เท่านั้นในวันนี้ แต่ยังมีข้อมูลมหาศาลกว่า 80-90% ที่เป็น Unstructured data ที่รอให้เราไปหยิบฉวยมาใช้งานเพื่อต่อยอดธุรกิจไปอีกระดับ
เพราะการจะทำธุรกิจให้กำไรนั้นต้องอาศัยความเข้าใจที่รอบด้าน ดังนั้นบริษัทต้องกำหนด Data Strategy ให้ดีว่าเราจะใช้ดาต้าแบบไหนเพื่อตอบ Business objective แล้วจาก Data Strategy นั้นก็จะทำให้เรารู้ว่าเราต้องเน้นไปที่ดาต้าชนิดใด ทั้งหมดนี่ก็เพื่อให้เรายกระดับธุรกิจด้วย Data-Driven ได้จริงๆ
และเพราะ Data ที่หลากหลายทั้งสามประเภทนี้เองก็จะช่วยให้เราเข้าถึง Deep Insight หรือเข้าใจลูกค้าได้ลึกกว่าการสัมภาษณ์หรือตอบแบบสอบถามรูปแบบเก่า นักการตลาดอย่างเราก็สามารถทำการตลาดได้อย่างแม่นยำ นักธุรกิจก็สามารถเพิ่มกำไรในบรรทัดสุดท้ายได้ในท้ายที่สุด
ในบทหน้าจะพาไปรู้จักกับคำว่า Single View Customer หรือ Customer 360 ครับ