ลำดับชั้นเทียบกับการทำคลัสเตอร์แบบแบ่งส่วน
Clustering เป็นเทคนิคการเรียนรู้ของเครื่องสำหรับวิเคราะห์ข้อมูลและแบ่งออกเป็นกลุ่มของข้อมูลที่คล้ายกัน กลุ่มหรือชุดข้อมูลที่คล้ายกันเหล่านี้เรียกว่าคลัสเตอร์ การวิเคราะห์คลัสเตอร์จะพิจารณาอัลกอริทึมการจัดกลุ่มที่สามารถระบุคลัสเตอร์ได้โดยอัตโนมัติ ลำดับชั้นและแบบแบ่งส่วนเป็นสองคลาสของอัลกอริทึมการจัดกลุ่มดังกล่าว อัลกอริธึมการจัดกลุ่มตามลำดับชั้นแบ่งข้อมูลออกเป็นลำดับชั้นของคลัสเตอร์ อัลกอริทึมแบบแบ่งพาร์ติชันแบ่งชุดข้อมูลออกเป็นพาร์ติชั่นที่แยกจากกัน
การจัดกลุ่มแบบลำดับชั้นคืออะไร
อัลกอริธึมการจัดกลุ่มแบบลำดับชั้นจะทำซ้ำวงจรของการรวมกลุ่มที่เล็กกว่าเป็นกลุ่มที่ใหญ่ขึ้น หรือการแบ่งกลุ่มที่ใหญ่กว่าเป็นกลุ่มที่เล็กกว่าไม่ว่าจะด้วยวิธีใด มันสร้างลำดับชั้นของคลัสเตอร์ที่เรียกว่า dendogram กลยุทธ์การจัดกลุ่มแบบรวมกลุ่มใช้วิธีการจากล่างขึ้นบนของการผสานคลัสเตอร์เป็นคลัสเตอร์ที่ใหญ่ขึ้น ในขณะที่กลยุทธ์การจัดกลุ่มแบบแบ่งกลุ่มใช้วิธีการจากบนลงล่างเพื่อแยกออกเป็นกลุ่มที่เล็กกว่า โดยทั่วไปแล้ว วิธีการแบบโลภจะใช้ในการตัดสินใจว่าคลัสเตอร์ใดมีขนาดใหญ่กว่า/เล็กกว่าสำหรับการรวม/การแบ่งกลุ่ม ระยะทางแบบยุคลิด ระยะทางแมนฮัตตัน และความคล้ายคลึงของโคไซน์เป็นตัวชี้วัดความคล้ายคลึงกันที่ใช้บ่อยที่สุดสำหรับข้อมูลตัวเลข สำหรับข้อมูลที่ไม่ใช่ตัวเลข ระบบจะใช้หน่วยเมตริก เช่น ระยะแฮมมิง สิ่งสำคัญคือต้องสังเกตว่าการสังเกตที่เกิดขึ้นจริง (ตัวอย่าง) ไม่จำเป็นสำหรับการจัดกลุ่มแบบลำดับชั้น เนื่องจากมีเพียงเมทริกซ์ของระยะทางเท่านั้นที่เพียงพอ Dendogram คือการแสดงภาพของคลัสเตอร์ ซึ่งแสดงลำดับชั้นอย่างชัดเจน ผู้ใช้สามารถรับคลัสเตอร์ที่แตกต่างกันขึ้นอยู่กับระดับที่ dendogram ถูกตัด
การแบ่งกลุ่มแบบแบ่งส่วนคืออะไร
อัลกอริธึมการทำคลัสเตอร์พาร์ติชั่นสร้างพาร์ติชั่นต่างๆ แล้วประเมินพาร์ติชั่นตามเกณฑ์พวกเขายังถูกอ้างถึงเป็น nonhierarchical เนื่องจากแต่ละอินสแตนซ์ถูกวางไว้ในหนึ่งใน k คลัสเตอร์ที่ไม่เกิดร่วมกัน เนื่องจากคลัสเตอร์เพียงชุดเดียวเท่านั้นที่เป็นเอาต์พุตของอัลกอริธึมการทำคลัสเตอร์แบบแบ่งพาร์ติชันทั่วไป ผู้ใช้จึงต้องป้อนจำนวนคลัสเตอร์ที่ต้องการ (ปกติเรียกว่า k) อัลกอริธึมการทำคลัสเตอร์แบบแบ่งพาร์ติชันที่ใช้กันมากที่สุดอย่างหนึ่งคืออัลกอริธึมการจัดกลุ่มแบบ k-mean ผู้ใช้จำเป็นต้องระบุจำนวนคลัสเตอร์ (k) ก่อนเริ่มต้น และอัลกอริทึมจะเริ่มต้นศูนย์กลาง (หรือ centroids) ของพาร์ติชัน k ก่อน โดยสรุป อัลกอริทึมการจัดกลุ่ม k-mean จะกำหนดสมาชิกตามศูนย์ปัจจุบันและประเมินศูนย์อีกครั้งตามสมาชิกปัจจุบัน ทั้งสองขั้นตอนนี้จะทำซ้ำจนกว่าฟังก์ชันวัตถุประสงค์ความคล้ายคลึงภายในคลัสเตอร์บางอย่างและฟังก์ชันวัตถุประสงค์ความแตกต่างระหว่างคลัสเตอร์จะได้รับการปรับให้เหมาะสม ดังนั้น การเริ่มต้นที่เหมาะสมของศูนย์จึงเป็นปัจจัยที่สำคัญมากในการได้ผลลัพธ์ที่มีคุณภาพจากอัลกอริธึมการจัดกลุ่มแบบแบ่งพาร์ติชัน
ความแตกต่างระหว่างการจัดกลุ่มแบบลำดับชั้นและแบบแบ่งส่วนคืออะไร
การจัดกลุ่มแบบลำดับชั้นและแบบแบ่งส่วนมีความแตกต่างที่สำคัญในด้านเวลาดำเนินการ สมมติฐาน พารามิเตอร์อินพุต และคลัสเตอร์ที่เป็นผลลัพธ์ โดยทั่วไป การทำคลัสเตอร์แบบแบ่งพาร์ติชันจะเร็วกว่าการทำคลัสเตอร์แบบลำดับชั้น การจัดกลุ่มแบบลำดับชั้นต้องการเพียงการวัดความคล้ายคลึงกัน ในขณะที่การแบ่งกลุ่มแบบแบ่งพาร์ติชันต้องใช้สมมติฐานที่เข้มงวดกว่า เช่น จำนวนคลัสเตอร์และศูนย์เริ่มต้น การทำคลัสเตอร์แบบลำดับชั้นไม่ต้องการพารามิเตอร์อินพุตใดๆ ในขณะที่อัลกอริทึมการทำคลัสเตอร์แบบแบ่งพาร์ติชันต้องการจำนวนคลัสเตอร์เพื่อเริ่มทำงาน การจัดกลุ่มแบบลำดับชั้นจะส่งกลับการแบ่งกลุ่มที่มีความหมายและเป็นอัตนัยมากกว่ามาก แต่การจัดกลุ่มแบบแบ่งพาร์ติชันจะส่งผลให้มี k คลัสเตอร์พอดี อัลกอริธึมการจัดกลุ่มตามลำดับชั้นมีความเหมาะสมมากกว่าสำหรับข้อมูลที่เป็นหมวดหมู่ ตราบใดที่สามารถกำหนดการวัดความคล้ายคลึงกันได้