การขุดข้อมูลเทียบกับคลังข้อมูล
การทำเหมืองข้อมูลและคลังข้อมูลเป็นทั้งเทคนิคที่ทรงพลังและเป็นที่นิยมสำหรับการวิเคราะห์ข้อมูล ผู้ใช้ที่มีความโน้มเอียงไปทางสถิติใช้ Data Mining พวกเขาใช้แบบจำลองทางสถิติเพื่อค้นหารูปแบบที่ซ่อนอยู่ในข้อมูล นักขุดข้อมูลสนใจที่จะค้นหาความสัมพันธ์ที่เป็นประโยชน์ระหว่างองค์ประกอบข้อมูลต่างๆ ซึ่งท้ายที่สุดแล้วจะสร้างผลกำไรให้กับธุรกิจ แต่ในทางกลับกัน ผู้เชี่ยวชาญด้านข้อมูลที่สามารถวิเคราะห์มิติของธุรกิจได้โดยตรงมักจะใช้คลังข้อมูล
การขุดข้อมูลเรียกอีกอย่างว่าการค้นพบความรู้ในข้อมูล (KDD) ดังที่ได้กล่าวมาแล้ว เป็นสาขาวิชาวิทยาการคอมพิวเตอร์ที่เกี่ยวข้องกับการดึงข้อมูลดิบที่ไม่ทราบมาก่อนและน่าสนใจจากข้อมูลดิบเนื่องจากการเติบโตแบบทวีคูณของข้อมูล โดยเฉพาะอย่างยิ่งในด้านต่าง ๆ เช่น ธุรกิจ การทำเหมืองข้อมูลได้กลายเป็นเครื่องมือที่สำคัญมากในการแปลงข้อมูลจำนวนมากนี้เป็นข่าวกรองธุรกิจ เนื่องจากดูเหมือนว่าการดึงรูปแบบด้วยตนเองจะเป็นไปไม่ได้ในช่วงสองสามทศวรรษที่ผ่านมา ตัวอย่างเช่น ปัจจุบันมีการใช้แอปพลิเคชันต่างๆ เช่น การวิเคราะห์เครือข่ายสังคม การตรวจจับการฉ้อโกง และการตลาด การทำเหมืองข้อมูลมักจะเกี่ยวข้องกับงานสี่อย่างต่อไปนี้: การจัดกลุ่ม การจำแนก การถดถอย และการเชื่อมโยง การทำคลัสเตอร์กำลังระบุกลุ่มที่คล้ายกันจากข้อมูลที่ไม่มีโครงสร้าง การจัดประเภทเป็นกฎการเรียนรู้ที่สามารถนำไปใช้กับข้อมูลใหม่ได้ และโดยทั่วไปจะรวมถึงขั้นตอนต่อไปนี้: การประมวลผลข้อมูลล่วงหน้า การออกแบบแบบจำลอง การเลือกการเรียนรู้/คุณสมบัติ และการประเมิน/การตรวจสอบ การถดถอยคือการค้นหาฟังก์ชันที่มีข้อผิดพลาดน้อยที่สุดในข้อมูลแบบจำลอง และความสัมพันธ์กำลังมองหาความสัมพันธ์ระหว่างตัวแปร การทำเหมืองข้อมูลมักใช้เพื่อตอบคำถามเช่น ผลิตภัณฑ์หลักที่อาจช่วยให้ได้รับผลกำไรสูงใน Wal-Mart ในปีหน้าคืออะไร
ดังที่กล่าวไว้ข้างต้น Data warehousing ยังใช้สำหรับวิเคราะห์ข้อมูล แต่โดยกลุ่มผู้ใช้ที่แตกต่างกันและมีเป้าหมายที่แตกต่างกันเล็กน้อยในใจ ตัวอย่างเช่น เมื่อพูดถึงภาคการค้าปลีก ผู้ใช้คลังข้อมูลมีความกังวลมากขึ้นว่าการซื้อประเภทใดที่ได้รับความนิยมในหมู่ลูกค้า ดังนั้นผลการวิเคราะห์สามารถช่วยลูกค้าด้วยการปรับปรุงประสบการณ์ของลูกค้า แต่ก่อนอื่น นักขุดข้อมูลจะคาดเดาสมมติฐาน เช่น ลูกค้ารายใดที่ซื้อผลิตภัณฑ์บางประเภท และวิเคราะห์ข้อมูลเพื่อทดสอบสมมติฐาน คลังข้อมูลสามารถดำเนินการโดยผู้ค้าปลีกรายใหญ่ซึ่งเริ่มสต็อกร้านค้าของตนด้วยผลิตภัณฑ์ขนาดเดียวกัน เพื่อค้นหาในภายหลังว่าร้านค้าในนิวยอร์กขายสินค้าคงคลังที่มีขนาดเล็กกว่าได้เร็วกว่าร้านค้าในชิคาโกมาก ดังนั้น เมื่อดูจากผลลัพธ์นี้ ผู้ค้าปลีกจะสามารถสต็อกร้านในนิวยอร์กด้วยขนาดที่เล็กกว่าเมื่อเทียบกับร้านในชิคาโก
ดังนั้น อย่างที่คุณเห็นอย่างชัดเจน การวิเคราะห์ทั้งสองประเภทนี้ดูเหมือนจะมีลักษณะเหมือนกันด้วยตาเปล่าทั้งคู่กังวลเกี่ยวกับการเพิ่มผลกำไรตามข้อมูลในอดีต แต่แน่นอนว่ามีความแตกต่างที่สำคัญ พูดง่ายๆ ก็คือ Data Mining และ Data Warehousing ทุ่มเทให้กับการวิเคราะห์ประเภทต่างๆ แต่แน่นอนว่าสำหรับผู้ใช้ประเภทต่างๆ กล่าวอีกนัยหนึ่ง Data Mining มองหาสหสัมพันธ์ ตบมือเพื่อสนับสนุนสมมติฐานทางสถิติ แต่ Data Warehousing ตอบคำถามที่ค่อนข้างกว้างกว่า และแยกส่วนข้อมูลจากที่นั่นเป็นต้นไปเพื่อให้ทราบแนวทางในการปรับปรุงในอนาคต