You are on page 1of 3

‫أدوات التنقيب عن البيانات مفتوحة املصدر‪ :‬دراسة حتليلية تقييمية‬ ‫‪111‬‬

‫تقدم هذه الدراسة بعض من أدوات التنقيب عن البيانات التجارية المتاحة‪،‬‬


‫مع أهم مالمحها‪ ،‬جنبا إلى جنب مع بعض االعتبارات التي تتعلق بتقييم أدوات‬
‫التنقيب عن البيانات بواسطة الشركات التي ترغب يف الحصول على مثل هذه النظم‪.‬‬
‫ومن أهم العوامل التي يجب على الشركات مراعاهتا كميات البيانات المتاحة‪،‬‬
‫وكيف يمكن تخزينها‪ ،‬ومهام التنقيب عن البيانات التي يجب تنفيذها‪ ،‬هذا ويجب‬
‫التنويه إلى أن تكلفة نظام التنقيب عن البيانات مهم للشركة‪ ،‬والتي لها تأثير محدود‬
‫على توسعة سوق منتجات التنقيب عن البيانات بالنسبة للشركات الصغيرة‪.‬‬
‫‪Qiu,M., Davis,S. and Ikem,F. (2004). Evaluation Of )3‬‬
‫‪Clustering Techniques In Data Mining Tools. Issues‬‬
‫‪in information systems, 7 (1): 254-260. Available at:‬‬
‫‪http://iacis.org/iis/2004/QiuDavisIkem.pdf‬‬
‫تقسم المجموعات الكثافة المتماثلة إلى عدد من المجموعات الفرعية‬
‫المتماثلة أو مجموعات تعكس قطاعات مجموعة البيانات مثل النماذج‪ .‬ويبين هذا‬
‫البحث كيف يمكن الطار تقييم الربامج أن يتناسب وتقييم أدوات التنقيب عن‬
‫البيانات التجارية لبيئة محددة من المستفيدين‪ .‬وتطبق هذه الدراسة تقييم أداتين‬
‫رئيستين من األدوات التجارية للتنقيب عن البيانات وهما‪SAS )EM( :‬‬
‫‪ Enterprise Miner‬و‪)IBM DB2 Intelligent Miner (IM‬‬
‫الستخدامهما يف البيئة الجامعية‪ .‬ولقد استخدم (‪ )2‬أربعة معايير لتقييم تقنيات‬
‫المجموعات يف أدوات التنقيب عن البيانات‪:‬‬
‫‪ )1‬األداء والمقصود به القدرة على معالجة مصادر بيانات مختلفة بطريقة‬
‫كفؤة‪ ،‬ويتمثل معيارها يف تركيب الربنامج‪ ،‬والوصول إلى البيانات المتجانس‪.‬‬
‫‪ )4‬الوظيفة‪ :‬القدرة على تضمين مجموعة من اإلمكانات والتقنيات والطرق‬
‫‪110‬‬ ‫د‪ .‬أمحد فايز أمحد سيد‬

‫للتنقيب عن البيانات‪ ،‬ومعاييرها‪ :‬تنوع الخوارزميات‪ ،‬منهجية تم وصفها مسبقا‪.‬‬


‫‪ )8‬االستخدام‪ :‬تتناسب مع مستويات وأنواع مختلفة من المستفيدين دون‬
‫فقد أي شيء من الوظيفة أو عدم الفائدة‪ ،‬ومعاييرها‪ :‬أنواع المستفيدين‪ ،‬وعرض‬
‫البيانات‪.‬‬
‫‪ )2‬دعم المهام المساعد‪ :‬يتيح للمستفيد القيام بتنظيف البيانات وتنميتها‬
‫وتحويلها وعرضها والكثير من المهام األخرى التي تدعم التنقيب عن البيانات‪،‬‬
‫ومعاييرها‪ :‬فلرتة البيانات‪ ،‬واشتقاق الخصائص‪.‬‬
‫‪Collier,K., Carey,B., Sautter,D., Marjaniemi,C.‬‬ ‫‪)5‬‬
‫‪(1999). A Methodology for Evaluating and Selecting Data‬‬
‫‪Mining Software. Proceedings of the 32nd Hawaii‬‬
‫‪International Conference on System Sciences. Available at:‬‬
‫‪http://www.computer.org/csdl/proceedings/hicss/1999/0‬‬
‫‪001/06/00016009.pdf‬‬
‫لقد تطور التنقيب عن البيانات والزال يتطور ودخل يف العديد من‬
‫الممارسات التجارية‪ ،‬إال أن برامج التنقيب عن البيانات الحالية وبرامج دعم القرار‬
‫مرتفعة السعر واختيار األداة الخطأ يؤدي إلى تكاليف باهظة بعدة طرق‪ ،‬لذا تحاول‬
‫هذه الورقة البحثية إلى تقديم اتجاه ومعلومات صنع القرار حول الممارسة المهنية‪،‬‬
‫وذلك من خالل تقديم إطار عمل لتقييم أدوات التنقيب عن البيانات ومنهجية‬
‫تصف هذا االطار‪ ،‬وتعرض الورقة البحثية يف النهاية دراسة حالة لعرض كفاءة‬
‫الطريقة‪ ،‬حيث تمثل هذه المنجية خربة أولية باستخدام العديد من أدوات التنقيب‬
‫عن البيانات الرائدة مقارنة بالبيانات التجارية يف مركز البيانات الداخلية بجامعة‬
‫شمال أريزونا ‪Insight (CDI) at Northern Arizona University‬‬
‫)‪ .Center for Data (NAU‬والجدير بالذكر أن هذه الورقة البحثية ليست‬
‫أدوات التنقيب عن البيانات مفتوحة املصدر‪ :‬دراسة حتليلية تقييمية‬ ‫‪116‬‬

‫مراجعة شاملة لألدوات التجارية وإنما تقدم طريقة ومرجع الختيار أفضل أداة‬
‫برمجية لمشكلة محددة‪ ،‬ولقد أوضحت الخربة أنه ليست هناك أفضل أداة للتنقيب‬
‫عن البيانات لكل األغراض‪ .‬ولقد تم تصميم هذه األداة لتتالءم مع االختالف يف‬
‫البيئات ونطاقات المشكلة‪ ،‬ومن المتوقع أن هذه المنهجية سيتم استخدامها لنشر‬
‫مقارنات األداة والنتائج المعيارية‪.‬‬
‫ويتبين من خالل الدراسات السابقة مدى اختالف الدراسة الحالية عنها‬
‫والتي يمكن توضيحها يف‪ :‬تركز الدراسة الحالية على توضيح بدايات التنقيب عن‬
‫البيانات وتطوره وعالقته بعلوم المكتبات والمعلومات‪ ،‬وتحليل أدوات التنقيب‬
‫عن البيانات مفتوحة المصدر وتقييمها‪ ،‬ولقد تم اختيار أنسب المعايير من بين عدة‬
‫دراسات حتى تتناسب والدراسة الحالية‪ ،‬كما تم الخروج بنتائج عدة يمكن من‬
‫خاللها تحديد أي من األدوات التي يمكن استخدامها للمبتدئين أو المتقدمين‬
‫تكنولوجيا‪ ،‬وأي المجاالت التي يمكن استخدامها‪.‬‬

‫المبحث األول‬
‫التنقيب عن البيانات‬
‫مفهومه‪ ,‬بداياته وتطوره‪ ,‬مهامه‪ ,‬أنواعه‪ ,‬تطبيقاته‬

‫‪ 0/7‬متريد‬
‫أدى التطور يف العلم واالقتصاد وتكنولوجيا المعلومات واالتصاالت إلى‬
‫زيادة كمية البيانات الرقمية‪ ،‬ومع هذه الكميات الهائلة من البيانات لم تعد وسائل‬
‫التحليل التقليدية (اإلحصائية مثال) قادرة على التعامل معها‪ .‬لذا ظهرت العديد من‬
‫الدراسات منذ أواخر الثمانيات يف محاولة لحل تلك المشكالت مع البحث عن‬
‫حلول تجمع بين عدة تخصصات سواء كانت اإلحصاءات أو قواعد البيانات‬

You might also like