چکیده مقاله معماری توزیع شده برای داده کاوی و ادغام
این مقاله یک روش جدید جهت پشتیبانی از افزایش مقیاس (اندازه) Data mining and integration ارائه می کند. در واقع ترکیب Data mining and integration و دستیابی داده در یک framework (چهارچوب کاری) را پیشنهاد می کند. که ما آنرا فعالیت ترکیبی “DMI” می نامیم.برقراری فرایندهای DMI را در طی منابع داده توزیع شده ناهمگون و سرویس های miningپشتیبانی می کند.بین امکانات تاسیس شده برای پشتیبانی از تعریف فرایندهای DMI و تخمین زیرساخت فراهم شده جهت استقرار و ایفای نقش فرایندهای DMI ، یک تقسیم بندی مفید مطرح می کند.
ارتباط بین آن دو بخش به درخواستهای واگذار شده به سرویسهای gateway در یک زبان canonical DMI محدود شده است.با تصحیح و پالایش افزایشی تعاریف فرایند DMI توسط ترکیب مجدد تعاریف سطح پایینتر، فرایندهایی با مقیاس بزرگتر تهیه شده اند. تکامل تدریجی استقلال منابع داده و سرویس ها توسط انواع و توصیفات پشتیبانی می شود که خود کشف همگونی ها و درج نیمه اتوماتیک تطبیق را پشتیبانی خواهد کرد.این ایده های معماری ، در یک مطالعه علمی که یک سناریوی کاربردی و معرف جامعه را در برمی گیرد، ارزیابی شده اند.
مقدمه ای بر داده کاوی:
امروزه با گسترش سيستم هاي پايگاهي و حجم بالاي داده ها ي ذخيره شده در اين سيستم ها ، نياز به ابزاري است تا بتوان داده هاي ذخيره شده پردازش کرد و اطلاعات حاصل از اين پردازش را در اختيار کاربران قرار داد .
با استفاده ار پرسش هاي ساده در SQL و ابزارهاي گوناگون گزارش گيري معمولي ، مي توان اطلاعاتي را در اختيار کاربران قرار داد تا بتوانند به نتيجه گيري در مورد داده ها و روابط منطقي ميان آنها بپردازند اما وقتي که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمي توانند الگوهاي مفيد را در ميان حجم انبوه داده ها تشخيص دهند و يا اگر قادر به اين کار هم با شند ، هزينه عمليات از نظر نيروي انساني و مادي بسيار بالا است .
از سوي ديگر کاربران معمولا فرضيه اي را مطرح مي کنند و سپس بر اساس گزارشات مشاهده شده به اثبات يا رد فرضيه مي پردازند ، در حالي که امروزه نياز به روشهايي است که اصطلاحا به کشف دانش بپردازند يعني با کمترين دخالت کاربر و به صورت خودکار الگوها و رابطه هاي منطقي را بيان نمايند.
داده کاوی يکي از مهمترين اين روشها است که به وسيله آن الگوهاي مفيد در داده ها با حداقل دخالت کاربران شناخته مي شوند و اطلاعاتي را در اختيار کاربران و تحليل گران قرار مي دهند تا براساس آنها تصميمات مهم و حياتي در سازمانها اتخاذ شوند.
در داده کاوي از بخشي از علم آمار به نام تحليل اکتشافي داده ها استفاده مي شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکيد مي شود . علاوه بر اين داده کاوي با هوش مصنوعي و يادگيري ماشين نيز ارتباط تنگاتنگي دارد ، بنابراين مي توان گفت در داده کاوي تئوريهاي پايگاه داده ها ، هوش مصنوعي ، يادگيري ماشين و علم آمار را در هم مي آميزند تا زمينه کاربردي فراهم شود.
بايد توجه داشت که اصطلاح داده کاوي زماني به کار برده مي شود که با حجم بزرگي از داده ها ، در حد مگا يا ترابايت ، مواجه باشيم . در تمامي منابع داده کاوي بر اين مطلب تاکيد شده است.
هر چه حجم داده ها بيشتر و روابط ميان آنها پيچيده تر باشد دسترسي به اطلاعات نهفته در ميان داده ها مشکلتر مي شود و نقش داده کاوي به عنوان يکي از روشهاي کشف دانش ، روشن تر مي گردد.
مفاهيم پايه در داده کاوي
در داده کاوي معمولا به کشف الگوهاي مفيد از ميان داده ها اشاره مي شود . منظور از الگوي مفيد ، مدلي در داده ها است که ارتباط ميان يک زير مجموعه از داده ها را توصيف مي کند و معتبر ، ساده ، قابل فهم و جديد است.
داده کاوی توزيع شده
داده کاوی توزيع شده عبارت است از کشف نيمه خودکار الگوهای پنهان موجود در داده ها، در حالتی که داده ها و يا مکانيزمهای استنتاج، به صورت توزيع شده باشند. غيرمتمرکز بودن داده ها بدان معناست که داده ها به صورت توزيع شده بين دو يا چند سايت بوده و هزينه انتقال تمام يا بخشی از داده ها به يک سايت مرکزی، قابل صرفنظر نباشد. توزيع شده بودن مکانيزمهای استنتاج، به معنای لزوم لحاظ کردن هزينه ارتباط بين مکانيزمهای مختلف در حال استخراج دانش می باشد.
اين توزيع شدگی ممکن است به دلايل مختلفی از جمله ارائه شدن مکانيزم استخراج دانش در قالب يک سرويس اينترنتی و يا صرفا ناشی از توزيع شدگی داده ها باشد. چنين رويکردی به داده کاوی، برخلاف جهت کلی تحقيقات انجام شده است که به طور عمده به تکنيکهای متمرکز پرداخته و نه فقط بر تمرکز، که بر همگونی و ساختار مسطح (در مقابل ساختار رابطه ای) داده های هدف متکی می باشند. مسائلی نظير استخراج دانش در حالت عدم دسترسی به تمام داده های موجود، برقراری ارتباط موثر و بهينه با ساير مکانيزمهای در حال استخراج دانش و نيز تبادل دانش يا اطلاعات ميانی به جای اطلاعات خام، فقط تعدادی از مسائل اوليه داده کاوی توزيع شده با توجه به تعريف آن می باشند.
بنابراين، داده کاوی توزيع شده در عين حال که به عنوان راه حلی کليدی برای مشکلات اصلی پيش روی داده کاوی مطرح می باشد، خود سرمنشاء چالشها و مسائل متعددی گرديده است؛ حل مؤثر اين مشکلات منجر به استفاده هرچه بيشتر از داده کاوی و ايجاد امکانات جديد و بهره-برداری از پتانسيلهای موجود در قلمروهائی خواهد شد که عليرغم نياز مبرم به داده کاوی، استفاده بسيار محدودی از آن به عمل می آورند. بحث داده کاوی توزيع شده بطور کلی از دو جهت قابل بررسی می باشد. اول حالتی که در آن داده ها بصورت همسان بين پايگاههای مختلف توزيع شده اند و داده های هر پايگاه تمام خصوصيات را دارا هستند.
در اينحالت داده ها ممکن است ذاتا توزيع شده باشند و يا اينکه داده ها متمرکز بدلايل امنيتی يا … بين پايگاههای مختلف تقسيم شده باشند. اصطلاحا به اين حالت تقسيم شدن، تقسيم شده بصورت افقی (Horizontally Partitioned) نيز گفته می شود که ما نيز در فاز دوم پروژه گونه ای از اين نوع توزيع شدگی را خواهيم ديد. حالت دوم حالتی است که در آن داده های موجود در هر پايگاه داده دارای خصوصيتهای مختلف می باشند. معمولا در اين موارد داده ها خود بين پايگاههای مختلف تقسيم گرديده اند و ذاتا توزيع شده نيستند.
از اينـــــرو به اينحالت تقسيم شـــــــده عمودی (Vertically Partitioned) نيز گفته می شود. برای ايجاد ارتباط بين خصوصيتهای مختلفی که در پايگاههای مختلف نگهداری می شوند اما متعلق به يک داده هستند، معمولا يک خصوصيت مشترک که بعنوان شناسه مورد استفاده قرار می گيرد، بين تمام پايگاههای مختلف نگهداری می شود که رکوردهای مختلف را بهم ارتباط می دهد.
در داده کاوی توزيع شده نيز مساله کشف و استخراج دانش مشابه داده-کاوی عادی در زمينه های خوشه بندی توزيع شده، کشف قواعد وابستگی بصورت توزيع شده و طبقه بندی توزيع شده (که با نام يادگيری توزيع شده طبقه بند هم از آن نام برده می شود) مورد تحقيق و بررسی قرار دارد،. ضمن اينکه در بحث داده کاوی توزيع شده، مساله مربوط به محرمانگی داده ها (Privacy Preserving) حتما بايد مدنظر قرار گيرد.
فرمت فایل: WORD
تعداد صفحات: 30
مطالب مرتبط