معماری داده کاوی

داده کاوی راهی برای یافتن و کشف الگوهای پایه یا سطح پیشرفته در مجموعه پیچیده ای از مجموعه داده های بزرگ است که شامل روش های قرار گرفته در تقاطع آمار، یادگیری ماشین و سیستم های پایگاه داده است. داده کاوی می تواند یک رشته ی میان رشته ای آمار و علوم رایانه باشد که هدف آن استخراج اطلاعات با استفاده از روش ها و تکنیک های هوشمند از مجموعه خاصی از داده ها از طریق استخراج و در نتیجه تبدیل دادهها است. همچنین فعالیت های مدیریت داده ها و فعالیت های پیش پردازش داده ها و ملاحظات استنباطی نیز در نظر گرفته می شوند. در این مقاله، ما عمیقاً وارد معماری داده کاوی می شویم.

معماری داده کاوی

داده کاوی تکنیکی برای استخراج دانش از مجموعه ای از حجم عظیمی از داده های ذخیره شده در بسیاری از منابع داده مانند سیستم فایل ها، انبارهای داده و پایگاه های داده است. اجزای اصلی معماری داده کاوی شامل –

 

نمودار معماری داده کاوی

1. منابع داده

تنوع زیادی از اسناد موجود مانند انبار داده، پایگاه داده، www یا به طور عامیانه تحت عنوان وب گسترده جهانی به منابع واقعی داده تبدیل می شود. در بیش تر مواقع، ممکن است داده ها در هیچ یک از این منابع طلایی موجود نباشند، بلکه فقط در قالب فایلهای متنی، فایل های ساده یا فایل های توالی یا صفحات گسترده وجود داشته باشد و سپس پردازش اطلاعات باید به شیوه ای مشابه انجام شود، زیرا پردازش بر اساس داده های دریافت شده از منابع طلایی انجام می شود. بخش عمده ای از داده های امروزی از اینترنت یا شبکه جهانی اینترنت به دست می آید، زیرا هر چیزی که امروزه در اینترنت وجود دارد، داده هایی است که به نوعی شکل دیگری از واحدهای مخزن اطلاعات را تشکیل می دهند.

قبل از پردازش داده ها، فرآیندهای مختلفی شامل پاکسازی، یکپارچه سازی و انتخاب داده ها طی می شود تا این که سرانجام اطلاعات به پایگاه داده یا سرور EDW (انبار داده های سازمانی) منتقل شود. چالش اصلی این مجموعه داده ها، منابع مختلف و مجموعه گسترده ای از فرمت های داده است که اجزای داده را تشکیل می دهند. بنابراین داده ها را نمی توان مستقیماً برای پردازش در حالت ساده خود مورد استفاده قرار داد، بلکه می توان آن ها را به شیوه ای بسیار کاربردی تر پردازش، تبدیل و ایجاد کرد. به این ترتیب، قابلیت اطمینان و کامل بودن داده ها نیز تضمین می شود. گام اولیه شامل جمع آوری داده ها، منظم کردن و یکپارچه سازی و ارسال اطلاعات مرتبط است. همه این فعالیت ها بخشی از مجموعه ای جداگانه از ابزارها و تکنیک ها را تشکیل می دهند.

2. سرور انبار داده یا پایگاه داده

سرور پایگاه داده فضای واقعی است که در آن داده ها پس از دریافت از منابع مختلف داده ها در آن قرار دارند. سرور شامل مجموعه ای واقعی از داده ها است که آماده پردازش می شوند و بنابراین سرور بازیابی اطلاعات را مدیریت می کند. همه این فعالیت ها بر اساس درخواست داده کاوی شخص انجام می شود.

3. موتور داده کاوی

در داده کاوی موتور جزء اصلی را تشکیل می دهد و حیاتی ترین بخش است، یا می توان گفت نیروی محرکه ای است که به همه درخواست ها رسیدگی می کند و آنها را مدیریت می کند و شامل چندین ماژول است. تعدادی از ماژول های موجود شامل استخراج وظایف مانند تکنیک طبقه بندی، تکنیک ارتباط، تکنیک رگرسیون، توصیف، پیش بینی و خوشه بندی، تجزیه و تحلیل سری های زمانی، بیز ساده، ماشین های بردار پشتیبانی، روش های مجموعه، تکنیک های تقویت و جمع آوری، جنگل های تصادفی، درختان تصمیم و ... است.

4. ماژول های ارزیابی الگو

این تکنیک ارزیابی ماژول ها عمدتا مسئول اندازه گیری میزان مشغولیت تمام الگوهایی است که برای محاسبه سطح پایه مقدار آستانه استفاده می شود و برای تعامل با موتور داده کاوی برای هماهنگی در ارزیابی سایر ماژول ها استفاده می شود. هدف اصلی این جزء بررسی و جستجوی همه الگوهای قابل استفاده است که می تواند داده ها را با کیفیتی نسبتا بهتر بسازد.

5. رابط کاربر گرافیکی

هنگامی که داده ها با موتورها ارتباط برقرار می کنند و در بین الگوهای مختلف ارزیابی ماژول ها، تعامل با اجزای مختلف موجود و کاربرپسندتر ساختن آن ضروری می شود تا بتوان از همه اجزای موجود استفاده کارآمد و موثر کرد و بنابراین نیاز به یک رابط کاربری گرافیکی که به عنوان GUI معروف است، ایجاد می شود.

از این روش برای ایجاد تماس بین کاربر و سیستم داده کاوی استفاده می شود، در نتیجه به کاربران کمک می کند تا به طور موثر و آسان از سیستم استفاده کرده و از آن بهره مند شوند تا از هرگونه پیچیدگی ناشی از این فرآیند جلوگیری شود.

این روش نوعی انتزاع است که در آن فقط اجزای مربوطه به کاربران نمایش داده می شود. همه پیچیدگی ها و عملکردهای مسئول ایجاد سیستم برای سادگی پنهان شده است. هر زمان که کاربر یک پرس و جو ارسال می کند، ماژول با مجموعه کلی یک سیستم داده کاوی تعامل می کند تا خروجی مربوطه ای را که به راحتی قابل فهم تر است به کاربر نشان دهد.

6. پایگاه دانش

پایگاه دانش مولفه ای است که اساس فرآیند داده کاوی کلی را تشکیل می دهد، زیرا در زمینه هدایت جستجو یا ارزیابی مشغولیت الگوهای شکل گرفته کمک می کند. این پایگاه دانش شامل باور کاربر و داده های به دست آمده از تجربیات کاربر است که در فرایند داده کاوی مفید است. موتور ممکن است مجموعه ورودی خود را از پایگاه دانش ایجاد شده دریافت کند، در نتیجه نتایج کارآمدتر، دقیق و قابل اطمینان تری را ارائه می دهد.

داده کاوی یکی از مهم ترین تکنیک های امروزی است که به مدیریت داده ها و پردازش داده ها که بخش اصلی هر سازمان را تشکیل می دهد، می پردازد. تجزیه و تحلیل داده ها در هر سازمان نتایج مثمر ثمر می دهد. هر جزء از تکنیک و معماری داده کاوی، روش خاص خود را برای انجام مسئولیت ها و تکمیل کارآمد داده کاوی دارد. ماژول های مختلف برای تعامل صحیح برای تولید یک نتیجه ارزشمند و تکمیل موفقیت آمیز روش پیچیده داده کاوی با ارائه مجموعه ای مناسب از اطلاعات به کسب و کار مورد نیاز است.

 

https://www.educba.com/data-mining-architecture/

دیدگاه ها

هیچ دیدگاهی تا به این لحظه در این صفحه ثبت نشده است

دیدگاه خود را در مورد این مطلب بیان کنید.




مشاوره آنلاین