تکنیک های داده کاوی

در این مبحث ما با تکنیک های داده کاوی آشنا می شویم. با پیشرفت فناوری اطلاعات، تعداد زیادی پایگاه داده در زمینه های مختلف ایجاد شده است. در نتیجه، نیاز به ذخیره و تغییر در داده های مهم، که بعداً می توان از آن ها برای تصمیم گیری و بهبود فعالیت های کسب و کار استفاده کرد، وجود دارد.

داده کاوی چیست؟

 فرآیندی جهت  استخراج اطلاعات و الگوهای مفید از داده های عظیم است که شامل جمع آوری، استخراج، تجزیه و تحلیل و آمار داده ها است. همچنین به عنوان فرآیند کشف دانش، استخراج دانش از داده ها یا تجزیه و تحلیل داده ها / الگوها شناخته می شود. داده کاوی یک فرآیند منطقی برای یافتن اطلاعات و داده های مفید است. هنگامی که ورودی و طرح ها پیدا شد، می توان از آن برای توسعه کسب و کار استفاده کرد. ابزارهای داده کاوی می توانند به سوالات مختلف مربوط به کسب و کار شما، که حل آن ها بسیار مشکل بود، پاسخ دهند. آن ها همچنین روندهای آینده را پیش بینی می کنند که به تجار اجازه می دهد تصمیمات پیشگیرانه بگیرند.

داده کاوی شامل سه مرحله است:

    اکتشاف - در این مرحله، داده ها پاک شده و به شکل دیگری تبدیل می شوند. ماهیت اطلاعات نیز مشخص می شود.

    شناسایی الگو - مرحله بعدی انتخاب الگویی است که بهترین پیش بینی را انجام دهد

    استقرار - الگوهای شناسایی شده برای به دست آوردن نتیجه مطلوب استفاده می شود.

مزایای داده کاوی

در ادامه به بررسی مزایای داده کاوی می پردازیم:

  • پیش بینی خودکار روندها و رفتارها

    می توان آن را بر روی سیستم های جدید و همچنین سیستم عامل های موجود پیاده سازی کرد.

    این روش می تواند پایگاه داده های عظیم را در عرض چند دقیقه تجزیه و تحلیل کند.

  • کشف خودکار الگوهای پنهان

    مدل های زیادی برای درک سریع داده های پیچیده وجود دارد.

 چون سرعت بالایی دارد، بنابراین تجزیه و تحلیل حجم عظیمی از داده ها در زمان کمتر برای کاربران آسان می شود.

داده کاوی امکان پیش بینی های بهتری را به همراه دارد.

فهرست 7 تکنیک مهم داده کاوی

یکی از مهم ترین وظایف در داده کاوی، انتخاب روش صحیح داده کاوی است. تکنیک داده کاوی باید بر اساس نوع مشاغل و مشکلی که کسب و کار شما با آن روبرو است انتخاب شود. برای بهبود دقت و مقرون به صرفه بودن استفاده از تکنیک های داده کاوی، باید از رویکردی عمومی استفاده کرد. اساساً هفت تکنیک اصلی داده کاوی وجود دارد که در این مقاله مورد بحث قرار گرفته است. همچنین بسیاری از تکنیک های داده کاوی وجود دارد، اما این هفت روش بیش تر مورد استفاده افراد تجاری قرار می گیرد.

  1. آمار
  2. خوشه بندی
  3. تجسم
  4. درخت تصمیم گیری
  5. قوانین انجمن
  6. شبکه های عصبی
  7. طبقه بندی

1. تکنیک های آماری

تکنیک های آماری درداده کاوی ،شاخه ای از ریاضیات است که به جمع آوری و توصیف داده ها مربوط می شود. تکنیک آماری به عنوان یک تکنیک داده کاوی توسط بسیاری از تحلیل گران در نظر گرفته نشده است. اما با این وجود، به کشف الگوها و ایجاد مدل های پیش بینی کننده کمک می کند. به همین دلیل، تحلیل گران داده باید در مورد تکنیک های مختلف آماری اطلاعاتی داشته باشند. در دنیای امروز، مردم باید با داده های زیادی سر و کار داشته باشند و الگوهای مهمی را از آن استخراج کنند. آمار می تواند به شما کمک کند تا به سوالات مربوط به داده های آن ها پاسخ دهید.

    راه های موجود در پایگاه داده چیست؟

    احتمال وقوع یک رویداد چقدر است؟

    کدام الگوها برای کسب و کار مفیدتر است؟

    خلاصه بخش بالا چیست آیا می تواند نمای مفصلی از آنچه در پایگاه داده وجود دارد به شما ارائه دهد؟

آمار نه تنها به این سوالات پاسخ می دهد بلکه به جمع بندی داده ها و شمارش آن ها نیز کمک می کند. همچنین در ارائه اطلاعات در مورد داده ها به راحتی کمک می کند. از طریق گزارش های آماری، افراد می توانند تصمیمات هوشمندانه ای بگیرند. اشکال مختلفی از آمار وجود دارد، اما مهم ترین و مفیدترین تکنیک، جمع آوری و شمارش داده ها است. روش های زیادی برای جمع آوری داده ها وجود دارد مانند:

  • هیستوگرام
  • منظور داشتن
  • میانه
  • حالت
  • واریانس
  • حداکثر
  • حداقل
  • رگرسیون خطی

2. تکنیک خوشه بندی

خوشه بندی یکی از قدیمی ترین تکنیک های مورد استفاده در داده کاوی است. تجزیه خوشه ای، فرآیند شناسایی داده هایی است که مشابه یکدیگر هستند. این تکنیک به درک تفاوت ها و شباهت های بین داده ها کمک می کند. این امر گاهی اوقات تقسیم بندی نامیده می شود و به کاربران اجازه می دهد تا درک کنند که در پایگاه داده چه می گذرد. به عنوان مثال، یک شرکت بیمه می تواند مشتریان خود را بر اساس درآمد، سن، ماهیت بیمه نامه و نوع مطالبات گروه بندی کند.

انواع مختلفی از روش های خوشه بندی وجود دارد که به شرح زیر است:

  • روش های تقسیم بندی
  • روش های تجمیع سلسله مراتبی
  • روش های مبتنی بر تراکم
  • روش های مبتنی بر شبکه
  • روش های مبتنی بر مدل

محبوب ترین الگوریتم خوشه ای، تکنیک نزدیک ترین همسایه است. تکنیک نزدیک ترین همسایه بسیار شبیه خوشه بندی است. این تکنیک یک روش پیش بینی، برای پیش بینی مقدار تخمینی در یک رکورد برای پرونده هایی با مقادیر تخمینی مشابه در یک پایگاه داده تاریخی و استفاده از مقدار پیش بینی از فرم در نزدیکی سند طبقه بندی نشده است.

این تکنیک بیان می کند که اجسامی که به یکدیگر نزدیک تر هستند دارای ارزش پیش بینی مشابه هستند. از طریق این روش، شما به راحتی می توانید اهمیت نزدیک ترین اقلام را به سرعت پیش بینی کنید. نزدیک ترین همسایه ساده ترین روش برای استفاده از این تکنیک است، زیرا آن ها مطابق افکار مردم عمل می کنند. از نظر اتوماسیون نیز بسیار خوب کار می کنند. آن ها محاسبات پیچیده ROI را با سهولت انجام می دهند. سطح دقت در این تکنیک به اندازه سایر تکنیک های داده کاوی خوب است.

در تجارت، تکنیک Nearest Neighbor بیش تر در فرآیند بازیابی متن استفاده می شود. از آن ها برای یافتن اسنادی استفاده می شود که ویژگی های مهم  سند اصلی که به عنوان عناصر موثر مشخص شده اند را دارا هستند.

3. تجسم

تجسم مفیدترین تکنیکی است که برای کشف الگوهای داده استفاده می شود. این تکنیک در ابتدای فرآیند داده کاوی استفاده می شود. انواع مختلفی از تحقیقات این روزها در حال انجام است تا یک طرح جالب از پایگاه های داده به نام Projection Pursuit (تولید پروژه) را تولید کند. بسیاری از تکنیک های داده کاوی وجود دارد که الگوهای مفیدی برای داده ها خواهد داشت. اما تجسم یک تکنیک است که داده های ضعیف را به داده های مفید تبدیل می کند و به انواع روش های داده کاوی اجازه می دهد تا در کشف الگوهای پنهان استفاده شوند.

4. تکنیک درخت تصمیم گیری القایی

یک درخت تصمیم یک مدل پیش بینی کننده است و نام این تکنیک نشان می دهد که شبیه یک درخت است. در این تکنیک، به هر شاخه درخت به عنوان یک سوال طبقه بندی شده نگاه می شود. برگ درختان به عنوان پارتیشن مجموعه داده مربوط به آن طبقه بندی خاص در نظر گرفته می شود. این تکنیک می تواند برای تجزیه و تحلیل اکتشاف، پیش پردازش داده ها و کارهای پیش بینی استفاده شود.

درخت تصمیم را می توان تقسیم بندی مجموعه داده اصلی در نظر گرفت که در آن تقسیم بندی به دلایل خاصی انجام می شود. هر داده ای که تحت یک بخش قرار می گیرد، شباهت هایی با اطلاعات پیش بینی شده دارد. درخت تصمیم گیری نتایجی را ارائه می دهد که کاربر می تواند به راحتی آن ها را درک کند.

آمارشناسان عمدتا از تکنیک درخت تصمیم، برای پیدا کردن پایگاه داده هایی که بیش تر با مشکل کسب و کار مرتبط هستند، استفاده می کنند. از تکنیک درخت تصمیم می توان برای پیش بینی و پیش پردازش داده ها استفاده کرد.

اولین و مهم ترین قدم در این تکنیک رشد درخت است. اساس رشد درخت بستگی به یافتن بهترین سوال ممکن برای هر شاخه درخت دارد. درخت تصمیم در هر یک از شرایط زیر رشد خود را متوقف می کند.

  • اگر بخش فقط شامل یک رکورد باشد
  • همه پرونده ها دارای ویژگی های یکسان باشند
  • رشد به اندازه کافی نباشد

CART که مخفف Classification and Regression Trees است، یک الگوریتم اکتشاف و پیش بینی داده است که سوالات را پیچیده تر انتخاب می کند. همه آن ها را امتحان می کند و سپس بهترین سوال را انتخاب می کند که برای تقسیم داده ها به دو یا چند بخش استفاده می شود. پس از تصمیم گیری در مورد جزئیات، مجدداً در مورد هر یک از عناصر جدید به طور جداگانه سوال می کند.

یکی دیگر از فن آوری های رایج درخت تصمیم CHAID (Chi-Square Automatic Interaction Detector) است. شبیه CART است، اما از یک جهت متفاوت است. CART در انتخاب بهترین سوالات کمک می کند، در حالی که CHAID در انتخاب انشعاب ها کمک می کند.

5. شبکه عصبی

شبکه عصبی یکی دیگر از تکنیک های مهم است که مردم این روزها از آن استفاده می کنند. این تکنیک بیشتر در مراحل اولیه فناوری داده کاوی استفاده می شود. شبکه عصبی مصنوعی خارج از جامعه هوش مصنوعی شکل گرفته است.

استفاده از شبکه های عصبی بسیار ساده است زیرا تا حدودی خودکار هستند. به همین دلیل، انتظار نمی رود که کاربر اطلاعات زیادی در مورد کار یا پایگاه داده داشته باشد. اما برای اینکه شبکه عصبی به طور موثر کار کند، باید بدانید:

  • گره ها چگونه به هم متصل می شوند؟
  • چند واحد پردازشی مورد استفاده قرار می گیرد؟
  • چه زمانی باید روند آموزش متوقف شود؟

دو بخش اصلی  دراین تکنیک وجود دارد:  گره و پیوند.

    گره - که آزادانه با نورون مغز انسان مطابقت دارد.

    پیوند - که آزادانه با اتصالات بین نورون های مغز انسان مطابقت دارد.

شبکه عصبی مجموعه ای از نورون های به هم پیوسته است که یک لایه یا چند لایه را تشکیل می دهند. به تشکیل نورون ها و پیوندهای متقابل آن ها معماری شبکه می گویند. مدل های شبکه عصبی زیادی وجود دارد و هر مدل مزایا و معایب خاص خود را دارد. هر مدل شبکه عصبی دارای معماری متفاوتی است و این معماری از روش های یادگیری دیگری استفاده می کند.

شبکه های عصبی یک تکنیک مدل سازی قدرتمند پیش بینی هستند. اما درک آن حتی توسط متخصصان چندان آسان نیست. شبکه های عصبی مدل های بسیار پیچیده ای ایجاد می کند که درک کامل آن ها غیرممکن است. بنابراین، برای درک روش های شبکه عصبی، شرکت ها در حال یافتن راه حل های جدید هستند. دو راه حل قبلاً پیشنهاد شده است.

  • اولین راه حل این است که شبکه عصبی در یک راه حل کامل بسته بندی شده است که اجازه می دهد از آن برای یک برنامه واحد استفاده شود.
  • راه حل دوم این است که با خدمات مشاوره تخصصی ارتباط برقرار کند.

شبکه عصبی در انواع مختلف برنامه ها مورد استفاده قرار گرفته است. شبکه های عصبی در کسب و کار برای شناسایی کلاهبرداری هایی که در صنعت رخ می دهد استفاده شده است.

6. تکنیک قانون انجمن

این تکنیک به یافتن ارتباط بین دو یا چند مورد کمک می کند. این تکنیک به شناخت روابط بین متغیرهای مختلف در پایگاه داده کمک می کند. این تکنیک، الگوهای پنهان در مجموعه داده های مورد استفاده برای شناسایی متغیرها و وقوع مکرر سایر متغیرها با بالاترین فرکانس را کشف می کند.

قانون انجمن دو بخش اصلی اطلاعات را ارائه می دهد.

    پشتیبانی - غالباً این قانون اعمال می شود؟

    اعتماد - هر چند وقت یکبار این قانون درست است؟

این تکنیک یک فرآیند دو مرحله ای را دنبال می کند.

  • همه مجموعه داده های مکرر را پیدا کنید.
  • از مجموعه داده های مکرر، قوانین ارتباط قوی ایجاد کنید

سه نوع قوانین انجمن وجود دارد :

  • قانون انجمن چند سطحی
  • قانون انجمن چند بعدی
  • قانون کمی کمیسیون

این تکنیک اغلب در صنعت خرده فروشی برای یافتن الگوهای فروش استفاده می شود. این تکنیک به افزایش نرخ تبدیل و در نتیجه افزایش سود کمک می کند.

7. طبقه بندی

طبقه بندی تکنیک های داده کاوی رایج ترین تکنیک داده کاوی با مجموعه ای از نمونه های از پیش طبقه بندی شده برای ایجاد مدلی است که می تواند گروه بزرگی از داده ها را طبقه بندی کند. این تکنیک در استخراج اطلاعات مهم در مورد داده ها و فراداده (داده در مورد داده ها) کمک می کند. این تکنیک ارتباط تنگاتنگی با تکنیک تجزیه خوشه ای دارد و از درخت تصمیم یا سیستم شبکه عصبی استفاده می کند. در این تکنیک دو فرایند اصلی دخیل است

    یادگیری - در این فرایند داده ها توسط الگوریتم طبقه بندی تجزیه و تحلیل می شوند.

    طبقه بندی - در این فرایند ، از داده ها برای اندازه گیری دقت قوانین طبقه بندی استفاده می شود.

انواع مختلفی از مدل های طبقه بندی وجود دارد که به شرح زیر است:

  • طبقه بندی با القای درخت تصمیم
  • طبقه بندی بیزی
  • شبکه های عصبی
  • پشتیبانی از ماشین های بردار (SVM)
  • طبقه بندی بر اساس انجمن ها

یک مثال خوب از روش طبقه بندی ارائه دهنده ایمیل است.

نتیجه گیری

از این مقاله، ما تکنیک های مهم داده کاوی را شناخته ایم و مشخصات و ویژگی های هر یک از تکنیک ها به تفصیل توضیح داده شده است. شرکت ها باید از این تکنیک ها برای کمک به افراد تجاری برای تصمیم گیری هوشمند استفاده کنند. نمی توان از یک روش واحد برای حل مشکل در کسب و کار استفاده کرد. تمام تکنیک های داده کاوی باید دست به دست هم دهند تا یک مسئله حل شود.

https://www.educba.com/data-mining-techniques/

دیدگاه ها

هیچ دیدگاهی تا به این لحظه در این صفحه ثبت نشده است

دیدگاه خود را در مورد این مطلب بیان کنید.




مشاوره آنلاین