روش تازه دانشمند جهان اسلام برای تحلیل بهتر داده‌ها

پژوهشگران برجسته جهان اسلام از توسعه الگوریتم داده‌های پرت و معرفی «فاصله بیضوی» برای خوشه‌بندی دقیق‌تر داده‌ها خبر دادند.

به گزارش خبرنگار مهر، نشست‌های «استپ» (STEP) در رویداد جایزه مصطفی (ص) با هدف اشتراک‌گذاری دانش میان دانشمندان مسلمان برگزار می‌شود. استپ دهم، میزبان چهره‌های بین‌المللی برجسته‌ای بود که دستاوردهایشان در مرزهای دانش حرکت می‌کند. از جمله این چهره‌ها، «علی اس. هادی» (Ali S. Hadi)، دانشمند مصری، استاد ممتاز دانشگاه آمریکایی قاهره بود.

دکتر علی اس. هادی از پژوهشگران برجسته حوزه آمار با سابقه تدریس و پژوهش در دانشگاه‌های معتبر بین‌المللی، از جمله دانشگاه آمریکایی بیروت، استاد بازنشسته افتخاری دانشگاه کرنل و دانشگاه آمریکایی قاهره به شمار می‌رود.

حوزه فعالیت علمی وی شامل آمار پیشرفته، تحلیل داده و روش‌های آماری کاربردی است و تاکنون آثار علمی متعددی در این زمینه منتشر کرده است. یکی از حوزه هایی که این دانشمند بر آن مسلط است، داده‌های پرت (داده ای است که در فاصله ی غیرعادی از بقیه مقادیر داده در یک نمونه ی تصادفی از یک جمعیت مشاهده می شود) است.

این دانشمند جهان اسلام در گفتگو با خبرنگار مهر، در پاسخ به این پرسش که چرا تکیه بر یک آستانه مشخص (crisp cutoff) برای تشخیص داده‌های پرت همیشه قابل اعتماد نیست، اظهار کرد: داده‌های پرت یکی از چالش‌های اصلی در فرآیند جمع‌آوری و تحلیل داده‌ها هستند، چرا که معمولاً در هر مجموعه داده، مقادیری وجود دارند که به شکل محسوسی با اکثریت داده‌ها متفاوت‌اند.

وی برای توضیح این موضوع مثال زد و گفت: اگر داده‌های مربوط به درآمد افراد را جمع‌آوری کنید، ممکن است ناگهان با فردی مانند بیل گیتس مواجه شوید؛ در چنین شرایطی، او یک داده پرت محسوب می‌شود، زیرا فاصله معناداری با سایر داده‌ها دارد.

هادی با اشاره به تمرکز پژوهش‌های خود بر داده‌های چندمتغیره گفت: در این نوع داده‌ها، برخلاف تحلیل تک‌متغیره، با مجموعه‌ای از متغیرها سروکار داریم و همین مسئله شناسایی داده‌های پرت را پیچیده‌تر می‌کند. داده‌ها را می‌توان در یک، دو یا سه بعد ترسیم کرد، اما در ابعاد بالاتر، این کار عملاً دشوار می‌شود و ناچاریم به روش‌های عددی تکیه کنیم.

این دانشمند جهان اسلام افزود: برخی داده‌های پرت در مرز میان داده‌های عادی و غیرعادی قرار دارند؛ بنابراین اگر بخواهیم با یک نقطه آستانه مشخص درباره آن‌ها تصمیم بگیریم، احتمال خطا افزایش می‌یابد. به همین دلیل از منطق فازی (Fuzzy Logic) استفاده می‌کنیم تا میزان پرت بودن داده‌ها را به‌صورت تدریجی و در بازه‌ای بین صفر تا یک تعیین کنیم. هرچه این مقدار به یک نزدیک‌تر باشد، احتمال پرت بودن داده بیشتر است.

هادی درباره مزیت روش‌های فازی نسبت به الگوریتم کلاسیک BACON توضیح داد: الگوریتم BACON در نسخه اصلی خود مبتنی بر منطق قطعی (crisp) است، اما ما آن را به نسخه توسعه‌یافته‌ای با عنوان Fuzzy BACON ارتقا دادیم. در این مدل، داده‌ها صرفاً به دو دسته پرت و غیرپرت تقسیم نمی‌شوند، بلکه داده‌هایی که در ناحیه مرزی قرار دارند، در یک محدوده فازی ارزیابی می‌شوند.

وی با بیان اینکه مدل‌های قطعی در واقع حالت خاصی از مدل‌های فازی هستند، گفت: اگر پارامتر فازی فقط صفر یا یک باشد، عملاً همان مدل قطعی را داریم، اما زمانی که این پارامتر در بازه بین صفر و یک قرار می‌گیرد، مدل فازی شکل می‌گیرد و امکان تحلیل دقیق‌تر داده‌های مرزی فراهم می‌شود.

این استاد آمار در تشریح تفاوت تجربی میان Fuzzy BACON و نسخه کلاسیک آن اظهار کرد: در مدل کلاسیک، یک آستانه ثابت وجود دارد و داده‌ها یا پرت هستند یا نیستند؛ اما در مدل فازی، یک محدوده تعریف می‌شود که در آن، میزان اطمینان نسبت به پرت بودن داده‌ها به‌صورت تدریجی سنجیده می‌شود.

هادی همچنین به کاربرد این روش در انواع مختلف داده‌ها اشاره کرد و گفت: نسخه اولیه BACON عمدتاً برای داده‌های عددی طراحی شده بود، اما روش‌های جدید امکان تحلیل همزمان داده‌های عددی و دسته‌ای (categorical) را نیز فراهم کرده‌اند و این موضوع دامنه کاربرد آن را گسترده‌تر کرده است.

استاد ممتاز دانشگاه آمریکایی قاهره در بخش دیگری از این گفت‌وگو، به تازه‌ترین پژوهش‌های خود در حوزه خوشه‌بندی (Clustering) اشاره کرد و گفت: یکی از پروژه‌های اخیرم بر اندازه‌گیری فاصله میان خوشه‌های داده متمرکز است. در تحلیل خوشه‌ای، پرسش اصلی این است که چگونه می‌توان فاصله میان خوشه‌ها را به شکلی دقیق اندازه‌گیری کرد.

او افزود: تاکنون روش‌های مختلفی برای سنجش فاصله پیشنهاد شده، اما جدیدترین رویکرد، استفاده از «فاصله بیضوی» (Elliptical Distance) است. برخلاف فاصله اقلیدسی که بر فرض برابری واریانس‌ها و استقلال متغیرها استوار است، فاصله بیضوی این محدودیت‌ها را در نظر نمی‌گیرد و شرایط واقعی‌تر داده‌ها را منعکس می‌کند.

هادی در پایان با تشریح مزیت روش پیشنهادی خود گفت: این روش دو مسئله مهم را پوشش می‌دهد؛ نخست تفاوت واحدهای اندازه‌گیری و واریانس متغیرها، و دوم وابستگی میان متغیرها. در روش‌های کلاسیک، متغیرهایی با واریانس بالا می‌توانند بر تحلیل غلبه کنند و همچنین وابستگی میان متغیرها نادیده گرفته می‌شود، اما روش پیشنهادی ما این محدودیت‌ها را برطرف کرده و دقت تحلیل خوشه‌ای را به شکل محسوسی افزایش می‌دهد.