محققان MIT ابزار جدیدی به نام VisText طراحی کرده اند که از هوش مصنوعی برای درک نمودارهای پیچیده برای افراد با توانایی های مختلف استفاده می کند. توسعه مجموعه داده VisText نشان دهنده پیشرفت قابل توجهی در ایجاد خودکار شرح تصاویر برای گرافیک است. با پیشرفت‌ها و تحقیقات مستمر، سیستم‌های شرح خودکار مجهز به یادگیری ماشینی نوید انقلابی در دسترس‌پذیری و درک نمودار را با ایجاد جامع‌تر و در دسترس‌تر کردن اطلاعات حیاتی برای افراد کم‌بینا می‌دهند.

به گفته هوشیو، فرآیند ایجاد زیرنویس برای نمودارها به روشی که به راحتی قابل درک باشد، معمولاً زمان بر است و نیاز به تلاش زیادی دارد. البته، تکنیک هایی برای ایجاد زیرنویس خودکار وجود دارد، اما این تکنیک ها همیشه خوب کار نمی کنند. محققان MIT مجموعه داده جدیدی به نام VisText ایجاد کرده‌اند که برای آموزش مدل‌های یادگیری ماشینی برای ایجاد زیرنویس‌های دقیق برای نمودارها استفاده می‌شود. آنها دریافتند که مدل آنها به طور مداوم از سایر سیستم های خودکار زیرنویس بهتر عمل می کند و خروجی زیرنویس دقیق و قابل درک را ارائه می دهد. این زیرنویس ها برای هر کاربر بسته به نیاز و قابلیت های خاص او سفارشی می شوند.

ایده طراحی VisText برگرفته از تحقیقات قبلی MIT بود که مقدار متفاوتی از اطلاعات را در عنوان نمودار بسته به اختلالات بینایی یا کم بینایی کاربران نمایش می داد. بر اساس این تحقیقات، محققان MIT یک مجموعه داده بزرگ به نام VisText ایجاد کردند که شامل بیش از 12000 نمودار است و به عنوان مجموعه ای از جداول داده، تصاویر، نمودارها و زیرنویس های مرتبط نمایش داده می شود. VisText به برنامه‌های رایانه‌ای کمک می‌کند تا زیرنویس‌های مفید و دقیقی برای گرافیک ایجاد کنند، در نتیجه کاربران را قادر می‌سازد تا اطلاعات بصری را به راحتی و کارآمد تفسیر کنند.

این بدان معنی است که افراد با هر توانایی قادر خواهند بود بفهمند که نمودارها چه چیزی را نشان می دهند و از آن اطلاعات برای تحقیق، تصمیم گیری یا کارهای دیگر استفاده کنند. این یک پیشرفت پیشگامانه است که می تواند دسترسی به افرادی را که برای درک داده های پیچیده در نمودارها تلاش می کنند تا حد زیادی بهبود بخشد.

توسعه سیستم های زیرنویس خودکار چالش های زیادی را به همراه داشته است. روش‌های یادگیری ماشینی که برای توصیف تصویر استفاده می‌شوند، برای تفسیر گرافیک بسیار مؤثر نیستند، زیرا تفسیر تصاویر طبیعی به طور قابل‌توجهی با خواندن گرافیک متفاوت است. از سوی دیگر، تکنیک‌های جایگزین، محتوای بصری را به طور کامل نادیده می‌گیرند و تنها بر جداول داده‌های زیربنایی تکیه می‌کنند، که اغلب پس از انتشار نمودار در دسترس نیستند. برای غلبه بر این محدودیت ها، محققان از روش خاصی برای نمایش نمودارها به نام «نمودار صحنه» استفاده کردند. این روش اطلاعات دقیقی را ارائه می دهد و در عین حال قابل دسترس تر و سازگارتر با مدل های زبان بزرگ مدرن است.

محققان MIT پنج مدل مختلف یادگیری ماشین را برای حاشیه نویسی خودکار نمودارها با استفاده از ابزار جدید VisText آموزش دادند. آنها دریافتند که مدل های آموزش دیده با نمودارهای صحنه به همان اندازه یا بهتر از مدل های آموزش دیده با جداول داده عمل می کنند. این نشانه خوبی از اثربخشی نمودارهای صحنه به عنوان ابزاری برای نمایش اطلاعات بود. علاوه بر این، آنها مدل‌ها را به طور جداگانه با برچسب‌های ساده و پیچیده آموزش دادند که به مدل اجازه می‌داد تا برچسب‌های بهتری را با توجه به پیچیدگی نمودار تولید کند. در واقع، نمودارهای صحنه بهترین راه برای ایجاد زیرنویس بودند، زیرا حاوی اطلاعات بسیار زیادی بودند و به خوبی با برنامه های کامپیوتری کار می کردند.

هدف طراحی این ابزار بهبود تفسیر نمودار و در دسترس قرار دادن آن برای همه، صرف نظر از سابقه و سطح تحصیلات است. به طور کلی، VisText یک مجموعه داده نوآورانه است که پتانسیل ایجاد انقلابی در نحوه درک و استفاده از داده های پیچیده را دارد.


0 دیدگاه

دیدگاهتان را بنویسید

Avatar placeholder

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *