اگر مهم ترین سند حقوقی ایالات متحده آمریکا یا قانون اساسی آن کشور را در ابزارهای تشخیص متن که برای شناسایی فعالیت هوش مصنوعی و چت بات ها ساخته شده اند مانند: ChatGPT وارد کنید، این ابزار به شما اطلاع می دهد که قانون اساسی ایالات متحده تا 96 درصد مواقع توسط هوش مصنوعی نوشته شده است. مگر اینکه جیمز مدیسون مسافر زمان باشد که در حال حاضر موضوع اصلی ما نیست.

چرا ابزارهای تشخیص متن به ما پاسخ های مثبت اما اشتباه می دهند؟

امروزه ابزارهای تشخیص متن باعث ایجاد اخبار و مطالب جنجالی شده است که برخی از آنها توسط معلمان هیجان زده به اشتراک گذاشته شده است که به دلیل استفاده از هوش مصنوعی به تمام اعضای کلاس خود مشکوک هستند و حتی دانش آموزان و کودکان نیز پس از انجام تکالیف و نوشته های خود به دلیل تقلب و استفاده از ChatGPT دچار مشکل می شوند.

ابزارهای تشخیص متون دانش آموزان را در مواقعی با بحران هویت مواجه می کند و معلمان و اساتیدی که نسبت به چند دهه قبل روش های تدریس را توسعه داده اند مجبور به مقابله با چنین مشکلاتی می شوند و علاوه بر سنجش میزان تسلط دانش آموزان بر موضوعات تخصصی از طریق نوشتن مقاله یا انشا، نتایج کار خود را زیر سوال می برند که آیا متون آنها توسط خودشان نوشته شده است یا هوش مصنوعی به آنها کمک شده است؟

اگرچه استفاده از ابزارهای تشخیص متن به اندازه استفاده از هوش مصنوعی شیرین و هوشمندانه است، اما شواهد نشان می دهد که این ابزارها غیرقابل اعتماد هستند. با توجه به نتایج اشتباه به دست آمده توسط آنها، ابزارهایی مانند: GPTZero، ZeroGPT و حتی Text Classifier توسعه یافته توسط شرکت Open Ai برای تشخیص الگوهای زبان بزرگ مانند: LLMs و ChatGPT مفید نیستند.

با توجه به تصویر بالا، اگر بخشی از قانون اساسی آمریکا را در قسمت ورودی ابزار GPTZero وارد کنید، به شما اطلاع می دهد که به احتمال 96 درصد این متن توسط هوش مصنوعی نوشته شده است. طی شش ماه گذشته تعدادی اسکرین شات از نتایج سایر ابزارهای تشخیص متن در فضای مجازی، شبکه های اجتماعی و رسانه ها منتشر شده است که کمی گیج کننده و طنز است.
اینکه نویسنده قانون اساسی ایالات متحده یک هوش مصنوعی بوده است تنها نمونه کوچکی از ابهام است و این ابزار حتی از کتاب مقدس نیز دریغ نکرده است. برای درک اینکه چرا این ابزارها چنین اشتباهاتی را مرتکب می شوند، ابتدا باید نحوه عملکرد آنها را درک کنیم.

آشنایی با مفاهیم ابزارهای تشخیص متن

ابزارهای مختلف تشخیص متن از روش‌های یکسانی استفاده می‌کنند، اما منطق متفاوتی در گردش کار خود دارند.
مدل‌های زبانی وجود دارند که بر متون بزرگ مانند میلیون‌ها نوشته تمرکز می‌کنند و علاوه بر این، مجموعه‌ای از قوانین برای تشخیص متن نوشته شده توسط انسان و یادگیری هوش مصنوعی از آن وضع شده است.

به عنوان مثال، قلب ابزار GPTZero شامل یک شبکه عصبی است که بر روی مجموعه ای بزرگ و متنوع از متون هوش مصنوعی و انسانی با تمرکز بر نثر انگلیسی آموزش دیده است. در مرحله بعد، سیستم از ویژگی هایی مانند: پیچیدگی یا انفجار در ارزیابی و طبقه بندی متن برای ارزیابی متن و طبقه بندی آن استفاده می کند.

در یادگیری ماشینی، سردرگمی یا پیچیدگی یک معیار اندازه گیری است و تعیین می کند که متون ارائه شده به مدل زبان چقدر با آموزش متفاوت است.

بنابراین، معیار پیچیدگی موضوع به الگوهای زبان در حین نوشتن مربوط می شود. مدل‌های زبانی مانند ChatGPT از بهترین منبع خود یعنی داده‌های آموزشی در همان ابتدا استفاده می‌کنند و هر چه نتایج آنها به داده‌های آموزشی نزدیک‌تر باشد، پیچیدگی کمتری دارد.
در این میان، اگرچه انسان ها نویسندگان آشفته ای نیز هستند، اما می توانند با پیچیدگی کمتری بنویسند. همچنین متونی که در رشته حقوق و به سبک آکادمیک یا رسمی نوشته شده اند، عبارات مشابهی دارند.

حال 2 مثال عادی و عجیب را ارائه می کنیم. همه ما با وارد کردن “من یک فنجان از …” را با عبارات تکمیل شده مانند: آب، چای، قهوه در جای خالی مواجه کرده ایم که بر اساس داده های آموزش مدل زبان طبیعی است و پیچیدگی در این عبارت بسیار کمتر است.

در مثال دوم، فضای خالی در نظر گرفته نشده است و «من یک فنجان عنکبوت می‌خواهم» هم مدل انسان و هم الگوی زبانی را غافلگیر و اشتباه می‌کند. بنابراین میزان پیچیدگی و سردرگمی این جمله بالاست. همانطور که در تصویر زیر مشاهده می کنید، در مقابل 3.7 میلیون نتیجه نمایش داده شده در موتور جستجوی گوگل برای “من یک فنجان قهوه می خواهم” تنها یکی مربوط به عبارت “من یک فنجان عنکبوت می خواهم” بود.

اگر زبان و نوشتار استفاده شده در یک متن و بر اساس آموزه های مدل تعجب آور نباشد، از پیچیدگی کاسته می شود. بنابراین، ابزارهای تشخیص متن به متن مورد نظر مشکوک تر خواهند بود و آن را به عنوان متن تولید شده توسط هوش مصنوعی در نظر می گیرند. همه این توضیحات آرام آرام ما را به موضوع جالب قانون اساسی آمریکا می رساند.

در واقع، سبک نگارش قانون اساسی به قدری در این مدل‌ها جا افتاده است که ابزارها آن را به عنوان متن هوش مصنوعی طبقه‌بندی می‌کنند و میزان تایید آن‌ها بالا خواهد بود. ادوارد تیان، که به عنوان خالق GPTZero شناخته می شود، در مورد قانون اساسی ایالات متحده گفت:

قانون اساسی ایالات متحده اغلب به داده های آموزشی بسیاری از مدل های زبان منتقل می شود. در نتیجه، نمونه‌های بیشتری از مدل‌های زبان بزرگ برای تولید متون مشابه قانون اساسی و سایر متون رایج آموزش داده می‌شوند.

اما مشکل اصلی این است که امکان نوشتن متن هایی با پیچیدگی کم برای افراد وجود دارد و اگر جملاتی با افعال، کلمات و سبک نوشتاری ساده بنویسیم، آشکار کردن واقعیت دشوار خواهد شد و طیف وسیعی از کاربران سردرگم می شوند.

یکی دیگر از مشخصه های متنی که توسط GPTZero اندازه گیری می شود “ترکیدن” است. ترکیدن پدیده ای است که در آن کلمات یا عبارات متوالی ظاهر می شوند. به طور کلی، انفجار تنوع و ساختار را در سراسر جمله و در سراسر متن ارزیابی می کند.

نویسندگان (مردم) در نوشته های خود از سبک های پویا استفاده می کنند که در نتیجه ساختار و طول جمله متفاوت خواهد بود. به عنوان مثال، ما توانایی نوشتن جملات طولانی و پیچیده و همچنین نوشتن جملات کوتاه، استفاده از تعداد زیادی صفت در یک جمله و حتی عدم ذکر آنها را در متون دیگر داریم. این تنوع نتیجه طبیعی خلاقیت انسان است که با خودانگیختگی نیز همراه است.

برخلاف نوشته‌های انسان‌ها، متون هوش مصنوعی بافتی پیوسته و رسمی دارند یا حداقل در مواردی مشخص می‌شوند. مدل های زبانی که در ابتدای مراحل خود هستند جملاتی با ساختار و طول مشابه می نویسند. این عدم تنوع منجر به نمره Burstiness پایین می شود که نشان می دهد متن توسط هوش مصنوعی نوشته شده است.

با این حال، اختلال یک معیار خطاناپذیر برای تشخیص محتوای هوش مصنوعی نیست و مانند سردرگمی، استثناهایی وجود دارد. نویسنده ممکن است به سبکی بسیار ساختاریافته و پیوسته بنویسد که در نتیجه نمره پشت سر هم کم می شود.

برعکس، یک مدل هوش مصنوعی را می توان به گونه ای آموزش داد که جملات و ساختار آن بیشتر شبیه انسان باشد و امتیاز Burstiness افزایش یابد. در واقع، مدل‌های زبانی بهتر و بهتر می‌شوند و مطالعات نشان می‌دهد که متون آنها به نوشته‌های انسانی نزدیک‌تر است.

به طور کلی، هیچ فرمول جادویی برای تشخیص متون هوش مصنوعی و انسان وجود ندارد. اگرچه ابزارهای تشخیص متن می توانند حدس های محکمی بزنند، اما حاشیه خطا برای تکیه بر نتایج دقیق بسیار زیاد است.

مطالعه ای که در سال 2023 توسط محققان دانشگاه مریلند انجام شد نشان داد که ابزارهای تشخیص متن در بسیاری از موارد کاربردی نیستند و فقط می توانند بهتر از الگوریتم های طبقه بندی یادگیری ماشین عمل کنند.

سایمون ویلیسون محقق هوش مصنوعی گفت:

ابزارهای تشخیص متن از نظر من مانند روغن مار هستند. همه انتظار دارند از این محصول به صورت جداگانه استفاده کنند. اگرچه به راحتی می توان محصولی را که همه می خواهند به فروش رساند، اما در آن سوی ماجرا تاثیر آن نیز بسیار مهم است.

علاوه بر این، مطالعه اخیر دانشگاه استنفورد نشان داد که ابزارهای تشخیص متن رابطه مثبتی با نویسندگان غیر انگلیسی زبان ندارند و متون آنها بیشتر از نویسندگان انگلیسی زبان به عنوان متن هوش مصنوعی شناخته می شوند.

هزینه اتهام نادرست و کشف ابزارهای تشخیص متن

برخی از افراد، مانند ایتان مولیک از مدرسه وارتون، هوش مصنوعی را پذیرفته اند و حتی استفاده از ابزارهایی مانند ChatGPT را برای یادگیری بهتر پیشنهاد می کنند. به گفته وی، ابزار قابل اعتمادی برای شناسایی رکوردهای Bing، Bard و ChatGPT وجود ندارد و ابزارهای فعلی برای ChatGPT 3.5 طراحی شده اند.

وی همچنین خاطرنشان کرد: این ابزارها به راحتی از کار می افتند و درصد خطای آنها بیش از 10 درصد است. همچنین خود ChatGPT نمی تواند قضاوت کند که آیا متن مورد نظر شما توسط هوش مصنوعی نوشته شده است یا خیر.

در مصاحبه Ars Technica با GPTZero، به نظر می رسد که این شرکت از اخبار و نارضایتی کاربران آگاه است و قصد دارد روی پروژه ای عجیب و منشعب از ابزار تشخیص متن وانیلی کار کند.
او همچنین گفت:

در مقایسه با ابزارهای تشخیصی مانند: Turn-it-in، ما سعی می کنیم از ساخت چنین خدماتی خودداری کنیم. نسخه بعدی GPT Zero یک ابزار تشخیص متن نخواهد بود و فقط متون نوشته شده توسط انسان یا هوش مصنوعی را علامت گذاری می کند، بنابراین به لطف معلم و دانش آموز، هوش مصنوعی توسعه خواهد یافت.

نویسنده این وب سایت سپس از مدیر GPTZero پرسید که نظرش در مورد استفاده از GPTZero برای متهم کردن دانشجویان در آکادمی ها چیست و او گفت:

ما نمی خواهیم مردم از ابزار ما برای تنبیه فرزندان خود استفاده کنند. در عوض، بهتر است اتکا به چنین ابزارهایی در آموزش در میان معلمانی که به هوش مصنوعی پذیرا هستند یا بی علاقه هستند، کاهش یابد. ما باید فناوری و ابزارهای خود را در اختیار جوامع قرار دهیم تا بازخورد آنها را دریافت کنیم و بفهمیم چه خبر است.

اگرچه مشکلات زیادی در مورد ابزارهای تشخیص متن مطرح شده است و کاربران را آزار می دهد، GPTZero همچنان با Baliden همچنان به ارائه این ابزار به معلمان ادامه می دهد و با افتخار لیست دانشگاه هایی که از آن استفاده می کنند را تبلیغ می کند.

همچنین تناقض عجیبی بین هدف اعلام شده تیان از تنبیه نکردن دانش آموزان و تمایل او به کسب درآمد از اختراعش وجود دارد. اما هدف هرچه که باشد، استفاده از این ابزارها تأثیرات مخربی بر دانش آموزان دارد.

یکی از اخباری که در چند روز اخیر در آمریکا منتشر شد و در مورد ابزارهای تشخیص متن تاثیر زیادی داشت، اتهام تقلب یک دانش آموز بود که بر اساس ابزار تشخیص متن مشخص شد. او سپس شواهدی را از آخرین داستان جستجوی خود منتشر کرد که نشان می‌داد اگرچه توانست بی‌گناهی خود را ثابت کند، استرسی که برای دفاع از خود بر دانش‌آموز وارد می‌شد باعث شد که او دچار حمله عصبی شود.

نوشته های هوش مصنوعی غیرقابل تشخیص هستند و این وضعیت ممکن است تا بعد ادامه یابد

در مواجهه با نرخ بالای نکات مثبت و کاذب، و با توجه به نرخ های بالای نویسندگان و سخنرانان غیرانگلیسی، واضح است که علم تشخیص متن با هوش مصنوعی به دور از خطا نیست و این فاصله به این زودی ها بسته نخواهد شد. انسان ها می توانند مانند ماشین ها بنویسند و هوش مصنوعی هم همین طور.

هوش مصنوعی ماندگار است و در صورت استفاده هوشمندانه می تواند زمینه های زیادی را پیش ببرد. اگر معلم در زمینه ای که دانش آموز در مورد آن می نویسد خبره باشد، می تواند دانش خود را بسنجد و با طرح سوال ارزیابی کند که موضوعی را که می نویسد چقدر درک می کند.

نوشتن فقط نشان دادن و اثبات علم نیست، بلکه بخشی از آن به نشان دادن شهرت است; بنابراین، اگر نویسنده ای نتواند برای هر واقعیتی که در متنش ذکر می کند از خود دفاع و دفاع کند، از هوش مصنوعی و مهارت های خود به درستی استفاده نکرده است.



0 دیدگاه

دیدگاهتان را بنویسید

Avatar placeholder

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *