زبان و ارتباطات
مسعود قیومی
چکیده
در این پژوهش تلاش میشود با استفاده از تحلیل آماری، ویژگیهای اخبار جعلی فارسی مربوط به کوید-19 بررسی گردد. برای این هدف، ابتدا یک پیکرۀ زبانی که حاوی اخبار موثّق و جعلی در حوزۀ کرونا است تهیه میشود. سپس الگوهای زبانی این دو دستۀ داده و همچنین دو تحلیل آماری مقدار اطلاعات و خوانایی اخبار موثّق و جعلی مورد بررسی قرار گرفته و با یکدیگر ...
بیشتر
در این پژوهش تلاش میشود با استفاده از تحلیل آماری، ویژگیهای اخبار جعلی فارسی مربوط به کوید-19 بررسی گردد. برای این هدف، ابتدا یک پیکرۀ زبانی که حاوی اخبار موثّق و جعلی در حوزۀ کرونا است تهیه میشود. سپس الگوهای زبانی این دو دستۀ داده و همچنین دو تحلیل آماری مقدار اطلاعات و خوانایی اخبار موثّق و جعلی مورد بررسی قرار گرفته و با یکدیگر مقایسه میشود. براساس اطلاعات استخراجشده و نتایج عملی بهدستآمده از پیکرۀ خبرهای جعلی، الگوهای زبانی مشترک بین این دو دستۀ داده وجود دارد. همچنین، مقدار اطلاعات در اخبار موثّق براساس دو معیار آنتروپی و شگفتی بیشتر از اخبار جعلی است. سطح خوانایی خبرهای جعلی با استفاده از تساویهای اندازهگیری خوانایی متن مورد ارزیابی قرار گرفتهاست و این نتیجه بهدست آمده است که اخبار جعلی در مقایسه با اخبار موثّق عمدتاً ساده بوده و دشوار نیست. در فرایند برچسبگذاری خودکار خبرهای موثّق و جعلی براساس سطح دشواری حجم زیادی از اخبار جعلی ساده تشخیص داده شدهاست و تعداد کمی از اخبار موثّق با سطح زبانی دشوار بود. علاوهبر این دستاورد و بررسی آماری ویژگیهای زبانی براساس میزان اطلاعات و خوانایی اخبار جعلی، جنبۀ کاربردی این اطلاعات آماری جهت تشخیص خبر جعلی با استفاده از روشهای یادگیری ماشینی مورد مطالعه قرار گرفت.