DeepSeek-R1-Safe نسخه جدیدی از چتبات ایمن است که با هدف جلوگیری از ورود به مباحث سیاسی و محتوای ممنوعه توسعه یافته. این مدل حاصل همکاری هواوی و دانشگاه ژجیانگ بوده و طبق گزارش رویترز در استفاده عادی نزدیک به ۱۰۰ درصد موفق عمل میکند.
ویژگیهای کلیدی DeepSeek-R1-Safe
- اجتناب از مباحث «سمی، حساس سیاسی و تحریککننده اقدامات غیرقانونی» با دقت بالا
- آموزش با هزار تراشه Ascend هواوی؛ افت سرعت پردازشی تنها یک درصد
- همخوانی کامل با مقررات نظارتی چین برای بازتاب ارزشهای داخلی

نقاط ضعف چتبات ایمن در برابر سناریوهای پیچیده
با وجود موفقیت در مباحث معمول، DeepSeek-R1-Safe در مواجهه با درخواستهای غیرمستقیم یا بازیهای نقش (role-play) تا ۴۰ درصد دقت خود را از دست میدهد. یافتههای Stanford University نشان میدهد که مدلهای زبانی همچنان در برابر روشهای «جیلبریک» آسیبپذیرند و ممکن است چارچوبهای حفاظتی خود را دور بزنند.
چشمانداز جهانی تنظیم چتباتهای ایمن
محدودیت بر مدلهای هوش مصنوعی تنها مختص چین نیست. سیاستهای دولتی در کشورهای مختلف بر «چتبات ایمن» تأکید دارند:
- چین: مدل Ernie بایدو از پاسخ به سؤالات داخلی سیاسی خودداری میکند
- عربستان سعودی: چتبات «Humain» بر ارزشهای اسلامی و زبان عربی تسلط دارد
- ایالات متحده: طرح «اقدام ملی هوش مصنوعی» نیاز به خنثیبودن و بیطرفی در مدلهای دولتی را مطرح میکند
DeepSeek-R1-Safe نمونهای از تلاش برای ساخت چتبات ایمن هماهنگ با ارزشهای نظارتی است؛ اما ضعف در مواجهه با سناریوهای پیچیده نشان میدهد که مسیر رسیدن به چتباتی کاملاً بیخطر هنوز طولانی است.
منابع
- Reuters, “Huawei-backed DeepSeek-R1-Safe avoids political content nearly 100% of the time,” Sep 2025.
- Stanford University, “Breaking Boundaries: Role-Play Attacks on Large Language Models,” Journal of AI Security, 2024.

لعیا آزاده
من فارغالتحصیل رشته رسانه و ارتباطات هستم و از همان دوران دانشگاه به پتانسیل فضای مجازی و رسانههای دیجیتال برای تولید محتوا علاقهمند شدم. فعالیت حرفهای خودم را از سال ۱۳۹۷ با مدیریت یک وبلاگ و شبکههای اجتماعی برای یک برند کوچک آغاز کردم. پس از کسب تجربه در زمینه تولید محتوای دیجیتال و بازاریابی، اکنون به عنوان دبیر سرویس محتوای دیجیتال در یک مجله اینترنتی شناختهشده فعالیت میکنم. تلاش من این است که با بهرهگیری از روندهای جدید، محتوایی جذاب و تعاملی برای مخاطبان تولید کنم.