U.S. Commerce Sec. Lutnick says American AI dominates DeepSeek, thanks Trump for AI Action Plan — OpenAI and Anthropic beat Chinese models across 19 different benchmarks | Tom's Hardware

وزیر بازرگانی آمریکا، لوت‌نیک، می‌گوید هوش مصنوعی آمریکا بر DeepSeek تسلط دارد و از ترامپ برای طرح اقدام هوش مصنوعی تشکر می‌کند

موسسه ملی استانداردها و فناوری (NIST) به تازگی یک آزمایش جامع بر روی مدل‌های هوش مصنوعی چینی و آمریکایی انجام داده است که نتایج آن نشان می‌دهد مدل‌های OpenAI و Anthropic در ۱۹ معیار مختلف، عملکرد بهتری نسبت به DeepSeek داشته‌اند. هاوارد لوت‌نیک، وزیر بازرگانی آمریکا، این نتایج را در X به اشتراک گذاشت و از رئیس‌جمهور دونالد ترامپ برای طرح اقدام هوش مصنوعی او جهت تسریع نوآوری و زیرساخت هوش مصنوعی آمریکا، ضمن تشویق متحدان و کشورهای دوست به پذیرش آن، تشکر کرد.

وزیر لوت‌نیک در پست خود گفت: «این گزارش واضح است: DeepSeek بسیار عقب‌تر است، به ویژه در مهندسی سایبری و نرم‌افزار. این ضعف‌ها فقط فنی نیستند. آن‌ها نشان می‌دهند که چرا اتکا به هوش مصنوعی خارجی خطرناک و کوته‌بینانه است.» وی افزود: «اجازه دادن به دشمنانمان برای کنترل هوش مصنوعی خطرات جدی برای امنیت ما ایجاد می‌کند. وزارت بازرگانی با تعیین استانداردها، پیشبرد نوآوری و حفظ امنیت آمریکا، به تضمین رهبری مستمر ایالات متحده در هوش مصنوعی کمک می‌کند.»

NIST یک آژانس فدرال زیر نظر وزارت بازرگانی است که استانداردها را توسعه می‌دهد و از صنعت حمایت می‌کند تا به حفظ رقابت‌پذیری صنعتی ایالات متحده در سطح جهانی کمک کند، و این مطالعه را تحت مرکز تازه تاسیس استانداردها و نوآوری هوش مصنوعی (CAISI) انجام داده است.

این آزمایش‌ها مدل‌های R1، R1-0528 و V3.1 DeepSeek (که به طور مهم، شامل V3.2 جدید DeepSeek که این هفته منتشر شد، نمی‌شود) را در برابر GPT-5، GPT-5-mini و GPT-oss از OpenAI و Opus 4 از Anthropic، با استفاده از ۱۹ معیار مختلف قرار داد. این آزمایش‌های عمومی شامل SWE-bench Verified و Breakpoint برای مهندسی نرم‌افزار، MMLU-Pro و GPQA برای قابلیت‌های دانش عمومی، مسابقات ریاضی SMT 2025، PUMaC 2024 و OTIS-AIME 2025 برای استدلال ریاضی، و چارچوب AgentDojo برای مقاومت در برابر حملات ربایشی است. علاوه بر این، این موسسه ارزیابی‌های سفارشی خود را نیز برای آزمایش مواردی مانند سانسور حزب کمونیست چین (CCP) توسعه داده است، زیرا هیچ آزمایش استانداردی برای آن وجود ندارد.

تمام نتایج در یک سند ۶۹ صفحه‌ای [PDF] تشریح شده‌اند، که CAISI در آن اعلام کرده است OpenAI و Anthropic در تمام آزمایش‌ها، به ویژه در مهندسی نرم‌افزار و وظایف سایبری، از DeepSeek بهتر عمل می‌کنند. مدل‌های هوش مصنوعی آمریکا به طور کلی ۲۰ تا ۸۰ درصد از DeepSeek بهتر عمل کرده و حدود ۳۵ درصد هزینه عملیاتی کمتری دارند. مدل چینی همچنین راحت‌تر قابل ربایش و جیلبریک است که آن را بیشتر مستعد عملکرد ناخواسته می‌کند. این گزارش همچنین بیان کرد که مدل‌های چینی مغرضانه هستند و در مورد پیام‌های پکن خط‌مشی خاصی را دنبال می‌کنند، اگرچه باید در نظر داشت که ابزارهای بنچمارکینگ هوش مصنوعی دیگری نیز وجود دارند که ممکن است نتایج متفاوتی به همراه داشته باشند.

با وجود همه این‌ها، DeepSeek R1 به طور مداوم در حال پذیرش است، و CAISI می‌گوید که «استفاده از این مدل‌ها ممکن است خطری برای توسعه‌دهندگان برنامه‌ها، مصرف‌کنندگان و امنیت ملی آمریکا ایجاد کند.» علاوه بر این، شرکت هوش مصنوعی چینی به طور مداوم مدل‌های جدیدی را منتشر می‌کند، از جمله DeepSeek-V3.2-Exp که اوایل این هفته منتشر شد، که احتمالاً برخی از این آزمایش‌ها را بی‌اعتبار می‌کند.