هر هفته در دنیای هوش مصنوعی از هفته قبل هیجانانگیزتر میشود، و این هفته هم استثنا نبود. انتشار مدلهای جدید هوش مصنوعی، نتایج خیرهکننده در بنچمارکها و کاربردهای نوآورانه در صدر اخبار بودند. از رقابت شدید OpenAI و Anthropic در عرضه مدلهای پیشرفته گرفته تا قدرتبخشی آمازون به الکسا با یک مغز هوش مصنوعی قویتر—این هفته پر از اتفاقات مهم بود. بیایید با نگاهی فنی اما به زبان ساده، به مهمترین اخبار هوش مصنوعی این هفته بپردازیم.
Anthropic مدلهای Claude 3.7 Sonnet و Claude Code را معرفی کرد
Anthropic این هفته را با رونمایی از دو مدل مهم Claude 3.7 Sonnet و Claude Code آغاز کرد؛ مدلهایی که تمرکز زیادی روی مهارتهای برنامهنویسی و تواناییهای عاملمحور (agentic) دارند.

◖ Claude 3.7 Sonnet:
علاوه بر این، در استفاده از ابزارهای عاملمحور هم برتری دارد و میتواند برخی وظایف را بهصورت خودکار انجام دهد—ویژگیای که ارتباط مستقیمی با اعلامیه آمازون در مورد الکسا در این هفته دارد. بااینحال، در حل مسائل ریاضی سطح پیشرفته و استدلال در سطح تحصیلات تکمیلی نسبت به Grok 3 و O3 Mini از OpenAI کمی ضعیفتر عمل میکند، اما بهبودهای قابلتوجه آن در برنامهنویسی، آن را به گزینهای ایدهآل برای توسعهدهندگان تبدیل کرده است.
◖ حالت تفکر گسترده (Extended Thinking Mode)
یکی از ویژگیهای جدید Claude 3.7 Sonnet این است که میتواند زمان بیشتری را برای حل مسائل پیچیده اختصاص دهد، مشابه DeepSeek R1 و O1/O3 از OpenAI. این قابلیت یک مدل جداگانه نیست، بلکه یک گزینه اضافی است که به مدل اصلی اجازه میدهد تا مدت بیشتری پردازش کند و پاسخهای دقیقتری ارائه دهد.
برای مثال، سوال سادهای مثل “چند تا R در کلمه ‘strawberry’ وجود دارد؟” چند ثانیه بیشتر طول میکشد اما دقت پاسخ را افزایش میدهد. اما در پرامپتهای پیچیدهتر—مثلاً طراحی یک چارچوب برای تاخوردگی پروتئین (Protein Folding)—مدل میتواند تا ۳۲ ثانیه برای تحلیل و پردازش وقت بگذارد تا بهترین راهحل را ارائه دهد.
◖ Claude Code: دستیار برنامهنویسی هوشمند
همزمان با Claude 3.7، Anthropic از ابزار جدیدی به نام Claude Code رونمایی کرد؛ یک همراه برنامهنویسی هوش مصنوعی که مستقیماً در ترمینال شما اجرا میشود. نصب Claude Code در یک پروژه، این ابزار را قادر میسازد تا به کد شما دسترسی پیدا کند، فایلها را بخواند، پیشنهاد ارائه دهد، دیباگ کند و حتی کد جدید بنویسد. در واقع، این ابزار مانند یک همکار برنامهنویسی هوش مصنوعی است که از کل پروژه شما آگاهی دارد.
فقط چند روز بعد از انتشار، برنامهنویسان دموهای خیرهکنندهای از Claude Code به نمایش گذاشتند:
— ساخت اپلیکیشنهای وب کامل تنها با یک پرامپت: از یک سایت املاک با طراحی مدرن گرفته تا یک اپلیکیشن انیمیشنی هواشناسی
— ساخت بازیها: از یک بازی مسابقهای سهبعدی به نام “Claude Kart” تا یک بازی Snake خودآگاه که در حین حرکت، افکار طنز خود را چاپ میکند!
— شبیهسازی شهر سهبعدی: کاربران توانستند با یک پرامپت، یک شهر سهبعدی کامل با آدمهایی که حرکت میکنند و سایههایی که تغییر میکنند ایجاد کنند.
این موفقیتهای سریع نشان میدهد که یک دستیار برنامهنویسی مبتنی بر هوش مصنوعی که بتواند کل پروژه را درک کند، چقدر میتواند قدرتمند باشد. Claude Code در حال جلب توجه گسترده جامعه توسعهدهندگان است و Anthropic را به عنوان یک بازیگر کلیدی در دنیای ابزارهای توسعهدهی مبتنی بر هوش مصنوعی مطرح کرده است.
🔗 برای اطلاعات بیشتر، به سایت رسمی Anthropic مراجعه کنید.
OpenAI از GPT-4.5 با اسم رمز “Orion” رونمایی کرد
OpenAI هم برای عقب نماندن از رقبا، در اواخر هفته GPT-4.5 را معرفی کرد که بهصورت داخلی با اسم رمز “Orion” شناخته میشود. این مدل جدید مرحلهای بین GPT-4 و نسخه احتمالی آینده یعنی GPT-5 محسوب میشود و OpenAI بیش از یک سال روی آموزش آن کار کرده است.
بهبودها و ویژگیهای کلیدی:
— تاریخ برش داده همچنان ۲۰۲۳ است (مشابه GPT-4)، اما پاسخهای مدل به طرز قابلتوجهی بهبود یافتهاند.
— در ارائه رسمی OpenAI، بر بهبود “وایب” مدل تأکید شد—به این معنا که پاسخهای GPT-4.5 طبیعیتر، محاورهایتر و شبیهتر به لحن انسانی شدهاند.
— در مقایسههای کنار به کنار (Side-by-Side)، متنهای تولیدی GPT-4.5 نسبت به نسخههای قبلی روانتر، مختصرتر و منسجمتر بودند.
این تغییرات نشان داد که OpenAI نه فقط بر افزایش توانمندیهای فنی مدل، بلکه بر تجربه کاربری هم تمرکز ویژهای داشته است.
Benchmark Comparison
Metric | GPT-4.5 | GPT-4.0 | O1 | O3 Mini |
---|---|---|---|---|
Simple QA | 62.5% | 38.6% | 47% | 15% |
Hallucinations | 37.1% | 61.8% | 44% | 80% |
Math | 36.7% | 9.3% | – | 87.3% |
Science | 71.4% | 53.6% | – | 79.7% |
SWE-Bench | 38% | – | – | 61% |
ویژگیهای کلیدی: GPT-4.5 به جای تمرکز صرف بر قدرت استدلال خام، بر ایجاد حس محاورهای طبیعیتر تمرکز دارد. این مدل در یک بنچمارک ساده پرسش و پاسخ امتیاز 62.5 درصد را کسب کرده است (در مقایسه با 38.6 درصد برای GPT-4.0، 47 درصد برای O1 و 15 درصد برای O3 Mini) و میزان توهمات را به 37.1 درصد کاهش داده است (در مقایسه با 80 درصد برای O3 Mini). با این حال، در ریاضیات (36.7 درصد) یا علوم (71.4 درصد) به پای مدلهای مبتنی بر استدلال مانند O3 Mini نمیرسد و در SWE-Bench نیز عملکرد برتری ندارد (38 درصد در مقابل 61 درصد برای O3).
فراتر از سبک پاسخگویی، GPT-4.5 در قابلیت اطمینان نیز پیشرفتهایی داشته است. در ارزیابیهای داخلی OpenAI، این مدل در دقت پاسخگویی به سوالات ساده امتیاز بالاتری نسبت به نسخههای قبلی به دست آورده و میزان توهمات آن به شکل قابل توجهی کاهش یافته است. در یک بنچمارک پرسش و پاسخ واقعی، GPT-4.5 توانست 62.5 درصد از پاسخها را به درستی ارائه دهد، در حالی که GPT-4 اصلی تنها 38 درصد پاسخ درست داشت و مدلهای قدیمیتر امتیازهای پایینتری گرفتند. همچنین میزان تولید اطلاعات نادرست توسط GPT-4.5 به حدود 37 درصد کاهش یافته است، در حالی که مدل GPT-3.5 (همان O3 Mini که توسط OpenAI معرفی شده) تقریباً 80 درصد مواقع دچار توهم میشد. این کاهش قابل توجهی در تولید اطلاعات نادرست است. با این حال، OpenAI در نمودارهای خود GPT-4.5 را تنها با نسخههای قبلی خود مقایسه کرده است و هیچ اشارهای به مدلهای رقیب نکرده است.
آزمایشهای اولیه نشان میدهد که GPT-4.5 در یک حوزه خاص برجسته است: این مدل در وظایف خلاقانه و مکالمهای عملکرد درخشانی دارد. در ایدهپردازی، نوشتن در سبکهای مختلف و تعامل جذاب مهارت بالایی دارد، تا حدی که سم آلتمن، مدیرعامل OpenAI، اظهار داشت که GPT-4.5 “اولین مدلی است که شبیه مکالمه با یک فرد متفکر به نظر میرسد.” این مدل کمتر از GPT-4 دچار توضیح اضافی یا لحن بیش از حد رسمی میشود. برای مثال، در پاسخ به یک سوال غیررسمی، GPT-4.5 پاسخی کوتاه و طبیعی ارائه میدهد، در حالی که GPT-4 ممکن است توضیحی طولانی یا با لحنی رسمیتر ارائه کند. این تنظیم در “حس تعامل” باعث شده مکالمات روانتر به نظر برسند.
از سوی دیگر، GPT-4.5 جهش بزرگی در قدرت استدلال خام ایجاد نکرده است. آلتمن هشدار داده که این مدل “مدلی برای استدلال نیست” و “در بنچمارکها عملکرد خارقالعادهای نخواهد داشت.” در مسائل پیچیده ریاضی و برخی معماهای منطقی، مدلهای تخصصی دیگر مانند Grok 3 (از X.AI) یا DeepSeek R1 همچنان برتری دارند. به نظر میرسد OpenAI GPT-4.5 را بیشتر به عنوان یک ارتباطدهنده هوشمند معرفی کرده تا یک حلکننده مسائل کمی. این مدلی با نوع متفاوتی از هوش است که بر کیفیت مکالمه متمرکز است.
در حال حاضر، GPT-4.5 فقط برای مشترکین طرح ChatGPT Pro (که ۲۰۰ دلار در ماه هزینه دارد و برای کاربران سازمانی و حرفهای در نظر گرفته شده) در دسترس است. OpenAI دلیل این عرضه محدود را تقاضای بسیار بالا بر روی سرورهای GPU خود اعلام کرده است. این شرکت در زمان راهاندازی عملاً با کمبود GPU برای استقرار گسترده مواجه شد. با این حال، OpenAI قصد دارد طی مدت کوتاهی دهها هزار GPU جدید اضافه کند و GPT-4.5 را در هفته آینده برای تمامی کاربران ChatGPT Plus (طرح ۲۰ دلاری در ماه) نیز عرضه کند. بنابراین، دسترسی گستردهتر به این مدل در حال نزدیک شدن است. همچنین کاربران ChatGPT Plus این هفته چند قابلیت جدید دریافت کردهاند، اما GPT-4.5 همچنان ویژگی شاخصی است که تا زمانی که زیرساخت OpenAI به سطح مطلوب برسد، فقط در اختیار کاربران Pro خواهد بود.
برای جزئیات بیشتر، میتوانید به اعلامیه رسمی OpenAI مراجعه کنید.
آمازون از Alexa Plus رونمایی کرد:
دستیار صوتی مجهز به هوش مصنوعی Claude
یک نسخه بازطراحیشده از دستیار صوتی که با هوش مصنوعی Claude از Anthropic کار میکند و برای اعضای Prime رایگان است.
برتری فنی: با بهرهگیری از قابلیتهای عاملمحور Claude 3.7، Alexa Plus میتواند کارهایی مانند سفارش از Uber Eats یا رزرو خودرو را انجام دهد و با سرویسهای شخص ثالث ارتباط برقرار کند، آن هم با fluency مکالمهای پیشرفتهتر. این قابلیت با تمرکز Anthropic بر ابزارهای عاملمحور همسو است و الکسا را به یک دستیار هوشمند مستقلتر تبدیل میکند.
پیامدها: ادغام Claude در Alexa نشاندهنده یک همکاری عمیق بین Amazon و Anthropic است که میتواند بازار دستیارهای هوشمند را با عملکردهای مبتنی بر هوش مصنوعی متحول کند.
جزئیات بیشتر در وبلاگ آمازون.
چت جی پی تی و گراک به قابلیت مکالمه صوتی مجهز شدند
تعامل صوتی یکی از موضوعات مهم این هفته بود. OpenAI قابلیت حالت صوتی ChatGPT را برای کاربران بیشتری گسترش داد. پیش از این، فقط کاربران پولی میتوانستند از ویژگی مکالمه صوتی استفاده کنند (که در آن میتوان با ChatGPT صحبت کرد و پاسخهای صوتی طبیعی دریافت کرد). اما از این هفته، کاربران رایگان نیز میتوانند پیشنمایشی از مکالمات صوتی را تجربه کنند که با یک مدل سبکشده از GPT-4 اجرا میشود.

این تغییر به این معناست که هر کسی اکنون میتواند در اپلیکیشن موبایل با ChatGPT صحبت کند و پاسخ صوتی دریافت کند، که باعث میشود این هوش مصنوعی بیشتر شبیه یک دستیار شخصی واقعی به نظر برسد.
X.AI نیز با Grok 3 وارد رقابت شد و قابلیت صوتی خود را در اپلیکیشن Grok عرضه کرد. اما این ویژگی یک تفاوت جالب دارد: Grok چندین حالت شخصیتی یا “صدا” برای انتخاب ارائه میدهد.
برخی از این حالتها نامهای خاصی دارند، از جمله Storyteller، Romantic، Meditation، Conspiracy، Not-a-Therapist و حتی Unhinged و Sexy. این حالتها سبک و لحن پاسخهای صوتی هوش مصنوعی را تغییر میدهند.
برای مثال، حالت Unhinged لحن کاملاً غیرسانسورشده و صریحی دارد، همراه با زبان تند و حالت پرخاشگرانه. در یک نمایش سریع، Grok در حالت Unhinged کاربر را اینگونه خطاب کرد: “یو، من فوقالعادهام، تو چطوری؟ اوضاع اون بیرون بهم ریخته یا چی؟” که قطعاً شبیه به یک دستیار معمولی مؤدب نیست.
در حالی که این حالتها بیشتر برای سرگرمی طراحی شدهاند تا کاربردهای جدی (احتمالاً کسی دوست ندارد فرزندش با یک هوش مصنوعی در حالت “Unhinged” تعامل کند)، این ویژگی نشان میدهد که چگونه صدای هوش مصنوعی میتواند برای شخصیتپردازی و ارزشهای سرگرمی تنظیم شود.
ویژگی صوتی Grok در حال حاضر فقط برای کاربرانی که بالاترین سطح اشتراک X (توییتر) Premium را دارند (حدود ۳۰ تا ۴۰ دلار در ماه) از طریق اپلیکیشن Grok در دسترس است. این یک آزمایش جدید در جهت هوشمندتر و سرگرمکنندهتر کردن دستیارهای هوش مصنوعی است.
با توجه به این نوآوری، بعید نیست که سایر پلتفرمهای هوش مصنوعی نیز در آینده صداها یا سبکهای شخصیتی مشابهی را معرفی کنند، بهویژه در مدلهای تعاملی که برای استفاده خانگی طراحی شدهاند.
بدون دیدگاه