هر هفته در دنیای هوش مصنوعی از هفته قبل هیجان‌انگیزتر می‌شود، و این هفته هم استثنا نبود. انتشار مدل‌های جدید هوش مصنوعی، نتایج خیره‌کننده در بنچمارک‌ها و کاربردهای نوآورانه در صدر اخبار بودند. از رقابت شدید OpenAI و Anthropic در عرضه مدل‌های پیشرفته گرفته تا قدرت‌بخشی آمازون به الکسا با یک مغز هوش مصنوعی قوی‌تر—این هفته پر از اتفاقات مهم بود. بیایید با نگاهی فنی اما به زبان ساده، به مهم‌ترین اخبار هوش مصنوعی این هفته بپردازیم.

Anthropic مدل‌های Claude 3.7 Sonnet و Claude Code را معرفی کرد

Anthropic این هفته را با رونمایی از دو مدل مهم Claude 3.7 Sonnet و Claude Code آغاز کرد؛ مدل‌هایی که تمرکز زیادی روی مهارت‌های برنامه‌نویسی و توانایی‌های عامل‌محور (agentic) دارند.

Claude 3.7 Sonnet:
علاوه بر این، در استفاده از ابزارهای عامل‌محور هم برتری دارد و می‌تواند برخی وظایف را به‌صورت خودکار انجام دهد—ویژگی‌ای که ارتباط مستقیمی با اعلامیه آمازون در مورد الکسا در این هفته دارد. بااین‌حال، در حل مسائل ریاضی سطح پیشرفته و استدلال در سطح تحصیلات تکمیلی نسبت به Grok 3 و O3 Mini از OpenAI کمی ضعیف‌تر عمل می‌کند، اما بهبودهای قابل‌توجه آن در برنامه‌نویسی، آن را به گزینه‌ای ایده‌آل برای توسعه‌دهندگان تبدیل کرده است.

حالت تفکر گسترده (Extended Thinking Mode)
یکی از ویژگی‌های جدید Claude 3.7 Sonnet این است که می‌تواند زمان بیشتری را برای حل مسائل پیچیده اختصاص دهد، مشابه DeepSeek R1 و O1/O3 از OpenAI. این قابلیت یک مدل جداگانه نیست، بلکه یک گزینه اضافی است که به مدل اصلی اجازه می‌دهد تا مدت بیشتری پردازش کند و پاسخ‌های دقیق‌تری ارائه دهد.

برای مثال، سوال ساده‌ای مثل “چند تا R در کلمه ‘strawberry’ وجود دارد؟” چند ثانیه بیشتر طول می‌کشد اما دقت پاسخ را افزایش می‌دهد. اما در پرامپت‌های پیچیده‌تر—مثلاً طراحی یک چارچوب برای تاخوردگی پروتئین (Protein Folding)—مدل می‌تواند تا ۳۲ ثانیه برای تحلیل و پردازش وقت بگذارد تا بهترین راه‌حل را ارائه دهد.

Claude Code: دستیار برنامه‌نویسی هوشمند
همزمان با Claude 3.7، Anthropic از ابزار جدیدی به نام Claude Code رونمایی کرد؛ یک همراه برنامه‌نویسی هوش مصنوعی که مستقیماً در ترمینال شما اجرا می‌شود. نصب Claude Code در یک پروژه، این ابزار را قادر می‌سازد تا به کد شما دسترسی پیدا کند، فایل‌ها را بخواند، پیشنهاد ارائه دهد، دیباگ کند و حتی کد جدید بنویسد. در واقع، این ابزار مانند یک همکار برنامه‌نویسی هوش مصنوعی است که از کل پروژه شما آگاهی دارد.

فقط چند روز بعد از انتشار، برنامه‌نویسان دموهای خیره‌کننده‌ای از Claude Code به نمایش گذاشتند:

ساخت اپلیکیشن‌های وب کامل تنها با یک پرامپت: از یک سایت املاک با طراحی مدرن گرفته تا یک اپلیکیشن انیمیشنی هواشناسی

ساخت بازی‌ها: از یک بازی مسابقه‌ای سه‌بعدی به نام “Claude Kart” تا یک بازی Snake خودآگاه که در حین حرکت، افکار طنز خود را چاپ می‌کند!

شبیه‌سازی شهر سه‌بعدی: کاربران توانستند با یک پرامپت، یک شهر سه‌بعدی کامل با آدم‌هایی که حرکت می‌کنند و سایه‌هایی که تغییر می‌کنند ایجاد کنند.

این موفقیت‌های سریع نشان می‌دهد که یک دستیار برنامه‌نویسی مبتنی بر هوش مصنوعی که بتواند کل پروژه را درک کند، چقدر می‌تواند قدرتمند باشد. Claude Code در حال جلب توجه گسترده جامعه توسعه‌دهندگان است و Anthropic را به عنوان یک بازیگر کلیدی در دنیای ابزارهای توسعه‌دهی مبتنی بر هوش مصنوعی مطرح کرده است.

🔗 برای اطلاعات بیشتر، به سایت رسمی Anthropic مراجعه کنید.


OpenAI از GPT-4.5 با اسم رمز “Orion” رونمایی کرد

OpenAI هم برای عقب نماندن از رقبا، در اواخر هفته GPT-4.5 را معرفی کرد که به‌صورت داخلی با اسم رمز “Orion” شناخته می‌شود. این مدل جدید مرحله‌ای بین GPT-4 و نسخه احتمالی آینده یعنی GPT-5 محسوب می‌شود و OpenAI بیش از یک سال روی آموزش آن کار کرده است.

بهبودها و ویژگی‌های کلیدی:

تاریخ برش داده همچنان ۲۰۲۳ است (مشابه GPT-4)، اما پاسخ‌های مدل به طرز قابل‌توجهی بهبود یافته‌اند.

— در ارائه رسمی OpenAI، بر بهبود “وایب” مدل تأکید شد—به این معنا که پاسخ‌های GPT-4.5 طبیعی‌تر، محاوره‌ای‌تر و شبیه‌تر به لحن انسانی شده‌اند.

— در مقایسه‌های کنار به کنار (Side-by-Side)، متن‌های تولیدی GPT-4.5 نسبت به نسخه‌های قبلی روان‌تر، مختصرتر و منسجم‌تر بودند.

این تغییرات نشان داد که OpenAI نه فقط بر افزایش توانمندی‌های فنی مدل، بلکه بر تجربه کاربری هم تمرکز ویژه‌ای داشته است.

Benchmark Compare

Benchmark Comparison

Metric GPT-4.5 GPT-4.0 O1 O3 Mini
Simple QA 62.5% 38.6% 47% 15%
Hallucinations 37.1% 61.8% 44% 80%
Math 36.7% 9.3% 87.3%
Science 71.4% 53.6% 79.7%
SWE-Bench 38% 61%

ویژگی‌های کلیدی: GPT-4.5 به جای تمرکز صرف بر قدرت استدلال خام، بر ایجاد حس محاوره‌ای طبیعی‌تر تمرکز دارد. این مدل در یک بنچمارک ساده پرسش و پاسخ امتیاز 62.5 درصد را کسب کرده است (در مقایسه با 38.6 درصد برای GPT-4.0، 47 درصد برای O1 و 15 درصد برای O3 Mini) و میزان توهمات را به 37.1 درصد کاهش داده است (در مقایسه با 80 درصد برای O3 Mini). با این حال، در ریاضیات (36.7 درصد) یا علوم (71.4 درصد) به پای مدل‌های مبتنی بر استدلال مانند O3 Mini نمی‌رسد و در SWE-Bench نیز عملکرد برتری ندارد (38 درصد در مقابل 61 درصد برای O3).

فراتر از سبک پاسخ‌گویی، GPT-4.5 در قابلیت اطمینان نیز پیشرفت‌هایی داشته است. در ارزیابی‌های داخلی OpenAI، این مدل در دقت پاسخ‌گویی به سوالات ساده امتیاز بالاتری نسبت به نسخه‌های قبلی به دست آورده و میزان توهمات آن به شکل قابل توجهی کاهش یافته است. در یک بنچمارک پرسش و پاسخ واقعی، GPT-4.5 توانست 62.5 درصد از پاسخ‌ها را به درستی ارائه دهد، در حالی که GPT-4 اصلی تنها 38 درصد پاسخ درست داشت و مدل‌های قدیمی‌تر امتیازهای پایین‌تری گرفتند. همچنین میزان تولید اطلاعات نادرست توسط GPT-4.5 به حدود 37 درصد کاهش یافته است، در حالی که مدل GPT-3.5 (همان O3 Mini که توسط OpenAI معرفی شده) تقریباً 80 درصد مواقع دچار توهم می‌شد. این کاهش قابل توجهی در تولید اطلاعات نادرست است. با این حال، OpenAI در نمودارهای خود GPT-4.5 را تنها با نسخه‌های قبلی خود مقایسه کرده است و هیچ اشاره‌ای به مدل‌های رقیب نکرده است.

آزمایش‌های اولیه نشان می‌دهد که GPT-4.5 در یک حوزه خاص برجسته است: این مدل در وظایف خلاقانه و مکالمه‌ای عملکرد درخشانی دارد. در ایده‌پردازی، نوشتن در سبک‌های مختلف و تعامل جذاب مهارت بالایی دارد، تا حدی که سم آلتمن، مدیرعامل OpenAI، اظهار داشت که GPT-4.5 “اولین مدلی است که شبیه مکالمه با یک فرد متفکر به نظر می‌رسد.” این مدل کمتر از GPT-4 دچار توضیح اضافی یا لحن بیش از حد رسمی می‌شود. برای مثال، در پاسخ به یک سوال غیررسمی، GPT-4.5 پاسخی کوتاه و طبیعی ارائه می‌دهد، در حالی که GPT-4 ممکن است توضیحی طولانی یا با لحنی رسمی‌تر ارائه کند. این تنظیم در “حس تعامل” باعث شده مکالمات روان‌تر به نظر برسند.

از سوی دیگر، GPT-4.5 جهش بزرگی در قدرت استدلال خام ایجاد نکرده است. آلتمن هشدار داده که این مدل “مدلی برای استدلال نیست” و “در بنچمارک‌ها عملکرد خارق‌العاده‌ای نخواهد داشت.” در مسائل پیچیده ریاضی و برخی معماهای منطقی، مدل‌های تخصصی دیگر مانند Grok 3 (از X.AI) یا DeepSeek R1 همچنان برتری دارند. به نظر می‌رسد OpenAI GPT-4.5 را بیشتر به عنوان یک ارتباط‌دهنده هوشمند معرفی کرده تا یک حل‌کننده مسائل کمی. این مدلی با نوع متفاوتی از هوش است که بر کیفیت مکالمه متمرکز است.

در حال حاضر، GPT-4.5 فقط برای مشترکین طرح ChatGPT Pro (که ۲۰۰ دلار در ماه هزینه دارد و برای کاربران سازمانی و حرفه‌ای در نظر گرفته شده) در دسترس است. OpenAI دلیل این عرضه محدود را تقاضای بسیار بالا بر روی سرورهای GPU خود اعلام کرده است. این شرکت در زمان راه‌اندازی عملاً با کمبود GPU برای استقرار گسترده مواجه شد. با این حال، OpenAI قصد دارد طی مدت کوتاهی ده‌ها هزار GPU جدید اضافه کند و GPT-4.5 را در هفته آینده برای تمامی کاربران ChatGPT Plus (طرح ۲۰ دلاری در ماه) نیز عرضه کند. بنابراین، دسترسی گسترده‌تر به این مدل در حال نزدیک شدن است. همچنین کاربران ChatGPT Plus این هفته چند قابلیت جدید دریافت کرده‌اند، اما GPT-4.5 همچنان ویژگی شاخصی است که تا زمانی که زیرساخت OpenAI به سطح مطلوب برسد، فقط در اختیار کاربران Pro خواهد بود.

برای جزئیات بیشتر، می‌توانید به اعلامیه رسمی OpenAI مراجعه کنید.


آمازون از Alexa Plus رونمایی کرد:
دستیار صوتی مجهز به هوش مصنوعی Claude

یک نسخه بازطراحی‌شده از دستیار صوتی که با هوش مصنوعی Claude از Anthropic کار می‌کند و برای اعضای Prime رایگان است.

برتری فنی: با بهره‌گیری از قابلیت‌های عامل‌محور Claude 3.7، Alexa Plus می‌تواند کارهایی مانند سفارش از Uber Eats یا رزرو خودرو را انجام دهد و با سرویس‌های شخص ثالث ارتباط برقرار کند، آن هم با fluency مکالمه‌ای پیشرفته‌تر. این قابلیت با تمرکز Anthropic بر ابزارهای عامل‌محور همسو است و الکسا را به یک دستیار هوشمند مستقل‌تر تبدیل می‌کند.

پیامدها: ادغام Claude در Alexa نشان‌دهنده یک همکاری عمیق بین Amazon و Anthropic است که می‌تواند بازار دستیارهای هوشمند را با عملکردهای مبتنی بر هوش مصنوعی متحول کند.

جزئیات بیشتر در وبلاگ آمازون.


چت‌ جی‌ پی‌ تی و گراک به قابلیت مکالمه صوتی مجهز شدند

تعامل صوتی یکی از موضوعات مهم این هفته بود. OpenAI قابلیت حالت صوتی ChatGPT را برای کاربران بیشتری گسترش داد. پیش از این، فقط کاربران پولی می‌توانستند از ویژگی مکالمه صوتی استفاده کنند (که در آن می‌توان با ChatGPT صحبت کرد و پاسخ‌های صوتی طبیعی دریافت کرد). اما از این هفته، کاربران رایگان نیز می‌توانند پیش‌نمایشی از مکالمات صوتی را تجربه کنند که با یک مدل سبک‌شده از GPT-4 اجرا می‌شود.

این تغییر به این معناست که هر کسی اکنون می‌تواند در اپلیکیشن موبایل با ChatGPT صحبت کند و پاسخ صوتی دریافت کند، که باعث می‌شود این هوش مصنوعی بیشتر شبیه یک دستیار شخصی واقعی به نظر برسد.

X.AI نیز با Grok 3 وارد رقابت شد و قابلیت صوتی خود را در اپلیکیشن Grok عرضه کرد. اما این ویژگی یک تفاوت جالب دارد: Grok چندین حالت شخصیتی یا “صدا” برای انتخاب ارائه می‌دهد.

برخی از این حالت‌ها نام‌های خاصی دارند، از جمله Storyteller، Romantic، Meditation، Conspiracy، Not-a-Therapist و حتی Unhinged و Sexy. این حالت‌ها سبک و لحن پاسخ‌های صوتی هوش مصنوعی را تغییر می‌دهند.

برای مثال، حالت Unhinged لحن کاملاً غیرسانسورشده و صریحی دارد، همراه با زبان تند و حالت پرخاشگرانه. در یک نمایش سریع، Grok در حالت Unhinged کاربر را این‌گونه خطاب کرد: “یو، من فوق‌العاده‌ام، تو چطوری؟ اوضاع اون بیرون بهم ریخته یا چی؟” که قطعاً شبیه به یک دستیار معمولی مؤدب نیست.

در حالی که این حالت‌ها بیشتر برای سرگرمی طراحی شده‌اند تا کاربردهای جدی (احتمالاً کسی دوست ندارد فرزندش با یک هوش مصنوعی در حالت “Unhinged” تعامل کند)، این ویژگی نشان می‌دهد که چگونه صدای هوش مصنوعی می‌تواند برای شخصیت‌پردازی و ارزش‌های سرگرمی تنظیم شود.

ویژگی صوتی Grok در حال حاضر فقط برای کاربرانی که بالاترین سطح اشتراک X (توییتر) Premium را دارند (حدود ۳۰ تا ۴۰ دلار در ماه) از طریق اپلیکیشن Grok در دسترس است. این یک آزمایش جدید در جهت هوشمندتر و سرگرم‌کننده‌تر کردن دستیارهای هوش مصنوعی است.

با توجه به این نوآوری، بعید نیست که سایر پلتفرم‌های هوش مصنوعی نیز در آینده صداها یا سبک‌های شخصیتی مشابهی را معرفی کنند، به‌ویژه در مدل‌های تعاملی که برای استفاده خانگی طراحی شده‌اند.


برای آموزش های بیشتر از طریق لینک زیر، کانال یوتیوب تیم مارو دنبال کنید.

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *