OpenAI در ماه های اخیر گام های افزایشی بیشتری نسبت به جهش های بی نظیر در هوش مصنوعی مولد برداشته است و ترجیح می دهد تا ابزار های خود را با آموزش جانشین مدل های پیشرو فعلی GPT 4o و GPT 4o mini، اصلاح و تنظیم کند.
این شرکت روش هایی را برای بهبود عملکرد کلی مدل های خود و جلوگیری از خروج آن ها از ریل به همان اندازه که قبلا انجام می داد، اصلاح کرده است، اما به نظر می رسد OpenAI پیشروی فنی خود را در مسابقه هوش مصنوعی مولد از دست داده است، حداقل بر اساس برخی معیار ها. یکی از دلایل می تواند چالش فزاینده یافتن داده های آموزشی با کیفیت بالا باشد.
مدل های OpenAI، مانند بسیاری از مدل های هوش مصنوعی مولد، بر روی مجموعه های عظیم داده های وب آموزش دیدهاند؛ داده های وب که بسیاری از سازندگان به دلیل ترس از سرقت داده هایشان یا عدم دریافت اعتبار یا پرداخت آن ها را انتخاب می کنند تا به آن ها دسترسی داشته باشند.
بر اساس داده های Originality.AI، بیش از 35 درصد از 1000 وب سایت برتر جهان اکنون OpenAI’s web crawler (برنامه ای است که به طور سیستماتیک وب جهانی را مرور می کند تا فهرستی از داده ها ایجاد کند) را مسدود می کنند.
مطالعه انجام شده توسط MIT's Data Provenance Initiative نشان داد که حدود 25 درصد از داده های منابع با کیفیت بالا از مجموعه داده های اصلی مورد استفاده برای آموزش مدل های هوش مصنوعی محدود شده است.
اگر روند فعلی مسدود کردن دسترسی ادامه یابد، گروه تحقیقاتی Epoch AI پیش بینی می کند که توسعه دهندگان با کمبود داده ها برای آموزش مدل های هوش مصنوعی بین سال های 2026 تا 2032 مواجه خواهند شد.
گفته میشود که OpenAI یک تکنیک استدلال ایجاد کرده است که می تواند پاسخ های مدل های خود را در مورد سوالات خاص، به ویژه سوالات ریاضی، بهبود بخشد. میرا موراتی، مدیر ارشد فناوری این شرکت، مدل آینده ای با هوش در سطح دکترا را وعده داده است.
OpenAI هنوز با مناقشات زیادی روبرو است، مانند استفاده از داده های دارای حق چاپ برای آموزش، NDA های محدود کننده کارکنان، و به طور موثر بیرون راندن محققان ایمنی.
چرخه محصول کند تر ممکن است اثر جانبی مفیدی را برای مقابله با این روایت داشته باشد که OpenAI کار روی ایمنی هوش مصنوعی را به دنبال فناوری های هوش مصنوعی توانمند تر و قوی تر از اولویت بندی قرار داده است.