OpenAI به مدل های قبلی GPT آموزش داد تا الگو های داده های آموزشی خود را تقلید کنند. با o1، مدل را آموزش داد تا با استفاده از تکنیکی به نام یادگیری تقویتی، که از طریق پاداش و جریمه به سیستم می آموزد، مسائل را به تنهایی حل کند.
سپس از یک زنجیره فکر برای پردازش پرس و جو ها استفاده می کند، مشابه اینکه انسان چگونه مشکلات را با مرور مرحله به مرحله پردازش می کند.
OpenAI می گوید که در نتیجه این روش آموزشی جدید این مدل باید دقیق تر باشد. تورک می گوید :« ما متوجه شده ایم که این مدل کمتر توهم می زند. اما مشکل همچنان پابرجاست. ما نمی توانیم بگوییم که توهمات را حل کردیم.»
به گفته OpenAI، اصلی ترین چیزی که این مدل جدید را از GPT-4o متمایز می کند، توانایی آن در مقابله با مسائل پیچیده، مانند کد نویسی و ریاضی، بسیار بهتر از مدل های قبلی خود و همچنین توضیح استدلال آن است.
باب مک گرو، مدیر ارشد تحقیقات OpenAI، گفته است که :« این مدل قطعا در حل آزمون ریاضی AP بهتر از من است و من در کالج خردسال ریاضی بودم.»
او میگوید OpenAI همچنین o1 را در مقابل یک آزمون واجد شرایط برای المپیاد بینالمللی ریاضی آزمایش کرد، و در حالی که GPT-4o تنها 13 درصد از مسائل را به درستی حل کرد، o1 امتیاز 83 درصد را کسب کرد.
در مسابقات برنامهنویسی آنلاین که به عنوان مسابقات Codeforces شناخته می شوند، این مدل جدید به صدک ۸۹ شرکت کنندگان رسید و OpenAI ادعا می کند که به روزرسانی بعدی این مدل به طور مشابه دانشجویان دکترا در وظایف چالش برانگیز در فیزیک، شیمی و زیست شناسی عمل می کند.