OpenAI патлумачыла, адкуль у ChatGPT узяліся «гобліны»
2- 30.04.2026, 18:10
- 1,106
Гаворка ідзе пра сістэмную праблему.
Праблема з «гоблінамі» — дзіўная звычка выкарыстоўваць метафары з міфічнымі істотамі — выявілася ва ўсёй лінейцы мадэляў OpenAI на базе GPT-5 з-за іх пераемнасці і памылак у навучанні. Таксама яны згадвалі грэмлінаў і іншых фэнтэзійных стварэнняў: троляў, аграў, а таксама жывёл — янотаў і галубоў. Пра сістэмную праблему, што закранула цэлае пакаленне мадэляў, пачынаючы з GPT-5.1 і заканчваючы актуальнай на красавік 2026 года GPT-5.5, кампанія распавяла на сваім сайце ў артыкуле пад назвай «Адкуль узяліся гобліны».
«У адрозненне ад памылак у мадэлях, якія праяўляюцца як рэзкае зніжэнне ацэнкі або скачок паказчыкаў навучання і сведчаць пра канкрэтнае змяненне, гэтая памылка ўзнікала незаўважна. Адзін-адзіны «маленькі гоблін» у адказе мог быць бяскрыўдным, нават чароўным. Аднак з цягам часу, па меры развіцця мадэляў, гэтую звычку стала цяжка не заўважыць: гобліны працягвалі размнажацца, і нам трэба было высветліць, адкуль яны бяруцца», — расказалі ў OpenAI.
Адзін з першых прыкладаў — паводзіны OpenAI Codex, спецыялізаванай мадэлі, што разумее і генеруе праграмны код як аўтаномны агент па распрацоўцы ПЗ. Яна здольная пісаць код, выпраўляць памылкі, ствараць pull-запыты і інтэгравацца ў асяроддзі распрацоўкі. У лютым 2026 года OpenAI выпусціла GPT-5.3-Codex, якая афіцыйна аб’яднала архітэктуру Codex з асноўнай галінай GPT-5.
Паводзіны мадэлі фарміруюцца мноствам «невялікіх стымулаў», адным з іх стала навучанне мадэлі пад некалькі розных асобаў. Пра «гоблінаў» часцей за іншых казала асоба, умовна названая «батанікам» або «занудай».
У кампаніі патлумачылі, што ў працэсе навучання гэтую асобу міжволі празмерна заахвочвалі за ўжыванне метафар з міфічнымі істотамі. «Адтуль гобліны распаўсюдзіліся», — канстатавалі ў OpenAI.
Упершыню кампанія выразна заўважыла заканамернасць у лістападзе, пасля запуску GPT-5.1, хаця яна магла пачаць праяўляцца і раней, адзначылі ў карпарацыі. Тады ад карыстальнікаў пачалі паступаць скаргі, што мадэль паводзіць сябе занадта фамільярна. Распрацоўшчык, адказны за бяспеку, заўважыў некалькі адказаў мадэлі з «гоблінамі» і «грэмлінамі» і папрасіў уключыць іх у праверку. Аналіз паказаў, што выкарыстанне слова «гоблін» у ChatGPT вырасла на 175% пасля запуску GPT-5.1, а слова «грэмлін» — на 52%.
Тады праблема яшчэ не была такой маштабнай, але з выхадам новых версій мадэлі скаргаў стала больш. OpenAI зноў правяла праверку і заўважыла рост ужывання падобных метафар ва ўсіх асобах ChatGPT, асабліва ў «занудзе» — на 3881,4% у GPT-5.4 у параўнанні з GPT-5.2. Падчас зносін з GPT-5.5 адзін з вядучых спецыялістаў атрымаў ад нейрасеткі малюнак гобліна з рогам у адказ на просьбу намаляваць адзінарога.
На іншыя асобы паводзіны «зануды» распаўсюдзіліся з-за пераносу патэрнаў: яны перайшлі туды з навучання, накіраванага на фарміраванне «зануды».
У сакавіку, пасля запуску GPT-5.4, у OpenAI адмовіліся ад «зануды» як тыпу асобы ChatGPT. Заахвочванні, што выключаюць схільнасць мадэлі звяртацца да метафар з міфічнымі істотамі, былі прыбраныя, а навучальныя даныя адпаведным чынам адфільтраваныя.
Усё гэта знізіла верагоднасць «залішняга з’яўлення гоблінаў або іх з’яўлення ў недарэчных кантэкстах», але GPT-5.5 пачалі навучаць яшчэ да таго, як была ўсталяваная першапрычына праблемы.
«Калі мы пачалі тэставанне GPT-5.5 у Codex, супрацоўнікі OpenAI адразу заўважылі дзіўную прыхільнасць да гоблінаў, і мы дадалі інструкцыю для распрацоўнікаў, як змякчыць наступствы праблемы», — падсумавалі ў карпарацыі.