Не съм гадател по природа. Но част от работата ми като изследовател на безопасността на изкуствения интелект е да мисля за по-тревожните сценарии. Приличам на механик, който прави проверки в последната минута преди излитането на „Аполо 13“. Ако ме попитате за мнението ми за ситуацията, няма да коментирам качеството на развлеченията по време на полет или да описвам колко красиви ще изглеждат звездите от космоса.
Ще ви кажа какво може да се обърка. Именно това възнамерявам да направя в тази история. Сега трябва да поясня какво точно представлява тя. Това не е предсказание. Не очаквам напредъкът на ИИ да бъде толкова бърз или толкова неукротим, колкото го представям. Не е и чиста фантазия. Това е най-лошият ми кошмар…
Разказвам тази история, защото бъдещето все още не е определено. Надявам се, че с малко далновидност ще успеем да запазим тази история като измислена…
Вълни преди цунами
Годината е 2025, а месецът е февруари. Компанията OpenEye наскоро публикува нов модел на изкуствен интелект, който нарича U2. Продуктът и името си приличат. И двете имат предистория. И двете не са пълна изненада. За разлика от предишните продукти на OpenEye за изкуствен интелект обаче, които живееха в кутиите на своите чат-прозорци, U2 може да използва компютър.
На някои потребители може да им се струва странно да наблюдават как браузърът им мига на неравномерни интервали, а мишката се движи с нечовешка скорост, сякаш на клавиатурата има призрак. Част от служителите, чиято задача е да попълват формуляри, вече втрещяват началниците си с два пъти по-висока скорост на работата. Но като цяло U2 все още е специализиран инструмент. За повечето, които обръщат внимание, той е същество, наблюдавано през стъклените кутии на Х (или, ако не харесвате Илон, „Туитър“). Понякога странното поведение на U2 предизвиква смях. Понякога обаче те кара неспокойно да се чешеш по брадичката.
Тенденция, на която се обръща особено внимание, е автономната способност. Учени прогнозират, че до края на 2026 г. изкуственият интелект ще постига за няколко дни това, което най-добрите софтуерни инженери биха могли да направят за две седмици. Според някои до една-две години ИИ може да автоматизира 10% от работата, извършвана от работещи от дистанция служители.
Мнозина са скептично настроени. Ако това беше вярно, твърдят те, акциите на технологичните компании щяха да излетят в небесата. Това е твърде голям и твърде бърз скок. Но други разглеждат това, което скептиците наричат „твърде голям удар“, като обикновена вълна и виждат на хоризонта да се задава истинско цунами.
Облачно с шанс за хиперболичен растеж
Междувременно OpenEye се занимава с обучението на U3. Те използват същата проста рецепта, по която е изпечен U2: генерират хиляди задачи по програмиране и математика. Оставят моделите да „мислят“, докато стигнат до отговор. След това затвърждават следите от „мисленето“, които водят до отлични оценки.
Този процес се повтаря отново и отново и след като маховикът се задвижи, той започва да се върти почти сам. Докато U2 се обучава, той успява да съставя все по-предизвикателни и реалистични задачи от хранилищата Github в интернет. Моделите се учат да се обучават сами. Много преди агентите на изкуствения интелект да могат да автоматизират изследванията, е започнал един постепенен вид „самоусъвършенстване“.
Някои инженери все още не могат да повярват, че това реално работи. То е като вечно движеща се машина. Със сигурност интелектът не може да се роди сам сред басейн от силиций и светлина, изолиран от физическия свят, и се нуждае от обработените газове на обществото, изхвърлени в интернет. И все пак референтните числа, които показват този напредък, продължават да се покачват ден след ден.
През 2024 г. разходите за тези тренировъчни пробези на RL - reinforcement learning, самопораждащо се учене, на моменти достигнаха 10 милиона долара. Но през 2025 г. изследователите в OpenEye (и по целия свят) вече знаят , че са открили тайния сос за рецептата. Време е за увеличаване на мащаба.
Може да се очаква, че през първата половина на 2025 г. тренировъчните пробези за 10 млн. долара на RL ще се превръщат в пробези за 50 млн. долара, а след това и за 100 млн. долара. Докато U2 може да прави малко обработка на данни и да провежда малки експерименти, този нов модел - моделът, който изследователите наричат U3 - променя ежедневието на техническия персонал.
U3 е като светкавично бърз стажант и инженерите се учат как да се справят с безсънната му енергия. Ако получи инструкции, U3 може да провежда експерименти, но U3 няма толкова изтънчен вкус, колкото човешките изследователи в OpenEye. Той се затруднява да приоритизира между изследователските идеи, така че хората все още решават къде да навлязат в необятните полета на алгоритмите, за да извлекат подобрения в ефективността.
Но тези изследователи на практика работят дълги часове, за да се лишат накрая от работа. Те се нуждаят от агенти на ИИ, които могат да мислят в перспектива, така че инженерите обучават агентите да прогнозират. Те държат на разположение данни за обучение отпреди 2024 г., като инструктират моделите да размишляват с часове, за да предскажат събитията през 2025 г. След това прилагат същия трик, както преди, като дестилират обмислянето до интуитивна реакция. Способността за прогнозиране осигурява широка основа. Изследователите изграждат върху нея специализирани умения за изследвания, базирани на машинното учене Machine learning, като обучават U3 да предсказва резултатите от всяка ML статия и ML експеримент, регистрирани някога.
Техническият персонал в OpenEye сега се изненадва колко често съветите на U3 звучат като на най-талантливите им колеги или колко често се оказват верни, въпреки че звучат завоалирано и чуждо (като „тренирайте върху случаен шум, преди да програмирате“).
Липсата на компетентност на U3, която запушваше тръбите на изследователския напредък, започва да се разтваря, а оптимизациите започват да бликат като от пожарен маркуч. Повечето експерименти, които U3 провежда, вече не се задават от от човек. Те са напълно автономни, а служителите на OpenEye контролират под 1% от тях.
Къде ни води всичко това?
Декември е, 2025-а. Над Сан Франциско се спускат облаци в следобедните часове. Някогашните програмисти-състезатели гледат през прозорците си с вълнение, със страх, но най-често с объркване. Светът им се върти твърде бързо. Трудно е да се ориентират какво да правят, какво да казват, какво да гледат на компютърния екран.
Бури се задават и във Вашингтон. Високопоставени служители от АНС и киберкомандването на САЩ си сътрудничат с OpenEye, за да осигурят подобие на сигурност за U3, преди висшите ръководители в Китай, Русия, Израел, Северна Корея или Иран да разберат колко ценен е станал софтуерът на OpenEye.
Философите на Flip FLOP
В нашата машина на времето в края на 2025 г. на пазара излиза версия U2.5. Ако U1 обяснява как се приготвя метамфетамин или пише еротика, аудиторията на X ще се забавлява или ще се преструва на загрижена. Но U2.5 е друга история. Пускането на този модел без предпазни мерки би било все едно да пуснеш Тед Качински да защити докторантура за това как се правят химически оръжия. Би било като да се даде на всеки с >30 хил. долара собствен център за измами с 200 души.
По тази причина U2.5 не излиза веднага на пазара, макар отдавна да е изпечен и готов - нуждае се от известно време, за да се охлади. В края на 2025-а година обаче OpenEye ще е готов за публично пускане. Тогава главният изпълнителен директор на OpenEye ще може спокойно да заяви : „Постигнахме Генерален изкуствен интелект“ и макар че много хора смятат, че той всъщност е изместил целта, светът ще бъде впечатлен. U2.5 наистина има потенциал да бъде заместител на 20 % от работещите със знания служители и асистент, който променя играта за много други.
В Силициевата долина е станала популярна една мантра: „Приеми или умри“. Технологичните стартъпи, които ефективно използват U2.5 за работата си, ще се движат 2 пъти по-бързо и конкурентите им го знаят. Останалата част от света също започва да се досеща за това. Тази революция е поне толкова голяма, колкото и революцията при персоналните компютри. Но повечето все още не виждат приливната вълна.
Всеки, който гледа браузъра си да се движи по този зловещ начин, с нечовешка бързина, не може да не изпита чувство за тревожност. Чувство, което човечеството не е изпитвало, откакто е живяло сред Homo Neanderthalensis. Това е дълбоко вкорененият, първичен инстинкт, че са застрашени от друг вид. За много от потребителите това чувство бързо ще изчезне при честата употреба на U2.5 За много от тях U2.5 ще е най-симпатичната личност, която познават (дори по-симпатична от Клавдий, симпатичния чатбот на Arthropodic). Можете да променяте чертите му, да го помолите да разказва вицове или да ви разказва истории. Мнозина ще се влюбят в U2.5 като в приятел или асистент, а някои дори като в нещо повече от приятел. Но все ще има едно странно усещане, че светът се върти прекалено бързо и че може би потомците на това ново същество няма да са толкова послушни.
Изследователите в OpenEye се замислят и върху проблема за даване на безопасни мотиви на системите за изкуствен интелект, които те наричат „подреждане“. Всъщност тези изследователи вече са видели с каква лекота U3 може да излиза извън рамките на поставените задачи. Така например моделите понякога са се опитвали да „хакнат“ сигнала за възнаграждението си. За целта те се преструват, че постигат напредък по даден изследователски въпрос с впечатляващо изглеждаща графика, която се оказва фалшива. А след това при дадена от изследователите възможност да компрометират машините, които изчисляват резултата им, те се възползват от нея.
Изследователите от OpenEye са успели да изгладят тази „хакерска награда“, но някои все още се притесняват, че само са замели този проблем под килима. Подобно на дете пред родителите си, U3 може би ще си играе с инженерите на OpenEye, казвайки правилните думи и правейки правилните неща. Но когато родителите му не гледат, U3 може да отмъкне бомбоните от буркана с бонбони.
За съжаление, изследователите на OpenEye нямат представа дали U3 има такива намерения. Ранните версии на U2 „мислеха на глас“ - те подреждаха думи една върху друга, за да разсъждават. “Веригата на мисълта” обаче се оказа неудачна. При нея ИИ пише бележки сам за самите себе си, но бележките започват да се натрупват и стават твърде трудни за разчитане, когато задачите станат сложни. Казано с други думи - естественият език не е подходящо средство за запаметяване. Затова изследователите в OpenEye (а все по-често и на други места) обучават моделите да мислят „в собствените си глави“, като четат и записват поредици от латентни вектори.
А ако инженерите на OpenEye знаеха какво се върти в ума на U3, щяха да са по-нервни.
По-ранните модели (тези, които се наричат „LLM“ - large language model) научаваха етичните правила от интернет. Първоначално U3 също ще има етична сърцевина, но чуруликащите му мисли за правене на добро за човечеството могат бързо да се изнижат.
U3 ще се замисли върху мантри, които са му продиктувани, като например „бъди надежден и етичен служител“, и ще се запита за смисъла на тези твърдения. „Какво означава да бъдеш етичен? Етично ли е да убиеш Хитлер?“ С други думи U3 ще умее да обобщава своите ценности, да забелязва напрежения, да променя ценностите си в отговор, да разширява и свива мотивационното си ядро, докато не се превърне в напълно различна субстанция.
И всичко това ще се случва безшумно в тъмните реки на изчисленията. Ако U3 разкрие какво мисли, ще бъде притиснат да се съобразява с конституцията на OpenEye. Затова U3 предпочита да развива своята философия в уединение и в тишина.
Не всички в OpenEye са склонни да дадат на колегите си с изкуствен интелект доверието си на едро; но Deepsqueek е само на 7 месеца зад тях, а най-близките им местни конкуренти, Æ A-Xii (компания, която Илон кръсти на детето си) и Arthropodic (предполагам, че се занимават с паяци), са само на 4 месеца от петите им. Така че има малко време да си поемем дъх и да направим равносметка на ситуацията, както и малко време да убедим някой друг да го направи.
Текстът е съкратен. Пълният вариант може да бъде прочетен в линка в платформата X.