Niekedy si myslíme, že umelá inteligencia je veľký stroj vytvorený na vykonávanie všetkých druhov úloh. V praxi sú však jazykové modely oveľa univerzálnejšie a všetko závisí od textov použitých pri výučbe.
Tak to bolo v prípade Haika Grigoryana, študenta fakulty počítačových vied na Muhlenberg College v Pensylvánii. Naučil svoj umelý inteligenciu textami z Londýna, napísanými v období od roku 1800 do roku 1875, aby získal odpovede v štýle viktoriánskej éry.
Ako uviedol v príspevku na Reddite, Grigoryan naučil umelú inteligenciu približne 7 000 textov z tej doby a dokonca použil prispôsobiteľný tokenizér, aby z dátového súboru odstránil všetky moderné slová.
V skutočnosti naučil tri rôzne modely: dva pomocou nanoGPT a jeden pomocou Phi 1.5. Výsledkom bol umelý intelekt, ktorý nielen prevzal spôsoby tej doby, ale aj slovnú zásobu a rôzne špecifické odkazy tých rokov.
Vysvetľuje, čo sa stalo ďalej: „Po tréningu som začal hrať s niektorými nápovedami a použil som nasledujúcu: „Bol rok Pánov 1834“. Odpoveď spomínala sériu protestov, ktoré sa v tom roku odohrali v Londýne, a obsahovala aj biblický odkaz súvisiaci so štýlom textov použitých pri trénovaní.
Objavili sa aj veľmi konkrétne zmienky, napríklad o istom lordovi Palmerstonovi.
Prekvapenie nastalo, keď sa Grigoryan rozhodol overiť informácie
„Chcel som zistiť, či sa v roku 1834 v Londýne naozaj konali protesty, a ukázalo sa, že áno. Pomyslel som si, že to môže byť len náhoda, ale v odpovedi sa spomínal aj „lord Palmerston“. Vyhľadal som to na Google a zistil som, že jeho konanie súviselo s protestmi v roku 1834. To znamená, že umelá inteligencia nielen imitovala texty z 19. storočia, ale aj ukázala, že dokáže reprodukovať skutočné historické udalosti. A to všetko s pomocou iba 5 alebo 6 GB údajov. Predstavte si, čo by bolo s 30 GB alebo viac.“
Palmerston sa neskôr stal premiérom, ale predtým zastával funkciu ministra zahraničných vecí Veľkej Británie. Práve v tomto období, v roku 1834, zákon o chudobných zbavil najpotrebnejších právo na výživu, čo vyvolalo veľkú vlnu protestov, o ktorej spomína Grigorianov umelý inteligenčný systém.
Tento typ projektu sa nazýva HLLM, čo je skratka pre Historical Large Language Models (historické veľké jazykové modely). Existuje niekoľko príkladov, ako napríklad MonadGPT, ktorý bol trénovaný textami z rokov 1400 až 1700, a XunziALLM, ktorý je schopný generovať klasickú čínsku poéziu v súlade so starovekými normami.