Бывший разработчик Microsoft Дэйв Пламмер (Dave Plummer), опубликовал техническую демонстрацию, которая наглядно иллюстрирует базовые принципы обучения современных языковых моделей. В качестве вычислительной платформы использовалась ЭВМ, выпущенная около 47 лет назад.
Спецификации задействованного оборудования далеки от современных дата-центров: центральный процессор работает на тактовой частоте 6 МГц, а объем доступной оперативной памяти ограничен 64 килобайтами, но несмотря на эти рамки, на машине была запущена модель, полностью написанная на ассемблере для архитектуры столь старой машины. Суть эксперимента заключалась не в решении сложной когнитивной задачи, а в демонстрации «анатомии обучения». Перед моделью стояла цель — научиться выстраивать обратную последовательность из восьми цифр, алгоритм должен выявить структурное правило зависимости позиции выходного токена от входного, что является упрощенной иллюстрацией работы механизма внимания в больших языковых моделях (LLM).
Для адаптации алгоритма к столь ограниченным ресурсам потребовался ряд инженерных компромиссов. Итоговая модель содержит всего 1 216 параметров, а вычисления производятся с фиксированной точностью. Каждый такт процессора был оптимизирован для выполнения матричных операций без использования библиотек вроде PyTorch или CUDA. По данным видеозаписи эксперимента, процесс обучения занял примерно 350 итераций. На компьютере PDP-11/44, оснащенном платой кэш-памяти, достижение 100% точности выполнения задачи по реверсированию последовательности потребовало около 3,5 минут. Для сравнения, более ранние версии кода на на аналогичном «железе» требовали для полного цикла обучения более шести часов.
Пламмер отдельно подчеркивает, что демонстрация не является

