Fine-tuning w środowisku ograniczonych zasobów sprzętowych

W pierwszej połowie 2023 obserwujemy ogromny boom na modele językowe i ich praktyczne zastosowania. ChatGPt rozbudził apetyty na choćby częściowe powtórzenie jego sukcesu i wiele zespołów opublikowało wyniki swoich prac. Duża część nowych modeli została udostępniona w ramach licencji Apache 2.0, która umożliwia ich dowolną modyfikację i użycie, a nawet komercjalizację. Jest to fantastyczny ruch, …

Czytaj dalej

Mały model językowy do generowania XIX-wiecznego bełkotu – część 1

W momencie pisania tego posta (kwiecień 2023) nadal panuje dość powszechna ekscytacja możliwościami dużych modeli językowych. Możliwości te w spektakularny sposób pokazało nam rozwiązanie udostępnione pod koniec 2022 przez OpenAI i nasz świat nigdy nie będzie już taki sam. Duże modele językowe, w tym konwersacyjne takie jak ChatGPT, w większości wykorzystują wariacje architektury Transformer. Punktem …

Czytaj dalej