Store sprogmodeller: Hvad er de, og hvordan fungerer de

Begreberne LLM eller "Large Language Model" bliver oftere brugt i disse dage. De fleste mennesker ved, at de er forbundet med kunstig intelligens, men det er bare det.

Mange af nutidens kraftfulde kunstige intelligenssystemer – fra OpenAIs ChatGPT til Googles BERT – er baseret på store sprogmodeller, som i øvrigt er kilden til deres magt. Men hvad adskiller disse LLM'er fra andre kunstig intelligens-teknologier før dem?

Store sprogmodeller er, som navnet antyder, meget store. De er AI-systemer trænet med alt for store mængder data, hvilket gør dem meget effektive med menneskelige sprog. Dette indlæg forklarer hvordan.

Indholdsfortegnelse skjule

Hvad er store sprogmodeller?

Hvordan fungerer store sprogmodeller?

Store sprogmodeller og softwareværktøjer

LLM vilkår og etiketter

Anvendelser af store sprogmodeller

Fordelene ved store sprogmodeller

Udfordringer

Liste over populære store sprogmodeller

Open source LLM'er

Liste over Top LLM-ressourcer

Ofte stillede spørgsmål

Konklusion

Hvad er store sprogmodeller?

Store sprogmodeller er en type kunstig intelligens-system, der er trænet til at genkende, replikere, forudsige og manipulere tekst eller andet indhold. Moderne store sprogmodeller består af AI neurale netværk med milliarder eller flere parametre og trænes ofte ved hjælp af petabytes data.

En stor sprogmodel kan forstå mange ting, som et menneske ville, men ikke alt. Men i modsætning til de fleste mennesker kan en stor sprogmodel have mere omfattende viden om næsten alt, hvilket får den til at fremstå som en alvidende computer.

Store sprogmodeller i dag er mulige på grund af den store mængde digital information på internettet, de lavere omkostninger ved computere og stigningen i computerkraften for både CPU'er og GPU parallelle processorer.

Hvordan fungerer store sprogmodeller?

På overfladen er en stor sprogmodel som f.eks ChatGPT er nem at bruge. Alt du skal gøre er at skrive en tekst, og den vil svare på den – fra spørgsmål til alle typer anmodninger.

Under overfladen sker der dog meget mere for at producere de tilsyneladende ubesværede resultater, som store sprogmodeller er kendt for. For eksempel skal systemet først oprettes, trænes og finjusteres for at producere den type ChatGPT-resultater.

Så her er et hurtigt kig på de forskellige processer, der gør store sprogmodeller mulige.

Design: En stor sprogmodels design vil bestemme, hvordan den fungerer, hvilken algoritme og træningsmetoder, der skal anvendes, samt tid og omkostninger til den overordnede træning og vedligeholdelse.
transformers: De fleste store sprogmodeller er bygget ved hjælp af transformer-deep learning-modellen. Transformere er nyttige, fordi de har en selvopmærksomhedsmekanisme, der gør dem mere kontekstbevidste og derfor kræver mindre træningstid sammenlignet med ældre modeller.
Fortræning & Data: Fra Wikipedia til store databaser og andre unikke datakilder vil mængden og kvaliteten af de data, der bruges til træning af en stor sprogmodel, bestemme dens output-kapacitet. Fortræning giver en stor sprogmodel den grundlæggende information, den skal bruge for at forstå skrevet tekst, sprog, kontekst og så videre. Det meste LLM-fortræning udføres ved hjælp af umærkede data i enten semi-superviserede eller selv-superviserede læringstilstande.
Finjustering: Efter fortræningsfasen af en LLM er næste trin sædvanligvis domænespecifik finjustering for at gøre det til et mere nyttigt værktøj til specifikke formål såsom chat, virksomhedsforskning, kodefuldførelse og så videre. Dette er stadiet, hvor værktøjer som GitHub Copilot og OpenAI's ChatGPT udvikles.

Store sprogmodeller og softwareværktøjer

En stor sprogmodel kan også oprette forbindelse til andre softwaresystemer eller platforme gennem plugins og API-integration. Dette gør det muligt for LLM at udføre aktiviteter i den virkelige verden, såsom at tjekke tiden, udføre aritmetik, surfe på nettet og interagere med webapps gennem platforme som Zapier.

Dette er et område i udvikling, og mulighederne er enorme. For eksempel er alt, hvad du skal gøre, at give instruktionerne, og LLM kan slå ting op for dig på nettet, foretage reservationer, holde øje med aktuelle nyheder, gøre dine indkøb, og så videre.

LLM vilkår og etiketter

Der er ingen specifik metode til at udvikle en stor sprogmodel, så udviklergrupper ender med forskellige modeller, der bruger lidt forskellige tilgange til at nå lignende mål. Denne situation har givet anledning til forskellige mærker, da de forsøger at beskrive, hvordan hver model fungerer. Følgende er nogle af disse udtryk og hvad de betyder.

Zero-shot model: En fortrænet stor sprogmodel, der er i stand til at lave klassifikationer ud over dets grundlæggende træningssæt og til at give ret præcise resultater til generel brug.
Finjusteret model: En domænespecifik model.
Den multimodale model: Kan forstå og producere andre medietyper end tekst, såsom billeder.
GPT: Generativ præ-trænet transformer.
T5: Tekst-til-tekst-overførselstransformer.
BART: Tovejs og autoregressiv transformer.
BERTI: Tovejs encoder-repræsentationer fra Transformers.
ROBERTA: Robust optimeret BERT-tilgang.
CTRL: Betinget transformatorsprogmodel.
LlaMA: Stor sprogmodel Meta AI.
Turing NLG: Naturlig sproggenerering.
MDA: Sprogmodeller for dialogapplikationer.
ELECTRA: Effektivt at lære en encoder, der klassificerer tokenerstatninger nøjagtigt.

Anvendelser af store sprogmodeller

Store sprogmodeller kan med fordel anvendes på mange områder for forretning, udvikling og forskning. De reelle fordele kommer efter finjustering, som helt afhænger af, hvad modellen er designet til. Her er deres mange anvendelsesområder.

Sprogoversættelse: Store sprogmodeller klarer sig godt med flere sprog. De kan oversætte simple sætninger til computerkode eller endda lave flere menneskelige sprogoversættelser på en gang.
Indholdsgenerering: Fra tekstgenerering til billeder og mere kan LLM'er med fordel bruges til at generere alle slags indhold, herunder produktbeskrivelser, marketingindhold, firma-e-mails og endda juridiske dokumenter.
Virtuelle assistenter: Deres gode forståelse af det menneskelige sprog gør LLMs ideelle virtuelle assistenter. De kan acceptere menneskeligt sprog som en kommando og bruge det til at skrive ting, udføre onlinehandlinger, udføre research og mere.
Chat og samtaler: De er også gode chatpartnere, som den populære ChatGPT-model demonstrerer.
Besvarelse af spørgsmål: Store sprogmodeller absorberer masser af information under træningen, og det gør dem i stand til at besvare de fleste generelle spørgsmål.
Indholdsoversigt: De kan også opsummere stort tekstindhold i kortere former. Transformer-modeller er gode til dette.
Finansiel analyse: BloombergGPT er et godt eksempel på dette.
Kodegenerering: Computerprogrammører bliver mere effektive med copiloter drevet af store sprogmodeller, der er finjusteret til programmering.
Transkriptionstjenester: LLM'er gør det nemt at udføre tekst-til-tale og tale-til-tekst-transskriptioner på farten.
Omskrivning af indhold: Enten på samme sprog eller i en anden stil.
Følelsesanalyse: LLM'er kan bruges til effektivt at udlede indlejrede følelser i menneskelig kommunikation. Dette kan med fordel anvendes af marketingteams, der studerer deres kunder.
Informationsindhentning: Deres gode forståelse af det menneskelige sprog gør LLM'er til en vigtig del af moderne søgemaskiner.
Uddannelse: Fra interaktive læringsværktøjer til smartere og personligt tilpassede vejlednings- og karaktersystemer er de potentielle anvendelser af LLM'er i undervisningen enorme.

Fordelene ved store sprogmodeller

På trods af de mange udfordringer, som udviklingen af store sprogmodeller medfører, er fordelene mange og besværet værd. Her er de vigtigste.

Rig forståelse af sproget: LLM'er kan forstå og reagere på dit sprog, som om du taler til et andet menneske. Dette gør dem særligt værdifulde som en grænseflade mellem mennesker og computerverdenen.
Kreativitet: Generative fortrænede transformatorer har bevist deres evner til at producere imponerende tekstoutput som f.eks. ChatGPT og billeder, som med Stabil diffusion.
Alsidighed: En nulskudsmodel er et alsidigt værktøj, der kan bruges til mange opgaver og projekter, der kræver forskellige miljøer og applikationer.
Finjusteringsevne: Enhver organisation kan tage en præ-trænet model og finjustere den til at tage opgaver og processer op i deres arbejdsgang. Og dette inkluderer at opsluge organisationens kultur og etik som branding, slogans og tilgange.

Udfordringer

Store sprogmodeller byder på mange udfordringer, som har gjort dem til domæne for for det meste velfinansierede virksomheder. Her er de største problemer, udviklere står over for med LLM'er.

Udviklings- og vedligeholdelsesomkostninger: Store sprogmodeller er både dyre at udvikle og vedligeholde.
Skala & kompleksitet: Navnet siger det hele. Store sprogmodeller er enorme og komplekse. Du har brug for et godt team til at opbygge og administrere et.
Fordomme og unøjagtigheder: I betragtning af den store størrelse af uovervåget læring, de gennemgår, kan store sprogmodeller indeholde masser af skævheder og unøjagtigheder, lige som de opfangede dem.

Liste over populære store sprogmodeller

S / N	Navn	År	Udvikler	Corpus størrelse	Driftsparametre	Licens
1.	GPT-4	2023	OpenAI	Ukendt	~ 1 billion	Offentlige API
2.	PanGu-Σ	2023	Huawei	329 milliarder tokens	1 billioner	Proprietary
3.	MT-NLG	2021	Microsoft/Nvidia	338 milliarder tokens	530 milliarder	begrænset
4.	Åbn assistent	2023	LAION	1.5 billioner tokens	17 milliarder	Apache 2.0
5.	BloombergGPT	2023	Bloomberg L.P.	700+ milliarder tokens	50 milliarder	Proprietary
6.	Opkald	2023	Meta	1.4 billioner	65 milliarder	begrænset
7.	Galactica	2022	Meta	106 milliarder tokens	120 milliarder	CC-BY-NC
8.	Cerebras-GPT	2023	Cerebras	-	13 milliarder	Apache 2.0
9.	BLOOM	2022	HugginFace & Co	350 milliarder tokens	175 milliarder	Ansvarlig AI
10.	GPT-Neo	2021	Eleuther AI	825 DK	2.7 milliarder	MIT
11.	Falcon	2023	IIT	1 billioner tokens	40 milliarder	Apache 2.0
12.	GLAM	2021	Google	1.6 billioner tokens	1.2 billioner	Proprietary
13.	GPT-3	2020	OpenAI	300 milliarder tokens	175 milliarder	Offentlige API
14.	BERTI	2018	Google	3.3 milliarder	340 millioner	Apache
15.	AlexaTM	2022	Amazon	1.3 billioner	20 milliarder	Offentlige API
16.	YaLM	2022	Yandex	1.7 TB	100 milliarder	Apache 2.0

Open source LLM'er

Mange af de populære store sprogmodeller er open source-projekter, selvom deres kompleksitet og enorme omkostninger gør det umuligt for mange udviklere at adoptere dem. Du kan dog stadig køre de trænede modeller til enten forskningsformål eller produktion på deres udviklers infrastruktur. Nogle er gratis, mens andre er overkommelige. Her er en fin liste.

Liste over Top LLM-ressourcer

Følgende er en liste over internettets bedste ressourcer til at lære alt om og følge med i store sprogmodeller og AI-industrien.

OpenAI: Udviklere af ChatGPT, GPT-4 og Dall-E
Huggin Face: Populær hjemmeside for AI-relaterede ting fra naturlig sprogbehandling (NLP) til store sprogmodeller
Google AI-blog: Tilbyder oplysninger, forskningsopdateringer, undersøgelser og artikler fra Googles forskningsteam.
GitHub: Populær kodehostingplatform med masser af open source-projekter og deres koder.
Nvidia: Producenter af parallel computing hardware
ACL Antologi: Stor platform med 80+ papirer om naturlig sprogbehandling og computerlingvistik.
Neurips: Konference for neurale informationsbehandlingssystemer.
Medium: Blogging platform med masser af AI og machine learning blogs fra forskellige eksperter og forskere.
arXiv: Stort videnskabeligt arkiv med alle typer forskningsartikler, inklusive kunstig intelligens og store sprogmodeller.

Ofte stillede spørgsmål

Følgende er nogle ofte stillede spørgsmål om store sprogmodeller.

Hvad er en parameter i store sprogmodeller?

En parameter er enhver variabel, der kan justeres under en models træning for at hjælpe med at omdanne inputdata til det rigtige output. Jo flere parametre en AI har, jo mere alsidig og kraftfuld kan den være. Med andre ord bestemmes en AI-models muligheder af dens antal parametre.

Hvad betyder korpus?

Corpus refererer simpelthen til alle de data, der bruges til at træne en AI-model.

Hvad betyder træning og fortræning?

AI-træning i maskinlæring refererer til processen med at forsyne en AI-model med strukturerede data og lære den, hvad de betyder, enten ved hjælp af superviseret eller uovervåget læring - dette er, med eller uden en menneskelig supervisor. Fortræning henviser derimod til en stor sprogmodel, der allerede er trænet og klar til finjustering eller specifik træning.

Hvad er opmærksomhedsmekanismen i en LLM?

Opmærksomhed bruges til at forstå konteksten af enhver information, såsom når en model støder på et ord, der kan have flere betydninger. Det kan udlede den nøjagtige betydning ved at fokusere på kontekst.

Hvad er forskellen mellem parametre og tokens i LLM?

Parametre er numeriske værdier, der bruges til at definere modellens adfærd ved at justere dem under træning. Tokens er på den anden side betydningsenheder, såsom et ord, et præfiks, et tal, tegnsætning osv.

Konklusion

Når du runder denne udforskning af store sprogmodeller og hvad de er, vil du være enig i, at de ændrer verden og er kommet for at blive.

Mens din organisations tekniske muligheder bestemmer, om du kan deltage her eller ej, kan din virksomhed altid udnytte de mange fordele ved generativ AI leveret af store sprogmodeller.