Mga Malaking Modelo ng Wika: Ano Sila At Paano Sila Gumagana

Ang mga terminong LLM o "Malaking Modelo ng Wika" ay mas madalas na itinapon sa mga araw na ito. Alam ng karamihan na konektado sila sa artificial intelligence, ngunit iyon lang.

Marami sa mga makapangyarihang sistema ng artificial intelligence ngayon – mula sa ChatGPT ng OpenAI hanggang sa BERT ng Google – ay nakabatay sa malalaking modelo ng wika, na hindi sinasadya, ang pinagmumulan ng kanilang kapangyarihan. Ngunit ano ang pinagkaiba ng mga LLM na ito sa iba pang mga teknolohiyang artificial intelligence bago sila?

Ang malalaking modelo ng wika, gaya ng ipinahihiwatig ng kanilang pangalan, ay napakalaki. Ang mga ito ay mga AI system na sinanay na may labis na malaking halaga ng data, na ginagawang napakahusay sa mga wika ng tao. Ipinapaliwanag ng post na ito kung paano.

Talaan ng nilalaman itago

Ano ang Mga Malaking Modelo ng Wika?

Paano Gumagana ang Mga Malaking Modelo ng Wika?

Mga Modelo ng Malaking Wika at Software Tool

Mga Tuntunin at Label ng LLM

Mga Aplikasyon ng Malaking Modelo ng Wika

Ang Mga Benepisyo ng Malaking Modelo ng Wika

ang Hamon

Listahan ng Mga Popular na Modelo ng Malaking Wika

Mga open-source na LLM

Listahan ng Mga Nangungunang Mapagkukunan ng LLM

Mga Madalas Itanong

Konklusyon

Ano ang Mga Malaking Modelo ng Wika?

Ang malalaking modelo ng wika ay isang uri ng artificial intelligence system na sinanay upang kilalanin, kopyahin, hulaan, at manipulahin ang teksto o iba pang nilalaman. Ang mga modernong modelo ng malalaking wika ay binubuo ng mga AI neural network na may bilyun-bilyon o higit pang mga parameter at kadalasang sinasanay gamit ang mga petabytes ng data.

Ang isang malaking modelo ng wika ay maaaring maunawaan ang maraming mga bagay tulad ng isang tao, bagaman hindi lahat. Gayunpaman, hindi tulad ng karamihan sa mga tao, ang isang malaking modelo ng wika ay maaaring magkaroon ng mas malawak na kaalaman tungkol sa halos lahat ng bagay, na ginagawa itong parang isang computer na alam sa lahat.

Ang malalaking modelo ng wika ay posible ngayon dahil sa malaking halaga ng digital na impormasyon sa Internet, ang mas mababang gastos sa pag-compute, at ang pagtaas ng kapangyarihan sa pag-compute ng parehong mga CPU at GPU parallel processors.

Paano Gumagana ang Mga Malaking Modelo ng Wika?

Sa ibabaw, isang malaking modelo ng wika tulad ng Chat GPT ay madaling gamitin. Ang kailangan mo lang gawin ay mag-type ng ilang text at tutugon ito dito - mula sa mga tanong hanggang sa lahat ng uri ng mga kahilingan.

Sa ilalim ng ibabaw, gayunpaman, marami pang nangyayari upang makagawa ng tila walang hirap na mga resulta na kilala sa malalaking modelo ng wika. Halimbawa, kailangan munang gawin, sanayin, at maayos ang system upang makagawa ng uri ng mga resulta ng ChatGPT.

Kaya, narito ang isang mabilis na pagtingin sa iba't ibang proseso na ginagawang posible ang malalaking modelo ng wika.

Disenyo: Ang disenyo ng malaking modelo ng wika ay tutukuyin kung paano ito gumagana, kung aling algorithm at mga pamamaraan ng pagsasanay ang gagamitin, pati na rin ang oras at gastos para sa pangkalahatang pagsasanay at pagpapanatili.
mga transformer: Karamihan sa malalaking modelo ng wika ay binuo gamit ang transformer deep learning model. Nakatutulong ang mga transformer dahil nagtatampok ang mga ito ng mekanismo ng self-attention na ginagawang mas nakakaalam sa konteksto at samakatuwid, nangangailangan ng mas kaunting oras ng pagsasanay kumpara sa mga mas lumang modelo.
Pre-training at Data: Mula sa Wikipedia hanggang sa malalaking database at iba pang natatanging pinagmumulan ng data, ang dami at kalidad ng data na ginamit sa pagsasanay ng isang malaking modelo ng wika ang tutukuyin ang mga kakayahan sa output nito. Ang pre-training ay nagbibigay sa isang malaking modelo ng wika ng pangunahing impormasyon na kailangan nito upang maunawaan ang nakasulat na teksto, wika, konteksto, at iba pa. Karamihan sa LLM pre-training ay ginagawa gamit ang walang label na data sa alinman sa semi-supervised o self-supervised learning mode.
Fine-tuning: Pagkatapos ng pre-training stage ng isang LLM, ang susunod na hakbang ay karaniwang domain-specific na fine-tuning para gawing mas kapaki-pakinabang na tool para sa mga partikular na layunin gaya ng pakikipag-chat, pananaliksik sa negosyo, pagkumpleto ng code, at iba pa. Ito ang yugto kung saan binuo ang mga tool tulad ng GitHub Copilot at OpenAI's ChatGPT.

Mga Modelo ng Malaking Wika at Software Tool

Ang isang malaking modelo ng wika ay maaari ding kumonekta sa iba pang software system o platform sa pamamagitan ng mga plugin at pagsasama ng API. Nagbibigay-daan ito sa LLM na magsagawa ng mga aktibidad sa totoong mundo, tulad ng pagsuri sa oras, pagsasagawa ng aritmetika, pagba-browse sa web, at pakikipag-ugnayan sa mga web app sa pamamagitan ng mga platform tulad ng Zapier.

Ito ay kasalukuyang umuunlad na lugar at napakalaki ng mga posibilidad. Halimbawa, ang kailangan mo lang gawin ay ibigay ang mga tagubilin, at ang LLM ay maaaring maghanap ng mga bagay para sa iyo sa web, gumawa ng mga reserbasyon, bantayan ang mga napapanahong paksa ng balita, gawin ang iyong pamimili, at iba pa.

Mga Tuntunin at Label ng LLM

Walang partikular na paraan para sa pagbuo ng isang malaking modelo ng wika, kaya ang mga grupo ng developer ay napupunta sa iba't ibang mga modelo na gumagamit ng bahagyang magkakaibang mga diskarte upang maabot ang mga katulad na layunin. Ang sitwasyong ito ay nagbunga ng iba't ibang mga label, habang sinusubukan nilang ilarawan kung paano gumagana ang bawat modelo. Ang mga sumusunod ay ilan sa mga terminong ito at kung ano ang ibig sabihin ng mga ito.

Zero-shot na modelo: Isang pre-trained na malaking modelo ng wika na nakakagawa ng mga klasipikasyon lampas sa pangunahing hanay ng pagsasanay nito at makapagbigay ng medyo tumpak na mga resulta para sa pangkalahatang paggamit.
Pinong Modelo: Isang modelong tukoy sa domain.
Ang Multi-modal na Modelo: Nagagawang maunawaan at makagawa ng mga uri ng media maliban sa teksto, tulad ng mga larawan.
GPT: Generative Pre-trained na Transformer.
T5: Text-to-Text Transfer Transformer.
BART: Bidirectional at Auto-Regressive Transformer.
SI BERT: Bidirectional Encoder Representasyon mula sa mga Transformer.
ROBERTa: Matatag na Na-optimize na Diskarte sa BERT.
CTRL: Modelo ng Wikang Conditional Transformer.
LlaMA: Malaking Modelo ng Wika Meta AI.
Turing NLG: Likas na Pagbuo ng Wika.
AngMDA: Mga Modelo ng Wika para sa mga Aplikasyon sa Diyalogo.
ELECTRA: Mahusay na Pag-aaral ng Encoder na Tumpak na Nag-uuri ng Mga Pagpapalit ng Token.

Mga Aplikasyon ng Malaking Modelo ng Wika

Ang malalaking modelo ng wika ay maaaring magamit nang kapaki-pakinabang sa maraming lugar para sa negosyo, pagpapaunlad, at pananaliksik. Ang mga tunay na benepisyo ay darating pagkatapos ng fine-tuning, na ganap na nakasalalay sa kung para saan ang modelo ay idinisenyo. Narito ang kanilang maraming mga lugar ng aplikasyon.

Pagsasalin ng Wika: Mahusay na gumaganap ang malalaking modelo ng wika sa maraming wika. Maaari silang magsalin ng mga simpleng pangungusap sa computer code o kahit na mag-churn ng maraming pagsasalin ng wika ng tao nang sabay-sabay.
Pagbuo ng Nilalaman: Mula sa pagbuo ng teksto hanggang sa mga larawan at higit pa, ang mga LLM ay maaaring kumikita upang makabuo ng lahat ng uri ng nilalaman, kabilang ang mga paglalarawan ng produkto, nilalaman ng marketing, mga email ng kumpanya, at maging ang mga legal na dokumento.
Mga Virtual na Katulong: Ang kanilang mahusay na pag-unawa sa wika ng tao ay ginagawang mainam na mga virtual assistant ang LLM. Maaari nilang tanggapin ang wika ng tao bilang isang utos at gamitin ito upang magsulat ng mga bagay-bagay, magsagawa ng mga online na aksyon, magsagawa ng pananaliksik, at higit pa.
Chat at Mga Pag-uusap: Mahusay din silang mga kasosyo sa chat, gaya ng ipinapakita ng sikat na modelo ng ChatGPT.
Pagsagot sa Tanong: Ang malalaking modelo ng wika ay sumisipsip ng maraming impormasyon sa panahon ng pagsasanay, at ginagawa nitong masasagot ang karamihan sa mga tanong sa pangkalahatang kaalaman.
Buod ng Nilalaman: Maaari rin nilang ibuod ang malalaking nilalaman ng teksto sa mas maiikling anyo. Ang mga modelo ng transformer ay mahusay sa ito.
Pagsusuri sa Pananalapi: Ang BloombergGPT ay isang magandang halimbawa nito.
Pagbuo ng Code: Ang mga computer programmer ay nagiging mas mahusay sa mga copilot na pinapagana ng malalaking modelo ng wika na pinino para sa programming.
Mga Serbisyo sa Transkripsiyon: Pinapadali ng mga LLM ang pagsasagawa ng text-to-speech at speech-to-text na mga transkripsyon nang mabilisan.
Muling Pagsusulat ng Nilalaman: Alinman sa parehong wika o sa ibang istilo.
Pagtatasa ng sentimyento: Maaaring gamitin ang mga LLM upang epektibong mahihinuha ang mga naka-embed na damdamin sa mga komunikasyon ng tao. Maari itong magamit ng mga marketing team na pinag-aaralan ang kanilang mga customer.
Pagkuha ng Impormasyon: Ang kanilang mahusay na pag-unawa sa wika ng tao ay ginagawang isang mahalagang bahagi ng mga modernong search engine ang mga LLM.
Edukasyon: Mula sa mga interactive na tool sa pag-aaral hanggang sa mas matalinong at personalized na pagtuturo at mga sistema ng pagmamarka, napakalawak ng mga potensyal na aplikasyon ng mga LLM sa edukasyon.

Ang Mga Benepisyo ng Malaking Modelo ng Wika

Sa kabila ng maraming hamon na dulot ng malaking pag-unlad ng modelo ng wika, ang mga benepisyo nito ay marami at sulit ang problema. Narito ang mga pangunahing.

Mayaman sa Pag-unawa sa Wika: Ang mga LLM ay maaaring maunawaan at tumugon sa iyong wika na parang nakikipag-usap ka sa ibang tao. Ginagawa nitong mas mahalaga ang mga ito bilang isang interface sa pagitan ng mga tao at mundo ng computer.
Pagkamalikhain: Napatunayan ng mga generative pre-trained na mga transformer ang kanilang mga kakayahan sa paggawa ng mga kahanga-hangang text output gaya ng ChatGPT at mga imahe, tulad ng Matatag na Pagsasabog.
Masaklaw na karunungan: Ang modelong zero-shot ay isang versatile na tool na maaaring gamitin para sa maraming gawain at proyektong nangangailangan ng iba't ibang kapaligiran at aplikasyon.
Kakayahang Fine-tuning: Ang anumang organisasyon ay maaaring kumuha ng isang pre-trained na modelo at i-fine-tune ito upang gawin ang mga gawain at proseso sa kanilang workflow. At kabilang dito ang pagbababad sa kultura at etika ng organisasyon tulad ng pagba-brand, slogan, at diskarte.

ang Hamon

Ang malalaking modelo ng wika ay nagpapakita ng maraming hamon, na ginawa silang domain ng karamihan sa mga korporasyong mahusay na pinondohan. Narito ang mga pangunahing isyu na kinakaharap ng mga developer sa mga LLM.

Mga Gastos sa Pag-unlad at Pagpapanatili: Ang malalaking modelo ng wika ay parehong mahal para bumuo at mapanatili.
Sukat at Kumplikado: Sinasabi ng pangalan ang lahat. Malaki at kumplikado ang mga modelo ng malalaking wika. Kailangan mo ng isang mahusay na koponan upang bumuo at pamahalaan ang isa.
Mga Pagkiling at Pagkakamali: Dahil sa sobrang laki ng hindi pinangangasiwaang pag-aaral na kanilang dinaranas, ang malalaking modelo ng wika ay maaaring magsama ng maraming bias at kamalian tulad ng kanilang kinuha.

Listahan ng Mga Popular na Modelo ng Malaking Wika

S / N	Pangalan	taon	Developer	Sukat ng Corpus	parameter	Lisensya
1.	GPT-4	2023	OpenAI	Hindi kilala	~ 1 trilyon	Pampublikong API
2.	PanGu-Σ	2023	HUAWEI	329 bilyong mga token	1 trilyon	may-ari
3.	MT-NLG	2021	Microsoft/Nvidia	338 bilyong mga token	530 bilyon	Pinaghihigpitan
4.	Buksan ang Katulong	2023	LAION	1.5 trilyong token	17 bilyon	Apache 2.0
5.	BloombergGPT	2023	Bloomberg L.P.	700+ bilyong token	50 bilyon	may-ari
6.	Mga tawag	2023	meta	1.4 trilyon	65 bilyon	Pinaghihigpitan
7.	Galactica	2022	meta	106 bilyong mga token	120 bilyon	CC-BY-NC
8.	Cerebras-GPT	2023	Cerebras	-	13 bilyon	Apache 2.0
9.	BLOOM	2022	HugginFace & Co	350 bilyong mga token	175 bilyon	Responsableng AI
10.	GPT-Neo	2021	Eleuther AI	825 GB	2.7 bilyon	MIT
11.	Palkon	2023	IIT	1 trilyong token	40 bilyon	Apache 2.0
12.	GLaM	2021	Google	1.6 trilyong token	1.2 trilyon	may-ari
13.	GPT-3	2020	OpenAI	300 bilyong mga token	175 bilyon	Pampublikong API
14.	SI BERT	2018	Google	3.3 bilyon	340 milyong	Apache
15.	AlexaTM	2022	Birago	1.3 trilyon	20 bilyon	Pampublikong API
16.	YaLM	2022	Yandex	1.7 TB	100 bilyon	Apache 2.0

Mga open-source na LLM

Marami sa mga sikat na malalaking modelo ng wika ay mga open-source na proyekto, bagama't ang kanilang pagiging kumplikado at malaking gastos ay ginagawang imposible para sa maraming mga developer na gamitin ang mga ito. Gayunpaman, maaari mo pa ring patakbuhin ang mga sinanay na modelo para sa alinman sa mga layunin ng pananaliksik o produksyon sa imprastraktura ng kanilang developer. Ang ilan ay libre, habang ang iba ay abot-kaya. dito ay isang magandang listahan.

Listahan ng Mga Nangungunang Mapagkukunan ng LLM

Ang sumusunod ay isang listahan ng mga nangungunang mapagkukunan ng web para sa pag-aaral ng lahat tungkol sa at pagsunod sa malalaking modelo ng wika at industriya ng AI.

OpenAI: Mga developer ng ChatGPT, GPT-4, at Dall-E
Huggin Face: Sikat na website para sa mga bagay na nauugnay sa AI mula sa natural language processing (NLP) hanggang sa malalaking modelo ng wika
Google AI Blog: Nag-aalok ng impormasyon, mga update sa pananaliksik, pag-aaral, at mga artikulo mula sa pangkat ng pananaliksik ng Google.
GitHub: Sikat na code hosting platform na may maraming open-source na proyekto at ang kanilang mga code.
NVIDIA: Mga gumagawa ng parallel computing hardware
Antolohiya ng ACL: Malaking platform na may 80k+ na mga papel sa pagproseso ng natural na wika at computational linguistics.
Neurips: Neural information processing systems conference.
Medium: Blogging platform na may maraming AI at machine learning blog mula sa iba't ibang eksperto at mananaliksik.
ArXiv: Pangunahing siyentipikong imbakan na may lahat ng uri ng mga papeles sa pananaliksik, kabilang ang AI at malalaking modelo ng wika.

Mga Madalas Itanong

Ang mga sumusunod ay ilang mga madalas itanong tungkol sa malalaking modelo ng wika.

Ano ang isang parameter sa malalaking modelo ng wika?

Ang parameter ay anumang variable na maaaring isaayos sa panahon ng pagsasanay ng isang modelo upang makatulong na gawing tamang output ang data ng input. Kung mas maraming parameter ang isang AI, mas maraming nalalaman at makapangyarihan ito. Sa madaling salita, ang mga kakayahan ng modelo ng AI ay tinutukoy ng bilang ng mga parameter nito.

Ano ang ibig sabihin ng corpus?

Ang Corpus ay tumutukoy lamang sa lahat ng data na ginamit sa pagsasanay ng isang modelo ng AI.

Ano ang ibig sabihin ng pagsasanay at pre-training?

Ang pagsasanay sa AI sa machine learning ay tumutukoy sa proseso ng pagbibigay ng isang AI model na may structured data at pagtuturo dito kung ano ang ibig sabihin ng mga ito sa paggamit ng pinangangasiwaang pag-aaral o hindi pinangangasiwaan - ito ay, mayroon man o walang superbisor ng tao. Ang pre-training, sa kabilang banda, ay tumutukoy sa isang malaking modelo ng wika na nasanay na at handa na para sa fine-tuning o partikular na pagsasanay.

Ano ang mekanismo ng atensyon sa isang LLM?

Ginagamit ang atensyon upang maunawaan ang konteksto ng anumang impormasyon, tulad ng kapag ang isang modelo ay nakatagpo ng isang salita na maaaring magkaroon ng maraming kahulugan. Maaari itong mahihinuha ang eksaktong kahulugan sa pamamagitan ng pagtuon sa konteksto.

Ano ang pagkakaiba sa pagitan ng mga parameter at mga token sa LLM?

Ang mga parameter ay mga numerong halaga na ginagamit upang tukuyin ang gawi ng modelo sa pamamagitan ng pagsasaayos sa mga ito sa panahon ng pagsasanay. Ang mga token, sa kabilang banda, ay mga yunit ng kahulugan, gaya ng salita, unlapi, numero, bantas, atbp.

Konklusyon

Sa pag-ikot sa pagsaliksik na ito ng malalaking modelo ng wika at kung ano ang mga ito, sasang-ayon ka na binabago nila ang mundo at narito upang manatili.

Habang tinutukoy ng mga teknikal na kakayahan ng iyong organisasyon kung maaari kang lumahok dito o hindi, palaging magagamit ng iyong negosyo ang maraming benepisyo ng generative AI ibinigay ng malalaking modelo ng wika.