AI ලෝකය වෙනස් කළ Transformer Architecture






Transformer Architecture: විස්තරාත්මක ගවේෂණයක්


Transformer Architecture: විස්තරාත්මක ගවේෂණයක්

Transformer Architecture ආකෘතියේ ක්‍රියාකාරීත්වය, එහි මූලික සංකල්ප, ගෘහ නිර්මාණ ශිල්පය, ප්‍රධාන යාන්ත්‍රණ, දත්ත සැකසුම් ප්‍රවාහය, වාසි සහ විවිධ යෙදුම් පිළිබඳව මෙම බ්ලොග් සටහන මඟින් විස්තරාත්මකව සාකච්ඡා කෙරේ.

1. හැඳින්වීම: AI හි නව යුගයක උදාව

කෘත්‍රිම බුද්ධියේ, විශේෂයෙන්ම ස්වභාවික භාෂා සැකසුම් (NLP) ක්ෂේත්‍රයේ, Transformer Architecture ආකෘතිය හඳුන්වා දීමත් සමඟ ගැඹුරු පරිවර්තනයක් සිදු විය. මෙම නව ස්නායුක ජාල ගෘහ නිර්මාණ ශිල්පය ප්‍රථම වරට 2017 දී ගූගල් විද්‍යාඥයින් කණ්ඩායමක් විසින් රචිත “අවධානය පමණයි ඔබට අවශ්‍ය” (“Attention Is All You Need”) නම් වූ පර්යේෂණ පත්‍රිකාවේ යෝජනා කරන ලදී. මෙම ප්‍රකාශනය නූතන කෘත්‍රිම බුද්ධියේ පදනම් පාඨයක් ලෙස පුළුල් ලෙස සලකනු ලබන අතර, එය බොහෝ විට “AI උත්පාතය” ලෙස හඳුන්වන දෙයට සැලකිය යුතු ලෙස දායක වේ. “ට්‍රාන්ස්ෆෝමර්” යන නම තෝරාගනු ලැබුවේ එහි සිත් ඇදගන්නාසුළු ශබ්දය නිසාය.

Transformer Architecture සංවර්ධනය කිරීමේ මූලික අභිප්‍රේරණය වූයේ, යන්ත්‍ර පරිවර්තනය වැනි අනුක්‍රමික-සිට-අනුක්‍රමික (seq2seq) කාර්යයන් සඳහා පිළියම් යෙදීමයි. එහිදී ආදාන අනුක්‍රමයක් සකසා වෙනස් ප්‍රතිදාන අනුක්‍රමයකට පරිවර්තනය කෙරේ. එහි ආරම්භයේ සිටම, Transformer Architecture විවිධ NLP යෙදුම් හරහා අති නවීන තාක්‍ෂණයක් බවට පත්ව ඇත.

RNNs සහ LSTMs වල සීමාවන්

Transformer Architecture පැමිණීමට පෙර, පුනරාවර්තන ස්නායුක ජාල (RNNs) සහ ඒවායේ උසස් ප්‍රභේද වන දිගු කෙටි-කාලීන මතකය (LSTMs) සහ ද්වාරිත පුනරාවර්තන ඒකක (GRUs), අනුක්‍රමණික දත්ත හැසිරවීම සඳහා ප්‍රමුඛ ගෘහ නිර්මාණ ශිල්ප විය. මෙම ආකෘති, ඇතැම් අවස්ථාවන්හිදී ඵලදායී වුවද, සංකීර්ණ, දිගු-දුර පරාසයක පරායත්තතා මත ඒවායේ පරිමාණය සහ කාර්ය සාධනයට බාධා කරන සහජ සීමාවන්ට මුහුණ දුන්නේය. RNNs සඳහා වූ සැලකිය යුතු අභියෝගයක් වූයේ, විශේෂයෙන් දීර්ඝ අනුක්‍රම හරහා ඵලදායී ඉගෙනීමකට බොහෝ විට බාධා කළ අතුරුදහන් වන සහ පුපුරා යන අනුක්‍රමණ ගැටළුවයි. මෙම ගැටළුව නිසා RNNs හට දිගු කාලයක් පුරා තොරතුරු රඳවා තබා ගැනීම දුෂ්කර වූ අතර, එමගින් අනුක්‍රමයක එකිනෙකට දුරින් පිහිටි වචන අතර සබඳතා ග්‍රහණය කර ගැනීමට අපහසු විය. LSTMs විශේෂිත “ද්වාර” හරහා මෙම මතක ගැටළු අවම කිරීමට උත්සාහ කළද, ඒවායේ මූලික අනුක්‍රමණික සැකසුම් ස්වභාවය බාධාවක් ලෙස පැවතුනි.

2. මූලික සංකල්ප: පුනරාවර්තනයෙන් ඔබ්බට ගමන් කිරීම

Transformer Architecture, ආදාන අනුක්‍රමයක් ප්‍රතිදාන අනුක්‍රමයකට පරිවර්තනය කිරීම අවශ්‍ය වන කාර්යයන් සඳහා සුවිශේෂී ලෙස ඵලදායී බව ඔප්පු කර ඇත. මෙයට යන්ත්‍ර පරිවර්තනය, පෙළ සාරාංශකරණය, සහ කථනය-පෙළ බවට පරිවර්තනය කිරීම වැනි විවිධ යෙදුම් ඇතුළත් වේ. මෙම කාර්යයන් සඳහා අනුක්‍රමණික දත්ත තුළ සබඳතා පිළිබඳ සංකීර්ණ අවබෝධයක් සහජයෙන්ම අවශ්‍ය වේ.

Transformer Architecture හි මූලික සංකල්පීය නවෝත්පාදනය පවතින්නේ RNNs හි ලක්ෂණයක් වන අනුක්‍රමණික සැකසුම් වලින් බැහැර වීමයි. RNNs අනුක්‍රම පියවරෙන් පියවර සකසන අතර, Transformer Architecture ස්වයං-අවධානය යොමු කිරීමේ යාන්ත්‍රණ භාවිතා කරමින් සම්පූර්ණ අනුක්‍රම සමාන්තරව සකසයි. මෙයින් අදහස් කරන්නේ අනුක්‍රමයක විවිධ කොටස් එකවර සැකසිය හැකි අතර, එය පුහුණු කිරීමේ සහ අනුමාන කිරීමේ කාලය සැලකිය යුතු ලෙස වේගවත් කිරීමට හේතු වන බවයි. මෙම සමාන්තර හැකියාව මඟින් ආකෘතියට “සම්පූර්ණ වාක්‍යයක් එකවර බැලීමට” ඉඩ සලසමින්, පුළුල් සන්දර්භයක් ග්‍රහණය කර ගැනීමට හැකි වේ.

Transformer Architecture හි කාර්යක්ෂමතාවයේ හදවත වන්නේ “ස්වයං-අවධානය යොමු කිරීමේ යාන්ත්‍රණය” වන අතර, එමඟින් ආකෘතියට එම වාක්‍යයේම ඇති අනෙක් සෑම වචනයකටම සාපේක්ෂව වාක්‍යයක එක් එක් වචනයේ වැදගත්කම කිරා මැන බැලීමට බලය ලැබේ. දුරස්ථ දත්ත මූලද්‍රව්‍ය එකිනෙකාට බලපෑම් කරන්නේ සහ රඳා පවතින්නේ කෙසේද යන්න හඳුනා ගැනීම සඳහා මෙම යාන්ත්‍රණය ඉතා වැදගත් වේ. “අවධානය පමණයි ඔබට අවශ්‍ය” යන මූලික පත්‍රිකාවේ මාතෘකාව, මෙම යාන්ත්‍රණයේ ප්‍රමාණවත් බව සහ කේන්ද්‍රීය බව අවධාරණය කරයි. මෙම මාතෘකාව හුදෙක් ආකර්ශනීය වාක්‍ය ඛණ්ඩයක් පමණක් නොව, එය නව න්‍යායාත්මක ස්ථාවරයක ප්‍රබල ප්‍රකාශනයකි. එය ඵලදායී අවධානය යොමු කිරීමේ යාන්ත්‍රණයක් පවතින තාක්, අනුක්‍රමණික දත්ත අවබෝධ කර ගැනීම සඳහා පැහැදිලි අනුක්‍රමණික සැකසුම් හෝ පුනරාවර්තනය පූර්ව අවශ්‍යතාවයක් නොවන බව එය පවසයි.

3. මූලික ගෘහ නිර්මාණ ශිල්පය: එන්කෝඩර්-ඩිකෝඩර් සහයෝගීතාව

Transformer Architecture ආකෘතියේ මූලික සැලසුම එන්කෝඩර්-ඩිකෝඩර් ගෘහ නිර්මාණ ශිල්පයක් මත පදනම් වේ. මෙම ගෘහ නිර්මාණ ශිල්පීය සුසමාදර්ශය අනුක්‍රමික-සිට-අනුක්‍රමික ඉගෙනීම සමඟ සහජයෙන්ම සම්බන්ධ වන අතර, ආදාන අනුක්‍රම අනුරූප ප්‍රතිදාන අනුක්‍රමවලට සිතියම් ගත කිරීමට ඉඩ සලසයි.

එන්කෝඩර් ස්ථරය (The Encoder Stack)

එන්කෝඩරයේ මූලික වගකීම වන්නේ ආදාන පෙළ කියවා සැකසීම, එය ඩිකෝඩරයට පසුව භාවිතා කළ හැකි ඉහළ-මාන සන්දර්භීය නිරූපණයක් බවට පරිවර්තනය කිරීමයි. සංකල්පීය වශයෙන්, එය වාක්‍යයක් අවශෝෂණය කර එය එහි මූලික හරයට ඇද දැමීමෙන් ක්‍රියා කරයි. එන්කෝඩරය සමාන ස්ථර කිහිපයක අට්ටියක් ලෙස ව්‍යුහගත කර ඇත, මුල් පත්‍රිකාවේ සාමාන්‍යයෙන් ස්ථර හයක් ඇත. එක් එක් එන්කෝඩර් ස්ථරය ප්‍රධාන උප-ස්ථර දෙකකින් සමන්විත වේ:

  1. බහු-ශීර්ෂ ස්වයං-අවධානය (Multi-head Self-Attention): මෙම උප-ස්ථරය, නිශ්චිත වචනයක් සකසන විට වාක්‍යයේ අනෙකුත් වචනවල වැදගත්කම කිරා මැන බැලීමට එන්කෝඩරයට හැකියාව ලබා දීම සඳහා ඉතා වැදගත් වේ. එය වචන අතර දුර නොතකා පරායත්තතා ඵලදායී ලෙස ග්‍රහණය කරයි.
  2. ස්ථානීය සර්ව-සම්බන්ධිත ජාලය (Position-wise Feed-Forward Network): ස්වයං-අවධානය යොමු කිරීමේ යාන්ත්‍රණයෙන් පසුව, මෙම උප-ස්ථරය එහි ප්‍රතිදානය සකසමින්, ආදාන අනුක්‍රමයේ නිරූපණය තවදුරටත් පිරිපහදු කරයි.

ඩිකෝඩර් ස්ථරය (The Decoder Stack)

ඩිකෝඩරයේ කාර්යය වන්නේ එන්කෝඩරයෙන් සැකසූ තොරතුරු, බොහෝ විට “සන්දර්භ දෛශිකය” ලෙස හඳුන්වනු ලබන, ලබාගෙන ප්‍රතිදාන අනුක්‍රමය, සාමාන්‍යයෙන් වචනයෙන් වචනය, ජනනය කිරීමයි. එන්කෝඩරය මෙන්ම, ඩිකෝඩරය ද සමාන ස්ථර කිහිපයකින් සමන්විත වේ, සාමාන්‍යයෙන් හයක්. එක් එක් ඩිකෝඩර් ස්ථරයට ප්‍රධාන උප-ස්ථර තුනක් ඇතුළත් වේ:

  1. ආවරණිත බහු-ශීර්ෂ ස්වයං-අවධානය (Masked Multi-head Self-Attention): මෙම ස්වයං-අවධානය යොමු කිරීමේ ස්ථරය, දැනටමත් ජනනය කර ඇති වචන මත පමණක් පදනම්ව ජනනය වන සෑම වචනයක්ම සුදුසු බව සහතික කරයි. මෙහි තීරණාත්මක අංගයක් වන්නේ ආවරණයක් යෙදීමයි, එමඟින් ඩිකෝඩරය ප්‍රතිදාන අනුක්‍රමයේ අනාගත ටෝකන කෙරෙහි අවධානය යොමු කිරීම වළක්වන අතර, එමගින් ස්වයං-ප්‍රතිගාමී ජනන ක්‍රියාවලියක් බලාත්මක කරයි.
  2. එන්කෝඩර්-ඩිකෝඩර් අවධානය (Cross-Attention): මෙය ඩිකෝඩරයට එහිම අනුක්‍රමය ජනනය කරන අතරතුර එන්කෝඩරයේ ප්‍රතිදානයේ (සන්දර්භ දෛශිකය) අදාළ කොටස් කෙරෙහි තෝරා බේරා අවධානය යොමු කිරීමට ඉඩ සලසන ප්‍රධාන උප-ස්ථරයකි. මෙම යාන්ත්‍රණයේදී, ඩිකෝඩරය විමසුම් (queries) සපයන අතර, එන්කෝඩරයේ ප්‍රතිදානය යතුරු (keys) සහ අගයන් (values) ලෙස සේවය කරයි.
  3. ස්ථානීය සර්ව-සම්බන්ධිත ජාලය (Position-wise Feed-Forward Network): එන්කෝඩරයට සමානව, මෙම උප-ස්ථරය ඩිකෝඩරය තුළ ඇති අවධානය යොමු කිරීමේ යාන්ත්‍රණ වලින් ලැබෙන ඒකාබද්ධ ප්‍රතිදානය තවදුරටත් සකසයි.

එන්කෝඩර් සහ ඩිකෝඩර් අතර සහයෝගීතාවය

සරල රූප සටහනෙන් දැක්වෙන්නේ Transformer Architecture හි එන්කෝඩරය ආදාන දත්ත සකසා සන්දර්භ දෛශිකයක් නිර්මාණය කරන ආකාරයත්, ඩිකෝඩරය එම සන්දර්භ දෛශිකය සහ පෙර ප්‍රතිදාන උපයෝගී කරගෙන අවසාන ප්‍රතිදානය ජනනය කරන ආකාරයත්ය. මෙම කොටස් දෙකෙහි මනා ක්‍රියාකාරීත්වය Transformer Architecture ආකෘතිවල සාර්ථකත්වයට හේතු වේ.

4. ප්‍රධාන යාන්ත්‍රණ: බුද්ධියේ ගොඩනැඟිලි කොටස්

Transformer Architecture ආකෘතියේ ක්‍රියාකාරීත්වයට අත්‍යවශ්‍ය වන ප්‍රධාන යාන්ත්‍රණ ගැඹුරින් විමසා බලමු.

ආදාන නිරූපණය (Input Representation)

  1. ටෝකනීකරණය (Tokenization): අමු පෙළ, ටෝකන නමින් හැඳින්වෙන කුඩා, කළමනාකරණය කළ හැකි ඒකකවලට බෙදීම.
  2. වචන කාවැද්දීම (Word Embeddings): එක් එක් ටෝකනය ස්ථාවර-ප්‍රමාණයේ දෛශිකයක් බවට පරිවර්තනය කිරීම. මෙම සංඛ්‍යාත්මක නිරූපණ වචනවල අර්ථකථන අර්ථය ග්‍රහණය කරයි.
  3. ස්ථානීය කේතීකරණය (Positional Encoding): Transformer Architecture වචන එකවර සකසන නිසා, වචන අනුපිළිවෙල පිළිබඳ සහජ අවබෝධයක් ඒවාට නොමැත. ස්ථානීය කේතීකරණ මගින් එක් එක් වචනයට එහි ස්ථානය නිරූපණය කරන අද්විතීය කේතයක් ලබා දේ.

ස්වයං-අවධානය යාන්ත්‍රණය (Self-Attention Mechanism)

මෙය Transformer Architecture හි හරයයි. මෙම යාන්ත්‍රණය මඟින් ආකෘතියට වාක්‍යයක එක් එක් වචනයේ වැදගත්කම එම වාක්‍යයේම ඇති අනෙකුත් සෑම වචනයකටම සාපේක්ෂව කිරා මැන බැලීමට බලය ලැබේ. එක් එක් වචනය සඳහා, විමසුම (Query – Q), යතුර (Key – K), සහ අගය (Value – V) ලෙස දෛශික තුනක් ව්‍යුත්පන්න කෙරේ. අවධානය ලකුණු ගණනය කරනු ලබන්නේ $\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right) V$ සූත්‍රය භාවිතා කරමිනි.

බහු-ශීර්ෂ අවධානය (Multi-Head Attention)

මෙය ස්වයං-අවධානය යාන්ත්‍රණය “ශීර්ෂ” කිහිපයකට බෙදා, සමාන්තරව අවධානය ගණනය කිරීම් සිදු කරයි. එමඟින් ආකෘතියට විවිධ දෘෂ්ටිකෝණවලින් වාක්‍යය විශ්ලේෂණය කිරීමටත්, පෙළෙහි විවිධ අංශ (ව්‍යාකරණ සබඳතා, අර්ථකථන සූක්ෂ්මතා) ග්‍රහණය කර ගැනීමටත් හැකියාව ලැබේ.

වගුව 2: Transformer Architecture හි ප්‍රධාන සංරචක

සංරචකය විස්තරය කාර්යය
ආදාන කාවැද්දීම (Input Embedding) ටෝකන ඝන සංඛ්‍යාත්මක දෛශික බවට පරිවර්තනය කරයි වචනවල අර්ථකථන අර්ථය ග්‍රහණය කරයි
ස්ථානීය කේතීකරණය (Positional Encoding) කාවැද්දීම්වලට එකතු කරන ලද අද්විතීය කේත ටෝකන අනුපිළිවෙල/ස්ථානය පිළිබඳ තොරතුරු සපයයි
ස්වයං-අවධානය (Self-Attention) අනුක්‍රමයක වචනවල වැදගත්කම අන්‍යයන්ට සාපේක්ෂව කිරා මැන බලයි සන්දර්භය ගතිකව තේරුම් ගනී; Q, K, V දෛශික භාවිතා කරයි
බහු-ශීර්ෂ අවධානය (Multi-Head Attention) ස්වයං-අවධානය සමාන්තරව කිහිප වතාවක් යොදවයි පෙළ තුළ විවිධ සබඳතා සහ දෘෂ්ටිකෝණ ග්‍රහණය කරයි
ස්ථානීය සර්ව-සම්බන්ධිත ජාල (Position-wise FFNN) එක් එක් ස්ථානයට ස්වාධීනව යොදන ලද සම්පූර්ණයෙන් සම්බන්ධිත ස්නායුක ජාල පසු ස්ථර සඳහා නිරූපණ පරිවර්තනය කරයි
අවශේෂ සම්බන්ධතා (Residual Connections) උප-ස්ථර ආදානය එහි ප්‍රතිදානයට එක් කරයි අතුරුදහන් වන අනුක්‍රමණ වැළැක්වීමට උපකාරී වේ; තොරතුරු ප්‍රවාහය සහතික කරයි
ස්ථර සාමාන්‍යකරණය (Layer Normalization) උප-ස්ථර වලින් පසු ආදාන සාමාන්‍යකරණය කරයි පුහුණුව ස්ථාවර කරයි; අභිසාරීතාව වැඩි දියුණු කරයි

5. තොරතුරු සැකසුම් ප්‍රවාහය: පියවරෙන් පියවර දත්ත ගැලීම

Transformer Architecture ආකෘතියක් තුළ දත්ත ගලා යන ආකාරය මෙම කොටස පියවරෙන් පියවර විස්තර කරයි. අමු ආදානයේ සිට අවසන් ප්‍රතිදානය දක්වා වන ගමන, එන්කෝඩරයේ සහ ඩිකෝඩරයේ කාර්යභාරයන් සමඟින් මෙහිදී පැහැදිලි කෙරේ.

ආදාන සැකසීම (Input Processing)

Transformer Architecture එකක් හරහා තොරතුරු ගමන ආරම්භ වන්නේ අමු පෙළ ආදානයෙනි. මෙම ආදානය පළමුව ටෝකනීකරණය කර කුඩා, කළමනාකරණය කළ හැකි ඒකක බවට පත් කෙරේ. පසුව, එක් එක් ටෝකනය ස්ථාවර-ප්‍රමාණයේ දෛශික කාවැද්දීමක් බවට පරිවර්තනය කරනු ලබන අතර, එය එහි අර්ථකථන අර්ථය සංඛ්‍යාත්මකව නිරූපණය කරයි. ඉන්පසු මෙම කාවැද්දීම්වලට ස්ථානීය කේතීකරණ එකතු කිරීම වැදගත් පියවරකි. මෙම කේතීකරණ අත්‍යවශ්‍ය වන්නේ, Transformer Architecture වචන එකවර සකසන නිසා, වචන අනුපිළිවෙල පිළිබඳ සහජ තොරතුරු නැති වී යන බැවිනි. ටෝකන කාවැද්දීම් සහ ස්ථානීය කේතීකරණවල මෙම ඒකාබද්ධ නිරූපණය එන්කෝඩරයට මූලික ආදානය සාදයි.

එන්කෝඩරයේ ගමන: ආදානය සන්දර්භගත කිරීම

ආදාන අනුක්‍රමය, එහි කාවැද්දීම් සහ ස්ථානීය කේතීකරණ සමඟ සම්පූර්ණ වූ පසු, එන්කෝඩර් අට්ටියට ඇතුළු වූ විට, එය පොහොසත්, සන්දර්භීය අවබෝධයක් නිර්මාණය කිරීම සඳහා නිර්මාණය කර ඇති ක්‍රියාවලියකට භාජනය වේ. එන්කෝඩරයේ එක් එක් ස්ථරය තුළ, ස්වයං-අවධානය යොමු කිරීමේ යාන්ත්‍රණය මධ්‍යම කාර්යභාරයක් ඉටු කරයි. මෙම යාන්ත්‍රණය මඟින් සෑම ටෝකනයකටම ආදාන අනුක්‍රමය තුළ ඇති අනෙක් සෑම ටෝකනයක්ම කෙරෙහි අවධානය යොමු කිරීමට ඉඩ සලසන අතර, ආකෘතියට ද්වි-දිශානුගතව පරායත්තතා සහ සන්දර්භීය තොරතුරු ග්‍රහණය කර ගැනීමට හැකි වේ. මෙයින් අදහස් කරන්නේ එන්කෝඩරයට ආදාන වාක්‍යයේ සම්පූර්ණ සන්දර්භයට පුළුල් ප්‍රවේශයක් ඇති අතර, එය සමස්ථයක් ලෙස සකසන බවයි.

ඩිකෝඩරයේ ජනනය: ස්වයං-ප්‍රතිගාමී ප්‍රතිදාන නිර්මාණය

ඩිකෝඩරයේ කාර්යභාරය වන්නේ එන්කෝඩරය විසින් සපයන ලද සන්දර්භීය අවබෝධය උපයෝගී කර ගනිමින් ප්‍රතිදාන අනුක්‍රමය ජනනය කිරීමයි. එය එන්කෝඩරයෙන් “සන්දර්භ දෛශිකය” ලබා ගනී. ඊට අමතරව, එය අර්ධ වශයෙන් ජනනය කරන ලද ප්‍රතිදාන අනුක්‍රමයක් තමන්ගේම ආදානය ලෙස ගන්නා අතර, එය ටෝකනීකරණය, කාවැද්දීම සහ ස්ථානීය කේතීකරණ සමඟ වැඩි දියුණු කිරීමේ සමාන ක්‍රියාවලියකට භාජනය වේ. ඩිකෝඩරය තුළ ඇති පළමු උප-ස්ථරය වන්නේ ආවරණිත ස්වයං-අවධානය යොමු කිරීමේ යාන්ත්‍රණයයි. මෙහිදී ආවරණයක් යෙදීම මඟින් ඩිකෝඩරය ප්‍රතිදාන අනුක්‍රමයේ අනාගත ටෝකන කෙරෙහි අවධානය යොමු කිරීම වළක්වයි, එමඟින් ස්වයං-ප්‍රතිගාමී ගුණාංගය සහතික කරයි.

දෙවන උප-ස්ථරය වන්නේ එන්කෝඩර්-ඩිකෝඩර් අවධානය, එසේත් නැතිනම් හරස්-අවධානයයි. මෙම යාන්ත්‍රණයේදී, ඩිකෝඩරය එහිම ආවරණිත ස්වයං-අවධානය යොමු කිරීමේ ප්‍රතිදානය විමසුම් ලෙස භාවිතා කරන අතර, එන්කෝඩරයේ ප්‍රතිදානය යතුරු සහ අගයන් ලෙස සේවය කරයි. මෙය ඩිකෝඩරයට ආදාන අනුක්‍රමයේ වඩාත් අදාළ කොටස් කෙරෙහි තෝරා බේරා අවධානය යොමු කිරීමට ඉඩ සලසයි.

අවසාන වශයෙන්, මෙම අවධානය යොමු කිරීමේ යාන්ත්‍රණ වලින් ලැබෙන ඒකාබද්ධ ප්‍රතිදානය ස්ථානීය සර්ව-සම්බන්ධිත ජාලයක් මඟින් සකසනු ලැබේ.

6. වාසි සහ බලපෑම: Transformer Architecture ආධිපත්‍යය දරන්නේ ඇයි?

Transformer Architecture ආකෘති පෙර පැවති ආකෘති අභිබවා යමින් කෘත්‍රිම බුද්ධි ක්ෂේත්‍රයේ ආධිපත්‍යය දැරීමට හේතු වූ ප්‍රධාන වාසි මෙහිදී විමර්ශනය කෙරේ.

Transformer Architecture සහ RNNs/LSTMs සැසඳීම

අංශය RNNs/LSTMs Transformer Architecture
සැකසීම අනුක්‍රමික සැකසීම; ගණනය කිරීම් අධිකයි සමාන්තර සැකසීම; ඉහළ කාර්යක්ෂමතාවක්
පරායත්තතා හැසිරවීම දිගු-කාලීන පරායත්තතා සමඟ පොරබදයි (අතුරුදහන් වන අනුක්‍රමණය) දිගු-දුර පරායත්තතා ග්‍රහණය කර ගැනීමේදී විශිෂ්ටයි
පරිමාණය කිරීමේ හැකියාව පරිමාණය කිරීමට අපහසුයි; අනුක්‍රමික ස්වභාවයෙන් සීමා වේ ඉහළ පරිමාණය කිරීමේ හැකියාවක්; විශාල දත්ත කට්ටල හොඳින් හසුරුවයි
පුහුණු කාලය/සම්පත් දිගු පුහුණු කාලයක්; සමාන්තරකරණය කළ නොහැක; අඩු සම්පත් තීව්‍රතාවයක් විශාල දත්ත කට්ටල මත වේගවත් පුහුණුවක්; ඉහළ මතක භාවිතයක්
අවධානය යොමු කිරීමේ යාන්ත්‍රණය සහජ අවධානය යොමු කිරීමේ යාන්ත්‍රණයක් නොමැත; අමතර ස්ථර අවශ්‍ය වේ සවි කර ඇති ස්වයං-අවධානය යොමු කිරීමේ යාන්ත්‍රණයක්
සන්දර්භීය අවබෝධය දිගු අනුක්‍රම හරහා සන්දර්භය ග්‍රහණය කර ගැනීමේදී අකාර්යක්ෂමයි විශේෂයෙන් දිගු-දුර පරායත්තතා සඳහා උසස් සන්දර්භීය අවබෝධයක්
සමාන්තරකරණය අනුක්‍රමික ස්වභාවය නිසා සීමිත සමාන්තරකරණයක් විශිෂ්ට සමාන්තරකරණ හැකියාවන්
ආකෘති ප්‍රමාණය කුඩා ආකෘති විශාල ආකෘති

7. NLP වලින් ඔබ්බට: විවිධ යෙදුම් සහ ප්‍රමුඛ ආකෘති

Transformer Architecture ගෘහ නිර්මාණ ශිල්පය ස්වභාවික භාෂා සැකසුම් (NLP) සඳහා මුලින් සංකල්පනය කළද, එහි බලපෑම පරිගණක දෘෂ්ටිය (Computer Vision), කථන හඳුනාගැනීම, සහ බහුමාධ්‍ය කෘත්‍රිම බුද්ධිය (Multimodal AI) වැනි විවිධ ක්ෂේත්‍ර කරා ව්‍යාප්ත වී ඇත.

ස්වභාවික භාෂා සැකසුම් (NLP) හි ප්‍රධාන යෙදුම්

  • යන්ත්‍ර පරිවර්තනය
  • පෙළ සාරාංශකරණය
  • පෙළ ජනනය
  • ප්‍රශ්න වලට පිළිතුරු දීම
  • හැඟීම් විශ්ලේෂණය (Sentiment Analysis)
  • නාමික ඒකක හඳුනාගැනීම (NER)

වෙනත් ක්ෂේත්‍රවල ව්‍යාප්තිය

  • පරිගණක දෘෂ්ටිය (උදා: Vision Transformers – ViTs)
  • කථන හඳුනාගැනීම
  • බහුමාධ්‍ය AI (උදා: Google Gemini, OpenAI GPT-4o)
  • කාල ශ්‍රේණි පුරෝකථනය

වගුව 3: ප්‍රමුඛ Transformer Architecture ආකෘති සහ ඒවායේ යෙදුම්

ආකෘති වර්ගය/උදාහරණය විස්තරය මූලික කාර්යය ප්‍රධාන යෙදුම්
BERT (Bidirectional Encoder Representations from Transformers) එන්කෝඩර්-පමණක් ආකෘතිය; දිශා දෙකෙන්ම සන්දර්භය කියවයි පෙළ පිළිබඳ ගැඹුරු ද්වි-දිශානුගත අවබෝධයක් ප්‍රශ්න වලට පිළිතුරු දීම, NER
GPT (Generative Pretrained Transformer) පෙළපත ඩිකෝඩර්-පමණක් ආකෘතිය; මිනිස්-සමාන පෙළ ජනනය සඳහා ප්‍රශස්ත කර ඇත මිනිස්-සමාන පෙළ තේරුම් ගැනීම සහ ජනනය කිරීම චැට්බොට්, අන්තර්ගත නිර්මාණය, දත්ත විශ්ලේෂණය
Vision Transformers (ViTs) Transformer Architecture මූලධර්ම සෘජුවම රූප සඳහා යොදවයි දෘශ්‍ය තොරතුරු ගෝලීයව සැකසීම රූප වර්ගීකරණය, වස්තු හඳුනාගැනීම
බහුමාධ්‍ය කාර්යයන් සඳහා Transformer Architecture (උදා: Gemini, GPT-4o) විවිධ දත්ත වර්ග (උදා: රූප සහ පෙළ) සමගාමීව සකසයි දෘශ්‍ය සහ පෙළ තොරතුරු ඒකාබද්ධ කිරීම රූප විස්තර කිරීම, දෘශ්‍ය ප්‍රශ්න වලට පිළිතුරු දීම

8. නිගමනය: Transformer Architecture මඟින් මෙහෙයවෙන AI හි අනාගතය

Transformer Architecture කෘත්‍රිම බුද්ධියේ ගමන් මඟෙහි සුවිශේෂී සන්ධිස්ථානයක් සනිටුහන් කර ඇති බව අවිවාදිතය. එහි මූලික නවෝත්පාදනයන්, විශේෂයෙන් ස්වයං-අවධානය යොමු කිරීමේ යාන්ත්‍රණය, සමාන්තර සැකසුම් හැකියාවන්, සහ ශක්තිමත් එන්කෝඩර්-ඩිකෝඩර් රාමුව, අනුක්‍රමණික දත්ත සැකසෙන සහ තේරුම් ගන්නා ආකාරය මූලික වශයෙන් විප්ලවීය වෙනසක් සිදු කර ඇත. RNNs සහ LSTMs වැනි පෙර පැවති අනුක්‍රමණික ආකෘතිවල සහජ සීමාවන් ජය ගැනීමෙන්, Transformer Architecture පෙර නොවූ විරූ මට්ටමේ කාර්යක්ෂමතාවක් සහ කාර්ය සාධනයක් විවෘත කර ඇත.

ඉදිරිය දෙස බලන විට, AI හි අනාගතය Transformer Architecture ආකෘතිවල අඛණ්ඩ පරිණාමය සමඟ වෙන් කළ නොහැකි ලෙස සම්බන්ධ වී ඇති බව පෙනේ. අපේක්ෂිත වර්ධනයන්ට ආකෘති ප්‍රමාණ තවදුරටත් පරිමාණය කිරීම, ගණනය කිරීමේ කාර්යක්ෂමතාව වැඩි දියුණු කිරීම සඳහා අඛණ්ඩ උත්සාහයන්, සහ ඊටත් වඩා සංකීර්ණ හැකියාවන් විවෘත කළ හැකි නව අවධානය යොමු කිරීමේ යාන්ත්‍රණ ගවේෂණය කිරීම ඇතුළත් වේ.

මෙම අන්තර්ක්‍රියාකාරී ගවේෂණය මඟින් Transformer Architecture ලෝකය පිළිබඳව ඔබට මනා අවබෝධයක් ලැබෙන්නට ඇතැයි අපි බලාපොරොත්තු වෙමු.


gihan sankalpa
gihan sankalpa

I'm gihan sankalpa. I am an entrepreneur, an ethical hacker, a programmer, and a thinker.

Articles: 11

Leave a Reply

Your email address will not be published. Required fields are marked *