அனைவருக்கும் வணக்கம்,
செய்யறிவின் கட்டமைப்பு வலையரங்குத் தொடரின் ஏழாவது அமர்வு
இயந்திரங்களில் நினைவாற்றல்: (பகுதி 2): கவனத்தின் கட்டமைப்பு என்ற தலைப்பில் அமைகிறது.
கடந்த கிழமை, Recurrent Neural Networks (RNNs) எவ்வாறு கூடிய புரிதலைப் பெற்றன, ஆனால் அவற்றால் நீண்ட உரைகளை கையாள முடியவில்லை என்பதைப் பார்த்தோம். Long Short-Term Memory (LSTMs) கட்டமைப்புக்கள், முக்கிய தகவல்களைத் தெரிவு செய்து நினைவில் வைத்திருப்பதன் மூலம் கூடிய
திறனுடன் செயல்படுகிறன. எனினும், இரண்டு கட்டமைப்புக்களும் உரையை ஒவ்வொரு சொல்லாக, வரிசையாகச் செயலாக்குகின்றன. இதனால், காலத்தாழ்வும் கணித்தல் நெருக்கடியும் உருவாகிறது.
இந்தக் கிழமை நாம் நவீன பெரும் மொழி மாதிரிகளுக்கு வித்திட்ட Transformer கட்டமைப்பை ஆராயப் போகிறோம். "Self-Attention" ஊடாக Transformers முழு உரையையும் ஒரே நேரத்தில் பார்க்கின்றன. அதாவது, ஒரு உரையின் அல்லது சூழமைவின் ஒவ்வொரு சொல்லின் வகிபாகத்தையும் பொருளையும்
ஒரே நேரத்தில் சமாந்தரமாகக் கணிக்கின்றன.
இறுதியாக, autoregressive மாதிரிகளுக்கு இடையேயான ஒரு போட்டியை நடத்துவோம். LSTM மற்றும் Transformer ஆகிய மாதிரிகளுக்கு ஒரே தூண்டலை (prompt) வழங்குவோம். Transformer எவ்வாறு பொருத்தமான உரையை உருவாக்குகின்றது என்றும், LSTM ஏன் தவறுகிறது என்பதையும் செயல்முறையாகக்
காண்போம்.
நிகழ்வின் இறுதியில், மாணவர்களுக்கான அலுவல் நேரம் ஒதுக்கப்பட்டுள்ளது.
தொடர்புடைய வளங்கள்:
நன்றி
Vanakkam All,
Join us for the seventh session in the webinar series The Architecture of Artificial Intelligence, where we’ll take an in-depth look at
Memory in Machines (Part 2): The Architecture of Attention.
Last week, we saw how Recurrent Neural Networks (RNNs) were able to capture more context, yet struggled with long sequences, much like a game of broken telephone. Long Short-Term Memory (LSTMs) architectures improved on this by selectively keeping important
information while discarding the noise. Both approaches process text word by word; thus, they struggled to handle large context windows. This created a latency and computational bottleneck.
This week we will explore the Transformer architecture that led to the development of modern Large Language Models. Transformer architecture, through "Self-Attention," allows a model to see an entire text at once. In other words, it calculates the relevance
of all words in a given context simultaneously (in parallel).
We will wrap up with an autoregressive battle. We will prompt an LSTM and a Transformer with the same sentence and watch them generate/hallucinate the rest, demonstrating how Transformers are able to create coherent stories while older models lose the plot.
Zoom Link:
https://utoronto.zoom.us/j/86517316042
Saturday May 02, 2026
Time: 6:30 PM – 8:00 PM (Chennai/Sri Lanka); 9:00 AM – 10:30 AM (Toronto)
At the end of the session, there will be office hours for students.
Related Resources
Thank you.