Fwd: The Architecture of AI - 6th Session - Memory in Machines: The Architecture of Attention

0 views
Skip to first unread message

Shrinivasan T

unread,
May 1, 2026, 10:45:51 PM (13 hours ago) May 1
to freetamil...@googlegroups.com, fossnews, foss...@googlegroups.com, jec...@googlegroups.com, dgvc2...@googlegroups.com, தஇக - கணித்தமிழ் வளர்ச்சி, kanc...@freelists.org, puduv...@freelists.org


---------- Forwarded message ---------
அனுப்புநர்: Natkeeran Ledchumykanthan <nat.ledch...@utoronto.ca>
Date: வியா., 30 ஏப்., 2026, 5:43 PM
Subject: The Architecture of AI - 6th Session - Memory in Machines: The Architecture of Attention
To:


அனைவருக்கும் வணக்கம்,

செய்யறிவின் கட்டமைப்பு வலையரங்குத் தொடரின் ஏழாவது அமர்வு இயந்திரங்களில் நினைவாற்றல்: (பகுதி 2): கவனத்தின் கட்டமைப்பு என்ற தலைப்பில் அமைகிறது. 

கடந்த கிழமை, Recurrent Neural Networks (RNNs) எவ்வாறு கூடிய புரிதலைப் பெற்றன, ஆனால் அவற்றால் நீண்ட உரைகளை கையாள முடியவில்லை என்பதைப் பார்த்தோம். Long Short-Term Memory (LSTMs) கட்டமைப்புக்கள், முக்கிய தகவல்களைத் தெரிவு செய்து நினைவில் வைத்திருப்பதன் மூலம் கூடிய திறனுடன் செயல்படுகிறன. எனினும், இரண்டு கட்டமைப்புக்களும் உரையை ஒவ்வொரு சொல்லாக, வரிசையாகச் செயலாக்குகின்றன. இதனால், காலத்தாழ்வும் கணித்தல் நெருக்கடியும் உருவாகிறது.

இந்தக் கிழமை நாம் நவீன பெரும் மொழி மாதிரிகளுக்கு வித்திட்ட Transformer கட்டமைப்பை ஆராயப் போகிறோம். "Self-Attention" ஊடாக Transformers முழு உரையையும் ஒரே நேரத்தில் பார்க்கின்றன. அதாவது, ஒரு உரையின் அல்லது சூழமைவின் ஒவ்வொரு சொல்லின் வகிபாகத்தையும் பொருளையும் ஒரே நேரத்தில் சமாந்தரமாகக் கணிக்கின்றன.

இறுதியாக, autoregressive மாதிரிகளுக்கு இடையேயான ஒரு போட்டியை நடத்துவோம். LSTM மற்றும் Transformer ஆகிய மாதிரிகளுக்கு ஒரே தூண்டலை (prompt) வழங்குவோம். Transformer எவ்வாறு பொருத்தமான உரையை உருவாக்குகின்றது என்றும், LSTM ஏன் தவறுகிறது என்பதையும் செயல்முறையாகக் காண்போம்.

சூம் இணைப்பு: https://utoronto.zoom.us/j/86517316042

சனிக்கிழமை மே 02, 2026
நேரம்: 6:30 பிப – 8:00 பிப (சென்னை/இலங்கை); 9:00 AM – 10:30 AM (ரொறன்ரோ)
நிகழ்வின் இறுதியில், மாணவர்களுக்கான அலுவல் நேரம் ஒதுக்கப்பட்டுள்ளது. 
தொடர்புடைய வளங்கள்:
நன்றி
Vanakkam All,
Join us for the seventh session in the webinar series The Architecture of Artificial Intelligence, where we’ll take an in-depth look at Memory in Machines (Part 2): The Architecture of Attention.
Last week, we saw how Recurrent Neural Networks (RNNs) were able to capture more context, yet struggled with long sequences, much like a game of broken telephone. Long Short-Term Memory (LSTMs) architectures improved on this by selectively keeping important information while discarding the noise. Both approaches process text word by word; thus, they struggled to handle large context windows. This created a latency and computational bottleneck.

This week we will explore the Transformer architecture that led to the development of modern Large Language Models. Transformer architecture, through "Self-Attention," allows a model to see an entire text at once. In other words, it calculates the relevance of all words in a given context simultaneously (in parallel). 

We will wrap up with an autoregressive battle. We will prompt an LSTM and a Transformer with the same sentence and watch them generate/hallucinate the rest, demonstrating how Transformers are able to create coherent stories while older models lose the plot.
Zoom Link: https://utoronto.zoom.us/j/86517316042

Saturday May 02, 2026
Time: 6:30 PM – 8:00 PM (Chennai/Sri Lanka); 9:00 AM – 10:30 AM (Toronto)

At the end of the session, there will be office hours for students. 

Related Resources

Thank you.



--

--
Regards,
T.Shrinivasan


My Life with GNU/Linux : https://goinggnu.wordpress.com
Free E-Magazine on Free Open Source Software in Tamil : https://kaniyam.com

Get Free Tamil Ebooks for Android, iOS, Kindle, Computer :     https://FreeTamilEbooks.com
Reply all
Reply to author
Forward
0 new messages