உலகில் செயற்கை நுண்ணறிவு (ஏஐ) தொடர்பான ஆய்வுகளும் மேம்பாடுகளும் ஆங்கிலமொழியையே அதிகம் மையப்படுத்தியுள்ளதைக் காணலாம்.
ஆங்கிலம் அல்லாத மொழிகள் பலவற்றின் வளங்கள், ஆங்கிலத்தைக் காட்டிலும் குறைவாக உள்ளதால் ‘எல்எல்எம்’ எனப்படும் பெரிய மொழி மாதிரிகள்’ (LLM - Large Language Models) தொடர்பாக அம்மொழிகளில் குறைவான தரவுகள் கிடைக்கப்பெறுகின்றன.
‘எல்எல்எம்’ என்றால் என்ன
பெரிய மொழி மாதிரிகள் என்பவை மனிதனைப் போன்ற உரையைச் செயலாக்க, புரிந்துகொள்ள மற்றும் உருவாக்க வடிவமைக்கப்பட்ட மேம்பட்ட செயற்கை நுண்ணறிவு அமைப்புமுறைகளாகும்.
அவை ஆழமான கற்றல் நுட்பங்களை அடிப்படையாகக் கொண்டவை. பெரிய தரவுத்தொகுப்புகளில் பயிற்சி பெற்ற அவை, பொதுவாக இணையத்தளங்கள், புத்தகங்கள் மற்றும் கட்டுரைகள் போன்ற பல்வேறு மூலங்களிலிருந்து பில்லியன் கணக்கான சொற்களைக் கொண்டிருக்கும். இந்த விரிவான பயிற்சியானது மொழி, இலக்கணம், சூழல் மற்றும் பொது அறிவின் சில கூறுகளைப் பற்றிய நுணுக்கங்களைப் புரிந்துகொள்ள பெரிய மொழி மாதிரிகளுக்கு உதவுகிறது.
வினாக்களுக்கு விடையளித்தல், சுருக்க உரை வழங்குதல், மொழிபெயர்த்தல், உள்ளடக்கத்தை உருவாக்குதல், பயனர்களுடன் ஊடாடும் உரையாடல்களில் ஈடுபடுதல் என இந்த மாதிரிகளால் பலவிதமான பணிகளைச் செய்ய முடியும்.
எல்எல்எம்கள் தொடர்ந்து உருவாகி வருவதால் வாடிக்கையாளர் சேவை, உள்ளடக்க உருவாக்கம், கல்வித்துறை, ஆராய்ச்சி என அனைத்திலும் பல்வேறு பயன்பாடுகளை மேம்படுத்துவதற்கும் தானியக்கமாக்குவதற்கும் அவை பெரும் ஆற்றலைக் கொண்டுள்ளன.
செயற்கை நுண்ணறிவுச் சார்ந்த மென்பொருள்கள், மொழிகளைத் துல்லியமாகப் புரிந்துகொண்டு பயனர்களின் எதிர்பார்ப்புகளை நிறைவு செய்ய சவால்கள் எதிர்நோக்கலாம்.
தமிழ்மொழி நிலை
இந்தப் புதிய தொழில்நுட்பப் பரிமாணத்தில் தமிழ்மொழி படிப்படியாக உயர்ந்து வருகிறது.
தொடர்புடைய செய்திகள்
இவ்வாறு தமிழ்மொழியைப் புதிய எல்லைகளுக்கு எடுத்துச் செல்லும் அரும்பணியில் ஈடுபட்டுள்ளார் தொழில்நுட்பத் தொழில்முனைவர் நித்திஷ் செந்தூர், 32.
ஆழமான தொழில்நுட்ப அறிவும் தமிழில் நிபுணத்துவமும் கொண்டுள்ள அரியவகை திறனாளரான இவர், தமிழ்மொழி சார்ந்த செயற்கை நுண்ணறிவுப் புத்தாக்கங்களின் தரத்தை ஆராய்ந்து செயற்கை நுண்ணறிவு உலகில் தமிழின் நிலை என்ன என்பதையும் அதில் உள்ள சவால்கள் யாவை என்பதையும் குறித்த ஆய்வுக் கட்டுரை ஒன்றை எழுதியியுள்ளார்.
இரு துறைகளில் ஆர்வம்
சிங்கப்பூர் சமூக அறிவியல் பல்கலைக்கழகத்தில் தகவல், தொடர்பு தொழில்நுட்பத்தில் பட்டக்கல்வி பயின்ற நித்திஷ், தமிழ்மொழி மீதான ஆர்வத்தால் தமிழ் முரசிலும் செய்தி மீடியாகார்ப்பிலும் வேலை அனுபவம் பெற்று, அதன்பின் அப்போதைய தொடர்பு, தகவல் அமைச்சின் அரசாங்கத் தொடர்புப் பிரிவில் நிர்வாகியாகப் பணிபுரிந்தார்.
தற்போது இவர் தொழில்நுட்பத் துறை சார்ந்த சுயத்தொழில் ஒன்றைச் செய்துவருகிறார்.
தொழில்நுட்பக் கலைச்சொல் உருவாக்கத்திற்கு மொழித்திறனும் தொழில்நுட்பத்திறனும் தேவைப்படுவதால் தம் ஆய்வுக் கட்டுரையில் மக்கள் புரியும்படியான கலைச்சொற்களைப் பயன்படுத்த, தமிழ்த்துறை மற்றும் செய்தித்துறை அனுபவம் உதவியாய் இருந்ததாக அவர் குறிப்பிட்டார்.
“கலைச்சொல்லின் உருவாக்கத்தில் உலகத் தமிழர்களும் முக்கியப் பங்காற்றியுள்ளதை நாம் காணலாம். கணினி என்ற சொல்லை சிங்கப்பூரரான நா.கோவிந்தசாமி உருவாக்கினார். இணையம் என்ற சொல் மலேசியாவில் உருவானது,” என்று அவர் கூறினார்.
தமிழும் ஏஐ படைப்பாக்கமும்
‘உத்தமம்’ எனப்படும் உலகத்தமிழ் தகவல் தொழில்நுட்ப மன்றம் நடத்திய இவ்வாண்டின் தமிழ்க் கணிமை, தகவல் தொழில்நுட்பத்திற்கான அனைத்துலக மாநாட்டில் செயற்கை நுண்ணறிவு பற்றிய தம் ஆய்வுக் கட்டுரையைப் படைத்தார் நித்திஷ்.
தமிழ்சார்ந்த மாநாடு ஒன்றுக்கு தமது ஆய்வுக் கட்டுரையை முதன்முதலாக அனுப்பிய இந்த அனுபவம் தித்திப்பாக இருந்ததாகச் சொன்னார்.
“என் கட்டுரையின் ஆய்வுச் சுருக்கத்தை ஏற்பாட்டாளர்களுக்கு அனுப்பினேன். அது தேர்ந்தெடுக்கப்பட்டதை அடுத்து மாநாட்டில் கலந்துகொள்ள அழைக்கப்பட்டேன்,” என்றார் நித்திஷ்.
டெக்சஸ் மாநிலத்திலுள்ள டாலஸ் நகரில் 23ஆம் முறையாக ஏற்பாடு செய்யப்பட்ட இந்த மாநாடு, ஜூன் 14ஆம் தேதி முதல் 16ஆம் தேதிவரை நடந்தது. கலிஃபோர்னியாவில் 2002ஆம் ஆண்டிலும் ஃபிலடெல்ஃபியாவில் 2011ஆம் ஆண்டிலும் நடந்த பின்னர் இம்மாநாடு, அமெரிக்காவில் மூன்றாவது முறையாக நடைபெற்றது.
இந்தியா, இலங்கை, ஐரோப்பா, ஜப்பான் எனப் பல்வேறு நாடுகளிலிருந்து பேச்சாளர்கள் பங்கேற்ற இந்த மூன்று நாள் மாநாட்டிற்கு சுமார் 300 பார்வையாளர்கள் வருகையளித்தனர். மாநாட்டுக்காகச் சமர்ப்பிக்கப்பட்ட சுமார் 100க்கும் அதிகமான ஆய்வுக்கட்டுரைகளில் 15 கட்டுரைகள் தேர்ந்தெடுக்கப்பட்டன.
வளர்ந்துவரும் தொழில்நுட்பங்களை ஆராய்வதற்கான பயிலரங்குகளும் நடத்தப்பட்டன.
“நான் பங்கேற்பாளர்களுக்குச் செயற்கை நுண்ணறிவு தொடர்பான பயிலரங்கை நடத்தினேன். செயற்கை நுண்ணறிவு மூலம் தமிழ்ப் பாடல்களை எப்படி உருவாக்குவது என்பதைப் பங்கேற்பாளர்கள் கற்றுக்கொண்டனர். இந்த இணைய மாநாட்டிற்கான பாடல்கூட செயற்கை நுண்ணறிவு மூலம் உருவாக்கப்பட்டது. தமிழ் நிரலோட்டப் போட்டியில் (Tamil Hackathon) குழுக்களுக்கு வழிகாட்டியாக இருந்தேன்,” என்றார் நித்திஷ்.
தரவுகளால் துல்லியம் கூடும்
செயற்கை நுண்ணறிவுக் கருவிகள், மென்பொருள்கள், இணையத்தளங்கள் முதலியவற்றைப் பயன்படுத்தி தமிழ்ப் படைப்புகளை எவ்வாறு உருவாக்கலாம் என்பதை நித்திஷின் ஆய்வுக் கட்டுரை அலசியது. ‘செயற்கை நுண்ணறிவு மூலம் தமிழ்ப் படைப்பாக்கம்’ என்பது ஆய்வுக் கட்டுரையின் தலைப்பு.
செயற்கை நுண்ணறிவில் தமிழ் எந்த நிலையில் உள்ளது, அது எதிர்நோக்கும் சவால்கள் முதலியவற்றையும் கட்டுரை ஆராய்ந்தது.
தொழில்நுட்ப வெளியில் தமிழின் பயன்பாட்டை அதிகரிக்க, தொழில்நுட்பம் அறிந்த தமிழ்ப் பற்றாளர்களும் தமிழ்ப் படைப்பூக்கவாதிகளும் தங்களால் இயன்றதைச் செய்து வருகின்றனர்.
இருந்தபோதும் துல்லியம் என வரும்போது ஆங்கிலத்தோடு ஒப்பிடுகையில் தமிழ்மொழிக்கு இன்னும் தரவுகள் தேவை என்றார் நித்திஷ். எல்எம்எம் எவ்வளவு தரவு கொண்டுள்ளதோ, அதற்கு ஏற்ப துல்லியமும் இருக்கும் என்று அவர் கூறினார்.
தமிழ், ஒட்டுநிலை மொழி என்பதால் தமிழுக்கான நுணுக்கங்கள் மற்ற மொழிகளுடன் ஒப்பிடும்போது மாறுபடுகின்றன. எனவே, பொதுவான எல்எல்எம் தமிழ்மொழிக்குப் பொருந்தாது.
தற்போது பரவலாகப் பயன்படுத்தப்பட்டு வருகிறது ‘சேட்ஜிபிடி’(ChatGPT). தமிழ்த் தரவுகள் அதிகம் இருந்தால் அதன் துல்லியமும் அதிகரிக்கும்.
தரவுகள் அதிகம் இல்லாதபோது, உதாரணத்திற்குக் கரையோரப் பூந்தோட்டம் என்ற தொடரைத் துணை விளக்கங்கள் இன்றி உள்ளீடு செய்தால் சிங்கப்பூரின் கரையோரப் பூந்தோட்டத்தைத் தயாரிப்பதற்குப் பதிலாக கரையோரம் அமைந்திருக்கும் ஒரு சாதாரண பூந்தோட்டத்தை வரைந்துதரும்.
எனவே, ஒரு மொழிக்கான தேவையை அறிந்தால் ‘ஓப்பன் ஏஐ’ (Open AI) போன்ற நிறுவனங்கள் தேடலைத் துல்லியமாக்கும் முயற்சிகளை எடுக்கலாம்.
வாழ்வாதாரத்தை வலுவாக்கும்
செயற்கை நுண்ணறிவின் முன்னேற்றம் துரிதமானது. சில நேரங்களில் திணறடிக்கவும் வைக்கலாம்.
தமிழ்ப்பாடல்களை உருவாக்கும் ‘சுனோ’ என்ற செயற்கை நுண்ணறிவுத் தளம், இதற்கு ஓர் உதாரணம். வரிகளை உள்ளீடு செய்தால் போதும், வெவ்வேறு பாணியைச் சேர்ந்த பாடல்களை உருவாக்கும் வல்லமையைக் கொண்டுள்ளது.
இதுபோன்ற செயற்கை நுண்ணறிவுத் தளங்கள், இசைக்கலைஞர்களின் வாழ்வாதாரத்தையே பாதிக்கக்கூடும் என்ற அளவுக்குச் சிலர் கவலைப்படுவதைத் தாம் கண்டதாகவும் நித்திஷ் கூறினார்.
இதேபோல கட்டுரைகள், வரைகலை, உயிரோவியம் போன்ற படைப்புகளைச் செயற்கை நுண்ணறிவு சார்ந்த தமிழில் வெகு திறமையாகப் புனையத் தொடங்கினால் விளைவுகள் ஒட்டுமொத்தமாக நன்மையைத் தரும், தீமை தராது என்றார் நித்திஷ்.
“தட்டச்சுக்கருவிக்குப் பதிலாக கணினியைப் பயன்படுத்துகிறோம். முன்புபோல இல்லாமல் இப்போது தட்டச்சு செய்பவர் என்ற ஒரு வேலையே மறைந்துவிட்டது. ஆனால் கணினியால் புதிய, சிறந்த வேலைகள் பல உருவாகியுள்ளன. கணினியால் ஒரு வேலையைச் செய்து முடிக்கும் நேரமும் வெகுவாகக் குறைந்துள்ளது,” என்று அவர் கூறினார்.
“காலந்தோறும் புதுப்புதுத் தொழில்நுட்பங்கள் வலம் வருகின்றன. செயற்கை நுண்ணறிவு போன்ற பெரும் புரட்சிகள் நிகழும்போது அவற்றை அச்சத்துடன் அணுகாமல் அரவணைத்துச் சென்றால் வாய்ப்புகளும் கைகூடி வரும்,” என்பது நித்திஷின் கருத்து.