21. மறைந்து நின்று பார்க்கும் மர்மம்

பெரும்பாலான ஐ.டி. ஆசாமிகளின் மனதில் உள்ள கேள்வி இதுதான். ‘நான் புரோகிராமர் கிடையாது. என்னிடம் வந்து ஹடூப் யூஸ் பண்ணிப் பாருங்கன்னு கேட்டா, என்ன சொல்றது. ஒண்ணும் புரியலைங்க’ என்பார்கள்.
21. மறைந்து நின்று பார்க்கும் மர்மம்

‘96’ படம் வெளிவந்த பின்னர், அவ்வப்போது கால இயந்திரத்தில் பயணித்து பள்ளிக்கூட வாழ்க்கைக்குப் பயணப்படும் நண்பர்களை நிறைய இடங்களில் பார்க்க முடிகிறது. படம் தந்த அனுபவத்தில், பள்ளிப் பருவ வாழ்க்கையின் மிச்சத்தைத் தேடுகிறார்கள். பேஸ்புக், டிவிட்டர், கூகுள் என சகல இடங்களிலும் தங்களுடைய முன்னாள் நண்பர்களை தேடிக்கொண்டே இருக்கிறார்கள். கிடைத்தால் மகிழ்ச்சி. கிடைக்காவிட்டாலும் பரவாயில்லை. தேடல் என்பது ஒரு சுகானுபவம். கூகுளாண்டவரெல்லாம் புழக்கத்தில் வருவதற்கு முன்பே வாழ்க்கை அப்படித்தான் இருந்திருக்கிறது.

‘96’ படத்தில் திரிஷாவின் நிகழ்காலமும், கடந்தகாலமும்தான சுவராசியமாகச் சொல்லப்படுகின்றன. திரிஷா கணவரது கேரக்டர் கண்முன் தெரிவதில்லை. அது இன்னொரு அனுபவம். அதைச் சொல்வதற்கு வேறு ஒரு படம் வந்தாக வேண்டும். எல்லோரும் எல்லாவற்றையும் தங்களுடைய வாழ்க்கைத் துணையிடம் சொல்லிவிடுவதில்லை. ஏதாவது ஒன்றை அந்தரங்கமாக மறைத்து வைக்கிறார்கள். அதை அவ்வப்போது ரகசியமாக ரசித்துக்கொள்வது சுவராசியமானது. அவர்கள் மறைப்பதை, தேடித் தோண்டி பார்த்து தெரிந்துகொள்வதும் ஒரு சுவராசிய விளையாட்டுதான். சமூக வலைத்தளங்கள் அத்தகைய விளையாட்டைத்தான் தொடர்கின்றன.

பக்கத்து வீட்டு நண்பரும் அப்படித்தான் தேடிக்கொண்டிருந்தார். ‘நீங்கள் யாரைத் தேடுகிறீர்கள் என்பது பரம ரகசியமல்ல’ என்றேன். ‘அப்படியா? என்னுடைய அக்கௌண்ட்டில் லாகின் செய்துதான் தேடிட்டிருக்கேன். இதெல்லாம் டைம்லைனில் வராது’ என்றார். ‘டைம்லைனில் வராது. ஆனால், நீங்கள் எதை தேடுகிறீர்கள் என்பது எங்கேயோ சேமித்து வைக்கப்படுகிறது’ என்றேன். நண்பர் சற்றே மிரண்டார். ஆனால், நல்ல மனிதர்! அவரது பேஸ்புக்கில் பழைய கனவுக் கன்னிகளான அபிமான நடிகைகளைத்தான் தேடிக்கொண்டிருந்தார்.

யாரோ ஒருவர், எங்கிருந்தோ உட்கார்ந்து எதையோ தேடிக்கொண்டிருப்பதை சமூக வலைத்தளங்கள் ஏன் சேமித்து வைத்துக்கொள்கிறார்கள்? எதற்காக அதைச் செய்ய வேண்டும்? பின்னாளில் பயன்படுத்திக்கொள்வதற்கா? பிளாக் மெயிலா? விளம்பரமா? ஏராளமான கேள்விகள் கேட்கலாம். ஆனால், பிக் டேட்டா தொழில்நுட்பம் இத்தகைய வாய்ப்பைத் தருகிறது. அதனால் தேடுதல் என்கிற பணியையும் விரைவாகச் செய்ய முடிகிறது.

நாம் ஏற்கெனவே பார்த்தபடி, கூகுள் அறிமுகப்படுத்திய மேப்ரெட்யூஸ் (MapReduce), 2004-ல் இதைச் சாத்தியப்படுத்தியது. காலப்போக்கில் தேவைகளும் அதிகரித்தன. பெரிய அளவிலான ரெக்கார்டுகளை வெளியே எடுக்க வேண்டும். அதில் ஒரே வகையிலான, பொருத்தமானவற்றைத் தேர்ந்தெடுக்க வேண்டும். இதெல்லாம் எளிதான விஷயமல்ல. கோடிக்கணக்கான ரெக்கார்டுகளை படித்து, பிரித்து உணரவேண்டி இருக்கும். ஒரு உதாரணத்தைப் பார்த்துவிடலாம்.

ஆப்பிள், ஆரஞ்ச், மேங்கோ, கிரேப்ஸ், பிளம் என பழங்களின் பெயர்களும் அதன் எண்ணிக்கைகளும் இப்படித்தான் சேமிக்கப்படுகின்றன. ஒவ்வொரு வரியும் தனிப்பட்ட மேப்பர் இன்ஸ்டென்ஸாக (maper instance) பிரித்து அனுப்பப்படுகிறது. இது, மேப் கீ வேல்யூவாக (Mapy key value) பிரிக்கப்பட்டு பின்னர் அகர வரிசைப்படி அடுக்கப்படுகிறது. அடுக்கியவையெல்லாம் ஒன்றாகத் திரட்டப்பட்டு, வெளியே அனுப்பப்படுகிறது.

கூகுளாண்டவரிடம் நாம் தேடும் ஒவ்வொரு தேடலும் மேப்ரெட்யூஸ் (MapReduce) அடிப்படையில் இன்டெக்ஸ் (index) உருவாக்கப்பட்ட பின்னரே தேடல் என்பது நிகழ்கிறது. கூகுளில் நியூஸ் (Google News) சேவையைப் பயன்படுத்துபவர்களுக்கு இதன் பலன் புரியும். வெவ்வேறு செய்தி சானல்கள், வெவ்வேறு இணையத்தளங்களில் வெளியாகும் கட்டுரைகள் உடனுக்குடன் தொகுக்கப்பட்டு கூகுள் நியூஸில் காண்பிக்கப்படுவதற்கு மேப்ரெட்யூஸ் முக்கியமான காரணம். இது தவிர, இணையத்தளத்தின் பக்கங்களைக் கண்காணிப்பது, ஏன் பாதுகாப்பு வசதியை மேம்படுத்துவதற்காகச் செய்யப்படும் தலைகீழ் குறியீட்டு கட்டுமானம்கூட (inverted index construction) மேப்ரெட்யூஸ் அடிப்படையிலேயே செய்யப்படுகின்றன.

கூகுளின் மேப்ரெட்யூஸ் போல், யாகூ வெப் மேப் (Web Map) என்னும் லாஜிக்கை பயன்படுத்துகிறது. அடிப்படையில் இரண்டுமே ஒரேவிதமான சட்டகம்தான். ஒரே லாஜிக்தான். வெப் மேப்பில் கூடுதலாக சில விஷயங்களும் சேர்க்கப்பட்டுள்ளன. மின்னஞ்சல் ஸ்பாம்களை கண்டறிவதற்காகவும் வெப் மேப்பை யாகூ பயன்படுத்துகிறது. டேட்டாவை உடைத்துக் கட்டுவது போலவே, ஸ்பாமையும் 64 எம்பி கொண்ட சிறுசிறு பகுதிகளாக (chunks) உடைத்து பகுத்தறிகிறது. வெப் மேப்பை பயன்படுத்தினால் ஸ்பாமை கண்டறிவதும், அதை அலெர்ட் செய்வதும் எளிதான விஷயம். ஆனால், ஸ்பாம் வராமலிருப்பதை தடுக்க முடியாது.

ஹடூப் பரவலாக உள்ளபோதே, அதைவிட மேம்பட்ட சில சேவைகள் தனித்தனியாக உருவாக்கப்பட்டன. உள்ளீடு நினைவகம், டேட்டாவை பைப்லைனில் நிறுத்துவதன் மூலம் மேப்ரெட்யூஸ் லாஜிக்கை மேம்படுத்தும் வழிகளெல்லாம் வந்துவிட்டன. உதாரணமாக, ஸ்பார்க். இது ஹடூப்பைவிட சற்றே மேம்படுத்தப்பட்ட தொழில்நுட்பம். பைதான், ஸ்கேலா தெரிந்தால், இரண்டே வரிகளில் எல்லாவற்றையும் முடித்துவிடலாம். ஸ்பார்க் ஸ்கியூஎல், ஸ்பார்க் ஸ்ட்ரீமிங், மெஷின் லேர்னிங் என்று ஸ்பார்க் தனியொரு கடலாக பரந்து, விரிந்துவிட்டது.

பெரும்பாலான ஐ.டி. ஆசாமிகளின் மனதில் உள்ள கேள்வி இதுதான். ‘நான் புரோகிராமர் கிடையாது. என்னிடம் வந்து ஹடூப் யூஸ் பண்ணிப் பாருங்கன்னு கேட்டா, என்ன சொல்றது. ஒண்ணும் புரியலைங்க’ என்பார்கள். நியாயமான அங்கலாய்ப்புதான். மேம்ரெட்யூஸ், ஹடூப் பற்றியெல்லாம் தெரிந்துகொள்ளவும், அதைப் பயன்படுத்திப் பார்க்கவும் புரோகிராமராக இருக்க வேண்டியது அவசியமில்லை. ஹடூப்பை பயன்படுத்துவதற்கு ஒரு குறிப்பிட்ட மொழியைப் பயன்படுத்தித்தான் எழுத வேண்டும்; அதைப் படித்திருக்க வேண்டும் என்றெல்லாம் கட்டாயமில்லை. ஜாவா தெரிந்தால் ஜாவா மேப்ரெட்யூஸ் கோடு எழுதி, ஹடூப்பிலிருந்து டேட்டாவை வெளியில் எடுக்கலாம். பிக் (Pg) அல்லது ஹைவ் (Hive) பயன்படுத்தி எழுதலாம்.

ஹடூப் எந்தளவுக்கு பயன்பாட்டில் இருக்கிறது? லாஸ் ஏஞ்சலீஸ் குழந்தைகள் மருத்துவமனையில் ஹடூப் பயன்படுத்தப்படுகிறது. மருத்துவமனையில் அனுமதிக்கப்படும் மாணவர்களின் மெடிக்கல் ரெக்கார்டுகளை சேமித்து, அவர்களது உடல்நிலையில் ஏற்படும் முன்னேற்றங்களை உடனுக்குடன் கண்காணித்து, சூழ்நிலைக்கேற்ற முடிவுகளை எடுத்து, அதற்கேற்றபடி சிகிச்சை அளிப்பதற்கு ஹடூப்பை பெரிதும் நம்பியிருக்கிறார்கள்.

லட்சக்கணக்கான நோயாளிகளின் டேட்டா, மருத்துவமனையில் வைக்கப்பட்டுள்ள ஏராளமான சென்ஸார், அதன் வழியாக நொடிக்கு நொடி அனுப்பப்படும் டேட்டா.. இதையெல்லாம் உடனுக்குடன் அனுப்பி சேமித்து, ஒப்பிட்டு, ஆய்வு செய்யப்பட வேண்டும். இது தவிர, இன்ஷூரன்ஸ் நிறுவனத்துடன் ஒப்பந்தமும் உண்டு. சேமித்த தகவல்களை அவர்களிடம் பகிர்ந்துகொள்ளவும் வேண்டும். ஏழு ஆண்டுகள் வரையில் மெடிக்கல் ரெக்கார்டை பத்திரமாக வைத்தாக வேண்டும். யார் எப்போது கிளைம் செய்தாலும், சம்பந்தப்பட்ட ரெக்கார்டுகளை சரிபார்த்து இன்சூரன்ஸ் நிறுவனத்துக்கு உடனுக்குடன் அறிக்கை தந்தாக வேண்டும். சராசரியாக ஒரு நாளுக்கு ஒரு TB டேட்டா அளவுக்குப் பரிமாற்றங்கள் நிகழ்கின்றன. இது இன்னும் கூடுவதற்குத்தான் வாய்ப்புகள் அதிகம். குறைவதற்கு வாய்ப்புகள் இல்லை.

மருத்துவமனை மட்டுமல்ல, அமெரிக்க அதிபர் தலைவர் தேர்தலில்கூட ஹடூப் பயன்பாட்டில் இருந்திருக்கிறது. தொலைபேசித் துறையிலும் வந்துவிட்டது. ஆனால், அமெரிக்காவைவிட ஆசியாவில்தான் இவை அதிகம். சீனாவின் முன்னணி தொலைபேசி நிறுவனமான குவாங்டோன் (Guangdon) தன்னுடைய வாடிக்கையாளரின் அனைத்து இன்கம்மிங், அவுட்கோயிங் கால்களைச் சேமிக்கிறது. கால் ரெக்கார்ட்ஸ் அனைத்தும் சேமிக்கப்படுகிறது, ஆய்வுக்கு உட்படுத்தப்படுகிறது. சீனாவில் பிரச்னையில்லை. ஆனால், அமெரிக்காவில் இதெல்லாம் சாத்தியமில்லை. அமெரிக்க மட்டுமல்ல, உலகின் பல்வேறு நாடுகளில் தொலைபேசி உரையாடல்கள் சேமிக்கப்படுவதில்லை. சேமிக்கவும் கூடாது. இதன் காரணமாகத்தான் அமெரிக்கா, இந்தியா போன்ற நாடுகளின் தொலைத்தொடர்பு நிறுவனங்களில் கால் ரெக்கார்டை சேமிப்பதில் கவனமாக இருக்கவேண்டி இருக்கிறது.

சரி, திரும்பவும் ஹடூப் பக்கம் வருவோம். ஹடூப், நாளுக்கு நாள் மெருகேறிக்கொண்டே வருகிறது. ஹடூப்பை மேம்படுத்த ஏராளமான இலவச தொகுப்புகள் (IDE) கிடைக்கின்றன. Karamasphere முக்கியமான டூல். ஜாவா கோட் எழுதுபவர்களாக இருந்தால், எக்லிப்ஸ் (Eclipse) போன்ற ஜாவா IDE செயலிகளும் ஹடூப் சேவையைத் தருகின்றன. விம் (VIM) என்னும் command line editor-கூட ஹடூப் கோட் எழுத போதுமானது. ஹடூப் சேவை, மேகக்கணிமை சேவைகளிலும் (cloud computing) கிடைக்கிறது. அமேஸான் எலாஸ்டிக் மேப்ரெட்யூஸ், ராக் ஸ்பேஸ் சேவைகளாகக் கிடைக்கின்றன.

ஊசீ (OOzie) என்பது மேப்ரெட்யூஸ் கட்டளைகளை ஒருங்கிணைக்கும் டூல். இதே போன்ற கேஸ்கேடிங், லிப்ஸ்டிக் போன்றவையும் ஹடூப் work flow-வை கண்காணிக்கவும் மேம்படுத்தவும் உதவுகின்றன. இதே வரிசையில், கிளவுடேரா தரும் ஹியூ (Hue), கேங்கிலியா (Ganglia) தவிர, நிறைய இடங்களில் கண்காணிப்புக்காகப் பயன்படுத்தப்படும் நாகியோஸ் (Nagios) கூட, ஹடூப் சேவைக்காகப் பயன்படுத்த முடியும்.

எந்த டேட்டாவை எதற்குப் பயன்படுத்தப் போகிறோம் என்பதுதான் நம்முடைய சவால். மார்க்கெட் பற்றிய ஆய்வுகளுக்கு, தங்களிடம் உள்ள டேட்டாவை சம்பந்தப்பட்ட நிறுவனமே முழுமையாக நம்பி களத்தில் இறங்குவதில்லை. தேவையில்லாத டேட்டா என்று ஒரு பக்கம் உதாசீனப்படுத்துவதையும், நிஜமாகவே உபயோகமில்லாத டேட்டாவை லட்சக்கணக்கில் செலவழித்து கிளவுடில் ஏற்றிவிட்டு பின்னர் அவஸ்தைப்படுவதையும் இன்று பல நிறுவனங்களில் சர்வசாதாரணமாகக் காண முடிகிறது. பாதுகாப்பு சம்பந்தப்பட்ட ஓட்டைகள் ஒரு பக்கம், இன்னொரு பக்கம் ஏராளமான பொருள் இழப்பு. வெட்டிச் செலவு என்று நன்றாகவே தெரிந்தாலும், எக்ஸிகியூடிவ் கூட்டத்தில் யாரும் வாய் திறந்து சொல்லாமல், புதிய தொழில்நுட்பம் என்பதற்காக ஏராளமாகச் செலவழித்து கையை சுட்டுக்கொள்வார்கள். கார்ட்டூன் சொல்லும் கதையும் அதுதான்.

(தொடரும்)

தினமணி'யை வாட்ஸ்ஆப் சேனலில் பின்தொடர... WhatsApp

தினமணியைத் தொடர: Facebook, Twitter, Instagram, Youtube, Telegram, Threads, Koo

உடனுக்குடன் செய்திகளை தெரிந்து கொள்ள தினமணி செயலியை பதிவிறக்கம் செய்யவும் 

Related Stories

No stories found.
Dinamani
www.dinamani.com