பிசினஸ் மதிப்பை எப்படி அதிகரிக்க முடியும்?



BIG DATA தகவல்சூழ் உலகின் பிக் பிரதர்!

காம்கேர் கே.புவனேஸ்வரி - 4

ஏராளமான ஆப்கள். சென்ற பிறவியில் நீங்கள் என்னவாக இருந்தீர்கள், அடுத்த பிறவியில் எங்கு பிறக்க இருக்கிறீர்கள், உங்களை மறைமுகமாக நேசிக்கும் உங்கள் நண்பரை அறிய வேண்டுமா என பல்வேறு ஆசை வார்த்தைகள் மூலம் தூண்டில் போட்டு உங்களை அவர்கள் ஆப்களை பயன்படுத்த சுண்டி இழுக்கும். அதை கிளிக் செய்து உள்ளே நுழையும்போது ‘சமூக வலைத்தளத்தில் நீங்கள் பதிவு செய்துள்ள உங்கள் பர்சனல் தகவல்களை பயன்படுத்துகிறோம்’ என்ற ஓர் எச்சரிக்கை தகவலை வெளிப்படுத்தும்.

நாம் அதை பெரிதாக எடுத்துக்கொள்ளாமல் ஓகே என சொல்லி உள்ளே நுழையும்போது நம் பர்சனல் தகவல்களை நம்மை அறியாமலேயே அவர்களுக்குத் தாரை வார்த்துக் கொடுக்கிறோம். இப்படி நாம் அறிந்தோ அறியாமலேயோ நம்மைப் பற்றிய தகவல்களை இணையத்தில் பரவலாக அம்பலப்படுத்திக் கொண்டே இருக்கிறோம் என்பதை மறந்துவிடாதீர்கள். 

ஏற்கனவே தகவல் தாகத்துடன் அலைந்துகொண்டிருக்கும் பிக் டேட்டாவுக்கு இவை போதாதா? கரும்பு தின்னக் கூலி வேறு வேண்டுமா? ‘கொண்டா கொண்டா’ என அத்தனையையும் தன்னுள் அதிவேகமாக ஒன்றுடன் ஒன்று தொடர்புபடுத்தி உள்ளே ஏற்றிக் கொள்ளும். பின்னர் தேவைப்படும்போது ‘இந்தா பிடி’ என எடுத்துக் கொடுக்கும். பிக் டேட்டாவுக்குள் செல்லும் முன் டேட்டா (Data), டேட்டா பேஸ் (Data Base), டேட்டா பேஸ் மேனேஜ்மெண்ட் சாஃப்ட்வேர் (Data Base Managemnet Software) குறித்தும் அறிந்துகொள்ள வேண்டியது அவசியம்.

டேட்டா என்பதை தகவல்(கள்) எனலாம். உதாரணத்துக்கு ரம்யா என்ற மாணவியின் பெயர் தகவலின் ஒரு பகுதி. ரம்யா என்ற மாணவியின் பெயருடன், அவருக்கான கல்லூரி அடையாள எண், அவருடைய வயது, பாலினம், முகவரி, படிக்கும் கல்லூரி, படித்துவரும் பாடப்பிரிவு இதுபோன்ற தகவல்கள் சேர்ந்ததே முழுமையான டேட்டா.

டேட்டா பேஸ் என்பதை தகவல்களை சேகரித்து வைத்துக்கொள்ளும் தளம் எனலாம். அதாவது, பலதரப்பட்ட தகவல்களை எளிதாகக் கையாளும் வகையிலும், சுலபமாக பராமரித்து அப்டேட் செய்யும்படியாகவும், முறையாக சேகரித்து வைத்துக்கொள்ளும் விதத்திலும் செயல்படும் தகவல்தளம் எனலாம். உதாரணத்துக்கு, ரம்யா என்ற மாணவியின் தகவல்களை முறையாக சேகரித்ததைப் போல அந்தக் கல்லூரியில் படிக்கும் அத்தனை மாணவ மாணவிகளின் தகவல்களையும் முழுமையாக முறையாக சேகரித்து வைத்திருந்தால் மட்டுமே முழுமையான தகவல்தளமாக செயல்படும்.

மாணவ மாணவிகளின் கல்லூரி அடையாள எண்ணை வைத்து தகவல்களைத் தேடுவது சுலபமாக இருக்கும். மாற்றங்கள் செய்து அப்டேட் செய்வதும் தவறில்லாமல் நடைபெறும். ஆக, முறையாக சேகரிக்கப்பட்ட தகவல்களை உள்ளடக்கியதே தகவல்தளம். இதைக் கையாள்வதற்கு உதவுகின்ற தொழில்நுட்பத்துக்கு தகவல்தள பராமரிப்பு (Data Base Management System) என்று பெயர். அதற்கு பயன்படுத்தப்படும் சாஃப்ட்வேர்கள் தகவல்தள பராமரிப்பு சாஃப்ட்வேர்கள் (Data Base Management System Software) என்று அழைக்கப்படுகின்றன.

டிபேஸ் (dBASE), ஃபாக்ஸ்பேஸ் (FoxBase), ஃபாக்ஸ்ப்ரோ (FoxPro), கிளிப்பர் (Clipper) என அடிப்படை சாஃப்ட்வேரில் இருந்து தொடங்கி எம்.எஸ்.அக்ஸஸ் (MSACCESS), ஆரக்கிள் (ORACLE), எஸ்.கியூ.எல் (SQL), மை எஸ்.கியூ.எல் (MYSQL), டிபி2 (DB2) என பல்வேறு காலகட்டங்களில் பலதரப்பட்ட டேட்டா பேஸ் சாஃப்ட்வேர்கள் பயன்படுத்தப்பட்டு வந்தன.

இப்போதும் ஆரக்கிள், எஸ்.கியூ.எல், மை எஸ்.கியூ.எல் போன்ற சாஃப்ட்வேர்கள் பயன்பாட்டில் உள்ளன. இன்னும் ஒருசில இடங்களில் எம்.எஸ்.அக்ஸஸ்கூட பயன்படுத்தப்பட்டு வருகிறது. இவை தகவல்களை குறிப்பிட்ட பயன்பாடுகளுக்கு மட்டுமே பயன்படுத்த உதவி செய்கின்றன. தற்சமயம் ஹடூப் (Hadoop), நோ எஸ்.கியூ.எல் (NoSQL), எம்.பி.பி (Massively Parallel Processing-MPP), மங்கோடிபி (MongoDB) போன்றவை பரவலாக பரபரப்பான பயன்பாட்டில் உள்ளன.

பிக்டேட்டாவில் பயன்படுத்தப்படும் தொழில்நுட்பங்களும் இவற்றில் உள்ளன. இவை தகவல்களை பல்வேறு கோணங்களில் அதிவேகத்தில் துல்லியமாக அலசி ஆராய்ந்து ஒரு குறிப்பிட்ட பயன்பாட்டுக்கு மட்டும் அல்லாமல் பல்வேறு பயன்பாடுகளுக்கும் உபயோகப்படுத்தும் வகையில் செயல்படுகின்றன. நம்பகத்தன்மையுடன் கூடிய அதிகமான தகவல்கள், அதிகமான வேகம், பலதரப்பட்ட பல்வேறு பிரிவு களில் தகவல்கள்-இவைதான் பிக் டேட்டாவின் சிறப்பு.

பிக் டேட்டா என்றால் என்ன?
நிறைய தகவல்கள் கொட்டிக்கிடந்தால் மட்டும் அதை நாம் பிக் டேட்டா என்று சொல்லிவிட முடியாது. இந்தியாவில் வசிக்கும் மக்கள் அத்தனை பேரையும் டேட்டா பேஸில் பதிவு செய்துவிட்டால் அது பிக் டேட்டா அல்ல. தினமும் பல்லாயிரக்கணக்கில் மக்கள் வந்து செல்லும் மிகப்பெரிய மாலில் உள்ள ஸ்கேனர் எண்ணிக் கொடுக்கும் அன்றைய தினம் மாலுக்குள் சென்று திரும்பியவர்கள் எண்ணிக்கை பிக் டேட்டாவாகிவிடாது.

ரயில் நிலையம், ஏர்போர்ட் போன்ற இடங்களில் தினந்தோறும் குவியும் மக்கள் தொகை கணக்கெடுப்புப் பதிவும் பிக் டேட்டாவில் வராது. கருப்பு கோட் போட்ட அத்தனை பேரும் வக்கீலும் அல்ல, வெள்ளை கோட் போட்டவர் அனைவரும் டாக்டரும் அல்ல என்பதைப்போல நிறைய தகவல்கள் சேகரித்து வைக்கும் டேட்டா பேஸ் எல்லாமே பிக் டேட்டாவாகிவிடாது. அதற்கென முக்கியமான சிறப்பம்சங்களும், செயல்பாடுகளும் உள்ளன.

அதிக அளவில் தகவல்களை தேடித்தேடி உருவாக்குதல், சேமித்தல், தேவையானதைத் தேடி எடுத்துப் பயன்படுத்துதல், அலசி ஆராய்தல் போன்றவற்றின் அடிப்படையில் பிக் டேட்டாவின் சிறப்பம்சங்களாக கீழ்க்காண்பவற்றைச் சொல்லலாம்.

* அதிகமான பதிவுகள் (Volume)
* அதிவேகமான பதிவுகள் (Velocity)
* பலவிதமான பதிவுகள் (Variety)
* உண்மையான பயனுள்ள பதிவுகள் (Veracity)

இந்த நான்கு சிறப்பம்சங்களைக் கொண்ட பிக் டேட்டாவை பிசினஸ் பயன்பாடுகளுக்குக் கொண்டு வருவதற்கு வேல்யூ (Value) என்ற சிறப்பம்சமும் அவசியமாகிறது. இவற்றை வைத்துக்கொண்டு பிசினஸின் மதிப்பை எப்படி அதிகரிக்க முடியும் என்பதில்தான் சூட்சுமமே அடங்கியுள்ளது. பிக் டேட்டாவில் பதியும் தகவல்களை தொழிலுக்கும், தனி மனிதனுக்கும் உபயோகப்படுமளவிற்கு மாற்ற உதவுவதுதான் அனலிடிக் எனப்படும் ஆராய்ந்தறியும் ஆய்வு.

அதாவது வெவ்வேறு கோணங்களில் சேகரித்த தகவல்களை வித்தியாசமான பல்வேறு கோணங்களில் அலசி ஆராய்ந்து தீர்வைக் கொடுக்கிறது பிக் டேட்டா. இந்தக் கட்டுரையின் தொடக்கத்தில் சொன்ன கிரெடிட் கார்ட் உதாரணத்தில் இந்தியாவில் உள்ள கிரெடிட் கார்ட் வைத்திருப்பவர்கள் அத்தனை பேரின் பெயர், பாலினம், வயது, வேலை போன்ற விவரங்களை சேமித்து வைத்திருந்தால் மட்டுமே அது பிக் டேட்டாவாகிவிடாது. அதுவும் பிக் டேட்டாவின் ஒரு சிறப்பம்சம் அவ்வளவுதான்.

அந்தக் கிரெடிட் கார்டை பயன்படுத்தி கடைசியாக எந்த உணவகத்தில் என்ன உணவு சாப்பிட்டார்கள், கடைசியாக எந்த துணிக்கடையில் என்ன உடை வாங்கினார்கள், எந்த ஊரில் எந்த தியேட்டரில் என்ன சினிமா பார்த்தார்கள், மருத்துவமனை செலவுக்கு பயன்படுத்தி இருக்கிறார்களா, அப்படி என்றால் எந்த ஊரில் எந்த இடத்தில் உள்ள மருத்துவமனை என்பது போன்ற தகவல்களை பதிவு செய்து வைத்திருத்தலும் பிக் டேட்டாவின் சிறப்பம்சங்களை சற்றே உள்ளடக்கியது எனலாம்.

அதை அவர்கள் எந்தெந்த இடங்களில் பயன்படுத்துகிறார்கள். எந்தெந்த கால இடைவெளியில் பயன்படுத்துகிறார்கள், தோராயமாக எவ்வளவு செலவு செய்கிறார்கள், அவர்களின் நண்பர்களும் உறவினர்களும் அதேவகை கிரெடிட் கார்டைப் பயன்படுத்துகிறார்களா, அப்படியெனில் எத்தனை பேர் பயன்படுத்துகிறார்கள், ஏன் கடந்த சில மாதங்களாக பயன்படுத்தவில்லை என்பது போன்ற தகவல்களை பதிவு செய்து வைத்திருத்தல் பிக் டேட்டாவின் மற்றுமொரு சிறப்பம்சம்.

இப்படி பதிவு செய்கின்ற தகவல்களினால் ஏதேனும் ஒரு முக்கிய உபயோகமும் இருக்கவேண்டும். பிறந்தபோது யார் முதலில் தூக்கினார்கள், முதலில் பார்த்த சினிமா தியேட்டரின் பெயர் என்ன, முதல் காதல், காதல் தோல்வியடைந்த வருடம், பிடித்த ஆசிரியர், முதலில் பார்த்த மரணம் என  தேவையில்லாத தகவல்களை டேட்டா என்ற பெயரில் பெருமளவில் சேமித்து வைத்திருந்தால் பிக் டேட்டாவாகாது. அப்படியானால் பிக் டேட்டா என்றால் என்ன?
 

(தொடரும்)