BIOINFORMATICS

BIOINFORMATICS

چونکے ڈی این اے کو The book of Life   یہ چار حروف 
 
 اس لئے ہم کتاب کی مثال سے جنیاتی مماثلت کے طریقہ کار پہ روشنی ڈالیں گے۔

فرض کریں آپ کے پاس،
 ایک کتاب ہے 500 صفحوں پہ مشتمل جس کے  50,000 الفاظ ہیں۔
دوسری کتاب ہے 600 صفحوں پہ جس کے 60,000 الفاظ ہیں۔
دونوں کتابوں کا موضوع سائنس ہے۔ اگر آپ ان دونوں کتابوں میں لکھے گئے الفاظ میں مماثلت نکالنا چاہیں تو دکھنے میں آسان لگنے والا یہ کام حقیقت میں کافی مشکل ہے اور اس کا دارومدار اس بات پہ ہے کہ مماثلٹ سے آپ کا مطلب کیا ہے اور آپ مماثلت کیسے نکالتے ہیں۔
میں اس کی وضاحت کرتا ہوں۔ اگر آپ ایک پوری کتاب کے الفاظ کو ترتیب اور الفاظ کی موجودگی کے لحاظ سے  دوسری پوری کتاب کے الفاظ کی ترتیب اور موجودگی کے لحاظ سے موازنہ کریں گے تو چانسز نہ ہونے کے برابر ہیں کہ ان میں کوئی مماثلت ہوگی۔ مزید آسانی کے لیئے اس طرح وضاحت کرتا ہوں کہ دونوں کتابوں کے تمامی الفاظ کو صرف ایک لائن میں لکھیں۔ پہلے کتاب کے تمام الفاظ ایک لائن میں پھر دوسری کتاب کے تمام الفاظ ایک لائن میں۔ اس طرح ہمارے پاس دو لائنیں آئیں گیںجو کہ بہت لمبی ہوں گیں۔
اب دونوں لائنوں کو ساتھ ساتھ رکھ پہلے لفظ سے دیکھنا شروع کریں تو کیا چانسز ہیں کہ پہلے 100 الفاظ ایک جیسے ہوں گے اور ترتیب میں ہوں گے؟؟
ظاہری بات ہے کہ بہت کم چانسز ہیں۔ چاہے کتابوں کا موضوع ایک ہے یعنی سائنس لیکن یہ دو مختلف کتابیں ہیں۔
اسی طرح کیا چانسز ہیں کہ 750والا لفظ دونوں کتابوں میں ایک جیسا ہوگا؟ پھر 751 والا لفظ ایک جیسا، پھر 752 والا ایک جیسا۔ اسی طرح کیا چانسز ہیں کہ 1260  سے لے کر 1300 تک سارے الفاظ دونوں کتابوں میں ایک جیسے ہوں گے؟؟
اس کے چانسز نہ ہونے کے برابر ہیں۔
اس طرح بھی ہو سکتا ہے کہ ایک کتاب کے 1500 سے لے کر 1520 تک 20 الفاظ دونوں کتابوں میں ہوں ایک جیسے ہوں لیکن مختلف جگہوں پہ ہوں۔ ایک کے 1500 سے لے کر 1520 تک ہوں دوسری کتاب میں 2240 سے لے کر 2260 تک ہوں۔
لیکن ترتیب ایک نہ ہونے کی وجہ سے مماثلت کہلائے گی یا نہیں یہ آپ کے فیصلے پہ منحصر ہے۔ اگر آپ کا مقصد زیادہ مماثلت ظاہر کرنا تو آپ اسے کوئی ہیڈنگ دے کر مماثلت کی ذیلی شاخ میں رکھ لیں گے یا اگر اپکا مقصد زیادہ فرق ظاہر کرنا ہے تو پھر اسے مماثلت میں شامل نہیں کریں گے۔
مختصر یہ کہ عام حالات میں صرف چند الفاظ ایک جیسے اور ایک ترتیب میں ہوں گے۔

اب میری ریسرچ کا مقصد یہ ہے کہ انہی دو کتابوں میں زیادہ سے زیادہ مماثلت لانا تو مجھے کیا کرنا چاہیے!!!
میں اگر مماثلت والے چھوٹے چھوٹے یونٹس بنا لوں تو ان کے match ہونے کے چانسز بڑھ جائیں گے۔ یعنی ایک ہی لائن کے بجائے 600 صفحوں کی 600 سو لائنیں بنا لوں اور ہر ایک لائن کو دوسرے کتاب کے صفحوں سے موازنہ کروں یعنی پہلی صفحے کو دوسرے کتاب کے پہلے صفحے سے موازنہ کروں پھر پہلے صفحے کا دوسرے صفحے سے پھر پہلے صفحے کا تیسرے صفحے سے پھر پہلے صفحے کا چوتھے صفحے سے اسی طرح ایک صفحے کو دوسری کتاب کے پانچ سو صفحوں سے موازنہ کروں جس صفحے کی مماثلت سب سے زیادہ آئے اسے قبول کر لوں۔
پھر دوسرا صفحہ لوں اور اسے پہلے صفحے سے پھر دوسرے صفحے کو دوسرے سے پھر دوسرے صفحے کو تیسرے سے اسی طرح جس کی مماثلت سب سے زیادہ آئے اسے قبول کر لوں۔
ظاہری بات ہے اس طرح مماثلت زیادہ آنے کے چانس بڑھ جائیں گے۔
مزید زیادہ مماثلت لانے کے لئے میں صرف ایک جملے کو لے کر بھی موازنہ کر سکتا ہوں۔ اب پوری کتاب میں کہیں ایک جملہ دوسرے سے کچھ نہ کچھ مماثلت تو رکھتا ہو گا اسی طرح اگر ہر جملے 15 سے 20 فیصد مماثلت بھی رکھتا ہو اور اوریج 17 فیصد بھی ا جائے تو پہلے کی بنسبت یہ مماثلت کافی زیادہ ہے۔ اس میں تو صرف چند لفظ میچ ہو رہے تھے۔
اب اگر صرف ایک ایک لفظ کو دوسری کتاب سے موجود الفاظ سے match کریں تو  شاید 60 سے 70 فیصد الفاظ میچ کر جائیں گے اور یہی دونوں کتابوں کی مماثلت ہو گی۔
اگے ایک کتاب کے ہر حرف کو دوسری کتاب سے میچ کرنا شروع کریں کہ وہاں موجود ہے کہ نہیں تو میچ بلا شبہ 100 فیصد آئے گا۔
یعنی جتنے چھوٹے comparison units ہوں گے اتنی ہی مماثلت زیادہ آئے گی۔

یہاں پہ کچھ سوالات اٹھتے ہیں کہ پھر مماثلت نکالنے کا سہی پیمانہ کیا ہے؟
کس طرح نکالی گئی مماثلت واقعی مماثلت کہلائے گی؟؟
اس کا جواب یہ ہے کہ اپ کی ریسرچ کا مقصد کیا ہے اور آپ کی ترجیح پہ منحصر ہے۔

0/Post a Comment/Comments

Previous Post Next Post