what is bioinformatic
مقدمه
بیو درلغت به معنای زیست وانفورماتیک به مفهوم داده های مربوط به کامپیوتر می باشد.
بیو انفورماتیک در تعریف به معنای کاربرد کامپیوتر به عنوان ابزار محاسبه در دریافت و پردازش و تفسیر اطلاعات و داده ها می باشد.
علم بیوانفورماتیک دارای چند زیرواحد است که این زیرواحدهای سازنده شامل علوم زیست شناسی،پزشکی،ریاضیات و فیزیک میباشد که از طریق علم کامپیوتر به یکدیگر ربط داده می شوند و به این ترتیب نقش اساسی را در زیست شناسی مدرن بازی میکنند، امروزه بیوانفورماتیک جزء لاینفک رشته هایی از قبیل ژنتیک، ژنتیک ساختاری، ژنتیک جمعیت، زیست شناسی مولکولی، داروسازی، پزشکی، مهندسی پروتئین ومهندسی DNA گشته است.
محققین پس از توالی یابی برخی از پروکاریوتها به این نتیحه رسیدند که با توجه به رشد روز افزون حجم اطلاعات برای سرعت بخشیدن به تجزیه وتحلیل اطلاعات بیشتر، جلوگیری از هدر رفتن زمان و هم چنین دسترسی همگانی به اطلاعات، بایستی که اطلاعات به دست آمده دریافت، پردازش و تفسیر گردد و به وسیله کامپیوتر طبقه بندی شود تا در نهایت بتواند درسطح جهانی و به طور رایگان در دسترس محققین و کسانی که در زمینه های مربوطه کار می کنند قرار گیرد تا از آنها بهره جویند.
برای اینکه برآوردی از بالا بودن حجم این اطلاعات داشته باشیم، آماری را در که در ماه اگوست سال 2000 گرفته شده است، بررسی می کنیم؛
توالی های به دست آمده از DNA خام حدود 8.2 میلیون توالی که معادل بر 9.5 میلیارد باز است که اطلاعات بر اثر بررسی های مختلف از قبیل جداسازی مناطق معنی دار از بدون معنی DNA ،شناسایی اینترون و اگزون، شناسایی پروموتر، پیش بینی محصول ژن و حدود 300 هزار توالی پروتئینی که هر کدام حداقل 300 اسید امینه داشتند، ساختار 13000 ماکرومولکول مختلف که هر کدام 1000 آرایش فضایی اتمی داشتند و 40 ژنوم کامل موجودات زنده شامل 1.6 میلیون توالی یعنی هر کدام دارای 3 میلیارد باز بودند و علاوه بر اینها اطلاعات مربوط به تظاهر ژن ها، نوشته جات، مقالات و کتابخانه های دیجیتالی و مسیرهای متابولیک هم وجود داشتند که پس از محاسبه معلوم شد رشد بسیار صعودی وجود دارد، مثلاًَ هر 15 ماه یکبار حجم اطلاعات دو برابر می شود و با محاسبه اینکه هم اکنون در سال 2006 هستیم و حتی ژنوم کامل انسان هم درطی این سالها توالی یابی شده بایستی پیش بینی کرد که به چه رقمی رسیده است.
این حجم اطلاعات برای پردازش، ثبت، تفسیر و قرار گرفتن در دسترس همگان ناگزیر است که تحت مدیریت این علم وفن مشکل گشا قرار گیرد.
به طور کلی فعالیت ها واهداف عمده بیوانفورماتیک شامل:
- گرد آوری، جمع آوری و پردازش اطلاعات به نحوی که بتواند در دسترس همگان قرار گیرد. یعنی «data سازی» یا داده سازی که میدانیم در بیوایفورماتیک (DATA) شامل توالی های DNA خام، توالی پروتئین، ساختار دوم وسوم و چهارم پروتئین ها، ساختار ماکرومولکول ها، مسیرهای بیوشیمیایی و موتیف ها است.
- گسترش و توسعه ابزار و منابعی که به کمک آنها بتوان این اطلاعات و داده ها را بررسی، جستجو و تفسیر کرد. یعنی استفاده از «software tools» یا برنامه های نرم افزاری.
با استفاده از این دو فعالیت ذکر شده اطلاعات را از لحاظ زیست شناسی تفسیر کرده تا این اطلاعات به صورت کاربردی در بیاید. مثلا در زیست شناسی سنتی مقایسه یک چیز با دو چیز و یا حداکثر با چند چیز امکان پذیر بوده است ولی هم اکنون میتوانیم در سطح جهانی و بدون وجود محدویت به مقایسه از دیدگاه زیست شناسی بپردازیم.
ابزارهای اساسی و اصلی متخصصین بیوانفورماتیک شامل برنامه های نرم افزاری و اینترنت می باشد، و کار اساسی این کارشناسان استفاده از این ابزار یعنی اینترنت یا شبکه جهانی وب در جهت یکپارچگی اطلاعات برای دسترسی عمومی به اطلاعات و ابزار دیگر یعنی برنامه های نرم افزاری جهت دریافت و جستجو و ثبت اطلاعات است.
به طور نمونه کار آنها مانند یک جستجوی متنی ساده و گرفتن یک سری اطلاعات خاص و یا ذخیره کردن اطلاعات از اینترنت توسط نرم افزارهای مختلف است، که البته این کار آنقدرها هم ساده نیست و متخصصین ویژه ای را طلب می کند که به طرز جستجو و کار کردن با این نرم افزار ها واقف باشند.
در حال حاضر در اکثر آزمایشگاههای زیست مولکولی و پزشکی یک متخصص بیوانفورماتیک بایستی وجود داشته باشد که داده های مربوط به این آزمایشگاه ها را علاوه بر تفسیر وجستجو کرده و در صورت لزوم آنها را گزارش کند تا در سطح جهانی در دسترس همگان قرار گیرد.
برای آشنایی با این محیط فقط کافی است که از طریق اینترنت به آدرس اینترنتی NCBI یا مرکز بین المللی بیوانفورماتیک که در امریکا واقع شده است وصل شوید.
برای مثال یک توالی فرضی از یک ژن داریم، حالا باید ببنیم به چه سوالاتی می توانیم پاسخ دهیم و چه سوالاتی را می توانیم مطرح کنیم ؟ به طور کلی آیا این توالی تا به حال پیدا شده است؟ اگر این یک توالی پیدا شده است در چه موجودی وجود دارد؟ این توالی چه محصولاتی را تولید می کند؟ همانند این توالی در چه موجودات دیگری وجود دارد؟ محصولات این ژن چه ساختاری دارند؟ تظاهر این ژن چه میزان است؟ ساختارهای ثانویه و سوم و چهارم محصول این ژن چه ساختاری دارند ؟ و از این قبیل سوال ها که با بررسی و پاسخ دادن به این سوال ها از هدر رفتن زمان و انجام بیهوده کارهای آزمایشگاهی بیشتر جلوگیری می شود.
امروزه نه تنها این علم مشکل گشا باعث شناسایی توالی ژنومی انسان شده است بلکه با تکیه به این علم خواهیم توانست محصولات این ژن ها، جایگاه، کنش و اثرات متقابلشان را شناسایی و کنترل کنیم. همچنین به غیر از بررسی های توالی ژنومی می توان به بررسی تظاهر ژن ها، تنوع ژنتیکی، شناسایی عمل و کار پروتئین، طراحی پرایمرها وطراحی محیط های شبیه سازی مدل سلولی پرداخت.
به طور کلی بایستی گفت که از یک طرف با بررسی توالی ها، ساختار دوم، ساختار سوم، شکل فضایی، لیگاندها و ... به سمت طراحی داروها با تکیه بر این آنالیزها حرکت کنیم و در بعد دیگری با بررسی و مقایسه توالی ها با یکدیگر، مقایسه های چند گانه و بررسی های تکاملی، به سمت بررسی خانواده های پروتئینی رفته و یا همانطوری که در بالا گفته شد در پروژه های توالی یابی فعالیت کنیم.
دراین تحقیق کوشش شده است که در قالب شش بخش و پانزده فصل، به بررسی یک سری از مفاهیم و مطالب که در زمینه بیوانفورماتیک حائز اهمیت هستند پرداخته شود. در بخش اول به پایگاههای اطلاعاتی متنی (مقالات و ثبت اختراعات) و جستجوی آنها اختصاص داده شده است. معرفی و جستجوی پایگاههای اطلاعات توالی DNA و پروتئین ها در بخش دوم مورد بحث قرار گرفته اند. سپس در بخش سوم و چهارم به ترتیب اطلاعات ثانوی مربوط به پروتئین ها و تنظیم ابراز ژن ها آورده شده است. در دو بخش آخر، به چگونگی تولید، ذخیره سازی و بازیابی اطلاعات حاصل از پروژه های ژنوم ها اشاره شده است.
بیوانفورماتیک (Bioinformatic)
به معنای استفاده از کامپیوتر به عنوان ابزار محاسبه در آنالیز و دریافت و تفسیر اطلاعات و داده ها می باشد.
جستجوی نوشته جات (Literature search)
به دلیل حجم وتنوع زیاد اطلاعات واز طرفی تخصصی شدن آنها، برای دسترسی مناسب و سریع به اطلاعات بایستی از یک سری راهکارها و روش های خاصی استفاده شود.
اوپراتورهای بولین (Boolean operators)
برای هماهنگ کردن اعضای یک جستجو از این اوپراتورها استفاده می شود که شامل AND(مطالبی را پبدا میکند که هر دو عضو یک جستجو در ان باشد)، OR ( مطالبی را پبدا می کند که حداقل یک عضو در آن باشد)، NOT (مطالبی را جستجو میکند که عضو اول را داشته باشد ولی عضو دیگر در آن وجود نداشته باشد).
نکاتی که در مورد این اوپراتور ها می بایستی رعایت کرد این است که:
- بایستی با حروف بزرگ نوشته شوند
- اولویت جستجو را از چپ به راست قائل هستند
- برای جلوگیری کردن از اولویت دادن و یا جدا کردن اعضای یک جستجو بایستی که درون گیومه ".........." نوشته شود.
اگر لغت های جداگانه ای با فاصله از هم و بدون وجود این اوپراتورها نوشته شود، همگی به عنوان یک جمله در نظر گرفته میشود.
NCBi
{مرکز بین المللی بیوانفورماتیک ((National Center for Bioinformatic}
مرکز بین المللی بیوانفورماتیک که در ایالات متحده امریکا واقع است.
PUBMED
بزرگترین و پر کاربرترین پایگاه اطلاعاتی نوشته جات زیست مولکولی می باشد که محیط اصلی مربوط به Medline است که شامل فهرست کتابها و چکیده های ژورنال های مؤلفین از کشورهای مختلف که بیشتر از 6400 تا هستند .
PUBMED به Entrez که یک سیستم بازیابی اطلاعات در NCBi هم است link دارد.
PUBMED Central
یک آرشیو دیجیتالی از نوشته جات و ژورنال های (Life Science) می باشد که توسط NCBi کنترل میشود.
Bookshelf in PUBMED
مرکزی درهمکاری با NCBi که شامل یک سری کتاب است جهت اینکه مفاهیم و تعریف ها و بخش هایی را که در مقالات و ژورنال ها مشاهده میکنیم و برای ما سؤال برانگیز است بتوان از روی منابع مرجع آنها جستجو و مطالعه کرد .
َAGRICOLA
دستیابی on line به اطلاعات کشاورزی ((Agricultural Online Access
یک پایگاه اطلاعاتی است که به صورت فهرستی موجود است و به «NAL» کتابخانه جهانی کشاورزی در امریکا و مشترکین آن وصل است ، که البته کل گرایش های کشاورزی مانند حشره شناسی تا جنگل داری و غیره را در بر می گیرد و دارای link هایی به متن های کامل هر کدام از این فهرست ها می باشد و این پایگاه اطلاعاتی شامل دو فهرست است :
- کتابخانه دیجیتالی
- Online Journals
مقاله های Online (On line Journals)
اسم کلی یک سری از محیط ها است که دارای مقالات مهم بوده و به صورت Online در دسترس می باشند و اکثراً دارای متن کامل بوده و به صورت رایگان در اختیار عموم است ،که می توان از این قبیل به یک سری از آنها اشاره کرد:
· Genetic engineering new
· The world wide web journal of biology
· Plantcell
· Journal of cell biology
· Genes and development
حق اختراع (Patent) و صاحب امتیاز اختراع (Patentee)
یک قراردادی بین صاحب اختراع (مخترع) و دولت مربوطه است مبنی بر اینکه حق انحصاری فروش توسط دولت برای یک بازه زمانی به صاحب اختراع داده می شود. این حق باعث می گردد کسانی که یک اختراع جدید میکنند حمایت شوند و در سایه این حمایت از اختراع خود سود ببرند و در عوض مخترع متقابلاً پس از پایان این دوره اختراع خود را فاش کرده و در اختیار عموم گذاشته تا به آن دسترسی داشته باشند که اطلاعاتی از این قبیل برای موسسات توسعه و تحقیقاتی و حتی برای کسانی که تحقیقات شخصی خود را دنبال می کنند مفید است.
(Patentable)
برای اینکه یک نوآوری و اختراعی توسط patent حمایت گردد، بایستی که قابل patent شدن یا به عبارتی Patentable باشد که خود دارای شرایطی است:
- بایستی یک کار نو باشد
- بدیهی نباشد یعنی یک قدم مبتکرانه در آن برداشته شده باشد
- در کارهای صنعتی و تجاری کاربرد داشته باشد
- بایستی به طور کامل تشریح و توضیح داده شود
جستجوی وابسته به متن (Texted based search)
تفریبا تمامی توالی های پایگاههای اطلاعاتی توسط کلماتی نظیر اسم، شماره شناسایی، شماره مسلسل، نوع ، اسم مؤلف و کلمات کلیدی قابل جستجو هستند که با جستجوی این قبیل اطلاعات در بخش های بعدی آشنا می شوید.
در این قسمت با دو تا از ابزارهای بازیابی اطلاعات آشنا می شوید که یک جستجوی وابسته به متن همزمان را در چندین پایگاه اطلاعاتی به عمل می آورد و جالب است بدانید که اینها با یک پایگاه اطلاعاتی خاصی همکاری نمی کنند بلکه به منظور صرفه جویی در وقت کاربر به چندین پایگاه اطلاعاتی link هستند
SRS
سیستم بازیابی توالی (Sequence Retrieval System)
یک ابزار بازیابی و جمع آوری کننده اطلاعات است که بسیار کارآمد عمل می کند و خیلی سریع و راحت به مقادیر متنوع و زیاد اطلاعات علوم زیستی که در 400 پایگاه اطلاعاتی داخلی و عمومی که بعدا به ذکر اکثر آنها خواهیم پرداخت دسترسی دارد و بازیابی اطلاعات و تحقیق و جستجو را بین اطلاعات زیستی مختلف توسط فقط یک وجه مشترک انجام می دهد .
اکثر کمپانی های بزرگ فعال در زمینه علوم زیستی اطلاعات خودشان را در اختیار SRS می گذارند و در ضمن SRS استفاده آکادمیک را به ظور رایگان قائل است، حتی(IBC) مرکز بیوانفورماتیک ایران هم از این محیط استفاده می کند.
Entrez
یک سیستم بازیابی اطلاعات میباشد که از طریق بسیاری از پایگاههای اطلاعاتی واقع در NCBi اطلاعات را جمع آوری می کند. یعنی در حقیقت موتور جستجوی NCBi است که به پایگاههای اطلاعات مربوط به توالی نوکلئوتید ها وتوالی پروتئین ها و ساختارهای ماکرومولکول ها و تمام ژنوم ها و PUBmed دسترسی دارد. از این جمله می توان به پایگاههای اطلاعاتیGenBank , EMBL , DDBJ اشاره کرد.
- پایگاههای اطلاعاتی پروتئینی PIR , SWISSPROT , PDB
- پایگاههای اطلاعاتی ژنومی که حاوی اطلاعاتی برای نمایش ژنومهای کامل، کروموزوم ها، نقشه های فیزیکی و ژنتیکی ژنوم هاست.
- اطلاعات ساختاری (مدل مولکولی ) که حاوی اطلاعات تجربی حاصل از روش های کریستاالو گرافی و NMR بدست آمده است.
- OMIM که شامل کاتالوگ های ژن های انسانی و بیماری های ژنتیکی است.
- 3D DOMAIN حاوی دومین های پروتئینی است. که این اطلاعات از قسمت های مربوطه در NCBi بدست می آید.
اطلاعات رده بندی که نشان دهنده نام تمام موجودات زنده ای است که حداقل در NCBi یک توالی نوکلئوتیدی یا پروتئینی آنها آمده باشد. بسیاری دیگر از این قبیل DATA ها را می توان توسط این موتور جستجو به یکدیگر ربط داد.
GenBank
یک پایگاه اطلاعاتی عمومی از تمامی توالی های نوکلئوتیدی و پروتئینی شناخته شده است که دارای تفسیرهای زیستی و فهرست ها می باشد و توسط خود NCBi به منظور دریافت مستقیم توالی های نوکلئوتیدی و پروتئینی به وجود آمده است .
پرونده ها و بخش های GenBank
(GenBank recordes & divisions)
به طور کلی هر یک از اطلاعات و داده های GenBank شامل یک توضیح مختصری راجع به نام دانشمند یا کاشف، رده بندی و نوع موجود زنده، فهرست های شناسایی و جداولی که مناطق معنی دار و قابل اهمیت آنها را شرح می دهند مانند نواحی تغییر و موتاسیون، واحد های رونویسی (transcription units) ، نواحی تکرار (repear reagions) است. دیگر خصوصیات توالی و ترجمه پروتئین های مناطق معنی دار نیز در این جداول آمده است .
تحویل اطلاعات به GenBank
(Submission to Gen bank)
اطلاعات از دو راه وارد می گردد :
- ورود مستقیم اطلاعات توسط محققین. که شخصاً اطلاعات خود را توسط نرم افرارهای خاصی وارد می کنند
- ورود اطلاعات توسط موسسات تحقیقاتی. که توالی یابی به صورت Bulk بوده و انبوه اطلاعات را وارد می کنند .
تمامی این اطلاعات توسط این پایگاههای اطلاعاتی یعنی DDBJ و EMBL روزانه در حال تبادل بوده و دسترسی به هر کدام امکان پذیر است.
دسترسی و بازیابی اطلاعات GenBank
(Retriving GenBank)
همانطوری که قبلا هم توضیح دادیم Entrez که یک سیستم بازیابی اطلاعات (گیرنده اطلاعات) یا (Sequence retrival system) است می توان بوسیله آن به کلیه اطلاعات مورد نیازمان دسترسی پیدا کنیم.
بعداً توضیح خواهیم داد که از برنامه های BLAST می توان برای انجام یک سری مقایسه ها و اعمالی دیگر استفاده کرد.
EMBL
(European Molecular Biology Labs)
پایگاه اطلاعاتی مربوط به توالی های نوکلئوتیدی است که در کشور انگلستان قرار دارد و توسط موسسات بیوانفورماتیک اروپائی درست شده است و ارائه و تحویل اطلاعات به همان صورت شخصی و انبوه که گفتیم می باشد و دسترسی به این اطلاعات هم توسط سیستم های بازیابی اطلاعات نظیر SRS , BLAST امکان پذیر است. و حتی اطلاعاتی را هم ازمقالات علمی پژوهشی و Patent ها دریافت می کند.
DDBJ
(DNA DataBank of Japan)
پایگاه انحصاری و بانک اطلاعاتی DNA می باشد که در کشور ژاپن قرار دارد و وظیفه اش دریافت تمامی اطلاعات در مورد توالی های DNA از سراسر دنیا می باشد که اکثر محققین آن از خود ژاپن هستند و همانطوری که گفتیم در ارتباط روزانه با EMBL , GenBank که مربوط به NCBi هستند، می باشند تا اطلاعات را در اختیار کاربر بگذارند.
PIR
the Protein Information Resource))
پایگاه اطلاعاتی مربوط به توالی های پروتئینی است.
این پایگاه یک بخش از موسسه بین المللی تحقیقات زیست پزشکی بوده و به این منظور تاسیس شده که به محققین در زمینه شناسایی پروتئین ها و توالی های پروتئینی یاری برساند.
(SWISS PROT)
پایگاه اطلاعاتی پروتئینی است که در مشارکت با EMBL , EBI است. داده ها و اطلاعات موجود در این پایگاه اطلاعاتی از توالی های DNA معنی دار و ترجمه شده درEMBL ، و تطبیق این دادها با PIR که مستقیما توسط محققین عرضه شده است بدست می آید، و در واقع این پایگاه اطلاعاتی یک بانک اطلاعاتی است که از قسمت های معنی دار توالی نوکلئوتیدی DNA بدست آمده است و دارای ویژگی های منحصر به فرد خود در بین پایگاه اطلاعاتی پروتئینی است.
· ویژگی اول:
1- دارای اطلاعات بدنه یا (Core Information) است: اطلاعات بدنه شامل توالی داده، اطلاعات فهرستی رفرنس داده و رده بندی داده (که مثلا مربوط به کدام منبع پروتئین می باشد) آمده است.
2- اطلاعات تفسیری: نحوه عمل و کار پروتئین، تغییرات پس از ترجمه (فسفریلاسیون و استیلاسیون) ،جایگاهها و دومین های عملیاتی مانند جایگاه متصل شونده به کلسیم، جایگاه متصل شونده ATP و غیره، ساختارهای دوم و سوم و چهارم پروتئین ها، شباهت به پروتئین های دیگر، تداخل و مغایرت توالی ها
· ویژگی دوم:
حداقل گزافه گویی: بسیاری از پایگاههای اطلاعاتی حاوی توالی مختلفی برای یک پروتئین هستند که در جاهای مختلف گزارش شده است و SWISS PROT این توانایی را دارد که حجم این اطلاعات اضافی را به حداقل برساند و تا جایی که امکان داشته باشد از این تکرارها جلوگیری می کند و اگر هم با تمامی این تفاسیر باز هم تداخلی وجود داشت این تداخل ها را درون جداولی به نمایش می گذارد.
· ویژگی سوم:
همکاری و ارتباط با پایگاههای اطلاعاتی دیگر: این مسئله که بتوان بین سه دسته از اطلاعات وابسته به توالی یعنی (توالی نوکلئوتید اسید، توالی پروتئین، ساختارهای سوم پروتئین) ارتباط برقرار کرد، بسیار مهم است و از این لحاظ بایستی بگوئیم که SWISS PROT با 60 پایگاه اطلاعاتی دیگر در ارتباط است.
PDB
(protein Data Bank)
یک آرشیو مستقل از ساختار سه بعدی ماکرومولکول ها است که شامل اطلاعات مربوط به ساختار ماکرومولکولی اسید های نوکلئیک، پروتئین و مجموع اسید های نوکلئیک، پروتئین ها و ویروس ها می باشد. در ضمن در آن یک سری اطلاعات ویژه به همراه هر کدام از این ساختارها مثل جزئیات توالی، فرم فضایی اتم ها، شرایط تبلور و دیگر اطلاعات مربوطه آورده شده است.
Alignment
به معنی به خط کردن توالی های DNA یا توالی های پروتئینی و بررسی نوکلئوتید ها و رزیدو های مشابه در توالی های مشابه به یکدیگر و مقایسه و نهایتا بررسی و تفسیر این هماهنگی ها می باشد.
دو روش عمده در مورد Alignment :
· (local alignment) فقط تمرکز روی نواحی مشابه در قسمتهایی از توالی است.
· (global alignment) شباهت را در محدوده یک توالی بررسی می کند.
این مسئله که شباهت های موجود بین توالی ها و یا داشتن و نداشتن شبا هت بین توالی ها را درک کنیم، حائز اهمیت است چون در این صورت دیگر لازم نیست از یک Alignment global استفاده کنیم. مثلا در یک موردی که توسط local alignment هیچ شباهتی پیدا نکردیم کار بیهوده ایست که به بررسی GlobalAlignment بپردازیم.
- دلیل اینکه برنامه هایی نظیر BLAST , Fastaبسیار سریع و بدون اتلاف وقت عمل می کنند این است که به دنبال local alignment ها می گردند و از محاسبات ابتکاری خاصی در این رابطه بهره می برند.
مثلا یک جایگاه عملیاتی (جایگاه کاتالیتیکی یک آنزیم) دارای یک محدوده کوتاهی با یک توالی حفظ شده ای است که جهش و حذف و اظافه شدن در آن صورت نگرفته و هم چنین ثابت شده است که این نواحی کوچک دارای تا خوردگی های یکسانی هستند. پس این منطقی است که چنین مناطقی را برای بررسی شباهت ها در نظر گرفت چون بررسی آنها بسیار سریعتر و دقیق تر و راحت تر از بررسی کل یک توالی است.
BLAST Programs
برنامه های BLAST (Basic Local Alignment Search Tools)
یک سری از برنامه های جستجوی شباهت ها هستند و بدون در نظر گرفتن اینکه یک توالی مربوط به DNA و یا پروتئین است، طراحی شده اند.
کل اطلاعات مربوط به توالی را برای وجود شباهت هایی جستجو می کنند و طوری طراحی شده اند که بسیار سریع و کارآمد و بدون در نظر گرفتن روابط بین توالی های دور دست عمل می کنند و دارای محاسبات ابتکاری هستند که شباهت ها را ساده تر پیدا می کنند.
برنامه های BLAST چگونه کار می کند؟
جستجوی برنامه های BLAST یک سری راهکارهای جستجویی خاصی دارد که توسط این راهکارها جستجوی مورد نظر را در مورد DNA یا پروتئین با در اختیار گذاشتن برنامه های مخصوصی انجام می دهد. روند کار آن به این صورت است که اگر یک قطعه از نوکلئوتید با آمینو اسیدها را در نظر گرفته باشیم توسط برنامه BLAST شبیه ترین توالی ها را نسبت به قطعه مورد نظر با شماره گذاری نسبت به درجه شباهت و نزدیکی برای ما جستجو می کند. که به کل این عمل «HSP » می گویند و در میان «HSP » ها شبیه ترین وجه تشابه ها را «MSP » نامگذاری می کنند.
جستجوی BlAST بسته به نوع جستجویی که دارید برنامه های خاص آن را مثل MEGA BLAST, STANDARD BLAST و... در اختیارتان می گذارد .که پس از مشخص کردن نوع جستجو، توالی را وارد کرده و نهایتاً به بررسی و مقایسه توالی ها می پردازیم.
َََAlignment توالی های چند گانه
Multiple Sequence Alignment))
مقایسه جفتی یا دو به دو برای آنالیز توالی ها اساسی است، به هر حال آنالیز یک گروه از توالی ها که خانوادهای ژنی را تشکیل می دهند احتیاج به این مسئله دارد که بتوان بیش از دو عضو در یک گروه را مورد بررسی قرار داد یا بتوان فعالیت و تخصص یک خانواده ژنی را تشخیص داد.
هدف از این کار ایجاد یک منبع اطلاعاتی غنی و فشرده از توالی ها به منظور مرتبط ساختن یک سری از توالی ها به یک خانواده ژنی است.
این ارتباط از دو جهت مورد بررسی قرار می گیرد
- مقایسه هماهنگی بین رزیدوهای اسیدهای آمینه مشابه در رشته ها
- مقایسه شباهت ها بین ساختارهای ثانویه و ساختارهای سوم
برنامه (Multi Alin)
محیطی است که بر اساس شباهت بین یک گروه از توالی ها، Alignment توالی های چندگانه را انجام می دهد.
بانک اطلاعاتی مربوط به موتیف های پروتئینی و ابزار جستجو:
(Protein Motif Bank & Search Tools)
در برخی موارد توالی یک سری پروتئین های ناشناخته رابطه بسیار دوری را با ساختار پروتئین های شناخته شده دارد به طوریکه توسط مقایسه های جفتی و دو به دو نمی توان به بررسی شباهت ها پرداخت.
ما توسط Multiple Alignment کردن توالی های خودمان به یک سری نواحی خاص در روی توالی های پروتئینی پی می بریم. که این توالی ها چه در ساختار و چه در توالی شان، از این لحاظ که باعث به وجود آمدن یک سری جایگاهای عملیاتی یا خاصیت چسبندگی و یا فعالیتهای آنزیمی شده اند، و یا در شکل گیری ساختار سوم آن پروتئین نقش داشتند، اهمیت دارند. که این توالی های حفظ شده بزرگ و کوچک شامل تکرارها Repeat)) ،Domain ها ، جایگاههای تغییرات پس از ترجمه PTM ها و حتی Signature ها و Finger print ها می باشد.
با بررسی و تجزیه و تحلیل مشخصات چنین گروه هایی می توان یک سری از پروتئین ها را بر این اساس به یک خانواده پروتئینی اختصاص داد و حتی از بین پروتئینهای غیر مربوط یک سری را تشخیص داد و شناسایی کرد و ساختار آن را پیش بینی کرد.
به این گونه اطلاعات، اطلاعات ثانویه می گوییم. چون از ثمره و آنالیز اطلاعات اولیه بدست آمده اند و اگر آنالیزهای اولیه صورت نمی گرفت این اطلاعات هم وجود نداشتند.
برای مثال:
· Family: یک گروه تکاملی از پروتئین های مشابه هستند که حاوی بیشتر از یک دومین یا تکرار (Repeat) مشترک هستند.
· Domain: یک دومین یک واحد ساختمانی مستقل در پروتئین ها است که کار خاصی را به عهده دارد و معمولا به همراه تکرارها و دومین های دیگر پیدا می شود.
· Repeat: یک ناحیه کوچکی است که از آن انتظار نمی رود به شکل گرد شده در بیاید و حالت دومینی بگیرد مثلا 6 تا 8 کپی از تکرارهای مختلف بایستی کنار هم قرار بگیرند تا یک دومین درست کنند.
· PTM: یا نواحی تغییرات پس از ترجمه، که دارای عواملی هستند و توسط این عوامل شناسایی می شوند برای مثال N_Glygolyzation در یک ناحیه باعث شناسایی این ها می شود.
(PROSITE)
شامل یک سری روش ها و الگوهای خاصی است که طوری طراحی شده اند که با ابزار محاسباتی خاص به طور سریع و مطمئن می تواند بگوید فلان توالی جدید مربوط به کدام خانواده پروتئینی است و یا شامل چه دومین هایی می باشد.
(SMART)
(Simple Modular Architecture Research Tool)
یک سایت وابسته به وب است که برای تفسیر دومین های پروتئینی و طراحی دومین ها طراحی شده است و فقط کافی است که نوع داده ای که داریم اعم از تکرار، دومین و... را وارد کنیم.
موضع یابی و استقرار پروتئین
(Protein Localization)
یک سلول یوکاریوتی حدود 10 هزارپروتئین متفاوت دارد و برای اینکه به درستی فعالیت کند بایستی تمامی این پروتئین ها در جایگاههای خاص خود در غشاهای مختلف و مشخصی استقرار پیدا کنند. اولین تقسیم بندی جایی رخ می دهد که پروتئین ها از ریبوزوم های سیتوزولی در حال جدا شدن هستند. یک سری از آنها در انتهای –Nترمینال خود دارای سیگنال های خاصی هستند که باعث شناسایی و هدایت آنها به شبکه اندوپلاسمی شده و وقتی که پروتئین ها از ریبوزوم ها جدا شدند به شبکه اندوپلاسمی هدایت می شوند و از آن جا هم به دستگاه گلژی رفته و بسته بندی شده که به مقصد های مختلفی فرستاده می شوند.
بقیه پروتئین هایی هم که به صورت آزاد در سیتوزول رها شدند، منتظر هستند که توسط سیگنال هایشان شناسایی شده و به غشای میتوکندری و کلروپلاست و جاهای دیگری بروند و بر اساس سیگنال هایی که دارند سرنوشت شان رقم می خورد.
حال در این مرحله و با بررسی کامل این پروتئین ها و در دست داشتن توالی ها و بررسی همین پروتئین های هدف، توانستند یک سری ضوابطی را در مورد استقرار و موضع یابی پروتئین ها در مکان های خاص درک کنند. که همین ضوابط پایه و اساسی برای طراحی یک سری از برنامه های کامپیوتری برای پیش بینی جایگاه احتمالی استقرار پروتئین ها شده است که می توان از این جمله PSORT را نام برد.
(PSORT)
مجموعه ای از برنامه های کامپیوتری است برای پیش بینی جایگاه های احتمالی استقرار پروتئین در سلول. که به عنوان ورودی، به آن اطلاعاتی از توالی آمینو اسیدی و منشاء آن داده می شود، حالا این اطلاعات ورودی توسط مقایسه با سیگنالهای پروتئین های منفاوت بررسی و آنالیز می شود و در نهایت گزارشی از جایگاههای احتمالی استقرار پروتئین مورد نظر به همراه یک سری اطلاعات اضافی، به ما می دهد.
این برنامه دارای انواع گوناگون است و شامل PSORT برای باکتریها و گیاهان ،PSORTⅡ برای توالی های مخمرها و حیوانات و بالاخره iPSORT برای شناسایی جایگاههای نگهدارنده سیگنال در N-ترمینال پروتئین های طراحی شده، می باشد.
نواحی تنظیم کننده رونویسی
Transcription Regulatory Regions) )
ژنوم یک سلول حاوی تمام اطلاعات برای ساختن هزاران پروتئین و RNA مختلف می باشد ولی در هرسلولی فقط یک سری از این ژن ها بیان می شوند و تفاوت در سلول بافت های گوناگون، اثر متفاوت ژن های گوناگون است.
علاوه بر این سلول ها می توانند الگوی بیان و تظاهر را در جواب به متغیرها و یک سری سیگنال های موجود در محیط اطراف نسبت به دیگر سلول ها تغییر بدهند.
برای بیشتر ژن ها مهمترین قسمت تنظیم تظاهرژن، در کنترل رونویسی RNA است.
پروتئین های تنظیم کننده ژن، مانند zinc finger, helix turn helix و غیره، قسمت های کوچکی از DNA دو رشته ای را شناسایی کرده و به همین واسطه تشخیص می دهند که در بین هزاران ژن موجود در سلول بایستی رونویسی شوند.
توالی های نوکلئوتیدی بخصوصی که کمتر از 20 نوکلئوتید طول دارند، به عنوان جایگاههایی برای شناسایی یک سری بخصوص از پروتئین های تنظیم کننده ژنی مانند پروموتر ها و جایگاههای بالا دست ، ایفای نقش می کنند. هزاران قطعه از توالی های DNA از این جمله شناسایی شده است و شناسایی این توالی ها توسط همان پروتئین های تنطیم کننده ژنی صورت گرفته است که روی این جایگاه ها می نشینند.
در جانوران زنده متعددی، صدها پروتئین تنظیم کننده ژنی پیدا شده که هر کدام کار ویژه ای انجام می دهند. که اکثراً به صورت همودایمر یا هترودایمر به DNA متصل می شوند و از طریق یک سری از موتیف های عملیاتی کوچکتر مانند مارپیچ-پیچ-مارپیچ (helix-turn-helix) ، موتیف مارپیچ-حلقه- مارپیچ (helix-loop-helix) ، موتیف انگشت روی (zinc finger) و یا موتیف زیپ لوسینی ، می توانند DNA را شناسایی کرده و به آن وصل شوند.
هدف و موضوع یک سری پایگاههای اطلاعاتی جمع اوری همین عناصر DNA و فاکتورهای تنظیم کننده پروتئینی است که بتوانند برای بررسی و آنالیز این داده ها از ابزارهای قدرتمند طراحی شده استفاده کنند .
ما در اینجا به یک سری از این ابزارهای معروف اشاره می کنیم. البته خالی از لطف نیست که اشاره کنیم که یک سری دیگر از برنامه های نرم افزاری برای جستجوی موتیف های دیگر DNA نیز وجود دارد، مانند جایگاههای برش آنزیم های برشگر (Restriction enzymes) که بسیار استفاده از آنها راحت می باشد.
*** نکته مهم اینکه تا به حال چیزی به عنوان ناحیه پروموتری (Promoter Region) به طور روشن تعریف نشده است و دو روایت در مورد آن وجود دارد:
- جایگاهی است که RNA پلیمراز II به رشته می چسبد و رونویسی شروع می گردد .
- جایگاه بالا دست توالی TATA که فاکتورهای رونویسی به آنجا وصل می شوند.
EPD
پایگاه اطلاعات مربوط به پروموترهای یوکاریوتی
(Eukaryotic Promoter databases)
یک مجموعه غیر تکراری از پروموترهای RNA پلیمراز II است که جایگاه رونویسی آنها مشخص شده و این جایگاه ها به طور تجربی و آزمایشی بدست آمده است.
کار این قسمت این است که یک توالی را بررسی کند تا ببینند که آیا جایگاهی برای آغاز رونویسی برای ژن های یوکاریوتی دارد یا نه و اگر دارای جایگاهی است آن را از طریق EMBL که بانک توالی های نوکلئوتیدی است، تطبیق دهد.
(TRANSFAC)
یک پایگاه اطلاعاتی در مورد فاکتورهای رونویسی (Transcription Factors) می باشد و اطلاعاتی در مورد جایگاه چسبنده ژنومی این فاکتورها و خصوصیات قسمت چسبنده شان دارد.
(Promoter scan)
برنامه ایست که طراحی شده تا پروموترهای انزیم RNA پلیمراز II یوکاریوتی را در توالی های اولیه DNA پیدا کند و کاملاً یک برنامه کاربردی است چون دقیقاً کاری است که در طبیعت هم اتفاق می افتد. همچنین برنامه خوبی برای شناسایی نقاطی است که در توالی اولیه DNA می توانند به عنوان پروموتر عمل کنند.
به طور کلی این برنامه ها بر اساس پروموترها، فاکتورهای رونویسی شونده و پروتئین های چسبنده به DNA طراحی شده اند، تا بتوان چنین نقاطی را در روی توالی DNA اولیه پیش بینی کرد.
نگاهی بر پروژه های ژنومی
Overview on Genome Projects
ژنوم
Genome
یک ست کامل از DNA های یک موجود زنده را ژنوم گویند. کوچکترین ژنوم شناخته شده یک موجود زنده حاوی 600 هزار جفت باز DNA است در حالی که ژنوم موش و انسان حاوی سه میلیارد جفت باز می باشند که روی 24 کروموزوم متفاوت قرار گرفته اند. حدود 2 درصد از کل ژنوم حاوی اطلاعات ساخته شدن پروتئین ها می باشد و بقیه نواحی، نقاط بی معنی هستند که این 2 درصد از کل ژنوم حاوی 30 تا 40 هزار ژن است و بقیه این ژن های بی معنی باعث ایجاد ساختمان کروموزوم می شود. که این کروموزوم ها در زمان و مقدار خاصی باعث تقسیم این اطلاعات با ارزش خواهند شد.
پروتئوم
Proteom
کلمه پروتئوم از مجموع کلمه پروتئین + ژنوم حاصل شده است وبه معنای جمع کلیه پروتئین هایی است که از ژن های معنی دار انسان تولید می گردد. بر خلاف ژنوم، پروتئوم فعال است و هر لحظه به واسطه محرکها و محیط در حال تغییر است و می دانیم که کلیه کنش پروتئین در توالی نهفته است.
پروتئومیکس
Proteomics
مطالعه و بررسی برای پی بردن به ساختار پروتئین و کنش های آن را پروتئومیکس گویند. امروزه بیشتر تحقیقات بر این پایه استوار است که در تحقیقات پزشکی، داروئی و بیماری ها بسیار کاربرد دارند.
نقشه برداری ژنومی
Genome Mapping
همانطوری که در یک نقشه مشاهده می گردد، می توانیم جایگاههای ژن های مختلف را شناسایی کرده و تشخیص دهیم. که البته این تشخیص ها ازگذشته تا به حال توسط نوترکیبی cross over تا استفاده از روش های مارکرهای مولکولی ادامه یافته است تا بتواینم نقشه های ژنومی را تدوین کنیم که انواعی از آنها نقشه های فیزیکی(نقشه های کروموزومی، نقشه های سیتوژنتیکی، نقشه های توالی) و نقشه های ژنتیکی می باشد.
(Map Viewer)
برنامه ای است که به قسمت Entrez Genome واقع در NCBi که در آن بیشتر از 800 ژنوم کامل یا در حال کامل شدن است می رود، و با امکانات جستجویی که ایجاد می کند به ما این امکان را می دهد که کل ژنوم را بتوانید بررسی کنیم و نقشه های کروموزومی، قسمت های مختلف کروموزومی، از جمله معنی دار و بدون معنی، مارکرها و حتی نام تک تک ژن ها را به ما نشان می دهد.
عرصه کاربرد ژنومیکس
Functional Genomics Area))
با توجه به سیل اطلاعات ژنومی و رشد روزافزون این اطلاعات در یک مقیاس وسیع، بیشتر تلاش روی این مخزن عظیم از اطلاعات بر این پایه است که متوجه شوند که چطور DNA و پروتئین و محیط با یکدیگر کار می کنند و یک مجموعه فعال زیستی را می سازند.
*** بیشتر مطالعات هم در دهه های آینده روی عرصه کاربرد ژنومیکس خواهد بود که شامل مطالعاتی در مورد ترانسکریپتومیکسTranscriptomics ، پروتئومیکس، ساختارهای ژنومیکسی Structural Genomics و مقایسات ژنومیکسی Comparitive Genomics خواهد بود:
· ترانسکریپتومیکس
Transcriptomics
شامل بررسی mRNA های رونویسی شده در سطح وسیع از ژن های فعال است. تا بتوانیم این موضوع را که چه زمانی و کجا و تحت چه شرایطی ژن ها تطاهر پیدا می کنند را دنبال کنیم.
· پروتئومیکس
Proteomics
مطالعه کار و بیان پروتئین ها می تواند به اینکه واقعاً چه اتفاقی در سلول می افتد ما را بیشتر از اینکه صرفاً به بررسی تظاهر ژن ها بپردازیم راهنمائی کند که این علم در طراحی دارو ها بسیار کاربرد دارد.
· ساختارهای ژنومیکسی
Structural Genomics
مقدمات این کار فراهم شده است که ساختار سه بعدی یک یا تعداد بیشتری از پروتئین ها در هر خانواده پروتئینی ترسیم شود که همگی این راه ها به سمت طراحی و کشف داروهای جدید پیش می رود.
روش های آزمایشی باعث شناسایی وظایف توالی های DNA و پروتئین هایی که این ژن ها رمز می کنند شد و در نهایت باعث می شود که بتوان ژن ها را در موجودات زنده غیر فعال کرد و از همین طریق پی به عمل شان برد.
· مقایسات ژنومیسی
Comparitive Genomics
مقایسه آنالیز الگوهای توالی DNA انسان و دیگر موجودات کاملاً شناخته شده به طور تنگاتنگ امروزه به عنوان یکی از استراتژی ها و راهکارهای مطالعه و شناسایی ژن های انسانی و وظایف آنها بکار می رود.
پروتئومیکس ، کاربرد و مزایا:
یکی از تکنیک های مهم درمطالعه تظاهر ژن ها و کاربرد ژنومیکسی، پروتئومیکس است.این تکنیک در مقایسه با تکنیک های وابسته به mRNA دارای امتیازاتی زیادی است:
- برای مثال مقادیرmRNA با مقادیر پروتئینها از نظر مقدار قابل مقایسه نیستند.
- روی DNA و mRNA اطلاعات کمی در مورد شکل فضایی، موضع یابی، تغییرات پس از ترجمه و نیمه عمر پروتئینها و غیره وجود داشته و مطالعه آنها به سختی صورت می گیرد.
- ما تنها یک ژنوم داریم ولی در سلول های مختلف و در شرایط مختلف می توان پروتئوم های گوناگون را بررسی کرد.
- پروتئومیکس تکنیکی است که با آن در شرایط مختلف می توان خصوصیات مختلف یک پروتئین را بررسی کرد. پس بنابراین پروتئین هایی را به دست خواهیم آورد که تظاهر متفاوت داشته باشند.
*** هدف آنالیز پروتئوم در نهایت تهیه نقشه تظاهر تمامی پروتئین های موجود در بافت های بدن است.
پایگاههای اطلاعات مربوط به مسیرهای بیوشیمیایی
Biochemical Pathway databases
پس از تمامی این مراحل و بررسی پروژه های توالی یابی ژنومی در موجودات زنده و پیدا کردن ژن ها و محصولات شان، قدم بعدی برای پیدا کردن مسیرهایی است که این محصولات در آنها وارد می شوند و بدین ترتیب ژن ها و مولکولهای حاصله نقش و کاری را در سلول به عهده می گیرند.
اطلاعات ما از نحوه عمل ژن ها و مولکول ها روز به روز توسط تکنولوژی های سلولی و مولکولی رو به افزایش است، به منظور اینکه اطلاعات گسترده پروژه های ژنومی به کار گرفته شوند، بایستی چنین اطلاعاتی توسط کامپیوتر پردازش و طبقه بندی شوند.
***مهمترین کار در مورد پایگاه های اطلاعاتی مربوط به مسیرهای بیوشیمیایی این است که اطلاعات مربوط به مسیرهای بیو شیمیایی و اطلاعات مربوط به پروژه های ژنومی را با یکدیگر یکپارچه سازی و هماهنگ کنند تا قابل استفاده باشد.