מגוון גנטי: איך משווים רצפים ביולוגיים

[1,205 מילים]

רשומה זאת היא חלק מסדרת המבוא לביולוגיה אבולוציונית. לחצו כאן לתוכן העניינים של הסדרה.

עד עכשיו בפרק הזה נתתי דוגמאות של מגוון גנטי תוך-מיני – מגוון גנטי בקרב קבוצה של פרטים ששייכים לאותו מין. ראינו מגוון גנטי תוך-מיני בקרב אוכלוסיה של יהודים וראינו נתוני מגוון ביולוגי רחבי-היקף, כאלו שדגמו חלק ניכר מעולם החי. לפני שאתחיל לדבר על מגוון גנטי בין-מיני, מגוון בין מינים שונים, עלי להשלים חסר מסוים. על מנת לזהות מגוון בין רצפים ביולוגיים ממינים שונים, עלי להסביר איך מאתרים את נקודות הדמיון והשוני בין רצפים ביולוגיים. במילים אחרות, עלי להסביר איך משווים בין רצפים של חלבונים או חומצות גרעין.

השוואה בחיי היום-יום

למעלה התייחסתי ל"השוואה" כפעולה שנועדה להשיג מטרה, יעד, תוצאה. המטרה הרצויה היא זיהוי נקודות הדמיון והשוני בין דברים. במקרה שלנו, הדברים הם רצפים ביולוגיים, אך הם לא חייבים להיות. השוואה היא פעולה שאנחנו עושים בכל מיני נסיבות בחיינו. זאת פעולה חיונית והכרחית לחיינו, ואפשר להבחין בשני דרכים עיקריות בהן אנחנו עושים השוואות בחיי היום יום.

לפעמים, אנחנו פשוט עורכים השוואה "מהמותן" – משתמשים ברשמים האינטואיטיביים שלנו כדי לזהות הבדלים ודמיון. לדוגמא, כשנראה חבר מגובס עם קביים, רובנו נזהה זאת מיד כהבדל ממצבו הרגיל. לא נצטרך לבחון אותו בדקדקנות על מנת לזהות את הפציעה. השוואות מהמותן שימושיות ומהירות, אך צריך להיזהר בשימוש בהן. הן נוטות לפספס הבדלים דקים אך חשובים, ועלולות לזהות הבדלים ודמיון גם כשאין כאלו. הסרטון למטה הוא הדגמה די מגניבה של המגבלות של השוואה מהמותן.

לעתים, אנחנו עורכים השוואה שיטתית, כזאת שנעזרת בחיפוש שיטתי ומודע אחר הבדלים תוך שימת לב רבה לפרטים. דוגמא יומיומית היא השוואת תווי הפנים של זוג תאומים "זהים". במיוחד בגיל צעיר, ההבדלים בינם לעתים לא בולטים לעיננו מיד וניתנים לאיתור רק אחרי התבוננות מעמיקה. השוואה שיטתית דורשת יותר זמן ומאמץ מנטלי מהשוואה מהמותן, אך היא אמינה יותר. היא מקטינה את הסיכון שנפספס משהו או נסווג נקודת דמיון כנקודת שוני ולהפך.

חברו הטוב ביותר של האדם

השוואת רצפים ביולוגיים מציבה בפנינו שני אתגרים עיקריים. האחד, כשאנחנו מייצגים את הרצף של חלבונים, DNA או RNA בעזרת אותיות, אנחנו מקבלים שרשרת ארוכה של אותיות. לנו, בני האדם, קשה מאד למצוא את הידיים ואת הרגליים בכאלו שרשראות של אותיות. השוואות בין רצפים כאלו של אותיות דורשות תשומת לב לפרטים וקל לנו מאד להתבלבל בהן. בשבילנו, העבודה עם כאלו שרשראות היא סדנת יזע מנטלית.

האתגר השני הוא הכמות האדירה של רצפים ביולוגיים שמצויים בטבע. בגנום של רוב המינים יש מאות או אלפי רצפים שמקודדים לחלבונים, וזאת רק קטגוריה אחת של רצפי DNA שנרצה להשוות. אנחנו פשוט לא מסוגלים לעבוד מהר מספיק כדי להיות מסוגלים להשוות כמות כזאת אדירה של רצפים בזמן ריאלי.

למזלנו, יש פתרון לשתי הבעיות הללו. אפשר להשתמש בחברו הטוב ביותר של האדם, המחשב. מחשבים מסוגלים לנתח בקלות שרשראות ארוכות של טקסט. כל מה שצריך הוא לומר להם מה לעשות בשפה שהם מבינים. גיבוש "רשמים אינטואיטיביים" לא בדיוק בא למחשבים "בטבעיות". זאת הסיבה שהשוואת רצפים בעזרת מחשב נעשית באופן שיטתי, על ידי הגדרה מדויקת של האופן בו תתבצע ההשוואה. זה יתרון, לא חיסרון. הוא מאפשר לנו להיות בטוחים במידה גבוהה שתוצאות ההשוואה לא מפספסות נקודות דמיון או שוני או מתבלבלות בינם.

השוואת רצפים בביולוגיה: הרעיון הבסיסי

יש מגוון שיטות לביצוע השוואה בעזרת מחשב, אך לפחות או יותר כולם משותף אותו רעיון: מציאת עימוד (alignment). עימוד של שני רצפים הוא הוספה של רווחים במקומות שרירותיים לכל אחד מהרצפים כך ששני הרצפים שמתקבלים יקיימו שני תנאים. התנאי הראשון הוא ששני הרצפים שיתקבלו יהיו בעלי אורך זהה. כך נוכל לזהות לכל עמדה ברצף אחד עמדה מקבילה ברצף האחר, לפי הסדר שלהן ברצף הסופי – עמדה ראשונה, שניה, שלישית וכן הלאה. התנאי השני הוא שאין עמדה בה יש רווח בשני הרצפים.

זאת הגדרה קצת מופשטת, כך שדוגמא ביולוגית בהחלט תעזור להבין אותה. דמיינו שלפנינו שני רצפים של חלבונים, כמו אלו שמופיעים בתרשים 1א. אלו רצפים של אותיות, כל אחת מהן מייצגת חומצת אמינו, שנקראים משמאל לימין. תרשים לא מציג סתם שני רצפים, אלא גם עימוד מסוים שלהם. להתחלה של הרצף הקצר יותר, רצף 1, הוספתי מספר רווחים, כך שאורכו זהה לאורך של רצף 2. בזאת הוא עונה לתנאי הראשון. בנוסף, קל לראות שאין עמדה בה בשני הרצפים יש רווח. בבירור, התרשים מציג עימוד של שני הרצפים הללו.

אם יש לנו עימוד כלשהו ביד, מאד קל להשוות בין הרצפים שבו. פשוט עוברים על כל העמדות לפי הסדר, משמאל לימין. יכולות להיות עמדות בהן תהיה זהות – בשני הרצפים תהיה חומצה אמינית זהה. יכולות להיות עמדות בהן יהיה שוני – בכל אחד מהרצפים תהיה חומצה אמינית שונה. יכולות להיות עמדות בהן יהיה פער – ברצף אחד תהיה חומצה אמינית ובשני רווח. תרשים 1ב מציג עימוד נוסף של רצף 1 ורצף 2 בו כל אחת מהעמדות סווגה כזהה, שונה או פער.

תרשים 1 - עימודים שונים של רצפים ביולוגיים. לחצו על התרשים על מנת לצפות בגרסה מוגדלת שלו. (א) שני רצפי חלבון. כל חומצה אמינית מסומנת על ידי אות אחת לפי הקידוד המקובל בספרות המדעית. (ב) עימוד אפשרי בין שני הרצפים. מסומנים עמדות הזהות, שוני ופער. (ג) העימוד האופטימלי של שני הרצפים. בהשוואה ל(ב), כמות עמדות הזהות גדולה יותר וכמות עמדות השוני והפער קטנה יותר.
תרשים 1 – עימודים שונים של רצפים ביולוגיים. לחצו על התרשים על מנת לצפות בגרסה מוגדלת שלו. (א) שני רצפי חלבון. כל חומצה אמינית מסומנת על ידי אות אחת לפי הקידוד המקובל בספרות המדעית. (ב) עימוד אפשרי בין שני הרצפים. מסומנות עמדות הזהות, השוני והפער. (ג) העימוד האופטימלי של שני הרצפים. בהשוואה ל(ב), כמות עמדות הזהות גדולה יותר וכמות עמדות השוני והפער קטנה יותר.

לא כל העימודים נולדו שווים. חלקם מכילים יותר עמדות זהות מאחרים, אחרים מכילים פחות פערים מאחרים. המטרה היא למצוא את העימוד האופטימלי, העימוד שיש בו את המספר המקסימלי של עמדות זהות וכמה שפחות עמדות שונות ופערים. לעימוד הזה בדרך כלל קוראים ה-עימוד של הרצפים, בה"א הידיעה. תרשים 1ג מציג את העימוד האופטימלי של רצף 1 ורצף 2. שימו לב איך כמות העמדות הזהות שבו גדולה באופן מאד בולט לעין מכמות העמדות הזהות בעימוד בתרשים 1ב. גם כמות העמדות השונות והפערים הצטמצמו.

העימוד האופטימלי הוא התוצאה הסופית שחיפשנו. הוא סוף המסלול, ההגעה אל ההשוואה הנכספת. הוא מאפשר לנו לזהות עמדות ברצפים המקוריים שזהות או שונות וכאלו שקיימות באחד אך לא באחר. פחות או יותר בהגדרה, הוא מייצג בלי לפספס את נקודות הדמיון והשוני בין הרצפים שמהם התחלנו. לכן, במשפט אחד אפשר לומר שהרעיון הבסיסי של השוואה של רצפים ביולוגיים הוא להגיע אל העימוד האופטימלי.

מעבר לרעיון הבסיסי, הסיפור מתחיל להסתבך. כדי למצוא את העימוד האופטימלי חייבים להיות חכמים. כמות העימודים האפשריים מאד גדולה, גם עבור רצפים מאד קצרים. לדוגמא, יש יותר מ-1058 עימודים אפשריים בין שני רצפים באורך מאה חומצות אמינו בלבד. זה 1 שאחריו 58 אפסים. זה מספר עצום. אפילו מחשב יתקשה לעבור על כולם בזמן סביר. הבעיה מחמירה כשמבחינים שרוב החלבונים הרבה יותר ארוכים ממאה חומצות אמינו. היא מסתבכת אפילו יותר, כי לעתים קרובות ביולוגיים מעוניינים להשוות יותר משני רצפים במקביל. למזלנו, תודות למאמצים הכבירים של ביולוגים יצירתיים לאורך שלושים השנים האחרונות, פותחו שפע תוכנות שמסוגלות לסקור ביעילות את העימודים האפשריים על מנת למצוא את העימוד האופטימלי. קצרה היריעה מלדון בהן כאן.

עימוד אמיתי ראשון

אנחנו סוף סוף מוכנים להציץ בעימוד ראשון של שני חלבונים אמיתיים. זאת רק הדגמה של עימוד עבור שני חלבונים די קטנים. בראש תרשים 2 מופיע העימוד של SUMO1 ו-ubiquitin (יוביקוויטין), צמד חלבונים אנושיים קצרים (פגשנו את יוביקוויטין בעבר). בשורת הזהות מסומנות ב-X כל העמדות הזהות בחלבונים הללו. בשורות האמצעיות מסומנות ב-X עמדות בעימוד בהן לשתי חומצות האמינו יש תכונה כימית משותפת – שתיהן ארומטיות, שתיהן אליפתיות, שתיהן בעלות מטען חיובי וכן הלאה (לא ממש משנה מהן התכונות הללו). בשורה האחרונה, שורת הדמיון, מסומנות ב-X כל העמדות בהן לחומצות האמיניות יש תכונה כימית כלשהי במשותף.

ubi_sumo1_aln
תרשים 2 – עימוד אופטימלי של רצפי יוביקוויטין ו-SUMO1. לחצו על התרשים על מנת לצפות בגרסה מוגדלת שלו. העימוד בראש התרשים. X בשורת הזהות מסמן עמדות בעימוד בהן יש חומצות אמיניות זהות. X בשורות האמצעיות מסמן עמדות בהן לשתי חומצות האמיניות בעמדה הזאת יש תכונה כימית משותפת. X בשורה הדמיון מסמן עמדות שדומה בלפחות תכונה כימית אחת.
הרצפים נלקחו מתוך PDB. מספרי גישה: 1UBI ו-4WJN

ביצעתי את ההשוואה הזאת בעזרת MUSCLE, תוכנה מאד סטנדרטית בתחום. הוא ארך שבריר שניה, בגלל שאלו רצפים קצרים והתוכנה הזאת מאד יעילה. העימוד מאפשר לנו להבחין בדפוסי דמיון ושוני בין החלבונים הללו. בעימוד (האופטימלי) יש 83 עמדות. 14 מתוכן זהות, או קצת פחות מ-17 אחוז. במצב כזה, אפשר לומר שיוביקוויטין ו-SUMO1 הם 17 אחוז זהים. 34 מהעמדות, או קצת פחות מ-41 אחוז, חולקות תכונה כימית כלשהי בטבלה. במצב כזה, אפשר לומר שיוביקוויטין ו-SUMO1 הם 41 אחוז דומים.

בחלק הבא

בחלק הבא סוף סוף אגיע לדוגמאות של מגוון גנטי בין-מיני. נראה שני דפוסי מגוון החובקות את כל עולם החי. אני מקווה שמה שלמדתם כאן על השוואה ועימודים יעזור לכם להבין יותר טוב את מה שתראו בחלק הבא.

מקורות וקריאה להרחבה

פירוט די מעולה בעיני של שיטות עימוד ניתן למצוא בספר Algorithms in Bioinformatics: A Practical Introduction של ווינג-קין סונג (CRC Press, 2010). הספר דורש ניסיון מוקדם, אך לאו דווקא עמוק, במדעי המחשב ומתמטיקה. לא מומלץ למי שמעוניין בחומר ברמת מדע פופולרי. למרות שניסיתי, לא הצלחתי למצוא חומר טוב ברמת מדע פופולרי על האלגוריתמים השונים. אם נתקלתם בחומר כזה, כולי אוזן.

תרשים 1 הוכן בעזרת matplotlib בפייתון ו-GIMP. רצף 2 בתרשים זה הוא הרצף של יוביקוויטין (PDB ID 1UBI). יצרתי את רצף 1 על ידי מחיקה והעתקה של מקטעים קצרים מהרצף של יוביקוויטין, פחות או יותר באקראי. העימוד האופטימלי הושג בעזרת MUSCLE, גרסה 3.8.31 (רץ מקומית על המחשב שלי) עם אפשרויות ברירת המחדל.

תרשים 2 הוכן בעזרת matplotlib בפייתון. הרצפים של יוביקוויטין ו-SUMO1 הורדו מ-Protein Data Bank, מספרי גישה 1UBI ו-4WJN בהתאמה. הם עומדו בעזרת MUSCLE, גרסה 3.8.31 (רץ מקומית על המחשב שלי) עם אפשרויות ברירת המחדל. טבלת הדמיון בתכונות הכימיות הוכנה בעזרת הסיווג הסטנדרטי של חומצות אמיניות לפי תכונות כימיות שמצוי בפחות או יותר כל ספר ביוכימיה.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *