• Nenhum resultado encontrado

Βάσεις δεδομένων για την επεξεργασία δεδομένων που αφορούν τις εφαρμογές της βιοπληροφορικής

N/A
N/A
Protected

Academic year: 2023

Share "Βάσεις δεδομένων για την επεξεργασία δεδομένων που αφορούν τις εφαρμογές της βιοπληροφορικής"

Copied!
120
0
0

Texto

(1)

Τ Ε Ι ΚΑΒΑΛΑΣ - Σ Χ Ο Λ Η Δ Ι Ο Ι Κ Η Σ Η Σ ΚΑΙ Ο Ι Κ Ο Ν Ο Μ Ι Α Σ Τ Μ Η Μ Α Δ Ι Α Χ Ε Ι Ρ Ι Σ Η Σ Π Λ Η Ρ Ο Φ Ο Ρ Ι Ω Ν

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ

Β σαγω γή στην Βισπληροφορική

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΓΙΑ ΤΗΝ ΕΠΕ ΞΕΡΓΑΣΙΑ Δ Ε Δ ΟΜΕΝΩΝ ΠΟΥ ΑΦΟΡΟΥΝ ΤΙΣ ΕΦΑΡΜΟΓΕΣ ΤΗΣ Β Ι ΟΠΛΗΡΟΦΟΡΙΚΗΣ

ΚΑΘΗΓΗΤΗΣ: Κ ■Π ΑΠΑΔΗΜ Η Τ Ρ Ι Ο Υ ΑΣΤΕΡ Ι Ο Σ

φ ο ι τ ή τ ρ ι ε ς: γ κ α γ κ α μ α ρ ί α α.μ 1 1 1 1 ΛΟΓ Γ Ι Ν Ι Δ Ο Υ ΙΩΑΝΝΑ Α . Μ

1354

έ τ ο ς:

2009

(2)

Περιεχόμενα

Πρόλογος...σελ. 1

Εισαγωγή... σελ. 2

■ 1. Σύγχρονοι Στόχοι της Μοριακής Βιολογίας ... σελ. 4

■ 2. Τομείς Έρευνας στη Βιοπληροφορική... σελ. 6 ο 2.1 Υλοποίηση και Σχεδιασμός υπολογιστικών εργαλείων για

αυτόματη ανάκτηση γνώσης από Βάσεις Βιολογικών

Δεδομένων...σελ. 8 ο 2.2 Ανάλυση ακολουθιών Βιολογικών Δεδομ ένω ν... σελ. 8 ο 2.3 Κατηγοριοποίηση Βιολογικών Δεδομ ένω ν... σελ. 10

ο 2.4 Μοριακή Μοντελοποίηση... σελ. 11

ο 2.5 Ανάλυση Π ρω τεϊνώ ν... σελ. 12 ο 2.6 Σχεδιασμός Φαρμάκων με τη βοήθεια ηλεκτρονικού

υπολογιστή...σελ. 13 Μ Ε Ρ Ο Σ A

Κεφάλαιο 1": Τεχνικές Διαχείρισης και Ανάλυσης Συμβολοσειρών Βιολογικών Δεδομένων

■ 1.1 Βασικοί Ο ρισμοί... σελ. 17

■ 1.2 Το πρόβλημα της Ακριβούς Εύρεσης Προτύπου...σελ. 18

■ 1.3 Το πρόβλημα της Προσεγγιστικής Εύρεσης Προτύπου..σελ. 19

Κεφάλαιο 2ο: Αλγόριθμοι Ακριβούς Εύρεσης Προτύπου

■ 2.1 Ο Αλγόριθμος Boyer-Moore...σελ. 22

■ 2.2 Ο Αλγόριθμος Knuth-Morris-Pratt... σελ. 26

■ 2.3 Ο Αλγόριθμος Shift-Or... σελ. 29

(3)

■ 2.4 Ακριβής Εύρεση Πολλαπλών Π ροτύπων... σελ. 32 ο 2.4.1 Το Αυτόματο Aho-Corasick... σελ. 34

■ 2.5Εφαρμογές των αλγορίθμων ακριβούς ταιριάσματος προτύπου στην Ανάλυση Ακολουθιών Βιολογικών Δ εδομ ένω ν... σελ. 38

Κεφάλαιο 3“ Εισαγωγή στο δέντρο επιθεμάτων (Suffix Tree) και στις Εφαρμογές

■ 3.1 Το Δέντρο Επιθεμάτων...σελ. 40

■ 3.2 Το Γενικευμένο Δέντρο Επιθεμάτων...σελ. 42

■ 3.3 Εφαρμογές στη Ανάλυση Ακολουθιών Βιο>χ)γικών Δεδομένων... σελ. 43

ο 3.3.1. Ακριβής Εύρεση Προτύπου... σελ. 44 ο 3.3.2. Ακριβής Εύρεση Πολλαπλών Προτύπων ....σελ. 45 ο 3.3.3. Μέγιστη Κοινή Υπο-συμβολοσειρά 2

Ακολουθιών... σελ. 45 ο 3.3.4. Εύρεση Κοινών Μοτίβων σε 2 ή περισσότερες

Βιολογικές Ακολουθίες... σελ. 47 Κεφάλαιο 4ο: Αλγόριθμοι προσεγγιστική εύρεσης προτύπου και στοίχισης συμβολοσειρών

■ 4.1 Βασικοί Ορισμοί... σελ. 50

■ 4.2Στοίχιση Ακολουθιών (Sequence alignment)... σελ. 54

■ 4.3Η Μέθοδος του Δυναμικού Προγραμμαπσμού... σελ. 56 ο 4.3.1 Δυναμικός Προγραμματισμός και Ζυγισμένη

Απόσταση Μετασχηματισμού (Weighted Edit Distance)σελ. 61 ο 4.3.2 Δυναμικός Προγραμματισμός και Ομοιότητα

Ακολουθιών...σελ. 61

■ 4.4 Προσεγγιστική Εύρεση προτύπου (Approximate Pattern Matching)... σελ. 62 ο 4.4.1 Το Πρόβλημα Τοπικής Στοίχισης...σελ. 62 ο 4.4.2 Το Πρόβλημα Προσεγγιστικής Εύρεσης Προτύπου με k

διαφορές... σελ. 63

(4)

■ 4.5Εφαρμογές στη Ανάλυση Ακολουθκίίν Βιολογικών Δεδομένων...σελ. 67 Κεφά>-αιο5ο: Αλγόριθμοι Σύγκρισης Ακολουθών Βιολογικών Δεδομένων

- 5.1 0 Αλγόριθμος B LA S T... σελ. 69

■ 5.2 Ο Αλγόριθμος F A S T A ... σε/.. 71

Μ Ε Ρ Ο Σ Β

Κεφά/Λίοίο: Σχεδιασμός Φαρμάκων με τη βοήθεια Ηλεκτρονικού Υπολογιστή

■ 1.1 Η Θεωρητική Βάση του Μοριακού Σχεδιασμού...σελ. 76

■ 1.2 Μοριακά Μοντέλα και Βιοχημική Πληροφορία... σελ. 78

■ 1.3 Η Βασιζόμενη στη δομή σχεδίαση φαρμάκων- Structurebased Drug Design... σελ. 79

ο 1.3.1 Structure- Based Design... σελ. 80

■ 1.3.α. Η γνώση της δομής του υποδοχέα (σε οποιαδήποτε μορφή) αποτελεί σημείο εκκίνησης για τη μοντελοποίηση...σελ. 81 ο 1.3.2 Το πρόβλημα της πρωτεϊνικής προσάραξης- The Protein Docking Problem... σελ. 82

ο 1.3.3 Η φιλοσοφία των αλγορίθμων του protein docking problem...σελ. 84

■ 1.4 Ανοικτά Προβλήματα...σελ. 86

■ 1.5 Συμπεράσματα... σελ. 86 Μ Ε Ρ Ο Σ Γ

Κεφάλαιο Ιο: Αλγόριθμοι Κατηγοριοποίηση Βιολογικών Δεδομένων

■ 1.1 Βασικοί Ορισμοί... σελ. 90

■ 1.2 Ιεραρχικές Μέθοδοι Ομαδοποίησης... σελ. 97

• 1.2.1 Ιεραρχική Συσσωρευηκή Κατηγοριοποίηση-Hierarchical Agglomerative Clustering ... σελ. 97

• 1.2.2 Κριτήρια Σύνδεσης... σελ. 97

(5)

1.2.31εραρχΐ)οί Διαιρετική Κατηγοριοποίηση- Hierarchical Divisive Clustering...σελ. 98

1.3 Διαιρετικής Μέθοδοι Ομαδοποίησης... σε>.. 99 ο 1.3.1 Επαναληπτική Διαιρετική Κατηγοριοποίηση- Iterative Divisive Partitioning... σελ. 99

1.4 Πιθανοτικές Μέθοδοι Ομαδοποίησης... σελ. 101 1.5 Μέθοδοι Ομαδοποίησης βάση Πυκνότητας... σελ. 101

1.6 Συγκεντρωτικές Μέθοδοι Ομαδοποίησης... σελ. 102 1.7 Γραφοθεωρητικές Μέθοδοι Ομαδοποίησης... σελ. 102 ο 1.7.1 Ο Αλγόριθμος H C S ...σελ. 103

ο 1.7.2 Ο Αλγόριθμος C L IC K ... σελ. 104 ο 1.7.3 Ο Αλγόριθμος C L IF F ... σελ. 104 ο 1.7.4 Ο Αλγόριθμος C A S T ... σελ. 104 1.8 Τεχνητά Νευρωνικά Δίκτυα για Ομαδοποίηση...σελ. 105

ο 1.8.1 Αυτό-οργανώμενοι Χάρτες - Self- Organizing Maps (SOMs)...Τ... Τ... σελ. 105 1.9 Εξελικτικοί Μέθοδοι Ομαδοποίησης...σελ. 106

1.10 Μηχανές Υποστήριξης Διανύσματος- Support Vector Machines σελ. 107

■ 1.11 Συγκριτική Παρουσίαση Μεθόδων Κατηγοριοποίησης... σελ. 111

Συμπέρασμα... σελ. 113

Βιβλιογραφία... σελ. 114

(6)

Κισανωνη στη Βιοηληροφ οοικη

Πρόλογος

Τα τελευταία χρόνια οι υπολογιστές κατακτούν σημα-ντική θέση σε κάθε τομέα της ζωής μας αλλά πολύ πιο ενδιαφέρουσα και προκλητική ,σε αρκετούς τομείς διαφόρων επιστημών. Η Βιοπληροφορική αποτελεί ένα σύγχρονο τομέα έρευνας και ανάπτυξης τάσο για του ς μοριακούς βιολόγους όσο και για τους επιστήμονες της πληροφορικής. Η συνεργασία των δύο αυτών επιστημών χαρακτηρίζεται αρκετά υποσχόμενη και με ιδιαίτερη σημασία αφού έρχεται να ρίξει φως στην ερμηνεία και το ρόλο της γονιδιακής πληροφορίας και κατ’ επέκταση σε αρκετές διαδικασίες της ζωής που ζητούν ερμηνεία.

Η πρόοδος της τεχνολογίας των υπολογιστών επιτρέπει την προσπάθεια ανάλυσης μέρους τω ν προβλημάτων που π ρο κύπ το υν στο ν τομέα τη ς μοριακής βιολογίας. Λόγω της αύξησης της υπ ολογιστικής δύναμης και κ υρίω ς τη ς αναπτυγμένης τεχ νο λ ο γ ία ς τω ν γραφ ικώ ν, είναι δυ νατή η απεικόνιση των διαμορφώσεων της δομής των βιολογικών μορίων στην οθόνη του υπολογιστή. Ακόμα γίνονται προσπάθειες για τη δημιουργία μεθόδων που θα μπορούν να προβλέπουν τις αλληλεπιδράσεις μεταξύ των βιολογικών μορίων αλλά και αλγοριθμικών μεθόδων για τη ν παραγωγή μοριακών δομών με βάση τα ακολουθιακά δεδομένα. Ο μεγάλος αριθμός δεδομένων που μεταφράζονται στην επιστήμη της μοριακής βιολογίας και ειδικότερα στον τομέα της ακολουθιοποίησης του γονιδιώματος (δηλαδή της αλληλουχίας του DNA), αποτελεί μεγάλη πρόκληση για τους επιστήμονες του σχεδιασμού και της ανάλυσης αλγορίθμων.

Συγκεκριμένα η ερμηνεία αυτών των δεδομένων μπορεί να διευκολύνει την αναζήτηση λύσεων αρκετών προβλημάτων άπως είναι η αναγνώριση γονιδίων, ο καθορισμός της δομής τω ν κωδικοπ οιημένων πρω τεϊνών, η ανακάλυψη των μηχανισμών με τους οπ οίους οι πρω τεΐνες εκτελούν τη βιολογική λειτουργία τους, η απόκτηση γνώσης για το ρόλο τω ν μη κωδικοποιημένων περιοχών του D NA στη μορφολογία και έκφραση των γονιδίων.

(7)

£ΐ£αγωγό_σιοΒΐ2π^Π££Φ2£1^Π_

Εισαγωγή

ο εικοστός αιώνας ολοκληρώθηκε α φ ήνοντας ως παρακαταθήκη του, την ωριμότητα δύο μεγάλων επιστημονικών περιοχών, της Μοριακής Βιολογίας και της Πληροφορικής. Η Μοριακή Βιολογία συμβάλλει στην αποκωδικοποίηση του φαινομένου της ζωής σε επίπεδο μορίων και θα μπορούσε να χαρακτηρισθεί, ως η Κοινωνιολογία των Μαριών. Ο όγκος των σημερινών δεδομένων που παράγονται στο χώρο της Μ οριακής Βιολογίας και πρέπει να αναλυ θο ύν και να επ εξεργα στούν, κα θιστά απα ρα ίτη τη τη συνεργασία, σε πολλσύς τομείς, με την επιστήμη της Πληροφσρικής. Ο επιστημονυτός χώρος της ένωσης αυτών των πεδίων σνομάζεται διεθνώς Βιοπληραφαρική {Bioinformatlcs).

Η Βιοπληροφορική μπορεί να οριστεί ως: «...η ετραρμογή υπαλσγιστικών τεχνικών και μεθόδων στην προσπάθεια κατανόησης και οργάνοκτης των δεδσμένων και πληροφοριών που σχετίζονται με τα βιολογικά μακρομόρια...».

(Πίνακας-1).

Bioinformatics- A Definition Bio-informatics: Bioinfomiatics is conceptuaiizing biology in terms of molecules (in the sense of Physical Chemistry) and applying "informatics techniques" (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the information associated with these molecules, on a large scale. In short bioinformatics is a management information system for molecular biology and has many practical applications.

H συνεργα σία τω ν επ ιστημών της Β ισλογίας και της Π ληροφσρικής βα σίζεται στο γε γο ν ό ς ότι η ίδια η ζωή αποτελεί μια τεχνολογία πληροφοριών.

Η φυσιολογία των ζωντανών οργανισμών καθο ρίζετα ι απ ό τα γο νίδιά το υ ς τα οποία μπορούν να θεω ρηθούν ως

"ψηφιακή πληροφορία".

Πίνακας 1: Ορισμός της Βιοπληροφορικής από το Oxford English Dictionary

Η ανάλυση ακολουθιών του DNA, η μοριακή μοντελοποίηση βιολογικών μορίων, ο οχεδιαομός φαρμάκων με τη βοήθεια ηλεκτρονικών υπολογιστών, η πρόβλεψη των πρωτεϊνικών δομών, οι ταχύτερες μέθοδοι αποθήκευσης, διαχείρισης και ανάκτησης βισλογικών πληρσφοριών είναι αρισμένοι από του ς τομ είς εν δ ια φ έρ ο ντο ς στη ν επιστήμη τη ς Βισπληρσφορικής.

Αν και στο εξωτερικό, η ανάπτυξη του τομέα της Βιοπληροτρορικής είναι σημαντική και τα απστελέσματα πολύ ενδιαφέροντα, ας>ού ορισμένα από τα προβλήματα που γίνεται προσπάθεια να επιλυθούν

(8)

Εισαγωγή στη ΒιοπΛηροφορική

είναι και ο σχεδιαομός φαρμάκων, ειδικά για ασθένειες που σήμερα θεωρούνιαι ανίαιες, όπως ο καρκίνος και ιο AIDS, στην Ελλάδα χαρακτηρίζεται από υποτονική παρουσία. Ταυτόχ ρονα το σημερινό επίπεδο γνώσεων σε διεθνή κλίμακα είναι αρκετά υψηλό aqiou η έρεττνα στον τομέα της Β ιοπληροφορικής υποστηρίζεται από χρηματοδοτούμενα από το κράτος ιδρύματα όπως είναι το EM BL (European M olecular Biology Laboratory) της Γερμανίας, το NCBI (National Center for Biotechnology) των ΗΠΑ,

Πριν προχωρήσουμε σε μια αναλυτική περιγραφή των σημαντικότερων κατευθύνσεων έρευνας και εφαρμογών της Βιοπληροςιορικής, θα σκιαγραφήσουμε τους σύγχρονους στόχους της Μ οριακής Βιολογίας και θα παρουσιάσουμε ορισμένα ανουαά υπολογιστικά προβλήματα.

1. Σύγχρονοι Στόχοι της Μοριακής Βιολογίας

Οι σύ γχρονοι στό χοι τη ς επ ισ τήμ ης τη ς Μ ο ρ ια κ ή ς Β ιο λο γία ς επικεντρώνονται στις ακόλουθες περιοχές;

Φ Ακολουθιοποίηση και σύγκριση των γονιδιωμάτων διαφορετικών οργανισμών. Οργανισμ οί οι οπ οίοι είνα ι συ γγενείς έχ ο υ ν κ οινές πρωτεΐνες, οπότε η σύγκριση διαφορετικών γονιδιωμάτων μπορεί να δώσει σημαντικές πληροφ ορίες για την εξελικτική πορεία των οργανισμών. Επίσης η σύγκριση των ακολουθιών D N A μεταξύ διαφορετικών ειδών βοηθά σημαντικά στη μελέτη και την κατανόηση των σχέσεων μεταξύ τους .

® Αναγνώριση γονιδίων και καθορισμός των λειτουργιών που ρυθμίζουν. Η ακολουθία του DNA παρουσιάζει ορισμένα δομικά χαρακτηριστικά κρίσιμα για τη λειτουρ γία του όπ ω ς τα σημεία π ρ ό σδεση ς <ττα οπ οία συνδέονται πρω τεΐνες ή συμπλέγματα πρωτεϊνών. Η μελέτη αυτών των περιοχών βοηθά στην αναγνώριση των γονιδίων και στον καθορισμό των ιδιοτήτων τους.

Κατανόηση της γονιδιακής έκφρασης. Κάθε γονίδιο δραστηριοποιείται μέσα στο κύτταρο μετά την παραγωγή της αντίστοιχης πρωτεΐνης. Η έκφραση των γονιδίων ποικίλλει στα διάφορα κύτταρα και σε διαφορετικές χρονικές στιγμές. Παράγοντες που επηρεάζουν τη γονιδιακή έκφραση είναι το ίδιο το περιβάλλον του κυττάρου, η λήψη βιοχημικών σημάτων και η παρουσία πρωτεϊνών. Η κατανόηση της γονιδιακής έκφρασης βοηθά στην κατανόηση βασικών κυτταρικών λειτουργιών όπως ο πολλαπλασιασμός, η αναπνοή και ο μεταβολισμός .

(9)

Εισαγωγή στη ΒιοπΑηροφορική

φ Κατανόηση Γενετικών Ασθενειών. Η μετάλλαξη των γσνιδίων ευθύνεται για ένα σύνσλσ ασθενειώ ν όπ ω ς σ διαβήτης, σ καρκίνος κ.ά. Η κατανόηση του τρόπου με τον οπ οίο τα γονίδια επ ηρεάζου ν τις ασθένειες και η κατανόηση των λειτουργιών των πρωτεϊνών, που τα γονίδια κωδικοποιούν, μπορεί να βοηθήσει στην ανάπτυξη θεραπείας πσυ σχσχεύει στον περιορισμό και τη βελτίωση ελαττωματικών γσνιδίων.

Λαμβάνσντας υπόψιν ότι η πρσδιάθεση των παιδιών για σρισμένες ασθένειες είναι κωδικσπσιημένη στα γενετικό υλυτό με την κατάλληλη πρσλητπική ιατρική θεραπεία μπσρσύν έγκαιρα να απσφευχθσύν σι παράγσντες που μπορούν να εκδηλώσουν τη συγκεκριμένη ασθένεια . Παρατηρούμε λοιπόν ότι η Μοριακή Βιολογία ασχολείται σε μεγάλσ βαθμό με τη σύγκριση και την κατηγοριοπσίηση μοριακών δομών όπ ως τα γονίδια, οι ακολουθίες του DNA, και οι πρωτεΐνες. Τα δεδομένα ατπά προέρχονται από πειραματικά δεδομένα και έρευνες ή από υπάρχουσες βάσεις μοριακών δεδομένων. Η χρήση των εργαλείων της Πληροφορικής μπορεί να επιλύσει αρκετά υπολογιστικά προβλήματα που προκύΓπουν όπως:

® Διασύνδεση της γονιδιακής ακολουθίας. Οι σύγχρονες μέθοδοι ανάγνωσης της ακολουθίας του DNA βασίζονται στη σταδιακή ανάγνωση τμημάτων (fragments) από το υπό μελέτη μόριο, που μπορεί να φθάνει και τις χ ιλιάδ ες βάσεις αμινοξέων. Η διαδικασία επανασύνδεσης υπόκειται σε σφάλματα και αποτελεί μια πολύτιμη αλλά ταυτόχρονα πολύπλοκη διαδικασία.

® Σύγκριση ακολουθιών. Υπάρχει μια βασική αρχή η οποία θέλει π ς ακολουθίες του D N A και των πρω τεϊνών που μοιάζουν να εμφανίζουν παρόμοια λειτου ρ γία. Α υ τό ισχ ύ ει κ α ι σ τη ν π ερ ίπ τω ση π ου οι ακολουθίες αυτές προέρχονται από διαφορετικά είδη. Για αυτό το λόγο το πρώτο βήμα στην αναγνώριση της δρ άσης μιας ακολουθίας είναι η ούγκριση της με άλλες για να εξερευνήοουμ ε πιθανές ομοιότητες στη δομή. Σε αυτό το σημείο εμπλέκονται αλγόριθμοι ανάκτησης πληροφορίας βάσει σχηματικών ομοιοτήτων.

® Κατηγοριοπσίηση των πρωτεϊνών. Οι πρωτεΐνες κατηγοριοποιούνται σε οικογένειες με παρόμοια δομή και λειτουργία. Με αυτό τον τρόπο μπορούμε να γνωρίζουμε τη συμπεριφορά και την τρισδιάστατη δομή τους.

® Εξαγωγή πληροφοριών από γονιδιακές ακολουθίες. Η μελέτη γονιδιακών ακολουθιών μπορεί να βοηθήσει στην εξαγωγή χρήσιμων αποτελεσμάτων γύρω από τη συμπεριφορά και τη βιολογική δράση των γονιδίων (εμπλοκή σε συγκεκριμένες ανωμαλίες, όμοια συμπεριφορά

(10)

σε θεραπευτικές αγωγές κ.ά) . Η πολύπλοκη ιρύση των γονιδίων κάνει πολύ δύσκολη την όλη διαδικασία.

φ Αναπαράσταση των κυττάρων ως μεταγραφυτών δικτύων. Ένα ζωντανό κύτταρο μπορεί να χαρακτηριστεί ιος μια αλληλεπίδραση διαςχιρετικών κυτταρικών διαδικασιών. Αυτό μπορεί να μοντελοποιηθεί ως ένα δυναμικό σύστημα με συγκεκριμένες εισόδους (π.χ: φάρμακα, λαμιβανόμενα σήματα από γειτονικά κύτταρα ή τον ανθρώπινο οργανισμό) και πιθανές καταστάσεις.

Εισαγωγή στη Βιοπληροφορική____________________________________________________________

2. Τομείς Έρευνας στη Βιοπληροφορική

Οι στόχοι της Β ιοπληροφορικής μπορούν να ταξινομηθούν σε 3 ομάδες. Σε ένα πρώτο επίπεδο η Β ιοπληροφορική επ ιτρέπει την αποδοτική οργάνωση των δεδομένων ώστε να είναι δυνατή η αποθήκευση, ανάκτηση και ενημέρωσή τους. Σημαντικό παράδειγμα αποτελεί η βάση δεδομένων της δομής τρισδιάστατων μορίων Protein Data Bank.

Σε ένα δεύτερο επίπεδο η Βιοπληροφορική περιλαμβάνει τα εργαλεία που επιτρέπουν την ανάλυση των βιολογικών δεδομένων. Για παράδειγμα έχοντας ακολουθιοποιήσει μια πρωτεΐνη, οι επιστήμονες ενδιαφέρονται να τη συγκρίνουν με ήδη γνωστές και ταυτοποιημένες ακολουθίες. Αυτή η διαδικασία απαιτεί τη χρήση πολύπλοκων εργαλείων όπ ως τα προγράμματα FASTA και PSI-BLAST, που επιτρέπουν την ανακάλυψη και αναζήτηση κοινών τμημάτων σε βιολογικές ακολουθίες. Τέλος σε ένα τρίτο επίπεδο η Βιοπληροφορική θέτει ως στόχο την ανάπτυξη εργαλείων που επ ιτρέπουν την ερμηνεία των αποτελεσμάτων βιολογικής σημασίας.

Ο πίνακας 2 παρουσιάζει μια ομαδοποίηση τω ν τύπ ω ν των δεδομένων που αναλύει η Βιοπληροφορική και τις αντίστοιχες εφαρμογές.

Οι ακολουθίες D N A αποτελούν συμβολοσειρές (strings) πάνω σε ένα αλφάβητο 4 γραμμάτων- βάσεων. Κάθε ακολουθία μπορεί να έχει μήκος έως και 1000 βάσεις. Η βάση δεδομένων Gen Bank, περιέχει μέχρι στιγμής 11.5 εκατομμύρια εγγραφές. Α ντίστοιχα οι ακολουθίες π ρω τεϊνώ ν αποτελούν συμβολοσειρές (strings) πάνω σε ένα αλφ άβητο 20 γραμμάτων- αμινοξέων.

Μέχρι στιγμής υπάρχουν 400.000 γνωστές ακολουθίες πρωτεϊνών και μια τυπική πρωτεΐνη βακτηρίου περιέχει περίπου 300 αμινοξέα. Από την άλλη πλευρά οι βάσεις δεδομένων των δομών των μακρομορίων αποτελούν μια πολύπλοκη δομή πληροφοριών. Στην Protein Data Bank περιλαμβάνονται 15.000 εγγραφές που περιλαμβάνουν τις ατομικές δομές πρωτεϊνών, DNA και RNA που έχουν καθορισθεί από x-ray κρυσταλλογραφία και NMR. Μια τυπική εγγραφή στην PDB για μια μεσαίου μεγέθους πρωτεΐνη περιλαμβάνει

(11)

Εισαγωγή σιη Βιοπληροφορική

τις xyz συντεταγμένες 2000 περίπου ατόμων. Τα τελευ ταία χρόνια οι επιστήμονες επικεντρώνονται και στην ανάλυση ολόκληρων γονιδιωμάτων. Το μήκος των συμβολοσειρών των γονιδιωμάτων ποικίλλουν από 1.6 εκατομμύρια βάσεις έως 3 δισεκατομμύρια. Η βάση δεδομένων Entrez, περιλαμβάνει μέχρι στιγμής τα δεδομένα 300 βακτηρίων και ευκαρυωτικών οργανισμών.

Πηγή Δεδομένων Μέγεθος Δεδομένων Εφαρμογές Βιοπληροφορικής Ακολουθίες DNA 11.5 εκατ. Ακολουθίες

(12.5 δις. Βάσος)

Αναγνώριση intons και exons Διαχωρισμός coding & non-coding περιοχών

Ακολουθίες Πρωτεϊνών

400.000 ακολουθίες (~300 αμινοξέα για καθεμιά)

Αλγόριθμοι σύγκρισης ακολουθιών Ανακάλυψη σημαντικών μοτίβων Δομές

Μακρομορίων

15.000 δομές

(~1000 ατομικές

συντεταγμένες η καθεμιά)

Καθορισμός Δευτερεύουσας δομής Αλγόριθμοι τρισδιάστατης προσάραξης μακρομορίων και γεωμετρικού ταιριάσματος πρωτεϊνών Υπολογισμοί επκρανειών και όγκων

Προσομοιώσεις προσάραξης

μακρομορίων (υπολογισμός

εσωτερικών και εξωτερικών δυνάμεων, βέλτιστων στερεοδιαμορφώσεων) Γονιδιώμστα 300 πλήρη γονιδιώματα

(1.6 εκατ-3 δις βάσεις το καθένα)

Ανακάλυψη περιοδικοτήτων Φυλογενεηκή Ανάλυση Αντιστοίχηση γονιδίων σε αρρώστιες Εκφράσεις Γονιδίων ~20 μετρήσεις σημείων

για ~ 6000 γονίδια

- Σύγκριση εκφράσεων γονιδίων - Αντιστοίχηση εκφράσεων γονιδίων σε ακολουθιακό, δομικά και βιοχημικά δεδομένα.

Αλλα δεδομένα

Βιβλιογραφία 11 εκατ. αναφορές - Ψηφιακές βιβλιοθήκες για την αυτόματη ανάκτηση γνώσης Text Mining Techniques για ανακάλυψη γνώσης

Μεταβολικά Μονοπάτια

Προσομοίωση μονοπαηών

Π ίνακ ας 2: Διαφοροποιήσεις στο είδος κ D μέγεθος βιολογικών δεδομένων.

Επίσης η έρευνα επικεντρώνεται και στις εκφράσεις γονιδίων (gene expression s). Μ πορούμε να καθορίσουμε το επ ίπ εδο έκ φ ρα ση ς κάθε γονιδίου σε ένα κύτταρο, σε επίπεδο ενός πλήρους γονιδιώματος, αν και μέχρι στιγμής δεν υπάρχει κάποια κεντρική βάση δεδομένων για αυτά τα

(12)

Ε\οανωνή στη ΒιοπΛηοοΦοοική

δεδομένα. Τα πειράματα έκφρασης γονιδίων μετρούν την ποσότητα mRNA που παράγεται στο κύτταρο κάτω από διαφορετικές συνθήκες περιβάλλοντος, διαφορετικά στάδια του κυτταρικού κύκλου και διαφορετυτών τύπων κυττάρων σε πολυκύτταρους οργανισμούς.

Άλλου τύπου δεδομένα σε επ ίπ εδο γονιδιωματικής έκφρασης περιλαμβάνουν βιοχημυτές πληροφορίες σε μεταβολυ<ά μονοπάτια (metabolic pathways), ρυθμιστικά δίικτυα (regu latoiy netw orks), δεδομένα αλληλεπίδρασης πρω τεϊνών από υβριδικά πειράματα και συστηματικών μελετών σε ανεξάρτητα γονίδια.

2.1 Υ λ ο π ο ίη σ η κ α ι Σ χ ε δ ια σ μ ό ς υ π ο λ ο γ ισ τ ι κ ώ ν ε ρ γ α λ ε ίω ν γ ια α υτόματη α νά κ τη σ η γ ν ώ σ η ς α π ό Β ά σ ε ις Β ιο λ ο γ ικ ώ ν Δ εδομένω ν.

Η ανάγκη επεξεργασίας και ανάλυσης βιολογικών δεδομένων μας οδηγεί στην ανάπτυξη κατάλληλων εργαλείων διαχείρισης και ανάλυσης των υπ οθηκευμένων πληροφ οριών. Η διαχείριση δεδομένω ν τη ς Μ οριακής Βιολογίας παρο υ σιά ζει αυξημένες α π α ιτή σεις και το μοντέλο τη ς παραδοσακής σχεσιακής Βάοης Δεδομένων δεν φαίνεται ικανοποιητικό αιρού εισάγει πολλούς περιορισμούς στην αναπαράσταση αυτών των δεδομένων.

Στόχος είναι ο οχεδιασμός και η υλοποίηση ενός μοντέλου που να ικανοποιεί τις α π αιτή σεις τη ς έρευνας και κυ ρίω ς τη ν αυτόματη ανάκτηση γνώσης (automated knowledge discoveiy) από μεγάλο πλήθος πληροφοριών χρησιμοποιώντας τεχνικές ομαδοποίησης των δεδομένων .

Πολλές είναι οι ερευνητυ<:ές περιοχές της Μ οριακής Βιολογίας που βασίζονται στην αναγνώριση κοινών δομικών χαρακτηριστικών των μορίων, όχι μόνο σε επίπεδο ακολουθίας αλλά και σε δισδιάστατο (2D) ή τρισδιάστατο (3D) επίπεδο. Στόχος των σύγχρονων βιολογικών βάσεω ν δεδομένων είναι η χρήση αποδοτικών τεχνικών και μεθόδων που ανιχνεύουν την ομοιότητα μεταξύ 2D ή 3D σχημάτων.

2 .2 Α ν ά λ υ σ η α κ ο λ ο υ θ ιώ ν Β ιο λ ο γ ικ ώ ν Δ εδ ομ ένω ν.

Έ νας ενδιαφέρον κλάδος της Μ οριακής Β ιολογίας θέτει στο επίκεντρο του ενδιαφέροντος τη διαχείριση και ανάλυση ακολουθιώ ν βιολογικών δεδομένων, με σκοπό την αναγνώριση δομικών χαρακτηριστικών κρίσιμων για τη λειτουργία των ζωντανών οργανισμών.

Κάθε μόριο του DNA, μπορεί να θεωρηθεί ως μια ακολουθία συμβόλων (συμβολοσειρά), από ένα αλφ άβητο τεοσάρω ν χαρακτήρων/γραμμάτων:

A,C,G,T. Στις ακολουθίες του D NA παρατηρούνται περιοδικές επαναλήψεις συμβολοσειρών-μοτίβα (ως μοτίβο μπορούμε να ορίσουμε ένα σύνολο χαρακτήρων που εμφανίζεται παραπάνω από μια φορά σε μια ακολουθία). Ο

-8 -

(13)

Ειοαγωγή στη ΒιοπΛηροφορική

εντοπισμός τέτοιων περιοδικοτήτων μπορεί να απο κα λύ ψ ει δομικά και λειτουργικά χαρακτηριστικά του μορίου του DNA. Μπορούμε να διακρίνουμε δυο κατηγορίες προβλημάτων όσον αφορά την ανακάλυψη επαναλαμβανόμενων μοτίβων: α) ακριβή επανάληψη μοτίβων και β) προσεγγιστική επανάληψη μοτίβων.

Στην ακριβή επανάληψη μοτίβων προσπαθούμε να εντοπίσουμε τις θέσεις σε μια ακολουθία που ένα μοτίβο εμφανίζεται, αντίθετα στην προσεγγιστική επανάληψη μοτίβων επ ιτρέπουμε τη ν ύπ αρξη διαφ ο ρώ ν ανάμεσα στις συγκρινόμενες ακσλουθίες, που προκύπτουν από την αντικατάσταση, προσθήκη ή διαγραφ ή συμ βόλων. Μ ια συχνά χρησιμοποιούμενη τεχνική για τη σύγκριση βιολογικών ακολουθιών είναι η διάταξη/ ευθυγράμμισή τους και η σύγκρισή τους ανά σύμβολο (alignment).

Στην περίπτωση που μελετάμε ολόκληρες τις ακολουθίες τότε το πρόβλημα μεταφράζεται σε ολική ευθυγράμμιση (Global Alignment), ενώ στην περίπτωση που μελετάμε μόνο ένα κομμάτι μιας ακολουθίας το πρόβλημα μεταφράζεται σε τοπική ευθυγράμμιση (Local Alignm ent- Smith &

Waterman).

Οι τεχνικές για την ανάλυση ακολσυθιών εφ αρμ όζονται τόσο κατά το μήκος μιας ακολουθίας DNA, όσο και μεταξύ ακολουθιών διαφορετικών οργανισμών. Για αυτό το σκοπό η σύγκριση μεταξύ ακολουθιών, συχνά μετατρέπεται σε εύρεση συχνά επαναλαμβανόμενων μοτίβων σε διαιρορετικές ακολουθίες (Multiple Sequence Alignment). Σε αυτή την περύπωση προσπαθούμε να υπολογίσουμε την ευθυγράμμιση των ακολουθιών που παρουσιάζει τη μεγίστη ομοιότητα (στη σχετική βιβλιογραφία καταγράφεται ένας μεγάλος αριθμός συναρτήσεω ν που υ π ολογίζο υν τη βέλτιστη ευθυγράμμιση). Κ εντρικό ρόλο σε αυτές τις τεχ νικές παίζει η π αρουσία/

εισαγωγή κενών (gaps) με σκοπό τη βέλπστη διάταξη ακολουθιών με ήδη γνωστά βιολογικά μοντέλα και μοτίβα των οποίων η λειτουργία είναι εκ των π ροτέρων γνωστή . Η παρουσία κενών (ως ακολουθίες κενώ ν χαρακτήρων), μεταφράζεται στην εισαγωγή/ διαγραφή ενός βιολογικού μοτίβου ως το αποτέλεσμα μιας λειτουρ γίας μετάλλαξης (αντιγραφή ή διαγραφή μικρών τμημάτων του DNA).

Σκοπός μας είναι να μετρήοουμε την ομοιότητα που εμφανίζουν οι δυο υπό μελέτη συμβολοσειρές με τη βοήθεια μιας συνάρτησης επ ιτυ χίας (score function), η οποία βαθμολογεί με ένα ορισμένο σύνολο τιμών όλους τους πιθανούς συνδυασμούς μεταξύ δυο συμβόλων. Ως βέλτιστη διάταξη μεταξύ των 2 συμβολοσειρών λαμβάνεται αυτή που μεγιστοποιεί τη ν τιμή της συνάρτησης. Δυστυχώς δεν υπ άρχει μια τυπική συνάρτηση και ανάλογα με την εφαρμογή οι επιστήμονες επιλέγουν να χρησιμοποιήσουν σε διαφορετικά προβλήματα και διαφορετική συνάρτηση ως μετρική ομοιότητας.

(14)

ΊΥίη’π otn ΗΐϋπΛηροφορικη

2 .3 Κ α τ η γ ο ρ ιο π ο ίη σ η Β ιο λ ο γ ικ ώ ν Δ εδ ομ ένω ν.

Μια βασική εφαρμογή στις περισσότερες ερευνητικές μεθόδους της Βιοπληροφορικής είναι η ομαδοποίηση- κατηγοριοποίηση βιολογικών δεδομένων βάσει κοινών ομοιοτήτων. Για παράδειγμα ορισμένα τμήματα ακολουθιών (μοτίβα) επαναλαμβάνονται σε ακολουθίες DNA. Επίσης τα γονίδια μπορούν να κατηγοριοποιηθούν βάσει της δρ άσ ης που εμφανίζουν (π.χ.: ενζυματική δράση) ή βάσει των μεταβολικών μονοπατιών στα οποία ανήκουν (αν και κάποια γονίδια μπορούν να εμφανίζουν ποικίλες δράσεις).

Προχωρώντας, διαφορετικές πρωτεΐνες συχνά εμφανίζουν όμοια τμήματα, ενώ οι ζωντανοί οργανισμοί περιέχουν π ολλαπλά αντίγραφα ενός γονιδίου μέσω του πολλαπλασιασμού, ενώ και διαφ ορετικά είδη έχ ου ν τις ίδιες πρω τεΐνες που έχουν κληρονομήσει κατά τη διαδικασία της εξέλιξης. Σ ε επίπεδο δομών, αν και υπάρχουν διαφορετικές στερεοδιαμορφώσεις, αρκετές πρωτεΐνες διαθέτουν παρόμοια δομή αν και διαφέρουν σε επίπεδο ακολουθίας. Χαρακτηριστικά μπορούμε να αναφέρουμε ότι παρόλο που οι εγγραφές στην Protein D ata Bank αυξάνονται με εκθετικό ρυθμό, η ανακάλυψη νέων διαμορφώσεων έχει μειωθεί.

Η σχέση μεταξύ ζευγών πρωτεϊνών ή γονιδίων ακολουθεί τους κανόνες:

ανάλογες πρωτεΐνες έχουν σχετικές διαμορφώσεις αλλά διαφορετικές ακολουθίες, ενώ ομόλογες πρωτεΐνες παρουσιάζουν ομοιότητα σε επίπεδο δομών και ακολουθιών. Η ομάδα των ομόλογων ακολουθιών μπορούμε να διακρίνουμε τις ορθόλογες πρωτεΐνες (αυτές που ανήκουν σε διαφορετικά είδη και π ροέρχ ονται από κάποιο κοινό πρόγονο) και τις παρά λογες π ρω τεΐνες (αυτές που σχετίζονται με το διπλασιασμό σε ένα γονιδίωμα). Σε βασικές γραμμές οι ορθόλογες πρωτεΐνες διατηρούν την ίδια δράση.

Λαμβάνοντας υπόψη τις παραπάνω διαπιστώσεις μιπορούμε να κατηγοριοποιήσουμε τις πρωτεΐνες με βάση τις διαμορφώσεις που λαμβάνουν και να έχουμε μια απλουστευμένη παρουσίαση των περιεχομένων ενός γονιδιώματος. Σε αυτή τη διαδικασία βασικό στοιχείο είναι οι αλγόριθμοι που χρησιμοποιούνται για την εύρεση των δομικών ομοιοτήτων μεταξύ μακρομορίων.

Ιδιαίτερη ανάπτυξη τα τελευταία χρόνια παρουσιάζουν και οι εφαρμογές ολοκλήρωσης διαφορετικών δεδομένων (data integration) από το χώρο της Βιολογίας. Για παράδειγμα οι τρι-διάστατες συντεταγμένες μιας πρωτεΐνης είναι περισσότερο χρήσιμες εάν συνδυάζονται με πληροφορίες που αφορούν τη λειτουργία των πρωτεϊνών, την εμφάνισή τους σε διαφορετικά γονιδιώματα και τις αλληλεπιδράσεις τους με άλλα μόρια. Δυστυχώς η πρόσβαση σε διαφορετικού τύπου δεδομένα δεν είναι πάντα εύκολη. Ένα σύστημα ανάκτησης διαφορετικού τύπου δεδομένων είναι το SRS- Sequence Retrieval System, που επιτρέπει την εύκολη επικοινωνία μεταξύ

(15)

Εισανωνη στην ΒιοπΛηοοφοοική

διαφορετικών βάσεων βιολογικών δεδομένων. Ο χρήστης του συστήματος μπορεί να αναζητά ακολουθίες νουκλεϊκών οξέων, πρω τεϊνών, να ανακτά τα επαναλαμβανόμενα μοτίβα και τις δομές του ς καθώ ς και ανα φ ο ρές από τη διεθνή βιβλιογραφία. Παρόμοιες δυνατότητες προσφέρει και το σύστημα Entrez.

Σημαντικό ερευνητικό ενδιαφέρον στην περιοχή της Βιοπληροφορυτής παρουσιάζουν και οι ακόλουθες εφαρμογές.

2.4 Μ οριακή Μ οντελοπ οίηση

Η Μοριακή Μ οντελοποίηση, αποτελεί ένα νέο και ταυτόχρονα γοργά αναπτυσσόμενο επιστημονικό κλάδο που συνδυάζει σε μεγάλσ βαθμό τις επιστήμες της Βιολογίας και της Πληροφορικής. Η Μοριακή Μοντελοποίηση προσπαθεί να μιμηθεί τη συμπεριφορά των μοριακών συστημάτων, βασιζόμενη σε μεγάλο βαθμό στη σχεδίαση μοντέλων μορίων με τη βοήθεια ηλεκτρονικού υπολογιστή.

Τα σύγχρονα πακέτα λογισμικού μοριακής σχεδίασης, απστελσττν χρήσιμα εργαλεία στα χέρια των ερευνητών, οι οποίοι έχουν τη δυνατότητα να συνδυάσουν τη θεωρία και το πείραμα. Το μόνο ίσως μειονέκτημα είναι ότι δεν υπάρχει ένα γενικότερο και διευρυμένο εργαλείο μοριακής σχεδίασης. Το σύνολο των βιολογικών μορίων που μελετάμε στη μοριακή σχεδίαση ποικίλλει από μεμονωμένα μόρια και απλές ατομικές δομές σε πολυμερή και βιολογικά μακρομόρια όπως οι πρω τεΐνες και το DNA. Έ τσι το επιλεγόμενο κάθε φορά μοντέλο πρέπει σαφώς να καλύιπ ει τις ιδιαιτερότητες και τα χαρακτηριστυτά του προς σχεδίαση συστήματος.

Η Μοριακή Μ οντελοποίηση ακολουθεί τα εξής 3 βασικά βήματα: α) επιλαγή του κατάλληλου μοντέλου που π εριγράφ ει ικανοπ ο ιη τικ ά τις ενδομοριακές και εσωμοριακές συσχετίσεις τσυ μορίου, β) υπολογισμός της ενεργειακής κατάστασης του συστήματος και ελαχιστοποίησή της και γ) ανάλυση των παραπάνω υπολογισμών και έλεγχος της τελικής διαμόρφωσης ώστε να ικανοποιούνται όλες οι συνθήκες και περιορισμοί που ο σχεδιαστής έχει θέσει.

Αν και στη Μοριακή Σχεδίαση το σύνολο των συντεταγμένων παρέχει μια χρήσιμη απεικόνιση του μορίου σε δισδιάστατο και τρισδιάστατο επίπεδο, είναι αναγκαία και η χρήση συμπληρωματικών πληροφοριών που έχουμε στη διάθεσή μας προκειμένου να αναπαραστήσουμε και τις βιοχημικές ιδιότητες του μορίου . Σημαντική πρόκληση σε αυτή την κατεύθυνση αποτελεί η ικανοποιητική απεικόνιση των επιφανειών των μορίων οι οποίες είναι υπεύθυνες για τη συμπεριφορά των μορίων και τις φυσικοχημικές τους ιδιότητες.

(16)

Είοανωνή στη ΒιοπΛηροφορική

Οι σύγχρονες τεχνικές των μοριακών γραφικών (m olecular graphics) επιτρέπουν την απεικόνιση της τρισδιάστατης αρχιτεκτονικής των μορίων στην ενεργειακά ευνοϊκότερη διαμόρφωση. Στη δομή αυτή είναι δυ νατόν να επέμβουμε απομονώνοντας τμήματα τω ν μορίων, αλλάζοντας τον προσανατολισμό ορισμένων ομάδων ή ψ άχνοντας για άλλες δυνατές διαμορφώσεις. Τα μοριακά αυτά μοντέλα επ ιτρέπουν επ ίσης την απεικόνιση φυσικοχημικών χαρακτηριστικών που επ ηρεάζουν τις αλληλεπιδράσεις ενός μορίου με άλλα μόρια. Είναι π.χ. δυ νατόν να π αρασταθού ν οι ακτίνες Van der W aals των ατόμων, η μοριακή επιφάνεια ή ο μοριακός όγκος, το μοριακό ηλεκτροστατικό δυναμικό, η ηλεκτρονιακή πυκνότητα κ.ά. Η κατασκευή μοριακών μοντέλων επιτρέπει εξάλλου τη σύγκριση ανάμεσα σε διαφορετικά μόρια προσδιορίζοντας περιοχές ομοιοτήτων και διαφορών.

Παράλληλα είναι δυνατή η απεικόνιση της τρισδιάστατης προσαρμογής ενός μικρομορίου (φαρμάκου) σε ένα μακρομόριο (υποδοχέα). Σε αυτή την κατεύθυνση είναι δυνατό να σχεδιαστούν στην οθόνη του ηλεκτρονικού υπολογιστή νέα μόρια τα οποία μιμούμενα το σχήμα μιας δραστικής ένωσης ή του φυσιολογικού υποστρώματος έχουν θεωρητικά τη δυνατότητα να καταλάβουν την ενεργό θέση ενός υποδοχέα .

2.5 Α νά λ υ σ η Π ρ ω τε ϊν ώ ν

Ό π ω ς έχουμε ήδη αναφέρει οι π ρω τεΐνες περιγράφ ονται π λήρω ς από την αμινοξεϊκή τους ακολουθία, όμως διακρίνονται και για ειδικές λειτουργίες λόγω της τρισδιάστατης δομής τους. Αν και η δομή μιας π ρω τεΐνης απ οτελεί το κλειδί για τη βιολογική της λειτουργία, για πολλές πρωτεΐνες η επίλυση της δομής του ς δεν είναι αρκετή για να κ α θο ριστεί η λειτου ρ γία του ς. Π ολλά ένζυμα εντείνουν την καταλυτική τους λειτουργία με βάση μια μικρή περιοχή στην πρω τεϊνική επ ιφ άνεια που ονομάζεται ενεργό ς π εριοχή (active site) ή ενεργό κέντρο του ενζύμου. Αυτή η περιοχή χαρακτηρίζεται από γεωμετρικά και φυσικοχημικά χαρακτηριστικά που είναι σχεδόν συμπληρωματικά ενός άλλου μορίου, του υποστρώματος. Έ τσι το ενεργό κέντρο μιας πρωτεΐνης ενεργεί σαν υπ οδοχέας. Αυτή η διαδικασία πρό σδεση ς υπ οδο χέα και υποστρώματος καλείται προσάραξη (docking).

Η προσπάθεια εντοπισμού του ενεργού κέντρου μιας πρωτεΐνης και της κατανόησης με ακρίβεια της διαδικασίας προσάραξης αποτελεί ένα πολύ σημαντικό βήμα στην προσπάθεια αποκρυπτογράφησης των περισσότερων μεταβολικών αντιδράσεων. Με την κατανόηση της πρωτεϊνικής λειτουργίας ο σχεδιασμός φαρμάκων μπορεί να αναπτυχθεί σημαντικά.

Εδώ πρέπει να συμπληρώσουμε ότι προκειμένου μια πρωτεΐνη να βρεθεί σε μια ενεργειακή ισορροπία (ιδανική για την προσάραξή της) περνά από ένα σύνολο στεροδιαμορφώσεων. Υπάρχουν εκατομμύρια διαμορφώσεις οι οποίες μπορούν να διαφέρουν σημαντικά. Εδώ ακριβώς εισάγεται ο

(17)

Ειοαγωγή στη Βιοπληροφορική

ηλεκτρονικός υπ ολογιστής για να ελέγξει τον μεγάλο αριθμό π ιθανών στεροδιαμορφώσεων και να μειώσει την υπολογιστική πσλυπλσκότητα των πειραμάτων που πρέπει να πραγματοποιηθούν.

Όπ&ις ήδη αναφέραμε προηγουμένως, προκειμένου να ενωθούν δύο βιολογικά δραστικά μόρια πρέπει να βρεθσύν στην ενεργειακά εττνοϊκότερη διαμόρφωση. Αυτή η διαμόρφωση παίζει καθσριστικό ρόλο στην αλληλεπίδραση τσυ δραστικσύ μέρσυς του υπ οδοχέα μιας πρω τεΐνης με το υπόστρωμα μιας άλλης (η αλληλεπίδραση επιτυγχάνεται όταν τσ βισλσγικά δραστικό μόριο μεταβαίνει από μία ενεργειακά ευνοϊκή διαμόρφοκτη στην οπσία βρίσκεται, σε μία διαμόρφωση συμπληρωματική της διαμόρφωσης τσυ υποδσχέα).

Άρα προκειμένου να εντοπίσουμε την ευνοϊκότερη διαμόρφωση απαιτείται να μελετήσσυμε τις επιφάνειες επαφής με σκσπό να εξάγσυμε χρήσιμα συμπεράσματα. Στη μελέτη αυτή οι περισσότεροι αλγόριθμοι λαμβάνουν υπόψη τους δύο βασικές αρχές , οι οποίες έχουν αναγνωριστεί ως σημαντικές τόσο για την αναγνώριση όσο και το ταίριασμα των δραστικών μορίων.

Η πρώτη αρχή είναι γνωστή και ως «αρχή της συμπληρωματικότητας ως πρσς τη μορφή». Η μορφή των δραστικών μορίων, τουλάχιστον γεωμετρικά, είναι συμπληρωματική, και αυτό γιατί έχει παρατηρηθεί μεγάλα ταίριασμα ανάμεσα στα μόρια πσυ έρχονται σε επαφή.

Η δεύτερη αρχή είναι γνωστή και ως «αρχή της συμπληρωματικότητας ως προς την ηλεκτρονιακή διαμόρφωση». Έχει επίσης απαδειχθεί όπ υπάρχει μεγάλη χημική συμπληρωματικότητα (δεσμοί υδρογόνου, ηλεκτροστατικές αντιδράσεις κ.α.) ανάμεσα στα μόρια που έρχονται σε επαφή.

Παρόλο που η δεύτερη αρχή είναι η πιο σημαντική, υπ άρχει η δυνατότητα αναγνώρισης πσλλών μορίων ικανών να ενωθούν μόνο με τη βοήθεια της αρχής της συμπληρωματυ<;ότητας οος προς τη μορφή.

Προκειμένου να βρούμε τα συμπληρωματικά μόρια που α νήκουν σε δυο πρωτεΐνες Α, Β έχουμε να επιλύσουμε ένα πρόβλημα ταιριάσματος σε 3 διαστάσεις (3D matching problem) .

2 .6 Σ χ ε δ ια σ μ ό ς Φ α ρ μ ά κ ω ν με τη β ο ή θ εια η λ ε κ τ ρ ο ν ικ ο ύ υ ιτολογιστή Στις μέρες μας η παράλληλη ανάπτυξη υλικού και λογισμικού στον τομέα των υπολογιστών, σε συνδυασμό με την ανάπτυξη του Διαδικτύου όσο και τη σχεδίαση και χρήση βάσεων δεδομένων που περιέχουν βιολογικά δεδομένα ανοίγει νέους ορίζοντες στο χώρο της μοριακής σχεδίασης. Ο σχεδιασμός φαρμάκων με τη βοήθεια ηλεκτρονικού υπολογιστή αποτελεί έναν ενδιαφέροντα τομέα της επιστήμης της Μοριακής Σχεδίασης.

(18)

Ειοαγωγή στη ΒιοπΑηροφορική

Οι υψηλής τεχνολογίας ηλεκτρονικοί υ π ολογιστές α π οτελούν σήμερα πσλύτιμο εργαλείο στο σχεδίασμά των φαρμάκων παρέχσντας πσλύτιμες πληρσφσρίες σχετικά με: 1) την τρισδιάστατη αρχιτεκτσνική των μορίων, 2) τις φυσικοχημικές τους ιδιότητες, 3) τη σύγκριση ενός μσρίσυ με άλλα μόρια, 4) τα σύμπλοκα μικρσμορίων- μακρσμσρίων, 5) τις π ρσβλέψ εις για νέα μόρια.

Παράλληλα έχσυν ωριμάσει σι συνθήκες για την επ ιλεκτική φαρμακευτική στόχευση και σύντομα αναμένεται η συνεισφορά της Β ιοπ ληροφ ορικής και στο σχεδίασμά νέων φαρμάκων . Π ιο συγκεκριμένα στό χος είναι να σχεδιαστεί ένα φάρμακο χτισμένο ειδικά πάνω στο γονιδιακό υπόστρωμα του κάθε ασθενούς, δηλαδή μια εξατομικευμένη φαρμακευτική αντιμετώπιση.

Ως πρώτος στόχος των επιστημόνων που ασχολούνται με τη σχεδίαση φαρμάκων με τη βοήθεια ηλεκτρονικού υπολογιστή τίθεται η αποτελεσματική απεικόνιση των δομών κανονικών και παθολογικών μορίων τα οποία στη συνέχεια συγκρίνονται με παθογενή ένζυμα και ενεργούς υποδοχείς αντίστοιχα οπότε και καθορίζεται ο στόχος σχεδιασμού .

Έτσι αν γνωρίζουμε τη δομή μιας πρωτεΐνης και τον τρόπο που ο υποδοχέας ή η ενεργός περιοχή της δρα, μπορούμε να «χτίσουμε» και να προσομοιώσουμε την προσάραξη τους στην οθόνη του ηλεκτρονικού υπολογιστή εξοικονομώντας τον χρόνο και το κόστος που θα απαιτούσαν αντίστοιχες πειραματικές δοκιμές. Παράλληλα μπορούμε να ανακαλύπτουμε νέες ενώσεις και να τις μοντελσποιούμε προκειμέναυ να διερευνούμε παραγόμενα συνθετικά ανάλογα και την πιθανή δραστικότητά τους. Και στις δύσ περιπτώσεις η μοριακή σχεδίαση είναι ουσιώδης για την κατανόηση και διερεύνηση της σχέσης δομής - δράσης. Αυτό βέβαια δε σημαίνει ότι καταργούμε τα in-vitro πειράματα, γιατί αρκετές φορές τα αποτελέσματα δεν είναι τα αναμενόμενα.

Στσν πίνακα 3 παραυσιάζεται με συνσιπικό τρόπο η ανάλυση που πραγματοποιείται σε βισλογικά δεδομένα. Ο κάθετος άξονας παρουσιάζει τα διαδοχικά βήματα στη διαδικασία στον ορθολογικό σχεδίασμά φαρμάκων (ration al dru g design): ξεκ ινώ ντας από ένα γο νίδιο π ρο σπ αθού μ ε να ανακαλύψουμε την πρωτεΐνη που κωδικοποιεί. Έ χοντας ως είσοδο την ακολουθία ενός γονιδίου, μπορούμε να καθορίσουμε την αντίστοιχη ακολουθία μιας πρωτεΐνης με μεγάλη βεβαιότητα και στη συνέχεια με χρήση αλγορίθμων πρόβλεψης τη δομή που αποκτά. Γεωμετρικού υπολογισμοί μπορούν να μετρήσουν το σχήμα της επιφάνειας της πρωτεΐνης και με μοριακές προσομοιώσεις να καθορίσουμε τις δυνάμεις που αναπτύσσονται γύρω από το μόριό της. Τέλος χρησιμοποιώντας αλγορίθμους προσάραξης μπορούμε να αναγνωρίσουμε ή να σχεδιάσουμε προσδέματα που ενώνονται με την πρωτεΐνη, δημιουργώντας φάρμακα που επιδρά στη λειτουργία της συγκεκριμένης πρωτεΐνης.

(19)

Εισαγωγή στη Βιοπληροφορική

εφαρμογών ανάλυσης βιολσγικών δείϊομενων.

(20)

Είοαγωγή στη ΒιοπΛηροφορική

Ο ο ρ ιζόνη ο ς ά ξονα ς π α ρ ο υ σιά ζει τα βήματα στη σύ γκ ρισ η τω ν ακολουθιών διαφορετικών γο νιδίω ν και πρω τεϊνών. Μ ε τη βοήθεια αλγορίθμων διαχείρισης συμ βολοσειρών μπσρούμε να μελετήσουμε τη στοίχιση πολλαπλών πρωτεϊνών (m ultiple sequence alignment) καθώς και να καθορίσουμε επαναλαμβανόμιενα μοτίβα (περιοδικότητες). Με αυτό τον τρόπο μπορούμε να δημιουργήσουμε φυλογενετικά δέντρα που απεικονίζουν τα εξελικτικά μονοπάτια των πρωτεϊνών.

Σε αυτό το σημείο έχοντας ολοκληρώσει τη ν περιγραφή των σημαντικότερων εφαρμογών στον τομέα της Βιοπληροφορικής θα αναφέρουμε τις τεχνικές από το χώρο της Π ληροφορικής που υιοθετούνται. Σε ένα πρώτο επίπεδο η τεχνολογία των Βάσεων Δεδομένων επιτρέπει την οργάνωση και απ οθήκευση και ανάκτηση τω ν βιολογικώ ν δεδομένων. Σ τη ν ανέιλυση ακολουθιών χρησιμοποιούνται τεχνικές επ εξεργασίας συμβολσσειρών (string manipulation techniques) και στην ανακάλυψη μοτιβων τεχνικές μηχανικής μάθησης και εξόρυξης δεδομένων (data ruining). Η τρισδιάστατη ανάλυση της δομής των βιολογικών μορίων συνδυάζει Ευκλείδια Γεωμετρία, Φυσικοχημεία και γραφικές αναπαραστάσεις επιφανειών και όγκων καθώς και αλγορίθμους τρισδιάστατων συγκρίσεων. Οι μοριακές προσομοιώσεις συνδυάζουν αρχές της Νευτώνιας και Κβαντικής Μηχανικής και ηλεκτροστατικούς υπολογισμούς.

Στις περισσότερες περιπτώσεις οι υ π ολογιστικές τεχ νικ ές ενσωματώνουν και στατιστικούς ελέγχους των αποτελεσμάτων.

(21)

Ειοανωγή στη ΒιοπΛηροψ ί^'ΐκη____________________________________________________ Α ’ Μ έρος

Κ ε φ ά λ α ιο 1°: Τ ε χ ν ικ έ ς Δ ια χ ε ίρ ισ η ς κ α ι Α ν ά λ υ σ η ς Σ υ μ β ο λ ο σ ε ιρ ώ ν Β ιο λ ο γ ικ ώ ν Δ ε δ ο μ έ ν ω ν

Βασικός στόχος των αλγορίθμων και τεχνικών διαχείρισης και ανάλυ σης συμ βολοσειρών β ιολογικώ ν δεδομ ένω ν είναι η σύγκριση ακολουθιών προκειμένου να ανιχνευθούν κοινά μοτίβα που καθορίζουν τη δομική και λειτουργική ιδιότητα των βιολογικών μορίων, καθώ ς και η αναγνώριση επαναλαμβανόμενων μοτίβων ή αλλιώ ς π εριοδικ οτή τω ν (regualarities) που καθορίζουν τη βιολογική σημασία κάθε μακρομορίου.

Η βασική υπόθεση για την ανάπτυξη και εφαρμογή τεχνικών διαχείρισης συμβολοσειρών βιολογικών δεδομένων είναι ότι κ άθε βιολογικό μόριο μπορεί να περιγράφει ως μια ακολουθία συμβόλων από ένα ορισμένο αλφάβητο Σ. Συγκεκριμένα κάθε μόριο του DNA, μπορεί να θεωρηθεί ως μια ακολουθία συμβόλων (συμβολοσειρά), από ένα αλφάβητο τεσσάρων χαρακτήρων/γραμμάτων: A,C,G,T, ενώ κάθε μόριο πρωτεΐνης μπορεί να θεωρηθεί ως μια ακολουθία συμβόλων (συμβολοσειρά), από ένα αλφάβητο είκοσι χαρακτήρων/ γραμμάτων, των 20 αμινοξέων.

1,1 Βασικοί Ορισμοί

Μια συμβολοσειρά είναι μια ακολουθία 0 ή περισσότερων συμβόλων από ένα ορισμένο αλφάβητο ^ ■ Το σύνολο άλων τω ν συμβολοσειρών που ορίζονται από το συγκεκριμένο αλφάβητο, συμβολίζεται με Σ - Μια συμβολοσειρά X μήκους η αναπαρισταται ως

ι[Ι η] = χ(1]χ[2]...χ[η], όπου χ[ί] ^ Σ γιαΐ <i<

είναι το μήκος της συμβολοσειράς χ .

η ακολουθία:

, και η=|χ|

Η κενή συμβολοσειρά είναι η ακολουθία από μηδέν σύμβολα και συμβολίζεται ωςε ; οπ ότε ‘

^ ^ + υ { ε ) . Η συμ βολοσειρά xy , είναι η συνένωση των συμβολοσειρών/ λέξεων χ και y . Η συνένωση k αντιγράφων του X ορίζεται ως χι και ονομάζεται k δύναμη του χ .

Μια συμβολοσειρά w αποτελεί υπ ο-συμβολοσειρά (substring) της λέξης X εάν X = UWV u ν,

Σ

* ■ υπο-συμβολοσειρά ^ είναι πρόθεμα του ^

εάν X = WV για ν e ’ , , · χ'

^ , ενω ενα κανονικό πρόθεμα εαν ^ ^ 2 , Όμοια w

είναι επίθεμα του χ εάν χ = ν\ν για ν £

Σ

ουμβολοσειρά ν , που είναι και πρόθεμα και επίθεμα του χ ονομάζεται border του χ .

Referências

Documentos relacionados

Με αυτά τα περιβάλλοντα προγραμματισμού, οι αρχάριοι μπορούν να επικεντρωθούν στην εκμάθηση των εννοιών, της σκέψης και της ανάλυσης του προβλήματος, μαθαίνοντας τις αρχές της επιστήμης