Bioinformatika (bahasa Inggris: bioinformatics) adalah (ilmu yang mempelajari) penerapan teknik komputasional untuk mengelola dan menganalisis informasi biologis. Bidang ini mencakup penerapan metode-metode matematika, statistika, dan informatika untuk memecahkan masalah-masalah biologis, terutama dengan menggunakan sekuens DNA dan asam amino serta informasi yang berkaitan dengannya. Contoh topik utama bidang ini meliputi basis data untuk mengelola informasi biologis, penyejajaran sekuens (sequence alignment), prediksi struktur untuk meramalkan bentuk struktur protein maupun struktur sekunder RNA, analisis filogenetik, dan analisis ekspresi gen.

Sejarah 

Istilah bioinformatics mulai dikemukakan pada pertengahan era 1980-an untuk mengacu pada penerapan komputer dalam biologi. Namun demikian, penerapan bidang-bidang dalam bioinformatika (seperti pembuatan basis data dan pengembangan algoritma untuk analisis sekuens biologis) sudah dilakukan sejak tahun 1960-an.

Kemajuan teknik biologi molekular dalam mengungkap sekuens biologis dari protein (sejak awal 1950-an) dan asam nukleat (sejak 1960-an) mengawali perkembangan basis data dan teknik analisis sekuens biologis. Basis data sekuens protein mulai dikembangkan pada tahun 1960-an di Amerika Serikat, sementara basis data sekuens DNA dikembangkan pada akhir 1970-an di Amerika Serikat dan Jerman (pada European Molecular Biology Laboratory, Laboratorium Biologi Molekular Eropa). Penemuan teknik sekuensing DNA yang lebih cepat pada pertengahan 1970-an menjadi landasan terjadinya ledakan jumlah sekuens DNA yang berhasil diungkapkan pada 1980-an dan 1990-an, menjadi salah satu pembuka jalan bagi proyek-proyek pengungkapan genom, meningkatkan kebutuhan akan pengelolaan dan analisis sekuens, dan pada akhirnya menyebabkan lahirnya bioinformatika.

Perkembangan internet juga mendukung berkembangnya bioinformatika. Basis data bioinformatika yang terhubung melalui internet memudahkan ilmuwan mengumpulkan hasil sekuensing ke dalam basis data tersebut maupun memperoleh sekuens biologis sebagai bahan analisis. Selain itu, penyebaran program-program aplikasi bioinformatika melalui internet memudahkan ilmuwan mengakses program-program tersebut dan kemudian memudahkan pengembangannya.

Penerapan utama bioinformatika 

Sequence database ( Basis data sekuens biologis) 

Sesuai dengan jenis informasi biologis yang disimpannya, basis data sekuens biologis dapat berupa basis data primer untuk menyimpan sekuens primer asam nukleat maupun protein, basis data sekunder untuk menyimpan motif sekuens protein, dan basis data struktur untuk menyimpan data struktur protein maupun asam nukleat.

Basis data utama untuk sekuens asam nukleat saat ini adalah GenBank (Amerika Serikat), EMBL (Eropa), dan DDBJ(en) (DNA Data Bank of Japan, Jepang). Ketiga basis data tersebut bekerja sama dan bertukar data secara harian untuk menjaga keluasan cakupan masing-masing basis data. Sumber utama data sekuens asam nukleat adalah submisi langsung dari periset individual, proyek sekuensing genom, dan pendaftaran paten. Selain berisi sekuens asam nukleat, entri dalam basis data sekuens asam nukleat umumnya mengandung informasi tentang jenis asam nukleat (DNA atau RNA), nama organisme sumber asam nukleat tersebut, dan pustaka yang berkaitan dengan sekuens asam nukleat tersebut.

Sementara itu, contoh beberapa basis data penting yang menyimpan sekuens primer protein adalah PIR (Protein Information Resource, Amerika Serikat), Swiss-Prot (Eropa), dan TrEMBL (Eropa). Ketiga basis data tersebut telah digabungkan dalam UniProt (yang didanai terutama oleh Amerika Serikat). Entri dalam UniProt mengandung informasi tentang sekuens protein, nama organisme sumber protein, pustaka yang berkaitan, dan komentar yang umumnya berisi penjelasan mengenai fungsi protein tersebut.

BLAST (Basic Local Alignment Search Tool) merupakan perkakas bioinformatika yang berkaitan erat dengan penggunaan basis data sekuens biologis. Penelusuran BLAST (BLAST search) pada basis data sekuens memungkinkan ilmuwan untuk mencari sekuens asam nukleat maupun protein yang mirip dengan sekuens tertentu yang dimilikinya. Hal ini berguna misalnya untuk menemukan gen sejenis pada beberapa organisme atau untuk memeriksa keabsahan hasil sekuensing maupun untuk memeriksa fungsi gen hasil sekuensing. Algoritma yang mendasari kerja BLAST adalah penyejajaran sekuens.

PDB (Protein Data Bank, Bank Data Protein) adalah basis data tunggal yang menyimpan model struktural tiga dimensi protein dan asam nukleat hasil penentuan eksperimental (dengan kristalografi sinar-X, spektroskopi NMR dan mikroskopi elektron). PDB menyimpan data struktur sebagai koordinat tiga dimensi yang menggambarkan posisi atom-atom dalam protein ataupun asam nukleat.

Sequence alignment ( Penyejajaran sekuens ) 

Penyejajaran sekuens adalah proses penyusunan/pengaturan dua atau lebih sekuens sehingga persamaan sekuens-sekuens tersebut tampak nyata. Hasil dari proses tersebut juga disebut sebagai sequence alignment atau alignment saja. Baris sekuens dalam suatu alignment diberi sisipan (umumnya dengan tanda “–”) sedemikian rupa sehingga kolom-kolomnya memuat karakter yang identik atau sama di antara sekuens-sekuens tersebut. Berikut adalah contoh alignment DNA dari dua sekuens pendek DNA yang berbeda, “ccatcaac” dan “caatgggcaac” (tanda “|” menunjukkan kecocokan atau match di antara kedua sekuens).

 ccat—caac
 |   | |    | | | |
 caatgggcaac

Sequence alignment merupakan metode dasar dalam analisis sekuens. Metode ini digunakan untuk mempelajari evolusi sekuens-sekuens dari leluhur yang sama (common ancestor). Ketidakcocokan (mismatch) dalam alignment diasosiasikan dengan proses mutasi, sedangkan kesenjangan (gap, tanda “–”) diasosiasikan dengan proses insersi atau delesi. Sequence alignment memberikan hipotesis atas proses evolusi yang terjadi dalam sekuens-sekuens tersebut. Misalnya, kedua sekuens dalam contoh alignment di atas bisa jadi berevolusi dari sekuens yang sama “ccatgggcaac”. Dalam kaitannya dengan hal ini, alignment juga dapat menunjukkan posisi-posisi yang dipertahankan (conserved) selama evolusi dalam sekuens-sekuens protein, yang menunjukkan bahwa posisi-posisi tersebut bisa jadi penting bagi struktur atau fungsi protein tersebut.

Selain itu, sequence alignment juga digunakan untuk mencari sekuens yang mirip atau sama dalam basis data sekuens. BLAST adalah salah satu metode alignment yang sering digunakan dalam penelusuran basis data sekuens. BLAST menggunakan algoritma heuristik dalam penyusunan alignment.

Beberapa metode alignment lain yang merupakan pendahulu BLAST adalah metode “Needleman-Wunsch” dan “Smith-Waterman”. Metode Needleman-Wunsch digunakan untuk menyusun alignment global di antara dua atau lebih sekuens, yaitu alignment atas keseluruhan panjang sekuens tersebut. Metode Smith-Waterman menghasilkan alignment lokal, yaitu alignment atas bagian-bagian dalam sekuens. Kedua metode tersebut menerapkan pemrograman dinamik (dynamic programming) dan hanya efektif untuk alignment dua sekuens (pairwise alignment)

Clustal adalah program bioinformatika untuk alignment multipel (multiple alignment), yaitu alignment beberapa sekuens sekaligus. Dua varian utama Clustal adalah ClustalW dan ClustalX.

Metode lain yang dapat diterapkan untuk alignment sekuens adalah metode yang berhubungan dengan Hidden Markov Model (“Model Markov Tersembunyi”, HMM). HMM merupakan model statistika yang mulanya digunakan dalam ilmu komputer untuk mengenali pembicaraan manusia (speech recognition). Selain digunakan untuk alignment, HMM juga digunakan dalam metode-metode analisis sekuens lainnya, seperti prediksi daerah pengkode protein dalam genom dan prediksi struktur sekunder protein.

Prediction of protein structure ( Prediksi struktur protein ) 

 

Secara kimia/fisika, bentuk struktur protein diungkap dengan kristalografi sinar-X ataupun spektroskopi NMR, namun kedua metode tersebut sangat memakan waktu dan relatif mahal. Sementara itu, metode sekuensing protein relatif lebih mudah mengungkapkan sekuens asam amino protein. Prediksi struktur protein berusaha meramalkan struktur tiga dimensi protein berdasarkan sekuens asam aminonya (dengan kata lain, meramalkan struktur tersier dan struktur sekunder berdasarkan struktur primer protein). Secara umum, metode prediksi struktur protein yang ada saat ini dapat dikategorikan ke dalam dua kelompok, yaitu metode pemodelan protein komparatif dan metode pemodelan de novo.

Pemodelan protein komparatif (comparative protein modelling) meramalkan struktur suatu protein berdasarkan struktur protein lain yang sudah diketahui. Salah satu penerapan metode ini adalah pemodelan homologi (homology modelling), yaitu prediksi struktur tersier protein berdasarkan kesamaan struktur primer protein. Pemodelan homologi didasarkan pada teori bahwa dua protein yang homolog memiliki struktur yang sangat mirip satu sama lain. Pada metode ini, struktur suatu protein (disebut protein target) ditentukan berdasarkan struktur protein lain (protein templat) yang sudah diketahui dan memiliki kemiripan sekuens dengan protein target tersebut. Selain itu, penerapan lain pemodelan komparatif adalah protein threading yang didasarkan pada kemiripan struktur tanpa kemiripan sekuens primer. Latar belakang protein threading adalah bahwa struktur protein lebih dikonservasi daripada sekuens protein selama evolusi; daerah-daerah yang penting bagi fungsi protein dipertahankan strukturnya. Pada pendekatan ini, struktur yang paling kompatibel untuk suatu sekuens asam amino dipilih dari semua jenis struktur tiga dimensi protein yang ada. Metode-metode yang tergolong dalam protein threading berusaha menentukan tingkat kompatibilitas tersebut.

Dalam pendekatan de novo atau ab initio, struktur protein ditentukan dari sekuens primernya tanpa membandingkan dengan struktur protein lain. Terdapat banyak kemungkinan dalam pendekatan ini, misalnya dengan menirukan proses pelipatan (folding) protein dari sekuens primernya menjadi struktur tersiernya (misalnya dengan simulasi dinamika molekular), atau dengan optimisasi global fungsi energi protein. Prosedur-prosedur ini cenderung membutuhkan proses komputasi yang intens, sehingga saat ini hanya digunakan dalam menentukan struktur protein-protein kecil. Beberapa usaha telah dilakukan untuk mengatasi kekurangan sumber daya komputasi tersebut, misalnya dengan superkomputer (misalnya superkomputer Blue Gene [1] dari IBM) atau komputasi terdistribusi (distributed computing, misalnya proyek Folding@home) maupun komputasi grid.

Analysis of gene expression ( Analisis ekspresi gen ) 

 

Ekspresi gen dapat ditentukan dengan mengukur kadar mRNA dengan berbagai macam teknik (misalnya dengan microarray ataupun Serial Analysis of Gene Expression [“Analisis Serial Ekspresi Gen”, SAGE]). Teknik-teknik tersebut umumnya diterapkan pada analisis ekspresi gen skala besar yang mengukur ekspresi banyak gen (bahkan genom) dan menghasilkan data skala besar. Metode-metode penggalian data (data mining) diterapkan pada data tersebut untuk memperoleh pola-pola informatif. Sebagai contoh, metode-metode komparasi digunakan untuk membandingkan ekspresi di antara gen-gen, sementara metode-metode klastering (clustering) digunakan untuk mempartisi data tersebut berdasarkan kesamaan ekspresi gen.

Genome annotation (Gene Finding ) 

Dalam konteks genomics , annotation adalah proses yang menandai gen dan fitur biologis lainnya dalam urutan DNA.  Perangkat lunak sistem Genome annotation  pertama dirancang pada tahun 1995 oleh Dr Owen Putih(yang merupakan bagian dari tim di Lembaga untuk Riset Genom yang diurutkan dan dianalisis genome pertama dari organisme hidup yang dikodekan)  adalah  bakteri Haemophilus influenzae .  Dr White membangun sistem perangkat lunak untuk menemukan gen (tempat pada urutan DNA pada pengkodean protein), transfer RNA, dan fitur lainnya, dan untuk membuat tugas awal fungsi gen-gen.  Kebanyakan sistem Genome annotation  saat ini mengerjakan yang sama, tapi program yang tersedia untuk analisis DNA genomik yang terus berubah dan membaik.

Computational evolutionary biology (Komputasi evolusi biologi ) 

Biologi evolusioner adalah studi tentang asal-usul dan keturunan dari spesies , serta perubahan mereka dari waktu ke waktu. Informatika telah membantu ahli biologi evolusioner dalam beberapa cara kunci; itu telah memungkinkan peneliti untuk:

  • melacak evolusi sejumlah besar organisme dengan mengukur perubahan DNA mereka, bukan melalui penggolongan / taksonomi fisik atau pengamatan fisiologis saja.
  • baru-baru ini, membandingkan seluruh genom , yang memungkinkan studi tentang evolusi peristiwa yang lebih kompleks, seperti duplikasi gen , transfer gen horizontal , dan prediksi faktor-faktor penting dalam bakteri spesiasi ,
  • membangun model komputasi kompleks populasi untuk memprediksi hasil sistem dari waktu ke waktu 
  • melacak dan berbagi informasi tentang sejumlah spesies dan organisme yang semakin besar
  • berusaha bekerja untuk Masa Depan rekonstruksi kompleks pohon kehidupan yang lebih dari sekarang.

Daerah penelitian dalam ilmu komputer yang menggunakan algoritma genetika kadang-kadang membingungkan dengan evolusi biologi komputasi , namun dua bidang tidak berhubungan. 

Analysis of regulation (Analisis regulation) 

Regulation adalah orkestrasi kompleks dari peristiwa yang diawali dengan sinyal ekstraseluler seperti hormon dan menyebabkan peningkatan atau penurunan aktivitas dari satu atau lebih protein .  Bioinformatika teknik telah diterapkan untuk mengeksplorasi berbagai langkah dalam proses ini.  Sebagai contoh, analisis promotor melibatkan identifikasi dan studi tentang motif urutan dalam DNA sekitar daerah pengkode gen. Motif ini mempengaruhi sejauh mana wilayah yang ditranskripsi menjadi mRNA. . Data Ekspresi dapat digunakan untuk menyimpulkan regulasi gen ( orang mungkin membandingkan data microarray dari berbagai negara dari organisme untuk membentuk hipotesis tentang gen yang terlibat dalam masing-masing negara).  Dalam sel organisme tunggal, salahsatunya mungkin membandingkan tahap siklus sel , bersama dengan berbagai kondisi penyebab stress (tekanan, kelaparan, dll). Salahsatunya kemudian dapat diterapkan clustering algoritma dengan data ekspresi untuk menentukan gen yang co-expressed.  Sebagai contoh, daerah tinggi (promotor) dari  gen co-expressed untuk lebih mempresentasikan regulasi elemen-elemen .

Analisis mutasi pada kanker 

Pada kanker, genom sel yang terkena penyusunan ulang yang komplek atau bahkan sesuatu yang tidak diduga.  Massive sequencing berupaya besar-besaran untuk mengidentifikasi titik mutasi dalam berbagai gen dalam penyakit kanker yang tidak terprediksi.  Bioinformaticians terus menghasilkan sistem otomatis khusus untuk mengelola sedikit data sekuens yang  dihasilkan, dan mereka membuat algoritma baru dan perangkat lunak untuk membandingkan hasil sekuensing ke koleksi tumbuh dari urutan genom manusia dan germline polimorfisme.  Teknologi baru deteksi fisik bekerja, seperti microarray oligonukleotida  untuk mengidentifikasi pembesaran atau pengecilan kromosom (disebut hibridisasi genomik komparatif ), dan array nukleotida  polimorfisme tunggal untuk mendeteksi titik mutasi. Metode-metode pendeteksian secara simultan mengukur ratusan ribu tempat di seluruh genom, dan bila digunakan pada throughput yang tinggi untuk mengukur ribuan sampel, akan menghasilkan terabyte data per percobaan.

Comparative genomics ( Perbandingan genomics ) 

Inti dari analisis genom komparatif adalah pembentukan korespondensi antara gen ( orthology analisis) atau fitur lain dalam genom organisme yang berbeda.Inilah peta intergenomic yang memungkinkan untuk melacak proses evolusi  atas perbedaan dari dua genom.  Banyak peristiwa evolusi yang bekerja pada berbagai tingkat organisasi bentuk  dari evolusi genom. Pada tingkat terendah, titik mutasi nukleotida mempengaruhi individu.  Pada tingkat yang lebih tinggi, segmen kromosom mengalami duplikasi besar, transfer lateral, inversi, transposisi, penghapusan dan insersi.  Pada akhirnya, seluruh genom yang terlibat dalam proses hibridisasi, polyploidization dan endosymbiosis ,  menimbulkan spesiasi cepat. Kompleksitas evolusi genom menimbulkan tantangan yang menarik bagi para pengembang dari model matematika dan algoritma, yang memiliki jalan lain untuk sebuah spektrum algoritmik, teknik statistik dan matematika, mulai dari exaction, heuristik , fixed parameter dan approximation algoritma untuk masalah berdasarkan pada parsimony model  untuk algoritma Markov Chain Monte Carlo  untuk analisis Bayesian dari masalah berdasarkan model-model probabilistik. Banyak studi ini didasarkan pada deteksi homologi dan perhitungan protein keluarga. 

Modeling biological systems ( Pemodelan sistem biologis ) 

Sistem biologi melibatkan penggunaan simulasi komputer dari seluler subsistem (seperti jaringan metabolit dan enzim yang terdiri dari metabolisme , jalur transduksi sinyal dan pengaturan jaringan gen ) untuk menganalisis dan memvisualisasikan hubungan kompleks dari proses-proses seluler. kehidupan Buatan atau evolusi virtual  berusaha memahami proses evolusi melalui simulasi komputer yang bentuk kehidupan buatan yang sederhana .

High-throughput image analysis ( analisis image performa tinggi  ) 

Teknologi komputasi digunakan untuk mempercepat atau mengotomatisasi proses, kuantifikasi dan analisis sejumlah besar informasi yang citra biomedik yang besar.  sistem analisis citra Modern menambah kemampuan pengamat  untuk membuat pengukuran yang tepat dari set gambar yang besar atau komplek, dengan meningkatkan akurasi , objektivitas , atau kecepatan.Walaupun sistem ini tidak untuk citra biomedik, imaging biomedis menjadi lebih penting untuk diagnostik dan penelitian.  Beberapa contoh adalah:

  • Throughput yang tinggi dan kuantifikasi ketepatan yang tinggi  dan pembagian selular lokalisasi  ( content screening yang tinggi , cytohistopathology, Bioimage informatika )
  • morphometrics
  • analisis dan visualisasi gambar klinis
  • menentukan real-time dari aliran udara dalam pola  pernapasan paru-paru dari hewan
  • ukuran occlusion yang kuantitatif dalam menggambarkan real-time dari pengembangan dan pemulihan cedera selama cedera arteri
  • melakukan pengamatan perilaku dari rekaman video dari hewan percobaan
  • pengukuran dengan inframerah untuk penentuan aktivitas metabolik
  • menyimpulkan overlap clone pemetaan DNA , misalnya  Sulston score

Protein-protein docking 

Dalam dua dekade terakhir, puluhan ribu struktur protein tiga dimensi telah ditentukan oleh kristalografi sinar-X dan Protein spektroskopi resonansi magnetik nuklir (NMR protein). Satu pertanyaan utama untuk ilmuwan biologis adalah apakah praktis untuk memprediksi interaksi protein-protein hanya berdasarkan bentuk 3D ini, tanpa melakukan interaksi eksperimen protein-protein. Berbagai metode telah dikembangkan untuk mengatasi masalah protein-Protein docking, meskipun tampaknya masih banyak pekerjaan yang harus dilakukan dalam bidang ini.

sumber 

http://en.wikipedia.org/wiki/Bioinformatics

http://ahmadqusyairi.co.cc