TRƯỜNG ĐI HC KHOA HC T NHIÊN ĐHQGHN
KHOA SINH HC
o0o
VŨ HẢI DƯƠNG
K64 SINH HỌC
Đ CƯƠNG ÔN TP HỌC PHẦN
TIN SINH HC BIOINFORMATICS
Ni Tháng 06/2022
2
2
MC LC
Phn 1. CƠ S D LIU SINH HỌC ........................................................................................ 4
1. Gii thiu chung v cơ s d liu sinh hc .......................................................................... 4
2. Các khái nim trong tin sinh hc ......................................................................................... 4
3. Cơ s d liu NCBI - National Center for Biotechnology Information .............................. 5
4. Một s cơ s d liu và công c genome và protein .......................................................... 6
Phn 2. SO SÁNH TRÌNH T SINH HỌC ............................................................................... 8
1. So sánh trình t sinh hc ...................................................................................................... 8
2. Phương pháp so sánh trình t............................................................................................... 8
a. Phương thc so sánh ......................................................................................................... 8
b. Ma trn so sánh ................................................................................................................. 9
3. So sánh hai trình t (pairwise) ........................................................................................... 11
a. So sánh ma trn đim ...................................................................................................... 11
b. Lp trình đng .................................................................................................................. 11
c. BLAST ............................................................................................................................ 11
4. So sánh nhiu trình t ........................................................................................................ 11
Phn 3. PN TÍCH CÂY CHNG LOẠI PHÁT SINH ...................................................... 13
1. Phân tích chng loi phát sinh ........................................................................................... 13
2. Phương pháp xây dng cây chng loi phát sinh .............................................................. 13
3. Cây phát sinh chng loi phát sinh trên toàn b genome .................................................. 15
Phn 4. D ĐOÁN GENE ......................................................................................................... 16
1. D đoán và chú gii gen .................................................................................................... 17
2. Phương pháp d đoán và chú gii gen ............................................................................... 17
Phn 5. MOTIF VÀ DOMAIN CA DNA VÀ PROTEIN .................................................... 18
1. Motif và Domain ................................................................................................................ 18
2. Các phương pháp tìm kiếm motif và domain (module) ..................................................... 18
a. Phương pháp lit kê ........................................................................................................ 18
b. Phương pháp ti ưu hóa xác đnh ................................................................................... 19
c. Phương pháp ti ưu hóa xác sut .................................................................................... 19
3. Protein d đoán cu trúc và chc năng ........................................................................... 19
Phn 6. THIT K MI CHO PHN NG PCR .................................................................. 21
1. Tiêu chun trong vic thiết kế mi .................................................................................... 21
a. Mục đích ca mi ........................................................................................................... 21
b. Đ dài ca mồi và sn phm khuếch đi ........................................................................ 21
c. Nhit đ nóng chy ca mi ........................................................................................... 22
d. Hàm lưng GC trong mi ............................................................................................... 22
3
3
e. Nhit đ gn mi ............................................................................................................ 22
Phn 7. NETWORK SINH HC .............................................................................................. 23
1. Network là gì? .................................................................................................................... 23
2. Các yếu t cn quan tâm trong mt Network .................................................................... 23
a. Distance .......................................................................................................................... 23
b. Average Path length (L) .................................................................................................. 23
c. Diameter ......................................................................................................................... 24
d. Degree (k) ....................................................................................................................... 24
e. H s nhóm (Clustering coefficient) ............................................................................... 25
f. Hubs ................................................................................................................................ 25
3. Tương tác protein protein ............................................................................................... 25
Đ THI KT THÚC HC PHN K II NĂM 2011 2012 ........................................... 28
Đ THI KT THÚC HC PHN K II NĂM 2012 2013 ........................................... 28
Đ THI KT THÚC HC PHN K II NĂM 2014 2015 ........................................... 28
Đ THI KT THÚC HC PHN K II NĂM 2015 2016 ........................................... 29
Đ THI KT THÚC HC PHN K II NĂM 2016 2017 ........................................... 29
Đ THI KT THÚC HC PHN K II NĂM 2019 2020 ........................................... 29
Đ THI KT THÚC HC PHN K II NĂM 2020 2021 (K64CLC) ........................ 30
Đ THI KT THÚC HC PHN K II NĂM 2020 2021 (K63CNSH) ...................... 30
Đ THI KT THÚC HC PHN K I NĂM 2020 2021 (K63CLC và K62CNSH) .. 31
Đ THI KT THÚC HC PHN K I NĂM 2021 2022 ............................................ 32
Đ THI KT THÚC HC PHN K II NĂM 2021 2022 ........................................... 33
4
4
Phn 1. CƠ S D LIỆU SINH HC
1. Gii thiu chung v cơ s dliu sinh hc
Cơ s d liu sinh hc là thư vin khoa hc sinh hc, đưc thu thp t các thí nghim
khoa hc, tài liu đã xut bn, công ngh thí nghim thông lưng cao và phân tích tính
toán. Chúng cha thông tin t các lĩnh vc nghiên cu bao gm gen, proteomics, chuyn
hóa, biu hin gen microarray và phát sinh loài.
Cơ s d liu sinh hc đưc s dng dưi dng nhng phn mềm, mục đích hưng ti
ca các phn mềm này là d s dng, giao din đp và cht lưng kết qu tt. Trong thc tế có
hai dng các chương trình công c ng dng tin sinh hc: phn mm s dng trc tuyến trên
internet và phn mềm yêu cu ti v y. C hai dng này có th là min phí nhưng cũng có th
yêu cu phi tr phí.
Trong mt phn mềm ng dng có th bao gm rt nhiu các phn mềm nh hơn, ví d
như cơ s d liu và y ch ExPASy ( ... Hay có nhng phn mềm https://www.expasy.org/)
đưc s dng là d liu gc s dng cho các chương trình khác, ví d như cơ s d liu v
protein Uniprot ( ), cơ s d liu NCBI ( ) http://www.uniprot.org/ https://www.ncbi.nlm.nih.gov/
2. Các khái nim trong tin sinh hc
Trình t là một tp hp các ký t tuyến tính (các phn t ca trình t) đi din cho các
nucleotide (DNA, RNA) hay amino acid (protein). Vic biu din các trình t này trong quá trình
x lý và phân tích tin sinh hc cn s đơn gin, d hiu và ngn gn, hn chế ti ưu dung lưng
b nh, do đó vi DNA/RNA bao gm nucleotide là A, T/U, G, C; protein bao gm 20 loi ký
hiu khác nhau là mt ch cái duy nht cho tng amino acid.
Tuy vy trong thc tế, vic nghiên cu có th có một vài v trí trong trình t ta không
chc chn nó là loi nào. Do đó ta cũng có nhng ký hiu riêng bit cho nhng s không chc
chn đó. Nhng quy ưc s dng trong Tin sinh hc, đưc Hip hi Hóa sinh hc Quc tế đ
xut và thông qua đ s dng gi là mã IUB (DNA) và mã SLC (protein):
Vi nucleic acid s dng: A, C, G, T, U: Vi protein s dng:
Đnh dng các file trình t trong quá trình có th chia làm các loi:
5
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
- File text hay nh phân: File text dùng mã IUB và có th đc đưc bng word processer
(simple text, Microsoft Word) hay text editor (emacs). File nh phân thưng ch đưc đc
bng chương trình to ra nó (MacVector).
- Ti thiu (FASTA) hay chú thích (GCG): đnh dng ti thiu dành cho nhng trình t
nucleotide hay peptide biu din bng một ch, bt đu bng một dòng miêu t (>name)
sau đó là dòng trình t. Đnh dng ch thích cha chính xác một trình t bt đu vi một
dòng chú thích và bt đu trình t đưc đánh du bi mt dòng kết thúc bng .. dòng
trưc trình t cha các mã nhn din, đ dài trình t.
3. Cơ s dliu NCBI - National Center for Biotechnology Information
Một trong s các cơ s d liu min phí có uy tín là NCBI. Cơ s d liu NCBI do Trung
tâm Thông tin Công ngh Sinh hc Quc gia Hoa K và Đi hc Y Quc gia Hoa K hp tác
cung cp t 1988; cho phép ngưi dùng s dng min phí đ tra cu, tham kho các tài liu là
sách, bài báo khoa hc ch yếu thuc lĩnh vc công ngh sinh hc, y sinh. Ngưi dùng có th tìm
kiếm tt c các b sưu tp d liu hoc tìm kiếm trong tng b sưu tp d liu thành phn như
PubMed, PubMed Central, PubChem, Genome,
Entrez là công c tìm kiếm nhanh, thng kê kết qu một cách đy đ và khoa hc đưc
NCBI s dng. S dng entrez có th tìm kiếm:
Pubmed: Tài liu, bài báo, tp chí, sách, liên quan đến lĩnh vc sinh y
Genbank: Cơ s d liu trình t nucleotide
Protein sequence database: Cơ s d liu trình t protein
SNP: đa hình đơn nucleotide
PopSet: b d liu nghiên cu v dân s
Taxonomy: phân loi sinh vt da trên Genbank
.
Trang ch ca cơ s d liu NCBI. Đ s dng Entrez gõ t khóa vào thanh tìm kiếm, chn
lo
i d
li
u
ô bên trái và nh
n Search đ
tìm ki
ế
m
6
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
4. Mt s cơ s dliu và công c genome và protein
ExPASy là một cng thông tin tin sinh hc ca vin tin sinh Thy Sĩ (SIB) t 2011. Đc
bit, ExPASy đưc thiết kế, phát trin và duy trì bi SIB Web Team trong s cng tác vi mt s
nhóm SIB và khác và ngưi dùng ExPASy. ExPASy là một cng thông tin rng và tích hp truy
cp nhiu tài nguyên khoa hc, cơ s d liu và công c phn mềm các lĩnh vc ca khoa hc
(Proteomics, genomics, transcriptomics, chng loi phát sinh, sinh hc h thng, tiến hóa, di
truyn dân s). ExPASy là viết tt ca Expert Protein Analysis System UniProt (Universal
Protein resourse) là mt tài nguyên toàn din cho d liu protein và d liu chú thích.
UniProt gm UniProt Knowledgebase (UniProtKB), UniProt Reference Clusters
(UniRef), và UniProt Archive (UniParc). UniProt là s hp tác gia Vin Thông tin Sinh hc
Châu Âu (EMBL-EBI), Vin Thông tin Sinh hc Thy Sĩ (SIB) và ngun thông tin v Protein
(PIR). Năm 2002, ba vin nghiên cu đã quyết đnh tp hp các ngun lc và chuyên n ca
h và thành lp liên minh UniProt. NCBI ( National Center for Biotechnology Information) ca
Mỹ là một b phn ca NIH. cơ s d liu ca NCBI rt rng bao gm nhiu mảng: văn hóa
phm khoa hc (sách, tp chí và công b khoa hc), sc khe, DL v genome, Genes, proteins,
hóa cht ngoài ra là các công c phân tích
EBI (European Bioinformatics Institute) cung cp d liu sinh hc công b trên toàn thế
gii cho cng đng khoa hc min phí thông qua nhiu dch v và công c, thc hin nghiên cu
cơ bn và đào to chuyên nghip v tin sinh hc. EBI là thành viên ca Phòng thí nghim sinh
hc phân t châu Âu (EMBL), một t chc nghiên cu quc tế, sáng to và liên ngành đưc tài
tr bi 22 quc gia thành viên và 2 quc gia thành viên liên kết.
DDBJ (DNA Data Bank of Japan) thu thp d liu trình t nucleotide như một thành
viên ca INSDC (International Nucleotide Sequence Database Collaboration) và cung cp d
liu trình t nucleotide sn có và h thng siêu y tính, đ h tr các hot đng nghiên cu
trong khoa hc s sng. Vì Trung tâm DDBJ trao đi d liu đưc công b vi ENA/ EBI và
NCBI hàng ngày, ba trung tâm d liu chia s hu như cùng mt d liu ti bt k thi đim nào.
Ngoài ra còn có các chương trình GenomeNet, EMBNet, PDB,
BLAST trong NCBI, BLAST tìm các vùng ging nhau gia các trình t sinh hc.
Chương trình so sánh trình t nucleotide hoc protein vi cơ s d liu trình t và tính toán ý
nghĩa thng kê.
CLustal là một lot các chương trình y tính đưc s dng rng rãi đưc s dng
trong tin sinh hc đ căn chnh nhiu trình t. Đã có nhiu phiên bn ca Clustal v s phát trin
Sơ đ khi v quá trình hot đng ca công c tìm kiếm Entrez:
7
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
ca thut toán như Clustal, ClustalV, ClustalW, ClustalX, Clustal Omega, Clustal2. Phiên bn
gn đây hơn ca phn mềm có sn cho Windows, Mac OS và Unix / Linux. Nó cũng thưng
đưc s dng thông qua một giao din web ti trang ch Clustal hoc đưc s dng qua trang
ch ca Vin Tin sinh hc Châu Âu.
Treeview là một chương trình đ hin th và in tp phân tích phát sinh loài. Chương trình
đc hu hết các tp cây NEXUS (chng hn như các tp đưc sn xut bi PAUP và
COMPONENT) và các tp cây kiu PHYLIP (bao gm c các tp đưc sn xut bi fastDNAml
và CLUSTALW).
SWISS-MODEL là một y ch hình hóa cu trúc protein hoàn toàn t đng, có th
truy cp qua y ch web ExPASy, hoc t chương trình DeepView (Swiss Pdb-Viewer). Mục
đích ca y ch này là làm cho Protein Modeling có th tiếp cn đưc vi tt c các nhà sinh
hc và các nhà sinh hc phân t trên toàn thế gii. Ngưi dùng ch vic đưa trình t lên vi đnh
dng Fasta, Clustal, Promod, plain string,
8
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
Phn 2. SO SÁNH TRÌNH T SINH HC
1. So sánh trình tsinh hc
So sánh các trình t sinh
hc có mục đích là tìm ra các
thông tin, mối liên h v cu trúc
t đó suy lun v chc năng và quá
trình tiến hóa. Các trình t tương
đng có th thc hin các chc
năng tương đng nhau, giúp điu
hòa biu hin gene, các chc năng
hóa sinh hc, to thành các tương đng v cu trúc, ch ra ngun gc chung, t tiên chung ca
các loài.
So sánh trình t ca DNA, RNA hay protein đ xác đnh các vùng ging nhau có th là
h qu ca mối quan h v chc năng, cu trúc và tiến hóa gia các trình t. Nếu hai trình t
trong một phép so sánh có ngun gc chung thì các đim không khp (mismatch) đưc gii thích
là đt biến đim, các khong trng (gap) xut hin trong một hay c hai trình t ti thi đim
chúng phân ly khi nhau trong quá trình tiến hóa. Trong so sánh trình t protein, mức đ ging
nhau ca các amino acid v trí đc bit trong trình t có th gi ý v s bo tn một vùng nht
đnh hay motif gia các loài. Nếu một vùng rt bo th chng t rng vùng này có mt cu trúc
và chc năng vô cùng quan trng.
2. Phương pháp so sánh trình t
Các trình t rt ngn và ging nhau có th thc hin bng các phương pháp th công. Vi
các phương pháp da vào y tính đ so sánh trình thưng rơi vào hai nhóm: so sánh toàn th và
so sánh cc b.
a. Phương thc so sánh
So sánh trình t toàn th
(global alignment)
So sánh trình t toàn th
là một dng ca ti ưu hóa toàn
din, các phép so sánh phi trin
khai trên toàn b đ dài ca các
trình t đưc so sánh. So sánh
này bt đu hai trình t và thêm
các gap vào mỗi trình t cho đến
khi chm đến tn cùng mi trình t. Thut toán s dng là Needleman Wunsh.
So sánh trình t cc b (local alignment)
So sánh trình t cc b xác đnh các vùng ging nhau nht gia hai trình t và xây dng
phép so sánh k t đó. So sánh cc b thưng đưc ưu tiên hơn, nhưng có th khó khăn trong
tính toán vì phi xác đnh các vùng tương đng. Hu ích hơn đi vi các trình t không ging
9
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
nhau đưc nghi ng là cha vùng ging nhau hay motif ging nhau trong c trình t ln. Thut
toán đưc s dng là Smith Waterman.
Các thut toán so sánh có các thông s đ kim tra đ chính xác ca kết qu. H thng
tính đim là một thông s quan trng. Mỗi cp biu tưng đưc gán cho một giá tr s, da vào
một bng so sánh các biu tưng. H thng tính đim DNA rt đơn gin vi match = 1 và
mismatch = 0 to thành các ma trn nh phân. H thng tính đim cho protein các s phc tp
hơn, các amino acid có đc tính hóa sinh và lý sinh khác nhau nh hưng ti kh năng có th
thay thế ca chúng trong quá trình tiến hóa. H thng tính đim protein phn ánh th t các đt
biến đ chuyn amino acid này thành amino acid khác, tính tương t v mặt hóa hc, tn s đt
biến quan sát đưc, xác sut xut hin mỗi loi amino acid.
b. Ma trn so sánh
Ma trn có th đưc s dng đ tính đim gm ma trn nh phân, ma trn đc hiu v trí
(PSSM) và ma trn thng kê. Hai ma trn thng kê thưng đưc s dng là PAM và BLOSUM.
Ma trn PAM (Percent Accepted Mutations) Ma trn này đưc tính bng cách quan
sát s khác bit trong các protein liên quan cht ch. Bi vì vic s dng các homologs liên quan
rt cht ch, các đt biến quan sát đưc d kiến s không thay đi đáng k các chc năng ph
biến ca các protein. Do đó, các thay thế quan sát đưc (theo đt biến đim) đưc coi là đưc
chp nhn bi chn lc t nhiên. Một đơn v PAM đưc đnh nghĩa là 1% các v trí axit amin đã
đưc thay đi. Đ to ra một ma trn thay thế PAM1, một nhóm các chui liên quan rt cht ch
vi tn s đt biến tương ng vi một đơn v PAM đưc chn. Da trên d liu đt biến đưc
thu thp t nhóm trình t này, một ma trn thay thế có th đưc bt ngun. Ma trn PAM1 này
ưc tính t l thay thế s đưc d kiến nếu 1% axit amin đã thay đi. Ma trn PAM1 đưc s
dng làm cơ s đ tính toán các ma trn khác bng cách gi đnh rng các đt biến lp đi lp li
s theo mô hình tương t như trong ma trn PAM1 và nhiu s thay thế có th xy ra ti cùng
một v trí. S dng logic này, Dayhoff có ngun gc ma trn cao như PAM250. Thông
thưng PAM 30 và PAM70 đưc s dng. Vai trò ca ma trn PAM là xut phát t so sánh toàn
th các h protein, các thành viên ca h chung có ti thiu 85% đim tương đng, giúp xây
dng cây chng loi phát sinh và các trình t t tiên ca mỗi h protei và ưc tính s thay thế đi
vi mi cp amino acid.
Hn chế ca ma trn
PAM là nó ch da vào
một b d liu gc, kim
tra các protein vi ít khác
bit (tương đng >85%)
và ch yếu nó da vào
các protein dng cu nh
vì thế ma trn này tính
khách quan chưa cao.
Ma trn BLOSUM (Blocks Substituation Matrix) ma trn này s dng nhiu liên kết
ca các protein phân k tiến hóa. Các xác sut đưc s dng trong tính toán ma trn đưc tính
toán bng cách xem xét các "khi" ca các chui đưc bo tn đưc tìm thy trong nhiu liên kết
protein. Các chui đưc bo tn này đưc cho là có tm quan trng chc năng trong các protein
liên quan và do đó s có t l thay thế thp hơn so vi các khu vc ít đưc bo tn hơn. Đ gim
10
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
s thiên v t các chui liên quan cht ch v t l thay thế, các phân đon trong một khi có
nhn dng trình t trên mt ngưng nht đnh đã đưc nhóm li, làm gim trng lưng ca mỗi
cm như vy. Đi vi ma trn BLOSUM62, ngưng này đưc đt mc 62%. Tn s cp sau đó
đưc tính gia các cm, do đó các cp ch đưc tính gia các phân đon dưi 62% ging ht
nhau. Ngưi ta s s dng ma trn BLOSUM đưc đánh s cao hơn đ căn chnh hai chui liên
quan cht ch và s thp hơn cho các chui phân k hơn.
Nó ch ra rng ma trn BLOSUM62 thc hin một công vic tuyt vi phát hin s tương đng
trong các chui xa, và đây là ma trn đưc s dng theo mặc đnh trong hu hết các ng dng
căn chnh gn đây như BLAST. Xut phát t các phép so sánh các domain ca các protein có
quan h xa. Nhng s xut hin các cp amino acid trên mỗi ct ca mỗi khi so sánh s đưc
đếm.. Nhng s có ngun gc t tt c các khi đưc dùng đ tính ma trn BLOSUM. Các trình
t trong các khi Block đưc nhóm li theo mc đ tương đng ca chúng và đưc tính toán như
là một trình t duy nht. S n (BLOSUMn) th hin phn trăm tương đng trình t đưc dùng đ
xây dng ma trn, s càng ln thì khong cách tiến hóa càng nh.
Thông thưng thì
BLOSUM s tt hơn PAM vi các
tìm kiếm tương đng cc b. Khi
so sánh các protein có quan h gn
gũi nên dùng ma trn PAM hoc
ma trn BLOSUM có ch s cao,
đi vi protein có khong cách xa
nhau nên dùng PAM cao hơn và
BLOSUM thp hơn. Đi vi vic
rà soát cơ s d liu, thưng hay
s dng BLOSUM62.
Vi vic so sánh tương
đng protein, ngưi ta quan tâm
ti s đóng góp (%) ca các v trí
tương đng, đ dài ca chui so
sánh, s phân b các v trí tương
đng dc theo trình t, các gc
v trí bo th và tính tương đng
v cu trúc, di truyn ca amino
acid các v trí không tương
đng.
hình Markov cho rng xác sut thay thế amino acid này bng amino acid khác là như
nhau, bt k amino acid nào đưc chuyn thành t amino acid nào. Nhng đt biến thay thế
amino acid da vào một ln chuyn duy nht không tuân theo hình Markov thì xác sut thay
thế một amino acid này thành amino acid khác ph thuc đáng k vào là amino acid nào đã
chiếm gi v trí đó trong quá kh. Phn nào ca codon cha đng thông tin v amino acid trưc
đó đã xut hin v trí nào đó ca trình t protein. Thông tin v codons ca amino acid trưc đó
đưc lưu gia trong thi gian nào.
11
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
3. So sánh hai trình t (pairwise)
Các phương pháp so sánh hai trình t đưc dùng đ tìm ra nhng phn trùng khp nht
(cc b) hoc so sánh toàn th hai trình t đưc truy vn. Ch có th đưc dùng gia hai trình t
cùng lúc nhưng li hiu qu trong quá trình tính toán và thưng đưc dùng cho các phương pháp
không yêu cu đ chính xác cao. Có 3 phương pháp đ so sánh hai trình t:
a. So sánh ma trn điểm
Ma trn đim (dot-matrix) to ra các phép so sánh gia các vùng trình t riêng l, là đnh
tính và đơn gin v mt nhn thc mặc dù tn thi gian phân tích trên quy ln. Nó d dàng
có th quan sát một s đc đim như vic lp li, mất, thêm, đo chiu t một biu đ ma trn
đim. Kích thưc và mật đ ca đim ph thuc vào mức đ ging nhau ca hai trình t. Các
đim biu din ca hai trình t liên h rt gn nhau s xut hin như mt đưng thng dc theo
đưng chéo chính ca ma trn.
*Nhưc đim: gây nhiu rt nhiu và không rõ ràng, thiếu tính trc quan, khó có th thu thp s
liu thng kê tóm tt ca hai trình t, lãng phí không gian so sánh
*Ưu đim: Còn có th đánh giá s lp li ca một chui, dành cho các protein đa tiu phn có
các domain tương đng
b. Lp trình động
Đây là một phương pháp lp trình ph biến, có th áp dng khi không gian tìm kiếm ln
có th xây dng thành một lot các bưc: (1) chia thành nhiu vn đ nh (2) gii quyết tng
bưc bng các gii pháp nh (3) kết hp các kết qu đ tìm gii pháp cui.
So sánh protein s dng ma trn thay thế đ gán s đim cho nhng amino acid trùng
khp hay không trùng, một gap cho một amino acid có trên trình t này nhng không có trên
trình t kia.
So sánh DNA hay RNA có th s dng một ma trn tính đim, thc tế thưng gán một
đim cng trùng khp vi mt đim tr không trùng khp, và mt đim tr gap.
Phương pháp này hu ích trong vic sp xếp các trình t nucleotide thành protein.
c. BLAST
BLAST (Basic Local Aligment Search Tool) tìm kiếm các vùng tương đng cc b gia
các trình t. Chương trình so sánh các trình t nucleotide hay protein vi cơ s d liu và tính
toán ra mức đ trùng khp có ý nghĩa v mặt thng kê. BLAST đưc dùng đ kết lun mối quan
h gia chc năng và tiến hóa gia các trình t cũng như xác đnh các thành viên trong cùng một
h.
Phương pháp này s dng thut toán Smith Waterman, là công c tìm kiếm tương đng
đưc s dng rt nhiu vì nó tìm ra s so sánh cc b tt nht, cung cp ý nghĩa v mt thng kê.
BLAST hot đng bawfg cách tìm kiếm nhng trùng khp v word gia trình t truy xut và cơ
s d liu.
4. So sánh nhiu trình t
So sánh nhiu trình t là phép so sánh nhiu hơn hai trình t thu đưc bng vic chèn gap
vào trình t vì thế làm cho các trình t có đ dài bng nhau và có th so dánh trong mt ma trn.
12
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
Nguyên lý cơ bn ca so sánh nhiu trình t là vic so sánh liên tc hai trình t theo tng
cp. Mc đích ca vic so sánh này có th xác đnh đưc các h protein, vùng tương đng chung
trong một b so sánh, xác đnh trnh t liên ng ca một s trình t, ch ra nhng cu trúc bc
cao hơn ca proteim.
Có 3 phương pháp đ so sánh nhiu trình t:
Lp trình đng (dymanic programming approach) tính toán một phép so sánh ti ưu
cho một hàm tính đim cho trưc, nhưc đim là thi gian chy lâu nên ít ngưi s dng
Phương pháp tiếp
din (progressive method) có
một s phn mm s dng là
Clustal, vi s so sánh các cp
trình t, nhóm trình t một cách
liên tc. Phương pháp tiếp din
thc hin so sánh tt c các
trình t cp đôi, tính toán mức
tương đng gia mỗi cp t
phép so sánh bng cách so sánh
các ma trn khong cách đã
đưc lp ra. T đây quyết đnh
xem th t so sánh vi nhng
trình t có quan h gn nhau
nht, cui cùng tiến hành so sánh liên tc: so sánh hai trình t gn nhau nht so sánh nhóm
trình t vi một trình t gn gũi tiếp theo so sách các nhóm trình t.
Phương pháp tinh chnh lp (Iterative refinement) tinh chnh một phép so sánh tiếp
din ban đu bng cách chia đi chia li các trình t thành hai nhóm và so sánh li chúng.
Một s chương trình so sánh nhiu trình t ph biến như:
13
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
COBALT: tính toán s sp xếp trình t nhiu protein bng cách s dng min bo tn và thông
tin tương t trình t cc b.
Clustal Omega: Căn chnh trình t và cu trúc vi Tcoffee. Căn chnh chính xác hơn vi nhưc
đim là thi gian chy lâu hơn một chút
Phn 3. PHÂN TÍCH CÂY CHNG LOI PHÁT SINH
1. Phân tích chng loi phát sinh
Nghiên cu chng loi phát sinh là nghiên cu lch s tiến hóa và mối quan h gia các
cá th hoc nhóm sinh vt (loài, qun th). Một cây chng loi phát sinh là một hình gi
thuyết v lch s các mi quan h tiến hóa ca một nhóm sinh vt. Cây chng loi phát sinh bao
gm các nhánh và các node. Nhánh kết ni các node, một node biu th v trí chia ra làm các
nhánh. Gc (root) là đim c xưa nht ca cây. Cây gene là một hình v s tiến hóa ca một
gene thông qua lp li, mất hay thay thế nucleotide, phn ánh mối quan h tiến hóa ca nhóm
gene. Cây loài phn ánh hình phân ly ca các nòi thông quan quá trình phát sinh loài, da
vào một gene nào đó gia các taxon.
Đt biến và phát sinh loài mới không đưc d đoán là xy ra đng thi, nên cây gene
không th hin cho loài. Cây phát sinh chng loi phân t có th có đ dài nhánh tương ng vi
khong cách tiến hóa gia hai node nó kết ni. Có hai kiu biu din cây, cây huyết thng
(phylogram) th hin c mối quan h tiến hóa và thông tin v thi gian phân ly khi nhau ca
nhánh; biu đ phân nhánh huyết thng (cladogram) ch nói lên mối quan h ch không phn
ánh đưc khong cách tiến hóa.
2. Phương pháp y dựng cây chng loi phát sinh
Đ xây dng cây chng loi phát sinh cn thc hin: (1) xem xét một nhóm các trình t
đ phân tích (2) so sánh các trình t này (3) áp dng các phương pháp đ xây dng cây (4) đánh
giá v mặt thng kê đi vi cây đưc dng. Đ xây dng cây chng loi phát sinh cn áp dng
các phương pháp so sánh nhiu trình t và kim tra bng bootstraping.
So sánh trình t cn chính xác và đáng tin cy, các v trí gap đu s đưc b qua. Bưc
đu tiên là cn to ra một ma trn khong cách gia hai trình t vào tt c các phép so sánh hai
trình t, s dng phương pháp da trên thng kê đ xây dng một cây ban đu. Sau đó sp xếp
li dn dn các trình t theo mức đ liên h ca chúng so vi cây phng đoán. T phép so sánh
14
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
nhiu trình t xây dng một cây mới da vào khong cách ca mỗi cp. Tiến hành lp li quá
trình cho đến khi cây sau ging cây trưc.
Có hai nguyên lý đ xây dng cây chng loi phát sinh:
Phương pháp tiết kim ti đa (Maximum Parsimony) tìm kiếm s lưng các biến đi
nh nht đ d đoán chi tiết nht v mt b trình t. Vi các cây đưc phân tích, cây ít có s
biến đi nht là cây hp lý nht. Bt đu so sánh nhiu trình t, sau đó xây dng tt c các cây có
th và da vào nhng biến đi đ tính đim cho tng cây, kết qu là chn ra một cây có ít s biến
đi nht. Ưu đim ca phương pháp này là phn ánh tt mối quan h t tiên, s dng tt c các
thông tin tiến hóa đã đưc biết đến, nhanh hơn phương pháp Maximum Linkhood. Nhưc đim
ca phương pháp là thu đưc ít thông tin v đ dài nhánh, v cơ bn tính toán vn lâu, kết qu
thiếu khách quan.
Phương pháp kh năng ti đa (Maximum Likehood) thun túy da vào thng kê, xem
xét tt c các kh năng đi vi tng thay thế nucleotide trong một b trình t so sánh. So sánh
nhiu trình t sau đó lit kê tt c các cách b trí có th ca mỗi phân vùng d liu, tính toán tn
sut ca tt c các cách b trí cho mỗi phân vùng d liu, kết hp các phân vùng d liu và xác
đnh cây vi xác sut tng th cao nht bt k vùng nào. Ưu đim ca phương pháp này chính
xác hơn các phương pháp khác, tt c các thông tin đu đưc s dng, đưa ra tt c các cây có
th, sai s ít b nh hưng. Phương pháp này thưng s dng đ kim tra s tn ti ca cây và là
phương pháp hp lý nht t quan đim lý thuyết. Nhưc đim ca phương pháp này là rt chm,
không phù hp vi khi d liu ln.
Phương pháp gián tiếp
(Neighbour joining) một ma trn
khong cách cho trưc ng vi một
cây chng loi duy nht. Mỗi cây
phát sinh cho phép to ra một ma
trn khong cách gia các cp trình
t. Bt đu vi một ma trn khong
cách và một cây dng sao, nhóm hai
taxon ging nhau vào một node và
tính khong cách nhánh. Tính toán
li ma trn khong cách và đ dài
nhánh và xây dng cây mới, sau đó
lp li quá trình này. Ưu đim ca quá trình này là nhanh, hot đng tt vi cơ s d liu ln,
phù hp vi trưng tc đ tiến hóa thay đi và tính đưc đ dài nhánh. Nhưc đim ca phương
pháp này là tt c các v trí đưc coi như nhau, ch xây dng một cây có kh năng và đôi khi b
l thông tín.
15
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
Giá tr Bootstraping là một phương pháp gii quyết các bt đnh ca bài toán thng kê
tính cho các node. Qua vic liên tc ly mẫu các cây thông qua vic xáo trn b d liu đi một
chút, và giá tr đưc báo cáo là phn trăm lp li bootstrap node đó đưc ch ra. Thế nên
100% nghĩa là node đó xut hin tt c các ln lp li bootstrap. Giá tr bootstrap cho thy mức
đ thng nht và n đnh ca cây, nếu trên 95% thì đưc xem là có ý nghĩa thng kê.
3. Cây phát sinh chng loi phát sinh tn toàn b genome
Phân tích phát sinh chng loi (Phylogenetics) so sánh và phân tích các trình t ca một
gene duy nht, hay một s ít các gene cũng như nhiu loi d liu khác. Phylogenomics là s
giao thao ca lĩnh vc tiến hóa và genomic. Phylogenomics so sánh toàn b genome hay ti thiu
là một phn ln ca nghiên cu genome.
Bn mảng ln ca phylogenetics là: d đoán chc năng gene; thành lp và phân loi mối
quan h tiến hóa; tiến hóa ca h gene; và phán đoán s di truyn ngang các gene.
Khó khăn ca phylogenomics so vi vic xây dng cây chng loi phát sinh là khi
lưng công vic ln do phi so sánh toàn b các trình t gene, có s xut hin biến d gia các
gene hay khác bit v lch s tiến hóa ca gene.
So sánh genome (nht là vi khun) ch ra rng trong tiến hóa một lưng ln gene đã đưc
truyn ngang t loài này qua loài khác. Điu này đã thay đi đáng k các đc tính sinh thái, bnh
hoc ca các loài vi khun. Truyn gene ngang to ra một genome năng đng trong đó DNA
ngoi li đưc đưa vào hay xóa mt khi nhim sc th. Đó là một yếu t gây nhiu tim tàng
trong vic xây dng cây chng loi phát sinh da vào trình t ca mt gene.
Homologs là nhng gen hoc protein tương t nhau do có chung t tiên hoc ngun gc
chung ca chúng.
Orthologs là hai gen tương t nhau hai loài khác nhau có chung mt t tiên
Paralog là hai gen trong cùng một b gen là sn phm ca một s kin nhân đôi gen ca
gen ban đu.
Gene Ancestral Histione H1 ban đu khi nhân đôi đã to ra hai paralog là Histone H1.1
và Histone H1.2. ngưi và tinh tinh, đu có paralog này. Histone H1.1 ngưi và Histone
16
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
H1.1 tinh tinh gi là mt ortholog. Tt c các gene histone nhân lên t gene Ancestral histone
H1 ban đu gi là Homologs. vi khun xut hin một gene tng hp nên chui protein E.coli
vi chc năng tương t như histone H1.1 ngưi, ta gi đây là mt analog.
17
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
Phn 4. D ĐOÁN GENE
1. Dđoán và chú gii gen
Genome ngưi có kích thưc khong 3,2 t base tuy vy ch có 1,5% trong s mang
coding cho mRNA, do đó còn rt nhin các trình t chưa xác đnh đưc vai trò. Vic d đoán
và chú gii gene giúp cho ta hiu rõ hơn v cu trúc genome và cũng tìm hiu v các quá trình
to sn phm t gene, phát sinh bnh lý,
Vi gene phân mnh, các đon exon thưng b ngăn cách bi các intron. Mỗi intron
thưng bt đu bng GT và kết thúc bng AG, trưc AG trong intron khong 20 base có một
trình t ngn là CTGAC gi là đim nhánh (branch point). Trong gene có các v trí đc bit,
đóng vai trò cho quá trình phiên và nhân đôi. Promotor là v trí khi đu phiên mã, vi 70%
các promoter có trình t TATA box. V trí kết thúc phiên là các vùng giàu GC theo sau là
vùng giàu AT, ngoài ra còn có v trí có đuôi poly A (AATAAA). Codon mở đu trên gene là
ATG (AUG trên RNA) và các codon kết thúc là UAA, UAG, UGA.
2. Phương pháp dđoán và chú gii gen
Các phn mềm đưc s dng đ d đoán gene ph biến là GENSCAN, Grail, MZEF,
FGeneH, Hexon, Genie,tt c đu s dng lp trình t đng đ tìm ra gii pháp ti ưu.
Phương pháp s dng EST
là phương pháp đưc s dng ph
biến. EST (expressed sequence
tag) là một phn trình t ngn ca
cDNA, có th đưc dùng đ xác
đnh bn phiên , và là công c
phát hin gene cũng như xác đnh
trình t gene. Đc đim ca EST
là có tính lp li cao, cht lưng
trình t thp, phn nh các gene
đưc th hin và có th đc trưng
cho tng trong tng giai đon.
Các bưc đ xác đnh gene bng
EST đó là: (1) tách mRNA t các
, tế bào (2) phiên cDNA
phn ánh b phn ca RNAs (3)
tách dòng cDNA vào mt vector
(chiu ngu nhiên) (4) gii trình
t gene.
18
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
Phn 5. MOTIF VÀ DOMAIN CA DNA VÀ PROTEIN
1. Motif và Domain
Motifs là trình t các hình mẫu ngn,
xut hin lp li và có liên quan ti chc năng
sinh hc nht đnh. Các phn mang motif ging
nhau nhiu kh năng có th mang nhng chc
năng ging nhau, góp phn trong d đoán chc
năng ca sn phm t trình t.
Các típ trình t c th thưng làm
trung gian cho một chc năng ph biến, chng
hn như liên kết protein hoc nhm mc tiêu đến
một v trí dưi tế bào c th, trong nhiu loi
protein. Do có trình t ging nhau, nên có th trong tế bào các motif s đm nhn làm tín hiu
cho cơ chế tng hp và biu hin chc năng ca các protein. Vi các motif ging nhau nhưng
các protein khác nhau, có th cùng đm nhn nhng chc năng ging nhau t đó to nên các h
protein vi cu trúc và chc năng tương t nhau. Da vào motif, ngưi ta cũng có th coi đây là
một phương pháp phân loi protein.
Domain (module) là các cu trúc có th thc hin chc năng và tn ti một cách đc lp
vi phn còn li ca protein. Chúng thưng hình thành các đơn v chc năng. Domain bám vào
các phân t khác trong tế bào, thc hin nhim v là con đưng dn truyn tín hiu hay đóng vai
trò trong quá trình xúc tác các phn ng hóa sinh.
Hin nay ngưi ta xác đnh rõ rng protein thc hin các chc năng ca chúng ch yếu
thông qua các domain cu thành chúng. Do đó các domain đưc coi là đơn v qua đó protein
phát trin. Mặc dù các domain có th có các chc năng riêng bit khi đưc kim tra riêng l, s
kết hp ca chúng trong một protein nht đnh là điu làm phát sinh vai trò tng th ca nó trong
các quá trình tế bào. Như vy, trưc tiên chúng ta phi hiu các domain riêng l và sau đó điu
tra cách chúng đóng góp vào chc năng protein.
Trong thc nghim, ngưi ta có th to ra các protein b mất đi mt hay một vài domain,
sau đó tiến hành các thí nghim tương t nhau đ đưa ra nhn đnh v chc năng ca domain vi
protein.
Ví d v motif và domain:
* C Zinc-finger là mt trong nhng motif bám DNA ph biến nht ca nhân thc, có mặt
2
H
2
trong nhân t phiên mã TFIIIA
* TAZ Zinc-finger có mt CBP acetyltranferase
* Helix-turn-helix đưc tìm thy trong tt c các protein bám DNA có chc năng điu hòa biu
hin gene.
2. Các phương pháp tìm kiếm motif và domain (module)
Có 3 phương pháp ch yếu đ tìm kiếm motif và protein:
a. Phương pháp liệt
Phương pháp này s dng cách tiếp cn rng nht, xem xét tt c các motifs có kh năng
và ít có hn chế. Một s chương trình như WeederWed và YMF s dng phương pháp này đ
19
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
tìm kiếm. Tuy vy, vi một ngun d liu tìm kiếm ln thì phương pháp này tn nhiu công sc
và thi gian.
b. Phương pháp tối ưu hóa c đnh
Phương pháp này xem xét một mô hình ti ưu hóa d đoán (EM) và một ma trn trng s
v trí. EM tiến hành ưc lưng lp li kh năng vi d liu hiu có, dùng các thông s và quan
sát hin ti đ xây dng li cu trúc sau đó dùng cu trúc và quan sát đ tái ưc lưng các thông
s.
MEME (Multiple EM for Motif Elicitation) là chương trình s dng thut toán này.
Bt đu t một v trí, EM luân phiên gia các v trí ch đnh và hình motif đang cp nht.
Thc hin lp li một ln vi mỗi n-mer trình t đích, chn motif tt nht t v trí này và sau
đó lp li cho đến khi motif đó không đi na. Không gian tìm kiếm tăng đáng k vi s tăng s
lưng trình t và đ dài trình t.
c. Phương pháp tối ưu hóa c sut
S dng cách tiếp cn ca Gibbs, thc hin một cách ngu nhiên hình ti ưu hóa d
đoán (EM). Một n-mer t mỗi trình t đưc ly ngu nhiên đ xác đnh hình ban đu. Trong
các ln lp li sau, một trình t b loi b và hình đưc tính toán li. Chn v trí mới ca
motif trên trình t ln lp cho đến khi không đi.
Các chương trình AlignAce, Gibbs Motif Sampler s dng thut toán này. Chương trình
SMART là một chương trình ph biến hơn c. Nó cho phép xác đnh và gii thích vè các domain
vn đng v mt di truyn và phân tích các cu trúc ca domain. SMART da vào so sánh nhiu
trình t ca các thành viên, cơ s d liu vi hơn 400 domains thuc 54,000 protein. Chương
trình này tìm kiếm trong cơ s d liu bng công c HMMs. SMART có hai chế đ: Normal
SMART thì cơ s d liu cha Swiss-Prot, SP-TrEMBL và Ensembl proteomes; và chế đ
Genomic SMART ch có các proteasome đã đưc gii trình t hoàn toàn mi đưc s dng.
Đ xem xét một kết qu tìm kiếm motif và domain là hiu qu hay không, ta cn quan
tâm đến các yếu t v tính đc trưng nhóm hay đc trưng v trí; đc hiu trình t và tính đng
dng ca nó.
3. Protein dđoán cu tc và chức năng
Nghiên cu cu trúc chc năng ca protein ngưi ta quan tâm đến các yếu t: bám màng
hay hòa tan, cu trúc bc 2, tính ưu nưc k nưc, biến đi sau dch , v trí trong tế bào, các
motif và domain có trong protein,.
Bng vic tìm hiu các yếu t này, ngưi ta có th d đoán ra đưc chc năng ca
protein. Vi nhng protein mới, da trên nhng thông tin đã biết các protein tương đng vi
nó, ngưi ta có th d đoán đưc chc năng. Xác đnh motifs trong protein giúp khng đnh như
nhng yếu bo th trong tiến hóa và vai trò quan trng ca chúng. Vic các protein khác nhau
mang các cu trúc và đc tính, chc năng tương t nhau có th xác đnh hình, du hiu đ
nhn biết một h protein.
Hin nay, các cơ s d liu ngun thưng đưc các công c, servers liên quan s dng là
ExPASy Proteimics Server và Uniprot. Các chương trình đưc s dng ph biến là PROSITE,
Pfam, BLOCKS, PSORT, TargetP, ProtFun,
20
ĐC TIN SINH HC
VŨ HẢI DƯƠNG
K64 SINH HC
Trong phân t protein, cu trúc bc 3 hay bc 4 các gc k nưc thưng phn lõi
gia các phân t, các gc ưa nưc trên b mặt phân t. Lc liên kết ca các nhóm k nưc,
nhng nhóm không phân cc như CH ; CH trong valine, leucine, isoleucine,
2 3
phenylalanineNưc trong tế bào đy các gc này li vi nhau, gia chúng xy ra các lc hút
tương h và to thành các đuôi k nưc trong phân t protein. Do có cu trúc bc ba mà các
protein có đưc hình thù đc trưng và phù hp vi chc năng ca chúng. các protein chc
năng như enzym và các kháng th, protein ca h thng đông uthông qua cu trúc bc ba
hình thành đưc các trung tâm hot dng là nơi thc hiên các chc năng ca protein.

Preview text:

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN – ĐHQGHN KHOA SINH HỌC o0o VŨ HẢI DƯƠNG K64 SINH HỌC
ĐỀ CƯƠNG ÔN TẬP HỌC PHẦN
TIN SINH HỌC – BIOINFORMATICS
Mã học phần: BIO2220 – Học kỳ II năm 2021 – 2022
Hà Nội – Tháng 06/2022 2 MỤC LỤC
Phần 1. CƠ SỞ DỮ LIỆU SINH HỌC ........................................................................................ 4
1. Giới thiệu chung về cơ sở dữ liệu sinh học .......................................................................... 4
2. Các khái niệm trong tin sinh học ......................................................................................... 4
3. Cơ sở dữ liệu NCBI - National Center for Biotechnology Information .............................. 5
4. Một số cơ sở dữ liệu và công cụ genome và protein .......................................................... 6
Phần 2. SO SÁNH TRÌNH TỰ SINH HỌC ............................................................................... 8
1. So sánh trình tự sinh học ...................................................................................................... 8
2. Phương pháp so sánh trình tự............................................................................................... 8
a. Phương thức so sánh ......................................................................................................... 8
b. Ma trận so sánh ................................................................................................................. 9
3. So sánh hai trình tự (pairwise) ........................................................................................... 11
a. So sánh ma trận điểm ...................................................................................................... 11
b. Lập trình động .................................................................................................................. 11
c. BLAST ............................................................................................................................ 11
4. So sánh nhiều trình tự ........................................................................................................ 11
Phần 3. PHÂN TÍCH CÂY CHỦNG LOẠI PHÁT SINH ...................................................... 13
1. Phân tích chủng loại phát sinh ........................................................................................... 13
2. Phương pháp xây dựng cây chủng loại phát sinh .............................................................. 13
3. Cây phát sinh chủng loại phát sinh trên toàn bộ genome .................................................. 15
Phần 4. DỰ ĐOÁN GENE ......................................................................................................... 16
1. Dự đoán và chú giải gen .................................................................................................... 17
2. Phương pháp dự đoán và chú giải gen ............................................................................... 17
Phần 5. MOTIF VÀ DOMAIN CỦA DNA VÀ PROTEIN .................................................... 18
1. Motif và Domain ................................................................................................................ 18
2. Các phương pháp tìm kiếm motif và domain (module) ..................................................... 18
a. Phương pháp liệt kê ........................................................................................................ 18
b. Phương pháp tối ưu hóa xác định ................................................................................... 19
c. Phương pháp tối ưu hóa xác suất .................................................................................... 19
3. Protein – dự đoán cấu trúc và chức năng ........................................................................... 19
Phần 6. THIẾT KẾ MỒI CHO PHẢN ỨNG PCR .................................................................. 21
1. Tiêu chuẩn trong việc thiết kế mồi .................................................................................... 21
a. Mục đích của mồi ........................................................................................................... 21
b. Độ dài của mồi và sản phẩm khuếch đại ........................................................................ 21
c. Nhiệt độ nóng chảy của mồi ........................................................................................... 22
d. Hàm lượng GC trong mồi ............................................................................................... 22 2 3
e. Nhiệt độ gắn mồi ............................................................................................................ 22
Phần 7. NETWORK SINH HỌC .............................................................................................. 23
1. Network là gì? .................................................................................................................... 23
2. Các yếu tố cần quan tâm trong một Network .................................................................... 23
a. Distance .......................................................................................................................... 23
b. Average Path length (L) .................................................................................................. 23
c. Diameter ......................................................................................................................... 24
d. Degree (k) ....................................................................................................................... 24
e. Hệ số nhóm (Clustering coefficient) ............................................................................... 25
f. Hubs ................................................................................................................................ 25
3. Tương tác protein – protein ............................................................................................... 25
ĐỀ THI KẾT THÚC HỌC PHẦN – KỲ II NĂM 2011 – 2012 ........................................... 28
ĐỀ THI KẾT THÚC HỌC PHẦN – KỲ II NĂM 2012 – 2013 ........................................... 28
ĐỀ THI KẾT THÚC HỌC PHẦN – KỲ II NĂM 2014 – 2015 ........................................... 28
ĐỀ THI KẾT THÚC HỌC PHẦN – KỲ II NĂM 2015 – 2016 ........................................... 29
ĐỀ THI KẾT THÚC HỌC PHẦN – KỲ II NĂM 2016 – 2017 ........................................... 29
ĐỀ THI KẾT THÚC HỌC PHẦN – KỲ II NĂM 2019 – 2020 ........................................... 29
ĐỀ THI KẾT THÚC HỌC PHẦN – KỲ II NĂM 2020 – 2021 (K64CLC) ........................ 30
ĐỀ THI KẾT THÚC HỌC PHẦN – KỲ II NĂM 2020 – 2021 (K63CNSH) ...................... 30
ĐỀ THI KẾT THÚC HỌC PHẦN – KỲ I NĂM 2020 – 2021 (K63CLC và K62CNSH) .. 31
ĐỀ THI KẾT THÚC HỌC PHẦN – KỲ I NĂM 2021 – 2022 ............................................ 32
ĐỀ THI KẾT THÚC HỌC PHẦN – KỲ II NĂM 2021 – 2022 ........................................... 33 3 4
Phần 1. CƠ SỞ DỮ LIỆU SINH HỌC
1. Giới thiệu chung về cơ sở dữ liệu sinh học
Cơ sở dữ liệu sinh học là thư viện khoa học sinh học, được thu thập từ các thí nghiệm
khoa học, tài liệu đã xuất bản, công nghệ thí nghiệm thông lượng cao và phân tích tính
toán. Chúng chứa thông tin từ các lĩnh vực nghiên cứu bao gồm gen, proteomics, chuyển
hóa, biểu hiện gen microarray và phát sinh loài.
Cơ sở dữ liệu sinh học được sử dụng dưới dạng những phần mềm, mục đích hướng tới
của các phần mềm này là dễ sử dụng, giao diện đẹp và chất lượng kết quả tốt. Trong thực tế có
hai dạng các chương trình công cụ ứng dụng tin sinh học: phần mềm sử dụng trực tuyến trên
internet và phần mềm yêu cầu tải về máy. Cả hai dạng này có thể là miễn phí nhưng cũng có thể yêu cầu phải trả phí.
Trong một phần mềm ứng dụng có thể bao gồm rất nhiều các phần mềm nhỏ hơn, ví dụ
như cơ sở dữ liệu và máy chủ ExPASy (https://www.expasy.org/)... Hay có những phần mềm
được sử dụng là dữ liệu gốc sử dụng cho các chương trình khác, ví dụ như cơ sở dữ liệu về
protein Uniprot (http://www.uniprot.org/), cơ sở dữ liệu NCBI (https://www.ncbi.nlm.nih.gov/) …
2. Các khái niệm trong tin sinh học
Trình tự là một tập hợp các ký tự tuyến tính (các phần tử của trình tự) đại diện cho các
nucleotide (DNA, RNA) hay amino acid (protein). Việc biểu diễn các trình tự này trong quá trình
xử lý và phân tích tin sinh học cần sự đơn giản, dễ hiểu và ngắn gọn, hạn chế tối ưu dung lượng
bộ nhớ, do đó với DNA/RNA bao gồm nucleotide là A, T/U, G, C; protein bao gồm 20 loại ký
hiệu khác nhau là một chữ cái duy nhất cho từng amino acid.
Tuy vậy trong thực tế, việc nghiên cứu có thể có một vài vị trí trong trình tự mà ta không
chắc chắn nó là loại nào. Do đó ta cũng có những ký hiệu riêng biệt cho những sự không chắc
chắn đó. Những quy ước sử dụng trong Tin sinh học, được Hiệp hội Hóa sinh học Quốc tế đề
xuất và thông qua để sử dụng gọi là mã IUB (DNA) và mã SLC (protein):
• Với nucleic acid sử dụng: A, C, G, T, U: • Với protein sử dụng:
Định dạng các file trình tự trong quá trình có thể chia làm các loại: 4 5
- File text hay nhị phân: File text dùng mã IUB và có thể đọc được bằng word processer
(simple text, Microsoft Word) hay text editor (emacs). File nhị phân thường chỉ được đọc
bằng chương trình tạo ra nó (MacVector).
- Tối thiểu (FASTA) hay chú thích (GCG): định dạng tối thiểu dành cho những trình tự
nucleotide hay peptide biểu diễn bằng một chữ, bắt đầu bằng một dòng miêu tả (>name)
sau đó là dòng trình tự. Định dạng chủ thích chứa chính xác một trình tự bắt đầu với một
dòng chú thích và bắt đầu trình tự được đánh dấu bởi một dòng kết thúc bằng “..” dòng
trước trình tự chứa các mã nhận diện, độ dài trình tự.
3. Cơ sở dữ liệu NCBI - National Center for Biotechnology Information
Một trong số các cơ sở dữ liệu miễn phí có uy tín là NCBI. Cơ sở dữ liệu NCBI do Trung
tâm Thông tin Công nghệ Sinh học Quốc gia Hoa Kỳ và Đại học Y Quốc gia Hoa Kỳ hợp tác
cung cấp từ 1988; cho phép người dùng sử dụng miễn phí để tra cứu, tham khảo các tài liệu là
sách, bài báo khoa học chủ yếu thuộc lĩnh vực công nghệ sinh học, y sinh. Người dùng có thể tìm
kiếm tất cả các bộ sưu tập dữ liệu hoặc tìm kiếm trong từng bộ sưu tập dữ liệu thành phần như
PubMed, PubMed Central, PubChem, Genome, …
Entrez là công cụ tìm kiếm nhanh, thống kê kết quả một cách đầy đủ và khoa học được
NCBI sử dụng. Sử dụng entrez có thể tìm kiếm:
 Pubmed: Tài liệu, bài báo, tạp chí, sách,… liên quan đến lĩnh vực sinh y
 Genbank: Cơ sở dữ liệu trình tự nucleotide
 Protein sequence database: Cơ sở dữ liệu trình tự protein
 SNP: đa hình đơn nucleotide
 PopSet: bộ dữ liệu nghiên cứu về dân số
 Taxonomy: phân loại sinh vật dựa trên Genbank ….
Trang chủ của cơ sở dữ liệu NCBI. Để sử dụng Entrez gõ từ khóa vào thanh tìm kiếm, chọn
loại dữ liệu ở ô bên trái và nhấn Search để tìm kiếm
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC
Sơ đồ khối về quá trình hoạt động của công cụ t 6 ì m kiếm Entrez:
4. Một số cơ sở dữ liệu và công cụ genome và protein
ExPASy là một cổng thông tin tin sinh học của viện tin sinh Thụy Sĩ (SIB) từ 2011. Đặc
biệt, ExPASy được thiết kế, phát triển và duy trì bởi SIB Web Team trong sự cộng tác với một số
nhóm SIB và khác và người dùng ExPASy. ExPASy là một cổng thông tin rộng và tích hợp truy
cập nhiều tài nguyên khoa học, cơ sở dữ liệu và công cụ phần mềm ở các lĩnh vực của khoa học
(Proteomics, genomics, transcriptomics, chủng loại phát sinh, sinh học hệ thống, tiến hóa, di
truyền dân số). ExPASy là viết tắt của Expert Protein Analysis System UniProt (Universal
Protein resourse) là một tài nguyên toàn diện cho dữ liệu protein và dữ liệu chú thích.
UniProt gồm UniProt Knowledgebase (UniProtKB), UniProt Reference Clusters
(UniRef), và UniProt Archive (UniParc). UniProt là sự hợp tác giữa Viện Thông tin Sinh học
Châu Âu (EMBL-EBI), Viện Thông tin Sinh học Thụy Sĩ (SIB) và nguồn thông tin về Protein
(PIR). Năm 2002, ba viện nghiên cứu đã quyết định tập hợp các nguồn lực và chuyên môn của
họ và thành lập liên minh UniProt. NCBI ( National Center for Biotechnology Information) của
Mỹ là một bộ phận của NIH. cơ sở dữ liệu của NCBI rất rộng bao gồm nhiều mảng: văn hóa
phẩm khoa học (sách, tạp chí và công bố khoa học), sức khỏe, DL về genome, Genes, proteins,
hóa chất… ngoài ra là các công cụ phân tích
EBI (European Bioinformatics Institute) cung cấp dữ liệu sinh học công bố trên toàn thế
giới cho cộng đồng khoa học miễn phí thông qua nhiều dịch vụ và công cụ, thực hiện nghiên cứu
cơ bản và đào tạo chuyên nghiệp về tin sinh học. EBI là thành viên của Phòng thí nghiệm sinh
học phân tử châu Âu (EMBL), một tổ chức nghiên cứu quốc tế, sáng tạo và liên ngành được tài
trợ bởi 22 quốc gia thành viên và 2 quốc gia thành viên liên kết.
DDBJ (DNA Data Bank of Japan) thu thập dữ liệu trình tự nucleotide như một thành
viên của INSDC (International Nucleotide Sequence Database Collaboration) và cung cấp dữ
liệu trình tự nucleotide sẵn có và hệ thống siêu máy tính, để hỗ trợ các hoạt động nghiên cứu
trong khoa học sự sống. Vì Trung tâm DDBJ trao đổi dữ liệu được công bố với ENA/ EBI và
NCBI hàng ngày, ba trung tâm dữ liệu chia sẻ hầu như cùng một dữ liệu tại bất kỳ thời điểm nào.
Ngoài ra còn có các chương trình GenomeNet, EMBNet, PDB,…
BLAST trong NCBI, BLAST tìm các vùng giống nhau giữa các trình tự sinh học.
Chương trình so sánh trình tự nucleotide hoặc protein với cơ sở dữ liệu trình tự và tính toán ý nghĩa thống kê.
CLustal là một loạt các chương trình máy tính được sử dụng rộng rãi được sử dụng
trong tin sinh học để căn chỉnh nhiều trình tự. Đã có nhiều phiên bản của Clustal về sự phát triển
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 7
của thuật toán như Clustal, ClustalV, ClustalW, ClustalX, Clustal Omega, Clustal2. Phiên bản
gần đây hơn của phần mềm có sẵn cho Windows, Mac OS và Unix / Linux. Nó cũng thường
được sử dụng thông qua một giao diện web tại trang chủ Clustal hoặc được sử dụng qua trang
chủ của Viện Tin sinh học Châu Âu.
Treeview là một chương trình để hiển thị và in tệp phân tích phát sinh loài. Chương trình
đọc hầu hết các tệp cây NEXUS (chẳng hạn như các tệp được sản xuất bởi PAUP và
COMPONENT) và các tệp cây kiểu PHYLIP (bao gồm cả các tệp được sản xuất bởi fastDNAml và CLUSTALW).
SWISS-MODEL là một máy chủ mô hình hóa cấu trúc protein hoàn toàn tự động, có thể
truy cập qua máy chủ web ExPASy, hoặc từ chương trình DeepView (Swiss Pdb-Viewer). Mục
đích của máy chủ này là làm cho Protein Modeling có thể tiếp cận được với tất cả các nhà sinh
học và các nhà sinh học phân tử trên toàn thế giới. Người dùng chỉ việc đưa trình tự lên với định
dạng Fasta, Clustal, Promod, plain string, …
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 8
Phần 2. SO SÁNH TRÌNH TỰ SINH HỌC
1. So sánh trình tự sinh học
So sánh các trình tự sinh
học có mục đích là tìm ra các
thông tin, mối liên hệ về cấu trúc
từ đó suy luận về chức năng và quá
trình tiến hóa. Các trình tự tương
đồng có thể thực hiện các chức
năng tương đồng nhau, giúp điều
hòa biểu hiện gene, các chức năng
hóa sinh học, tạo thành các tương đồng về cấu trúc, chỉ ra nguồn gốc chung, tổ tiên chung của các loài.
So sánh trình tự của DNA, RNA hay protein để xác định các vùng giống nhau có thể là
hệ quả của mối quan hệ về chức năng, cấu trúc và tiến hóa giữa các trình tự. Nếu hai trình tự
trong một phép so sánh có nguồn gốc chung thì các điểm không khớp (mismatch) được giải thích
là đột biến điểm, các khoảng trống (gap) xuất hiện trong một hay cả hai trình tự tại thời điểm
chúng phân ly khỏi nhau trong quá trình tiến hóa. Trong so sánh trình tự protein, mức độ giống
nhau của các amino acid ở vị trí đặc biệt trong trình tự có thể gợi ý về sự bảo tồn một vùng nhất
định hay motif giữa các loài. Nếu một vùng rất bảo thủ chứng tỏ rằng vùng này có một cấu trúc
và chức năng vô cùng quan trọng.
2. Phương pháp so sánh trình tự
Các trình tự rất ngắn và giống nhau có thể thực hiện bằng các phương pháp thủ công. Với
các phương pháp dựa vào máy tính để so sánh trình thường rơi vào hai nhóm: so sánh toàn thể và so sánh cục bộ.
a. Phương thức so sánh
So sánh trình tự toàn thể (global alignment)
So sánh trình tự toàn thể
là một dạng của tối ưu hóa toàn
diện, các phép so sánh phải triển
khai trên toàn bộ độ dài của các
trình tự được so sánh. So sánh
này bắt đầu ở hai trình tự và thêm
các gap vào mỗi trình tự cho đến
khi chạm đến tận cùng mỗi trình tự. Thuật toán sử dụng là Needleman – Wunsh.
So sánh trình tự cục bộ (local alignment)

So sánh trình tự cục bộ xác định các vùng giống nhau nhất giữa hai trình tự và xây dựng
phép so sánh kể từ đó. So sánh cục bộ thường được ưu tiên hơn, nhưng có thể khó khăn trong
tính toán vì phải xác định các vùng tương đồng. Hữu ích hơn đối với các trình tự không giống
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 9
nhau được nghi ngờ là chứa vùng giống nhau hay motif giống nhau trong cả trình tự lớn. Thuật
toán được sử dụng là Smith – Waterman.
Các thuật toán so sánh có các thông số để kiểm tra độ chính xác của kết quả. Hệ thống
tính điểm là một thông số quan trọng. Mỗi cặp biểu tượng được gán cho một giá trị số, dựa vào
một bảng so sánh các biểu tượng. Hệ thống tính điểm DNA rất đơn giản với match = 1 và
mismatch = 0 tạo thành các ma trận nhị phân. Hệ thống tính điểm cho protein các sự phức tạp
hơn, các amino acid có đặc tính hóa sinh và lý sinh khác nhau ảnh hưởng tới khả năng có thể
thay thế của chúng trong quá trình tiến hóa. Hệ thống tính điểm protein phản ánh thứ tự các đột
biến để chuyển amino acid này thành amino acid khác, tính tương tự về mặt hóa học, tần số đột
biến quan sát được, xác suất xuất hiện mỗi loại amino acid. b. Ma trận so sánh
Ma trận có thể được sử dụng để tính điểm gồm ma trận nhị phân, ma trận đặc hiệu vị trí
(PSSM) và ma trận thống kê. Hai ma trận thống kê thường được sử dụng là PAM và BLOSUM.
Ma trận PAM (Percent Accepted Mutations) Ma trận này được tính bằng cách quan
sát sự khác biệt trong các protein liên quan chặt chẽ. Bởi vì việc sử dụng các homologs liên quan
rất chặt chẽ, các đột biến quan sát được dự kiến sẽ không thay đổi đáng kể các chức năng phổ
biến của các protein. Do đó, các thay thế quan sát được (theo đột biến điểm) được coi là được
chấp nhận bởi chọn lọc tự nhiên. Một đơn vị PAM được định nghĩa là 1% các vị trí axit amin đã
được thay đổi. Để tạo ra một ma trận thay thế PAM1, một nhóm các chuỗi liên quan rất chặt chẽ
với tần số đột biến tương ứng với một đơn vị PAM được chọn. Dựa trên dữ liệu đột biến được
thu thập từ nhóm trình tự này, một ma trận thay thế có thể được bắt nguồn. Ma trận PAM1 này
ước tính tỷ lệ thay thế sẽ được dự kiến nếu 1% axit amin đã thay đổi. Ma trận PAM1 được sử
dụng làm cơ sở để tính toán các ma trận khác bằng cách giả định rằng các đột biến lặp đi lặp lại
sẽ theo mô hình tương tự như trong ma trận PAM1 và nhiều sự thay thế có thể xảy ra tại cùng
một vị trí. Sử dụng logic này, Dayhoff có nguồn gốc ma trận cao như PAM250. Thông
thường PAM 30 và PAM70 được sử dụng. Vai trò của ma trận PAM là xuất phát từ so sánh toàn
thể các họ protein, các thành viên của họ chung có tối thiểu 85% điểm tương đồng, giúp xây
dựng cây chủng loại phát sinh và các trình tự tổ tiên của mỗi họ protei và ước tính số thay thế đối với mỗi cặp amino acid. Hạn chế của ma trận PAM là nó chỉ dựa vào
một bộ dữ liệu gốc, kiểm
tra các protein với ít khác
biệt (tương đồng >85%)
và chủ yếu nó dựa vào
các protein dạng cầu nhỏ
vì thế ma trận này tính khách quan chưa cao.
Ma trận BLOSUM (Blocks Substituation Matrix) ma trận này sử dụng nhiều liên kết
của các protein phân kỳ tiến hóa. Các xác suất được sử dụng trong tính toán ma trận được tính
toán bằng cách xem xét các "khối" của các chuỗi được bảo tồn được tìm thấy trong nhiều liên kết
protein. Các chuỗi được bảo tồn này được cho là có tầm quan trọng chức năng trong các protein
liên quan và do đó sẽ có tỷ lệ thay thế thấp hơn so với các khu vực ít được bảo tồn hơn. Để giảm
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 10
sự thiên vị từ các chuỗi liên quan chặt chẽ về tỷ lệ thay thế, các phân đoạn trong một khối có
nhận dạng trình tự trên một ngưỡng nhất định đã được nhóm lại, làm giảm trọng lượng của mỗi
cụm như vậy. Đối với ma trận BLOSUM62, ngưỡng này được đặt ở mức 62%. Tần số cặp sau đó
được tính giữa các cụm, do đó các cặp chỉ được tính giữa các phân đoạn dưới 62% giống hệt
nhau. Người ta sẽ sử dụng ma trận BLOSUM được đánh số cao hơn để căn chỉnh hai chuỗi liên
quan chặt chẽ và số thấp hơn cho các chuỗi phân kỳ hơn.
Nó chỉ ra rằng ma trận BLOSUM62 thực hiện một công việc tuyệt vời phát hiện sự tương đồng
trong các chuỗi xa, và đây là ma trận được sử dụng theo mặc định trong hầu hết các ứng dụng
căn chỉnh gần đây như BLAST. Xuất phát từ các phép so sánh các domain của các protein có
quan hệ xa. Những sự xuất hiện các cặp amino acid trên mỗi cột của mỗi khối so sánh sẽ được
đếm.. Những số có nguồn gốc từ tất cả các khối được dùng để tính ma trận BLOSUM. Các trình
tự trong các khối Block được nhóm lại theo mức độ tương đồng của chúng và được tính toán như
là một trình tự duy nhất. Số n (BLOSUMn) thể hiện phần trăm tương đồng trình tự được dùng để
xây dựng ma trận, số càng lớn thì khoảng cách tiến hóa càng nhỏ. Thông thường thì
BLOSUM sẽ tốt hơn PAM với các
tìm kiếm tương đồng cục bộ. Khi
so sánh các protein có quan hệ gần
gũi nên dùng ma trận PAM hoặc
ma trận BLOSUM có chỉ số cao,
đối với protein có khoảng cách xa
nhau nên dùng PAM cao hơn và
BLOSUM thấp hơn. Đối với việc
rà soát cơ sở dữ liệu, thường hay sử dụng BLOSUM62. Với việc so sánh tương
đồng protein, người ta quan tâm
tới sự đóng góp (%) của các vị trí
tương đồng, độ dài của chuỗi so
sánh, sự phân bố các vị trí tương
đồng dọc theo trình tự, các gốc ở
vị trí bảo thủ và tính tương đồng
về cấu trúc, di truyền của amino
acid ở các vị trí không tương đồng.
Mô hình Markov cho rằng xác suất thay thế amino acid này bằng amino acid khác là như
nhau, bất kể amino acid nào được chuyển thành từ amino acid nào. Những đột biến thay thế
amino acid dựa vào một lần chuyển duy nhất không tuân theo mô hình Markov thì xác suất thay
thế một amino acid này thành amino acid khác phụ thuộc đáng kể vào là amino acid nào đã
chiếm giữ vị trí đó trong quá khứ. Phần nào của codon chứa đựng thông tin về amino acid trước
đó đã xuất hiện ở vị trí nào đó của trình tự protein. Thông tin về codons của amino acid trước đó
được lưu giữa trong thời gian nào.
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 11
3. So sánh hai trình tự (pairwise)
Các phương pháp so sánh hai trình tự được dùng để tìm ra những phần trùng khớp nhất
(cục bộ) hoặc so sánh toàn thể hai trình tự được truy vấn. Chỉ có thể được dùng giữa hai trình tự
cùng lúc nhưng lại hiệu quả trong quá trình tính toán và thường được dùng cho các phương pháp
không yêu cầu độ chính xác cao. Có 3 phương pháp để so sánh hai trình tự:
a. So sánh ma trận điểm
Ma trận điểm (dot-matrix) tạo ra các phép so sánh giữa các vùng trình tự riêng lẻ, là định
tính và đơn giản về mặt nhận thức mặc dù tốn thời gian phân tích trên quy mô lớn. Nó dễ dàng
có thể quan sát một số đặc điểm như việc lặp lại, mất, thêm, đảo chiều từ một biểu đồ ma trận
điểm. Kích thước và mật độ của điểm phụ thuộc vào mức độ giống nhau của hai trình tự. Các
điểm biểu diễn của hai trình tự liên hệ rất gần nhau sẽ xuất hiện như một đường thẳng dọc theo
đường chéo chính của ma trận.
*Nhược điểm: gây nhiễu rất nhiều và không rõ ràng, thiếu tính trực quan, khó có thể thu thập số
liệu thống kê tóm tắt của hai trình tự, lãng phí không gian so sánh
*Ưu điểm: Còn có thể đánh giá sự lặp lại của một chuỗi, dành cho các protein đa tiểu phần có các domain tương đồng
b. Lập trình động
Đây là một phương pháp lập trình phổ biến, có thể áp dụng khi không gian tìm kiếm lớn
có thể xây dựng thành một loạt các bước: (1) chia thành nhiều vấn đề nhỏ (2) giải quyết từng
bước bằng các giải pháp nhỏ (3) kết hợp các kết quả để tìm giải pháp cuối.
So sánh protein sử dụng ma trận thay thế để gán số điểm cho những amino acid trùng
khớp hay không trùng, một gap cho một amino acid có trên trình tự này những không có trên trình tự kia.
So sánh DNA hay RNA có thể sử dụng một ma trận tính điểm, thực tế thường gán một
điểm cộng trùng khớp với một điểm trừ không trùng khớp, và một điểm trừ gap.
Phương pháp này hữu ích trong việc sắp xếp các trình tự nucleotide thành protein. c. BLAST
BLAST (Basic Local Aligment Search Tool) tìm kiếm các vùng tương đồng cục bộ giữa
các trình tự. Chương trình so sánh các trình tự nucleotide hay protein với cơ sở dữ liệu và tính
toán ra mức độ trùng khớp có ý nghĩa về mặt thống kê. BLAST được dùng để kết luận mối quan
hệ giữa chức năng và tiến hóa giữa các trình tự cũng như xác định các thành viên trong cùng một họ.
Phương pháp này sử dụng thuật toán Smith – Waterman, là công cụ tìm kiếm tương đồng
được sử dụng rất nhiều vì nó tìm ra sự so sánh cục bộ tốt nhất, cung cấp ý nghĩa về mặt thống kê.
BLAST hoạt động bawfg cách tìm kiếm những trùng khớp về word giữa trình tự truy xuất và cơ sở dữ liệu.
4. So sánh nhiều trình tự
So sánh nhiều trình tự là phép so sánh nhiều hơn hai trình tự thu được bằng việc chèn gap
vào trình tự vì thế làm cho các trình tự có độ dài bằng nhau và có thể so dánh trong một ma trận.
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 12
Nguyên lý cơ bản của so sánh nhiều trình tự là việc so sánh liên tục hai trình tự theo từng
cặp. Mục đích của việc so sánh này có thể xác định được các họ protein, vùng tương đồng chung
trong một bộ so sánh, xác định trịnh tự liên ứng của một số trình tự, chỉ ra những cấu trúc bậc cao hơn của proteim.
Có 3 phương pháp để so sánh nhiều trình tự:
Lập trình động (dymanic programming approach) tính toán một phép so sánh tối ưu
cho một hàm tính điểm cho trước, nhược điểm là thời gian chạy lâu nên ít người sử dụng Phương pháp tiếp
diễn (progressive method)
một số phần mềm sử dụng là
Clustal, với sự so sánh các cặp
trình tự, nhóm trình tự một cách
liên tục. Phương pháp tiếp diễn
thực hiện so sánh tất cả các
trình tự cặp đôi, tính toán mức
tương đồng giữa mỗi cặp từ
phép so sánh bằng cách so sánh
các ma trận khoảng cách đã
được lập ra. Từ đây quyết định
xem thứ tự so sánh với những
trình tự có quan hệ gần nhau
nhất, cuối cùng tiến hành so sánh liên tục: so sánh hai trình tự gần nhau nhất → so sánh nhóm
trình tự với một trình tự gần gũi tiếp theo → so sách các nhóm trình tự.
Phương pháp tinh chỉnh lặp (Iterative refinement) tinh chỉnh một phép so sánh tiếp
diễn ban đầu bằng cách chia đi chia lại các trình tự thành hai nhóm và so sánh lại chúng.
Một số chương trình so sánh nhiều trình tự phổ biến như:
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 13
COBALT: tính toán sự sắp xếp trình tự nhiều protein bằng cách sử dụng miền bảo tồn và thông
tin tương tự trình tự cục bộ.
Clustal Omega: Căn chỉnh trình tự và cấu trúc với Tcoffee. Căn chỉnh chính xác hơn với nhược
điểm là thời gian chạy lâu hơn một chút
Phần 3. PHÂN TÍCH CÂY CHỦNG LOẠI PHÁT SINH
1. Phân tích chủng loại phát sinh
Nghiên cứu chủng loại phát sinh là nghiên cứu lịch sử tiến hóa và mối quan hệ giữa các
cá thể hoặc nhóm sinh vật (loài, quần thể). Một cây chủng loại phát sinh là một mô hình giả
thuyết về lịch sử các mối quan hệ tiến hóa của một nhóm sinh vật. Cây chủng loại phát sinh bao
gồm các nhánh và các node. Nhánh kết nối các node, một node biểu thị vị trí chia ra làm các
nhánh. Gốc (root) là điểm cổ xưa nhất của cây. Cây gene là một mô hình về sự tiến hóa của một
gene thông qua lặp lại, mất hay thay thế nucleotide, phản ánh mối quan hệ tiến hóa của nhóm
gene. Cây loài phản ánh mô hình phân ly của các nòi thông quan quá trình phát sinh loài, dựa
vào một gene nào đó giữa các taxon.
Đột biến và phát sinh loài mới không được dự đoán là xảy ra đồng thời, nên cây gene
không thể hiện cho loài. Cây phát sinh chủng loại phân tử có thể có độ dài nhánh tương ứng với
khoảng cách tiến hóa giữa hai node mà nó kết nối. Có hai kiểu biểu diễn cây, cây huyết thống
(phylogram) thể hiện cả mối quan hệ tiến hóa và thông tin về thời gian phân ly khỏi nhau của
nhánh; biểu đồ phân nhánh huyết thống (cladogram) chỉ nói lên mối quan hệ chứ không phản
ánh được khoảng cách tiến hóa.
2. Phương pháp xây dựng cây chủng loại phát sinh
Để xây dựng cây chủng loại phát sinh cần thực hiện: (1) xem xét một nhóm các trình tự
để phân tích (2) so sánh các trình tự này (3) áp dụng các phương pháp để xây dựng cây (4) đánh
giá về mặt thống kê đối với cây được dựng. Để xây dựng cây chủng loại phát sinh cần áp dụng
các phương pháp so sánh nhiều trình tự và kiểm tra bằng bootstraping.
So sánh trình tự cần chính xác và đáng tin cậy, các vị trí gap đều sẽ được bỏ qua. Bước
đầu tiên là cần tạo ra một ma trận khoảng cách giữa hai trình tự vào tất cả các phép so sánh hai
trình tự, sử dụng phương pháp dựa trên thống kê để xây dựng một cây ban đầu. Sau đó sắp xếp
lại dần dần các trình tự theo mức độ liên hệ của chúng so với cây phỏng đoán. Từ phép so sánh
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 14
nhiều trình tự xây dựng một cây mới dựa vào khoảng cách của mỗi cặp. Tiến hành lặp lại quá
trình cho đến khi cây sau giống cây trước.
Có hai nguyên lý để xây dựng cây chủng loại phát sinh:
Phương pháp tiết kiệm tối đa (Maximum Parsimony) tìm kiếm số lượng các biến đổi
nhỏ nhất để dự đoán chi tiết nhất về một bộ trình tự. Với các cây được phân tích, cây ít có sự
biến đổi nhất là cây hợp lý nhất. Bắt đầu so sánh nhiều trình tự, sau đó xây dựng tất cả các cây có
thể và dựa vào những biến đổi để tính điểm cho từng cây, kết quả là chọn ra một cây có ít sự biến
đổi nhất. Ưu điểm của phương pháp này là phản ánh tốt mối quan hệ tổ tiên, sử dụng tất cả các
thông tin tiến hóa đã được biết đến, nhanh hơn phương pháp Maximum Linkhood. Nhược điểm
của phương pháp là thu được ít thông tin về độ dài nhánh, về cơ bản tính toán vẫn lâu, kết quả thiếu khách quan.
Phương pháp khả năng tối đa (Maximum Likehood) thuần túy dựa vào thống kê, xem
xét tất cả các khả năng đối với từng thay thế nucleotide trong một bộ trình tự so sánh. So sánh
nhiều trình tự sau đó liệt kê tất cả các cách bố trí có thể của mỗi phân vùng dữ liệu, tính toán tần
suất của tất cả các cách bố trí cho mỗi phân vùng dữ liệu, kết hợp các phân vùng dữ liệu và xác
định cây với xác suất tổng thể cao nhất ở bất kỳ vùng nào. Ưu điểm của phương pháp này chính
xác hơn các phương pháp khác, tất cả các thông tin đều được sử dụng, đưa ra tất cả các cây có
thể, sai số ít bị ảnh hưởng. Phương pháp này thường sử dụng để kiểm tra sự tồn tại của cây và là
phương pháp hợp lý nhất từ quan điểm lý thuyết. Nhược điểm của phương pháp này là rất chậm,
không phù hợp với khối dữ liệu lớn.
Phương pháp gián tiếp
(Neighbour joining) một ma trận
khoảng cách cho trước ứng với một
cây chủng loại duy nhất. Mỗi cây
phát sinh cho phép tạo ra một ma
trận khoảng cách giữa các cặp trình
tự. Bắt đầu với một ma trận khoảng
cách và một cây dạng sao, nhóm hai
taxon giống nhau vào một node và
tính khoảng cách nhánh. Tính toán
lại ma trận khoảng cách và độ dài
nhánh và xây dựng cây mới, sau đó
lặp lại quá trình này. Ưu điểm của quá trình này là nhanh, hoạt động tốt với cơ sở dữ liệu lớn,
phù hợp với trường tốc độ tiến hóa thay đổi và tính được độ dài nhánh. Nhược điểm của phương
pháp này là tất cả các vị trí được coi như nhau, chỉ xây dựng một cây có khả năng và đôi khi bỏ lỡ thông tín.
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 15
Giá trị Bootstraping là một phương pháp giải quyết các bất định của bài toán thống kê
tính cho các node. Qua việc liên tục lấy mẫu các cây thông qua việc xáo trộn bộ dữ liệu đi một
chút, và giá trị được báo cáo là phần trăm lặp lại bootstrap mà node đó được chỉ ra. Thế nên
100% nghĩa là node đó xuất hiện ở tất cả các lần lặp lại bootstrap. Giá trị bootstrap cho thấy mức
độ thống nhất và ổn định của cây, nếu trên 95% thì được xem là có ý nghĩa thống kê.
3. Cây phát sinh chủng loại phát sinh trên toàn bộ genome
Phân tích phát sinh chủng loại (Phylogenetics) so sánh và phân tích các trình tự của một
gene duy nhất, hay một số ít các gene cũng như nhiều loại dữ liệu khác. Phylogenomics là sự
giao thao của lĩnh vực tiến hóa và genomic. Phylogenomics so sánh toàn bộ genome hay tối thiểu
là một phần lớn của nghiên cứu genome.
Bốn mảng lớn của phylogenetics là: dự đoán chức năng gene; thành lập và phân loại mối
quan hệ tiến hóa; tiến hóa của họ gene; và phán đoán sự di truyền ngang các gene.
Khó khăn của phylogenomics so với việc xây dựng cây chủng loại phát sinh là khối
lượng công việc lớn do phải so sánh toàn bộ các trình tự gene, có sự xuất hiện biến dị giữa các
gene hay khác biệt về lịch sử tiến hóa của gene.
So sánh genome (nhất là vi khuẩn) chỉ ra rằng trong tiến hóa một lượng lớn gene đã được
truyền ngang từ loài này qua loài khác. Điều này đã thay đổi đáng kể các đặc tính sinh thái, bệnh
hoc của các loài vi khuẩn. Truyền gene ngang tạo ra một genome năng động trong đó DNA
ngoại lại được đưa vào hay xóa mất khỏi nhiễm sắc thể. Đó là một yếu tố gây nhiễu tiềm tàng
trong việc xây dựng cây chủng loại phát sinh dựa vào trình tự của một gene.
Homologs là những gen hoặc protein tương tự nhau do có chung tổ tiên hoặc nguồn gốc chung của chúng.
Orthologs là hai gen tương tự nhau ở hai loài khác nhau có chung một tổ tiên
Paralog là hai gen trong cùng một bộ gen là sản phẩm của một sự kiện nhân đôi gen của gen ban đầu.
Gene Ancestral Histione H1 ban đầu khi nhân đôi đã tạo ra hai paralog là Histone H1.1
và Histone H1.2. Ở người và tinh tinh, đều có paralog này. Histone H1.1 ở người và Histone
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 16
H1.1 ở tinh tinh gọi là một ortholog. Tất cả các gene histone nhân lên từ gene Ancestral histone
H1 ban đầu gọi là Homologs. Ở vi khuẩn E.coli xuất hiện một gene tổng hợp nên chuỗi protein
với chức năng tương tự như histone H1.1 ở người, ta gọi đây là một analog.
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 17
Phần 4. DỰ ĐOÁN GENE
1. Dự đoán và chú giải gen
Genome người có kích thước khoảng 3,2 tỷ base tuy vậy chỉ có 1,5% trong số mang
coding mã cho mRNA, do đó còn rất nhiền các trình tự chưa xác định được vai trò. Việc dự đoán
và chú giải gene giúp cho ta hiểu rõ hơn về cấu trúc genome và cũng tìm hiểu về các quá trình
tạo sản phẩm từ gene, phát sinh bệnh lý,…
Với gene phân mảnh, các đoạn exon thường bị ngăn cách bởi các intron. Mỗi intron
thường bắt đầu bằng GT và kết thúc bằng AG, trước AG trong intron khoảng 20 base có một
trình tự ngắn là CTGAC gọi là điểm nhánh (branch point). Trong gene có các vị trí đặc biệt,
đóng vai trò cho quá trình phiên mã và nhân đôi. Promotor là vị trí khởi đầu phiên mã, với 70%
các promoter có trình tự TATA box. Vị trí kết thúc phiên mã là các vùng giàu GC theo sau là
vùng giàu AT, ngoài ra còn có vị trí có đuôi poly A (AATAAA). Codon mở đầu trên gene là
ATG (AUG trên RNA) và các codon kết thúc là UAA, UAG, UGA.
2. Phương pháp dự đoán và chú giải gen
Các phần mềm được sử dụng để dự đoán gene phổ biến là GENSCAN, Grail, MZEF,
FGeneH, Hexon, Genie,…tất cả đều sử dụng lập trình tự động để tìm ra giải pháp tối ưu.
Phương pháp sử dụng EST
là phương pháp được sử dụng phổ
biến. EST (expressed sequence
tag) là một phần trình tự ngắn của
cDNA, có thể được dùng để xác
định bản phiên mã, và là công cụ
phát hiện gene cũng như xác định
trình tự gene. Đặc điểm của EST
là có tính lặp lại cao, chất lượng
trình tự thấp, phản ảnh các gene
được thể hiện và có thể đặc trưng
cho từng mô trong từng giai đoạn.
Các bước để xác định gene bằng
EST đó là: (1) tách mRNA từ các
mô, tế bào (2) phiên mã cDNA
phản ánh bộ phận của RNAs (3)
tách dòng cDNA vào một vector
(chiều ngẫu nhiên) (4) giải trình tự gene.
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 18
Phần 5. MOTIF VÀ DOMAIN CỦA DNA VÀ PROTEIN 1. Motif và Domain
Motifs là trình tự các hình mẫu ngắn,
xuất hiện lặp lại và có liên quan tới chức năng
sinh học nhất định. Các phần mang motif giống
nhau nhiều khả năng có thể mang những chức
năng giống nhau, góp phần trong dự đoán chức
năng của sản phẩm từ trình tự.
Các mô típ trình tự cụ thể thường làm
trung gian cho một chức năng phổ biến, chẳng
hạn như liên kết protein hoặc nhắm mục tiêu đến
một vị trí dưới tế bào cụ thể, trong nhiều loại
protein. Do có trình tự giống nhau, nên có thể trong tế bào các motif sẽ đảm nhận làm tín hiệu
cho cơ chế tổng hợp và biểu hiện chức năng của các protein. Với các motif giống nhau nhưng ở
các protein khác nhau, có thể cùng đảm nhận những chức năng giống nhau từ đó tạo nên các họ
protein với cấu trúc và chức năng tương tự nhau. Dựa vào motif, người ta cũng có thể coi đây là
một phương pháp phân loại protein.
Domain (module) là các cấu trúc có thể thực hiện chức năng và tồn tại một cách độc lập
với phần còn lại của protein. Chúng thường hình thành các đơn vị chức năng. Domain bám vào
các phân tử khác trong tế bào, thực hiện nhiệm vụ là con đường dẫn truyền tín hiệu hay đóng vai
trò trong quá trình xúc tác các phản ứng hóa – sinh.
Hiện nay người ta xác định rõ rằng protein thực hiện các chức năng của chúng chủ yếu
thông qua các domain cấu thành chúng. Do đó các domain được coi là đơn vị mà qua đó protein
phát triển. Mặc dù các domain có thể có các chức năng riêng biệt khi được kiểm tra riêng lẻ, sự
kết hợp của chúng trong một protein nhất định là điều làm phát sinh vai trò tổng thể của nó trong
các quá trình tế bào. Như vậy, trước tiên chúng ta phải hiểu các domain riêng lẻ và sau đó điều
tra cách chúng đóng góp vào chức năng protein.
Trong thực nghiệm, người ta có thể tạo ra các protein bị mất đi một hay một vài domain,
sau đó tiến hành các thí nghiệm tương tự nhau để đưa ra nhận định về chức năng của domain với protein.
Ví dụ về motif và domain:
* C2H2 Zinc-finger là một trong những motif bám DNA phổ biến nhất của nhân thực, có mặt
trong nhân tố phiên mã TFIIIA
* TAZ Zinc-finger có mặt ở CBP acetyltranferase
* Helix-turn-helix được tìm thấy trong tất cả các protein bám DNA có chức năng điều hòa biểu hiện gene.
2. Các phương pháp tìm kiếm motif và domain (module)
Có 3 phương pháp chủ yếu để tìm kiếm motif và protein:
a. Phương pháp liệt kê
Phương pháp này sử dụng cách tiếp cận rộng nhất, xem xét tất cả các motifs có khả năng
và ít có hạn chế. Một số chương trình như WeederWed và YMF sử dụng phương pháp này để
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 19
tìm kiếm. Tuy vậy, với một nguồn dữ liệu tìm kiếm lớn thì phương pháp này tốn nhiều công sức và thời gian.
b. Phương pháp tối ưu hóa xác định
Phương pháp này xem xét một mô hình tối ưu hóa dự đoán (EM) và một ma trận trọng số
vị trí. EM tiến hành ước lượng lặp lại khả năng với dữ liệu hiệu có, dùng các thông số và quan
sát hiện tại để xây dựng lại cấu trúc sau đó dùng cấu trúc và quan sát để tái ước lượng các thông số.
MEME (Multiple EM for Motif Elicitation) là chương trình sử dụng thuật toán này.
Bắt đầu từ một vị trí, EM luân phiên giữa các vị trí chỉ định và mô hình motif đang cập nhật.
Thực hiện lặp lại một lần với mỗi n-mer ở trình tự đích, chọn motif tốt nhất từ vị trí này và sau
đó lặp lại cho đến khi motif đó không đổi nữa. Không gian tìm kiếm tăng đáng kể với sự tăng số
lượng trình tự và độ dài trình tự.
c. Phương pháp tối ưu hóa xác suất
Sử dụng cách tiếp cận của Gibbs, thực hiện một cách ngẫu nhiên mô hình tối ưu hóa dự
đoán (EM). Một n-mer từ mỗi trình tự được lấy ngẫu nhiên để xác định mô hình ban đầu. Trong
các lần lặp lại sau, một trình tự bị loại bỏ và mô hình được tính toán lại. Chọn vị trí mới của
motif trên trình tự lần lặp cho đến khi không đổi.
Các chương trình AlignAce, Gibbs Motif Sampler sử dụng thuật toán này. Chương trình
SMART là một chương trình phổ biến hơn cả. Nó cho phép xác định và giải thích vè các domain
vận động về mặt di truyền và phân tích các cấu trúc của domain. SMART dựa vào so sánh nhiều
trình tự của các thành viên, cơ sở dữ liệu với hơn 400 domains thuộc 54,000 protein. Chương
trình này tìm kiếm trong cơ sở dữ liệu bằng công cụ HMMs. SMART có hai chế độ: Normal
SMART thì cơ sở dữ liệu chứa Swiss-Prot, SP-TrEMBL và Ensembl proteomes; và chế độ
Genomic SMART chỉ có các proteasome đã được giải trình tự hoàn toàn mới được sử dụng.
Để xem xét một kết quả tìm kiếm motif và domain là hiệu quả hay không, ta cần quan
tâm đến các yếu tố về tính đặc trưng nhóm hay đặc trưng vị trí; đặc hiệu trình tự và tính đồng dạng của nó.
3. Protein – dự đoán cấu trúc và chức năng
Nghiên cứu cấu trúc chức năng của protein người ta quan tâm đến các yếu tố: bám màng
hay hòa tan, cấu trúc bậc 2, tính ưu nước – kỵ nước, biến đổi sau dịch mã, vị trí trong tế bào, các
motif và domain có trong protein,….
Bằng việc tìm hiểu các yếu tố này, người ta có thể dự đoán ra được chức năng của
protein. Với những protein mới, dựa trên những thông tin đã biết ở các protein tương đồng với
nó, người ta có thể dự đoán được chức năng. Xác định motifs trong protein giúp khẳng định như
những yếu bảo thủ trong tiến hóa và vai trò quan trọng của chúng. Việc các protein khác nhau
mang các cấu trúc và đặc tính, chức năng tương tự nhau có thể xác định mô hình, dấu hiệu để
nhận biết một họ protein.
Hiện nay, các cơ sở dữ liệu nguồn thường được các công cụ, servers liên quan sử dụng là
ExPASy Proteimics Server và Uniprot. Các chương trình được sử dụng phổ biến là PROSITE,
Pfam, BLOCKS, PSORT, TargetP, ProtFun,…
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC 20
Trong phân tử protein, ở cấu trúc bậc 3 hay bậc 4 các gốc kỵ nước thường ở phần “lõi”
giữa các phân tử, các gốc ưa nước ở trên bề mặt phân tử. Lực liên kết của các nhóm kỵ nước,
những nhóm không phân cực như CH2; CH3 trong valine, leucine, isoleucine,
phenylalanine…Nước trong tế bào đẩy các gốc này lại với nhau, giữa chúng xảy ra các lực hút
tương hỗ và tạo thành các đuôi kỵ nước trong phân tử protein. Do có cấu trúc bậc ba mà các
protein có được hình thù đặc trưng và phù hợp với chức năng của chúng. Ở các protein chức
năng như enzym và các kháng thể, protein của hệ thống đông máu…thông qua cấu trúc bậc ba
mà hình thành được các trung tâm hoạt dộng là nơi thực hiên các chức năng của protein.
ĐC TIN SINH HỌC – VŨ HẢI DƯƠNG – K64 SINH HỌC