









Preview text:
Giới thiệu về phân tích tin sinh học
Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của
các ngành tin học, toán học ứng dụng, thống kê và khoa học máy tính để giải quyết các
bài toán trong sinh học. Tin sinh học bao gồm việc xây dựng, quản lý và lưu trữ nguồn dữ
liệu quy mô toàn cầu liên quan đến sinh học, trên đó xây dựng và hoàn thiện các chương
trình máy tính xử lý dữ liệu, là công cụ hỗ trợ hiệu quả cho việc nghiên cứu, khám phá
bản chất sinh học của giới tự nhiên và sản xuất ra các sản phẩm sinh học mong muốn
phục vụ đời sống con người. Tin sinh học có tính ứng dụng cao trong cuộc sống, đặc biệt
là trong lĩnh vực công nghệ sinh học, nông nghiệp và y dược. Các bài toán cơ bản trong
tin sinh học bao gồm: quản lý và lưu trữ dữ liệu, phân tích mối quan hệ giữa các trình tự,
dự đoán cấu trúc các trình tự, mô hình hóa, nghiên cứu tiến hóa [17], [20].
Phân tích trình tự có truyền thống lâu đời trong tin sinh học. Trong bối cảnh lựa
chọn tính năng, có thể phân biệt hai loại vấn đề: phân tích nội dung và tín hiệu. Phân tích
nội dung tập trung vào các đặc điểm rộng của trình tự, chẳng hạn như xu hướng mã hóa
protein hoặc thực hiện một chức năng sinh học nhất định. Mặt khác, phân tích tín hiệu tập
trung vào việc xác định các mô típ quan trọng trong trình tự, chẳng hạn như các yếu tố
cấu trúc gen hoặc các yếu tố điều hòa [48], [54]. Phân tích trình tự trong tin sinh học đi
sâu vào sự liên kết tuyến tính của các bazơ nucleotide—adenine (A), thymine (T),
cytosine (C) và guanine (G). Sự xem xét kỹ lưỡng có hệ thống này tiết lộ mật mã mã hóa
vốn có trong vật liệu di truyền, từ đó làm sáng tỏ các cơ chế chi phối sự sống. Phân tích
trình tự DNA cung cấp kiến thức chiều sâu phức tạp của gen và tin sinh học. Nó giải mã
tỉ mỉ trình tự các bazơ nucleotide dọc theo chuỗi DNA, tiết lộ bản thiết kế di truyền được
mã hóa. Khám phá này mang lại những hiểu biết sâu sắc về con đường tiến hóa, những dị
thường về di truyền và bộ máy cơ bản điều khiển các chức năng của tế bào. Giữa sự
tương tác giữa gen và tin sinh học, phân tích trình tự nổi lên như nền tảng hướng tới
những khám phá đột phá. Sự tích hợp của nó vào lĩnh vực tin sinh học không chỉ làm
sáng tỏ những phức tạp về di truyền mà còn thúc đẩy những tiến bộ tiên phong trong các
bối cảnh khoa học đa dạng [155].
Trong thập kỷ qua, sự ra đời của bộ dữ liệu microarray đã thúc đẩy một hướng
nghiên cứu mới về tin sinh học. Dữ liệu microarray đặt ra một thách thức lớn đối với các
kỹ thuật tính toán, vì số lượng kết quả thô thu được từ phân tích ban đầu lên đến vài chục
nghìn gen và kích thước mẫu của chúng [127]. Hơn nữa, các biến chứng thử nghiệm bổ
sung như nhiễu và độ biến thiên khiến việc phân tích dữ liệu microarray trở thành một
lĩnh vực thú vị. Công nghệ microarray là một công cụ hiệu suất cao mạnh mẽ có khả năng
theo dõi sự biểu hiện của hàng ngàn RNA không mã hóa nhỏ cùng một lúc trong hàng
chục mẫu được xử lý song song trong một thí nghiệm. Quy trình làm việc bắt đầu với các
tệp nhị phân dữ liệu thô thu được từ quá trình lai và trải qua một loạt các bước: đọc dữ
liệu thô, kiểm tra chất lượng, chuẩn hóa, lọc, lựa chọn các gen biểu hiện khác nhau, so
sánh các danh sách đã chọn và phân tích sinh học [120]. Bằng cách đo lượng miRNA
tương đối của nó, việc lập hồ sơ biểu hiện cũng có thể được sử dụng để xác định kiểu
mức độ biểu hiện của các miRNA trong các mẫu nghiệm, từ đó so sánh các biểu hiện
khác biệt giữa nhóm bệnh lý và mẫu khỏe mạnh [31].
1.2.1. Các phần mềm được sử dụng trong phân tích tin sinh học
1.2.1.1 Các phần mềm phân tích dữ liệu trình tự - Galaxy
Aptamer là các oligonucleotide DNA hoặc RNA nhỏ (20–100 nucleotide) liên kết đặc
biệt với các phân tử mục tiêu có ái lực cao. Các aptamer được xác định thông qua các
vòng lựa chọn lặp đi lặp lại trong một quy trình được gọi là SELEX (Systematic
Evolution of Ligands by EXponential enrichment). Giải trình tự thông lượng cao (high-
throughput sequencing, HTS) đã cách mạng hóa quy trình SELEX hiện đại bằng cách xác
định hàng triệu trình tự aptamer qua nhiều vòng lựa chọn aptamer. Tuy nhiên, các bộ dữ
liệu HTS aptamer khổng lồ này đòi hỏi các kỹ thuật tin sinh học. Ưu điểm chính của
phương pháp này là tính chất trực tuyến của máy chủ web Galaxy và giao diện đồ họa
của nó cho phép phân tích dữ liệu HTS mà không cần phải biên dịch mã hoặc cài đặt nhiều chương trình [151]. - ClustalW
Các chương trình Clustal được sử dụng rộng rãi để thực hiện tự động sắp xếp
nhiều chuỗi nucleotide hoặc axit amin. Việc căn chỉnh được thực hiện thông qua ba bước:
căn chỉnh theo cặp, tạo hướng dẫn và căn chỉnh lũy tiến. Phiên bản quen thuộc nhất là
ClustalW, sử dụng hệ thống đơn giản, có thể di chuyển sang hầu hết các hệ thống máy
tính. ClustalX có giao diện đồ họa trực quan và một số tiện ích đồ họa mạnh mẽ để hỗ trợ
việc giải thích sự sắp xếp. Clustal có thể tiến hành từ một số trang web trực tuyến hoặc
các chương trình có thể được tải xuống [87]. Dựa trên sự so sánh hoặc sắp xếp các chuỗi
protein, việc sắp xếp nhiều trình tự, các nhà sinh học có thể nghiên cứu các kiểu trình tự
được bảo tồn thông qua quá trình tiến hóa và mối quan hệ tổ tiên giữa các sinh vật khác
nhau. Ngoài ra, thông qua phương pháp phân tích này các đột biến liên quan đến dấu ấn
phân tử cũng được phát hiện. Điều này gợi ý về nguyên nhân bệnh lý hay giải thích liên
quan đến sự tiến triển của bệnh lý [141].
1.2.1.2 Các phần mềm phân tích biểu hiện - Phần mềm R
Giao diện R cung cấp cho người dùng quyền truy cập vào vô số thuật toán hiện có
với các gói dữ liệu phân tích dành cho phần mềm R được truy xuất từ Bioconductor và
CRAN, giúp xây dựng các thuật toán phân tích mạnh mẽ. Các kết quả được mô tả trực
quan hóa [126]. Trong phân tích sự biểu hiện khác biệt của các dấu ấn phân tử là tiềm
năng chẩn đoán. Phần mềm R có thể dự đoán từ hơn hàng ngàn dấu ấn biểu hiện khác
nhau để cho ra các kết quả quan trọng phục vụ nghiên cứu [108]. - GenePattern
GenePattern là một hệ thống quy trình làm việc khoa học mạnh mẽ cung cấp
quyền truy cập vào hàng trăm công cụ phân tích bộ gen. Sử dụng các công cụ phân tích
này làm khối xây dựng để thiết kế các quy trình phân tích phức tạp nhằm nắm bắt các
phương pháp, thông số và dữ liệu được sử dụng để tạo ra kết quả phân tích [128].
1.2.1.3 Các phần mềm phân tích tương tác - Cytoscape
Cytoscape là một dự án phần mềm nguồn mở để tích hợp các mạng tương tác phân
tử sinh học với dữ liệu biểu hiện thông lượng cao và các trạng thái phân tử khác vào một
khung khái niệm thống nhất. Mặc dù có thể áp dụng cho bất kỳ hệ thống thành phần và
tương tác phân tử nào, Cytoscape mạnh nhất khi được sử dụng cùng với cơ sở dữ liệu lớn
về protein-protein, protein-DNA và các tương tác di truyền ngày càng có sẵn cho con
người và sinh vật mẫu. Phần mềm Core của Cytoscape cung cấp chức năng cơ bản để bố
trí và truy vấn mạng; để tích hợp trực quan mạng với các cấu hình biểu thức, kiểu hình và
các trạng thái phân tử khác; và liên kết mạng với cơ sở dữ liệu của các chú thích chức
năng. Core có thể mở rộng thông qua kiến trúc plug-in đơn giản, cho phép phát triển
nhanh chóng các tính năng và phân tích tính toán bổ sung. Một số nghiên cứu điển hình
về các plug-in Cytoscape đã được khảo sát, bao gồm tìm kiếm các con đường tương tác
tương quan với những thay đổi trong biểu hiện gen, nghiên cứu về các phức hợp protein
liên quan đến việc phục hồi tế bào đối với tổn thương DNA, suy luận về mạng tương tác
vật lý/chức năng kết hợp cho Halobacteria và một giao diện cho các mô hình điều hòa
gen ngẫu nhiên/động học chi tiết [35], [176]. - STRING
Cơ sở dữ liệu STRING (Công cụ tìm kiếm để truy xuất các gen/protein tương tác)
nhằm mục đích thu thập, dự đoán và thống nhất hầu hết các loại liên kết protein-protein,
bao gồm các liên kết trực tiếp và gián tiếp. Để bao quát các sinh vật chưa được giải quyết
bằng thực nghiệm, STRING chạy một bộ thuật toán dự đoán và chuyển các tương tác đã
biết từ sinh vật mẫu sang các loài khác dựa trên chỉnh hình dự đoán của các protein tương
ứng. STRING đã phát triển từ một nguồn tài nguyên dự đoán thuần túy bao gồm chủ yếu
là sinh vật nhân sơ thành một công cụ toàn diện tích hợp thông tin liên kết protein từ tất
cả các lĩnh vực của cuộc sống. Mỗi tương tác trong cơ sở dữ liệu được chú thích bằng
điểm tin cậy bằng số được so sánh, có thể được sử dụng để lọc mạng tương tác ở bất kỳ
mức độ nghiêm ngặt mong muốn nào. Tất cả dữ liệu trong STRING được lưu trữ trong
các bảng cơ sở dữ liệu quan hệ. Thông tin tương tác được cung cấp miễn phí để tải xuống
nhưng việc tải xuống toàn bộ nội dung cơ sở dữ liệu cần có thỏa thuận cấp phép để ngăn
chặn việc phân phối lại. Trong mạng, các liên kết giữa các protein biểu thị các dữ liệu
tương tác khác nhau hỗ trợ mạng, được hiển thị màu sắc trực quan [37].
1.2.1.4 Các phần mềm phân tích hình ảnh - ImageJ
ImageJ là một phần mềm nguồn mở được sử dụng rộng rãi cho phép người dùng
trực quan hóa, kiểm tra, định lượng và xác thực dữ liệu hình ảnh khoa học. Các phương
pháp dựa trên hình ảnh đóng một vai trò quan trọng trong khoa học đời sống và đã trải
qua sự phát triển vượt bậc trong những thập kỷ qua. Khi các phương thức hình ảnh mới
xuất hiện và các bộ dữ liệu trở nên phức tạp hơn, việc có các phương pháp đáng tin cậy
và có thể tái tạo để giải thích các hình ảnh sinh học là cốt lõi của phân tích hình ảnh. Phân
tích hình ảnh cho phép người dùng trích xuất thông tin từ hình ảnh theo cách có thể tái
tạo. Phân tích hình ảnh cũng đóng vai trò y sinh quan trọng trong việc giải thích chẩn
đoán. Khi sự phổ biến của các bộ dữ liệu đa chiều lớn tiếp tục gia tăng, khả năng thực
hiện các phép đo thủ công không chỉ trở nên tốn thời gian một cách không thực tế mà độ
nhạy, độ chính xác, tính khách quan và khả năng tái tạo của việc đó có thể bị hạn chế rất
nhiều. Vì những thách thức này, hệ sinh thái ImageJ nhằm giải quyết việc xử lý các tập
dữ liệu lớn, đa chiều, bao gồm chú thích và thực hiện các kỹ thuật phân tích hình ảnh nâng cao [134]. - Cellprofiler
CellProfiler là phần mềm phân tích hình ảnh mô-đun có sẵn miễn phí, có khả năng
xử lý hàng trăm nghìn hình ảnh. Phần mềm này chứa các phương pháp đã được phát triển
cho nhiều loại tế bào và xét nghiệm, đồng thời cũng là một nền tảng linh hoạt, nguồn mở
để các chuyên gia phân tích hình ảnh chia sẻ, thử nghiệm và phát triển các phương pháp
mới. CellProfiler chứa các thuật toán tiên tiến để phân tích hình ảnh có khả năng xác định
chính xác các loại tế bào không phải động vật có vú; một thiết kế mô-đun, linh hoạt cho
phép phân tích các xét nghiệm và kiểu hình mới; mã nguồn mở và có thể được sửa đổi
hoặc cải tiến; giao diện thân thiện với người dùng; khả năng tận dụng các cụm máy tính
khi có sẵn. CellProfiler được thiết kế và tối ưu hóa cho định dạng hình ảnh sàng lọc có
nội dung cao phổ biến nhất, tức là hình ảnh hai chiều. Các nhà nghiên cứu quan tâm đến
các lĩnh vực này có thể xây dựng các mô-đun tương thích [22].
1.2.2. Ứng dụng của phân tích tin sinh học trong y học
1.2.2.1 Chẩn đoán và điều trị bệnh
Trong nhiều thập kỷ, bệnh tim mạch được coi là yếu tố chính góp phần gây ra tỷ lệ
tử vong toàn cầu [122]. Do đó, công nghệ khai thác dữ liệu đã được nghiên cứu trong
những thập kỷ gần đây để tăng cường quá trình dự đoán bệnh tim trong lĩnh vực y tế
[123]. Việc tiến hành phân tích và thu thập các mẫu, thông tin, điểm bất thường ẩn trong
các tập dữ liệu lớn được gọi là khai thác dữ liệu bao gồm một số giai đoạn như chuẩn bị
dữ liệu, lựa chọn, chuyển đổi và khai thác, đòi hỏi các hoạt động đa dạng như dự đoán,
phân cụm và phân loại [95]. Hệ thống đề xuất lấy trình tự chẩn đoán đầu vào và trình tự
chẩn đoán điểm chuẩn thông qua trình duyệt, lưu trữ các chuỗi chẩn đoán này trong cơ sở
kiến thức và thiết lập các quy tắc hướng dẫn để quyết định chẩn đoán bệnh. Hệ thống
nhận chuỗi đầu vào và áp dụng kỹ thuật sàng lọc với sự bất thường trong kết quả phân
tích dữ liệu [12]. Nhiều nghiên cứu gần đây đề xuất sử dụng các công cụ tin học sinh như
một giải pháp thay thế đáng tin cậy, tiết kiệm chi phí cho việc tốn nhiều thời gian, tốn
nhiều tài nguyên như công việc trong phòng thí nghiệm [71].
1.2.2.2 Nghiên cứu và phân phối thuốc
Tin sinh học bắt đầu như một công cụ hỗ trợ trong quá trình khám phá và phát
triển thuốc; tuy nhiên, hiện nay, tầm quan trọng của nó đã tăng lên gấp nhiều lần, khiến
nó trở thành một thành phần thiết yếu trong nhiều lĩnh vực [117]. Việc tìm kiếm đối
tượng nghiên cứu tiềm năng và tối ưu hóa có thể được thực hiện bằng một số công cụ,
chẳng hạn như khai thác dữ liệu, QSAR và insilico-ADME, trong đó kết quả thu được là
một phân tử thuốc hoạt tính mang lại phản ứng điều trị với tác dụng phụ thấp hoặc tối thiểu [169].
Các phương pháp tin sinh học được sử dụng để phân tích so sánh các loại thuốc
kháng khuẩn nhằm chọn ra công thức vận chuyển sau đó có thể so sánh được về công
thức, dược phẩm sinh học và mức độ trị liệu. Phương pháp tiếp cận toàn nguyên tử đã
được sử dụng để mô phỏng động lực phân tử bằng phần mềm GROMACS v4.6.5 và kết
quả cho thấy ceftriaxone có ái lực cao hơn với các đại phân tử dược phẩm sinh học và trị
liệu được nghiên cứu so với cefotaxime [67].
1.2.2.3 Nghiên cứu cơ bản về sinh học
Nhiễm trùng đa kháng thuốc (MultiDrug Resistance, MDR) Escherichia coli gây
ra mối đe dọa tính mạng cho bệnh nhân ung thư nhi bị suy giảm miễn dịch. Quinolone và
kháng aminoglycoside đã được quan sát thấy trong 21 phân lập E. coli kháng carbapenem
(carbapenem-resistant Enterobacterales, CRE) bằng cách sử dụng nền tảng giải trình tự
thế hệ tiếp theo của Illumina để giải trình tự súng ngắn plasmid và phân tích dữ liệu với
đường ống tin sinh học. Các gen đại diện cao nhất trong số 32 gen kháng kháng sinh
được phát hiện là gen aph (6) -Id, sul2, aph (3 ′) -Ia, sul1, dfrA12, aph (3 ") -Ib, NDM-11
và TEM-220. Trong số tất cả các phân lập, chỉ có hai trong số chúng thể hiện các yếu tố
độc lực có liên quan đến cụm gen iroA và người ta thấy rằng cụm gen này chỉ có mặt ở
một trong hai phân lập đó [66].
Việc áp dụng các mô hình AI (Artificial Intelligence) đã có những bước tiến đáng
kể trong việc nâng cao độ chính xác của các dự đoán hiệu quả và an toàn thuốc sớm bằng
cách tận dụng thông tin rộng lớn được cung cấp bởi các bộ dữ liệu ADME-Tox không
đồng nhất. Trong thời gian gần đây, đã có sự gia tăng các sáng kiến của cả khu vực công
và tư nhân nhằm tạo ra và đánh giá các mô hình tiềm năng sẽ hỗ trợ quá trình ra quyết
định và tạo ra các phương pháp tiếp cận sáng tạo để dự đoán các thuộc tính ADME-Tox.
Do đó, có những nỗ lực liên tục để cho phép sử dụng công khai và so sánh các mô hình
học máy (machine learning, ML) / học sâu (deep learning, DL) để củng cố sự tự tin và
chấp nhận những dự đoán này. Tích hợp học máy vào nghiên cứu tiến hóa phân tử đã cho
phép xác định chính xác khoảng cách tiến hóa giữa các loài, tái tạo lịch sử tiến hóa và tổ
tiên, xác định các vùng gen được bảo tồn, chú thích chức năng của bộ gen và phát sinh
loài. Các phương pháp như bộ mã hóa tự động, rừng ngẫu nhiên, mạng thần kinh tích
chập (convolutional neural network, CNN) và học tăng cường sâu đã được sử dụng để
giải quyết những thách thức mà nghiên cứu tiến hóa phân tử phải đối mặt, đặc biệt là
trong việc phân tích các tập hợp trình tự ngày càng lớn và các dữ liệu omics khác [117].
1.2.2.4 Phương pháp tin sinh học để xác định SNP
Các biến thể trình tự thường là SNP (single-nucleotide polymorphisms) hoặc các
phần chèn/xóa nhỏ (indels) trong DNA bộ gen của các cá thể cùng loài hoặc các loài có
quan hệ gần gũi. Một số người định nghĩa SNP bao gồm indel. SNP là một trong những
dấu hiệu di truyền được sử dụng phổ biến nhất để nghiên cứu các đặc điểm di truyền
phức tạp và tiến hóa bộ gen vì sự phong phú và tốc độ đột biến chậm trong bộ gen. Ngoài
ra, SNP trong trình tự mã hóa được sử dụng để nghiên cứu trực tiếp di truyền của các gen
biểu hiện và lập bản đồ các đặc điểm chức năng. Đặc biệt, SNP không đồng nghĩa (Non-
synonymous single-nucleotide polymorphisms, nsSNP) hấp dẫn hơn vì chúng thay đổi
axit amin, có thể ảnh hưởng đến chức năng protein [88].
Một số chiến lược đã được sử dụng trong cả thử nghiệm và tính toán để khám phá
SNP. Việc phát hiện SNP thử nghiệm thường diễn ra trong phòng thí nghiệm, khiến quá
trình này tốn nhiều thời gian và tốn kém. Ngược lại, một phương pháp tính toán để khám
phá tiềm năng SNP từ các trình tự có sẵn công khai làm cho việc phát triển các dấu SNP
nhanh chóng và ít tốn kém hơn. Cho đến nay, một số đường ống đã được phát triển để tự
động phát hiện SNP theo trình tự. Một loại đường ống phát hiện SNP bằng cách sử dụng
tệp theo dõi hoặc tệp chất lượng. Trong số các quy trình này, hệ thống
PHRED/PHRAP/PolyBayes là phổ biến nhất vì nó kết hợp nhận dạng parolog cùng với
phát hiện SNP, trong khi các quy trình khác thì không. Loại đường ống khác chỉ sử dụng
các chuỗi để phát hiện SNP, chẳng hạn như autoSNP và SNiPPER. Thông thường đối với
loại đường ống này chỉ có dự phòng trình tự để xác định giữa SNP và lỗi trình tự. Mặc dù
chỉ dựa trên sự dư thừa trình tự nhưng rất khó để phát hiện các parolog. Cho đến nay,
không có đường ống loại này có thể xác định được parolog. Do đó, loại đường ống này
kém chính xác hơn loại đầu tiên; tuy nhiên nó chỉ yêu cầu đầu vào theo trình tự. Đặc biệt
trong trường hợp chỉ có trình tự thì đó là lựa chọn duy nhất [140], [146].
Tóm lại, có hai thách thức lớn trong khám phá SNP tính toán: phân biệt biến thể
alen với biến thể trình tự giữa các chuỗi parologues và nhận biết các lỗi trình tự thường
do trình tự chất lượng kém gây ra, đặc biệt là đối với dữ liệu EST (expressed sequence
tag). Chỉ PolyBayes đã triển khai một parolog nâng cao quy trình nhận dạng dựa trên lý
thuyết Bayes, yêu cầu trình tự bộ gen tương ứng làm trình tự tham chiếu, các tệp chất
lượng bên cạnh trình tự EST để tính xác suất sau và xác suất trước cho tính đa hình và
tính khác biệt của các parolog. Vì hầu hết các EST công khai không bao gồm các tệp dấu
vết hoặc chất lượng và trình tự bộ gen không có sẵn cho hầu hết các loại nên khả năng áp
dụng PolyBayes bị hạn chế để xác định SNP trong EST. Một số nghiên cứu chỉ điều tra
SNP trong các cụm nhỏ hơn có ít hơn 50 hoặc 20 chuỗi EST vì các cụm lớn hơn có xác
suất cao chứa parolog. Tóm lại, việc phát hiện SNP trong dữ liệu EST thậm chí còn khó
khăn hơn vì nó phải trả lời chỉ dựa trên so sánh trình tự [58], [132].
1.2.2.5 Ứng dụng tin sinh học trong xác định (Simple sequence repeats, SSRs)
Vi vệ tinh hay SSRs là những đoạn lặp đơn của 1-6 nucleotide. Sự đa hình của
chúng thể hiện qua sự khác biệt về số lần lặp, được cho là do sự trượt của enzyme
polymerase. Do có mức độ đa hình tiềm năng cao, tính đặc hiệu locus, bản chất đa alen
và đồng trội, sự dồi dào tương đối và độ tái tạo, SSRs đã trở thành những dấu hiệu di
truyền có giá trị trong bản đồ liên kết gen, bản đồ so sánh, bản đồ định vị QTL
(Quantitative trait loci), bản đồ liên kết và phân tích đa dạng. Các phương pháp thông
thường để phát triển SSRs bao gồm xây dựng thư viện gen và sau đó sàng lọc sự hiện
diện của motif lặp SSR trong các bản sao. Điều này khiến cho phương pháp này tốn công,
thời gian và chi phí. Trong khi đó, với số lượng trình tự ngày càng tăng trong các cơ sở
dữ liệu công khai, các phương pháp in silico để sàng lọc SSRs từ trình tự đã trở thành
một lựa chọn thay thế hiệu quả và tiết kiệm chi phí cho nhiều loài. Một số gói phần mềm
đã được phát triển để phát hiện SSRs trong các trình tự này, đặc biệt là từ ESTs [168].
ESTs là một nguồn tài nguyên phong phú để phát triển dấu hiệu SSR vì chúng
được lưu trữ với số lượng lớn trong các cơ sở dữ liệu công khai, thường có nguồn gốc từ
các kiểu gen khác nhau và liên quan trực tiếp đến các gen được phiên mã. Hơn nữa, SSRs
có nguồn gốc từ ESTs có khả năng chuyển giao giữa các loài có quan hệ họ hàng gần
nhau hơn so với những SSRs có nguồn gốc từ trình tự gen. Nhìn chung, khoảng 5% ESTs
thực vật chứa SSRs với độ dài tối thiểu là 20 nucleotide. Ở động vật có vú, tỷ lệ ESTs
chứa SSRs phụ thuộc vào loài và rất khác nhau, từ 2% ở cừu đến 15,6% ở chuột, trong
khi khoảng 3,8% và 3,7% unigene của gà và chim sáo Zebra finch chứa SSRs. SSRs có
nguồn gốc từ EST (EST-SSRs) đã được sử dụng trong nhiều loài khác nhau, bao gồm
thực vật và động vật. Mặc dù EST-SSRs có nhiều ưu điểm, chúng cũng không hoàn toàn
không có nhược điểm. Theo các nghiên cứu trước đây, hầu hết các SSRs trên EST được
phát hiện bằng phương pháp in silico không đa hình; mức độ đa hình thấp nhất là 25%.
Một số báo cáo cho thấy SSRs trên EST ít đa hình hơn so với SSRs trên DNA [74].