sasava

Siêu protein vi sinh vật: từ xử lý mẫu, thu thập dữ liệu đến phân tích dữ liệu

Ngô Ân Huy, Kiều Lương*

Khoa Hóa học, Đại học Phục Đán, Thượng Hải 200433, Trung Quốc

 

 

 

Vi sinh vật có liên quan chặt chẽ đến bệnh tật và sức khỏe của con người. Làm thế nào để hiểu được thành phần của quần xã vi sinh vật và chức năng của chúng là một vấn đề lớn cần được nghiên cứu khẩn cấp. Trong những năm gần đây, metaproteomics đã trở thành một phương tiện kỹ thuật quan trọng để nghiên cứu thành phần và chức năng của vi sinh vật. Tuy nhiên, do tính phức tạp và tính không đồng nhất cao của các mẫu cộng đồng vi sinh vật, việc xử lý mẫu, thu thập dữ liệu khối phổ và phân tích dữ liệu đã trở thành ba thách thức lớn mà metaproteomics hiện phải đối mặt. Trong phân tích metaproteomics, thường cần phải tối ưu hóa quá trình tiền xử lý các loại mẫu khác nhau và áp dụng các sơ đồ phân tách, làm giàu, chiết và ly giải vi sinh vật khác nhau. Tương tự như hệ protein của một loài đơn lẻ, các chế độ thu thập dữ liệu khối phổ trong metaproteomics bao gồm chế độ thu thập phụ thuộc dữ liệu (DDA) và chế độ thu thập dữ liệu độc lập (DIA). Chế độ thu thập dữ liệu DIA có thể thu thập hoàn toàn thông tin peptide của mẫu và có tiềm năng phát triển lớn. Tuy nhiên, do sự phức tạp của các mẫu metaproteome, việc phân tích dữ liệu DIA của nó đã trở thành một vấn đề lớn cản trở phạm vi bao phủ sâu của metaproteomics. Về mặt phân tích dữ liệu, bước quan trọng nhất là xây dựng cơ sở dữ liệu trình tự protein. Kích thước và tính đầy đủ của cơ sở dữ liệu không chỉ có tác động lớn đến số lượng nhận dạng mà còn ảnh hưởng đến việc phân tích ở cấp độ loài và chức năng. Hiện tại, tiêu chuẩn vàng để xây dựng cơ sở dữ liệu metaproteome là cơ sở dữ liệu trình tự protein dựa trên metagenome. Đồng thời, phương pháp lọc cơ sở dữ liệu công cộng dựa trên tìm kiếm lặp cũng đã được chứng minh là có giá trị thực tiễn cao. Từ góc độ của các chiến lược phân tích dữ liệu cụ thể, các phương pháp phân tích dữ liệu DIA tập trung vào peptide đã chiếm một vị trí chủ đạo tuyệt đối. Với sự phát triển của học sâu và trí tuệ nhân tạo, nó sẽ thúc đẩy đáng kể độ chính xác, phạm vi bao phủ và tốc độ phân tích của phân tích dữ liệu macroproteomic. Về mặt phân tích tin sinh học xuôi dòng, một loạt công cụ chú thích đã được phát triển trong những năm gần đây, có thể thực hiện chú thích loài ở cấp độ protein, cấp độ peptide và cấp độ gen để thu được thành phần của cộng đồng vi sinh vật. So với các phương pháp omics khác, phân tích chức năng của các cộng đồng vi sinh vật là một tính năng độc đáo của macroproteomics. Macroproteomics đã trở thành một phần quan trọng trong phân tích đa omics của các cộng đồng vi sinh vật và vẫn có tiềm năng phát triển lớn về độ sâu bao phủ, độ nhạy phát hiện và tính đầy đủ của phân tích dữ liệu.

 

01Xử lý mẫu

Hiện nay, công nghệ metaproteomics đã được sử dụng rộng rãi trong nghiên cứu hệ vi sinh vật của con người, đất, thực phẩm, đại dương, bùn hoạt tính và các lĩnh vực khác. So với phân tích proteome của một loài đơn lẻ, quá trình tiền xử lý mẫu metaproteome của các mẫu phức tạp phải đối mặt với nhiều thách thức hơn. Thành phần vi sinh vật trong các mẫu thực tế rất phức tạp, phạm vi động học lớn, cấu trúc thành tế bào của các loại vi sinh vật khác nhau rất khác nhau và các mẫu thường chứa một lượng lớn protein chủ và các tạp chất khác. Do đó, trong phân tích metaproteome, thường cần phải tối ưu hóa các loại mẫu khác nhau và áp dụng các sơ đồ phân tách, làm giàu, chiết và ly giải vi sinh vật khác nhau.

Việc chiết xuất các metaproteome vi sinh vật từ các mẫu khác nhau có những điểm tương đồng nhất định cũng như một số khác biệt, nhưng hiện tại vẫn thiếu một quy trình tiền xử lý thống nhất cho các loại mẫu metaproteome khác nhau.

 

02Thu thập dữ liệu khối phổ

Trong phân tích shotshot proteome, hỗn hợp peptide sau khi tiền xử lý trước tiên được tách ra trong cột sắc ký, sau đó đi vào máy quang phổ khối để thu thập dữ liệu sau khi ion hóa. Tương tự như phân tích proteome của một loài, các chế độ thu thập dữ liệu khối phổ trong phân tích macroproteome bao gồm chế độ DDA và chế độ DIA.

 

Với việc lặp lại và cập nhật liên tục các thiết bị đo khối phổ, các thiết bị khối phổ có độ nhạy và độ phân giải cao hơn được áp dụng cho metaproteome, đồng thời độ sâu bao phủ của phân tích metaproteome cũng liên tục được cải thiện. Trong một thời gian dài, một loạt thiết bị đo khối phổ có độ phân giải cao do Orbitrap đứng đầu đã được sử dụng rộng rãi trong metaproteome.

 

Bảng 1 của văn bản gốc cho thấy một số nghiên cứu tiêu biểu về metaproteomics từ năm 2011 đến nay về loại mẫu, chiến lược phân tích, thiết bị đo phổ khối, phương pháp thu nhận, phần mềm phân tích và số lượng nhận dạng.

 

03Phân tích dữ liệu khối phổ

3.1 Chiến lược phân tích dữ liệu DDA

3.1.1 Tìm kiếm cơ sở dữ liệu

3.1.2mới bắt đầuchiến lược trình tự

3.2 Chiến lược phân tích dữ liệu DIA

 

04Phân loại loài và chú thích chức năng

Thành phần của các cộng đồng vi sinh vật ở các cấp độ phân loại khác nhau là một trong những lĩnh vực nghiên cứu trọng điểm trong nghiên cứu hệ vi sinh vật. Trong những năm gần đây, một loạt công cụ chú thích đã được phát triển để chú thích các loài ở cấp độ protein, cấp độ peptide và cấp độ gen nhằm thu được thành phần của các cộng đồng vi sinh vật.

 

Bản chất của chú thích chức năng là so sánh trình tự protein mục tiêu với cơ sở dữ liệu trình tự protein chức năng. Sử dụng cơ sở dữ liệu chức năng gen như GO, COG, KEGG, eggNOG, v.v., các phân tích chú thích chức năng khác nhau có thể được thực hiện trên các protein được xác định bởi macroproteome. Các công cụ chú thích bao gồm Blast2GO, DAVID, KOBAS, v.v.

 

05Tóm tắt và triển vọng

Vi sinh vật đóng vai trò quan trọng đối với sức khỏe và bệnh tật của con người. Trong những năm gần đây, metaproteomics đã trở thành một phương tiện kỹ thuật quan trọng để nghiên cứu chức năng của các cộng đồng vi sinh vật. Quy trình phân tích metaproteomics tương tự như quy trình phân tích proteomics đơn loài, nhưng do tính phức tạp của đối tượng nghiên cứu metaproteomics nên cần áp dụng các chiến lược nghiên cứu cụ thể trong từng bước phân tích, từ tiền xử lý mẫu, thu thập dữ liệu đến phân tích dữ liệu. Hiện nay, nhờ cải tiến các phương pháp tiền xử lý, không ngừng đổi mới công nghệ khối phổ và sự phát triển nhanh chóng của tin sinh học, metaproteomics đã đạt được tiến bộ vượt bậc về độ sâu nhận dạng và phạm vi ứng dụng.

 

Trong quá trình tiền xử lý mẫu macroproteome, bản chất của mẫu phải được xem xét trước tiên. Làm thế nào để tách vi sinh vật ra khỏi tế bào và protein môi trường là một trong những thách thức chính mà các macroproteome phải đối mặt và sự cân bằng giữa hiệu quả phân tách và sự mất mát của vi sinh vật là một vấn đề cấp bách cần giải quyết. Thứ hai, việc chiết xuất protein của vi sinh vật phải tính đến sự khác biệt do tính không đồng nhất về cấu trúc của các vi khuẩn khác nhau. Các mẫu macroproteome trong phạm vi vết cũng yêu cầu các phương pháp tiền xử lý cụ thể.

 

Về mặt thiết bị đo phổ khối, các thiết bị đo phổ khối phổ thông đã trải qua quá trình chuyển đổi từ máy quang phổ khối dựa trên máy phân tích khối lượng Orbitrap như LTQ-Orbitrap và Q Exactive sang máy quang phổ khối dựa trên máy phân tích khối lượng thời gian bay kết hợp di động ion như timsTOF Pro . Dòng thiết bị timsTOF có thông tin kích thước di động ion có độ chính xác phát hiện cao, giới hạn phát hiện thấp và độ lặp lại tốt. Chúng dần dần trở thành công cụ quan trọng trong nhiều lĩnh vực nghiên cứu đòi hỏi phát hiện khối phổ, chẳng hạn như hệ protein, metaproteome và hệ chuyển hóa của một loài. Điều đáng chú ý là trong một thời gian dài, phạm vi động của các thiết bị đo khối phổ đã hạn chế độ sâu bao phủ protein của nghiên cứu metaproteome. Trong tương lai, các thiết bị đo phổ khối có dải động lớn hơn có thể cải thiện độ nhạy và độ chính xác của việc xác định protein trong metaproteome.

 

Để thu thập dữ liệu khối phổ, mặc dù chế độ thu thập dữ liệu DIA đã được áp dụng rộng rãi trong hệ protein của một loài, hầu hết các phân tích macroproteome hiện tại vẫn sử dụng chế độ thu thập dữ liệu DDA. Chế độ thu thập dữ liệu DIA có thể thu được đầy đủ thông tin ion mảnh của mẫu và so với chế độ thu thập dữ liệu DDA, nó có khả năng thu được đầy đủ thông tin peptide của mẫu macroproteome. Tuy nhiên, do độ phức tạp cao của dữ liệu DIA, việc phân tích dữ liệu macroproteome DIA vẫn gặp khó khăn lớn. Sự phát triển của trí tuệ nhân tạo và học sâu được kỳ vọng sẽ cải thiện tính chính xác và đầy đủ của phân tích dữ liệu DIA.

 

Trong phân tích dữ liệu về metaproteomics, một trong những bước quan trọng là xây dựng cơ sở dữ liệu trình tự protein. Đối với các lĩnh vực nghiên cứu phổ biến như hệ thực vật đường ruột, cơ sở dữ liệu về vi khuẩn đường ruột như IGC và HMP có thể được sử dụng và đã đạt được kết quả nhận dạng tốt. Đối với hầu hết các phân tích metaproteomics khác, chiến lược xây dựng cơ sở dữ liệu hiệu quả nhất vẫn là thiết lập cơ sở dữ liệu trình tự protein dành riêng cho mẫu dựa trên dữ liệu giải trình tự metagenomic. Đối với các mẫu cộng đồng vi sinh vật có độ phức tạp cao và dải động lớn, cần tăng độ sâu trình tự để tăng khả năng xác định các loài có độ phong phú thấp, từ đó cải thiện độ bao phủ của cơ sở dữ liệu trình tự protein. Khi thiếu dữ liệu tuần tự, phương pháp tìm kiếm lặp lại có thể được sử dụng để tối ưu hóa cơ sở dữ liệu công cộng. Tuy nhiên, tìm kiếm lặp lại có thể ảnh hưởng đến việc kiểm soát chất lượng FDR, do đó kết quả tìm kiếm cần được kiểm tra cẩn thận. Ngoài ra, khả năng ứng dụng các mô hình kiểm soát chất lượng FDR truyền thống trong phân tích metaproteomics vẫn còn đáng để khám phá. Về mặt chiến lược tìm kiếm, chiến lược thư viện quang phổ lai có thể cải thiện độ sâu bao phủ của metaproteomics DIA. Trong những năm gần đây, thư viện quang phổ dự đoán được tạo ra dựa trên học sâu đã cho thấy hiệu suất vượt trội trong DIA proteomics. Tuy nhiên, cơ sở dữ liệu metaproteome thường chứa hàng triệu mục protein, dẫn đến thư viện quang phổ dự đoán có quy mô lớn, tiêu tốn nhiều tài nguyên máy tính và dẫn đến không gian tìm kiếm lớn. Ngoài ra, sự giống nhau giữa các chuỗi protein trong metaproteome rất khác nhau, gây khó khăn cho việc đảm bảo tính chính xác của mô hình dự đoán thư viện quang phổ, do đó các thư viện quang phổ dự đoán chưa được sử dụng rộng rãi trong metaproteomics. Ngoài ra, các chiến lược chú thích phân loại và suy luận protein mới cần được phát triển để áp dụng vào phân tích metaproteomics của các protein có trình tự cao.

 

Tóm lại, là một công nghệ nghiên cứu hệ vi sinh vật mới nổi, công nghệ metaproteomics đã đạt được những kết quả nghiên cứu đáng kể và còn có tiềm năng phát triển rất lớn.


Thời gian đăng: 30-08-2024