Lý do nghiên cứu: Việc khai thác sức mạnh của hệ gen để tìm ra các yếu tố nguy cơ gây ra các bệnh chính hoặc tìm kiếm người thân dựa vào khả năng phân tích số lượng khổng lồ của các bộ gen. Các nhà khoa học máy tính hiện đã san bằng sân chơi bằng cách tạo ra một nền tảng dựa trên đám mây cho phép các nhà nghiên cứu bộ gen dễ dàng truy cập vào một trong những cơ sở dữ liệu bộ gen lớn nhất thế giới AnVIL, nền tảng mới cung cấp cho bất kỳ nhà nghiên cứu nào có kết nối Internet quyền truy cập vào hàng nghìn công cụ phân tích, hồ sơ bệnh nhân và hơn 300.000 bộ gen.
"AnVIL đang đảo ngược mô hình chia sẻ dữ liệu bộ gen, mang đến những cơ hội mới chưa từng có cho khoa học bằng cách kết nối các nhà nghiên cứu và bộ dữ liệu theo những cách mới và hứa hẹn mang đến những khám phá mới thú vị", đồng trưởng dự án Michael Schatz, Giáo sư tại Johns Hopkins.
Các yếu tố nguy cơ di truyền đối với các bệnh như ung thư hoặc bệnh tim mạch thường rất tinh vi, đòi hỏi các nhà nghiên cứu phải phân tích hàng nghìn bộ gen của bệnh nhân để phát hiện ra các mối liên quan mới. Dữ liệu thô cho một bộ gen người bao gồm khoảng 40GB, vì vậy việc tải xuống hàng nghìn bộ gen có thể mất vài ngày đến vài tuần: Một bộ gen đơn lẻ yêu cầu khoảng 10 DVD giá trị dữ liệu, vì vậy việc chuyển hàng nghìn đồng nghĩa với việc chuyển tải "hàng chục nghìn DVD trị giá dữ liệu, "Schatz nói.
Ngoài ra, nhiều nghiên cứu yêu cầu tích hợp dữ liệu được thu thập tại nhiều cơ sở, có nghĩa là mỗi cơ sở phải tải xuống bản sao của chính mình trong khi đảm bảo duy trì bảo mật dữ liệu bệnh nhân. Thách thức này dự kiến sẽ trở nên lớn hơn khi phân tích hàng trăm nghìn đến hàng triệu bộ gen cùng một lúc.
"Kết nối với AnVIL từ xa giúp loại bỏ nhu cầu tải xuống lớn và tiết kiệm chi phí", Schatz nói. "các nhà nghiên cứu dễ dàng di chuyển đến dữ liệu trên đám mây. Nó cũng giúp việc chia sẻ bộ dữ liệu dễ dàng hơn nhiều để dữ liệu có thể được kết nối theo những cách mới để tìm ra các liên kết mới và nó đơn giản hóa rất nhiều công việc tính toán các vấn đề, chẳng hạn như cung cấp mã hóa mạnh mẽ và quyền riêng tư cho tập dữ liệu bệnh nhân. "
AnVIL cũng cung cấp một số công cụ phân tích chính, bao gồm Galaxy, được phát triển một phần tại Johns Hopkins, cùng với các công cụ phổ biến khác như R / Bioconductor, sổ ghi chép Jupyter, WDL, Gen3 và Dockstore để hỗ trợ cả phân tích tương tác mà không cần xây dựng môi trường máy tính riêng.
» Tin mới nhất:
» Các tin khác: