ข้อมูล

อะไรคือข้อดีของการจัดลำดับการอ่านแบบยาวสำหรับการวิจัยเกี่ยวกับมะเร็งผิวหนัง

อะไรคือข้อดีของการจัดลำดับการอ่านแบบยาวสำหรับการวิจัยเกี่ยวกับมะเร็งผิวหนัง


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

ขณะนี้ฉันกำลังใช้การจัดลำดับ nanopore ของจีโนมทั้งหมด การอ่านแบบสั้นของ Illumina และการอ่านที่เชื่อมโยง 10 เท่าเพื่อศึกษากลไกการสร้างเนื้องอกของมะเร็งที่หายากบางชนิด ฉันสงสัยเกี่ยวกับข้อดีของการจัดลำดับนาโนพอร์ในสาขานี้ เช่น การค้นพบยีนฟิวชัน การตรวจจับตัวแปรโครงสร้างขนาดใหญ่ และการเปลี่ยนแปลงหมายเลขสำเนา (SV/CNA) เมื่อเปรียบเทียบกับ Illumina และ 10x? ฉันกำลังดิ้นรนกับการสร้างข้อเสนอวิทยานิพนธ์ระดับปริญญาเอก ดังนั้นคำแนะนำใด ๆ ที่จะได้รับการชื่นชม!


ความท้าทายในการจัดลำดับยุคหน้า

ในช่วง 10 ปีที่ผ่านมา การจัดลำดับยุคหน้า (NGS) เติบโตขึ้นอย่างก้าวกระโดด ผลผลิตเพิ่มขึ้นและต้นทุนลดลง—ทั้งตามลำดับความสำคัญ กราฟ NIH ที่แสดงความคืบหน้านี้ถูกใช้มากเกินไปจนประโยชน์หลักในตอนนี้คือการช่วยให้ผู้เข้าร่วมประชุมที่เบื่อกรอกการ์ด "buzzword bingo"

ด้วยอุปกรณ์กว่า 10,000 เครื่องที่ติดตั้งทั่วโลก เราเผชิญกับความขัดแย้ง: รุ่นปัจจุบันและรุ่นต่อไปเป็นหนึ่งเดียวกัน “ถัดไป” ในบริบทของการจัดลำดับ เกือบจะสูญเสียความหมายไปโดยสิ้นเชิง เราอาจยอมรับเช่นกันว่า "การจัดลำดับรุ่นต่อไป" ตอนนี้เป็นเพียง "การจัดลำดับ"

บริษัทแพลตฟอร์มรายใหญ่ได้ใช้เวลาสองสามปีที่ผ่านมาโดยมุ่งเน้นที่การปรับปรุงการใช้งานง่าย ระบบเดสก์ท็อปรุ่นใหม่ของ Illumina เช่น ระบบ NextSeq, MiSeq และ MiniSeq ทั้งหมดทำงานโดยใช้ตลับหมึกรีเอเจนต์ ซึ่งช่วยลดจำนวนการปรับแต่งและเวลา "ลงมือทำ"

แพลตฟอร์ม Ion Torrent จาก Thermo Fisher Scientific นั้นใช้งานยากกว่าแพลตฟอร์ม Illumina ในอดีต อย่างไรก็ตาม Ion S5 ระบบล่าสุดของ Thermo ได้รับการออกแบบมาโดยเฉพาะเพื่อลดความซับซ้อนของเวิร์กโฟลว์ทั้งหมด ตั้งแต่การเตรียมห้องสมุดไปจนถึงการสร้างข้อมูล

หลังจากได้ยินเกี่ยวกับการปรับปรุงหลายอย่างของการจัดลำดับ—ผลผลิตที่มากขึ้น, ต้นทุนที่ต่ำลง, และความสะดวกในการใช้งานที่ดีขึ้น—ผู้สังเกตการณ์ทั่วไปอาจจินตนาการว่าการทำงานหนักทั้งหมดเสร็จสิ้นลงแล้ว และอุปสรรคต่อความก้าวหน้าทั้งหมดได้ถูกขจัดออกไปแล้ว แต่การทำงานหนักเพิ่งเริ่มต้นขึ้น และยังมีความท้าทายอีกมากมาย

พื้นที่แรกๆ ที่ปัญหาอาจคืบคลานเข้ามามักจะถูกมองข้ามมากที่สุด นั่นคือคุณภาพตัวอย่าง แม้ว่าแพลตฟอร์มมักจะได้รับการทดสอบและเปรียบเทียบโดยใช้ตัวอย่างที่ได้รับการดูแลจัดการอย่างดี (เช่น เอกสารอ้างอิงจาก Genome in a Bottle Consortium) ตัวอย่างในโลกแห่งความเป็นจริงมักนำเสนอความท้าทายมากกว่ามาก

สำหรับการจัดลำดับโดยมนุษย์ ตัวอย่างประเภทหนึ่งที่ได้รับความนิยมมากที่สุดคือ FFPE (ฝังพาราฟินฟอร์มาลินคงที่) FFPE ได้รับความนิยมจากหลายสาเหตุ อย่างน้อยก็เพราะตัวอย่าง FFPE ที่อุดมสมบูรณ์ ตามการประมาณการ ตัวอย่าง FFPE กว่าพันล้านตัวอย่างถูกเก็บถาวรทั่วโลก จำนวนนี้จะเพิ่มขึ้นอย่างต่อเนื่องในขณะนี้ เนื่องจากการจัดเก็บตัวอย่างทางคลินิกในบล็อก FFPE ได้กลายเป็นแนวปฏิบัติมาตรฐานทั่วทั้งอุตสาหกรรม

นอกเหนือจากการมีอยู่อย่างแพร่หลาย ตัวอย่าง FFPE มักประกอบด้วยข้อมูลฟีโนไทป์ที่มีประโยชน์อย่างเหลือเชื่อ ตัวอย่างเช่น ตัวอย่าง FFPE มักเกี่ยวข้องกับการรักษาพยาบาลและข้อมูลผลลัพธ์ทางคลินิก

ปัญหาเกี่ยวกับตัวอย่าง FFPE คือทั้งกระบวนการตรึงและสภาวะในการจัดเก็บสามารถก่อให้เกิดความเสียหายต่อ DNA ได้อย่างกว้างขวาง “ในการประเมินตัวอย่างมากกว่า 1,000 ตัวอย่างบนแพลตฟอร์ม QC ของ BioCule เราได้เห็นความแปรปรวนอย่างมากของจำนวนและประเภทของความเสียหายใน DNA ตัวอย่าง เช่น ครอสลิงก์ระหว่างและในสาย การสะสมของ DNA สายเดี่ยว และการทำลาย DNA สายเดี่ยว Hans G. Thormar, Ph.D. ผู้ร่วมก่อตั้งและ CEO ของ BioCule กล่าว

ปริมาณและประเภทของความเสียหายที่เปลี่ยนแปลงได้ หากละเลย อาจส่งผลเสียต่อผลลัพธ์สุดท้าย “ผลกระทบต่อแอพพลิเคชั่นดาวน์สตรีม เช่น การจัดลำดับ สามารถเกิดขึ้นได้อย่างลึกซึ้ง ตั้งแต่ความล้มเหลวของไลบรารีธรรมดาไปจนถึงไลบรารีที่สร้างข้อมูลปลอม ซึ่งนำไปสู่การตีความผลลัพธ์ที่ผิดพลาด” ดร. Thormar กล่าวต่อ ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องประเมินคุณภาพของแต่ละตัวอย่างอย่างเหมาะสมในช่วงเริ่มต้นของโครงการจัดลำดับ


ในเวิร์กโฟลว์การจัดลำดับรุ่นต่อไป ตัวอย่างที่มีคุณภาพต่ำหรือตัวแปรสามารถทำลายกระบวนการดาวน์สตรีม เช่น การเตรียมห้องสมุดและการวิเคราะห์ที่ก่อให้เกิดความสับสนในท้ายที่สุด ตัวอย่างควรได้รับการประเมินสำหรับการเชื่อมขวาง การแตกหัก การสะสมของ DNA สายเดี่ยว และความเสียหายรูปแบบอื่นๆ

เตรียมห้องสมุด

แม้ว่าบริษัทแพลตฟอร์มการจัดลำดับหลัก ๆ จะใช้เวลาหลายปีในการลดต้นทุนในการสร้างลำดับดิบ แต่ก็ไม่เป็นความจริงสำหรับการเตรียมห้องสมุด การเตรียมห้องสมุดสำหรับการจัดลำดับจีโนมทั้งหมดของมนุษย์ ในราคาประมาณ 50 ดอลลาร์ต่อตัวอย่าง ยังคงเป็นส่วนน้อยของต้นทุนทั้งหมด แต่สำหรับการใช้งานอื่นๆ เช่น การหาลำดับจีโนมของแบคทีเรียหรือการจัดลำดับ RNA เชิงลึก (RNA-seq) ก็สามารถคิดค่าใช้จ่ายส่วนใหญ่ได้

หลายกลุ่มกำลังทำงานเกี่ยวกับโซลูชัน homebrew แบบมัลติเพล็กซ์เพื่อลดต้นทุนที่มีประสิทธิภาพ แต่ก็ยังไม่มีการพัฒนามากนักในเชิงพาณิชย์ จุดสว่างจุดหนึ่งคือการพัฒนาโซลูชันการจัดลำดับเซลล์เดียว เช่น ระบบ Chromium™ จาก 10X Genomics ซึ่งใช้ระบบแบบลูกปัดสำหรับการประมวลผลตัวอย่างหลายร้อยถึงหลายพันตัวอย่างพร้อมกัน

"เราเห็น RNA-seq เซลล์เดียวเป็นวิธีที่ถูกต้องในการวิเคราะห์การแสดงออกของยีน" Serge Saxonov, Ph.D. , ผู้ร่วมก่อตั้งและซีอีโอของ 10X Genomics กล่าว "ในอีกไม่กี่ปีข้างหน้า โลกส่วนใหญ่จะเปลี่ยนไปใช้ความละเอียดเซลล์เดียวสำหรับการทดลองอาร์เอ็นเอ และเรารู้สึกตื่นเต้นที่แพลตฟอร์มของเราจะเป็นผู้นำในการดำเนินการดังกล่าว" สำหรับโครงการขนาดใหญ่ เช่น โครงการที่จำเป็นสำหรับ RNA-seq เซลล์เดียว โซลูชันที่มีมัลติเพล็กซ์สูงจะมีความสำคัญอย่างยิ่งในการทำให้ต้นทุนต่อตัวอย่างต่ำพอสมควร

การอ่านแบบสั้นและแบบยาว

การครอบงำตลาดการจัดลำดับของ Illumina นั้นหมายความว่าข้อมูลส่วนใหญ่ที่สร้างขึ้นจนถึงตอนนี้นั้นขึ้นอยู่กับการอ่านระยะสั้น การอ่านข้อมูลสั้น ๆ จำนวนมากนั้นเหมาะสมสำหรับการใช้งานหลายอย่าง เช่น การตรวจหา single-nucleotide polymorphisms ใน DNA ของจีโนมและการนับ RNA transcripts อย่างไรก็ตาม การอ่านแบบสั้นเพียงอย่างเดียวไม่เพียงพอในการใช้งานหลายอย่าง เช่น การอ่านผ่านบริเวณที่ซ้ำซ้อนของจีโนม และการกำหนดโครงสร้างระยะไกล

แพลตฟอร์มแบบอ่านยาว เช่น RSII และภาคต่อจาก Pacific Biosciences และ MinION จาก Oxford Nanopore Technologies สามารถสร้างการอ่านได้เป็นประจำในช่วง 15-20 กิโลเบส (kb) โดยมีการรายงานการอ่านแต่ละรายการมากกว่า 100 kb แพลตฟอร์มดังกล่าวได้รับความเคารพจากนักวิทยาศาสตร์ เช่น Charles Gasser, Ph.D., ศาสตราจารย์ด้านชีววิทยาระดับโมเลกุลและเซลล์ที่ University of California, Davis

"ผมประทับใจกับความสำเร็จที่ผู้คนได้รับจากการใช้วิธีการอ่านค่ายาวสำหรับการประกอบจีโนมของ de novo โดยเฉพาะอย่างยิ่งในชุดประกอบแบบไฮบริดเมื่อรวมกับข้อมูลที่มีความเที่ยงตรงสูงที่อ่านค่าสั้น" Dr. Gasser ให้ความเห็น "การผสมผสานของเทคโนโลยีนี้ทำให้ผู้ตรวจสอบคนเดียวที่มีกลุ่มเล็กมากและมีงบประมาณน้อยที่สุดในการผลิตชุดประกอบที่ใช้งานได้จากจีโนมของสิ่งมีชีวิตใหม่"

อย่างไรก็ตาม เพื่อให้ได้รับประโยชน์สูงสุดจากแพลตฟอร์มที่อ่านมานานเหล่านี้ จำเป็นต้องใช้วิธีการใหม่ในการเตรียมตัวอย่างดีเอ็นเอ วิธีการทางอณูชีววิทยามาตรฐานยังไม่ได้รับการปรับให้เหมาะสมสำหรับการแยกชิ้นส่วน DNA ที่มีความยาวมาก ดังนั้นจึงต้องระมัดระวังเป็นพิเศษในการเตรียมห้องสมุดที่อ่านมานาน

ตัวอย่างเช่น ผู้ขายได้สร้างชุดอุปกรณ์ "ที่มีน้ำหนักโมเลกุลสูง" เป็นพิเศษสำหรับการแยกชิ้นส่วน DNA >100 kb และโปรโตคอล DNA เป้าหมายได้รับการแก้ไขเพื่อเพิ่มคุณค่าอย่างเลือกสรรสำหรับชิ้นส่วน DNA ขนาดใหญ่ วิธีการและเทคนิคใหม่เหล่านี้จำเป็นต้องได้รับการฝึกฝนเพื่อให้แน่ใจว่าได้ผลผลิตที่อ่านได้นานสูงสุด

แทนที่จะใช้การอ่านแบบยาวจริง บางคนหันไปใช้รูปแบบเฉพาะของการอ่านสั้นๆ ที่เรียกว่าอ่านแบบลิงก์ เช่น จาก 10X Genomics การอ่านแบบลิงก์ถูกสร้างขึ้นโดยการเพิ่มบาร์โค้ดที่ไม่ซ้ำกันในแต่ละการอ่านสั้นๆ ที่สร้างจากส่วนย่อยของ DNA ที่มีความยาวเพียงชิ้นเดียว ซึ่งโดยทั่วไปแล้วจะอยู่ที่ >100 kb บาร์โค้ดที่ไม่ซ้ำกันใช้เพื่อเชื่อมโยงการอ่านสั้น ๆ แต่ละรายการเข้าด้วยกันในระหว่างกระบวนการวิเคราะห์ ข้อมูลนี้จะให้ข้อมูลจีโนมระยะยาว ทำให้สามารถสร้างบล็อกฮาโพลไทป์ขนาดใหญ่และอธิบายข้อมูลโครงสร้างที่ซับซ้อนได้

"การจัดลำดับแบบอ่านสั้นในขณะที่มีประสิทธิภาพมหาศาลเนื่องจากมีความถูกต้องและปริมาณงานสูง สามารถเข้าถึงเนื้อหาจีโนมได้เพียงเศษเสี้ยวเดียวเท่านั้น" Dr. Saxonov ให้คำแนะนำ “นั่นเป็นเพราะว่าจีโนมมีความซ้ำซากจำเจอย่างมาก และข้อมูลส่วนใหญ่ในจีโนมนั้นถูกเข้ารหัสในระดับยาว”


แอปพลิเคชันการจัดลำดับบางอย่าง เช่น การตรวจจับ single nucleotide polymorphisms สามารถจัดการได้ด้วยเทคโนโลยีแบบอ่านสั้น การใช้งานอื่นๆ เช่น การตรวจจับโครงสร้างที่แปรผัน อาจต้องการเทคโนโลยีที่อ่านค่ามานาน และการใช้งานบางอย่าง เช่น การประกอบจีโนมของสิ่งมีชีวิตใหม่ อาจต้องใช้วิธีการแบบผสมผสาน โดยการอ่านแบบสั้นจะให้ความแม่นยำและปริมาณงานสูง หากเป็นไปได้ และการอ่านแบบยาวเพื่อรับมือกับภูมิภาคจีโนมที่ซ้ำซากจำเจ [รูปภาพ ktsimage / Getty]

การวิเคราะห์ข้อมูล

ความท้าทายอีกประการหนึ่งที่นักวิจัยต้องเผชิญคือการสร้างข้อมูลจำนวนมหาศาล ไฟล์ BAM (ไฟล์การจัดตำแหน่งแบบกึ่งบีบอัด) สำหรับตัวอย่างจีโนมทั้งหมดของมนุษย์ 30 เท่า มีขนาดประมาณ 90 GB โครงการที่ค่อนข้างเจียมเนื้อเจียมตัวจำนวน 100 ตัวอย่างจะสร้างไฟล์ BAM ขนาด 9 TB

ด้วยเครื่องมือ Illumina HiSeq X เครื่องเดียวที่สามารถสร้างข้อมูลได้มากกว่า 130 TB ต่อปี การจัดเก็บจะกลายเป็นปัญหาได้อย่างรวดเร็ว ตัวอย่างเช่น Broad Institute กำลังสร้างข้อมูลการจัดลำดับที่อัตราจีโนม 30X หนึ่งจีโนมทุกๆ 12 นาที ซึ่งเป็นไฟล์ BAM มูลค่าเกือบ 4,000 TB ทุกปี

ไฟล์ BAM อาจถูกแปลงเป็นไฟล์ VCF (รูปแบบการโทรแบบแปรผัน) ซึ่งมีข้อมูลเฉพาะบนฐานที่แตกต่างจากลำดับอ้างอิงเท่านั้น แม้ว่าไฟล์ VCF จะเล็กกว่าและใช้งานได้ง่ายกว่ามาก แต่ก็ยังจำเป็นต้องเก็บไฟล์ลำดับดิบไว้หากผู้วิจัยต้องการประมวลผลข้อมูลใหม่ในอนาคต

เนื่องจากค่าใช้จ่ายในการจัดลำดับลดลง บางคนได้ข้อสรุปว่าการจัดลำดับตัวอย่างใหม่ซึ่งมีวัสดุเหลือเฟือจะง่ายกว่าและอาจถูกกว่าด้วยซ้ำ และเมื่อต้องวิเคราะห์ข้อมูลจำนวนมาก นักวิจัยมักมีตัวเลือกมากมาย อันที่จริง ด้วยเครื่องมือวิเคราะห์การจัดลำดับมากกว่า 3,000 รายการที่ระบุไว้ใน OMICtools (ไดเรกทอรีที่ดำเนินการโดย omicX) นักวิจัยอาจรู้สึกไม่สบายใจเมื่อพยายามค้นหาตัวเลือกที่ดีที่สุด

การตีความทางคลินิกและการชำระเงินคืน

สุดท้าย สำหรับตัวอย่างทางคลินิก ยังคงมีความท้าทายในการนำเสนอตัวแปรการจัดลำดับที่สอดคล้องกันและเชื่อถือได้ โดยเฉพาะอย่างยิ่งที่เกี่ยวข้องกับการดูแลผู้ป่วย ตัวอย่าง exome ทั่วไปจะมีตัวแปรระหว่าง 10,000 ถึง 20,000 ตัว ในขณะที่ตัวอย่างทั้งจีโนมโดยทั่วไปจะมีมากกว่า 3 ล้านตัว เพื่อให้สิ่งต่าง ๆ สามารถจัดการได้มากขึ้น ตัวแปรต่างๆ มักจะถูกกรองตามแนวโน้มที่จะทำให้เกิดโรค

เพื่อช่วยแนะนำแพทย์ American College of Medical Genetics and Genomics, Association for Molecular Pathology และ College of American Pathologists ได้สร้างระบบสำหรับการจำแนกตัวแปร หมวดหมู่ต่างๆ ได้แก่ การก่อโรค มีแนวโน้มว่าจะทำให้เกิดโรค มีนัยสำคัญที่ไม่แน่นอน (ซึ่งปัจจุบันประกอบขึ้นเป็นส่วนใหญ่ในตัวอย่างภายนอกและทั้งจีโนม) มีแนวโน้มว่าจะไม่เป็นพิษเป็นภัย และไม่เป็นพิษเป็นภัย

อย่างไรก็ตาม แผนการดังกล่าวก็มีข้อจำกัด แม้ว่ารูปแบบการจัดหมวดหมู่ทั่วไปจะใช้กับชุดข้อมูลที่เหมือนกัน กลุ่มต่างๆ ก็อาจมีการตีความที่แตกต่างกัน ในการศึกษานำร่องภายใต้ระบบใหม่ ห้องปฏิบัติการทางคลินิกที่เข้าร่วมโครงการตกลงที่จะจำแนกประเภทของพวกเขาเพียง 34% ของเวลาเท่านั้น

ในกรณีที่มีข้อขัดแย้งหรือต้องมีการวิเคราะห์เพิ่มเติมเพื่อตีความผลลัพธ์ ปัญหาการชำระเงินคืนจะกลายเป็นสิ่งกีดขวางบนถนน การจ่ายเงินคืนสำหรับการทดสอบตาม NGS อาจเป็นความท้าทายที่สำคัญ แต่การชำระเงินคืนสำหรับการตีความแทบจะเป็นไปไม่ได้เลย

"ไม่มีทางที่ห้องปฏิบัติการจะเรียกเก็บเงินสำหรับการตีความ" เจนนิเฟอร์ฟรีดแมน, M.D. , ผู้ตรวจสอบทางคลินิกที่สถาบัน Rady Children's for Genomic Medicine กล่าว “เป็นบริการที่มีคุณค่ามากที่สามารถใช้ได้ แต่ไม่มีใครอยู่ในพื้นที่นั้นจริงๆ

“ไม่มีทางที่จะเรียกเก็บเงินได้—บริษัทประกันจะไม่จ่ายเงินสำหรับมัน แม้จะให้ความสำคัญกับยาที่แม่นยำมากขึ้น ไม่ว่าแพทย์หรือห้องปฏิบัติการจะตีความ แต่ประเด็นที่สำคัญที่สุดนี้ไม่ได้รับการยอมรับหรือให้คุณค่าโดยผู้จ่ายเงินด้านการรักษาพยาบาล”

จนกว่าจะมีการเปลี่ยนแปลงนี้ การวิเคราะห์ตัวอย่างผู้ป่วยเหล่านี้โดยพื้นฐานแล้วจะต้องได้รับการปฏิบัติเหมือนเป็นโครงการวิจัย ซึ่งโดยทั่วไปแล้วจะมีทางเลือกในสถานพยาบาลวิจัยเท่านั้น และสำหรับผู้ป่วยในจำนวนจำกัดเท่านั้น

มองไปข้างหน้า

ความก้าวหน้ามากเท่าที่เคยมีมาในช่วงหลายปีที่ผ่านมา ความท้าทายมากมายยังคงมีอยู่ในเวิร์กโฟลว์ NGS ทั้งหมด ตั้งแต่การเตรียมตัวอย่างไปจนถึงการวิเคราะห์ข้อมูล และเมื่อมีความก้าวหน้าใหม่ๆ ในเทคโนโลยีพื้นฐาน ความท้าทายใหม่ๆ ก็จะเกิดขึ้นต่อไป การเพิ่มขึ้นของความท้าทายเหล่านี้จะมีความสำคัญอย่างยิ่งในการสร้างความมั่นใจในการนำเทคโนโลยีจีโนมเหล่านี้ไปใช้ในวงกว้างและเพื่อเพิ่มผลกระทบต่อสุขภาพของมนุษย์ให้เกิดประโยชน์สูงสุด

ตัวแปรโครงสร้างแบบยาวและแบบสั้น

แม้ว่าการจัดลำดับรุ่นต่อไปมีส่วนให้ความก้าวหน้าอย่างรวดเร็วในความสามารถของเราในการตรวจหาความผันแปรทางพันธุกรรมแบบเบสเดียว ตัวแปรประเภทอื่นทั้งหมดถูกละทิ้งจากภาพเนื่องจากธรรมชาติของลำดับการอ่านสั้นที่สร้างโดยแพลตฟอร์มเหล่านี้ ตัวแปรเหล่านี้มีขนาดเล็กเกินไปที่จะตรวจจับด้วยวิธีการทางเซลล์สืบพันธุ์ แต่มีขนาดใหญ่เกินกว่าจะค้นพบได้อย่างน่าเชื่อถือด้วยการจัดลำดับแบบอ่านสั้น นี่ไม่ใช่เรื่องเล็กน้อย: จีโนมมนุษย์แต่ละจีโนมมีโครงสร้างที่แตกต่างกันประมาณ 20,000 แบบ และหลายจีโนมแสดงให้เห็นว่าทำให้เกิดโรค

เทคโนโลยีการหาลำดับโมเลกุลเดี่ยวแบบเรียลไทม์ (SMRT) กำลังแก้ปัญหาความท้าทายในการระบุตัวแปรโครงสร้างเหล่านี้ด้วยความไวสูง ส่วนหนึ่งเนื่องมาจากการอ่านค่าที่ยาวนานโดยพื้นฐาน การจัดลำดับ SMRT สร้างการอ่านที่มีความยาวหลายกิโลเบส เมื่อเทียบกับฐาน 200 หรือ 300 สำหรับซีเควนเซอร์แบบอ่านสั้น ดังนั้นจึงสามารถแก้ไขตัวแปรโครงสร้างส่วนใหญ่ได้อย่างเต็มที่ เช่น การแทรก การลบ การทำซ้ำ การกลับกัน การขยายซ้ำ และอื่นๆ

การศึกษาจำนวนมากกำลังใช้ข้อมูลลำดับ SMRT ที่อ่านมานานสำหรับการค้นพบตัวแปรเชิงโครงสร้าง ในโครงการที่นำเสนอเมื่อปีที่แล้วที่ American Society of Human Genetics ตัวอย่างของมนุษย์ NA12878 ได้รับการจัดลำดับให้ครอบคลุม 10 เท่าในระบบภาคต่อของ Pacific Biosciences และรูปแบบโครงสร้างถูกเรียกด้วยเครื่องมือ PBHoney ของ Baylor College of Medicine

วิธีนี้พบเกือบ 90% ของรูปแบบโครงสร้างในจีโนม โดยอิงจากการเปรียบเทียบกับชุดความจริงของจีโนมในขวด นอกจากนี้ ความครอบคลุมที่อ่านนานยังระบุตัวแปรใหม่หลายพันรายการที่ไม่พบในชุดข้อมูลแบบอ่านสั้น ซึ่งส่วนใหญ่ได้รับการยืนยันโดยชุดประกอบของ de novo

ในขณะที่ความพยายามหันไปใช้การวิเคราะห์รูปแบบโครงสร้างในกลุ่มประชากรตามรุ่นจำนวนมาก สิ่งสำคัญคือต้องสร้างสมดุลระหว่างความอ่อนไหวกับต้นทุน ความครอบคลุมของการจัดลำดับ SMRT แบบพับต่ำมีศักยภาพที่จะเป็นโซลูชันที่มีประสิทธิภาพและราคาไม่แพงสำหรับการค้นพบตัวแปรเชิงโครงสร้างในจีโนมของมนุษย์ และประโยชน์ก็นำไปใช้กับจีโนมที่ซับซ้อนอื่นๆ เช่นกัน


การจัดลำดับ Nanopore มีลักษณะเป็นระยะยาว

Oxford Nanopore Technologies (ONT) ประกาศว่าภารกิจของ บริษัท คือการเปิดใช้งาน "การวิเคราะห์ทางพันธุกรรมของทุกสิ่งโดยทุกคนและทุกที่" อันที่จริงซีเควนเซอร์ของ ONT ใช้ใน 80 ประเทศ นอกเหนือจากความสามารถในการพกพา เทคโนโลยีของ ONT ยังขึ้นชื่อในด้านการผลิตการอ่านที่ยาวมาก โดยสร้างลำดับดีเอ็นเอ >2 Mb แรกที่รายงานในปี 2018 เทคโนโลยีนี้ได้สนับสนุนโครงการต่างๆ ตั้งแต่การทดสอบวินิจฉัยในไลบีเรียระหว่างการระบาดของโรคอีโบลาในปี 2016 ไปจนถึงการสร้างมนุษย์ใหม่ จีโนมอ้างอิง

ในเดือนมิถุนายน 2014 Nick Loman, PhD, ศาสตราจารย์ด้านจุลชีววิทยาที่มหาวิทยาลัยเบอร์มิงแฮมในสหราชอาณาจักร ได้ใช้ Twitter เพื่อเผยแพร่ข้อมูลแรกที่รวบรวมโดยใช้เครื่องมือจัดลำดับแบบใหม่ที่ปฏิวัติวงการ ข้อมูลที่นำเสนอในกราฟที่รู้จักกันอย่างสนิทสนมว่าเป็น "โครงเรื่องกระดิก" แสดงให้เห็นว่ากระแสไฟฟ้าเปลี่ยนแปลงไปตามกาลเวลาอย่างไรเมื่อสาย DNA เคลื่อนผ่านช่องแบคทีเรียอย่างรวดเร็ว ทีมของ Loman ได้แปลงยอดและหุบเขาของกราฟเป็นลำดับดีเอ็นเอต้นแบบของ Pseudomonas aeruginosa.

ในปี 1989 David Deamer, PhD, วิศวกรชีวโมเลกุลจาก University of California, Santa Cruz ได้จดรายการสมุดบันทึกที่ช่วยสร้างพื้นฐานของการจัดลำดับนาโนพอร์ บันทึกย่อแสดงให้เห็นว่า Deamer ตระหนักว่าหาก DNA เส้นเดียวต้องผ่าน nanopore ฐาน DNA ที่ต่อเนื่องกันแต่ละฐานจะทำลายกระแสไฟฟ้าที่จัดตั้งขึ้นในระดับที่แตกต่างกันขึ้นอยู่กับขนาดและรูปร่างของฐาน

Loman เป็นผู้ศรัทธาในยุคแรกๆ ของ minion ซึ่งเป็นเครื่องซีเควนเซอร์ DNA แบบพกพา ซึ่งเป็นเครื่องมือแรกที่ผลิตโดยบริษัทเทคโนโลยีชีวภาพของอังกฤษ Oxford Nanopore Technologies select ONT) ทวีตของเขามีมาเกือบ 25 ปีเกือบวันหลังจากแนวคิดของการจัดลำดับนาโนพอร์ถูกฟักออกโดย David Deamer, PhD, ศาสตราจารย์วิจัยด้านวิศวกรรมชีวโมเลกุลที่มหาวิทยาลัยแคลิฟอร์เนีย, ซานตาครูซ

ในเดือนมิถุนายน พ.ศ. 2532 "มีบางอย่างคลิก" Deamer เล่าในขณะที่เขาค้นพบข้อมูลเชิงลึกเกี่ยวกับการจัดลำดับนาโนพอร์หลังจากที่เขาพิจารณาว่าจะเกิดอะไรขึ้นหากสายดีเอ็นเอต้องผ่านช่องในเมมเบรนภายใต้แรงดันไฟฟ้า

ในเวลานั้น George Church นักวิทยาศาสตร์จีโนม ปริญญาเอก ศาสตราจารย์ที่ Harvard Medical School กำลังทำงานเกี่ยวกับแนวคิดที่คล้ายกัน ไม่กี่ปีต่อมา ในปี 1995 Deamer, Church, Dan Branton, PhD, ศาสตราจารย์ด้านชีววิทยา, กิตติมศักดิ์ที่ Harvard University และคนอื่นๆ ได้พัฒนาแนวคิดของพวกเขาในการยื่นขอจดสิทธิบัตร ตามคำกล่าวของ Branton สำนักงานสิทธิบัตรของ Harvard คิดว่า "นี่เป็นความคิดที่บ้ามาก มันจะไม่มีวันได้ผล” อย่างไรก็ตาม การสนับสนุนของคริสตจักรนั้นสามารถโน้มน้าวใจได้ ฮาร์วาร์ดยอมผ่อนผันและยื่นคำร้องต่อสำนักงานสิทธิบัตรแห่งสหรัฐอเมริกาซึ่งได้รับสิทธิบัตร

บรรลุวิสัยทัศน์

Gordon Sanghera, PhD, Oxford Nanopore Technologies

ในปี 2548 ONT ก่อตั้งขึ้นในชื่อ Oxford Nanolabs โดย Hagan Bayley, PhD, ศาสตราจารย์ด้านชีววิทยาเคมีที่ University of Oxford Gordon Sanghera ปริญญาเอก ได้รับการว่าจ้างให้เป็นผู้ก่อตั้ง CEO นอกจากนี้ การเข้าร่วมในการก่อตั้งบริษัทคือ Spike Willcocks, PhD, ซึ่งเคยร่วมงานกับ IP Group ในขณะนั้นและปัจจุบันดำรงตำแหน่งประธานเจ้าหน้าที่ฝ่ายพัฒนาธุรกิจของ ONT Sanghera รักษาความปลอดภัยให้กับการลงทุนครั้งใหญ่ครั้งแรกของบริษัท - 500,000 ปอนด์จาก IP Group - เหนือเครื่องดื่มในผับ Oxford ซึ่งอยู่ห่างจากห้องทดลองของ Bayley เพียงไม่กี่ช่วงตึก

ไคลฟ์ บราวน์, Oxford Nanopore Technologies

จนถึงเดือนกุมภาพันธ์ 2012 ที่การประชุมชั้นนำของ AGBT คัดเลือก Advances in Genome Biology and Technology) ในเมือง Marco Island รัฐฟลอริดา นั้น Clive Brown หัวหน้าเจ้าหน้าที่เทคโนโลยีของ ONT ได้ดูตัวอย่าง Minion ในการพูดคุยเรื่อง “Single Molecule 'Strand ' การจัดลำดับโดยใช้โปรตีน Nanopores และอุปกรณ์อิเล็กทรอนิกส์ที่ปรับขนาดได้” ก่อนหน้านี้ Brown เคยทำงานที่ Solexa ซึ่งเป็นบริษัทจัดลำดับ NGS รุ่นต่อไปของอังกฤษ) ที่ Illumina เข้าซื้อกิจการในปี 2550 หน้าที่ของเขาคือการปลดเปลื้องเทคโนโลยีที่เขาช่วยสร้าง ซึ่งเป็นแพลตฟอร์มที่ยึดครองตลาด NGS ส่วนใหญ่ได้

ONT ไม่เพียงแค่แข่งขันกับ Illumina เท่านั้น แต่ยังรวมถึง Pacific Biosciences และ MGI ตลอดจนสตาร์ทอัพที่เพิ่งเข้าสู่เกมการจัดลำดับ ความตื่นเต้นกำลังก่อตัวขึ้นจากการอ่านค่า HiFi ที่แม่นยำและยาวนานของ PacBio และแพลตฟอร์มการจัดลำดับใหม่ของ MGI ที่มีเคมีของ CoolMPS ที่บริษัทอ้างว่าสามารถส่งมอบการเลือกจีโนมมูลค่า $100 ที่ประกาศที่ AGBT ในปีนี้ ก่อนการระบาดใหญ่

เทคโนโลยีของ ONT พัฒนาขึ้นอย่างมากตั้งแต่ปี 2555 นอกจาก MinION แล้ว อุปกรณ์ขนาดพกพาของ ONT ที่มีช่องสัญญาณนาโนมากถึง 512 ช่อง กลุ่มผลิตภัณฑ์ ONT ยังรวมถึง GridION ที่ใหญ่ขึ้น ซึ่งเป็นอุปกรณ์ตั้งโต๊ะขนาดกะทัดรัดที่ออกแบบมาเพื่อใช้งานและวิเคราะห์ MinION Flow Cells สูงสุดห้าเซลล์ ในขณะที่สร้างข้อมูลได้มากถึง 150 Gb สำหรับการใช้งานขนาดใหญ่ ONT ได้พัฒนา PromethION ซึ่งเป็นระบบตั้งโต๊ะที่เป็นซีเควนเซอร์ปริมาณงานสูงสุดของ ONT โดยมีโฟลว์เซลล์ 48 เซลล์ที่สามารถสร้างข้อมูลได้สูงสุด 8 Tb

ผลิตภัณฑ์ใหม่กว่า Flongle เป็นอะแดปเตอร์สำหรับ MinION หรือ GridION ที่ทำให้เครื่องมือเหล่านี้รวดเร็วและเข้าถึงได้มากขึ้นสำหรับการทดสอบและการทดลองที่มีขนาดเล็กลง Albert Vilella, PhD, ที่ปรึกษาด้านชีวสารสนเทศ, บอก GEN ความสามารถในการทำการทดลองมูลค่า $100 กับ Flongle flowcell ซึ่ง ONT ได้ชี้ให้เห็นในการอัปเดตล่าสุดของพวกเขา จะเป็น "ตัวเปลี่ยนเกม" และเขาคาดหวังว่าจะนำไปสู่การยอมรับเทคโนโลยีของ ONT ที่เพิ่มขึ้น ไม่มีการแข่งขันใด Villela ยืนยันว่า "อยู่ใกล้" สามารถปรับใช้เทคโนโลยีได้ในราคานั้น

Plongle ซึ่งโดยพื้นฐานแล้วคือ Flongle ที่เข้ากันได้กับเพลท 96 หลุม ซึ่งสามารถทำการทดสอบขนาดเล็กจำนวนมากพร้อมกันอย่างรวดเร็วพร้อมกันได้ มีกำหนดออกในเร็วๆ นี้

บราวน์ตั้งข้อสังเกตที่การประชุม London Calling ว่าทุกครั้งที่เขานึกถึง "ชื่อบ้าๆ" เหล่านี้ "จะกลายเป็นสิ่งที่หยาบคายในออสเตรเลีย" และ SmidgION ที่อยู่ในระหว่างการพัฒนาจะเป็นอุปกรณ์ที่เล็กที่สุดของ ONT ซึ่งออกแบบมาเพื่อใช้กับสมาร์ทโฟนหรืออุปกรณ์พกพาอื่นๆ ที่ใช้พลังงานต่ำ

ตอนนี้ 15 ปีหลังจากการก่อตั้ง ONT มองเห็นโอกาสที่จะตระหนักถึงศักยภาพอย่างเต็มที่ Sanghera ได้ชี้ให้เห็นมานานแล้วถึงความสามารถของเซ็นเซอร์ ONT ในการอ่านค่า DNA อย่างรวดเร็ว เช่น การทดสอบด้วยเข็มหมุดสำหรับผู้ป่วยโรคเบาหวาน การระบาดใหญ่ของ COVID-19 เป็นเพียงโอกาสดังกล่าว และเงินเดิมพันก็แทบจะไม่สูงขึ้นเลย

จากการสร้างลำดับไปสู่การวินิจฉัย

ด้วยการประกาศที่มีชื่อเสียงในช่วงต้นเดือนสิงหาคม ONT ส่งสัญญาณถึงความมุ่งมั่นที่จะสร้างผลกระทบในการวินิจฉัยโรค COVID-19 ในขณะที่การระบาดใหญ่ของโรคระบาดได้ผลักดันให้นักวิชาการด้านวิชาการและบริษัทต่างๆ สร้างสรรค์นวัตกรรมด้วยความเร็วที่ไม่ธรรมดา ONT ประกาศเปิดตัว LamPORE ซึ่งเป็นชุดทดสอบ COVID-19 ในข้อตกลงกับกระทรวงสาธารณสุขและการดูแลสังคมของสหราชอาณาจักร

LampPORE ออกแบบมาเพื่อทำงานกับตัวอย่างเนื้อเยื่อและน้ำลาย MinION หนึ่งตัวสามารถเก็บตัวอย่างผู้ป่วยด้วยบาร์โค้ดได้มากถึง 1,500 ตัวอย่าง และดำเนินการให้เสร็จสิ้นในเวลาประมาณ 90 นาที

"LamPORE มีศักยภาพในการนำเสนอโซลูชันการทดสอบระดับโลกที่เข้าถึงได้ง่ายและมีประสิทธิภาพสูง" Sanghera กล่าว “ไม่เพียงแต่สำหรับ COVID-19 แต่สำหรับเชื้อโรคอื่นๆ อีกหลายชนิด”

LampPORE เป็นการผสมผสานระหว่างสองกระบวนการ คือ การขยายไอโซเทอร์มอลแบบวนซ้ำแบบเลือก LAMP) และการจัดลำดับนาโนพอร์ LAMP เป็นกระบวนการที่ต้องบำรุงรักษาค่อนข้างต่ำในการขยาย DNA ด้วยความจำเพาะและประสิทธิภาพสูง สามารถทำได้ในราคาถูกในหลอดเดียวที่อุณหภูมิคงที่

LAMP ได้รับการพัฒนาขึ้นเมื่อสองทศวรรษก่อนโดยกลุ่มนักวิจัยชาวญี่ปุ่น โดย LAMP ฟื้นตัวขึ้นเมื่อเร็วๆ นี้ เนื่องจากการนำไปใช้ในการวินิจฉัยโรค COVID-19 กลุ่มอื่นๆ ที่พัฒนาการวินิจฉัย COVID รวมถึง Color, Sherlock Biosciences และ STOPCovid ก็ใช้ LAMP ในการขยายสัญญาณเช่นกัน

หลังจากการขยายสัญญาณแล้ว LamPORE ใช้การจัดลำดับนาโนพอร์เพื่อระบุยีนสามตัวของไวรัส SARS-CoV-2 วิธีการนี้สามารถแยกความแตกต่างระหว่างการมีอยู่ของไวรัสและข้อผิดพลาดที่อาจเกิดขึ้นระหว่างการขยายสัญญาณ ซึ่งเป็นที่มาของผลลัพธ์ที่เป็นเท็จ นอกจากนี้ การทดสอบยังรวมถึงการควบคุมภายในของ mRNA ของมนุษย์เพื่อระบุข้อผิดพลาดในการเลือกตัวอย่างการเก็บตัวอย่าง เช่น การรวมขั้นตอนการทำสำลีที่ไม่ดีซึ่งอาจเป็นแหล่งที่มาของผลลัพธ์เชิงลบที่ผิดพลาด

นอกจาก SARS-CoV-2 แล้ว ONT กำลังพัฒนา LamPORE เพื่อตรวจหาเชื้อก่อโรคหลายตัวภายในตัวอย่างเดียว รวมถึงไข้หวัดใหญ่สายพันธุ์ A Select H1N1 และ H3N2 union influenza B และไวรัสระบบทางเดินหายใจ ดังที่ Keith Robison ปริญญาเอก บล็อกเกอร์ด้านจีโนมมายาวนานเขียนว่า “การใช้งานและการทดสอบไวรัสทางเดินหายใจอย่างแพร่หลายมากขึ้นอาจเป็นเพียงซับสีเงินบางๆ จากเมฆมืดของการระบาดใหญ่”

LamPORE กำลังรวบรวมความตื่นเต้นส่วนใหญ่เนื่องจากความสามารถในการปรับขนาดซึ่งสามารถให้การคัดกรองพนักงานแนวหน้าและการตรวจคัดกรองอย่างรวดเร็วในพื้นที่ต่างๆ เช่นสนามบิน สถานพยาบาล และโรงเรียน การยื่นข้อบังคับสำหรับลำโพร์อยู่ในระหว่างดำเนินการและรอการอนุมัติ

เปลี่ยนลำดับได้ทันที

การจัดลำดับแบบปรับเปลี่ยนได้—ประเภทของการจัดลำดับแบบคัดเลือก—สร้างจุดตัดสินใจในกระบวนการจัดลำดับโดยขึ้นอยู่กับว่ามีลำดับที่น่าสนใจอยู่หรือไม่ เพื่อให้เข้าใจการจัดลำดับแบบปรับตัว อันดับแรกต้องเข้าใจวิธีการทำงานของการจัดลำดับนาโนพอร์ โดยดูแถบด้านข้างที่ชื่อว่า “ถั่วและสลักเกลียวของ Nanopore Sequencing”)

หากมีภูมิภาคที่สนใจ การจัดลำดับจะดำเนินต่อไป หากไม่เป็นเช่นนั้น แรงดันไฟฟ้าจะกลับด้าน สาย DNA จะถูกขับออกมา และ nanopore จะถูกปลดปล่อยออกมาสำหรับสายใหม่ จุดตัดสินใจนี้ทำผ่านกระบวนการที่จับคู่ลำดับดีเอ็นเอกับลำดับอ้างอิง

ด้วยเทคโนโลยีนี้ นักวิจัยสามารถเลือกลำดับขั้นโดยไม่ต้องเตรียมการล่วงหน้าหรือปรับแต่งตัวอย่าง และช่วยให้เกิดการเปลี่ยนแปลงแบบไดนามิกในระหว่างกระบวนการ โดยการควบคุมแรงดันของรูพรุนในแบบเรียลไทม์

Michael Schatz, PhD, รองศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์และชีววิทยาที่ Johns Hopkins University อธิบาย ในระหว่างการดำเนินการหาลำดับเบสแบบทั่วไป ข้อมูลอาจซ้ำซ้อนหรือมาจากภูมิภาคที่ไม่เกี่ยวข้องของจีโนม "การจัดลำดับแบบปรับเปลี่ยนได้เปลี่ยนแปลงทั้งหมดนี้" Schatz กล่าว เนื่องจากสามารถเลือกกำหนดเป้าหมายการอ่านที่เกี่ยวข้องกับโครงการที่กำหนดได้

เขาอธิบายว่า "แอปพลิเคชันนักฆ่า" มีไว้สำหรับการจัดลำดับเป้าหมาย—เมื่อนักวิจัยสนใจยีนชุดใดชุดหนึ่งโดยเฉพาะ เมื่อนักวิจัยในห้องทดลองของ Schatz กำหนดเป้าหมายยีน 148 ยีนที่เกี่ยวข้องกับมะเร็งทางพันธุกรรมโดยใช้การจัดลำดับแบบปรับตัว พวกเขาสามารถจัดลำดับยีนด้วยโฟลว์เซลล์หนึ่งเซลล์แทนที่จะเป็นมาตรฐานห้าหรือหก

Schatz ชี้ไปที่ยูทิลิตีของการจัดลำดับแบบปรับตัวใน metagenomics การเลือกลำดับจีโนมที่น่าสนใจ และเพิ่มคุณค่าวัสดุที่มีความอุดมสมบูรณ์ต่ำ สุดท้ายนี้ Schatz ตั้งข้อสังเกตว่าขณะนี้พวกเขากำลังดำเนินการเพื่อขยายแนวทางสู่ cDNA และการจัดลำดับ RNA โดยตรง เพื่อให้สามารถจัดลำดับการถอดเสียงแบบเลือกได้ เขาบอก GEN ที่เขาสามารถมองเห็นวันที่ "การจัดลำดับนาโนพอร์ทั้งหมดจะใช้แนวทางนี้สำหรับโครงการจัดลำดับดีเอ็นเอและอาร์เอ็นเอ"

นิยามใหม่ "ยาว"

ข้อดีอย่างหนึ่งของการจัดลำดับการอ่านระยะยาว ซึ่งเป็นจุดแข็งของ ONT และ PacBio คือความสามารถในการอ่านผ่านบริเวณที่ซับซ้อนและซ้ำซ้อนของ DNA แม้จะมีความก้าวหน้าอย่างมากในเทคโนโลยีการจัดลำดับตั้งแต่เสร็จสิ้นโครงการจีโนมมนุษย์ นักวิทยาศาสตร์ไม่สามารถทำลำดับโครโมโซมที่ต่อเนื่องกันให้เสร็จสิ้นได้ตั้งแต่ต้นจนจบ จนกว่างานจะดำเนินการโดย Telomere-to-Telomere select T2T) สมาคม

T2T ซึ่งเป็นโปรแกรมเปิดเพื่อทำงานเพื่อสร้างการรวมกลุ่มครั้งแรกของจีโนมมนุษย์ นำโดย Karen Miga, PhD, ผู้ช่วยนักวิทยาศาสตร์การวิจัยที่ UC Santa Cruz Genomics Institute และโดย Sergey Koren, PhD และ Adam Phillippy, PhD ทั้งจากแผนก Genome Informatics สาขา Computational and Statistical Genomics ที่ National Human Genome Research Institute เมื่อเดือนกรกฎาคมที่ผ่านมา ใน ธรรมชาติ, T2T ได้รายงานการรวมตัวกันของโครโมโซมมนุษย์แบบไม่มีช่องว่างครั้งแรกของโครโมโซม

ขั้นตอนที่ยากเป็นพิเศษในการประกอบโครโมโซมที่สมบูรณ์คือการสร้างส่วนรวมของบริเวณดีเอ็นเอที่ซ้ำกัน Miga และเพื่อนร่วมงานได้รับแรงบันดาลใจในการก่อตั้งกลุ่ม T2T โดยถามว่า "การจัดลำดับที่ยาวเป็นพิเศษที่มีความครอบคลุมสูงสามารถแก้ปัญหาการประกอบที่สมบูรณ์ของจีโนมมนุษย์ได้หรือไม่"

แม้ว่าการจัดลำดับนาโนพอร์จะเป็นแกนหลักในการสร้างลำดับความครอบคลุมสูง อ่านได้นานเป็นพิเศษของการเลือกจีโนมที่สมบูรณ์จากการรวมกลุ่มไฮดาติดิฟอร์มโมล CHM13 ทีมงานใช้วิธีการแบบหลายแพลตฟอร์ม ซึ่งรวมถึงแพลตฟอร์ม PacBio และ Illumina ตลอดจนเทคโนโลยีเสริม สำหรับการปรับปรุงคุณภาพและการตรวจสอบ เช่น เทคโนโลยีการขัดเงาจาก Genomics 10x และเทคโนโลยีแผนที่แสงจาก BioNano Genomics

โครงการนี้ดำเนินการในจีโนมเดี่ยว แต่ Miga ตั้งข้อสังเกตว่ากลุ่มนี้มีจุดมุ่งหมายในตัวอย่างซ้ำ Miga ตั้งข้อสังเกตในระหว่างการพูดคุย London Calling ในปี 2019 ว่า “[นานเกินไป] เรายอมรับจีโนมอ้างอิงมนุษย์ที่ไม่สมบูรณ์พร้อมช่องว่างหลายร้อยช่อง” จุดมุ่งหมายที่ T2T คือการเปลี่ยนมาตรฐานในจีโนมไปสู่ความสมบูรณ์และคุณภาพ มิกะยืนยันว่าเรากำลังเข้าสู่ยุคใหม่ที่ “ต้องการชุดโครโมโซมคุณภาพสูงที่สมบูรณ์” หากเป็นกรณีนี้จริง คงจะน่าสนใจที่จะดูบทบาทของ ONT ในการเรียงลำดับรุ่นต่อไป


วิธีการ

การเลือกตัวอย่าง

สิ่งมีชีวิตที่จัดลำดับในการศึกษานี้รวมถึง M. musculus, Z. mays, F. × อนานัส, และ R. muscosa. ความเครียดของสิ่งมีชีวิตแต่ละชนิด แหล่งที่มาของวัสดุ ระดับพลอย สถานะการผสมข้ามพันธุ์ ลำดับจีโนมอ้างอิง และขนาดจีโนมได้อธิบายไว้ในตารางที่ 1 และ 2 นอกจากนี้ เรากำลังเผยแพร่การอ่านหาลำดับจากตัวอย่างเมตาเจโนมจำลอง (ATCC MSA-1003) ประกอบด้วยตัวอย่างดีเอ็นเอของแบคทีเรีย 20 ตัวอย่างที่ความเข้มข้นเซตั้งแต่ 0.02% ถึง 18% ของตัวอย่าง องค์ประกอบของตัวอย่างเมตาเจโนมจำลอง เช่นเดียวกับขนาดจีโนมของสปีชีส์แบคทีเรียแต่ละสปีชีส์และภาคยานุวัติลำดับอ้างอิงของพวกมันแสดงอยู่ในตารางเสริม 1

หากไม่รวมตัวอย่างเมทาโนมิก ขนาดชุดประกอบที่คาดไว้สำหรับจีโนมที่จัดลำดับในการศึกษานี้มีตั้งแต่ 1,600 เมกะไบต์สำหรับพันธุ์นอกและอ็อคโทพลอยด์ ฉ. × อนันตสา 26 ถึงประมาณ 18,000 Mb สำหรับพันธุ์ outbred และ diploid R. muscosa (ประมาณการตามขนาดจีโนมของสองสปีชีส์ที่เกี่ยวข้อง รานา ออโรร่า และ น้ำตกรานา) 27 . ขนาดจีโนมแต่ละตัวของตัวอย่างเมทาโนมิกมีตั้งแต่ 1.67 ถึง 6.34 Mb รวมเป็นลำดับแบคทีเรีย 67 Mb (ตารางเสริม 1)

การจัดลำดับการเตรียมห้องสมุด

วิธีการสกัด DNA ของจีโนมและรายละเอียดของการเตรียมการของห้องสมุดแต่ละแห่งได้อธิบายไว้ในหัวข้อเฉพาะตัวอย่างด้านล่าง โดยทั่วไป หากตัวอย่าง DNA ของจีโนมเริ่มต้นมีขนาดใหญ่กว่า 25 kb DNA จะถูกตัดให้เหลือระหว่าง 15 kb ถึง 23 kb โดยใช้ Megaruptor ® 3 (Diagenode) ไลบรารีการหาลำดับไฮไฟถูกเตรียม 28 โดยใช้ SMRTbell™ Express Template Prep Kit 2.0 และตามด้วยการบำบัดทันทีด้วย Enzyme Clean Up Kit (PN: 101-843-100) ห้องสมุดถูกเลือกขนาดเพิ่มเติมโดยใช้ระบบ SageELF หรือ BluePippin จาก SAGE Science เศษส่วนที่เหมาะสมสำหรับการวิ่งหาลำดับถูกระบุบน Femto Pulse System (Agilent) หลังจากรวมเศษส่วนขนาดที่ต้องการ คลังสุดท้ายถูกทำความสะอาดเพิ่มเติมและทำให้เข้มข้นโดยใช้เม็ดบีด AMPure PB (Pacific Biosciences PN:100-265-900) สุดท้าย ไลบรารีทั้งหมดได้รับการตรวจสอบความเข้มข้นโดยใช้ Qubit™ 1X dsDNA HS Assay Kit (Thermo Fisher PN: Q33231) และการกระจายขนาดขั้นสุดท้ายได้รับการยืนยันบน Femto Pulse ขนาดไลบรารีทั้งหมดอธิบายไว้ในตารางที่ 3

กล้ามเนื้อมัดใหญ่ 'C57BL/6 J' การได้มาซึ่งตัวอย่าง การสกัด DNA และการปรับเปลี่ยนการจัดลำดับการเตรียมห้องสมุด

C57BL/6 J จีโนม DNA ได้มาจากห้องปฏิบัติการ Jackson (PN: GTC4560) ดีเอ็นเอมาถึงขนาดที่เหมาะสมสำหรับการเตรียมห้องสมุดไฮไฟ (

20 kb) และไม่ต้องการการตัด วิธีการเตรียมห้องสมุด ชุด และเงื่อนไขต่างๆ ได้อธิบายไว้ข้างต้น เพื่อกระชับการกระจายขนาดของห้องสมุด SMRTbell ดีเอ็นเอถูกแยกส่วนขนาดโดยใช้ SageELF หลังจากการเตรียมคลัง ไลบรารี SMRTbell ถูกเตรียมด้วยโซลูชันการโหลด/Marker75 จากนั้นจึงบรรจุลงบนตลับเจล agarose 1kb-18 kb 0.75% (PN: ELD7510) การแยกส่วนขนาดดำเนินการด้วยไฟฟ้าด้วยขนาดเป้าหมาย 3,500 bp ที่กำหนดไว้สำหรับหลุมชะ 12 ซึ่งอนุญาตให้รวบรวมเศษส่วนของห้องสมุดที่มีขนาดเหมาะสม (15–23 kb) ในหลุมชะล้างอื่นๆ ของอุปกรณ์ SageELF

Z. mays ‘B73’ sample acquisition, DNA extraction, and modifications to sequencing library preparation

Leaf tissue for the B73 maize inbred was frozen and provided by Matthew Hufford at Iowa State University, Department of Ecology, Evolution, and Organismal Biology. Genomic DNA was isolated from the frozen leaf tissue at the University of Arizona Genomics Institute using methods previously described 29 . The high molecular weight DNA was sheared using the Megaruptor 3 targeting a size distribution between 15 and 20 kb. Library preparation method, kit and conditions were as described above. Library size selection was performed on the Sage BluePippin using the 0.75% Agarose dye-free Gel Cassette (PN: BLF7510) and the S1 Marker. To ensure suitable yields, the 3–10 kb Improved Recovery cassette definition was run for the size selection and high pass elution mode was chosen to target recovery of molecules greater than 15 kb.

NS. × ananassa ‘Royal Royce’ sample acquisition, DNA extraction, and modifications to sequencing library preparation

The plant material was obtained from foundation stock of the cultivar ‘Royal Royce’ maintained by the UC Davis Strawberry Breeding Program. DNA was isolated as previously described 30 . The genomic DNA was larger than required for HiFi library production and was sheared using the Megaruptor 3 targeting a size distribution centered around 22 kb. Library preparation method, kit, and conditions were as described above. The SageELF was used for size selection, with similar conditions as described for M. กล้ามเนื้อ above, in order to generate a library with an appropriately sized distribution.

R. muscosa sample acquisition, DNA extraction, and modifications to sequencing library preparation

R. muscosa, the Mountain Yellow-legged Frog, is an endangered species endemic to California. To prevent sacrificing an individual, DNA was prepared from a fibroblast cell line (KB 21384 ISIS # 916035) originally derived from a 25-day old tadpole of undetermined sex. The cells were grown at room temperature in low O2 from explants in alpha MEM with 1% NEAA. Approximately two million cells were harvested at passage 7 and frozen in a 1X solution of PBS buffer with 10% DMSO and 10% glycerol. Genomic DNA was isolated from these cells using Qiagen’s MagAttract HMW DNA Kit (PN: 67563) following the manufacture’s protocol. The resulting HMW gDNA was sheared to a target size of 22 kb on the MegaRuptor 3 prior to library preparation. Library preparation, kit and conditions were as described above. In order to tighten the size distribution, the SMRTbell library was size fractionated using SageELF System from Sage Science. The DNA was premixed with loading solution/Marker40 and loaded onto a 0.75% Agarose 10–40 kb Cassette (PN: ELD4010). Size fractionation was performed electrophoretically with a target size of 7,000 bp set for elution well 12 in order to achieve the appropriate resolution in size separation. Fractions having the desired size distribution ranges were identified on the Femto Pulse to generate a final size selected library used in the Sequel II sequencing runs. An additional DNA damage repair step was performed using the SMRTbell Damage Repair Kit (PN:100-992-200) as this was found helpful to improve library performance in sequencing runs.

Mock metagenome sample acquisition, DNA extraction, and modifications to sequencing library preparation

ATCC offers a mock metagenomic community (MSA 1003) of 20 bacteria species ranging in composition from 0.02% to 18% of the sample. Isolated DNA from this sample arrived with genomic DNA having a broad distribution of sizes and was sheared using the MegaRuptor 3 to a uniform size of 13.7 kb. Library preparation method, kit and condition were described above. Rather than using electrophoretic size selection, the resulting library was size selected using AMPure PB beads (35% v/v) to remove all small fragments.

Sequencing and data processing

SMRTbell libraries were bound to the sequencing polymerase enzyme using the Sequel II Binding Kit 2.0 (PN:101-842-900) with the modification that the Sequencing Primer v2 (PN:101-847–900) was annealed to the template instead of the standard primer which comes with Sequel II Binding Kit 2.0. All incubations were performed per manufacturer’s recommendations. Prior to sequencing, unbound polymerase enzyme was removed using a modified AMPure PB bead method as previously described 21,31 . Shotgun genomic DNA sequence data was collected on the Pacific Biosciences Sequel II system using HiFi sequencing protocols 31 and Sequencing kit V2 (PN: 101-820-200). Sequence data collection was standardized to 30 hours for this study to allow ample time for multiple pass sequencing around SMRTbell template molecules of 10–25 kb which yields high quality circular consensus sequencing (HiFi) results 21 . Raw base-called data was moved from the sequencing instrument and the imported into SMRTLink 32 to generate HiFi reads using the CCS algorithm (version 8.0.0.80529) which processed the raw data and generated the HiFi fastq files with the following settings: minimum pass 3, minimum predicted RQ 20.

K-mer analysis

Using Jellyfish 33 (v.2.2.10) a k-mer analysis was performed on each of the HiFi data sets individually using a k-mer size of 21. Counting was done using a two-pass method. First, a Bloom counter was created for each HiFi read dataset using the command described in Box 1.

After generating the Bloom counter, a frequency count of k-mers (size = 21) was run using the command shown in Box 2:

Finally, a histogram of the k-mer frequency was generated for each dataset by using the command in Box 3.

These outputs were then used to generate the additional summary analysis and determine genome sizes for each sample where applicable. Genome sizes were estimated from the ratio of total HiFi bases divided by the frequency mode from each k-mer distribution.

Box 1 Running Jellyfish to create Bloom counter.

jellyfish bc -m 21 -s <Input Size> -t <nproc> -C -o

where Input Size = 100G (M. musculus, Z. mays, F. × ananassa and R. muscosa) and 5G (ATCC MSA-1003).

Box 2 Running Jellyfish to obtain a frequency count of k-mers.

jellyfish count -m 21 -s <Input Size> -t <nproc> -C --bc

Where Input Size = 20G (R. muscosa), 3G (M. กล้ามเนื้อ และ Z. mays), 2G (NS. × ananassa) and 200M (ATCC MSA-1003).

Box 3 Generating k-mer histogram.

jellyfish histo HiFiReadSet_21mer counts.jf >

Mapping accuracies and read lengths

In the cases where references were available (M. กล้ามเนื้อ, Z. mays, and the concatenated genomes comprising the ATCC MSA-1003 sample), HiFi reads were mapped to the references using pbmm2 version 1.2.0 (https://github.com/PacificBiosciences/pbmm2) which is a customized wrapper for minimap2 34 using the command demonstrated in Box 4.

To extract accuracy metrics from each bam file using Samtools 35 version 1.9, the command shown in Box 5 was used:

Box 6 shows the command used to extract read length metrics from each bam file using Samtools,

Finally, coverage metrics were obtained from each bam files using the Samtools with the command listed in Box 7.


Whole-exome vs whole-genome sequencing

Any kind of NGS technology generates a significant amount of output data. The basics of sequence analysis follow a centralized workflow which includes a raw read QC step, pre-processing and mapping, followed by post-alignment processing, variant annotation, variant calling and visualization.

Assessment of the raw sequencing data is imperative to determine their quality and pave the way for all downstream analyses. It can provide a general view on the number and length of reads, any contaminating sequences, or any reads with low coverage. One of the most well-established applications for computing quality control statistics of sequencing reads is FastQC . However, for further pre-processing, such as read filtering and trimming, additional tools are needed. Trimming bases towards the ends of reads and removing leftover adapter sequences generally improves data quality. More recently, ultra-fast tools have been introduced, such as fastp , that can perform quality control, read filtering and base correction on sequencing data, combining most features from the traditional applications while also running two to five times faster than any of them alone. 39

After the quality of the reads has been checked and pre-processing performed, the next step will depend on the existence of a reference genome. ในกรณีของ เดอโนโว genome assembly, the generated sequences are aligned into contigs using their overlapping regions. This is often done with the assistance of processing pipelines that can include scaffolding steps to help with contig ordering, orientation and the removal of repetitive regions, thus increasing the assembly continuity. 40,41 If the generated sequences are mapped ( aligned) to a reference genome or transcriptome, variations compared to the reference sequence can be identified. Today, there is a plethora of mapping tools (more than 60), that have been adapted to handle the growing quantities of data generated by NGS, exploit technological advancements and tackle protocol developments. 42 One difficulty, due to the increasing number of mappers, is being able to find the most suitable one. Information is usually scattered through publications, source codes (when available), manuals and other documentation. Some of the tools will also offer a mapping quality check that is necessary as some biases will only show after the mapping step. Similar to quality control prior to mapping, the correct processing of mapped reads is a crucial step, during which duplicated mapped reads (including but not limited to PCR artifacts) are removed. This is a standardized method, and most tools share common features. Once the reads have been mapped and processed, they need to be analyzed in an experiment-specific fashion, what is known as variant analysis. This step can identify single nucleotide polymorphisms (SNPs), indels (an insertion or deletion of bases), inversions, haplotypes, differential gene transcription in the case of RNA-seq and much more. Despite the multitude of tools for genome assembly, alignment and analysis, there is a constant need for new and improved versions to ensure that the sensitivity, accuracy and resolution can match the rapidly advancing NGS techniques.

The final step is visualization, for which data complexity can pose a significant challenge. Depending on the experiment and the research questions posed, there are a number of tools that can be used. If a reference genomes is available , the Integrated Genome Viewer (IGV) is a popular choice 43 , as is the Genome Browser . If experiments include WGS or WES, the Variant Explorer is a particularly good tool as it can be used to sieve through thousands of variants and allow users to focus on their most important findings. Visualization tools like VISTA allow for comparison between different genomic sequences. Programs suitable for เดอโนโว genome assemblies 44 are more limited. However, tools like Bandage and Icarus have been used to explore and analyze the assembled genomes.


Genome assembly with long reads

One of the first applications of long-read sequencing has been to improve the assembly of genomes, as read lengths are now sufficiently long to traverse most repeat structures of the genome. For diploid genomes, such as in humans, the challenge now is to achieve accurate haplotype resolution from telomere to telomere without guide from a reference.

De novo genome assembly

De novo genome assembly is the process by which randomly sampled sequence fragments are reconstructed to determine the order of every base in a genome 72 . Stitched-together sequence fragments are referred to as contigs, and in the ideal case, there is one contig per chromosome. Short-read technology has been problematic for the de novo assembly of mammalian genomes and has typically resulted in hundreds of thousands of gaps, owing to repetitive sequences that cannot be traversed by short reads. Numerous studies have shown that long-read genome assemblies are superior in their contiguity by orders of magnitude when compared with previous short-read and Sanger-based sequencing approaches 30,32,33,35,70,71 (Table 2). For example, in early 2015, there were 99 mammalian genome assemblies in GenBank with an average contig N50 of only 41 kb, but none of them used long-read sequencing as the predominant data type 27 . As of early 2020, there are more than 800 genome assemblies available through GenBank that used either PacBio or ONT data with contig N50 lengths greater than 5 Mb, including some of the first human genomes: NA12878 (ref. 35 ), CHM13 (ref. 32 ), HX1 (ref. 70 ) and AK1 (ref. 71 ). This more than 100-fold increase in assembly contiguity has been driven not only by longer reads but also by the development of genome assembly tools optimized for long-read data (such as Canu 73 , HiCanu 55 , Peregrine 74 , FALCON 75 , Flye 76 , wtdbg2 (or RedBean) 77 and Shasta 36 ) and other tools that can increase assembly contiguity and accuracy, such as optical mapping (for example, from Bionano Genomics) 30,34,70,71,78 and electronic mapping (for example, from Nabsys) 79,80 . Importantly, it is now becoming tractable for individual laboratories (as opposed to large consortia) to sequence and assemble human genomes in a few weeks at levels of contiguity approximate to or exceeding the level of the Human Genome Project 31,36,81 (Fig. 4A). For example, Shafin et al. generated 11 highly contiguous (median NG50 of 18.5 Mb) human genome assemblies with long-read ONT data with only 3 PromethION flow cells and 6 hours of computer time on a 28-core machine with more than 1 TB of RAM per genome 36 . Similarly, Chin and Khalak assembled human genomes in less than 100 minutes (30 CPU hours not including the one-time computational cost of generating the PacBio HiFi reads) with a contig N50 greater than 20 Mb with only PacBio HiFi data 74 . For comparison, an alignment of approximately 30-fold short-read Illumina data can take up to 100 CPU hours 82,83 .

NS | The number of contigs and the contig N50 for 18 unphased human genome assemblies listed in Table 2. Genomes assembled from long-read data (Pacific Biosciences (PacBio) or Oxford Nanopore Technologies (ONT)) have fewer contigs and higher contig N50 values compared with those assembled from short-read data (Illumina). Combining long-read data types (PacBio and ONT) produces a genome assembly with even fewer contigs and a higher contig N50, surpassing that of the reference genome (GRCh38, hg38) in contiguity. NS | A genome assembly phasing approach known as Strand-seq 163 . In this approach, the template strand (that is, the Watson (W, orange) or Crick (C, teal) strand)) is sequenced via short-read sequencing to generate template-specific short reads. These reads are aligned to a genome assembly and binned in 200-kb genomic stretches (indicated by the orange and teal bars that align along the length of chromosome 2 (Chr 2) part Ba). Strand-seq reads may contain a single-nucleotide polymorphism that differentiates the homologue from its counterpart (part BB), which can be used to partition long reads into either haplotype 1 (H1, empty circles) or haplotype 2 (H2, filled circles) (part Bc). Haplotype-partitioned long reads permit the detection of structural variation 164 , such as the deletion in H1 (part Bd), and can be assembled into haplotigs that span the region, thereby generating phased genome assemblies 88,165 . | Chromosome ideograms are shown that compare the 2001 Human Genome Project assembly 72 and the 2019 Telomere-to-Telomere (T2T) consortium CHM13 assembly 34 . The 2001 Human Genome Project assembly had more than 145,000 gaps and nearly 150,000 contigs, whereas the 2019 T2T consortium CHM13 assembly has fewer than 1,000 gaps and fewer than 1000 contigs (see Table 2 for additional statistics). Contigs are represented by alternating black and grey blocks, absent sequences are represented by white blocks and centromeres are represented by purple blocks. NCBI, National Center for Biotechnology Information.

Polishing and phasing

Although speed is important, long-read genome assemblies have frequently been criticized for their reduced accuracy 83 . However, with proper correction and assessment, long-read assemblies can rival those generated by Illumina or Sanger sequencing 84 . Unpolished assemblies typically suffer from many small indel errors, which complicate gene annotation 50 . Most of these errors can be resolved with use of polishing tools (such as Racon 48 , Nanopolish 63,85,86 , MarginPolish 36 , HELEN 36 , Quiver 46 , Arrow and Medaka) and error correction with short-read sequence data generated from the same individual 47 . Recent developments in base-calling algorithms and the generation of highly accurate long-read sequence data types such as HiFi data are eliminating dependencies on short-read data polishing 52,53,84 . A major focus moving forward is the generation of high-quality, fully phased diploid genomes where both haplotypes are represented 84 . This procedure essentially converts a 3-Gb collapsed human genome into a 6-Gb genome that represents both maternal and paternal complements, which has the advantage of increasing overall sensitivity for variant discovery 9 . Fortunately, phased de novo genome assembly is now becoming feasible with new strategies that take advantage of parental information to phase long reads (such as trio binning) 87 , computational methods that take advantage of the inherent phasing present in long-read data (such as FALCON-Unzip) 75 and methods that apply orthogonal technologies to phase single-nucleotide polymorphisms in long-read data (such as Strand-seq 9,88,89 , Hi-C 90 and, in the past, 10x Genomics 9 ) (Fig. 4B). The fundamental concept here is straightforward: by physically or genetically phasing an individual genome, the long-read data can be partitioned into two parental genome datasets that can be independently assembled. Such a procedure is particularly valuable for resolving structural variation and its haplotype architecture 91 because structural differences between haplotypes have often led to hybrid representations or collapses in the assembly that do not reflect the true sequence and are, therefore, biologically meaningless 92 .

Telomere-to-telomere chromosome assemblies

The ultimate genome assembly is a single contig per chromosome, where the order and orientation of the complete chromosome sequence are resolved from telomere to telomere. More than half of the remaining gaps in long-read genome assemblies correspond to regions of segmental duplications 27,52,54,91 and can be readily identified by increased read depth. These collapses result from a failure to resolve highly identical sequences. However, these regions can be assembled with greater than 99.9% accuracy with use of approaches that partition the underlying long reads using a graph of paralogous sequence variants 93 , such as use of Segmental Duplication Assembler 54 . The human reference genome has been the gold standard for mammalian genomes since its first publication in 2001, and there has been considerable investment over the past two decades to increase its accuracy and contiguity. Notwithstanding, even in its current iteration (GRCh38, or hg38), the number of contigs greatly exceeds the number of chromosomes (998 contigs versus 24 chromosomes), with most of the major gaps corresponding to large repetitive sequences present in centromeres, acrocentric DNA and segmental duplications (Table 2). Application of ONT and PacBio technologies to the essentially haploid CHM13 human genome has shown that we are on the cusp of generating telomere-to-telomere genome assemblies. By combining both of these sequencing data types with improved assembly algorithms, Miga and colleagues showed that it is possible to represent the CHM13 human genome as 590 contigs, including a complete telomere-to-telomere assembly of the X chromosome 34 (Fig. 4C Table 2). Key to this advance was the generation of high-coverage ultra-long ONT data, which allowed greater contiguity than GRCh38 (81.3 Mb versus 57.9 Mb) and, for the first time, a reconstruction of the highly repetitive centromeric α-satellite array on the X chromosome. However, the telomere-to-telomere assembly process is far from automated, requiring considerable manual curation, and hundreds of collapsed repeats still remain to be resolved genome-wide. Nevertheless, efforts to automate centromere assembly (such as with CentroFlye 94 and HiCanu 55 ) are under way. Further developments, such as improved assembly tools that optimize the processing and assembly of PacBio HiFi sequence data or that couple them to ONT ultra-long-read data, will be required before telomere-to-telomere chromosome assemblies can be routinely generated for diploid genomes. Routine and accurate telomere-to-telomere assembly of human chromosomes from diploid genomes will likely take years, not just because specialized data types (that is, ultra-long-read sequence reads) are more expensive and take longer to generate, but also because it will involve uncharted territories of the human genome. For many regions, including centromeric, acrocentric and large regions of segmental duplication, the sequence has not been correctly assembled even once, so any computational assembly algorithm geared to such regions 54,94 will require painstaking validation and assessment.


Brief Introduction on Three Generations of Genome Sequencing Technology

It has been over 30 years since the first generation of DNA sequencing technology was developed in 1977. During this period, sequencing technology has made considerable progress. From the first generation to the third generation and even the fourth generation, sequencing technology has experienced the read length from long to short, and short to long. Although the second generation—short-read sequencing technology still dominates the current global sequencing market, the third and fourth generation of sequencing technologies are rapidly evolving over the course of the two-year period. Every transformation of sequencing technology results in a huge role in promoting genome research, disease medical research, drug development, breeding and other fields. This blog is mainly focusing on the current genome sequencing technologies and their sequencing principles.

The Development of Sequencing Technology
In 1952, Hershey and Chase completed the famous T2 phage infection of bacteria experiment, which effectively proved that DNA is a genetic material. In 1953, Crick and Watson showed their DNA model in the British magazine–Nature. After a thorough study at Cambridge University, they described DNA model with “double helix”. In 1958, Francis Crick proposed the genetic central dogma, which was reiterated in Nature in 1970. Genetic code, also known as codons, genetic codons or triple codes, determines the nucleotide sequence of the amino acid sequence in the protein, which are consist of three consecutive nucleotides. In 1966, Hola announced that the genetic code had been deciphered. In 1974, Szibalski, Polish geneticist, proposed genetic recombination technology was synthetic biology concept. DNA recombinant technology, also known as genetic engineering, aims to recombine DNA molecules in vitro, proliferating in the appropriate cells. In 1983, PCR (polymerase chain reaction) was developed by Dr. Kary B.Mullis. It is a molecular biology technique and used to amplify specific DNA fragments, which can be regarded as the special DNA replication in vitro.

In 1977, A.M. Maxam and W. Gilbert firstly established a DNA fragment sequence determination method, which is also called Maxam-Gilbert chemical degradation method. Currently, this chemical degradation method and enzymatic method (dideoxy chain termination method) proposed by Sanger are rapid sequencing techniques. In 1986, the first automated sequencer—abi prism 310 gene analyzer was developed by an American company—Pe Abi. And then Hood and Smith utilized fluorescently labeled dNTP for electrophoresis technology. Therefore, the first commercial automatic sequencer was born. After that, the capillary electrophoresis sequencer was developed in 1996 and 3700 type automated sequencer was developed in 1998.

In 2008, Quake group designed and developed HeliScope sequencer, which is also a loop chip sequencing equipment. In the same year, nanopore sequencing was developed based on the electrophoresis technology. In the next year, SMRT was developed. In 2010, ion PGM and GeXP were put into use.

In 2005, Roche company designed 454 technology–genome sequencer 20 system—an ultra high throughput genome sequencing system, which was praised as a milestone in the development of sequencing technology by Nature. In 2006, illumina sequencer was developed and it is suitable for DNA libraries prepared by various methods. In 2007, Solid System was developed.

First generation of sequencing technology
The first generation of sequencing technology is based on the chain termination method developed by Sanger and Coulson in 1975 or the chemical method (chain degradation) invented by Maxam and Gulbert during 1976 and 1977. And Sanger in 1977 judged the first genome sequence belonging to Phage X174 with the whole length of 5375 bases. Since then, human beings have aquired the ability to snoop the nature of the genetic difference of life, and also it is a beginning of the genomic era. Researchers continue to improve the Sanger method during performance. In 2001, it was based on the improved Sanger method that the first human genome map was completed. The core principle of Sanger method is that ddNTP cannot form phosphodiester bond during the synthesis of DNA, due to the lack of hydroxyl in its 2 ‘and 3’. So it can be used to interrupt the DNA synthesis reaction. Add a certain proportion of ddNTP with radioactive isotope label, including ddATP, ddCTP, ddGTP and ddTTP, into four DNA synthesis reaction systems respectively. After gel electrophoresis and autoradiography, the DNA sequences of the samples can be determined according to the position of the electrophoretic band.

In addition to Sanger method, it is worth noting that during the period of sequencing technology development, there are many other sequencing technologies emerging, such as pyrophosphate sequencing method, ligation enzyme method and so on. Among these, pyrophosphate sequencing method was later used by Roche company for 454 technique, while the ligation enzyme method was used for SOLID technique by ABI company. The common core method shared by both of them was to use dNTP which can interrupt DNA synthesis, similar to ddNTP in Sanger method.

All in all, the first generation of sequencing technology has the read-length ability of 1000bp with the 99.999% accuracy, which are the main feature. However, its high cost, low throughput and other disadvantages result in a serious impact on its real large-scale application. Therefore, the first generation of sequencing technology is not the most ideal sequencing method. Undergoing development and improvement, the second generation of sequencing technology was born symbolized by Roche’s 454 technology, Illumina’s Solexa, Hiseq technology, and ABI’s Solid technology. The second generation of sequencing technology cannot only greatly reduce sequencing cost, but also dramatically increase the speed of sequencing, maintaining high accuracy. The turn-around time of the second generation sequencing technology to complete a human genome project can just be one week, while that using the first generation sequencing technology to achieve the same goal is three years. However, the read length of the second generation of sequencing technology is much shorter than that of the first generation.

In the next blog chapter, we will continue to introduce the second generation of sequencing technology.


Potential uses of NGS in clinical practice

Clinical genetics

There are numerous opportunities to use NGS in clinical practice to improve patient care, including:

NGS captures a broader spectrum of mutations than Sanger sequencing

The spectrum of DNA variation in a human genome comprises small base changes (substitutions), insertions and deletions of DNA, large genomic deletions of exons or whole genes and rearrangements such as inversions and translocations. Traditional Sanger sequencing is restricted to the discovery of substitutions and small insertions and deletions. For the remaining mutations dedicated assays are frequently performed, such as fluorescence in situ hybridisation (FISH) for conventional karyotyping, or comparative genomic hybridisation (CGH) microarrays to detect submicroscopic chromosomal copy number changes such as microdeletions. However, these data can also be derived from NGS sequencing data directly, obviating the need for dedicated assays while harvesting the full spectrum of genomic variation in a single experiment. The only limitations reside in regions which sequence poorly or map erroneously due to extreme guanine/cytosine (GC) content or repeat architecture, for example, the repeat expansions underlying Fragile X syndrome, or Huntington's disease.

Genomes can be interrogated without bias

Capillary sequencing depends on preknowledge of the gene or locus under investigation. However, NGS is completely unselective and used to interrogate full genomes or exomes to discover entirely novel mutations and disease causing genes. In paediatrics, this could be exploited to unravel the genetic basis of unexplained syndromes. For example, a nationwide project, Deciphering Developmental Disorders, 1 running at the Wellcome Trust Sanger Institute in collaboration with NHS clinical genetics services aims to unravel the genetic basis of unexplained developmental delay by sequencing affected children and their parents to uncover deleterious de novo variants. Allying these molecular data with detailed clinical phenotypic information has been successful in identifying novel genes mutated in affected children with similar clinical features.

The increased sensitivity of NGS allows detection of mosaic mutations

Mosaic mutations are acquired as a postfertilisation event and consequently they present at variable frequency within the cells and tissues of an individual. Capillary sequencing may miss these variants as they frequently present with a subtlety which falls below the sensitivity of the technology. NGS sequencing provides a far more sensitive read-out and can therefore be used to identify variants which reside in just a few per cent of the cells, including mosaic variation. In addition, the sensitivity of NGS sequencing can be increased further, simply by increasing sequencing depth. This has seen NGS employed for very sensitive investigations such as interrogating foetal DNA from maternal blood 2 or tracking the levels of tumour cells from the circulation of cancer patients. 3


First-Generation Sequencing

Automated Sanger sequencing is now considered the “first-generation” of DNA sequencing technologies. Technically, standard Sanger sequencing identifies linear sequences of nucleotides by electrophoretic separation of randomly terminated extension products (2). Automated methods use fluorescently labeled terminators, capillary electrophoresis separation, and automated laser signal detection for improved nucleotide sequence detection [ref. 9 for reviews, see the studies of Hutchinson (ref. 10) and Metzker (ref. 11)]. As a key strength, Sanger sequencing remains the most available technology today and its well-defined chemistry makes it is the most accurate method for sequencing available now. Sanger sequencing reactions can read DNA fragments of 500 bp to 1 kb in length, and this method is still used routinely for sequencing small amounts of DNA fragments and is the gold-standard for clinical cytogenetics (12).

Despite strong availability and accuracy, however, Sanger sequencing has restricted applications because of technical limitations of its workflow. The main limitation of Sanger sequencing is one of throughput, that is, the amount of DNA sequence that can be read with each sequencing reaction. Throughput is a function of sequencing reaction time, the number of sequencing reactions that can be run in parallel, and lengths of sequences read by each reaction. The requirement for electrophoretic separation of DNA fragments for reading DNA sequence content in Sanger-based sequencing is the primary bottleneck for throughput with this method, increasing time and limiting the number of reactions that can be run in parallel (13). Despite efficient automation, each Sanger instrument can only read 96 reactions in parallel, and this restricts the technology's throughput to approximately 115 kb/day (1,000 bp ref. 14). Current estimates suggest a cost of approximately $5 to 30 million USD to sequence an entire human genome using Sanger-based methods, and on one machine, it would take around 60 years to accomplish this task (8, 13). Together, these cost and time constraints limit access to and application of genome sequencing efforts on this platform.


The genome era of cancer research

We’ve come a long way from Kathy Weston and her colleagues, painstakingly tracing out a few hundred letters of DNA, at a time like a child following the words in a picture book with a tentative finger.

Today, our researchers and others around the world are sequencing the genomes of thousands of people and tumour samples, uncovering a wealth of data about the genetic changes that underpin cancer.

For example, our scientists are using advanced sequencing techniques to track how lung cancers evolve and change over time within each individual patient.

And we’re also starting to see genetic testing come into the clinical trials for different types of cancer, informing doctors about which drugs are most likely to work for which person.

Another application that’s showing promise is reading the DNA shed by tumours into the bloodstream. This could become a powerful way to non-invasively diagnose and monitor cancer in the future.

Finally, genetic knowledge could be the key to guiding potent immunotherapies with the potential to bring new cures.

Whatever comes next, there’s no doubt that the future of DNA sequencing will be as transformative as its past.