ข้อมูล

จะรับการถอดรหัสโปรตีน RefSeq ที่ถูกต้องสำหรับการถอดเสียง RefSeq Nucleotide ได้อย่างไร

จะรับการถอดรหัสโปรตีน RefSeq ที่ถูกต้องสำหรับการถอดเสียง RefSeq Nucleotide ได้อย่างไร



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

จะรับหมายเลขภาคยานุวัติโปรตีนตามรุ่นสำหรับหมายเลขภาคยานุวัติของ Refseq ได้อย่างไร

ฉันมีหมายเลขภาคยานุวัติ RefSeq เวอร์ชันหนึ่งแล้วและฉันต้องการทราบหมายเลขภาคยานุวัติโปรตีนที่สอดคล้องกัน

ตาม RefSeqFAQ http://www.ncbi.nlm.nih.gov/books/NBK50679/#RefSeqFAQ.what_causes_the_version_number ไม่มีการแมป 1 ต่อ 1 ระหว่างตัวเลขเหล่านี้

นอกจากนี้ ระเบียนนิวคลีโอไทด์ (NM_, XM_) และโปรตีน (NP_, XP) สำหรับการถอดเสียงเดียวกันอาจไม่มีหมายเลขเวอร์ชันเดียวกันหลังจากการอัพเดต ตัวอย่างเช่น การอัปเดต UTR 5' ของระเบียน RefSeq นิวคลีโอไทด์จะทำให้เกิดการเปลี่ยนแปลงหมายเลขเวอร์ชันสำหรับเร็กคอร์ดนิวคลีโอไทด์ที่อัปเดต แต่ไม่ใช่สำหรับเร็กคอร์ดโปรตีนที่เกี่ยวข้อง ในทางกลับกัน การเปลี่ยนแปลงในไซต์เริ่มต้นที่มีหมายเหตุประกอบของลำดับการเข้ารหัสโดยไม่มีการเปลี่ยนแปลงในลำดับนิวคลีโอไทด์ที่แฝงอยู่จะทำให้เกิดการอัพเดตหมายเลขเวอร์ชันสำหรับNP_แต่ไม่ใช่สำหรับNM_.

ฉันได้ลองสิ่งนี้ แต่มันทำให้ฉันใหญ่

>>> จาก Bio นำเข้า Entrez >>> Entrez.email='[email protected]' >>> f = file('entrez_NM_005529.5.txt', 'w') >>> พิมพ์ >>f, Entrez efetch(… db="โปรตีน",id="NM_005529.5", rettype="native", retmode="xml").read()

ผลลัพธ์ XML มีโปรตีน Acc No,NP_005520แต่ไม่มีระบุรุ่น มีวิธีง่าย ๆ ในการรับเวอร์ชันการถอดรหัสโปรตีนที่ตรงกันหรือไม่?


มีอีกวิธีง่ายๆ สำหรับลำดับของมนุษย์

ไปที่ RefSeq FTP และดาวน์โหลดไฟล์ LRG_RefSeqGene ไฟล์นี้มีการจับคู่ที่อัปเดตระหว่างลำดับยีน mRNA และโปรตีน (เวอร์ชันล่าสุด)

จาก README:

การรายงานไฟล์ที่คั่นด้วยแท็บ สำหรับแต่ละยีน ภาคยานุวัติรุ่นของจีโนมและ RNA และโปรตีน RefSeqs โปรเจ็กต์ RefSeqGene/LRG ถือเป็นมาตรฐานอ้างอิง คอลัมน์คือ: รหัสอนุกรมวิธาน NCBI (ทั้งหมด 9606) GeneID สัญลักษณ์ของยีน (เป็นทางการจาก HGNC หากมี) Accession.version ของข้อกำหนด RefSeq มาตรฐานที่อธิบายลำดับจีโนม RefSeq RefSeqGene Ref Std ลำดับนิวคลีโอไทด์ RNA Ref Std ลำดับโปรตีนโปรตีน LRG เทียบเท่า LRG มาตรฐาน RefSeq: ลำดับจีโนม t1 ตำแหน่งสำหรับการถอดเสียง 1 p1 CDS จากการถอดเสียง 1 หมายเหตุ: ค่า t สามารถเป็น > 1 ได้ จำนวนเต็มที่กำหนดให้ t ตรงกับจำนวนเต็มที่กำหนดให้ p

บางบรรทัดจากไฟล์:

9606 3329 HSPD1 NG_008915.1 NM_199440.1 NP_955472.1 มาตรฐานอ้างอิง 9606 3329 HSPD1 NG_008915.1 NM_002156.4 NP_002147.2 จัดตำแหน่ง: เลือกแล้ว 9606 3336 HSPE1 NG_008914.1 NM_002157.2 NP_06002148.1 มาตรฐานอ้างอิง 96074NG 3301 .6 NP_005520.4 มาตรฐานอ้างอิง

ไม่ใช่เรื่องง่ายสำหรับสิ่งมีชีวิตอื่นๆ สำหรับพวกเขา คุณควรแยกวิเคราะห์หน้า mRNA เพื่อค้นหารหัสโปรตีน RefSeq หรือไปที่ฐานข้อมูลที่กำหนดไว้เฉพาะ (เช่น FlyBase สำหรับแมลงหวี่) และรับข้อมูลเกี่ยวกับยีนกับการทำแผนที่โปรตีน

ในการรับบันทึก RefSeq จาก NCBI โดยใช้การแยกวิเคราะห์ คุณควรได้รับหมายเลขภาคยานุวัติ GI ที่สอดคล้องกับ mRNA ก่อน

ตัวอย่าง:NM_007393(เมาส์เบต้าแอคติน)

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=nucleotide&term=NM_007393

ซึ่งจะให้หมายเลขภาคยานุวัติ GI:930945786.

จากนั้นดึงโปรตีน GI โดยใช้เลขทะเบียนนี้:

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=nucleotide&db=protein&id=930945786

ซึ่งให้หมายเลขภาคยานุวัติ GI:6671509

ในที่สุดก็รับรหัส RefSeq (ถ้ามี) ที่สอดคล้องกับภาคยานุวัติ GI นี้ คุณสามารถดาวน์โหลดตารางคุณสมบัติและค้นหา RefSeq id:

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=nucleotide&db=protein&id=930945786&rettype=ft

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการใช้ Entrez E-Utilities ดูที่นี่


แล้วการใช้ RefSeq ล่ะ? สมมติว่าคุณสนใจโปรตีน E. coli ทั้งหมด คุณสามารถใช้ข้อความค้นหา "Escherichia coli"[Organism] AND RefSeq[Filter] ได้ที่นี่

หากคุณรู้จักตัวระบุอนุกรมวิธานสำหรับสิ่งมีชีวิตเฉพาะที่คุณสนใจ คุณสามารถใช้มันได้เช่นกัน ตัวอย่างเช่น หากคุณสนใจเฉพาะ "Escherichia coli str. ซับสเตรต K-12 DH10B" คุณสามารถใช้ตัวระบุอนุกรมวิธาน 316385 (ได้มาจากที่นี่) ในแบบสอบถาม txid316385[Organism] AND RefSeq[Filter]

หากต้องการแยกรายการของภาคยานุวัติและบันทึกลงในไฟล์บนดิสก์ ให้ใช้เมนู "ส่งไปยัง" ที่มุมขวาบน เลือก "ไฟล์" เป็นปลายทาง ตามด้วย "รายการการเข้าถึง" เป็นรูปแบบและดาวน์โหลดไฟล์


การเปรียบเทียบฐานข้อมูล RefSeq, Ensembl และ EST ปัจจุบันสำหรับการนับยีนและการค้นพบยีน

เมื่อเร็ว ๆ นี้ได้มีการเพิ่มวัสดุลำดับที่กลั่นกรองจำนวนมากในรูปแบบของยีนที่คาดการณ์ ดูแลจัดการ และใส่คำอธิบายประกอบ และแท็กลำดับที่แสดงออก (EST) ลงในฐานข้อมูล NCBI เราจับคู่ลำดับการถอดเสียงของ RefSeq, Ensembl และ dbEST ในความพยายามที่จะให้ภาพรวมที่อัปเดตของจำนวนยีนที่มีลักษณะเฉพาะของมนุษย์ที่สามารถพบได้ ผลการวิจัยระบุว่ามียีนที่ไม่ซ้ำกันประมาณ 25,000 ยีนในการรวมกลุ่มของ RefSeq และ Ensembl ที่มี 12-18% และ 8-13% ของยีนในแต่ละชุดที่ไม่ซ้ำกันสำหรับชุดอื่นๆ ตามลำดับ ประมาณ 20% ของยีนทั้งหมดมีรูปแบบการประกบกัน มี EST จำนวนมาก (2 200 000) ที่ไม่ตรงกับยีนที่ระบุ และเราใช้ไปป์ไลน์ภายในเพื่อระบุยีนใหม่ 22 ยีนจากการคาดการณ์ของ Genscan ที่มีความครอบคลุม EST มาก การศึกษานี้ให้ข้อมูลเชิงลึกเกี่ยวกับสถานะปัจจุบันของแค็ตตาล็อกยีนของมนุษย์ และแสดงให้เห็นว่าจำเป็นต้องมีการปรับแต่งวิธีการและชุดข้อมูลอย่างมากเพื่อสรุปจำนวนยีนที่สรุปได้


ผลลัพธ์และการอภิปราย

การจำแนกเริ่มต้นของ loci

กลุ่ม HAVANA แบ่งคุณลักษณะของยีนออกเป็นหมวดหมู่ต่างๆ ซึ่งมีเพียง 2 ลำดับแรก (ที่รู้จักและลำดับการเข้ารหัสแบบใหม่ (CDS)) เท่านั้นที่คาดการณ์ได้อย่างมั่นใจว่าจะเป็นยีนเข้ารหัสโปรตีน ปัจจัยร่วมระหว่างโครงสร้างยีนที่มีหมายเหตุประกอบทั้งหมดคือ โครงสร้างเหล่านี้ต้องได้รับการสนับสนุนจากหลักฐานการถอดรหัสผ่านความคล้ายคลึงกันกับ cDNA แท็กลำดับที่แสดงออก (EST) และ/หรือลำดับโปรตีน ต่อไปนี้เป็นประเภทยีนที่ใช้ครั้งแรกกับหมายเหตุประกอบโครโมโซมมนุษย์ 20 [8] และต่อมาขยายเพื่อจัดประเภทคำอธิบายประกอบที่สร้างขึ้นสำหรับโครงการ ENCODE อย่างครบถ้วน

ยีนที่รู้จัก

ยีนที่รู้จักนั้นเหมือนกันกับ cDNA ของมนุษย์หรือลำดับโปรตีนและระบุโดย GeneID ใน Entrez Gene [9]

ลำดับการเข้ารหัสนวนิยาย

ลำดับการเข้ารหัสนวนิยายมีกรอบการอ่านแบบเปิด (ORF) และเหมือนกัน หรือมีเหมือนกันกับ cDNA หรือโปรตีน แต่ไม่จัดอยู่ในหมวดหมู่ข้างต้น ลำดับ mRNA เหล่านี้จะถูกส่งไปยังฐานข้อมูลสาธารณะ แต่ยังไม่ได้แสดงใน Entrez Gene หรือ ยังไม่ได้รับชื่อยีนอย่างเป็นทางการจากคณะกรรมการการตั้งชื่อ [10] พวกมันยังสามารถแปลกใหม่ในแง่ที่ว่าพวกมันยังไม่ได้แสดงโดยลำดับ mRNA ในสปีชีส์ที่เกี่ยวข้อง

การถอดเสียงนวนิยาย

ทรานสคริปต์ของนวนิยายดังที่กล่าวมาข้างต้น แต่ไม่มี ORF ใดที่สามารถกำหนดได้อย่างชัดเจนว่าสิ่งเหล่านี้อาจเป็นยีนที่ไม่มีการเข้ารหัสของแท้ หรืออาจเป็นยีนเข้ารหัสโปรตีนบางส่วนที่สนับสนุนโดยหลักฐานที่จำกัด ควรได้รับการสนับสนุนโดย EST อย่างน้อยสามรายการจากแหล่งอิสระ (ไม่ได้มาจากตัวระบุโคลนเดียวกัน)

ยีนสมมุติ

ยีนสมมุติฐานมีความเหมือนกันหรือมีเหมือนกันกับ EST แบบประกบ แต่ไม่มีคุณสมบัติของ ORF และ polyA ที่มีนัยสำคัญ ซึ่งโดยทั่วไปแล้วจะเป็นยีน exon หรือชิ้นส่วนของยีนสั้น ๆ สองหรือสามชิ้น

ซูโดจีนีส

ซูโดจีนีส (สันนิษฐานว่าไม่มีหลักฐานที่แสดงออก) มีความคล้ายคลึงกันกับโปรตีน แต่โดยทั่วไปแล้วจะได้รับผลกระทบจาก CDS ที่กระจัดกระจายและยีนที่คล้ายคลึงกันที่ทำงานอยู่สามารถพบได้ที่สถานที่อื่น หมวดหมู่นี้สามารถแบ่งย่อยเพิ่มเติมเป็น pseudogenes ที่ผ่านกระบวนการหรือที่ยังไม่ได้ประมวลผลได้ บางครั้งรายการเหล่านี้มี CDS ที่ไม่บุบสลายหรือ ORF ที่เปิดอยู่แต่ถูกตัดออก ซึ่งในกรณีนี้จะมีหลักฐานอื่นที่ใช้ (เช่น genomic polyA ยืดออกที่ส่วนท้าย 3') เพื่อจำแนกว่าเป็น pseudogene

ดัดแปลงพันธุกรรม

ปัจจุบัน ยีนเทียมที่ถอดเสียงแล้วไม่ได้รับแท็กแยกต่างหากภายใน GENCODE และได้รับการจัดการโดยการสร้างออบเจ็กต์เทียมและออบเจ็กต์การถอดเสียงที่ทับซ้อนกันซึ่งมีชื่อโลคัสเดียวกัน

TEC (รอการยืนยันจากการทดลอง)

เพื่อยืนยันการทดลอง (TEC) ใช้สำหรับคลัสเตอร์ EST ที่ไม่ต่อเชื่อมที่มีคุณสมบัติ polyA หมวดหมู่นี้ได้รับการสร้างขึ้นโดยเฉพาะสำหรับโครงการ ENCODE เพื่อเน้นบริเวณที่อาจบ่งบอกถึงการมีอยู่ของยีนการเข้ารหัสโปรตีนที่จำเป็นต้องมีการตรวจสอบการทดลอง ไม่ว่าจะด้วยการขยาย cDNA ปลาย (RACE) หรือ RT-PCR อย่างรวดเร็ว 5' เพื่อขยายการถอดเสียงหรือโดย ยืนยันการแสดงออกของเปปไทด์ที่เข้ารหัสแบบสมมุติด้วยแอนติบอดีจำเพาะ

ยีนสิ่งประดิษฐ์

ยีนสิ่งประดิษฐ์ใช้เพื่อแท็กข้อผิดพลาดในฐานข้อมูลสาธารณะ (Ensembl/SwissProt/Trembl) โดยปกติ สิ่งเหล่านี้เกิดขึ้นจากโปรเจ็กต์การจัดลำดับ cDNA ที่มีปริมาณงานสูง ซึ่งส่งคำอธิบายประกอบอัตโนมัติในบางครั้งทำให้เกิด CDS ที่ผิดพลาด เช่น พื้นที่ที่ไม่ได้แปล (UTR) 3 แห่ง

คำอธิบายประกอบ GENCODE ของภูมิภาค ENCODE

การเปิดตัวครั้งแรกของคำอธิบายประกอบของภูมิภาค 44 ENCODE ถูกระงับเมื่อวันที่ 29 เมษายน 2548 และถูกใช้ในเวิร์กช็อป E-GASP ประกอบด้วย loci ที่รู้จัก 416 แห่ง, ตำแหน่ง CDS นวนิยาย 26 แห่ง, ตำแหน่งการถอดรหัสนวนิยาย 82 แห่ง, ตำแหน่งสมมุติ 78 แห่ง, ซูโดจีนีที่ประมวลผลแล้ว 104 แห่ง และซูโดจีนที่ยังไม่ได้ประมวลผล 66 ตัว เวอร์ชันปัจจุบัน (รีลีส 02) ถูกแช่แข็งเมื่อวันที่ 14 ตุลาคม พ.ศ. 2548 ประกอบด้วย loci ที่รู้จัก 411 แห่ง, ตำแหน่ง CDS นวนิยาย 30 แห่ง, ตำแหน่งการถอดรหัสนวนิยาย 81 ตำแหน่ง, ตำแหน่งสมมุติ 83 แห่ง, ซูโดจีนีที่ประมวลผลแล้ว 104 แห่ง และซูโดจีนที่ยังไม่ประมวลผล 66 ตัว เนื้อหาของยีนมีการเปลี่ยนแปลงอันเป็นผลมาจากการตรวจสอบความถูกต้องของการทดลอง (ดูหัวข้อถัดไป) โดยรวมแล้ว 2.9% ของนิวคลีโอไทด์ในบริเวณ ENCODE (ทั้งสองเส้นที่พิจารณาแยกกัน) ถูกครอบคลุมโดย exons ที่ทำหมายเหตุประกอบไว้ (1.2% โดยการเข้ารหัสและ 1.7% โดย UTR และการไม่เข้ารหัส) และ 31% ถูกถอดความ (ครอบคลุมโดย exon ที่มีหมายเหตุประกอบหรือ อินตรอน)

ใบรับรองผลการเรียนหลายฉบับมีคำอธิบายประกอบ ณ ที่ใด ๆ ที่มีหลักฐานสนับสนุน ดังนั้น 487 ชุดตำแหน่งอ้างอิงอ้างอิง GENCODE ที่คอมไพล์แล้ว (รวบรวมจากการเข้ารหัสและตำแหน่งที่ตรวจสอบทดลองแล้ว) สอดคล้องกับ 2,608 การถอดเสียง โดย 1,097 รายการเป็นการเข้ารหัส จากรหัสตำแหน่ง (CDS ที่รู้จักและใหม่) 78% มีรูปแบบการประกบทางเลือก (86% ของตำแหน่งยีน multi-exon) โดยมีค่าเฉลี่ย 5.7 ตัวแปรต่อสถานที่ จากรูปแบบการเข้ารหัส ประมาณ 70% มี CDS ที่สมบูรณ์ (ส่วนที่เหลือเป็นบางส่วน) 54% ของตำแหน่งการเข้ารหัสมี CDS ทางเลือก ซึ่งบ่งชี้ว่าความหลากหลายนั้นต่ำกว่าที่ระดับการถอดเสียงเป็นสัดส่วนที่สำคัญของการต่อประกบทางเลือก แบบฟอร์มมีผลกับ UTR เท่านั้น NS RNPC2 (ภูมิภาคที่มีผลผูกพัน RNA (RNP1, RRM) ที่มี 2) ยีนมี 37 สายพันธุ์ ซึ่งเป็นจำนวนสูงสุดในภูมิภาค ENCODE โดยมีเพียง 6 ตัวเท่านั้นที่มีหมายเหตุประกอบเป็นรหัส

การตรวจสอบการทดลองของคำอธิบายประกอบ GENCODE

มีการส่งคำอธิบายประกอบเริ่มต้นของ HAVANA สำหรับการตรวจสอบการทดลอง (รูปที่ 1) ขั้นแรก ใช้ 5' RACE ในเนื้อเยื่อที่แตกต่างกัน 12 แบบเพื่อยืนยันว่ายีนเข้ารหัสที่มีคำอธิบายประกอบ (ภายในหมวดหมู่ของโลคัส CDS ทั้งที่รู้จักและใหม่) ได้ขยายออกไปให้ไกลที่สุดเท่าที่จะทำได้ไปยังไซต์เริ่มต้นการถอดรหัส เพื่อไม่ให้มีเอ็กซอนเพิ่มเติมใน 5 ' UTR และระบุการถอดเสียงแบบเต็มความยาวที่เป็นตัวแทนสำหรับแต่ละสถานที่ จากการทดสอบ 420 coding loci ทดสอบ 229 ผลิตภัณฑ์ RACE สามารถจัดลำดับได้ พวกเขาสนับสนุนส่วนขยาย 5' ของ 30 loci (ส่วนขยายของ exon แรกในสองในสามของ case, 5' exon ใหม่ในหนึ่งในสามของ case) และตัวแปร splice ใหม่ (ไม่ขยายส่วนท้าย 5') ใน 50 loci

ประการที่สอง RT-PCR ในเนื้อเยื่อ 24 ชิ้นถูกใช้เพื่อตรวจสอบโครงสร้างการถอดเสียง (นวนิยายและสมมุติฐาน) โดยการตรวจสอบจุดต่อรอยต่อ จุดเชื่อมต่อทั้งหมด 360 จุดใน 161 นวนิยายและตำแหน่งการถอดเสียงสมมุติได้รับการทดสอบ จากการทดสอบเหล่านั้น มี 47 loci ที่ได้รับการตรวจสอบแล้ว ซึ่งประกอบด้วยนวนิยาย 31 ฉบับและใบรับรองผลการเรียน 15 ฉบับ ตามที่คาดไว้ อัตราความสำเร็จของ RT-PCR สำหรับ 'การถอดเสียงนวนิยาย' (37%) สูงกว่าการถอดเสียงสมมุติ (19%) ดำเนินการ RACE แบบสองทิศทางสำหรับตำแหน่งการถอดเสียงด้วยจุดต่อประกบที่ได้รับการตรวจสอบเรียบร้อยแล้ว สิ่งนี้รองรับเจ็ด loci ตลอดความยาว แต่ไม่ได้ขยายออกไป

ประการที่สาม ตำแหน่งที่ไม่ใช่ Canonical ที่ทำหมายเหตุประกอบไว้ทั้งหมด (นั่นคือ อินตรอนทั้งหมดที่ไม่เป็นไปตามกฎ AG-GT หรือ AG-GC) ได้รับการทดสอบโดย RT-PCR บนเนื้อเยื่อ 24 ชิ้น จากไซต์ต่อเชื่อมที่มีหมายเหตุประกอบ 98% เป็น Canonical GT-AG และ 0.9% เพิ่มเติมคือ GC-AG มีไซต์ประกบ AT-AC 0.2% ส่วนใหญ่สอดคล้องกับอินตรอน U12 ที่เป็นที่ยอมรับ [11] ไซต์ประกบกันที่ไม่ใช่บัญญัติอื่น ๆ เกิดขึ้นใน 0.9% ที่เหลือของอินตรอน ในบรรดาไซต์การประกบแบบ non-canonical 90 แห่งที่ทดสอบโดย RT-PCR ในเนื้อเยื่อ 24 ชิ้น มีปฏิกิริยา 78 ปฏิกิริยาเป็นลบ 11 แห่งจัดให้มีจุดต่อแบบบัญญัติอื่น ๆ (ส่วนใหญ่มีหมายเหตุประกอบไว้แล้วในรูปแบบการต่อเชื่อมอื่นๆ) และมีเพียง 1 แห่งเท่านั้นที่ได้รับการยืนยัน (CT-TG) ระดับความสำเร็จที่ต่ำมากของ RT-PCR บนจุดต่อแบบ non-canonical ในเนื้อเยื่อ 24 ชิ้นแสดงให้เห็นว่าเหตุการณ์เหล่านี้อาจเป็นเรื่องที่เกิดขึ้นเอง ในการควบคุม เราได้ทำ RT-PCR บนเนื้อเยื่อ 24 ชิ้น (ดูวัสดุและวิธีการ) บนคู่ exon ที่สุ่มเลือก 96 คู่จากภายในหมายเหตุประกอบ GENCODE หลังจากการเรียงลำดับของเครื่องขยายเสียง คู่ exon ที่ใส่หมายเหตุประกอบไว้ได้รับการยืนยันใน 84 ราย (87%) ในเนื้อเยื่ออย่างน้อยหนึ่งชิ้น โดยพื้นฐานแล้วนี่คือผลลัพธ์ที่คาดหวัง เนื่องจากรูปแบบการต่อประกบทางเลือกจำนวนมากใน GENCODE มีแนวโน้มที่จะมีรูปแบบการแสดงออกที่จำกัด และอาจไม่แสดงในเนื้อเยื่อ 24 ชิ้นที่ทดสอบ

รูปที่ 2 สรุปกระบวนการของคำอธิบายประกอบ การตรวจสอบความถูกต้องของการทดลอง และการทำหมายเหตุประกอบใหม่ที่เกิดขึ้นตั้งแต่การเผยแพร่หมายเหตุประกอบ GENCODE ดั้งเดิมในเดือนเมษายน และการอัปเดตปัจจุบันในเดือนตุลาคม 2548

การตรวจสอบความถูกต้องเชิงทดลองของคำอธิบายประกอบของ HAVANA 'รู้จัก' และ 'Novel_CDS' ถูกส่งไปยัง 5' RACE และ 'การถอดเสียงนวนิยาย' และ 'สมมุติฐาน' ถูกส่งไปยัง RT-PCR บนทางแยก exon ทั้งหมด ตามด้วย RACE แบบสองทิศทาง มีการใส่หมายเหตุซ้ำหลายขั้นตอนในระหว่างกระบวนการตรวจสอบทดลอง: รูปภาพแสดงการอัปเดตคำอธิบายประกอบระหว่างการเปิดตัวครั้งแรกในเดือนเมษายน 2548 และการเปิดตัวตั้งแต่เดือนตุลาคม 2548

การประเมินความสมบูรณ์ของคำอธิบายประกอบ GENCODE

เพื่อตรวจสอบว่าคำอธิบายประกอบแบบแมนนวลพลาดตำแหน่งการเข้ารหัสใด ๆ หรือไม่ ปฏิกิริยา RT-PCR ในเนื้อเยื่อ 24 ชิ้นยังถูกดำเนินการสำหรับการต่อรอยต่อจากวัตถุยีนทั้งหมดที่ทำนายโดยแผงอัลกอริธึมการทำนายยีนอัตโนมัติก่อนการประชุมเชิงปฏิบัติการ E-GASP (Geneid [12) ], Genescan [13], Twinscan [14], SGP [15], Fgenesh [16], Exonify [17], Acembly [18] Ecgene [19], Ensembl EST [20]) ที่อยู่นอกยีนที่มีคำอธิบายประกอบของ HAVANA 13 จาก 44 ภูมิภาคของ ENCODE (สอดคล้องกับภูมิภาคการฝึกอบรมที่มีการเผยแพร่คำอธิบายประกอบก่อนกำหนดส่งการคาดคะเน E-GASP) จากการทดสอบคู่ exon 1,215 คู่ มีเพียง 14 คู่ (1.2%) ที่ให้ผลลัพธ์ที่เป็นบวก โดย 9 คู่สามารถทำนายขอบเขต exon ได้อย่างสมบูรณ์แบบ และ 5 คู่มีขอบเขต exon ที่ถูกแทนที่ ( RT-PCR ที่เป็นบวกอีก 8 ตัวตกอยู่ใน 2 ตำแหน่งปลอม) ในบรรดาจุดเชื่อมต่อที่ตรวจสอบแล้วในเชิงบวก 14 จุด มี 8 จุดเป็นรูปแบบการต่อใหม่ภายในไปยังตำแหน่งที่มีคำอธิบายประกอบ 4 จุดเป็นรูปแบบการต่อเชื่อมใหม่ที่ขยายตำแหน่งที่มีคำอธิบายประกอบ และมีเพียง 2 จุดเท่านั้นที่มีการเชื่อมโยงระหว่างยีนกับคำอธิบายประกอบทั้งหมด ผลลัพธ์เหล่านี้ชี้ให้เห็นว่าชุดยีน GENCODE ค่อนข้างสมบูรณ์ จากนั้นจึงอัปเดตเพื่อรวมรูปแบบการต่อ/ตำแหน่งใหม่ที่แนะนำโดยการทดลองเหล่านี้

เพื่อประเมินความสมบูรณ์ของคำอธิบายประกอบ GENCODE เพิ่มเติม เราได้เปรียบเทียบกับชุดยีนมนุษย์อื่นๆ ที่เผยแพร่ต่อสาธารณะและใช้กันอย่างแพร่หลาย: RefSeq [21] และ ENSEMBL [22] ชุดยีนเหล่านี้ดาวน์โหลดจากเบราว์เซอร์จีโนม UCSC ในเดือนพฤศจิกายน 2548 ตารางที่ 1 แสดงการทับซ้อนระหว่างชุดเหล่านี้กับ GENCODE อย่างน้อยหนึ่ง bp: 99% ของ RefSeq และ 94% ของ ENSEMBL exons ทับซ้อนกับ GENCODE exons ในทางตรงกันข้าม มีเพียง 80% และ 84% ของ GENCODE exons ที่ทับซ้อนกันของ RefSeq และ ENSEMBL ตามลำดับ

รูปที่ 3 แสดงการเปรียบเทียบที่ระดับ exon/intron ที่แน่นอน แม้ว่าข้อตกลงที่แน่นอนระหว่าง GENCODE ในด้านหนึ่ง และ RefSeq และ ENSEMBL ในอีกทางหนึ่ง จะต่ำกว่าเมื่อพิจารณาฐานทับซ้อนกัน แต่สังเกตแนวโน้มเดียวกัน: 84% (3,361/3,984) ของ RefSeq และ 76% (3,584/4,734 ) ของ ENSEMBL exons จะรวมอยู่ในชุด GENCODE แต่มีเพียง 40% ของ GENCODE exons เท่านั้นที่รวมอยู่ใน RefSeq หรือ ENSEMBL

การเปรียบเทียบคำอธิบายประกอบการถอดเสียง GENCODE กับ RefSeq และ ENSEMBL ข้อตกลงที่แน่นอนระหว่าง GENCODE และ RefSeq และ GENCODE และ ENSEMBL exons, introns และ nucleotides (NT) สำหรับการถอดเสียงแบบเต็มหรือเฉพาะส่วนการเข้ารหัสของการถอดเสียง (CDS) จะแสดง: ในสีน้ำเงินคือเศษส่วนที่พบใน GENCODE เป็นสีเขียวเท่านั้น เศษส่วนร่วมระหว่าง GENCODE และชุดอื่น (RefSeq หรือ ENSEMBL) และเศษส่วนสีแดงที่พบเฉพาะในชุดอื่น (RefSeq หรือ ENSEMBL) แต่ไม่ใช่ใน GENCODE ชุด RefSeq มีเฉพาะการถอดเสียงที่ดูแลจัดการซึ่งติดแท็กด้วยคำนำหน้า NM

ดังที่แสดงในรูปที่ 3 ข้อตกลงที่แน่นอนนั้นใหญ่กว่าสำหรับ exons มากกว่าสำหรับ introns ซึ่งแสดงให้เห็นว่าความขัดแย้งส่วนใหญ่พบที่เทอร์มินัล exons ซึ่งสะท้อนให้เห็นในความจริงที่ว่าข้อตกลงนั้นมีขนาดใหญ่กว่าสำหรับชุดย่อยของการเข้ารหัสมากกว่าสำหรับ ชุดของ exons ทั้งหมด โดยสรุป การเปรียบเทียบแสดงให้เห็นว่า GENCODE มีคุณสมบัติส่วนใหญ่จาก RefSeq และ ENSEMBL แต่มี exon ที่ไม่ซ้ำกันมากกว่าชุดทั้งสอง ซึ่งสะท้อนให้เห็นด้วยรูปแบบการต่อเชื่อมทางเลือกจำนวนมาก

การตรวจสอบขอบเขต ENCODE ที่เป็นปัญหาสำหรับคำอธิบายประกอบอัตโนมัติ

อัลกอริธึมการทำนายยีนที่ประสบความสำเร็จมากที่สุดในการประชุมเชิงปฏิบัติการการประเมิน E-GASP เมื่อเปรียบเทียบกับคำอธิบายประกอบแบบแมนนวลคืออัลกอริธึมที่ใช้การจัดตำแหน่งของลำดับที่แสดงออกมาเพื่อสร้างการทำนายยีน (ดู [7] ในฉบับนี้) อย่างไรก็ตาม แม้แต่วิธีการที่ประสบความสำเร็จมากที่สุดของการทำนายยีนอัตโนมัติก็มีความไวสูงสุด 70% ที่ระดับยีน (โดยที่โครงสร้างการถอดรหัส exon/intron อย่างน้อยหนึ่งตัวได้รับการทำนายอย่างถูกต้อง) และ 45% ที่ระดับการถอดเสียง ทำนายได้ถูกต้อง) มีหลายเหตุผลนี้. อุบัติการณ์ของยีนที่ไม่ได้รับบางส่วนสามารถอธิบายได้โดยการขาดหลักฐานการถอดรหัสเอกลักษณ์สูง ตัวอย่างเช่น ยีนรับกลิ่นจำนวนมากใน ENm009 (รูปที่ 4f) ขาดการถอดรหัสและการสนับสนุนโปรตีนที่ดี [23] อีกตัวอย่างหนึ่งคือ ANKRD43 locus ใน ENr221 ซึ่งการครอบคลุมบางส่วนของยีนที่มี mRNA ของมนุษย์ทำให้เกิดการคาดคะเนอัตโนมัติที่ถูกตัดทอน อย่างไรก็ตาม หลักฐานข้ามสายพันธุ์สนับสนุนยีนเข้ารหัสโปรตีนที่ขยายเพิ่ม (รูปที่ 4c) ในกรณีอื่นๆ ตัวทำนายล้มเหลวในการทำนายที่ถูกต้องแม้ว่าจะมีการถอดเสียงแบบเต็มที่มีลำดับที่สมบูรณ์แบบอยู่ในฐานข้อมูล (เช่น Pairagon ที่ตำแหน่ง TRIM22 ใน ENm009 รูปที่ 4b) นอกจากนี้ยังมีตัวอย่างที่การคาดคะเนแตกต่างจากโครงสร้างยีนคำอธิบายประกอบแบบแมนนวล แม้ว่าจะใช้หลักฐานสนับสนุนเดียวกัน เนื่องจากปัญหาเกี่ยวกับการจัดตำแหน่งอัตโนมัติ (เช่น Ensembl และ Pairagon ที่ตำแหน่ง MAP3K1 ใน ENr221 รูปที่ 4a)ปัญหาที่ดูเหมือนจะเกี่ยวข้องกับกลุ่มยีนที่ซ้ำซ้อนแบบคู่คือการเชื่อมโยงเข้าด้วยกันของตำแหน่งที่อยู่ติดกัน การถอดเสียงที่คาดคะเนใช้เอ็กซอนที่ต่อเนื่องกันจากโลคัสมากกว่าหนึ่งแห่ง ตัวอย่างเช่น สำหรับยีนเอ็กซอนหกตัวที่ใช้เอ็กซอน 1 และ 2 จากโลคัส A, 3, 4 และ 5 จากโลคัส B และ 6 จากโลคัสซี เนื่องจากเอ็กซอนที่เท่ากันของสำเนาที่แตกต่างกัน ของยีนมีความคล้ายคลึงกันมาก (มักจะเหมือนกัน) ผลการถอดรหัสที่ทำนายได้คือโครงสร้างที่ยาวซึ่งมักจะครอบคลุมหลายตำแหน่ง (เช่น AceView ที่ตำแหน่ง HBG1/HBG2 ใน ENm009)

การเปรียบเทียบคำอธิบายประกอบ GENCODE กับวิธีการทำนายยีนอัตโนมัติ ดูใน Fmap ของ Acedb แผง A แสดง MAPK1 ยีนใน ENr221 โครงสร้างยีนที่มีคำอธิบายประกอบของ GENCODE แสดงเป็นสีเขียวและสีแดง บริเวณวงกลมเน้นที่ exon แรกที่แตกต่างกันซึ่งระบุโดย Pairagon (สีชมพูเข้ม/สีน้ำเงิน) และบริเวณที่ขยายออกจะแสดงอินตรอนขนาดเล็ก (ระบุด้วยลูกศร) ทำนายโดย Ensembl (สีส้ม/สีแดง) แผง B แสดงตำแหน่ง TRIM22 ใน ENm009 โครงสร้างที่ทำนายโดย Pairagon แตกต่างจากโครงสร้าง GENCODE และรวม pseudogene ที่ยังไม่ได้ประมวลผลเป็น exon สุดท้าย (วงกลม) แผง C แสดง ANKRD43 locus ของมนุษย์ใน ENr221 ซึ่ง AceView (สีชมพูอ่อน/สีน้ำเงิน), Pairagon และ Ensembl ทั้งหมดคาดการณ์ CDS ที่สั้นกว่า GENCODE C ii แสดงโลคัส ANKRD43 ของเมาส์ซึ่ง ATG ต้นน้ำได้รับการอนุรักษ์ไว้ แผง D แสดง GENCODE pseudogene locus ที่ยังไม่ได้ประมวลผล GENCODE AC087380.14 ซึ่ง Ensembl คาดการณ์ยีนการเข้ารหัส ลูกศรบ่งชี้ว่ามีอินตรอนขนาดเล็กที่นำมาใช้ในการทำนายเพื่อประกบรอบ codon หยุดก่อนเวลาอันควรในเฟรม แผง E แสดง IFNAR2 locus ใน ENm005 พร้อมการเข้ารหัส GENCODE (สีแดง/สีเขียว) และรูปแบบที่ไม่เข้ารหัส (สีแดงทั้งหมด) และการคาดคะเน AceView AceView CDS แตกต่างจาก GENCODE หลายประการ ลูกศร 'a' หมายถึงการถอดเสียงหลายอันที่มี CDS ของพวกเขาขยายไปจนถึงจุดเริ่มต้นของการทำนายต้นน้ำของ GENCODE CDS ลูกศรเริ่มต้น 'b' หมายถึง CDS ที่เริ่มต้นใน exon 5 แม้ว่าจะมีต้นน้ำอยู่ก็ตาม ATG ซึ่งดูเหมือนจะขัดขวางการเริ่มต้น (อีกครั้ง) จากไซต์นี้ และลูกศร 'c' บ่งชี้ถึง codon หยุดที่คาดการณ์ไว้ในลำดับที่สี่จาก exon ล่าสุด ซึ่งน่าจะทำให้การถอดเสียงนี้เป็นเป้าหมายจากการสลายตัวที่ไร้สาระ (NMD) . คำอธิบายประกอบ GENCODE รวมตัวแปรเหล่านี้ทั้งหมด แต่เก็บไว้เป็นการถอดเสียงเนื่องจากไม่สามารถกำหนด CDS ได้อย่างแน่นอน แผง F แสดงส่วนหนึ่งของคลัสเตอร์ตัวรับกลิ่น (OR) ใน ENm009 ที่นี่ Pairagon ทำนายยีนการเข้ารหัสที่ pseudogene locus OR52Z1P และยีน multi-exon ที่เชื่อมโยง OR loci แยกกัน (pseudogene locus OR51A1P, coding loci OR52A1 และ OR52A5) ซึ่งระบุด้วยลูกศร

ข้อสังเกตอีกประการหนึ่งคือ มีการคาดคะเนที่มีโครงสร้างอินทรอน/เอ็กซอนเหมือนกันกับคำอธิบายประกอบแบบแมนนวล แต่มี CDS ต่างกัน ในกรณีเช่นนี้ CDS มีนามสกุล 5' นั่นคือ ตรงกับ GENCODE CDS ทั้งหมด แต่ใช้ codon การเริ่มต้นการแปลต้นน้ำ (ส่วนใหญ่มักจะไม่ใช่ ATG เช่น AceView ที่ตำแหน่ง SEPT8 ใน ENr221 และประมาณ 41% ของ AceView มีการเริ่มต้นที่ไม่ใช่ ATG) หรือมี CDS ที่แตกต่างไปจากเดิมอย่างสิ้นเชิงในเฟรมที่ต่างกัน แบบหลังมักส่งผลให้เกิดโครงสร้างที่ไม่ปกติ โดยมี UTR แบบ multi-exon 5' และ/หรือ 3' ซึ่งขัดแย้งกับกฎที่ควบคุมการเริ่มต้นใหม่ [24] และการเสื่อมแบบสื่อกลางเรื่องไร้สาระ (NMD) [25] (เช่น Paragon ที่ ตำแหน่ง AC008937.5 ใน ENr221 และ AceView ที่ตำแหน่ง IFNAR2 ใน ENm005 รูปที่ 4e) ตัวทำนายหลายตัวได้รับผลกระทบจากความจำเพาะที่ลดลงอันเป็นผลมาจากการคาดการณ์ CDS ที่ตำแหน่ง loci มากเกินไป โดยที่คำอธิบายประกอบแบบแมนนวลไม่ได้ระบุ CDS ใดๆ ที่สามารถกำหนดได้อย่างมั่นใจ เหล่านี้แบ่งออกเป็นสองประเภท ประเภทแรกรวมถึง CDS ที่คาดการณ์ไว้ที่ตำแหน่งปลอม ซึ่งบ่อยครั้งที่ pseudogene ทนทุกข์ทรมานจากความพิการที่มีขนาดเล็ก แต่มีนัยสำคัญ (เช่น Ensembl ที่ AC08730.14 locus ใน ENm009 รูปที่ 4d) และประเภทที่สองรวมถึง 'การฝ่าฝืนกฎ' ประเภทของ CDS ที่อธิบายไว้ข้างต้น (AceView ที่ AC008937.2 ใน ENr221) ตัวทำนายเกือบทั้งหมด (โดยที่ AceView เป็นข้อยกเว้นที่โดดเด่น) คาดเดารูปแบบการประกบการเข้ารหัส (และไม่ใช่การเข้ารหัส) ที่คาดเดาไม่ได้ ซึ่งส่วนใหญ่จะทำนายหนึ่งการถอดเสียงต่อยีน

คำอธิบายประกอบ GENCODE ใช้เพียงหลักฐานเบื้องต้น ไม่มีการคาดการณ์หรือรายการ RefSeq ที่ใช้เพื่อสนับสนุนโครงสร้างยีน ซึ่งมีผลในการลดความเสี่ยงในการเผยแพร่ข้อผิดพลาดที่อาจปรากฏในฐานข้อมูล ชุดยีนที่มีคำอธิบายประกอบโดย GENCODE ได้รับการสนับสนุนโดยใช้หลักฐานจากแหล่งที่มีอยู่ทั้งหมด mRNAs ของมนุษย์และที่ไม่ใช่มนุษย์ EST และโปรตีน การใช้หลักฐานที่ไม่ใช่ของมนุษย์ได้รับการสนับสนุนโดยการวิเคราะห์ exons สี่ตัวที่ไม่มีอยู่ในคำอธิบายประกอบการผ่านครั้งแรกซึ่งระบุโดยอัลกอริธึม UNCOVER [26] ซึ่งสองในนั้นได้รับการสนับสนุนโดยหลักฐาน EST ที่ไม่ใช่ของมนุษย์เท่านั้น การระบุตัวแปรการประกบที่หายากในยีน C16orf35 ที่ตำแหน่งอัลฟาโกลบินยังอำนวยความสะดวกโดยใช้หลักฐาน EST ของเมาส์ (J Hughes, การสื่อสารส่วนบุคคล) ที่สำคัญ คำอธิบายประกอบด้วยตนเองช่วยให้สามารถพิจารณาบริบทเมื่อทำการตัดสินใจเกี่ยวกับขอบเขตของยีนที่ยากลำบาก ซึ่งรวมถึงเอกสารการให้คำปรึกษาและแหล่งข้อมูลบนเว็บต่างๆ


ผลลัพธ์และการอภิปราย

เครื่องมือคำอธิบายประกอบเดียวกัน ชุดการถอดเสียงต่างกัน

การเปรียบเทียบผลลัพธ์ของคำอธิบายประกอบจาก ANNOVAR โดยใช้ชุดการถอดเสียง REFSEQ หรือ ENSEMBL แสดงให้เห็นว่าการเลือกชุดการถอดเสียงมีผลอย่างมากต่อคำอธิบายประกอบแบบแปรผันขั้นสุดท้าย ในบรรดา 80 ล้านตัวแปรมีอัตราการจับคู่โดยรวมที่ 85% อย่างไรก็ตาม อัตราการใส่คำอธิบายประกอบที่ตรงกันคือ 44% สำหรับตัวแปร LoF ซึ่งเป็นชุดของตัวแปรที่สนใจมากที่สุดสำหรับการศึกษาทางชีววิทยาและการแพทย์ อัตราการจับคู่ยังต่ำกว่าอัตราการจับคู่โดยรวมอย่างมากสำหรับตัวแปรในพื้นที่ RNA และ UTR ที่ไม่มีการเข้ารหัส แต่มีข้อตกลงที่ดีกว่าสำหรับตัวแปร exonic และ intronic การสังเกตนี้สอดคล้องกับสิ่งที่เราคาดหวัง: ในพื้นที่ของจีโนมที่เป็นที่รู้จักมากขึ้นเกี่ยวกับโครงสร้างการเข้ารหัสโปรตีนของลำดับนั้น คำอธิบายประกอบเมื่อใช้ชุดการถอดเสียงทั้งสองชุดจะสอดคล้องกันมากขึ้น

มีตัวแปร 590,893 รายการที่ได้รับคำอธิบายประกอบแบบ exonic โดย ANNOVAR โดยใช้ REFSEQ หรือ ENSEMBL (หรือทั้งสองอย่าง) ซึ่ง 488,113 (83%) มีคำอธิบายประกอบที่ตรงกันอย่างแม่นยำเมื่อใช้ชุดการถอดเสียงที่ต่างกันสองชุด (ตารางที่ 1) รายละเอียดของตัวแปรที่ตรงกันตามคำอธิบายประกอบเผยให้เห็นหมวดหมู่ของคำอธิบายประกอบที่แสดงความแตกต่างมากขึ้นเรื่อยๆ เมื่อใช้ REFSEQ หรือ ENSEMBL ขอบเขตของการจับคู่คำอธิบายประกอบยังสรุปตามหมวดหมู่ระดับสูง: LoF, LoF และ missense (ไม่มีความหมายเหมือนกัน) exonic และทั้งหมดที่มีคำอธิบายประกอบ

การเปรียบเทียบแบบเห็นภาพของชุดข้อความถอดเสียงโดยใช้ REFSEQ - และ ENSEMBL - การนับตัวแปรที่ปรับให้เป็นมาตรฐานด้วยการรวมกันของเงื่อนไขคำอธิบายประกอบแต่ละชุดจากชุดข้อความถอดเสียงทั้งสองชุดจะเน้นรูปแบบในความแตกต่างในคำอธิบายประกอบที่จัดทำโดย REFSEQ และ ENSEMBL (รูปที่ 2 และ 3) โดย ' REFSEQ -normalized' เราหมายความว่าสำหรับคำอธิบายประกอบแต่ละคำ เราจะพิจารณาตัวแปรทั้งหมดที่กำหนดคำอธิบายประกอบนั้นโดยใช้ REFSEQ ในหมายเหตุประกอบทั้งหมดที่ใช้ ENSEMBL จากนั้นจึงทำการนับสำหรับหมายเหตุประกอบ ENSEMBL แต่ละรายการภายในหมายเหตุประกอบ REFSEQ โดยการลบจำนวนเฉลี่ยของการนับ ตามคำอธิบายประกอบ ENSEMBL และหารด้วยค่าเบี่ยงเบนมาตรฐาน เราทำสิ่งนี้อย่างอิสระสำหรับเงื่อนไขคำอธิบายประกอบ REFSEQ แต่ละคำ เพื่อให้ได้ค่า ' ENSEMBL -ปกติ' เราทำสิ่งเดียวกันอย่างแม่นยำ แต่แลกเปลี่ยนบทบาทของคำอธิบายประกอบ ENSEMBL และ REFSEQ ดังนั้น สำหรับระยะเวลาของคำอธิบายประกอบที่กำหนดสำหรับชุดการถอดเสียงที่กำหนด เราจะเห็นการแยกย่อยของคำอธิบายประกอบที่ได้รับเมื่อใช้ชุดการถอดเสียงอื่น ค่าปกติของ REFSEQ (รูปที่ 2) แสดงข้อตกลงที่ดีสำหรับอินเดล (frameshift และ nonframeshift) ตัวแปรสต็อปเกน สต็อปลอส และตัวแปรที่ไม่มีความหมายเดียวกัน กล่าวคือ ตัวแปรส่วนใหญ่ที่ได้รับคำอธิบายประกอบเฉพาะเมื่อใช้ REFSEQ จะได้รับคำอธิบายประกอบนั้นด้วย เมื่อใช้ ENSEMBL ข้อตกลงนี้ไม่ดีเท่าสำหรับตัวแปรที่มีความหมายเหมือนกันและแบบประกบ แต่เราสังเกตว่ารูปแบบที่ให้คำอธิบายประกอบแบบ exonic เมื่อใช้ REFSEQ มักจะได้รับคำอธิบายประกอบเดียวกันเมื่อใช้ ENSEMBL เมื่อดูที่ ENSEMBL -ค่าปกติ (รูปที่ 3) เราจะเห็นอัตราการจับคู่ที่ต่ำกว่าโดยทั่วไป ข้อตกลงเป็นสิ่งที่ดีสำหรับตัวแปรที่เรียกว่า stop-gain, nonframeshift, nonsynonymous และ synonymous โดย ENSEMBL แต่รูปแบบที่มีคำอธิบายประกอบเป็น frameshift, stop-loss และ splicing มักจะได้รับคำอธิบายประกอบที่แตกต่างกันเมื่อใช้ REFSEQ

REFSEQ -แผนที่ความหนาแน่นปกติของการเปรียบเทียบคำอธิบายประกอบ แผนที่ความหนาแน่นนี้แสดงจำนวนตัวแปรที่ปรับขนาดแล้ว (การแปลงบันทึก 10 โดยใช้ออฟเซ็ต 1 รายการ) สำหรับชุดค่าผสมที่แตกต่างกันทั้งหมดของหมวดหมู่ ANNOVAR ของคำอธิบายประกอบเมื่อใช้ชุดการถอดเสียง ENSEMBL (คอลัมน์) และชุดการถอดเสียง REFSEQ (แถว) ค่าต่างๆ เป็นแบบ Z-scaled (มีค่าเฉลี่ยอยู่ตรงกลาง หารด้วยค่าเบี่ยงเบนมาตรฐาน) โดยแถว (แต่ละแถวจะถูกปรับขนาดแยกจากกัน ตรงกันข้ามกับรูปที่ 3) คีย์เหนือแผนที่ความหนาแน่นจะแสดงค่าที่ระบุด้วยสีต่างๆ แผนที่ความหนาแน่นของแถวที่ทำให้เราสามารถดูว่าคำอธิบายประกอบประเภทใดที่มีการแสดงมากเกินไป (เทียบกับจำนวนรูปแบบทั้งหมดในคอลัมน์/หมวดหมู่) ในหมายเหตุประกอบ ENSEMBL สำหรับแต่ละหมวดหมู่ (เช่น แถว) ของหมายเหตุประกอบ REFSEQ ตามหลักการแล้ว สี่เหลี่ยมสีแดงเข้มทั้งหมดจะอยู่บนแนวทแยง โดยมีสี่เหลี่ยมสีขาวอยู่นอกแนวทแยง ซึ่งแสดงถึงข้อตกลงที่สมบูรณ์ในคำอธิบายประกอบจากชุดข้อความถอดเสียงทั้งสองชุด เปรียบเทียบกับไฟล์เพิ่มเติม 1: ตาราง S1 ซึ่งระบุตัวเลขที่ใช้สำหรับแผนที่ความหนาแน่นนี้ หมวดหมู่จัดเรียงตามตารางที่ 1

ENSEMBL -แผนที่ความหนาแน่นปกติของการเปรียบเทียบคำอธิบายประกอบ แผนที่ความหนาแน่นนี้แสดงจำนวนตัวแปรที่ปรับขนาดแล้ว (การแปลงบันทึก 10 โดยใช้ออฟเซ็ต 1 รายการ) สำหรับชุดค่าผสมที่แตกต่างกันทั้งหมดของหมวดหมู่ ANNOVAR ของคำอธิบายประกอบเมื่อใช้ชุดการถอดเสียง ENSEMBL (คอลัมน์) และชุดการถอดเสียง REFSEQ (แถว) ค่าต่างๆ เป็นแบบ Z-scaled (มีค่าเฉลี่ยอยู่ตรงกลางหารด้วยค่าเบี่ยงเบนมาตรฐาน) โดยคอลัมน์ (แต่ละคอลัมน์จะถูกปรับขนาดแยกจากกันโดยตัดกันกับรูปที่ 2) คีย์เหนือแผนที่ความหนาแน่นจะแสดงค่าที่ระบุด้วยสีต่างๆ แผนที่ความหนาแน่นของคอลัมน์ที่ปรับให้เป็นมาตรฐานช่วยให้เราเห็นว่าหมวดหมู่ของคำอธิบายประกอบที่แสดงมากเกินไป (เทียบกับจำนวนตัวแปรทั้งหมดในคอลัมน์/หมวดหมู่) ในหมายเหตุประกอบ REFSEQ สำหรับแต่ละหมวดหมู่ (เช่น คอลัมน์) ของหมายเหตุประกอบ ENSEMBL ตามหลักการแล้ว สี่เหลี่ยมสีแดงเข้มทั้งหมดจะอยู่บนแนวทแยง โดยมีสี่เหลี่ยมสีขาวอยู่นอกแนวทแยง ซึ่งแสดงถึงข้อตกลงที่สมบูรณ์ในคำอธิบายประกอบเมื่อใช้ชุดข้อความสองชุด เปรียบเทียบกับไฟล์เพิ่มเติม 1: ตาราง S1 ซึ่งระบุตัวเลขที่ใช้สำหรับแผนที่ความหนาแน่นนี้ หมวดหมู่จัดเรียงตามตารางที่ 1

ความไม่สมดุลของความแตกต่างในหมายเหตุประกอบระหว่าง REFSEQ และ ENSEMBL นั้นน่าทึ่งมาก เราเห็นคำอธิบายประกอบแบบ exonic อื่นๆ อีกมากมายในหมวดหมู่ LoF ที่ไม่มีความหมายเหมือนกันและมีความหมายเหมือนกันทั้งหมด เมื่อใช้การถอดเสียง ENSEMBL (ตารางที่ 1 และไฟล์เพิ่มเติม 1: ตารางที่ S1) มีหลายพันสายพันธุ์ที่เรียกว่า exonic โดย ENSEMBL และยังถูกเรียกว่าเป็น intergenic, intronic หรือใน RNA ที่ไม่มีการเข้ารหัสโดย REFSEQ ในทางกลับกัน มีตัวแปร exonic เพียงไม่กี่ร้อยตัวจาก REFSEQ ที่มีหมายเหตุประกอบเป็น intergenic, intronic หรือใน RNA ที่ไม่มีการเข้ารหัสตาม ENSEMBL การใช้ ENSEMBL ที่นี่จะได้รับอินเดลเฟรมชิฟต์มากกว่า 2,000 รายการ และตัวแปรสต็อป-เกน/สต็อปลอสมากกว่า 1,000 รายการ เมื่อเทียบกับการใช้ REFSEQ ซึ่งตัวแปร LoF ทั้งหมดที่น่าสนใจมากสำหรับการติดตาม ความไม่สมมาตรนี้ไม่น่าแปลกใจเมื่อเราพิจารณาองค์ประกอบของชุดการถอดเสียงทั้งสองชุด ชุด REFSEQ ประกอบด้วย 105,258 การถอดเสียงของมนุษย์ในรุ่น 57 ซึ่งลำดับการเข้ารหัสโปรตีนครอบคลุมประมาณ 1.07% ของจีโนม (34 Mb) ANNOVAR ใช้ทรานสคริปต์เหล่านี้ 41,501 รายการสำหรับคำอธิบายประกอบของชุดตัวแปรนี้ ชุด ENSEMBL เวอร์ชัน 69 ประกอบด้วย 208,677 ทรานสคริปต์ (192,635 บนโครโมโซม 1 ถึง 22, X และ Y ไม่รวมแพทช์และตำแหน่งอื่น) ครอบคลุมประมาณ 28% ของจีโนม (892 Mb) รวมถึงอินตรอน ลำดับการเข้ารหัสโปรตีนในชุดการถอดรหัส ENSEMBL ครอบคลุมประมาณ 1.12% ของจีโนม (35 Mb) จากการถอดเสียงเหล่านี้ 115,091 ถูกใช้อย่างแข็งขันสำหรับการทำหมายเหตุประกอบชุดของตัวแปรนี้ รวมถึงชุดของทรานสคริปต์ 92,776 รายการที่มีลำดับการเข้ารหัสโปรตีน

ขอบเขตของความคลาดเคลื่อนในคำอธิบายประกอบนี้สามารถอธิบายได้เพียงบางส่วนจากข้อเท็จจริงที่ว่าการถอดเสียง REFSEQ ที่มีสัดส่วนสูงมีการถอดเสียงที่เทียบเท่าหรือคล้ายกันมากใน ENSEMBL แต่ในอีกทางหนึ่ง มีการถอดเสียงจำนวนมากใน ENSEMBL ที่ดูเหมือนจะไม่มีการถอดเสียงที่คล้ายคลึงกัน ใน REFSEQ ANNOVAR รายงานผลที่ร้ายแรงที่สุดสำหรับตัวแปรจากสำเนาทั้งหมดที่มีอยู่ในตำแหน่งนั้นในจีโนม ดังนั้นด้วยข้อความถอดเสียงที่มีอยู่มากขึ้นเมื่อใช้ ENSEMBL จึงมีโอกาสสูงที่จะพบผลที่ร้ายแรงกว่าสำหรับใบรับรองผลการศึกษา ENSEMBL ฉบับใดรายการหนึ่ง ตัวอย่างของรูปแบบต่างๆ ที่มีความแตกต่างที่โดดเด่นในคำอธิบายประกอบช่วยอธิบายลักษณะความแตกต่างที่เห็นได้ (ไฟล์เพิ่มเติม 1: รูปที่ S1 ถึง S8) เราไม่เห็นความแตกต่างที่มีนัยสำคัญในอัตราข้อตกลงคำอธิบายประกอบในความถี่ของตัวแปรต่างๆ (ไฟล์เพิ่มเติม 1: ตาราง S5a)

ชุดข้อความเดียวกัน เครื่องมือคำอธิบายประกอบต่างกัน

เรายังตรวจสอบขอบเขตที่การใช้เครื่องมือซอฟต์แวร์ต่างๆ มีอิทธิพลต่อคำอธิบายประกอบขั้นสุดท้าย ที่นี่เราเปรียบเทียบคำอธิบายประกอบจาก ANNOVAR และ VEP โดยใช้ชุดการถอดเสียง ENSEMBL โดยเน้นที่หมวดหมู่คำอธิบายประกอบแบบ exonic เราดูอัตราของคำอธิบายประกอบที่ 'ตรงกันทุกประการ' และอัตราของหมายเหตุประกอบ 'ที่ตรงกันตามหมวดหมู่' เราอ้างอิงถึงค่าที่ตรงกันทุกประการเมื่อคำอธิบายประกอบจากเครื่องมือซอฟต์แวร์ทั้งสองมีค่าเท่ากันทุกประการเมื่อพิจารณาจากเงื่อนไขคำอธิบายประกอบที่ใช้โดยเครื่องมือทั้งสอง ตัวอย่างเช่น เครื่องมือทั้งสองใส่คำอธิบายประกอบให้กับตัวแปรเป็นเฟรมชิฟต์ ตามหมวดหมู่ที่ตรงกัน เราหมายความว่าคำอธิบายประกอบจากเครื่องมือซอฟต์แวร์ทั้งสองอยู่ในหมวดหมู่ระดับสูงของ LoF, missense หรือ synonym และการเข้ารหัสอื่นๆ (ด้วยหมวดหมู่ระดับสูงที่กำหนดไว้ในไฟล์เพิ่มเติม 1: ตาราง S4) ดังนั้นหากตัวแปรได้รับคำอธิบายประกอบของ frameshift จากเครื่องมือหนึ่งและหยุดการได้รับจากอีกเครื่องมือหนึ่ง เราจะกำหนดให้สิ่งนี้เป็นการจับคู่หมวดหมู่เนื่องจากทั้งสองเป็นคำอธิบายประกอบ LoF โดยรวมแล้ว เราเห็นความแตกต่างเพียงเล็กน้อยในอัตราการจับคู่เมื่อเราพิจารณาการจับคู่หมวดหมู่เมื่อเทียบกับการจับคู่แบบตรงทั้งหมด โดยมีอัตราการจับคู่หมวดหมู่สูงกว่าอัตราการจับคู่แบบตรงทั้งหมดประมาณ 1% (ตารางที่ 2)

ทั้งหมด 637,841 แวเรียนต์ได้รับหมายเหตุประกอบแบบเอ็กโซนิกโดย ANNOVAR หรือ VEP (ตารางที่ 2) ในจำนวนนี้ 551,983 (86.5%) มีคำอธิบายประกอบที่ตรงกันทุกประการจากเครื่องมือทั้งสอง และ 556,387 (87.2%) มีคำอธิบายประกอบที่ตรงกันตามหมวดหมู่ อย่างไรก็ตาม อัตราการจับคู่ต่ำกว่ามาก (65% สำหรับการจับคู่แบบตรงทั้งหมด 66% สำหรับการจับคู่หมวดหมู่) สำหรับหมายเหตุประกอบ LoF (ตารางที่ 2) เราสังเกตว่า 89% ของตัวแปร exonic จาก VEP ได้รับคำอธิบายประกอบที่ตรงกันทุกประการจาก ANNOVAR และ 96% ของตัวแปร exonic ตาม ANNOVAR ได้รับคำอธิบายประกอบที่ตรงกันทุกประการจาก VEP ไม่ควรใช้เปอร์เซ็นต์ของข้อตกลงเหล่านี้เพื่อแสดงว่า ANNOVAR 'แม่นยำกว่า' มากกว่า VEP – ความแตกต่างระหว่างเครื่องมือสำหรับตัวแปร exonic นั้นมาจากคำอธิบายประกอบการประกบจำนวนมากจาก VEP ซึ่งเกิดจากความแตกต่างในคำจำกัดความของ ตัวแปร splicing ที่ใช้โดยเครื่องมือทั้งสอง

การพิจารณาหมวดหมู่คำอธิบายประกอบทั้งหมดสำหรับคำอธิบายประกอบ VEP และ ANNOVAR แสดงให้เห็นถึงความขัดแย้งจำนวนมากในคำอธิบายประกอบจากเครื่องมือทั้งสอง แม้จะใช้การถอดเสียงเดียวกันก็ตาม (ไฟล์เพิ่มเติม 1: รูปที่ S1 และ S2) เราสังเกตเห็นความสอดคล้องที่ค่อนข้างต่ำกว่าสำหรับตัวแปร intergenic, intronic, miRNA และ splicing แม้แต่ในหมวดหมู่ที่กำหนดไว้อย่างดี เช่น nonsynonymous (missense) และ frameshift เราก็เห็นความไม่ลงรอยกันจำนวนมากในคำอธิบายประกอบระหว่างเครื่องมือทั้งสอง เราไม่เห็นความแตกต่างที่มีนัยสำคัญในอัตราข้อตกลงคำอธิบายประกอบในความถี่ของตัวแปรต่างๆ (ไฟล์เพิ่มเติม 1: ตาราง S5b)

เพื่อระบุลักษณะของข้อผิดพลาดที่เห็นได้ชัดหรือความไม่สอดคล้องกันที่มักปรากฏในคำอธิบายประกอบโดย ANNOVAR และ VEP เราได้ตรวจสอบกรณีที่คำอธิบายประกอบจาก ANNOVAR และ VEP ไม่เห็นด้วย แม้ว่าจะเป็นการตอบโต้โดยสัญชาตญาณ (เนื่องจากคำอธิบายประกอบมีพื้นฐานมาจากการถอดเสียงชุดเดียวกัน) ANNOVAR และ VEP ไม่ได้ใช้การถอดเสียงเดียวกันสำหรับคำอธิบายประกอบของตัวแปร นี่เป็นผลมาจากการทำงานร่วมกันของหมวดหมู่คำอธิบายประกอบที่แตกต่างกัน กฎลำดับความสำคัญที่แตกต่างกัน และข้อเท็จจริง (สำหรับการศึกษานี้) ในการรายงานผลที่ตามมาเพียงอย่างเดียวสำหรับแต่ละตัวแปร เมื่อกำหนดลักษณะความแตกต่างและข้อผิดพลาดที่เห็นได้ชัดในคำอธิบายประกอบ เราได้พิจารณารูปแบบต่างๆ ที่เราทราบว่า ANNOVAR และ VEP ใช้การถอดเสียงแบบเดียวกันเป็นพื้นฐานสำหรับคำอธิบายประกอบ เรามุ่งเน้นไปที่ตัวแปร LoF – frameshift, stop-gain, stop-loss และ splicing – เนื่องจากปัจจุบันมีความน่าสนใจมากที่สุดในการศึกษาโรค และเราเห็นข้อตกลงที่ดีกว่า 90% ระหว่างคำอธิบายประกอบ ANNOVAR และ VEP สำหรับหมวดหมู่ตัวแปรที่ไม่มีความหมายเหมือนกันและมีความหมายเหมือนกัน (ตาราง 2). หากเป็นไปได้ (เช่นในกรณีของการต่อหมายเหตุประกอบ) เราจะหารือเกี่ยวกับความแตกต่างในอัลกอริธึมคำอธิบายประกอบที่อาจก่อให้เกิดความแตกต่างในคำอธิบายประกอบ แต่ไม่มีข้อมูลโดยละเอียดเกี่ยวกับอัลกอริธึมคำอธิบายประกอบสำหรับ ANNOVAR หรือ VEP แม้แต่ในเอกสารออนไลน์ [49, 50] .

ตัวแปรเฟรมชิฟต์

เราสังเกตตัวแปรกว่า 2,000 รายการที่ได้รับการใส่คำอธิบายประกอบเป็น frameshift โดย ANNOVAR หรือ VEP แต่ไม่ใช่อีกรูปแบบหนึ่ง (ไฟล์เพิ่มเติม 1: ตาราง S6) ในกลุ่มเหล่านี้ เราพบว่า ANNOVAR ใส่คำอธิบายประกอบมากกว่า 300 ตัวแปรเป็น frameshift แม้ว่าจะเป็น SNV ดังนั้นคำอธิบายประกอบ ANNOVAR นั้นไม่ถูกต้องอย่างชัดเจนสำหรับตัวแปรเหล่านี้ อย่างไรก็ตาม สำหรับตัวแปรส่วนใหญ่เหล่านี้ ไม่สามารถสรุปผลการตรวจสอบโดยเจ้าหน้าที่ได้ว่าคำอธิบายประกอบ ANNOVAR หรือ VEP นั้นถูกต้องหรือไม่

ตัวแปรทั้งหมดที่มีคำอธิบายประกอบเป็นเฟรมชิฟต์โดย VEP แต่ไม่ใช่โดย ANNOVAR นั้นเป็นอินเดลของแท้ และไม่มีสิ่งใดที่เป็นฐานหลายอันในสามฐาน ดังนั้น VEP จึงดูเหมือนว่าจะระบุตัวแปรเหล่านี้เป็นอินเดลของเฟรมชิฟต์ได้อย่างถูกต้อง ตัวแปรหลายร้อยรายการได้รับคำอธิบายประกอบแบบ nonframeshift, nonsynonym และ synonymous จาก ANNOVAR ซึ่งไม่เข้ากันกับคำอธิบายประกอบ frameshift จาก VEP คำอธิบายประกอบของ frameshift นั้นดูสมเหตุสมผล ดังนั้น ANNOVAR จึงดูเหมือนว่าจะให้คำอธิบายประกอบที่ไม่ถูกต้องสำหรับตัวแปรเหล่านี้ ตัวแปรอื่น ๆ อีกหลายร้อยรายการมีคำอธิบายประกอบเป็น stop-gain โดย ANNOVAR และ frameshift โดย VEP คำอธิบายประกอบแบบสต็อปเกนไม่จำเป็นต้องเข้ากันไม่ได้กับหมายเหตุประกอบแบบเปลี่ยนเฟรมจาก VEP เนื่องจาก ANNOVAR ตรวจสอบการถอดเสียงที่สร้างโดยการแทรก/การลบ และบางครั้งพบว่าอินเดลแนะนำการหยุดโคดอน ตามกฎลำดับความสำคัญ จากนั้นจะส่งคืนคำอธิบายประกอบของ stop-gain แทนที่จะเป็น frameshift ความขัดแย้งระหว่างคำอธิบายประกอบสำหรับรูปแบบดังกล่าวจึงสมเหตุสมผลเมื่อเราพิจารณาว่าเครื่องมือทั้งสองรายงานคำอธิบายประกอบอย่างไร จากการดูตัวอย่างเฉพาะ ปรากฏว่ามีตัวแปรเพียงเล็กน้อยเท่านั้นที่ได้รับคำอธิบายประกอบที่ไม่ถูกต้องจากเครื่องมือซอฟต์แวร์ทั้งสอง

ตัวแปรสต็อปเกน

เมื่อเราดูตัวแปรที่มีคำอธิบายประกอบเป็น stop-gain โดย ANNOVAR แต่ไม่ใช่โดย VEP (เมื่อใช้การถอดเสียงแบบเดียวกัน) เราจะเห็นว่าส่วนใหญ่ (437 จาก 570) จะได้รับคำอธิบายประกอบ frameshift โดย VEP (ไฟล์เพิ่มเติม 1: ตาราง ส7). เราเห็นข้างต้นแล้วว่ากฎการมาก่อนของ ANNOVAR สามารถทำให้เกิดการหยุดการได้รับคำอธิบายประกอบกับอินเดลซึ่ง frameshift จะเป็นคำอธิบายประกอบที่สมเหตุสมผลที่นี่เช่นกัน ตัวแปรทั้งหมดที่มีคำอธิบายประกอบเป็น frameshift โดย VEP ดูเหมือนจะเป็นตัวแปร frameshift ของแท้ (เนื่องจากเป็น indels ที่มีขนาดไม่เกิน 3 bp) ดังนั้น ความคลาดเคลื่อนเหล่านี้จึงสะท้อนความแตกต่างในลำดับความสำคัญของการรายงานคำอธิบายประกอบ มากกว่าความแตกต่างที่แท้จริงระหว่างอัลกอริธึมคำอธิบายประกอบและคำอธิบายประกอบ ANNOVAR (สมมติว่าระบุ codon หยุดที่นำมาใช้อย่างถูกต้อง) จะเพิ่มข้อมูลที่น่าสนใจ มีตัวแปรจำนวนน้อยกว่ามากที่ได้รับคำอธิบายประกอบ missense (77) และคำอธิบายประกอบที่มีความหมายเหมือนกัน (39) โดย VEP (ไฟล์เพิ่มเติม 1: ตาราง S7a)

การตรวจสอบด้วยตนเองใน ENSEMBL Genome Browser ของ 10 ตัวแปรที่ไม่สอดคล้องกันบนโครโมโซม 1 แสดงให้เห็นว่าสำหรับตัวแปรแปดในสิบของ missense (จาก VEP ) คำอธิบายประกอบ VEP นั้นถูกต้อง (สำหรับสองตัวแปรที่คำอธิบายประกอบไม่ถูกต้อง โปรดดูไฟล์เพิ่มเติม 1: ตาราง S10 สำหรับรายละเอียดของตัวแปรเหล่านี้) สำหรับความแตกต่างอื่น ๆ การตรวจสอบด้วยตนเองเผยให้เห็นว่าคำอธิบายประกอบ VEP ดูเหมือนถูกต้องบ่อยกว่าคำอธิบายประกอบ ANNOVAR (ดูไฟล์เพิ่มเติม 1: 'ผลลัพธ์เสริม' สำหรับรายละเอียดเพิ่มเติม) เมื่อเราดูตัวแปรที่มีคำอธิบายประกอบเป็น stop-gain โดย VEP และ frameshift หรือ nonframeshift โดย ANNOVAR เราจะเห็นว่าประมาณ 20% (30 ตัวแปร) เหล่านี้เป็น SNV ซึ่งไม่สามารถใส่คำอธิบายประกอบอย่างถูกต้องเป็น frameshift หรือ nonframeshift (เนื่องจากข้อกำหนดเหล่านี้มีผลบังคับใช้เท่านั้น เพื่อแทรกหรือลบ) ดังนั้น คำอธิบายประกอบ ANNOVAR สำหรับตัวแปรเฉพาะเหล่านี้จึงไม่สามารถแก้ไขได้ และจะต้องเป็นผลมาจากข้อบกพร่องของซอฟต์แวร์ สำหรับตัวแปรที่เหลือ เป็นการยากที่จะประเมินว่าคำอธิบายประกอบ ANNOVAR หรือ VEP ดีกว่าหรือไม่ แม้จะพิจารณาถึงความแตกต่างในคำอธิบายประกอบที่เกิดจากกฎที่มีลำดับความสำคัญต่างกันแล้ว คำอธิบายประกอบแบบ Stop-Gain จาก VEP ก็ดูน่าเชื่อถือมากกว่าจาก ANNOVAR

ตัวแปรหยุดการขาดทุน

มีตัวแปรจำนวนเล็กน้อยเท่านั้นที่มีคำอธิบายประกอบเป็น stop-loss โดย ANNOVAR และไม่ใช่โดย VEP แต่เกือบทั้งหมดมีคำอธิบายประกอบเป็น frameshift โดย VEP การตรวจสอบพบว่าตัวแปรเหล่านี้ทั้งหมดเป็นอินเดลที่ไม่ใช่ฐานหลายฐาน ดังนั้นคำอธิบายประกอบของ frameshift จาก VEP จึงสมเหตุสมผล การดูตัวแปรต่างๆ อย่างใกล้ชิดเผยให้เห็นว่ามีการแบ่งระหว่างเวลาที่คำอธิบายประกอบ ANNOVAR หรือ VEP ดูดีกว่า มีเพียง 16 ตัวแปรที่ได้รับการระบุว่าหยุดการขาดทุนโดย VEP และเป็นอย่างอื่นโดย ANNOVAR เมื่อเครื่องมือทั้งสองใช้การถอดเสียงเดียวกันสำหรับคำอธิบายประกอบ (ไฟล์เพิ่มเติม 1: ตารางที่ S8)

รุ่นประกบ

หมวดหมู่ (หรือหมวดหมู่) ของรูปแบบการประกบเป็นที่มาของความแตกต่างมากมายในคำอธิบายประกอบจากเครื่องมือซอฟต์แวร์คำอธิบายประกอบต่างๆ ต่างจากคำอธิบายประกอบประเภทอื่นๆ ส่วนใหญ่ ในสาขานี้ ยังมีแนวคิดหลายอย่างเกี่ยวกับตัวแปรการประกบ ANNOVAR กำหนดหมวดหมู่กว้างๆ เพียงหมวดหมู่เดียว ประกบกัน สำหรับตัวแปรเหล่านี้: ตัวแปรใดๆ ภายใน NS bp ของจุดเชื่อมต่อประกบได้รับการประกบคำอธิบายประกอบ คุณค่าของ NS ผู้ใช้ ANNOVAR สามารถระบุได้ และสำหรับคำอธิบายประกอบของเราที่นี่ เราใช้คำจำกัดความกว้างๆ ของการประกบโดยการตั้งค่า NS=6. ในทางตรงกันข้าม VEP ใช้ตัวแปรการประกบสามประเภท: (1) ตัวแปรผู้บริจาคประกบ, ตัวแปรการประกบที่เปลี่ยนขอบเขตสองฐานที่ปลาย 5 ′ ของอินตรอน (2) ตัวแปรตัวรับการประกบ, ตัวแปรการประกบที่เปลี่ยนสอง - บริเวณฐานที่ปลาย 3 ′ ของอินตรอนและ (3) ตัวแปรบริเวณรอยต่อ ซึ่งเป็นรูปแบบลำดับที่มีการเปลี่ยนแปลงเกิดขึ้นภายในบริเวณของไซต์ต่อประกบ ภายในหนึ่งถึงสามฐานของ exon หรือสามถึงแปดฐาน ของอินตรอน VEP ให้ข้อมูลที่เป็นประโยชน์มากกว่า ผ่านหมวดย่อยของตัวแปรประกบ เกี่ยวกับฟังก์ชันที่น่าจะเป็นไปได้ของตัวแปร นอกจากนี้เรายังพบว่าความแตกต่างในคำอธิบายประกอบอาจเกิดขึ้นเพียงเป็นผลมาจากคำจำกัดความที่แตกต่างกันของตัวแปรการประกบกัน มากกว่าความแตกต่างอย่างแท้จริงในอัลกอริทึมที่สร้างคำอธิบายประกอบ เราตรวจสอบความแตกต่างเหล่านี้ในหมายเหตุประกอบสำหรับรูปแบบต่างๆ โดยเครื่องมือทั้งสองใช้การถอดเสียงเดียวกันสำหรับคำอธิบายประกอบ และคำอธิบายประกอบไม่ตรงกัน กล่าวคือ ตัวแปรที่มีหมายเหตุประกอบแบบประกบจาก ANNOVAR ไม่ได้รับคำอธิบายประกอบของตัวแปรผู้บริจาคประกบตัวใดตัวหนึ่ง ตัวแปรตัวรับการประกบ หรือตัวแปรภูมิภาคประกบหรือผกผัน

แหล่งที่มาหลักของความแตกต่างในหมายเหตุประกอบการต่อประกบคือสัดส่วนที่ล้นหลามของตัวแปรการประกบ ANNOVAR ที่ได้รับหมายเหตุประกอบการไม่ต่อประกบจาก VEP จริง ๆ แล้วได้รับหนึ่งในสามหมายเหตุประกอบการประกบของ VEP แต่รายงานว่าอยู่ในบันทึกที่ไม่เข้ารหัส (ไฟล์เพิ่มเติม 1 : ตาราง S9). ผลลัพธ์นี้ชี้ให้เห็นว่า VEP ทำงานได้ดีกว่าในการรายงานเมื่อการถอดเสียงที่ใช้สำหรับคำอธิบายประกอบไม่ใช่การเข้ารหัส แต่จริงๆ แล้วอาจไม่มีความแตกต่างอย่างมากระหว่างคำอธิบายประกอบแบบประกบดังที่ปรากฏในตอนแรก นอกจากนี้เรายังเห็นผลกระทบที่รวมกันของคำจำกัดความที่แตกต่างกันของตัวแปรการประกบและกฎลำดับความสำคัญที่ส่งผลให้มีรูปแบบการประกบที่พบในการถอดเสียงหนึ่งรายการ แทนที่จะเป็นตัวแปรที่ 'จริงจัง' น้อยกว่าที่เห็นในการถอดเสียงอื่น เราเห็นตัวแปรจำนวนมากที่มีคำอธิบายประกอบว่ามีความหมายเหมือนกันโดย ANNOVAR และเป็นตัวแปรบริเวณรอยต่อโดย VEP และทั้งหมดอยู่ใน exon ไม่ว่าจะในสามฐานแรก (ปลาย 5 ′) หรือสามฐานสุดท้าย (จุดสิ้นสุด 3 ′) ของ exon . ดังนั้น ความแตกต่างของคำอธิบายประกอบเหล่านี้ดูเหมือนจะเป็นผลที่เป็นระบบของความแตกต่างในอัลกอริธึมคำอธิบายประกอบที่ใช้โดย ANNOVAR และ VEP และสำหรับตัวแปรเหล่านี้ คำอธิบายประกอบ VEP จะดูดีกว่า

การอภิปราย

ผลการเปรียบเทียบของเราของคำอธิบายประกอบที่ได้รับโดยใช้ชุดการถอดเสียง REFSEQ และ ENSEMBL เน้นถึงความสำคัญของการเลือกชุดการถอดเสียงที่ใช้สำหรับคำอธิบายประกอบ การใช้ซอฟต์แวร์คำอธิบายประกอบเดียวกันกับชุดการถอดเสียงที่แตกต่างกันทำให้มีอัตราการจับคู่ 44% สำหรับหมายเหตุประกอบ LoF สมมุติ แม้ว่าจะไม่ได้ทำที่นี่ แต่ชุดการถอดเสียงจาก REFSEQ และ ENSEMBL (หรือแหล่งข้อมูลอื่นๆ) สามารถจำกัดไว้เฉพาะชุดย่อยของการถอดเสียงเพื่อแยกหมายเหตุประกอบที่มีความเชื่อมั่นต่ำ ในกรณีที่ทราบเนื้อเยื่อที่สนใจเป็นพิเศษ การใส่คำอธิบายประกอบอาจถูกจำกัดให้ใช้เฉพาะชุดของข้อความถอดเสียงที่ทราบว่าแสดงอยู่ในเนื้อเยื่อนั้น การกำหนดชุดข้อความถอดเสียงที่เป็นเป้าหมายจะไม่ง่ายเสมอไป แต่สำหรับการจัดลำดับการศึกษาที่ต้นทุนของผลบวกลวง (เช่น ผ่านการทดลองติดตามผล) สูง และที่ซึ่งมีข้อมูลเกี่ยวกับการแสดงออกของการถอดเสียงที่เฉพาะเจาะจง ชุดของความมั่นใจสูง ใบรับรองผลการเรียนที่ปรับให้เหมาะกับการศึกษานั้นอาจเหมาะกว่า โครงการต่างๆ เช่น GENCODE มุ่งหวังที่จะจัดเตรียมชุดข้อความถอดเสียงที่ได้รับการดูแลอย่างดีซึ่งสนับสนุนโดยหลักฐานการทดลอง [15, 51–53] ดังนั้นด้วยความพยายามเช่นนี้ เราจึงอาจเห็นผลลัพธ์ของคำอธิบายประกอบมาบรรจบกันเนื่องจากชุดการถอดเสียง (โดยเฉพาะเนื้อเยื่อในอุดมคติ) จะจัดเรียงตามที่เก็บต่างๆ ในขณะนี้แม้ว่าความแตกต่างอย่างมากยังคงอยู่

คำอธิบายประกอบแบบแปรผันยังคงมีความท้าทายสำหรับเครื่องมือซอฟต์แวร์ในปัจจุบัน: ตัวเลือกต่างๆ ที่ทำในแพ็คเกจคำอธิบายประกอบเกี่ยวกับวิธีวิเคราะห์ จัดหมวดหมู่ และจัดลำดับความสำคัญของคำอธิบายประกอบสำหรับรูปแบบต่างๆ จะนำไปสู่คำอธิบายประกอบที่แตกต่างจากเครื่องมือต่างๆ แม้ว่าจะใช้สำเนาชุดเดียวกันเป็นพื้นฐานสำหรับคำอธิบายประกอบ ความแตกต่างในคำอธิบายประกอบจากเครื่องมือซอฟต์แวร์ต่างๆ (เช่น ข้อตกลงโดยรวม 64% สำหรับคำอธิบายประกอบ LoF) นั้นไม่ใหญ่เท่ากับที่เห็นเมื่อใช้ชุดการถอดเสียงที่แตกต่างกัน (ข้อตกลงโดยรวม 44% สำหรับคำอธิบายประกอบ LoF) และมักเกิดจากความแตกต่างในหมวดหมู่คำอธิบายประกอบที่กำหนดไว้ โดยเครื่องมือต่างๆ อย่างไรก็ตาม ขอบเขตของความแตกต่างที่เห็นได้แสดงให้เห็นว่า จะต้องพิจารณาอย่างรอบคอบอีกครั้งเมื่อเลือกเครื่องมือซอฟต์แวร์ เพื่อให้แน่ใจว่าเครื่องมือนี้เหมาะสมกับเป้าหมายของการศึกษาวิจัยทางวิทยาศาสตร์

การกำหนดมาตรฐานของข้อกำหนดของตัวแปรต่างๆ ทั่วทั้งฟิลด์ เพื่อลดขอบเขตสำหรับความแตกต่างที่เห็นได้ชัดในคำอธิบายประกอบที่ส่งคืนโดยเครื่องมือซอฟต์แวร์ต่างๆ และทำให้ความหมายของคำศัพท์ที่ใช้สำหรับคำอธิบายประกอบตกผลึก (epistemic) กลายเป็นผลึก ตัวอย่างเช่น ในผลลัพธ์ของเรา คำจำกัดความที่แตกต่างกันของรูปแบบการประกบทำให้เกิดความแตกต่างของคำอธิบายประกอบนับหมื่น โครงการ Ontology ตามลำดับ [54] อาจช่วยได้ มันจะเป็นประโยชน์สำหรับข้อมูลเฟสที่จะใช้ในการทำคำอธิบายประกอบของตัวแปรในบริเวณใกล้เคียง ตัวอย่างเช่น ขอบเขตของ 'การช่วยเหลือ' ของตัวแปร LoF โดยตัวแปรใกล้เคียง [55] ในปัจจุบัน เครื่องมือคำอธิบายประกอบมักไม่เชื่อมโยงการวัดความไม่แน่นอนใดๆ กับคำอธิบายประกอบรูปแบบต่างๆ ที่รายงาน ข้อมูลดังกล่าวอาจเป็นประโยชน์สำหรับการวิเคราะห์ปลายน้ำ โดยเฉพาะอย่างยิ่งสำหรับการพิจารณาเมื่อจัดสรรทรัพยากรสำหรับการทดลองติดตามผลสำหรับตัวแปรที่สนใจ เมื่อต้องการความมั่นใจในระดับสูงเกี่ยวกับความถูกต้องของคำอธิบายประกอบ ตัวแปรสามารถใส่คำอธิบายประกอบด้วยเครื่องมือซอฟต์แวร์สองรายการและตัวแปรที่มีคำอธิบายประกอบที่แตกต่างกันซึ่งได้รับการตั้งค่าสถานะให้ดำเนินการด้วยความระมัดระวัง

ในการเปรียบเทียบเครื่องมือคำอธิบายประกอบที่นี่ เราจำกัดแต่ละเครื่องมือให้รายงานเฉพาะคำอธิบายประกอบที่ส่งผลที่ร้ายแรงที่สุดสำหรับแต่ละตัวแปร เพื่อหลีกเลี่ยงการเปรียบเทียบที่เทอะทะเกินไป อย่างไรก็ตาม VEP และเครื่องมือคำอธิบายประกอบอื่นๆ สามารถรายงานคำอธิบายประกอบสำหรับการถอดเสียงทั้งหมดได้ (และมักจะทำโดยค่าเริ่มต้น) โดยให้ข้อมูลเพิ่มเติมที่มักจะมีค่า การเพิ่มข้อมูลเพิ่มเติมนี้ เช่นเดียวกับการใช้ข้อมูลเฟสหรือการถอดเสียงเฉพาะเนื้อเยื่อ จะเพิ่มความท้าทายสำหรับการประมวลผลข้อมูลและการตีความโดยเพิ่มความซับซ้อนในการรักษาคำอธิบายประกอบรูปแบบต่างๆ แต่ด้วยเหตุผลที่ดี: ความซับซ้อนที่เพิ่มขึ้นนี้สะท้อนถึงชีววิทยาพื้นฐาน ดังนั้น จึงพิจารณา ข้อมูลที่นำมาพิจารณาอาจเพิ่มคุณค่าที่สำคัญให้กับการวิเคราะห์ตัวแปรดีเอ็นเอ

ความเข้าใจของเราเกี่ยวกับจีโนมมนุษย์ยังคงพัฒนาอย่างรวดเร็วแม้ในขณะที่เราได้รับความซาบซึ้งในความซับซ้อนของจีโนมมากขึ้น ด้วยเหตุนี้ ในบางจุดเราอาจเห็นคำอธิบายประกอบแบบแปรผันจากแนวทางที่ต่างกันมาบรรจบกัน แม้ว่าในขณะนี้ เราเผชิญกับความท้าทายทางญาณวิทยา (การกำหนดความหมายหรือหน้าที่ของตัวแปรที่สังเกตได้) เนื่องจากพื้นฐานทางออนโทโลยีของเรา (ความรู้และความเข้าใจในลำดับเหตุการณ์ทั้งหมดในจีโนมจริง ๆ ) ยังคงไม่ได้รับการแก้ไขหรือไม่ชัดเจน ดังนั้น ตัวเลือกของชุดข้อความถอดเสียงและเครื่องมือซอฟต์แวร์อาจส่งผลกระทบอย่างมากต่อผลลัพธ์ของคำอธิบายประกอบที่ได้รับ จากนั้นจึงส่งผลกระทบอย่างมากต่อการวิเคราะห์ข้อมูล WGS ด้านปลายน้ำทั้งหมด หมายเหตุประกอบแบบแปรผันยังไม่เป็นขั้นตอนแบบพลักแอนด์เพลย์ และไม่ควรได้รับการปฏิบัติเช่นนั้น

นอกเหนือจากวิธีการใส่คำอธิบายประกอบแบบต่างๆ (ซึ่งมีมากกว่าที่เราเปรียบเทียบที่นี่) ยังมีเทคโนโลยีการจัดลำดับที่แตกต่างกัน ตัวแมปการอ่าน และผู้เรียกแบบต่างๆ สิ่งเหล่านี้อาจมีผลกระทบอย่างมากต่อตัวแปรสุดท้ายและคำอธิบายประกอบที่ได้รับ แต่การเปรียบเทียบแหล่งที่มาของการเปลี่ยนแปลงอื่นๆ อยู่นอกเหนือขอบเขตของบทความนี้ เราอ้างอิงผู้อ่านที่สนใจไปยังการเปรียบเทียบอย่างเป็นระบบในแง่มุมอื่น ๆ ของไปป์ไลน์การจัดลำดับยุคหน้า เช่น การเปรียบเทียบเทคโนโลยีการจัดลำดับปริมาณงานสูงแบบตั้งโต๊ะ [56] ตัวแมปแบบอ่านสั้น [57] ผู้เรียกตัวแปร [58] และไปป์ไลน์การเรียกตัวแปร โดยรวม [59, 60]

เรามุ่งที่จะเน้นถึงผลกระทบต่อผลลัพธ์ของคำอธิบายประกอบขั้นสุดท้ายที่อาจเกิดขึ้นจากการวิเคราะห์ข้อมูลลำดับจีโนมทั้งหมด (หรือ exome ทั้งหมด) สองด้าน กล่าวคือ ทางเลือกของการถอดเสียงและการเลือกซอฟต์แวร์คำอธิบายประกอบ แม้ว่าเราจะไม่สนับสนุนซอฟต์แวร์หรือชุดข้อความถอดเสียงโดยเฉพาะ แต่เราขอแนะนำให้นักวิจัยตระหนักถึงผลกระทบของตัวเลือกเหล่านี้ และหวังว่าการเปรียบเทียบของเราอาจให้ข้อมูลในการตัดสินใจดังกล่าว


พื้นหลัง

การวัดปริมาณการถอดเสียงจำนวนมากในชุดข้อมูล RNA-sequencing (RNA-seq) เป็นวิธีที่มีประสิทธิภาพในการทำความเข้าใจการทำงานของเซลล์ การจัดตำแหน่งการอ่านให้ตรงกับจีโนมอ้างอิงเพียงอย่างเดียวสามารถให้ค่าประมาณคร่าวๆ ของการแสดงออกของยีนโดยเฉลี่ยและบอกใบ้ถึงการใช้ส่วนต่างของไซต์รอยต่อ [1] แต่เพื่อสร้างภาพที่ถูกต้องของกิจกรรมของยีน เราต้องรวบรวมชุดของการอ่านเป็นบันทึก การประกบแบบทางเลือกพบได้บ่อยมากในยูคาริโอต โดยมีประมาณ 90% ของยีนเข้ารหัสโปรตีนหลายเอ็กซอนของมนุษย์และ 30% ของยีน RNA ที่ไม่เข้ารหัส (ncRNA) ที่มีไอโซฟอร์มหลายตัว [2, 3] ในขณะที่จำนวนของยีนการเข้ารหัสโปรตีนของมนุษย์ที่มีคำอธิบายประกอบยังคงไม่เปลี่ยนแปลงมากหรือน้อยในช่วงทศวรรษที่ผ่านมา จำนวนยีน ncRNA และไอโซฟอร์มที่เข้ารหัสโปรตีนยังคงเพิ่มขึ้นอย่างต่อเนื่อง [4]

ซีเควนเซอร์รุ่นที่สอง เช่น จาก Illumina สามารถผลิตช็อตสั้นได้หลายร้อยล้าน (

100 bp) RNA-seq อ่าน การอ่านความยาวนี้มักจะครอบคลุมไม่เกินสอง exons ยกเว้นในกรณีที่มีขนาดเล็กมาก โดยการประกอบการอ่านแบบสั้น เราสามารถสร้างการถอดเสียงแบบเต็มความยาวขึ้นใหม่และระบุยีนใหม่และไอโซฟอร์มของยีนได้ มีสองวิธีหลักในการประกอบการถอดความ: de novo และการอ้างอิงแบบแนะนำ แอสเซมเบลอร์ทรานสคริปต์ของ De novo เช่น Trinity [5] และ Oases [6] พบความเหลื่อมล้ำระหว่างการอ่านและพยายามเชื่อมโยงเข้าด้วยกันเป็นหลักฐานฉบับเต็ม โดยไม่จัดตำแหน่งการอ่านให้เข้ากับจีโนม งานนี้มีความซับซ้อนโดยการมีอยู่ของยีน Paralogous และการถอดเสียงที่มีไอโซฟอร์มจำนวนมากที่ซ้อนทับกันเป็นส่วนใหญ่ และด้วยเหตุนี้ วิธีการนี้จึงสร้างทรานสคริปโทมที่แยกส่วนและมีแนวโน้มผิดพลาดได้สูง แอสเซมเบลอร์ที่มีการแนะนำอ้างอิง เช่น Cufflinks [7], Bayesembler [8], StringTie [9], TransComb [10] และ Scallop [11] ใช้ประโยชน์จากจีโนมที่มีอยู่ซึ่ง RNA-seq อ่านถูกจัดเรียงก่อนโดยใช้การประกบ เครื่องมือจัดฟัน เช่น HISAT [12] หรือ STAR [13] แอสเซมเบลอร์เหล่านี้สามารถสร้างกราฟประกบ (หรือโครงสร้างข้อมูลอื่นๆ) ตามการจัดตำแหน่ง จากนั้นใช้กราฟเหล่านั้นเพื่อสร้างทรานสคริปต์แต่ละรายการ แอสเซมเบลอร์ที่มีการนำทางอ้างอิงบางตัวสามารถใช้คำอธิบายประกอบ exon-intron ของการถอดเสียงที่รู้จักเป็นแนวทางเสริม ซึ่งช่วยให้พวกเขาสนับสนุนยีนที่รู้จักได้หากเป็นไปได้ จากการศึกษาเมื่อเร็วๆ นี้ [14] พบว่า StringTie มีประสิทธิภาพเหนือกว่าทั้ง Cufflinks และ Bayesembler โดยการประกอบการถอดเสียงให้ถูกต้องและมีความแม่นยำสูงขึ้น ในขณะที่การศึกษา Scallop ดั้งเดิม [11] แสดงให้เห็นว่าในชุดข้อมูลบางชุด Scallop สามารถบรรลุความไวและความแม่นยำที่สูงกว่า StringTie ( เวอร์ชัน 1.3) และ TransComb

StringTie และแอสเซมเบลอร์การถอดเสียงอื่น ๆ ประมาณการความอุดมสมบูรณ์ของการถอดเสียงโดยพิจารณาจากจำนวนการอ่านที่สอดคล้องกันซึ่งกำหนดให้กับแต่ละการถอดเสียง เมื่อเร็ว ๆ นี้ วิธีการอื่นเช่น Sailfish [15], Salmon [16] และ Kallisto [17] แสดงให้เห็นว่าเราสามารถประมาณความอุดมสมบูรณ์ได้โดยการกำหนดการอ่านไปยังการถอดเสียงที่ทราบตามที่แน่นอน kการจับคู่ -mer ซึ่งให้ความเร็วที่เพิ่มขึ้นอย่างมากโดยลดข้อกำหนดสำหรับการจัดตำแหน่งการอ่านระดับฐานที่แม่นยำ อย่างไรก็ตาม วิธีการที่ไม่มีการจัดตำแหน่งเหล่านี้ไม่สามารถตรวจหายีนหรือไอโซฟอร์มชนิดใหม่ได้ และพวกเขาแสดงประสิทธิภาพที่แย่กว่าในการหาปริมาณอาร์เอ็นเอที่มีความอุดมสมบูรณ์ต่ำและมีขนาดเล็กเมื่อเทียบกับไปป์ไลน์ตามการจัดตำแหน่ง [18]

การเปิดตัวครั้งแรกของ StringTie ได้เสนอวิธีการใช้เวอร์ชันจำกัดของ de novo transcriptome assembly ผ่านการสร้าง super-reads ซึ่งเดิมได้รับการพัฒนาสำหรับการประกอบทั้งจีโนม [19] ตามแนวคิดแล้ว Super-reads นั้นถูกสร้างขึ้นโดยการขยายแต่ละด้านของการอ่านสั้นๆ ตราบใดที่มีส่วนขยายที่ไม่ซ้ำกันตาม kตารางค้นหา -mer ซึ่งจะสร้างคอลเลกชันของการอ่านแบบสังเคราะห์ที่มีอัตราความผิดพลาดต่ำของการอ่านแบบสั้น เนื่องจากพวกมันยาวกว่า พวกมันจึงมีแนวโน้มที่จะจัดตำแหน่งอย่างเฉพาะเจาะจงกับจีโนม ซึ่งจะทำให้กราฟการต่อของยีนง่ายขึ้น Super-reads ถูกใช้ในความจุที่จำกัดใน StringTie 1.0 (ต่อจากนี้ไป StringTie1) โดยจะเติมเฉพาะช่องว่างระหว่างการอ่านแบบ paired-end ในการใช้งานที่จำกัดนั้น Super-read ถูกใช้เพื่อแทนที่การอ่านคู่หนึ่ง ทำให้ถือว่าอ่านได้เหมือนการอ่านเดี่ยวที่ไม่มีการจับคู่ ปัญหาอย่างหนึ่งในการใช้ super-reads คืออัลกอริธึมที่ใช้สร้างสำหรับการประกอบจีโนมมีขั้นตอนการแก้ไขข้อผิดพลาด ซึ่งในบริบทของการประกอบ RNA-seq สามารถเขียนทับได้ k-mers จากการถอดเสียงที่อุดมสมบูรณ์ต่ำ ความซับซ้อนอีกประการหนึ่งคือการอ่านขั้นสูงแบบเต็มอาจมีการอ่านสั้น ๆ จำนวนมาก ดังนั้นจึงไม่สามารถนับเป็นการอ่านครั้งเดียวในระหว่างขั้นตอนการหาปริมาณ ดังนั้นเราจึงได้พัฒนาอัลกอริธึมการเพิ่มความคาดหวัง (EM) เพื่อกระจายความครอบคลุมการอ่านระหว่างการอ่านขั้นสูง

แม้ว่าซีเควนเซอร์รุ่นที่สองจะสร้างการอ่านจำนวนมาก แต่โดยทั่วไปแล้วความยาวในการอ่านจะค่อนข้างสั้น ในช่วง 75–125 bp สำหรับการทดลอง RNA-seq ส่วนใหญ่ การอ่านสั้นๆ เหล่านี้มักจะจัดตำแหน่งมากกว่าหนึ่งแห่ง และเรากำหนดให้การอ่านดังกล่าวเป็น "การทำแผนที่หลายจุด" การอ่านแบบสั้นยังมีข้อจำกัดที่แทบจะไม่ขยายเกินสอง exons ทำให้กราฟ splice ยากและบางครั้งก็เป็นไปไม่ได้ที่จะสำรวจอย่างแม่นยำสำหรับยีนที่มี exon หลายตัวและไอโซฟอร์มที่หลากหลายมากมาย ไม่ว่าจะเรียงลำดับลึกแค่ไหนก็ตาม ปัญหาเหล่านี้สามารถบรรเทาได้ด้วยเทคโนโลยีการจัดลำดับรุ่นที่สาม เช่น เทคโนโลยีจาก Pacific Biosciences (PacBio) และ Oxford Nanopore Technologies (ONT) เทคโนโลยีที่อ่านค่ามานานเหล่านี้ ซึ่งสามารถผลิตความยาวในการอ่านเกิน 10,000 bp ได้ปรับปรุงส่วนประกอบทั้งจีโนมให้ดีขึ้นอย่างมาก [20] และเมื่อใช้สำหรับการทดลอง RNA-seq เทคโนโลยีเหล่านี้มีศักยภาพที่จะได้รับความแม่นยำในการระบุไอโซฟอร์มมากขึ้น และการค้นพบ [21,22,23] แม้ว่าการอ่านบางส่วนที่สร้างโดยซีเควนเซอร์รุ่นที่สามจะครอบคลุมความยาวของทรานสคริปต์ RNA ทั้งหมด แต่ส่วนมากจะจับเฉพาะการถอดเสียงบางส่วนอย่างหลีกเลี่ยงไม่ได้ สิ่งนี้เกิดขึ้นจากหลายสาเหตุ เช่น (1) RNA เสื่อมสภาพอย่างรวดเร็วและอาจสั้นกว่าความยาวเต็มที่เมื่อถูกจับเพื่อจัดลำดับ (2) โมเลกุลยาวสามารถแตกได้ในระหว่างการเตรียมคลังหรือ (3) ในการหาลำดับ cDNA ขั้นตอนการถอดความแบบย้อนกลับอาจล้มเหลวในการจับโมเลกุลอาร์เอ็นเอแบบเต็ม ดังนั้น เครื่องมือคำนวณที่พิจารณาเฉพาะการอ่านที่ครอบคลุมการถอดเสียงทั้งหมดเท่านั้น จะถูกบังคับให้ละทิ้งการอ่านจำนวนมาก ซึ่งอาจทำให้ความไวลดลงอย่างมาก อย่างไรก็ตาม จนถึงปัจจุบัน การอ่านแบบยาวยังไม่ถูกนำมาใช้กันอย่างแพร่หลายสำหรับการประกอบทรานสคริปโทม ส่วนหนึ่งเป็นเพราะพวกมันมีอัตราความผิดพลาดที่สูงกว่ามาก (โดยทั่วไปคือ 8-10% หรือสูงกว่า) ทำให้การจัดตำแหน่งยาก [24, 25] และเนื่องจากยาว- ตัวอ่านซีเควนเซอร์มีปริมาณงานต่ำกว่ามาก ซึ่งทำให้การหาปริมาณที่แม่นยำของทั้งหมด ยกเว้นยีนที่แสดงออกสูงสุดเป็นไปไม่ได้

เครื่องมือต่างๆ ได้รับการพัฒนาขึ้นเมื่อเร็วๆ นี้เพื่อแก้ไขข้อผิดพลาดและ/หรือดึงข้อมูลการถอดเสียงแบบเต็มจากการจัดตำแหน่งจีโนมของการอ่าน RNA-seq แบบยาว เครื่องมือที่ประมวลผลการถอดเสียงแบบเต็มความยาวจากการอ่าน PacBio Iso-Seq รวมถึง ToFU [26], TAPIS [27] และ SQANTI [28] ไม่สามารถประกอบการอ่านที่ครอบคลุมเพียงบางส่วนในการถอดเสียงเป็นสำเนาเต็มความยาว และไม่สามารถใช้ ONT อ่านเนื่องจากการพึ่งพาการระบุ 5′ และ 3′ สิ้นสุดตามอะแดปเตอร์เฉพาะ PacBio TranscriptClean [29] แก้ไขการไม่ตรงกัน อินเดล และไซต์ประกบที่ไม่ใช่ Canonical ในการจัดตำแหน่งที่อ่านนาน แต่ไม่พยายามระบุการถอดเสียงแบบเต็มความยาวFLAIR [30] แก้ไขจุดเชื่อมต่อโดยอ้างอิงจากคำอธิบายประกอบที่ผู้ใช้กำหนดและทราบและแสดงผลการถอดเสียงจากคำอธิบายประกอบที่ครอบคลุมโดยการอ่าน "ความมั่นใจสูง" ทั้งหมด เพื่อเป็นทางเลือกแทนวิธีการเหล่านี้ ซึ่งขึ้นอยู่กับการถอดเสียงที่รู้จัก เราสามารถประกอบชิ้นส่วนที่อ่านยาวโดยใช้วิธีการเดียวกันกับที่ใช้สำหรับการประกอบการถอดเสียงแบบอ่านสั้น นอกเหนือจากการค้นหาการถอดเสียงแบบใหม่แล้ว วิธีการประกอบยังสามารถจัดการแฟรกเมนต์ที่ตรงกับไอโซฟอร์มหลาย ๆ อย่างได้ง่ายขึ้น และสามารถแก้ไขข้อผิดพลาดการจัดตำแหน่งโดยสร้างฉันทามติจากการอ่านหลายครั้ง Traphlor [31] เป็นระบบเดียวที่อธิบายไว้ก่อนหน้านี้ซึ่งออกแบบมาเพื่อรวบรวมการอ่านแบบยาวที่มีข้อผิดพลาดสูง แม้ว่าเราจะแสดงให้เห็นว่าระบบทำงานค่อนข้างแย่ทั้งกับข้อมูลจำลองและข้อมูลจริง

ที่นี่เราขอนำเสนอ StringTie2 ซึ่งเป็นรุ่นใหม่ที่สำคัญของแอสเซมเบลอร์การถอดเสียง StringTie ซึ่งสามารถประกอบการอ่านทั้งแบบสั้นและแบบยาว ผลลัพธ์ของเราในชุดข้อมูล 33 Illumina RNA-seq แสดงให้เห็นว่า StringTie2 มีความแม่นยำมากกว่า Scallop ซึ่งเป็นแอสเซมเบลอร์ การใช้ super-reads ยังช่วยปรับปรุงทั้งความไวและความแม่นยำของแอสเซมบลี StringTie2 อย่างต่อเนื่อง เมื่อนำไปใช้กับการอ่านแบบยาว StringTie2 จะรวบรวมการอ่านที่แม่นยำขึ้น เร็วขึ้น และใช้หน่วยความจำน้อยกว่า FLAIR ซึ่งเป็นเครื่องมือที่มีประสิทธิภาพดีที่สุดรองลงมาสำหรับการวิเคราะห์การอ่านระยะยาว เมื่อเทียบกับ FLAIR แล้ว StringTie2 ยังสามารถระบุการถอดเสียงใหม่จากข้อมูลที่อ่านมานาน แม้ว่าจะไม่ได้ให้คำอธิบายประกอบอ้างอิงก็ตาม


2. ตรวจพบการถอดเสียง

ส่วนนี้อธิบายการถอดเสียงโดเมนสาธารณะหรือการคาดคะเนยีนที่ควรตรวจพบโดยกลุ่มโพรบที่กำหนดตามการวิเคราะห์ลำดับการคำนวณที่ดำเนินการโดยไปป์ไลน์คำอธิบายประกอบ NetAffx™ ใบรับรองผลการเรียนที่ได้รับมอบหมายจะแสดงรายการในกลุ่มตามระบบการจัดประเภทการถอดเสียงของ NetAffx

การกำหนด Transcript ทำได้โดยการรวบรวมชุดลำดับการถอดเสียงที่เผยแพร่ต่อสาธารณะซึ่งไม่ซ้ำซ้อนจาก GenBank, RefSeq และ Ensembl จากนั้นใช้โปรแกรมการจัดลำดับและเครื่องมืออื่นๆ เพื่อเชื่อมโยงกับลำดับการสอบสวน รายละเอียดของวิธีการที่ไปป์ไลน์การมอบหมายนี้ใช้จะมีอยู่ในเอกสารไวท์เปเปอร์บน affymetrix.com

วิธีการมอบหมายการถอดเสียง NetAffx มาจากความสัมพันธ์ระหว่างกลุ่มโพรบและบันทึกการถอดเสียงสาธารณะในปัจจุบัน จำนวนลำดับการถอดเสียงและแท็ก Expressed Sequence (EST) ที่มีอยู่ในฐานข้อมูลสาธารณะยังคงมีวิวัฒนาการจากเวลาเดิมของการออกแบบ เว็บไซต์ NetAffx รักษามุมมองปัจจุบันของการถอดเสียงสาธารณะที่โพรบ GeneChip ตั้งการสอบสวน อัปเดตในเดือนมีนาคม กรกฎาคม และพฤศจิกายน

ID ภาคยานุวัติ (ที่มา) – ตัวระบุเฉพาะสำหรับการถอดเสียง โดยมีฐานข้อมูลต้นทางอยู่ในวงเล็บ

กำหนดคะแนน – การวัดเชิงปริมาณว่ากลุ่มโพรบสอบปากคำการถอดเสียงที่ได้รับมอบหมายได้ดีเพียงใด สิ่งนี้ถูกกำหนดโดยการหารจำนวนของโพรบในกลุ่มที่ตรงกับทรานสคริปต์อย่างสมบูรณ์ (แสดงเป็นตัวเศษ) ด้วยจำนวนของโพรบที่อาจตรงกับทรานสคริปต์ (แสดงในตัวส่วน) แล้วคูณด้วย 100 จำนวนของโพรบที่ตรงกัน ถูกคำนวณตามการจัดกลุ่มการถอดรหัสเทียบกับจีโนมหรือการจัดกลุ่มการถอดรหัสเทียบกับการถอดเสียงและตำแหน่งจีโนมที่รู้จักของโพรบ

ความคุ้มครอง – การวัดเชิงปริมาณของระดับการทับซ้อนกันระหว่างกลุ่มโพรบและการถอดเสียงที่ได้รับมอบหมาย สิ่งนี้ถูกกำหนดโดยการหารจำนวนของโพรบที่อาจจับคู่ได้ (อธิบายไว้ในรายการอภิธานศัพท์การให้คะแนน) ด้วยจำนวนโพรบทั้งหมดในกลุ่มโพรบ จากนั้นคูณด้วย 100 จำนวนความครอบคลุมต่ำสามารถเกิดขึ้นได้กับไอโซฟอร์มการถอดรหัสที่มีความหมายทางชีววิทยาสั้น ๆ เช่น เช่นเดียวกับลำดับการถอดเสียงบางส่วน

สัญลักษณ์ยีนและชื่อเรื่อง – กำหนดไว้ในส่วนภาพรวม

Entrez GeneID – ชื่อยีน ID และสัญลักษณ์ถูกดึงมาจาก Entrez Gene หรือ UniGene ในบางกรณี ฐานข้อมูลพิเศษอาจระบุชื่อยีน เช่น FlyBase, WormBase และ Saccharomyces Genome Database

ทางเดิน – กำหนดไว้ในส่วนภาพรวม

การถอดเสียง – ลำดับ RNA ที่เกิดจากบริเวณจีโนมที่สอดคล้องกับยีนที่รู้จักหรือคาดการณ์ไว้ ไปป์ไลน์คำอธิบายประกอบ NetAffx™ ดึง GenBank, RefSeq, Ensembl และฐานข้อมูลสาธารณะอื่นๆ เพื่อรับบันทึกการถอดเสียงที่มีอยู่ในปัจจุบันสำหรับ mRNA และยีน RNA ที่ไม่เข้ารหัสโปรตีน มีการรวมทรานสคริปต์ที่มีการสนับสนุนการทดลองที่หลากหลายและจัดประเภทตามระบบการจัดหมวดหมู่ทรานสคริปต์ของ NetAffx


<p>ส่วนนี้ให้ข้อมูลเกี่ยวกับโปรตีนและชื่อยีนและคำพ้องความหมายและเกี่ยวกับสิ่งมีชีวิตที่เป็นแหล่งที่มาของลำดับโปรตีน<p><a href='/help/names_and_taxonomy_section' target='_top'> มากกว่า. </a></p> ชื่อและอนุกรมวิธาน i

<p>ข้อมูลที่นำเข้าจากฐานข้อมูลอื่นโดยใช้ขั้นตอนอัตโนมัติ</p> <p><a href="/manual/evidences#ECO:0000313">เพิ่มเติม </a></p> การยืนยันอัตโนมัติที่อนุมานจากรายการฐานข้อมูล i

การยืนยันอัตโนมัติอนุมานจากรายการฐานข้อมูล i

การยืนยันอัตโนมัติอนุมานจากรายการฐานข้อมูล i

การยืนยันอัตโนมัติอนุมานจากรายการฐานข้อมูล i

    <p>A UniProt <a href="http://www.uniprot.org/manual/proteomes%5Fmanual">proteome</a> สามารถประกอบด้วยส่วนประกอบได้หลายส่วน<br></br>ชื่อส่วนประกอบอ้างอิงถึงการเข้ารหัสองค์ประกอบจีโนม ชุดของโปรตีน<p><a href='/help/proteome_component' target='_top'>เพิ่มเติม </a></p> องค์ประกอบ i : โครโมโซม 1

ฐานข้อมูลเฉพาะสิ่งมีชีวิต

ฐานข้อมูลจีโนมของเมาส์ (MGD) จาก Mouse Genome Informatics (MGI)


โปรตีนเมมเบรน—การผลิตและการกำหนดลักษณะการทำงาน

Michael Lafontaine, C. Roy D. Lancaster ใน Methods in Enzymology , 2015

1. บทนำ

ข้อกำหนดเบื้องต้นสำหรับการทำความเข้าใจกลไกการออกฤทธิ์ของโปรตีนเมมเบรนที่ระดับอะตอมคือความพร้อมของโครงสร้างสามมิติที่กำหนดอย่างแม่นยำ เทคนิคที่ประสบความสำเร็จมากที่สุดในการกำหนดแบบจำลองอะตอมของโครงสร้างโปรตีนเมมเบรนคือ X-ray crystallography ( Jaskolski & Wlodawer, 2014 Schmahl & Steurer, 2012 Wilkins, 2013 ) วิธีนี้ต้องการการตกผลึกของโปรตีนเมมเบรนที่น่าสนใจ ( Michel, 1990 Müller & Lancaster, 2013 Newby et al., 2009 ) ซึ่งต้องการการผลิตและการทำให้บริสุทธิ์ในปริมาณมิลลิกรัมและคุณภาพ monodisperse ( Ostermeier & amp Michel, 1997 ) แม้ว่าระบบการผลิตโปรตีนเมมเบรนที่จัดตั้งขึ้นอย่างดีจำนวนหนึ่ง ซึ่งมีพื้นฐานมาจากแบคทีเรีย ( Geertsma & Poolman, 2010 Makrides, 1996 Miroux & Walker, 1996 ), ยีสต์ ( Cereghino & Cregg, 2000 Cregg, Cereghino, Shi, & Higgins, 2000 ), หรือเซลล์แมลง ( Jasti, Furukawa, Gonzales, & Gouaux, 2007 ) มีอยู่ การแสดงออก (โดยเฉพาะ heterologous) อาจล้มเหลวด้วยเหตุผลหลายประการ ระบบทางเลือกสำหรับโปรตีนเมมเบรน โดยที่ Escherichia coliการผลิตแบบอิงล้มเหลว อิงจากเอปไซลอน-โปรตีโอแบคทีเรียม โวลิเนลลา ซัคซิโนจีนีส และนำเสนอที่นี่ ได้รับการพิสูจน์แล้วว่าประสบความสำเร็จสำหรับทั้งคู่ที่คล้ายคลึงกัน ( Herzog et al., 2012 Juhnke, Hiltscher, Nasiri, Schwalbe, & Lancaster, 2009 Lancaster, Gross, & Simon, 2001 Lancaster et al., 2000, 2005 ) และ heterologous ( Mileni et al., 2006 ) การผลิตโปรตีนเมมเบรน การตกผลึก และการกำหนดโครงสร้างโปรตีนเมมเบรน ( Lancaster et al., 2000, 2001 Lancaster, Kröger, Auer, & Michel, 1999 Lancaster et al., 2005 Madej, Nasiri, Hilgendorff, Schwalbe, และแลงคาสเตอร์, 2549 ). ระบบนี้อิงจากงานก่อนหน้าโดยห้องปฏิบัติการของโครเกอร์ตอนปลาย ( Körtner, Lauterbach, Tripier, Unden, & Kröger, 1990 Kröger et al., 2002 Lauterbach, Körtner, Albracht, Unden, & Kröger, 1990 Simon, Gross, Ringel , ชมิดท์, & Kröger, 1998 ). ที่สำคัญคือ W. ซัคซิโนจีน quinol:fumarate reductase (QFR) การลบกลายพันธุ์ (ΔfrdCAB) สร้างขึ้นครั้งแรกโดย Simon et al. (1998) . ต่อไป ขั้นตอนการสร้างระบบสำหรับการผลิตเอนไซม์พื้นเมืองและตัวแปรใน W. ซัคซิโนจีน ถูกนำเสนอสำหรับตัวอย่างของตัวแปร QFR และคอมเพล็กซ์ SdhABE ของ W. ซัคซิโนจีน. นอกจากนี้ โครงการเพิ่มเติมโดยใช้ W. ซัคซิโนจีน เนื่องจากโฮสต์นิพจน์ถูกครอบคลุม

1.1 pΔfrdCAB

การลบจีโนม frdCAB อธิบายโดย Simon et al. (1998) . โดยสังเขป ใส่คาสเซ็ตการลบคานามัยซินของ pUC4K ในเวกเตอร์ pBR322 ขนาบข้างด้วยลำดับดีเอ็นเอสองลำดับที่สอดคล้องกับบริเวณจีโนมต้นน้ำและปลายน้ำของ frdCAB โอเปร่า ปฏิกิริยา Ligation และการแพร่กระจายของพลาสมิดที่ตามมาได้ดำเนินการใน อี. โคไล XL-1 สายสีน้ำเงิน การแปลงสภาพด้วยเวกเตอร์นี้และการเลือกที่ตามมาด้วยคานามัยซินให้ผลสำเนาพันธุ์ลูกผสมของ W. ซัคซิโนจีน .frdCAB กลายพันธุ์ที่จีโนม frdCAB operon ถูกแทนที่ด้วย kanamycin cassette ผ่านเหตุการณ์การรวมตัวที่คล้ายคลึงกันสองครั้ง กลายพันธุ์เหล่านี้ไม่สามารถเติบโตบน fumarate แต่ยังคงอยู่ในสื่อขั้นต่ำไนเตรต

1.2 pFrdcat2

การแสดงออกของตัวแปร frdCAB ที่แตกต่างกันทำได้โดยการแปลง ΔfrdCAB กลายพันธุ์ด้วย pFrdcat2 plasmid ( Simon et al., 1998 ) พลาสมิดนี้ ( รูปที่ 1A ) เป็นอนุพันธ์ของเวกเตอร์ pFrd โดยที่ frdC2 ยีนและยีนต้านทานกานามัยซิน (กัน) ส่วนใหญ่จะถูกลบออก แต่มียีนต้านทานคลอแรมเฟนิคอล (แมวGC) ของเวกเตอร์ pDF4 ลำดับของพลาสมิดนี้ถูกกำหนดโดย Juhnke et al (2009) และฝากไว้ในฐานข้อมูลลำดับนิวคลีโอไทด์ EMBL (เลขทะเบียน AM909725) ปฏิกิริยา Ligation และการแพร่กระจายของพลาสมิดที่ตามมาได้ดำเนินการใน อี. โคไล XL-1 สายสีน้ำเงิน การแปลงด้วย pFrdcat2 เติมเต็มΔfrdCAB เมื่อพลาสมิดรวมเข้ากับจีโนมผ่านเหตุการณ์การรวมตัวใหม่ระหว่างลำดับต้นน้ำของ frdC ในเวกเตอร์และบริเวณจีโนมที่สอดคล้องกัน ผลการกลายพันธุ์ของการลบที่สมบูรณ์ซึ่งเรียกอีกอย่างว่า K4 แสดงในแง่ของเวลาที่เพิ่มขึ้นเป็นสองเท่าและกิจกรรม fumarate reductase ที่คล้ายคลึงกันเช่นสายพันธุ์ไวด์ (Simon et al., 1998)

รูปที่ 1 . การใช้เวกเตอร์ pFrdcat2 สำหรับการสร้าง W. ซัคซิโนจีน ตัวแปร QFR (A) การก่อสร้าง ว. ซัคซิโนยีนfrdCAB กลายพันธุ์. เหตุการณ์การรวมตัวแบบโฮโมโลกัสสองครั้งระหว่างบริเวณขนาบข้างที่มีอยู่ในเวกเตอร์ p▵frdCAB และจีโนมของ W. ซัคซิโนจีน นำไปสู่การเปลี่ยนจีโนม frdCAB โลคัสโดยเทปลบกานามัยซิน (กัน). (B) การผสานรวมของเวกเตอร์ pFrdcat2 ผ่านทางเหตุการณ์การรวมตัวใหม่ที่คล้ายคลึงกันในจีโนมของ W. ซัคซิโนจีนfrdCAB กลายพันธุ์. เหตุการณ์การรวมตัวใหม่เกิดขึ้นระหว่างภูมิภาคต้นน้ำของ frdC ยีนที่มีอยู่ในเวกเตอร์ pFrdcat2 และจีโนม

การแสดงแบบง่ายดัดแปลงมาจาก Simon et al. (1998) .

1.3 การก่อสร้าง W. ซัคซิโนจีน สายพันธุ์

การสร้างรีคอมบิแนนท์ W. ซัคซิโนจีน สายพันธุ์ประกอบด้วยสองขั้นตอนที่สำคัญ ขั้นตอนแรกเกี่ยวข้องกับการลบตำแหน่งจีโนมของยีนบางตัวผ่านเหตุการณ์การรวมตัวใหม่ที่คล้ายคลึงกันสองครั้ง ในกรณีของ QFR ของ W. ซัคซิโนจีน, โอเปอเรเตอร์ frdCAB จีโนมที่เข้ารหัสสำหรับยูนิตย่อย QFR จะถูกแทนที่ด้วยเทปลบของ pΔfrdCAB เทปลบนี้ประกอบด้วยยีนต้านทานคานามัยซินของ pUC4K ขนาบข้างด้วยลำดับดีเอ็นเอสองลำดับที่สอดคล้องกับบริเวณจีโนมต้นน้ำและปลายน้ำของ frdCAB โอเปร่า บริเวณขนาบข้างถูกสังเคราะห์โดย PCR จาก pFrd และ pPur โดยเพิ่ม a อีโคRI และ แบมไซต์ข้อ จำกัด HI ในกรณีที่ส่วนต้นน้ำและ แบมโฮฉันและ สาละฉันสำหรับภูมิภาคปลายน้ำ ( Simon et al., 1998 ) ชิ้นส่วนทั้งสองถูกโคลนในเวกเตอร์ pBR322 ก่อนแทรกยีนต้านทานกานามัยซินผ่านทาง แบมสวัสดี. การแปลงร่างของ W. ซัคซิโนจีน ด้วยเวกเตอร์นี้และการเลือกที่ตามมาด้วยคานามัยซินให้ผลสำเนาพันธุ์ลูกผสมของ W. ซัคซิโนจีน .frdCAB กลายพันธุ์ (เรียกอีกอย่างว่าการกลายพันธุ์การลบ) โดยที่จีโนม frdCAB operon ถูกแทนที่ด้วย kanamycin cassette กลายพันธุ์เหล่านี้ไม่สามารถเติบโตบน fumarate แต่ยังคงอยู่ในสื่อขั้นต่ำไนเตรต

ขั้นตอนต่อไปช่วยเสริมการกลายพันธุ์นี้โดยการรวมเวกเตอร์ pFrdcat2 ผ่านเหตุการณ์ลูกผสมเดียว เวกเตอร์ pFrdcat2 ( รูปที่ 1B ) ซึ่งเป็นเวกเตอร์ pFrd ที่ดัดแปลง ถูกสร้างขึ้นโดยการลบยีนต้านทานกานามัยซินส่วนใหญ่และใส่ยีนต้านทานคลอแรมเฟนิคอลจาก pDF4a การย่อยภายหลังของเวกเตอร์ด้วย คลาฉันและ สาละ ฉันตามด้วย ligation ส่งผลให้ frdCAB operon ไม่มีกรอบการอ่านแบบเปิด C2 ลำดับของพลาสมิดนี้ฝากไว้ในฐานข้อมูลลำดับนิวคลีโอไทด์ EMBL (เลขทะเบียน AM909725) พลาสมิด pFrdcat2 ที่สมบูรณ์ถูกรวมเข้ากับจีโนมผ่านเหตุการณ์การรวมตัวใหม่ระหว่างชิ้นส่วน 0.7-kb ต้นน้ำของ frdC เปิดกรอบการอ่านในเวกเตอร์และจีโนมของการกลายพันธุ์การลบ ( รูปที่ 2 ) การคัดเลือกบนอาหารเลี้ยงเชื้อที่มีคานามัยซินและคลอแรมเฟนิคอล (25 และ 12.5 ไมโครกรัม/มิลลิลิตร ตามลำดับ) ให้ผลการกลายพันธุ์แบบลบที่สมบูรณ์ K4 ที่แสดงคุณสมบัติของชนิดพันธุ์ป่าในแง่ของเวลาเพิ่มเป็นสองเท่า ผลผลิตในการเจริญเติบโต และกิจกรรมจำเพาะสำหรับการหายใจด้วยฟูมาเรต (Simon et al., 2541 ).

รูปที่ 2 . เวิร์กโฟลว์ทั่วไปเพื่อสร้าง recombinant W. ซัคซิโนจีน สายพันธุ์ หลังการสร้างเวกเตอร์การแสดงออก (1) และการผลิตพลาสมิดใน อี. โคไล XL-1 เซลล์สีน้ำเงิน (2) การแปลงของ W. ซัคซิโนจีน ชนิดป่าหรือ W. ซัคซิโนจีนfrdCAB การกลายพันธุ์ด้วยเวกเตอร์การแสดงออกนำไปสู่การรวมเข้ากับจีโนม (3) ขั้นตอนการคัดเลือกและการคัดกรอง PCR สำหรับการรวมจีโนมของเวกเตอร์ (4) ให้ผลการแปลงอย่างเสถียร W. ซัคซิโนจีน สายพันธุ์ที่สามารถนำไปใช้ในการทดลองครั้งต่อไป (5)

สำหรับการแสดงออกที่แตกต่างกันของสารเชิงซ้อนโปรตีนเมมเบรน ตามที่ทำโดย Mileni et al (2006) ระบบนี้ยังใช้ได้อยู่ เนื่องจากเอ็นไซม์ QFR ของเอปไซลอน-โปรตีโอแบคทีเรียก่อโรคในมนุษย์ เชื้อเฮลิโคแบคเตอร์ ไพโลไร ( Ge et al., 2000 ) และ Campylobacter jejuni ( Weingarten, Taveirne, & Olson, 2009 ) ได้รับการแสดงว่ามีความจำเป็นสำหรับการล่าอาณานิคมของสิ่งมีชีวิตที่เป็นโฮสต์ เอนไซม์ QFR เหล่านี้ถือเป็นเป้าหมายของยาที่มีแนวโน้มดี หลังจากสร้างการกลายพันธุ์ของการลบตามที่อธิบายไว้ก่อนหน้านี้ (Simon et al., 1998) เซลล์ถูกแปลงด้วยพลาสมิด pCatCj4 และ pCatHpG8 อนุพันธ์ของเวกเตอร์ pFrdcat2 เหล่านี้ประกอบด้วย frdCAB สถานที่ของ . jejuni และ ชม. ไพโลไรตามลำดับแทนที่จะเป็นของแท้ W. ซัคซิโนยีน frdCAB โลคัส อย่างไรก็ตาม frdCAB โลคัสยังอยู่ภายใต้การควบคุมของผู้แข็งแกร่ง frd โปรโมเตอร์ เวกเตอร์อนุพันธ์ถูกสร้างขึ้นโดยการขยาย an frdCAB ไม่มีส่วนของ pFrdcat2 และตามลำดับ frdCAB loci กับไพรเมอร์ที่มี a คลาฉันและแอน Avrไซต์ข้อ จำกัด II ที่ปลาย 5′ ทรานส์ฟอร์เมอร์ (W. ซัคซิโนจีน CjM11 และ HpGM31) สามารถเติบโตบนกานามัยซินและคลอแรมเฟนิคอล และผลิตเอนไซม์ QFR ต่างชนิดกันที่ใช้งานได้ซึ่งมีระดับการแสดงออกเทียบได้กับชนิดพันธุ์ป่าที่คล้ายคลึงกัน ( Mileni et al., 2006 )

อย่างไรก็ตาม ระบบนี้ไม่เพียงใช้ได้กับ QFR ที่แสดงโดย Kern, Scheitauer, Kranz และ Simon (2010) หรือ Juhnke et al (2009) . หลังใช้ระบบพันธุกรรมในการผลิต succinate:quinone oxidoreductase (SQOR) (E-type) ที่ไม่ใช่แบบคลาสสิกของ W. ซัคซิโนจีน. เอนไซม์นี้จัดอยู่ในประเภท E-type SQOR ( Hederstedt, 1999 Lancaster, 2002a ) ยังไม่ได้ผลิตภายใต้สภาวะการเจริญเติบโตที่ทดสอบ NS SdhABE operon เข้ารหัสหน่วยย่อยที่แตกต่างกันสามหน่วยของเอนไซม์ซึ่งประกอบด้วยหน่วยย่อยที่ชอบน้ำสองหน่วย (SdhA และ SdhB) และจุดยึดเมมเบรน (SdhE) ซึ่งคาดการณ์ว่าจะเป็นเมมเบรนที่เกี่ยวข้องผ่านทางเกลียวแอมฟิพาทิกมากกว่าโดเมนทรานส์เมมเบรน นอกจากนี้ หน่วยย่อย SdhA ยังมีส่วนต่อขยายความยาวกรดอะมิโนที่ปลาย N-terminal 40 ซึ่งมีโมทีฟอาร์จินีนคู่ซึ่งกำหนดโปรตีนที่จะส่งออกล่วงหน้าผ่านวิถีททท ( Palmer, Sargent, & Berks, 2005 )

เป็นการโคลนที่สมบูรณ์ SdhABE operon ล้มเหลว มีเพียงการเข้ารหัสยีนสำหรับหน่วยย่อย sdhA เท่านั้นที่ถูกขยายจากจีโนม DNA และโคลนผ่าน SacII และ ไม่ฉันอยู่ในส่วน pFrdcat2 ที่ขาด frdCAB โอเปอเรเตอร์แต่ยังคงมีความสมบูรณ์ frd โปรโมเตอร์ (เรียกว่า pSdhA) การเปลี่ยนแปลงของ W. ซัคซิโนจีน .frdCAB การกลายพันธุ์ด้วย pSdhA นำไปสู่การรวมเวกเตอร์ที่ SdhABE โลคัสวางให้สมบูรณ์ SdhABE ดำเนินการภายใต้การควบคุมของโปรโมเตอร์ frd ที่แข็งแกร่ง การวัดกิจกรรมของเอนไซม์เพิ่มเติมได้พิสูจน์ว่ามีการผลิตโปรตีนที่แท้จริงและแอคทีฟ

ในงานเดียวกันนี้ ยังได้ทดสอบความเข้ากันได้ของโครงสร้างที่มีแท็กความสัมพันธ์สำหรับการตรวจจับด้วย Juhnke และคณะ (2009) สร้าง pSdhAHT และ pSdhAH1 โดยการใส่เทปโอลิโกนิวคลีโอไทด์ที่เข้ารหัสแท็กเฮกซะ-ฮิสทิดีนที่มีหรือไม่มีจุดแตกแยกของ TEV-โปรตีเอสที่จุดเริ่มต้นของ sdhA ยีนหรือที่ตำแหน่งกรดอะมิโน 37 ปรากฎว่าต้องใช้ความระมัดระวังเมื่อใช้แท็กความสัมพันธ์ระหว่าง N-terminal เนื่องจากมีเพียงตัวแปร AH1 ที่มีแท็ก hexa-histidine-tag ที่ตำแหน่ง 37 เท่านั้นที่สามารถตรวจพบได้ใน Western blot ที่มีแอนตี้เพนตา -ฮิสทิดีนแอนติบอดีที่มีนัยว่าในการกลายพันธุ์ HT ป้ายฮิสทีนของเทอร์มินัล N ถูกตัดแยกระหว่างการส่งออกเนื่องจาก ททท เปปไทด์สัญญาณที่สอดคล้องกับกรดอะมิโน 31–33 ใน SdhA นอกจากนี้ การใช้แท็ก strepII หรือแท็ก strepII ควบคู่สำหรับการทำให้บริสุทธิ์หรือการตรวจจับการผลิตโปรตีนได้รับการพิสูจน์โดย Gross, Pisa, Sänger, Lancaster, & Simon (2004) หรือ Kern et al. (2010).

อย่างไรก็ตาม frd โปรโมเตอร์ไม่ใช่โปรโมเตอร์ที่ใช้ได้เพียงตัวเดียวสำหรับการแสดงออกของยีนแปลกปลอมหรือยีนดัดแปลง ขั้นต้นและเพื่อนร่วมงาน ( Gross et al., 2004 Gross, Simon, Theis, & Kroger, 1998 ) แสดงให้เห็นถึงการเคลื่อนย้ายของขั้นตอนการสร้างการกลายพันธุ์ของการลบและการเสริมที่ตามมา พวกเขาสร้างเทปลบที่เก็บยีนต้านทานกานามัยซินขนาบข้างด้วยลำดับที่คล้ายคลึงกันกับภูมิภาคใกล้เคียงของ HydABC โอเปร่า การเสริมต่อไปนี้ด้วยพลาสมิด pHydcat ที่มี HydABC ดำเนินการกับ HydC แวเรียนต์รวมทั้งยีนคลอแรมเฟนิคอล อะเซทิลทรานสเฟอเรสให้ผลผลิต Fe/Ni Hydrogenase


<p>ส่วนนี้จะแสดงโดยค่าเริ่มต้นลำดับโปรตีนตามรูปแบบบัญญัติและเมื่อมีการร้องขอ ไอโซฟอร์มทั้งหมดที่อธิบายไว้ในรายการ นอกจากนี้ยังมีข้อมูลที่เกี่ยวข้องกับลำดับ รวมถึง <a href="http://www.uniprot.org/help/sequence%5Flength">length</a> และ <a href="http://www.uniprot .org/help/sequences">น้ำหนักโมเลกุล</a> ข้อมูลถูกยื่นในส่วนย่อยต่างๆ ส่วนย่อยปัจจุบันและเนื้อหาอยู่ด้านล่าง:<p><a href='/help/sequences_section' target='_top'>เพิ่มเติม </a></p> ลำดับ s (2) i

<p>ส่วนย่อยนี้ของส่วน <a href="http://www.uniprot.org/help/sequences%5Fsection">Sequence</a> ระบุว่า <a href="http://www.uniprot.org/help /canonical%5Fand%5Fisoforms">Canonical Sequence</a> ที่แสดงโดยค่าเริ่มต้นในรายการจะสมบูรณ์หรือไม่<p><a href='/help/sequence_status' target='_top'>เพิ่มเติม </a></p> สถานะลำดับ i : เสร็จสมบูรณ์

<p>ส่วนย่อยนี้ของส่วน <a href="http://www.uniprot.org/help/sequences%5Fsection">Sequence</a> ระบุว่า <a href="http://www.uniprot.org/help /canonical%5Fand%5Fisoforms">ลำดับ Canonical</a> ที่แสดงโดยค่าเริ่มต้นในรายการอยู่ในรูปแบบที่สมบูรณ์หรือถ้ามันเป็นตัวแทนของสารตั้งต้น<p><a href='/help/sequence_processing' target='_top'>เพิ่มเติม </a></p> การประมวลผลลำดับ i : ลำดับที่แสดงจะถูกประมวลผลเพิ่มเติมในรูปแบบที่ครบถ้วน

รายการนี้อธิบาย 2 <p>ส่วนย่อยของส่วน 'ลำดับ' นี้แสดงรายการลำดับโปรตีนทางเลือก (ไอโซฟอร์ม) ที่สามารถสร้างขึ้นจากยีนเดียวกันโดยเหตุการณ์ทางชีวภาพเดียวหรือรวมกันถึงสี่เหตุการณ์ (การใช้โปรโมเตอร์ทางเลือก การประกบทางเลือก การเริ่มต้นทางเลือก และ การเปลี่ยนเฟรมไรโบโซม) นอกจากนี้ ส่วนนี้จะให้ข้อมูลที่เกี่ยวข้องเกี่ยวกับไอโซฟอร์มโปรตีนทางเลือกแต่ละตัว<p><a href='/help/alternative_products' target='_top'>เพิ่มเติม </a></p> ไอโซฟอร์มที่ฉันผลิตโดย ประกบทางเลือก . จัดวางในตะกร้าเพิ่มในตะกร้าแล้ว

ไอโซฟอร์มนี้ได้รับเลือกให้เป็น <div> <p><b>ลำดับตามรูปแบบบัญญัติคืออะไร</b><p><a href='/help/canonical_and_isoforms' target='_top'>เพิ่มเติม </a></p> ลำดับ Canonical i ข้อมูลตำแหน่งทั้งหมดในรายการนี้อ้างอิงถึงมัน นี่เป็นลำดับที่ปรากฏในเวอร์ชันที่ดาวน์โหลดได้ของรายการ

ลำดับของไอโซฟอร์มนี้แตกต่างจากลำดับบัญญัติดังนี้:
318-321: VVND → LCFR
322-545: หายไป