ข้อมูล

การหา DNA จากปัญหาลำดับกรดอะมิโน

การหา DNA จากปัญหาลำดับกรดอะมิโน


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

ความพยายามของฉัน: อันดับแรก ฉันเอารหัส AA อักษรตัวเดียวมาทำเป็นกรดอะมิโน อันแรกคือ Trp ซึ่งก็คือ 5'-UGG-3' จากนี้ ฉันได้ลำดับดีเอ็นเอ 3'-CCA-5' อย่างไรก็ตาม คำตอบที่ถูกต้อง (แสดงเป็นสีแดง) ไม่มีลำดับนี้ ฉันทำผิดอะไร?


วิธีการของคุณในการแปลลำดับ AA, codon by codon นั้นถูกต้อง นี่เป็นคำถามลวงเล็กน้อยเพราะต้องจำให้ได้ คุณต้องอ่านลำดับย้อนหลัง

UGG-CAA-GGT-CAC ฯลฯ จะถูกอ่านโดยตรงจากเส้น 3'->5' ของคำตอบในวงกลม โดยอ่านจากขวาไปซ้าย

ด้านล่างซ้ายเป็นปลาเฮอริ่งแดงเพราะมันขึ้นต้นด้วยโคดอน ATG แต่การอ่านนอกเหนือโคดอนเริ่มต้น ลำดับจะไม่ตรงกัน


แปล mRNA เป็นกรดอะมิโนที่สอดคล้องกัน

mRNA ถ่ายทอด DNA ซึ่งหมายความว่ามีข้อมูลหรือคำแนะนำของ DNA ที่กำหนดว่าจะต้องผลิตโปรตีนชนิดใด นี่คือเหตุผลที่เรียกว่า RNA ของผู้ส่งสาร เพราะมันส่งข้อความไปยังไซต์ของการผลิตโปรตีน ไรโบโซม

tRNA เรียกอีกอย่างว่าการถ่ายโอน RNA มันถ่ายโอนกรดอะมิโนไปยังเทมเพลต mRNA มันทำหน้าที่เป็นตัวปรับต่อในการแปลลำดับอาร์เอ็นเอและมีกรดอะมิโนอยู่ด้วย

ในระหว่างการถอดรหัส DNA จะให้คำแนะนำแก่ mRNA และถ่ายทอดออกมาในรูปแบบรหัสที่เชื่อมโยงกับกรดอะมิโนจำเพาะ สิ่งนี้เกิดขึ้นในนิวเคลียส เมื่อถอดรหัสเสร็จแล้ว มันก็จะดึงมันออกจากนิวเคลียสและเข้าไปในไซโตพลาสซึม จากนั้นข้อความที่คัดลอกมานี้จะถูกส่งไปยังไรโบโซม ซึ่งจะยังคงถูกแปลเป็นกรดอะมิโน

ในระหว่างการแปล รหัส DNA ที่ถูกคัดลอกเป็นรหัส mRNA จะอยู่ในไรโบโซม โดยที่ tRNA จะนำกรดอะมิโนที่มันมีอยู่ซึ่งจำเพาะสำหรับลำดับของ mRNA มา tRNA เรียงตามลำดับที่เฉพาะเจาะจงและกรดอะมิโนที่พวกมันมีจะจับกันเป็นสายโซ่และสร้างโปรตีนเข้าด้วยกัน

DNA ถูกใช้เพื่อสร้างโปรตีนตามรหัสที่มี ไม่ว่า mRNA transcibes จะมาจาก DNA ดังนั้นแม้ว่า RNA จะเป็นสิ่งที่ผลิตโปรตีน แต่ก็จะขึ้นอยู่กับลำดับ DNA ที่ให้ไว้

เมื่อสร้างเกลียวอิสระ DNA สำหรับเกลียวเดิม สิ่งที่คุณต้องจำคือคู่เบส:

สิ่งนี้เรียกว่ากฎของชาร์กัฟฟ์

ดังนั้นให้นำตัวอย่างสาระแรกของคุณ:

อย่างไรก็ตาม เมื่อพูดถึง RNA ไม่มีไทมีนในอาร์เอ็นเอ ดังนั้นแทนที่จะใช้ Thymine จึงใช้ Uracil คู่ฐานจะเป็น:

อีกครั้ง ยกตัวอย่างของคุณ:

การถอดความ: AUG AAC CAU UCA

ในระหว่างการแปล กรดอะมิโนเป็นรหัสสำหรับโคดอนจำเพาะ หรือกลุ่มที่มี 3 เบส แผนภูมิที่มอบให้คุณจะแสดงรหัสแต่ละรหัสสำหรับรหัสอะไร


การทำนายสารตกค้างที่จับดีเอ็นเอในโปรตีนจากลำดับกรดอะมิโนโดยใช้แบบจำลองป่าสุ่มที่มีคุณสมบัติลูกผสม

แรงจูงใจ: ในงานนี้ เรามุ่งหวังที่จะพัฒนาวิธีการคำนวณสำหรับการทำนายตำแหน่งที่จับกับดีเอ็นเอในโปรตีนจากลำดับกรดอะมิโน เพื่อหลีกเลี่ยงการใช้วิธีนี้มากเกินไป โปรตีนที่จับดีเอ็นเอที่มีอยู่ทั้งหมดจาก Protein Data Bank (PDB) จะถูกใช้เพื่อสร้างแบบจำลอง อัลกอริทึมฟอเรสต์สุ่ม (RF) ถูกใช้เนื่องจากมีความรวดเร็วและมีประสิทธิภาพสำหรับค่าพารามิเตอร์ต่างๆ มีการนำเสนอคุณลักษณะไฮบริดแบบใหม่ซึ่งประกอบด้วยข้อมูลวิวัฒนาการของลำดับกรดอะมิโน ข้อมูลโครงสร้างทุติยภูมิ (SS) และข้อมูลเวกเตอร์ไบนารีมุมฉาก (OBV) ซึ่งสะท้อนถึงลักษณะของกรดอะมิโน 20 ชนิดสำหรับคุณสมบัติทางกายภาพและเคมี 2 แบบ (ไดโพลและปริมาตร ของโซ่ด้านข้าง) จำนวนของสารตกค้างที่จับและไม่ผูกมัดในโปรตีนนั้นไม่สมดุลอย่างมาก ดังนั้นจึงมีการเสนอรูปแบบใหม่เพื่อจัดการกับปัญหาของชุดข้อมูลที่ไม่สมดุลโดยการลดขนาดคลาสส่วนใหญ่

ผลลัพธ์: ผลการวิจัยพบว่าแบบจำลอง RF มีความแม่นยำโดยรวม 91.41% โดยมีค่าสัมประสิทธิ์สหสัมพันธ์ของแมทธิวเท่ากับ 0.70 และพื้นที่ใต้เส้นโค้งลักษณะการทำงานของตัวรับ (AUC) ที่ 0.913 ตามความรู้ของเรา วิธีการ RF โดยใช้คุณลักษณะไฮบริดเป็นแนวทางที่เหมาะสมที่สุดในการคำนวณสำหรับการทำนายตำแหน่งที่จับกับดีเอ็นเอในโปรตีนจากลำดับกรดอะมิโนโดยไม่ต้องใช้ข้อมูลโครงสร้างสามมิติ (3D) เราได้แสดงให้เห็นว่าผลการทำนายมีประโยชน์สำหรับการทำความเข้าใจปฏิสัมพันธ์ระหว่างโปรตีนกับดีเอ็นเอ

มีจำหน่าย: การใช้งานเว็บเซิร์ฟเวอร์ DBindR มีให้บริการฟรีที่ http://www.cbi.seu.edu.cn/DBindR/DBindR.htm

ตัวเลข

ความแม่นยำในการทำนายที่คาดหวังและ...

ความแม่นยำในการทำนายที่คาดไว้และเศษส่วนของลำดับกับแต่ละ RI โดย...

การเปรียบเทียบประสิทธิภาพของกราฟ ROC…

การเปรียบเทียบประสิทธิภาพของกราฟ ROC กับวิธีอื่นๆ ( NS ) ตัวแยกประเภททั้งสอง…


ไฟล์ข้อมูลเพิ่มเติม

ข้อมูลเพิ่มเติมต่อไปนี้มีอยู่ในเวอร์ชันออนไลน์ของเอกสารนี้ ไฟล์ข้อมูลเพิ่มเติม 1 เป็นคลิปเพลงของโปรตีน ThyA ของมนุษย์โดยอิงจากการกำหนดโน้ตตัวเดียวของกรดอะมิโนหนึ่งตัวต่อโน้ตดนตรี ไฟล์ข้อมูลเพิ่มเติม 2 เป็นคลิปเพลงของโปรตีน ThyA ของมนุษย์ที่ได้มาจากการกำหนดคอร์ดโน้ต 13 เบสที่ลดลง ไฟล์ข้อมูลเพิ่มเติม 3 เป็นคลิปเพลงของโปรตีน ThyA ของมนุษย์โดยอิงจากการกำหนดรหัสขั้นสุดท้ายของเรา ซึ่งรวมถึงจังหวะ ไฟล์ข้อมูลเพิ่มเติม 4 เป็นคลิปเพลงของโปรตีน huntingtin ตามการกำหนดรหัสขั้นสุดท้ายของเรา


ดึงรหัสกรดอะมิโนเมื่อมีรูปแบบที่แน่นอนในลำดับดีเอ็นเอ

ฉันต้องการดึงรหัสกรดอะมิโนเมื่อมีรูปแบบบางอย่างในลำดับดีเอ็นเอ ตัวอย่างเช่น รูปแบบอาจเป็น: ATAGTA ดังนั้นเมื่อมี:

ผลลัพธ์ในอุดมคติจะเป็นตารางที่มีจำนวนครั้งที่กรดอะมิโนถูกเข้ารหัสโดยรูปแบบ ที่นี่ในลำดับที่ 1 รหัสรูปแบบสำหรับกรดอะมิโนหนึ่งตัวเท่านั้น แต่ในลำดับที่ 2 รหัสสำหรับสอง ฉันต้องการให้เครื่องมือนี้ทำงานเพื่อขยายขนาดเป็นพันๆ ลำดับ ฉันกำลังคิดว่าจะทำอย่างไรให้สำเร็จ แต่ฉันคิดแค่ว่าจะ: แทนที่นิวคลีโอไทด์ทั้งหมดที่แตกต่างจากรูปแบบ แปลสิ่งที่เหลืออยู่ และรับบทสรุปของรหัสกรดอะมิโน

โปรดแจ้งให้เราทราบว่างานนี้สามารถทำได้โดยเครื่องมือที่มีอยู่แล้วหรือไม่

ขอบคุณสำหรับความช่วยเหลือของคุณ. ดีที่สุดแล้ว เบอร์นาร์โด

แก้ไข (เนื่องจากเกิดความสับสนกับโพสต์ของฉัน):

โปรดลืมโพสต์ต้นฉบับและซีเควนซ์ 1 และซีเควน 2 ด้วย

สวัสดีทุกท่าน และขออภัยที่ทำให้สับสน ไฟล์ fasta อินพุตเป็นไฟล์ *.ffn ที่ได้มาจากไฟล์ GenBank โดยใช้เครื่องมือ 'FeatureExtract' (http://www.cbs.dtu.dk/services/FeatureExtract/download.php) ดังนั้นจึงสามารถจินตนาการได้ว่ามีอยู่แล้วใน เฟรม (+1) และไม่จำเป็นต้องเข้ารหัสกรดอะมิโนในเฟรมที่แตกต่างจาก +1

ฉันต้องการทราบว่าลำดับต่อไปนี้ของกรดอะมิโนกำลังเข้ารหัสสำหรับ:

สตริงเฉพาะที่ฉันต้องการเข้ารหัสกรดอะมิโนคือการทำซ้ำสาม AG, GA, CT หรือ TC นั่นคือ (AG)3, (GA)3, (CT)3 และ (TC)3 ตามลำดับ ฉันไม่ต้องการให้โปรแกรมดึงการเข้ารหัสกรดอะมิโนซ้ำสี่ครั้งหรือมากกว่า


การค้นหา DNA จากปัญหาลำดับกรดอะมิโน - ชีววิทยา

รหัสพันธุกรรมใช้เพื่อแปลจาก mRNA เป็นโปรตีน โคดอนสามตัวอักษรแต่ละตัวเข้ารหัสกรดอะมิโนหรือบอกให้ไรโบโซมหยุดการแปล codon อ่านในทิศทาง 5 ถึง 3 ตัวอย่างเช่น การเข้ารหัส UGG สำหรับ Trp (ทริปโตเฟน)

1. ให้ลำดับดีเอ็นเอรับรู้สาระความรู้สึกต่อไปนี้ ถอดความมันออกมาเป็น mRNA ซึ่งแสดงการวางแนวของ mRNA [กล่าวคือ 3' และ 5' สิ้นสุด]. จากนั้นแปลลำดับนี้เป็นโปรตีน [ระบุอะมิโนและคาร์บอกซีเทอร์มินี อย่าลืมตรวจสอบกรอบการอ่านที่เปิดอยู่ด้วย]

5' GGGATCGATGCCCCTTAAAGAGTTTACATATTGCTGGAGGCGTTAACCCCGGA 3

2. คุณเพิ่งจัดลำดับดีเอ็นเอส่วนสั้นๆ คุณต้องการวิเคราะห์ลำดับดีเอ็นเอนี้เพื่อดูว่าสามารถเข้ารหัสโปรตีนได้หรือไม่

5' TCAATGTAACGCGCTACCCGGAGCTCTGGGCCCAAATTTCATCCACT 3'

1. ค้นหากรอบการอ่านที่เปิดยาวที่สุด (ORF) จำไว้ว่ามีความเป็นไปได้หกประการ

2. ฉลากที่สายบน DNA จะเป็นสายประสาทสัมผัส และฉลากใดจะเป็น antisense เมื่อ DNA นี้ถูกคัดลอก

3. แปลง ORF นี้เป็น mRNA โดยระบุจุดสิ้นสุด 5' และ 3'

4. แปล mRNA นี้เป็นกรดอะมิโน โดยระบุปลายอะมิโน (N) และคาร์บอกซี (C)


การค้นหา DNA จากปัญหาลำดับกรดอะมิโน - ชีววิทยา

ในแบบฝึกหัดด้านล่าง คุณจะได้รับลำดับดีเอ็นเอที่ไม่รู้จัก และขอให้ใช้เครื่องมือเว็บเพื่อแปลลำดับดังกล่าวเป็นลำดับกรดอะมิโน และหวังว่าจะระบุกรอบการอ่านที่เหมาะสม จากนั้นคุณจะบันทึกลำดับกรดอะมิโนนี้ลงในโปรแกรมประมวลผลคำ (หรือส่งอีเมลถึงตัวคุณเอง) หากคุณต้องการใช้ในแบบฝึกหัดถัดไป

ได้รับลำดับของคุณ
ในห้องแล็บ สิ่งนี้อาจได้มาจากการหาลำดับของโคลนจากไลบรารี cDNA หรือโดยการแยกชิ้นส่วน DNA ที่ถูกขยายออกจากการขยาย PCR บ่อยครั้งเมื่อเราจัดลำดับผลิตภัณฑ์ดังกล่าว เราพบว่ามีชิ้นส่วน DNA ที่คาดไม่ถึงซึ่งเราต้องวิเคราะห์ ที่นี่เราจะจัดเตรียมลำดับบางส่วนแบบสุ่มจากฐานข้อมูลของลำดับของเรา ลำดับนิวคลีโอไทด์บางส่วนจะปรากฏในหน้าต่างด้านล่างหลังจากที่คุณคลิกที่ปุ่มรับลำดับยีน

กำลังแปลลำดับ
ไซต์หลายแห่งบนเว็บทำการแปลลำดับอินพุต การคลิกลิงก์ Expasy ด้านล่างจะเปิดหน้าต่างใหม่เพื่อให้คุณเข้าถึงเครื่องมือแปลภาษาได้ การแปลลำดับดีเอ็นเอทำได้โดยการอ่านลำดับนิวคลีโอไทด์ครั้งละ 3 เบส จากนั้นจึงดูตารางรหัสพันธุกรรมเพื่อให้ได้ลำดับกรดอะมิโน โปรแกรมนี้ตรวจสอบลำดับอินพุตในเฟรมที่เป็นไปได้ทั้งหมดหกเฟรม (เช่น อ่านลำดับจาก 5' ถึง 3' และ 3' ถึง 5' โดยเริ่มจาก nt 1, nt 2 และ nt 3) สิ่งที่เรามักมองหาในการระบุการแปลที่เหมาะสมคือเฟรมที่ให้ลำดับกรดอะมิโนที่ยาวที่สุดก่อนที่จะพบโคดอนหยุด (เนื่องจากมี 64 codon และสามรหัสสำหรับเรื่องไร้สาระ เราคาดว่า codon หยุดจะปรากฏขึ้นโดยเฉลี่ยทุกๆ 20 กรดอะมิโนหากเราเพียงแค่อ่านลำดับ "นอกกรอบ" อย่างไรก็ตาม "โดยเฉลี่ย" ก็เป็นเช่นนั้นและมัน เป็นไปได้ที่จะมีกรอบการอ่านที่ไม่ถูกต้องให้ขยายลำดับโดยไม่มี codon หยุด แบบฝึกหัดถัดไปจะแก้ไขปัญหานั้น

เราจะใช้เครื่องมือ Expasy ในการแปล การคลิกที่หน้าต่างจะเปิดขึ้นเพื่อให้คุณสามารถกลับไปที่หน้าต่างนี้เพื่อดูคำแนะนำและคัดลอกลำดับของคุณ


ผลลัพธ์

ตารางที่ 1 แสดงประสิทธิภาพของตัวแยกประเภท SVM ในการตรวจสอบข้าม 5 เท่า ผลลัพธ์ที่ได้รับโดยใช้พารามิเตอร์การฝึกอบรม = 0.5 และ γ = 0.1 ซึ่งให้ผลลัพธ์ที่ดีกว่าค่าอื่นๆ สำหรับการทำนายสารตกค้างที่จับ DNA และ RNA ตัวแยกประเภทสำหรับสารตกค้างที่จับกับ DNA มีความแม่นยำโดยรวม 70.31% โดยมีความไว 69.40% และความจำเพาะ 70.47% สำหรับสารตกค้างที่จับกับ RNA การคาดการณ์สามารถทำได้ที่ความแม่นยำโดยรวม 69.32% โดยมีความไว 66.28% และความจำเพาะ 69.84% ( ตารางที่ 1 )

เส้นโค้ง ROC สำหรับการทำนายของสารตกค้างที่จับ DNA และ RNA แสดงไว้ในรูปที่ 1 เส้นโค้ง ROC เหล่านี้สร้างขึ้นโดยการเปลี่ยนแปลงเกณฑ์เอาต์พุตของตัวแยกประเภท SVM และวางแผนอัตราบวกที่แท้จริงเทียบกับอัตราผลบวกที่ผิดพลาดสำหรับค่าเกณฑ์แต่ละค่า เกณฑ์เอาต์พุตเริ่มต้นที่ใช้โดย SVMlight คือ 0 ดังนั้นเอาต์พุตทั้งหมด ≥0 ส่งผลให้เกิดการคาดการณ์เชิงบวก และเอาต์พุต <0 ทำให้เกิดการคาดการณ์เชิงลบ เมื่อใช้เกณฑ์ที่สูงกว่า เฉพาะอินสแตนซ์ข้อมูลที่มีค่าเอาต์พุตที่ค่อนข้างสูงกว่าเท่านั้นที่คาดการณ์ว่าเป็นค่าบวก และทำให้อัตราบวกที่แท้จริง (ความไว) ลดลง ในขณะเดียวกัน ด้วยเกณฑ์ที่สูงกว่า ความจำเพาะจะสูงขึ้น แต่อัตราการบวกลวง (1 - ความจำเพาะ) จะลดลง ดังนั้น แต่ละจุดบนเส้นโค้ง ROC แสดงถึงการแลกเปลี่ยนระหว่างความอ่อนไหวและความจำเพาะ เส้นโค้ง ROC ที่แสดงในรูปที่ 1 ถูกใช้โดยเว็บเซิร์ฟเวอร์ BindN เพื่อให้ผู้ใช้สามารถระบุระดับความจำเพาะหรือความไวที่ต้องการได้ (ดูด้านล่าง)

การวิเคราะห์ ROC แสดงให้เห็นว่าตัวแยกประเภทสำหรับสารตกค้างที่จับกับ DNA มีความแม่นยำมากกว่าตัวแยกประเภทสำหรับเรซิดิวที่จับกับ RNA เล็กน้อย ยกเว้นที่อัตราผลบวกลวงที่ต่ำมาก ( รูปที่ 1 ) ค่า AUC คือ 0.7524 และ 0.7308 สำหรับการทำนายของสารตกค้างที่จับกับ DNA และ RNA ตามลำดับ ( ตารางที่ 1 ) ค่า AUC เหล่านี้สูงกว่าค่าการเดาแบบสุ่ม (0.5) อย่างมีนัยสำคัญ

ตัวแยกประเภท SVM สำหรับสารตกค้างที่จับกับ DNA ดูเหมือนจะดีกว่าตัวทำนายโครงข่ายประสาทเทียมรุ่นก่อนหน้าที่สร้างโดยใช้ชุดข้อมูลเดียวกัน (PDNA-62) ความไวและความจำเพาะเฉลี่ยของ SVM คือ 69.94% ในขณะที่ค่าเฉลี่ย (เรียกอีกอย่างว่า 'การทำนายสุทธิ') คือ 61.1% สำหรับโครงข่ายประสาทเทียมที่ได้รับการฝึกด้วยข้อมูลลำดับและการเข้าถึงตัวทำละลายสารตกค้าง (8) วิธีการที่ใช้ PSSM ปรับปรุง 'การคาดคะเนสุทธิ' เป็น 67.1% ( 11 ) แต่ต้องใช้การคำนวณอย่างเข้มข้นสำหรับการดึงคุณลักษณะ ในทางตรงกันข้าม คุณลักษณะของลำดับทั้งสามที่ใช้ในแนวทางของเรานั้นมีประสิทธิภาพมากในการคำนวณ และเหมาะสมอย่างยิ่งสำหรับการคาดคะเนออนไลน์

สำหรับการเปรียบเทียบโดยตรงของ SVM และตัวแยกประเภทโครงข่ายประสาทเทียม ได้มีการรวบรวมชุดข้อมูลทดสอบแยกจากคอมเพล็กซ์โปรตีน–DNA ที่ PDB ตามที่ระบุไว้ในตารางเสริม 3 ชุดข้อมูลทดสอบประกอบด้วยลำดับกรดอะมิโน 92 ลำดับ ลำดับเหล่านี้แสดงความเหมือนกันระหว่าง <30% และกับลำดับใดๆ ในชุดข้อมูล PDNA-62 ยกเว้นข้อจำกัดข้างต้น ชุดข้อมูลทดสอบได้รับการประมวลผลในลักษณะเดียวกับที่อธิบายไว้สำหรับชุดข้อมูล PRINR25 เรซิดิวการจับดีเอ็นเอสมมุติฐานได้รับการทำนายโดยใช้ทั้ง BindN และ DBS-PSSM เว็บเซิร์ฟเวอร์ DBS-PSSM ที่ http://www.netasa.org/dbs-pssm/ สร้างขึ้นโดยใช้วิธีการเครือข่ายประสาทเทียมแบบ PSSM ( 11 ) การคาดคะเนมีความจำเพาะที่คาดไว้ 72.3% ซึ่งได้รับอนุญาตที่เซิร์ฟเวอร์ DBS-PSSM (DBS-PSSM ไม่อนุญาตให้ผู้ใช้ระบุระดับความจำเพาะที่ต้องการ) ตามที่แสดงในตารางที่ 2 ระดับความจำเพาะจริงที่ทั้งสองเซิร์ฟเวอร์ทำได้นั้นใกล้เคียงกับค่าที่คาดไว้ อย่างไรก็ตาม BindN มีระดับความไวที่สูงกว่า DBS-PSSM มาก (65.22 เทียบกับ 36.73%) ในขณะที่ความจำเพาะที่ BindN ทำได้ (65.22%) นั้นใกล้เคียงกับค่าที่คาดหวังจากการวิเคราะห์ ROC (67.19%) ความจำเพาะที่แท้จริงของ DBS-PSSM นั้นไม่ถึงระดับที่คาดไว้ (60.2%) ในชุดข้อมูลทดสอบใหม่ เนื่องจากลักษณะทั่วไปที่ไม่ดีของสารตกค้างที่จับ DNA ที่เป็นตัวแทนในชุดข้อมูลการฝึกที่ค่อนข้างเล็ก (PDNA-62)

ตัวแยกประเภท SVM ถูกสร้างขึ้นโดยใช้โปรตีนที่จับกับ DNA หรือ RNA ที่รู้จัก สารตกค้างที่ไม่จับกับ DNA หรือ RNA ถูกใช้เป็นตัวอย่างข้อมูลเชิงลบสำหรับการฝึก เพื่อประเมินตัวแยกประเภท SVM เพิ่มเติม เราได้วิเคราะห์ชุดโปรตีน 100 ตัวที่ไม่มีปฏิกิริยากับ DNA หรือ RNA ลำดับโปรตีนที่ระบุไว้ในตารางเสริม 4 ได้รับการคัดเลือกแบบสุ่มจากฐานข้อมูล Swiss-Prot ( http://www.expasy.org/sprot/ ) เมื่อวิเคราะห์ลำดับเหล่านี้โดยใช้ BindN ที่มีความจำเพาะที่คาดหวังที่ 80% (ค่าเริ่มต้น) ระดับความจำเพาะจริงที่ทำได้โดยตัวแยกประเภท SVM คือ 81.58 และ 80.86% สำหรับการวิเคราะห์สารตกค้างที่จับกับ DNA และ RNA ตามลำดับ ผลการวิจัยชี้ให้เห็นว่า BindN มีความน่าเชื่อถือในการบรรลุระดับความจำเพาะที่ผู้ใช้กำหนดสำหรับโปรตีนต่างๆ ดังนั้น สมมุติฐาน DNA หรือโปรตีนการจับ RNA ที่มีโดเมนการทำงานที่ไม่มีลักษณะเฉพาะสามารถใช้เป็นอินพุตของ BindN ได้ ถ้าจำนวนของสารตกค้างการจับที่คาดการณ์ไว้สูงกว่าจำนวนที่คาดไว้ของผลบวกลวงอย่างมีนัยสำคัญ อาจใช้ผลการทำนายเพื่อเป็นแนวทางในการจำแนกลักษณะการทดลองของโปรตีนเหล่านี้

เพื่อแสดงให้เห็นว่า BindN สามารถให้ข้อมูลที่เป็นประโยชน์สำหรับการทำความเข้าใจปฏิกิริยาระหว่างโปรตีนกับกรดนิวคลีอิก เราได้ตรวจสอบการตกค้างของการจับที่คาดการณ์ไว้ในบริบทของโครงสร้างสามมิติ รูปที่ 2 แสดงตัวอย่างที่เป็นตัวแทนของผลลัพธ์สองตัวอย่าง ในรูปที่ 2a เรซิดิวการจับ DNA สมมุติที่ทำนายโดย BindN สำหรับปัจจัยการถอดรหัส ETS-1 ของหนูเมาส์ถูกตรวจสอบโดยใช้ข้อมูลโครงสร้างที่มีอยู่ (PDB ID: 1K79) โครงสร้างประกอบด้วยสารตกค้าง 331–440 ของโปรตีน ETS-1 ซึ่งไม่ได้ใช้สำหรับการฝึกตัวแยกประเภท SVM โฮโมล็อกเดียวในชุดข้อมูล PDNA-62 คือโดเมนการจับดีเอ็นเอ PU.1 (PDB ID: 1PUE) ซึ่งมีความเหมือนกันของลำดับ 28% กับเปปไทด์ ETS-1 ตามที่แสดงไว้ในรูปที่ 2a เรซิดิวการจับดีเอ็นเอ 10 ตัวจากทั้งหมด 16 ตัว (62.50%) ถูกทำนายอย่างถูกต้องจากข้อมูลลำดับกรดอะมิโน แง่บวกที่แท้จริงเหล่านี้จะถูกเน้นด้วยสีแดง สารตกค้างในสีน้ำเงินคือค่าลบเท็จหกรายการ (สารตกค้างที่จับกับ DNA แต่คาดการณ์ว่าเป็นค่าลบ) สำหรับสารตกค้างที่ไม่มีผลผูกพัน 88 รายการ มีการทำนาย 79 หรือ 89.77% อย่างถูกต้อง (สารตกค้างในสีเขียว) ซึ่งเข้ากันได้ดีกับระดับความจำเพาะที่ต้องการที่ 90% อย่างไรก็ตาม มีการคาดการณ์สิ่งตกค้างที่ไม่มีผลผูกพันเก้ารายการอย่างไม่ถูกต้อง (ผลบวกที่ผิดพลาดในสีเหลือง) ในรูปที่ 2b เรซิดิวการจับ RNA สมมุติที่ทำนายไว้สำหรับโปรตีน L7Ae (โดเมนการจับ RNA ของกล่อง C/D) ถูกตรวจสอบ สายโซ่ B ของโครงสร้าง (PDB ID: 1RLG) ไม่รวมอยู่ในชุดข้อมูล PRINR25 แต่แสดงความเหมือนกันของลำดับ 34% กับข้อมูลการฝึก 1E7K_A (โปรตีน spliceosomal 15.5 KDa ของมนุษย์) การคาดคะเนที่ถูกต้องถูกสร้างขึ้นสำหรับเรซิดิวการจับอาร์เอ็นเอ 6 ตัวจาก 13 ตัว (46.15%) และ 96 ของเรซิดิวที่ไม่จับ 104 ตัว (92.31%) ดังนั้น การคาดคะเนที่ทำโดย BindN สามารถให้ข้อมูลที่เป็นประโยชน์สำหรับการทำความเข้าใจปฏิกิริยาระหว่างโปรตีนกับกรดนิวคลีอิก ข้อมูลดังกล่าวอาจถูกนำไปใช้เพื่อเป็นแนวทางในการศึกษาทดลอง เช่น การทำให้เกิดการกลายพันธุ์ที่มุ่งต่อตำแหน่งสำหรับการแสดงลักษณะเฉพาะทางหน้าที่ของ DNA หรือโปรตีนที่จับ RNA


กฎง่ายๆ 3 ข้อในการพิจารณาสายโซ่กรดอะมิโนจากชิ้นส่วน DNA โดยไม่มีข้อผิดพลาด!

กฎข้อที่หนึ่ง: สังเกตชิ้นส่วน DNA ที่มีเกลียวคู่อย่างระมัดระวัง ระบุสายที่ถอดเสียงแล้ว ( แม่แบบ) และสายที่ไม่มีการถอดเสียง เขียนลงในสมุดลอกโดยระบุชื่อของแต่ละเล่ม พยายามแยกตัวอักษรทุกๆ 3 ตัวด้วยขีดกลาง (เพราะทุกๆ 3 นิวคลีโอไทด์เป็นตัวแทนของโคดอนหนึ่งตัว และจะเข้ารหัสสำหรับกรดอะมิโนเพียงตัวเดียวเท่านั้น)

สาย DNA ที่คัดลอกมา/แม่แบบ:

TAC – TGC- CTA- GTC- GGC- GTT- CGC- CTT- AAC – CGC TGT-ATT.

DNA Strand ที่ไม่ได้คัดลอกมา:

ATG–ACG–GAT- CAG–CCG–CAA–GCG–GAA–TTG–GCG–ACA-TAA.

กฎข้อที่สอง: เขียน m-RNA ในลักษณะประกอบกับสาย DNA ที่คัดลอกมา (A ของ m-RNA ที่จับกับ T ของ DNA U ของ m-RNA ที่จับกับ A ของ DNA)

A U G–ACG–GA U – CAG–CCG–CAA–GCG–GAA– UU G–GCG–ACA- U AA.

บันทึก: เพื่อตรวจสอบลำดับที่ถูกต้องของ m-RNA ของคุณ เพียงแค่เปรียบเทียบกับสาย DNA ที่ไม่ได้ถอดเสียง มันควรมีลำดับเดียวกัน แต่แทนที่จะเป็น T & m-RNA จะมี U

สาย DNA ที่ไม่ได้ถอดรหัส:

A T G-ACG- GA T – CAG- CCG- CAA- GCG–GAA– TT G–GCG–ACA- T AA.

กฎข้อที่สาม: ใช้รหัสพันธุกรรมเพื่อกำหนดลำดับกรดอะมิโนที่ถูกต้องในสายโซ่ที่เข้ารหัสโดย m-RNA

รหัสพันธุกรรมนี้เหมือนกับพจนานุกรมที่แปลสองภาษา: ของ m-RNA เป็นกรดอะมิโน ดังนั้นสิ่งที่คุณเห็นทางซ้ายมือคือรหัสของ m-RNA (สามตัวอักษร) และทางขวาของคุณคือชื่อเชิงสัญลักษณ์ของกรดอะมิโน สิ่งที่คุณต้องทำคือทำตามตำแหน่งของตัวอักษร ( codons ของ RNA) บนโต๊ะและหากรดอะมิโนที่ตรงกัน

ส.ค.–ACG–เกา- CAG–CCG–CAA–GCG–GAA–UUG–GCG–ACA-UAA

พบ – Thr – Asp- Gln – Pro- Gln – Ala – Glu – Leu – Ala – Thr – .

บันทึก: โดยปกติสายโซ่กรดอะมิโนที่สังเคราะห์ขึ้นจะเริ่มต้นด้วยเมไทโอนีน (Met) และโคดอนสุดท้ายใน m-RNA คือโคดอนหยุดซึ่งไม่ได้เข้ารหัสกรดอะมิโนใดๆ (โดยปกติจำนวนกรดอะมิโนจะน้อยกว่าจำนวนโคดอนของ m-RNA หนึ่งตัว)


ดูวิดีโอ: Členi zaporedja in graf zaporedja 3 (อาจ 2022).