ข้อมูล

BLAST โดยใช้ Smith-Waterman ในขั้นตอนสุดท้ายและ S-score

BLAST โดยใช้ Smith-Waterman ในขั้นตอนสุดท้ายและ S-score



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

ในหลักสูตรชีวสารสนเทศของฉัน เราได้ศึกษา BLAST agorithm หลังจากพบ HSP และรวม HSP เข้าด้วยกันที่ใกล้พอและอยู่ในแนวทแยงที่ถูกต้องแล้ว เราจะดำเนินการในขั้นตอนต่อไป กล่าวคือ การจัดตำแหน่ง Smith-Waterman ทำไมเราทำเช่นนี้? BLAST ไม่พบการจัดตำแหน่งโดยเข้าร่วม HSP แล้วใช่หรือไม่

ฉันยังมีคำถามที่สองเกี่ยวกับ BLAST เมื่อคำนวณค่า E ด้วยสูตร:

$E=K imes m imes n imes e ^{lambda S}$

คะแนนไหนคือ S นี้กันแน่? เป็นคะแนนที่พบสำหรับ HSP ที่มีเมทริกซ์การทดแทนที่ใช้หรือไม่ คะแนนจะเป็นอย่างไรถ้าเรามี HSP หลายรายการในรายการฐานข้อมูลเดียว E-value และ S-score คำนวณแยกกันสำหรับ HSP ทุกอันหรือเป็นค่าสำหรับรายการทั้งหมดหรือไม่


อัลกอริธึม BLAST เป็นฮิวริสติกเพื่อค้นหาว่าเส้นทางใดผ่านเมทริกซ์ที่เกิดขึ้นระหว่างลำดับการสืบค้นและลำดับเป้าหมายจากฐานข้อมูล 'ดีที่สุด' เส้นทางดังกล่าวแสดงถึงการจัดตำแหน่งซึ่งมีพื้นฐานแตกต่างไปจากเดิมอย่างสิ้นเชิงกับอัลกอริธึมการเขียนโปรแกรมแบบไดนามิกของ Smith-Waterman ไม่เพียงแต่จะไม่มีการดึงข้อมูลเท่านั้น แต่ยังอิงจากการเปรียบเทียบสิ่งอันดับกับการจับคู่ที่ให้คะแนนตามความถี่ จากนั้นจึงดำเนินการต่อโดยพยายามเข้าร่วมกับสิ่งอันดับอื่นๆ ที่มีคะแนนสัมพัทธ์

ความเร็วของโปรแกรมส่วนหนึ่งเป็นผลมาจากการละทิ้งเส้นทางที่ไม่คาดฝันอย่างรวดเร็ว การจัดเก็บและการปรับแต่งอย่างต่อเนื่องเฉพาะตัวเลือกที่ดีที่สุดในปัจจุบันเท่านั้น Smith-Waterman การจัดตำแหน่งจะไม่เป็นการจัดตำแหน่ง Smith-Waterman แต่ไม่มีประเด็นใดในการดำเนินการจัดตำแหน่ง Smith-Waterman ในคู่ลำดับที่ได้คะแนนสูงแต่ละคู่ เนื่องจากนี่ไม่ใช่พื้นฐานของการรวมในกลุ่มของผู้สมัครที่ดีที่สุด การดำเนินการจัดตำแหน่งดังกล่าวจะเสียเวลาสำหรับผู้สมัครที่จะถูกละทิ้งในที่สุด

เฉพาะเมื่อการวิ่งเสร็จสิ้นเท่านั้นที่ควรทำการจัดตำแหน่ง Smith-Waterman กับผู้สมัครอันดับต้น ๆ เพื่อสร้างการจัดตำแหน่งแบบ gapped ซึ่งคำนวณสถิติเช่น E-value (โดยใช้ S คะแนนดิบจากการจัดตำแหน่ง Smith-Waterman ดังกล่าว ).


การเขียนโปรแกรมแบบไดนามิกและการจัดตำแหน่งลำดับ

ฐานข้อมูลพันธุศาสตร์เก็บข้อมูลดิบจำนวนมาก จีโนมมนุษย์เพียงอย่างเดียวมีคู่เบส DNA ประมาณ 3 พันล้านคู่ ในการค้นหาข้อมูลทั้งหมดนี้และค้นหาความสัมพันธ์ที่มีความหมายภายในนั้น นักชีววิทยาระดับโมเลกุลต้องพึ่งพาอัลกอริธึมสตริงวิทยาการคอมพิวเตอร์ที่มีประสิทธิภาพมากขึ้นเรื่อยๆ บทความนี้จะแนะนำคุณถึงสามอัลกอริธึมดังกล่าว ซึ่งทั้งหมดนั้นใช้ การเขียนโปรแกรมแบบไดนามิกเทคนิคอัลกอริธึมขั้นสูงที่แก้ปัญหาการปรับให้เหมาะสมจากล่างขึ้นบนโดยค้นหาวิธีแก้ไขปัญหาย่อยที่เหมาะสมที่สุด คุณจะทำงานผ่านการใช้งาน Java™ ของอัลกอริธึมเหล่านี้ และเรียนรู้เกี่ยวกับเฟรมเวิร์ก Java แบบโอเพนซอร์สสำหรับการประมวลผลข้อมูลทางชีววิทยา


แมชชีนเลิร์นนิงและการทำนายโครงสร้างโปรตีน: ความทันสมัย

ริต้า คาซาดิโอ, . Gianluca Tasco ในการประมวลผลข้อมูลสมัยใหม่ 2549

1. บทนำ

ปัจจุบัน ปริมาณของลำดับทางชีววิทยาในฐานข้อมูลที่เปิดเผยต่อสาธารณะกำลังเพิ่มขึ้นด้วยอัตราไฮเพอร์โบลิกอันเนื่องมาจากการไหลต่อเนื่องของผลลัพธ์ที่เกิดจากโครงการจัดลำดับจีโนมต่างๆ ลำดับนิวคลีโอไทด์หลายพันล้านรายการซึ่งเข้ารหัสโปรตีนนับล้านในสิ่งมีชีวิตที่แตกต่างกัน ตั้งแต่แบคทีเรียสู่คน ถูกเก็บไว้ในคลังอิเล็กทรอนิกส์แล้วและมีข้อมูลที่เกี่ยวข้องทั้งหมดเกี่ยวกับวิวัฒนาการระดับโมเลกุล ความแตกต่างของยีน การกลายพันธุ์ที่ทำให้เกิดโรค และอณูพันธุศาสตร์ ( รูปที่ 1 ) ดังนั้นจึงเป็นเรื่องเร่งด่วนที่จะดึงกฎทั่วไปทั้งหมดที่การทำเหมืองข้อมูลสามารถดึงออกมาจากเอกสารสำคัญ เพื่อที่จะทำความเข้าใจฐานโมเลกุลของกระบวนการที่มีชีวิตในวงกว้าง นอกจากนี้ ตามวิธีการระดับโมเลกุล เป็นไปได้ที่จะเข้าใจและค้นหาวิธีรักษาโรคทางพันธุกรรมได้ในที่สุด [ 1 ]

รูปที่ 1 . จำนวนลำดับชีวภาพและโครงสร้างในฐานข้อมูลหลักที่มีอยู่ในปัจจุบัน

อย่างไรก็ตาม จำนวนลำดับ รวมถึงลำดับโปรตีนนั้นมีหลายลำดับของขนาดที่สูงกว่าจำนวนโครงสร้างที่ทราบที่ความละเอียดของอะตอม ( รูปที่ 1 ) จากนั้นคำถามก็ตั้งขึ้นว่าเป็นไปได้หรือไม่ที่จะคำนวณโครงสร้างสามมิติ (3D) จากลำดับโปรตีน โดยพิจารณาว่าถึงแม้จะมีความพยายามหลายครั้งด้วยผลึกศาสตร์ปริมาณงานสูงก็ยังไม่สามารถรับมือกับยีนที่รู้จักจำนวนมหาศาลได้ ในอายุหกสิบเศษ Christian Anfinsen เสนอครั้งแรกว่าข้อมูลที่กำหนดโครงสร้างระดับอุดมศึกษาของโปรตีนอยู่ในเคมีของลำดับกรดอะมิโน อย่างไรก็ตาม "ปัญหาการพับโปรตีน" ที่เรียกว่า "ไม่เคยได้รับการแก้ไขโดยใช้วิธีการวิเคราะห์เชิงคำนวณที่พยายามจำลองและเพิ่มประสิทธิภาพปฏิกิริยาคู่ไอออนของโปรตีนที่ฝังอยู่ในสภาพแวดล้อมตัวทำละลายขั้วโลก ( http://www.nobel.se/chemistry/laureates ).

อย่างไรก็ตาม ด้วยการเพิ่มขึ้นของปริมาณของโครงสร้างโปรตีนที่รู้จักในความละเอียดของอะตอม ได้มีการพัฒนาวิธีการฮิวริสติกที่ใช้ประโยชน์จากข้อมูลที่จัดเก็บไว้ในโครงสร้างโปรตีนต่างๆ และใช้วิธีการแก้ปัญหาการพับของโปรตีนได้ วิธีการเหล่านี้เป็นวิธีการโดยประมาณและประเมินความทันสมัยอยู่เสมอในระหว่างการทดลองระหว่างประเทศ (CASPNS, (การประเมินที่สำคัญของเทคนิคการทำนายโครงสร้างโปรตีน). ผลลัพธ์ของ CASP . ต่างๆNS ฉบับต่างๆ บอกเราว่าในปัจจุบันมีความเป็นไปได้ที่จะสร้างแบบจำลองโครงสร้าง 3 มิติของโปรตีนโดยเริ่มจากโครงสร้างโควาเลนต์ภายใต้ข้อจำกัดเฉพาะ ( http://predictioncenter.llnl.gov/ ).


การปรับแต่งอัลกอริธึมพื้นฐาน: The Two-Hit Method

แนวคิดหลักของอัลกอริธึม BLAST คือการจัดตำแหน่งที่มีนัยสำคัญทางสถิติมีแนวโน้มที่จะประกอบด้วยคำที่มีการจัดตำแหน่งที่มีคะแนนสูง BLAST สแกนฐานข้อมูลก่อนเพื่อ คำ (โดยทั่วไปจะมีความยาวเท่ากับ 3 สำหรับโปรตีน) ที่ได้คะแนนอย่างน้อย NS เมื่อสอดคล้องกับคำบางคำภายในลำดับการสืบค้น คู่คำที่จัดตำแหน่งใด ๆ ที่ตรงตามเงื่อนไขนี้เรียกว่า a ตี. ขั้นตอนที่สองของอัลกอริทึมจะตรวจสอบว่า Hit แต่ละรายการอยู่ในแนวเดียวกับคะแนนเพียงพอที่จะรายงานหรือไม่ ทำได้โดยขยายการตีทั้งสองทิศทาง จนกระทั่งคะแนนการจัดแนววิ่งลดลงมากกว่า NS ต่ำกว่าคะแนนสูงสุดที่ได้รับ ขั้นตอนการขยายนี้มีค่าใช้จ่ายค่อนข้างสูงในการคำนวณด้วย NS และ NS พารามิเตอร์ที่จำเป็นในการบรรลุความไวที่สมเหตุสมผลต่อการจัดตำแหน่งที่อ่อนแอ โดยทั่วไปขั้นตอนการขยายจะคิดเป็น >90% ของเวลาดำเนินการของ BLAST ดังนั้นจึงควรลดจำนวนการขยายที่ดำเนินการ

อัลกอริธึมที่ปรับปรุงแล้วของเราอิงจากการสังเกตว่า HSP ที่น่าสนใจนั้นยาวกว่าคู่คำเดียวมาก และอาจรวม Hit หลายครั้งในแนวทแยงเดียวกันและอยู่ในระยะที่ค่อนข้างสั้นของกันและกัน (NS เส้นทแยงมุม ของการตีที่เกี่ยวข้องกับคำที่เริ่มต้นที่ตำแหน่ง (NS1, NS2) ของฐานข้อมูลและลำดับการสืบค้นอาจกำหนดเป็น NS1NS2. NS ระยะทาง ระหว่างสอง Hit บนเส้นทแยงมุมเดียวกันคือความแตกต่างระหว่างพิกัดแรกของพวกเขา) ลายเซ็นนี้อาจใช้เพื่อค้นหา HSP ได้อย่างมีประสิทธิภาพมากขึ้น เราเลือกความยาวของหน้าต่างโดยเฉพาะ NSและเรียกใช้ส่วนขยายเฉพาะเมื่อพบการโจมตีที่ไม่ทับซ้อนกันสองครั้งภายในระยะทาง NS ของกันและกันในแนวทแยงเดียวกัน ทุก Hit ที่ทับซ้อนกับรายการล่าสุดจะถูกละเว้น การดำเนินการอย่างมีประสิทธิภาพต้องใช้อาร์เรย์ในการบันทึก พิกัดแรกของ Hit ล่าสุดที่พบในแต่ละแนวทแยง เนื่องจากลำดับของฐานข้อมูลจะถูกสแกนตามลำดับ พิกัดนี้จึงเพิ่มขึ้นเสมอสำหรับ Hit ที่ต่อเนื่องกัน แนวคิดในการหาเพลงฮิตหลายรายการในแนวทแยงเดียวกันถูกใช้ครั้งแรกในบริบทของการค้นหาฐานข้อมูลทางชีววิทยาโดย Wilbur และ Lipman (19)

ความไวของฮิวริสติกแบบตีสองและตีหนึ่งตามฟังก์ชันของคะแนน HSP การใช้เมทริกซ์การแทนที่กรดอะมิโน BLOSUM-62 (18) และความถี่เป้าหมาย NSอิจ โดยนัยด้วยสมการ 3 และความถี่กรดอะมิโนเบื้องหลัง NSผม ของโรบินสันและโรบินสัน (20) HSP รุ่น 100 000 ถูกสร้างขึ้นสำหรับแต่ละคะแนนที่ระบุ 37–92 ซึ่งสอดคล้องกับคะแนนมาตรฐาน 19.9–45.1 บิต ถูกกำหนดโดยการตรวจสอบว่า HSP แต่ละตัวไม่สามารถมีคู่คำที่ไม่ทับซ้อนกัน 3 คู่ที่มีคะแนนระบุอย่างน้อย 11 หรือไม่ และอยู่ในระยะห่าง 40 คู่ หรือคู่คำที่มีความยาว 3 คู่ที่มีคะแนนระบุอย่างน้อย 13 . ความน่าจะเป็นที่สอดคล้องกันของ HSP ที่ขาดหายไปโดยใช้การวิเคราะห์พฤติกรรมแบบสองฮิตด้วย NS = 11 และการวิเคราะห์พฤติกรรมแบบ one-hit ด้วย NS = 13 ถูกพล็อตเป็นฟังก์ชันของคะแนน HSP ที่ทำให้เป็นมาตรฐาน วิธีตีสองครั้งนั้นละเอียดอ่อนกว่าสำหรับ HSP ที่มีคะแนนอย่างน้อย 33 บิต

ความไวของฮิวริสติกแบบตีสองและตีหนึ่งตามฟังก์ชันของคะแนน HSP การใช้เมทริกซ์การแทนที่กรดอะมิโน BLOSUM-62 (18) และความถี่เป้าหมาย NSอิจ โดยนัยด้วยสมการ 3 และความถี่กรดอะมิโนเบื้องหลัง NSผม ของโรบินสันและโรบินสัน (20) HSP รุ่น 100 000 ถูกสร้างขึ้นสำหรับแต่ละคะแนนที่ระบุ 37–92 ซึ่งสอดคล้องกับคะแนนมาตรฐาน 19.9–45.1 บิต ถูกกำหนดโดยการตรวจสอบว่า HSP แต่ละตัวไม่สามารถมีคู่คำที่ไม่ทับซ้อนกัน 3 คู่ที่มีคะแนนระบุอย่างน้อย 11 หรือไม่ และอยู่ในระยะห่าง 40 คู่ หรือคู่คำที่มีความยาว 3 คู่ที่มีคะแนนระบุอย่างน้อย 13 . ความน่าจะเป็นที่สอดคล้องกันของ HSP ที่ขาดหายไปโดยใช้การวิเคราะห์พฤติกรรมแบบสองฮิตด้วย NS = 11 และการวิเคราะห์พฤติกรรมแบบ one-hit ด้วย NS = 13 ถูกพล็อตเป็นฟังก์ชันของคะแนน HSP ที่ทำให้เป็นมาตรฐาน วิธีตีสองครั้งนั้นละเอียดอ่อนกว่าสำหรับ HSP ที่มีคะแนนอย่างน้อย 33 บิต

เนื่องจากเราต้องการ Hit สองครั้งแทนที่จะเป็นหนึ่งครั้งเพื่อเรียกใช้ส่วนขยาย พารามิเตอร์ threshold NS ต้องลดระดับลงเพื่อรักษาความไวที่เปรียบเทียบได้ ผลกระทบคือพบ Hit เดียวอีกมากมาย แต่มีเศษส่วนเล็กน้อยเท่านั้นที่มี Hit ที่สองที่เกี่ยวข้องในแนวทแยงเดียวกันที่เรียกส่วนขยาย ส่วนใหญ่ของการตีอาจถูกยกเลิกหลังจากการคำนวณเล็กน้อยของการค้นหาสำหรับเส้นทแยงมุมที่เหมาะสมพิกัดของการตีล่าสุดตรวจสอบว่าอยู่ในระยะทาง NS ของพิกัดของ Hit ปัจจุบัน และสุดท้ายแทนที่พิกัดเก่าด้วยพิกัดใหม่ ในทางปฏิบัติ การคำนวณที่บันทึกไว้โดยต้องใช้ส่วนขยายน้อยกว่าเพื่อชดเชยการคำนวณเพิ่มเติมที่จำเป็นในการประมวลผลจำนวน Hit ที่มากขึ้น

เพื่อศึกษาความสามารถสัมพัทธ์ของวิธีการตีครั้งเดียวและสองครั้งเพื่อตรวจจับ HSP ที่มีคะแนนต่างกัน เราจำลองโปรตีนโดยใช้ความถี่กรดอะมิโนพื้นหลังของโรบินสันและโรบินสัน ( 20) และใช้เมทริกซ์การแทนที่ BLOSUM-62 (18) สำหรับการเปรียบเทียบลำดับ ให้สิ่งเหล่านี้ NSผม และ NSอิจ, พารามิเตอร์ทางสถิติสำหรับการจัดตำแหน่งในพื้นที่ที่ไม่ได้ใช้งานจะถูกคำนวณเป็น λยู = 0.3176 และ Kยู = 0.134. การใช้สมการ 3 ข้างต้น เราอาจคำนวณค่า NSอิจ ซึ่งระบบการให้คะแนนได้รับการปรับให้เหมาะสม และใช้ความถี่เป้าหมายเหล่านี้เพื่อสร้าง HSP ของแบบจำลอง สุดท้าย เราประเมินความไวของการวิเคราะห์พฤติกรรม BLAST แบบ one-hit และ two-hit โดยใช้ HSP เหล่านี้

การเปรียบเทียบ BLAST ของถั่วปากอ้ากว้าง leghemoglobin I ( 87) (SWISS-PROT accession no. P02232) และ horse β-globin ( 88) (SWISS-PROT accession no. P02062) การตี 15 ครั้งที่มีคะแนนอย่างน้อย 13 จะแสดงด้วยเครื่องหมายบวก ฮิตที่ไม่ทับซ้อนกันเพิ่มเติม 22 ที่มีคะแนนอย่างน้อย 11 จะถูกระบุด้วยจุด จาก 37 ฮิตเหล่านี้ มีเพียงสองคู่ที่ระบุเท่านั้นที่อยู่ในแนวทแยงเดียวกันและอยู่ในระยะ 40 ของกันและกัน ดังนั้นฮิวริสติกแบบสองตีด้วย NS = 11 ทริกเกอร์ส่วนขยายสองรายการ แทนที่ส่วนขยาย 15 รายการที่ถูกเรียกใช้โดยการวิเคราะห์พฤติกรรมการโจมตีครั้งเดียวด้วย NS = 13 เนื่องจากนี่เป็นเพียงตัวอย่างเดียว จำนวนสัมพัทธ์ของ Hit และส่วนขยายที่การตั้งค่าต่างๆ ของ NS สอดคล้องกับอัตราส่วนที่พบในการค้นหาฐานข้อมูลแบบเต็มเท่านั้น ส่วนต่อขยายทางด้านซ้ายของคู่ Hit สองคู่ที่ไม่มีการตัดทอนให้ผลลัพธ์ HSP ที่มีคะแนนเล็กน้อย 45 หรือ 23.6 บิต คำนวณโดยใช้ λยู และ Kยู.

การเปรียบเทียบ BLAST ของถั่วปากอ้ากว้าง leghemoglobin I ( 87) (SWISS-PROT accession no. P02232) และ horse β-globin ( 88) (SWISS-PROT accession no. P02062) การตี 15 ครั้งที่มีคะแนนอย่างน้อย 13 จะแสดงด้วยเครื่องหมายบวก ฮิตที่ไม่ทับซ้อนกันเพิ่มเติม 22 ที่มีคะแนนอย่างน้อย 11 จะถูกระบุด้วยจุด จาก 37 ฮิตเหล่านี้ มีเพียงสองคู่ที่ระบุเท่านั้นที่อยู่ในแนวทแยงเดียวกันและอยู่ในระยะ 40 ของกันและกัน ดังนั้นฮิวริสติกแบบสองตีด้วย NS = 11 ทริกเกอร์ส่วนขยายสองรายการ แทนที่ส่วนขยาย 15 รายการที่ถูกเรียกใช้โดยการวิเคราะห์พฤติกรรมการโจมตีครั้งเดียวด้วย NS = 13 เนื่องจากนี่เป็นเพียงตัวอย่างเดียว จำนวนสัมพัทธ์ของ Hit และส่วนขยายที่การตั้งค่าต่างๆ ของ NS สอดคล้องกับอัตราส่วนที่พบในการค้นหาฐานข้อมูลแบบเต็มเท่านั้น ส่วนต่อขยายทางด้านซ้ายของคู่ Hit สองคู่ที่ไม่มีการตัดทอนให้ผลลัพธ์ HSP ที่มีคะแนนเล็กน้อย 45 หรือ 23.6 บิต คำนวณโดยใช้ λยู และ Kยู.

วิธีตีครั้งเดียวจะตรวจจับ HSP หากมีที่ใดที่หนึ่งมีความยาว-W คะแนนอย่างน้อย NS. สำหรับ W = 3 และ NS = 13 รูปที่ 1 แสดงความน่าจะเป็นที่ประมาณการเชิงประจักษ์ที่วิธีนี้พลาด HSP โดยเป็นฟังก์ชันของคะแนนที่ทำให้เป็นมาตรฐาน วิธีตีสองครั้งจะตรวจจับ HSP หากมีสองความยาวไม่ทับซ้อนกัน-W คะแนนอย่างน้อย NSโดยมีตำแหน่งเริ่มต้นต่างกันไม่เกิน NS สารตกค้าง สำหรับ W = 3, NS = 11 และ NS = 40 รูปที่ 1 แสดงความน่าจะเป็นโดยประมาณที่ HSP พลาดโดยวิธีนี้ โดยเป็นฟังก์ชันของคะแนนที่ทำให้เป็นมาตรฐาน สำหรับ HSP ที่มีคะแนนอย่างน้อย 33 บิต ฮิวริสติกแบบสองฮิตจะมีความไวมากกว่า

ในการวิเคราะห์ความเร็วสัมพัทธ์ของวิธีตีครั้งเดียวและสองครั้ง โดยใช้พารามิเตอร์ที่ศึกษาข้างต้น เราสังเกตว่าวิธีตีสองครั้งสร้างจำนวนครั้งโดยเฉลี่ย ∼3.2 เท่า แต่มีเพียง ∼0.14 เท่าของส่วนขยาย Hit จำนวนมาก ( มะเดื่อ 2). เนื่องจากจะใช้เวลาประมาณหนึ่งในเก้าในการพิจารณาว่าจำเป็นต้องขยาย Hit จริงเพื่อขยายหรือไม่ ส่วนประกอบการประมวลผล Hit ของวิธี two-hit นั้นเร็วกว่าองค์ประกอบเดียวกันของวิธี one-hit ประมาณสองเท่า


ข้อมูลผู้แต่ง

สังกัด

Martin Steinegger และ Johannes Söding อยู่ในกลุ่ม Quantitative and Computational Biology, Max-Planck Institute for Biophysical Chemistry, Göttingen ประเทศเยอรมนี

Martin Steinegger และ Johannes Söding

Martin Steinegger อยู่ใน Department of Bioinformatics and Computational Biology, Technische Universität München, Garching ประเทศเยอรมนี

คุณยังสามารถค้นหาผู้เขียนคนนี้ใน PubMed Google Scholar

คุณยังสามารถค้นหาผู้เขียนคนนี้ใน PubMed Google Scholar

ผลงาน

นางสาว. พัฒนาซอฟต์แวร์และทำการวิเคราะห์ข้อมูล นางสาว. และเจ.เอส. คิดและออกแบบอัลกอริธึมและเกณฑ์มาตรฐานและเขียนต้นฉบับ

ผู้เขียนที่สอดคล้องกัน


วิธีที่ใช้ความถี่ของคำทำงานอย่างไร

เหตุผลเบื้องหลังวิธีการเหล่านี้เป็นเรื่องง่าย: ลำดับที่คล้ายกันมีคำที่คล้ายกัน/k-mers (ผลสืบเนื่องของความยาว k) และการดำเนินการทางคณิตศาสตร์กับคำที่เกิดขึ้นจะเป็นการวัดความสัมพันธ์ที่ดีของลำดับความต่างของลำดับ วิธีการนี้ยังเชื่อมโยงอย่างแน่นแฟ้นกับแนวคิดของลายเซ็นจีโนม ซึ่งถูกนำมาใช้ครั้งแรกสำหรับองค์ประกอบไดนิวคลีโอไทด์ (เช่น เนื้อหา GC) [50] และขยายเพิ่มเติมไปยังคำที่ยาวกว่า กระบวนการนี้สามารถแบ่งออกเป็นสามขั้นตอนหลัก (รูปที่ 1)

การคำนวณระยะห่างแบบคำโดยปราศจากการจัดตำแหน่งระหว่างสองตัวอย่างลำดับดีเอ็นเอ ATGTGTG และ CATGTG โดยใช้ระยะทางแบบยุคลิด

ขั้นแรก ลำดับที่เปรียบเทียบต้องถูกแบ่งเป็นกลุ่มคำที่ไม่ซ้ำตามความยาวที่กำหนด ตัวอย่างเช่น สองลำดับดีเอ็นเอ x = ATGTGTG และ y = CATGTG และขนาดคำที่มีนิวคลีโอไทด์สามตัว (3-mers) ทำให้เกิดคำที่ไม่ซ้ำกันสองชุด: W NS 3 = และ W Y 3 = . เนื่องจากคำบางคำมักมีอยู่ในลำดับเดียวแต่ไม่ปรากฏในลำดับอื่น (เช่น CAT in y แต่ไม่ใช่ใน NS) เราสร้างชุดคำที่สมบูรณ์ที่เป็นของอย่างน้อย W NS 3 หรือ W Y 3 เพื่อทำให้การคำนวณง่ายขึ้น ส่งผลให้ชุดยูเนี่ยน W 3 = .

ขั้นตอนที่สองคือการแปลงแต่ละลำดับเป็นอาร์เรย์ของตัวเลข (เวกเตอร์) (เช่น โดยการนับจำนวนครั้งที่แต่ละคำเฉพาะ (จาก W 3) ปรากฏในลำดับ) สำหรับซีเควนซ์ NS และ yเราระบุเวกเตอร์มูลค่าจริงสองตัว: NS 3 = (1, 0, 2, 2) และ Y 3 = (1, 1, 1, 1).

ขั้นตอนสุดท้ายรวมถึงการหาปริมาณของความแตกต่างระหว่างลำดับผ่านการประยุกต์ใช้ฟังก์ชันระยะทางกับเวกเตอร์ที่เป็นตัวแทนของลำดับ NS 3 และ Y 3. ความแตกต่างนี้มักคำนวณโดยระยะทางแบบยุคลิด แม้ว่าจะใช้เมตริกใดก็ได้ [51] ยิ่งค่าความต่างสูง ลำดับยิ่งไกลขึ้น ลำดับที่เหมือนกันสองลำดับจะส่งผลให้มีระยะทางเป็น 0

อัลกอริธึมที่ไม่มีการจัดตำแหน่งแบบอิงตามคำมาในสีและรสชาติที่แตกต่างกัน โดยมีรูปแบบวิธีการในแต่ละขั้นตอนพื้นฐานสามขั้นตอน ในขั้นตอนแรก เราสามารถลองใช้ความละเอียดของความยาวของคำใดก็ได้—สิ่งสำคัญคือต้องเลือกคำที่มักไม่ปรากฏในลำดับ ในทางปฏิบัติ ขนาดคำ (k) ของเรซิดิว 2–6 ตัวทำให้เกิดการเปรียบเทียบลำดับโปรตีนที่เสถียรและเหมาะสมที่สุดในช่วงระยะกว้างของระยะวิวัฒนาการที่แตกต่างกัน [52, 53] ในการวิเคราะห์ลำดับนิวคลีโอไทด์ k สามารถตั้งค่าได้อย่างปลอดภัยเป็น 8-10 สำหรับยีนหรืออาร์เอ็นเอ [54], 9–14 เบสสำหรับการวิเคราะห์สายวิวัฒนาการทั่วไป [34, 55, 56] และสูงสุด 25 เบสในกรณีที่เปรียบเทียบแยกแบคทีเรียสายพันธุ์เดียวกัน [33] , 57. ตามหลักการแล้ว เล็กกว่า k-mers ควรใช้เมื่อลำดับต่างกันอย่างเห็นได้ชัด (เช่น ไม่เกี่ยวข้องกัน) ในขณะที่ยาวกว่า k-mers สามารถใช้สำหรับลำดับที่คล้ายกันมาก [55, 58] อีกทางหนึ่ง ดีเอ็นเอ/อาร์เอ็นเอหรือตัวอักษรโปรตีนสามารถลดลงเป็นจำนวนที่น้อยลงของสัญลักษณ์ตามความสมมูลทางเคมี ขั้นตอนนี้อาจเพิ่มการตรวจจับลำดับที่คล้ายคลึงกันซึ่งแสดงความเป็นเอกลักษณ์ต่ำมาก [53] ตัวอย่างเช่น ตัวอักษร DNA สี่ตัวอักษรสามารถกลั่นเป็นการเข้ารหัส purine–pyrimidine สองตัวอักษร [55] และโปรตีนสามารถแสดงด้วยตัวอักษร 5, 4, 3 หรือแม้แต่ 2 ตัวตามคุณสมบัติทางกายภาพและเคมีที่แตกต่างกัน [52] ]. ขั้นตอนที่สอง (ลำดับการแมปบนเวกเตอร์) เป็นขั้นตอนที่ปรับแต่งได้มากที่สุด แทนที่จะใช้เวกเตอร์ของการนับคำหรือความถี่ของคำ มีวิธีอื่นๆ มากมายในการสร้างเวกเตอร์ ซึ่งมีตั้งแต่เทคนิคการให้น้ำหนักไปจนถึงการทำให้เป็นมาตรฐานและการจัดกลุ่ม [32] นอกจากนี้ เนื่องจากวิธีการที่อิงตามคำทำงานบนเวกเตอร์ ความสง่างามทางคณิตศาสตร์ของพวกมันทำให้สามารถใช้ฟังก์ชันมากกว่า 40 ฟังก์ชันนอกเหนือจากระยะทางแบบยุคลิด เช่น ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน [38] ระยะทางแมนฮัตตัน และระยะทางของ Google [59]


ข้อ จำกัด

เนื่องจากวิธีที่ BLAST ต้องประมาณค่าพารามิเตอร์ทางสถิติบางอย่าง (ดูหัวข้อ ALGORITHM ที่อื่นในเอกสารนี้) จำนวนของเมทริกซ์การให้คะแนนที่ใช้กับ BLAST จึงมีจำกัด ปัจจุบันตัวเลือกที่ถูกต้องสำหรับ -MATRix พารามิเตอร์คือ BLOSUM62 (ค่าเริ่มต้น), BLOSUM45, BLOSUM80, PAM30 และ PAM70

การสร้างช่องว่างและบทลงโทษการขยายช่องว่างได้รับการสนับสนุนในชุดค่าผสมที่จำกัด ขึ้นอยู่กับเมทริกซ์การให้คะแนนที่ใช้อยู่ ตารางต่อไปนี้แสดงชุดค่าผสมที่อนุญาตสำหรับกรดอะมิโน ค่าแรกที่แสดงเป็นค่าเริ่มต้นสำหรับเมทริกซ์การให้คะแนนแต่ละรายการ

การจัดตำแหน่งแบบช่องว่างไม่ใช่ตัวเลือกเมื่อเรียกใช้ TBASTX

คุณสามารถเลือกลำดับการสืบค้นได้หลายลำดับ ซึ่งอาจเป็นกรดนิวคลีอิกหรือโปรตีนก็ได้ คุณยังสามารถเลือกฐานข้อมูลหลายฐานข้อมูลที่จะค้นหา อย่างไรก็ตาม ฐานข้อมูลเหล่านี้แต่ละฐานข้อมูลต้องเป็นประเภทเดียวกัน

หากคุณใช้ GCGToBLAST เพื่อสร้างฐานข้อมูล BLAST จากแหล่งอื่นที่ไม่ใช่ฐานข้อมูลที่จัดรูปแบบ GCG (เช่น จากไฟล์ลำดับที่กำหนดเอง ไฟล์ MSF หรือ RSF เป็นต้น) เอาต์พุตไฟล์รายการของ BLAST จะไม่เป็นไฟล์รายการที่ใช้งานได้ . หากคุณต้องการใช้ประโยชน์อย่างเต็มที่จากเอาต์พุตไฟล์รายการของ BLAST ตรวจสอบให้แน่ใจว่าคุณสร้างฐานข้อมูล BLAST จากฐานข้อมูลที่จัดรูปแบบ GCG คุณสามารถใช้ DataSet เพื่อสร้างฐานข้อมูลดังกล่าวจากชุดของลำดับใดๆ ในรูปแบบ GCG


การบรรยาย 3: การจัดตำแหน่งโปรตีนทั่วโลก (NW, SW, PAM, BLOSUM)

ดาวน์โหลดวิดีโอจาก iTunes U หรือ Internet Archive

คำอธิบาย: ในการบรรยายครั้งนี้ Prof. Burge กล่าวถึงการจัดลำดับทั่วโลกและการจัดตำแหน่งลำดับภายในที่มีช่องว่าง เขาพูดในภายหลังเกี่ยวกับเมทริกซ์ทดแทนสำหรับการเปรียบเทียบโปรตีน

ผู้สอน: คริสโตเฟอร์ เบิร์ก

การบรรยาย 1: บทนำสู่.

การบรรยาย 2: การจัดตำแหน่งในท้องถิ่น

การบรรยาย 3: Global Alignment.

การบรรยาย 4: Geno เปรียบเทียบ

การบรรยาย 5: Library Complexi

การบรรยายครั้งที่ 6: การประกอบจีโนม

บทที่ 7: การวิเคราะห์ ChIP-seq

บทที่ 8: RNA-ลำดับ Ana

การบรรยายครั้งที่ 9: การสร้างแบบจำลองและ Dis.

บทที่ 10: Markov และ Hidd

การบรรยายครั้งที่ 11: RNA Secondary S.

บทที่ 12: บทนำสู่.

บทที่ 13: การทำนาย Prot.

บทที่ 14: การทำนาย Prot.

การบรรยายครั้งที่ 15: ระเบียบข้อบังคับของยีน

การบรรยายครั้งที่ 16: โปรตีนอินเตอร์แอค.

การบรรยาย 17: การสร้างแบบจำลองลอจิก.

การบรรยายครั้งที่ 18: การวิเคราะห์ Chr.

การบรรยายครั้งที่ 19: การค้นพบ Qua.

การบรรยายครั้งที่ 20: พันธุศาสตร์มนุษย์.

การบรรยายครั้งที่ 21: ไบโอโลสังเคราะห์.

การบรรยายครั้งที่ 22: เวรกรรม, Natu.

เนื้อหาต่อไปนี้อยู่ภายใต้สัญญาอนุญาตครีเอทีฟคอมมอนส์ การสนับสนุนของคุณจะช่วยให้ MIT OpenCourseWare นำเสนอแหล่งข้อมูลการศึกษาคุณภาพสูงได้ฟรีต่อไป หากต้องการบริจาคหรือดูเอกสารเพิ่มเติมจากหลักสูตร MIT หลายร้อยหลักสูตร โปรดไปที่ [email protected]

ศาสตราจารย์: เอาล่ะ เริ่มกันเลย ดังนั้นวันนี้เราจะทบทวนการปรับแนวเฉพาะที่ เราพูดถึงครั้งที่แล้ว และแนะนำการจัดแนวร่วม และยังพูดถึงประเด็นที่เกี่ยวข้องกับลำดับโปรตีน ซึ่งรวมถึงเมทริกซ์การให้คะแนนที่น่าสนใจกว่านี้ ก็แค่ข้อมูลบางส่วนในหัวข้อที่หนึ่ง ซึ่งเรายังอยู่ในนั้น ฉันจะมีสไลด์ภาพรวม โดยจะมีพื้นหลังสีน้ำเงิน และจะมีสไลด์ทบทวนพร้อมพื้นหลังสีม่วงในการบรรยายทุกครั้ง

ครั้งล่าสุดที่เราพูดถึงการจัดตำแหน่งในพื้นที่และสถิติบางส่วนที่เกี่ยวข้องกับสิ่งนั้น และอีกเล็กน้อยเกี่ยวกับการจัดลำดับ เทคโนโลยี ทั้งการจัดลำดับ DNA ของ Sanger แบบธรรมดาและการจัดลำดับรุ่นที่สอง และในตอนต้นของส่วนการจัดตำแหน่งในพื้นที่ เราแนะนำอัลกอริธึมแบบ BLAST แบบง่ายๆ แล้วเราก็พูดถึงสถิติ ความถี่เป้าหมาย บทลงโทษที่ไม่ตรงกัน อะไรทำนองนั้น

มีคำถามสองสามข้อในตอนท้ายซึ่งฉันแค่อยากจะตอบสั้นๆ ดังนั้นฉันเชื่อว่าโจ้ถามถึงวิธีการติดสีย้อมกับ DNTP ในการจัดลำดับตัวต่อปลายสีย้อม และปรากฏว่ามันติดอยู่ที่ฐาน แบบด้านหลังของฐาน ไม่ใช่หน้าวัตสัน-คริก ดูเหมือนว่าจะเป็นวิธีทั่วไปที่ทำ

แล้วก็มีอีกคนถามกลับ ฉันจำไม่ได้ว่าใครถามเกี่ยวกับเวลาที่คุณสร้างไลบรารี คุณจะแน่ใจได้อย่างไรว่าลำดับการแทรกแต่ละรายการของคุณมีอะแดปเตอร์ที่แตกต่างกันสองตัว อะแดปเตอร์ตัวหนึ่งอยู่ด้านหนึ่งและอีกตัวอยู่อีกด้านหนึ่ง และมีอย่างน้อยสามวิธีในการทำเช่นนี้ ที่ง่ายที่สุดคือใน RNA ligation เมื่อคุณใช้ประโยชน์จากเคมีต่างๆ ที่ห้าไพรม์และสามปลายของ RNA ขนาดเล็กที่คุณพยายามโคลน ดังนั้นคุณเพียงแค่ใช้ฟอสเฟตและ NLH เพื่อผูกกับอะแด็ปเตอร์ที่แตกต่างกันสองตัว

อีกวิธีที่ซับซ้อนกว่านั้นเกิดขึ้นในการทำโปรไฟล์ไรโบโซมฟุตพริ้นท์ ซึ่งเป็นวิธีการสำหรับการทำแผนที่ตำแหน่งที่แม่นยำของไรโบโซมตาม mRNA และเกี่ยวข้องกับโพลิเอไทล์ลิ่ง แล้วนำอะแด็ปเตอร์มารวมกัน อะแด็ปเตอร์สองตัวที่มีไพรเมอร์ polyT ที่ไพรเมอร์จากหางของโพลีเอ . แล้วคุณก็วนเวียน แล้วก็ PCR ออกจากแวดวง และมันก็ซับซ้อนนิดหน่อย แต่คุณสามารถดูได้จากข้อมูลอ้างอิงที่อยู่บนสไลด์นี้ มันใช้งานได้แล้ว

และสุดท้าย วิธีที่ใช้กันมากที่สุดสำหรับโปรโตคอลอย่าง RNA seq และ genomic DNA sequencing ก็คือ หลังจากที่คุณสร้าง DNA ที่มีเกลียวคู่แล้ว จะมีเอ็นไซม์ที่เพิ่ม A ตัวเดียวไปยังปลายไพรม์สามตัวของแต่ละสาย ตอนนี้คุณมีโมเลกุลสมมาตรแล้ว แต่จากนั้นคุณก็เพิ่มตัวต่อรูปตัว Y ตลกๆ เหล่านี้ที่มีตัว T และยื่นออกมา เช่น ตัวสีแดงตรงนี้

แล้วสิ่งที่จะเกิดขึ้นก็คือ Y แต่ละตัวสามารถผูกไว้ตรงนี้ได้ แต่เม็ดมีดแต่ละอัน เป็นอิสระจากเกลียวที่เป็นเกลียว จะมีตัวต่อสีแดงที่ปลายไพร์มห้าอันและตัวต่อสีน้ำเงินที่ปลายไพรม์สามอัน คำถามใดๆ เกี่ยวกับสิ่งนี้หรือเกี่ยวกับเทคโนโลยีการจัดลำดับก่อนที่เราจะไปสู่การปรับตำแหน่งในเครื่อง? OK ดี. เป็นคำถามที่ดีและนั่นคือคำตอบ

ดังนั้นเราจึงกระตุ้นการอภิปรายเกี่ยวกับการจัดตำแหน่งในท้องถิ่นครั้งล่าสุดโดยพูดถึงตัวอย่างนี้ซึ่งคุณมี RNA ที่ไม่เข้ารหัสซึ่งคุณพบว่าไร้มนุษยธรรม คุณระเบิดมันกับเมาส์และคุณได้รับการจัดตำแหน่งนี้ สิ่งนี้สำคัญหรือไม่? นี่น่าจะเป็นลำดับที่คล้ายคลึงกันจริงหรือ? และคุณจะพบการจัดตำแหน่งได้อย่างไร?

ดังนั้นเราจึงบอกว่า มีทฤษฎีนี้ที่แน่นอน อย่างน้อยก็ตรงในแง่เชิงสัญลักษณ์ สำหรับการสืบค้นขนาดใหญ่และขนาดฐานข้อมูล ที่บอกเราถึงนัยสำคัญทางสถิติของการจัดตำแหน่งเฉพาะที่ไม่มีการให้คะแนนสูงสุด และมันถูกกำหนดโดยสูตรนี้ตรงนี้, ซึ่งก็คือค่าสุดขั้ว หรือการแจกแจงกัมเบล แล้วเราก็พูดถึงข้อจำกัดหรือคะแนนที่คาดหวังไว้ต้องเป็นลบ แต่คะแนนบวกต้องเป็นไปได้เพื่อให้ทฤษฎีนี้ใช้ได้ และเรายังพูดถึงอัลกอริทึมอีกด้วย

แต่ถ้าคุณจำได้ อัลกอริทึมนั้นง่ายมาก มันเกี่ยวข้อง -- นี่คือศูนย์ -- การติดตามคะแนนสะสม ดังนั้นเราจึงมีการจับคู่ที่ไม่ตรงกัน ไม่ตรงกัน ไม่ตรงกัน ไม่ตรงกัน ตรงกัน ตรงกัน ตรงกัน นั่นคือกลุ่มคะแนนสูง ฯลฯ ดังนั้นคุณจึงติดตามจุดต่ำสุดที่คุณเคยไปตลอดจนคะแนนปัจจุบัน และเมื่อคะแนนปัจจุบันเกินจุดต่ำสุดที่คุณเคยไปมากกว่าที่เราเคยเห็นมาก่อน มากกว่านี้ นั่นคือส่วนคะแนนสูงของคุณ

ปรากฎว่า หากไม่เป็นไปตามสัญชาตญาณของคุณ ก็มีอัลกอริธึมอื่นที่ฉันพบว่า โดยส่วนตัวแล้ว เข้าใจง่ายกว่า ดังนั้นฉันแค่อยากจะบอกคุณเกี่ยวกับเรื่องนั้นเช่นกัน และโดยพื้นฐานแล้วมันเป็นสิ่งเดียวกัน ยกเว้นเมื่อใดก็ตามที่คุณติดลบ คุณจะรีเซ็ตเป็นศูนย์

ตรงนี้ เราจะติดลบ เราก็แค่รีเซ็ตเป็นศูนย์ นั่นคือความไม่ตรงกันที่นี่ จากนั้นเราก็มีการแข่งขัน ตอนนี้เราอยู่ที่บวก 1 ไม่เป็นไร ตอนนี้เรามีไม่ตรงกัน ตอนนี้เราเหลือศูนย์ เราไม่ต้องทำอะไร

ตอนนี้เรามีไม่ตรงกันอีก ที่นี่เรายังคงเป็นศูนย์ จำไว้ว่าเราแค่อยู่ที่ศูนย์ เรากำลังจะติดลบ แต่เราอยู่ที่ศูนย์ ไม่ตรงกันอีก เรายังคงอยู่ที่ศูนย์ และตอนนี้เรามีการแข่งขันสามนัดติดต่อกันแล้ว เส้นของฉันไม่แบนมาก

แต่นี่ควรจะแบนที่ศูนย์ ประเด็นคือตอนนี้ส่วนคะแนนสูงสุดคือจุดสูงสุดที่คุณเคยไปถึง มันง่ายมาก ดังนั้นสิ่งนี้จึงง่ายต่อการนำไปใช้จริงเล็กน้อย และนั่นเป็นเคล็ดลับเล็กน้อย ดังนั้นสำหรับการจัดตำแหน่งในเครื่อง คุณมักจะรีเซ็ตเป็นศูนย์ได้ มีคำถามเกี่ยวกับเรื่องนี้หรือไม่?

เราได้พูดถึงประสิทธิภาพในการคำนวณ ซึ่งเป็นสัญกรณ์ O ขนาดใหญ่นี้ ซึ่งคุณพิจารณาจำนวนการคำนวณแต่ละรายการที่จำเป็นในการรันอัลกอริธึมเป็นฟังก์ชันของขนาดของอินพุต โดยพื้นฐานแล้ว จำนวนหน่วยในคู่ฐานของปัญหา กรดอะมิโนตกค้าง อะไรก็ตาม ดังนั้นนักวิทยาศาสตร์คอมพิวเตอร์จึงพิจารณาเวลาทำงานของกรณีที่แย่ที่สุดแบบไม่มีซีมโทติค อาจเป็นเพราะพวกเขามองโลกในแง่ร้าย หรืออาจเป็นเพราะพวกเขาต้องการรับประกันสิ่งต่างๆ พวกเขาต้องการจะบอกว่ามันจะไม่เลวร้ายไปกว่านี้ บางทีมันอาจจะเร็วขึ้นแล้วคุณก็จะมีความสุข แต่รับรองได้เลยว่าจะไม่แย่ไปกว่านี้อีกแล้ว ในกรณีนี้ อัลกอริทึมที่เราพูดถึงคือลำดับ n คูณ n โดยที่นั่นคือความยาวของสองลำดับ

เมื่อครั้งที่แล้ว เราได้พูดถึงพารามิเตอร์แลมบ์ดานี้ และบอกว่าแลมบ์ดาเป็นคำตอบบวกเฉพาะของสมการนี้ โดยที่ sij คือคะแนน และ pi และ rj คือความถี่นิวคลีโอไทด์ แล้วมีสูตรความถี่เป้าหมายนี้ที่บอกว่า ถ้าคุณใช้ระบบการให้คะแนน sij เพื่อนำไปใช้กับลำดับ แล้วคุณดึงเฉพาะกลุ่มการให้คะแนนสูง ซึ่งเป็นกลุ่มที่มีการให้คะแนนสูงผิดปกติ พวกเขาจะมีความถี่ จับคู่นิวคลีโอไทด์ qij ที่ได้จากผลคูณของความถี่ในสองลำดับโดยพื้นฐานแล้วถ่วงน้ำหนักโดย e ต่อแลมบ์ดา sij ดังนั้นการแข่งขันจะเกิดขึ้นอย่างแข็งแกร่งมากขึ้น เพราะมีผลงานที่ดีและไม่ตรงกันน้อยกว่า

และนั่นทำให้เกิดความคิดที่ว่า มีจุดโทษที่ไม่ตรงกันที่เหมาะสมที่สุด หากคุณแค่พิจารณาระบบการให้คะแนนที่มีบวก 1 สำหรับการแข่งขัน และ m สำหรับการจับคู่ที่ไม่ตรงกัน ตัวเลขติดลบบางส่วน ซึ่งได้จากสมการนี้ตรงนี้ และตรงนี้ผมได้ หาค่าสองสามค่า ทฤษฎีบอกว่าในการหารายการที่ตรงกัน 99% คุณควรใช้คะแนนที่ไม่ตรงกันเป็นลบ 3 แต่สำหรับ 75% เหมือนกัน คุณควรใช้ลบ 1 และผมขอให้คุณคิดว่ามันสมเหตุสมผลหรือไม่ ที่จริง?

y จึงเป็นลบ 3 ดีกว่าลบ 1 สำหรับการค้นหารายการที่ตรงกันเกือบเหมือนกัน ใครมีความคิดหรือความคิดเกี่ยวกับเรื่องนี้? มีความคิดบางอย่างเกี่ยวกับสไลด์ แต่ทุกคนสามารถอธิบายได้อย่างสังหรณ์ใจว่าทำไมสิ่งนี้ถึงเป็นจริง? ใช่ คุณชื่ออะไร

ผู้ชม: ด้วยค่าปรับที่ไม่ตรงกันที่ลบ 3 คุณต้องทำตามขั้นตอนเพิ่มเติมในการปีนกลับขึ้นไปเพื่อกลับสู่ระดับสูงสุดในท้องถิ่น ดังนั้น คุณต้องยืดเวลา [ไม่ได้ยิน] แมทช์ให้นานขึ้นเพื่อให้ได้รับการโจมตีที่สำคัญ นั่นคือการเดาของฉันว่าทำไมคะแนน m เท่ากับลบ 3 บทลงโทษ [ไม่ได้ยิน] เหตุใดจึงดีกว่าในการค้นหาการจับคู่ข้อมูลประจำตัวที่สูงขึ้น

ศาสตราจารย์: โอเค เพราะค่าลบ 3 ทำให้คุณลงได้เร็วกว่า เลยใช้เวลานานกว่าจะฟื้นตัว ดังนั้นคุณจึงสามารถค้นหาสิ่งที่เกือบจะเหมือนกันได้ด้วยระบบการให้คะแนนแบบนั้น นั่นคือประเด็นของคุณ? ตกลงนั่นเป็นจุดที่ดี ได้สิ เมื่อไหร่ที่คุณต้องการใช้โทษที่ไม่ตรงกันของลบ 1?

ผู้ฟัง: เมื่อคุณพยายามมองหาสิ่งที่ [ไม่ได้ยิน] แต่อาจไม่ใกล้เคียงนัก เมื่อคุณกำลังมองหา [ไม่ได้ยิน] คุณกำลังมองหา [ไม่ได้ยิน] สถานการณ์แบบนั้น

ศาสตราจารย์: สมมุติว่าฉันกำลังใช้ค่าปรับที่ไม่ตรงกันเป็นลบ 2 ฉันจะหาพื้นที่ที่เหมือนกัน 66% ได้ไหม

ผู้ชม: แต่ไม่รับประกัน

ศาสตราจารย์: ใครมีความคิดเห็นเกี่ยวกับเรื่องนี้อีกบ้าง? ค่าที่ตรงกันคือบวก 1 ค่าที่ไม่ตรงกันคือลบ 2 ส่วนจากข้อมูลประจำตัว 66% ใช่ กับเลวี่ ใช่

ผู้ชม: ไม่ เพราะคะแนนของคุณจะเป็นศูนย์

ศาสตราจารย์: ครับ ถูกต้อง. ดังนั้นความคิดเห็นของลีวายส์คือคะแนนของคุณจะเป็นศูนย์ ผมก็จะบอกว่าบวกสำหรับการจับคู่ บวก บวก ลบ บวก บวก ลบ ฉันหมายความว่ามันจะกระจาย ไม่จำเป็นต้องเป็นเช่นนี้สำหรับแฝดสามทุกคน แต่โดยเฉลี่ยแล้ว คุณจะมีสองแมตช์สำหรับทุกแมตช์ นั่นคือความหมายของตัวตน 66% แล้วพวกนี้จะได้คะแนนรวมเป็นบวก 2 และนี่จะได้คะแนนลบ 2 และโดยพื้นฐานแล้วคุณจะไม่สูงกว่าศูนย์มากนัก

ดังนั้นคุณจึงไม่สามารถใช้บทลงโทษที่ไม่ตรงกันได้จริงๆ มีขีดจำกัด 66% เป็นจุดที่คุณมองไม่เห็นอีกต่อไป คุณอาจเห็นสิ่งต่าง ๆ ที่เหมือนกัน 75% หากใช้เวลานานอย่างเหลือเชื่อด้วยบทลงโทษที่ไม่ตรงกันแบบนั้น แต่คุณไม่เห็นอะไรต่ำกว่า 2/3% ของตัวตนที่มีลบ 2

ดังนั้นหากต้องการค้นหาสิ่งต่ำเหล่านั้น คุณต้องใช้ส่วนล่าง คุณต้องลงไปที่ลบ 1 ถ้าคุณต้องการหาคู่ที่อ่อนแอจริงๆ แต่จะต้องยาวมากตามลำดับเพื่อให้ได้มาซึ่งนัยสำคัญทางสถิติ

ในทำนองเดียวกัน เหตุผลที่ดีกว่าที่จะใช้การปรับโทษที่ไม่ตรงกันที่รุนแรงกว่าเป็นลบ 3 เพื่อค้นหาบริเวณที่เกือบจะเหมือนกันก็คือ ในสมการนี้ เมื่อคุณเปลี่ยนจากการมีระบบการให้คะแนน บวก 1 ลบ 1 เป็น บวก 1 ลบ 3 แลมบ์ดาจะเปลี่ยน สมการนี้จะไม่เป็นที่พอใจอีกต่อไปเพื่อให้ค่าใหม่ของแลมบ์ดามีความเกี่ยวข้อง และค่านั้นจะมากขึ้น

จากสมการนี้ไม่ชัดเจนนักเพราะคุณมีเทอมเดียว ซึ่งก็คือลบแลมบ์ดาในเทอมเดียวหรือบวกแลมบ์ดาก็ได้ แต่ปรากฎว่าการทำให้โทษที่ไม่ตรงกันเป็นลบมากขึ้นจะนำไปสู่วิธีแก้ปัญหาที่มีค่าแลมบ์ดาที่มากขึ้น

นั่นหมายความว่าคะแนนเดียวกัน x จะนำไปสู่เลขชี้กำลังลบที่มากขึ้นตรงนี้ และ? จะส่งผลต่อค่า p อย่างไร? มีใครพาเราผ่านสิ่งนี้หรือไม่? มันค่อนข้างซับซ้อนเล็กน้อยกับเลขชี้กำลังลบและสิ่งของเหล่านี้ แต่ใครก็ได้อธิบายให้เราฟังว่าสิ่งนั้นส่งผลต่อค่า p อย่างไร x เหมือนกัน เราจะเพิ่มแลมบ์ดา เกิดอะไรขึ้นกับค่า p?

สิ่งนี้จะใหญ่ขึ้นและเป็นลบมากขึ้น นั่นหมายความว่า e กำลังลบ เข้าใกล้ 0 มากขึ้น นั่นหมายความว่านี่อยู่ในเลขชี้กำลัง เมื่อสิ่งนั้นเข้าใกล้ 0 มากขึ้น เทอมทั้งหมดนี่จะเข้าใกล้ 1 มากขึ้น ดังนั้นคุณลบมันออกจาก 1 ดังนั้นค่า p จึงเล็กลง เข้าใกล้ 0 มากขึ้น นั่นสมเหตุสมผลหรือไม่? ดังนั้นจึงเป็นการดีที่จะศึกษาวิธีการทำงานของสมการนี้

นั่นคือทั้งหมดที่ฉันอยากจะพูดเกี่ยวกับบทลงโทษที่ไม่ตรงกันสำหรับ DNA มีคำถามเกี่ยวกับเรื่องนี้หรือไม่? ดังนั้นคุณจะใช้สิ่งนี้ในทางปฏิบัติได้อย่างไร? ดังนั้น หากคุณเพียงแค่ Google "BLAST end" คุณจะเข้าสู่เว็บไซต์นี้ มันถูกจัดตั้งขึ้นที่ NCBI ประมาณ 20 ปีหรือมากกว่านั้น และแน่นอน มันผ่านการทำซ้ำและปรับปรุงหลายครั้งในช่วงหลายปีที่ผ่านมา

และถ้าคุณมองลงไปที่ด้านล่าง จะมีที่ที่คุณสามารถคลิกและตั้งค่าพารามิเตอร์อัลกอริทึมได้ และมีหลายพารามิเตอร์ที่คุณสามารถตั้งค่าได้ บางส่วนมีผลต่อความเร็ว แต่เราเน้นที่นี่เป็นส่วนใหญ่ในพารามิเตอร์ที่จะส่งผลต่อคุณภาพ ลักษณะของการจัดตำแหน่งที่คุณพบ

ดังนั้นที่นี่ คุณสามารถกำหนดบทลงโทษโดยพลการไม่ได้ แต่คุณสามารถกำหนดโทษที่ไม่ตรงกันในช่วงมาตรฐานได้ คุณสามารถทำ 1 ลบ 1, 1 ลบ 2 และอื่นๆ

แล้วลำดับรหัสของโปรตีนล่ะ? ตัวอย่างเช่น exons คุณจึงค้นหาได้ด้วยการค้นหานิวคลีโอไทด์ เช่น BLAST แต่บ่อยครั้งที่คุณจะทำได้ดีกว่านี้ ถ้าคุณแปล exon ของคุณเป็นลำดับกรดอะมิโนที่สอดคล้องกันก่อนโดยใช้รหัสพันธุกรรม จากนั้นจึงค้นหาเปปไทด์นั้น

ตอนนี้คุณอาจหรือไม่รู้กรอบการอ่านของ exon a Priori ของคุณ หรือแม้แต่รู้ว่ามันคือ Exon ดังนั้น BLAST จะทำการแปลนี้ให้คุณโดยอัตโนมัติ ตัวอย่างเช่น ด้วยลำดับดีเอ็นเอนี้ มันจะแปลในกรอบการอ่านทั้งสามกรอบ ซึ่งนำไปสู่ถุงเปปไทด์นี้ โดยพื้นฐานแล้ว ในบางครั้งคุณจะกดหยุดโค้ดดังที่นี่ แล้วมันก็ถือว่า โอเค มีไดเปปไทด์ PR อยู่ตรงนั้น แล้วก็มีเปปไทด์ที่ยาวกว่านี้ [ไม่ได้ยิน] และอื่นๆ

ดังนั้นมันจึงสร้างถุงเปปไทด์เหล่านี้สำหรับแต่ละเฟรมการอ่าน และค้นหาเปปไทด์ทั้งหมดกับเป้าหมาย ซึ่งสามารถเข้าใกล้ฐานข้อมูลหรือฐานข้อมูล DNA อีกครั้ง แปลในกรอบการอ่านทั้งหมด ดังนั้นผู้คนที่ NCBI จึงได้ทำ BLAST รสชาติที่แตกต่างกันทั้งหมดเหล่านี้ ดังนั้น BLASTP จึงมีไว้สำหรับโปรตีน N สำหรับนิวคลีโอไทด์ จากนั้นตัวแปลจะถูกเรียกว่า BLASTX สำหรับการสืบค้นนิวคลีโอไทด์เทียบกับฐานข้อมูลโปรตีน TBASTN สำหรับการค้นหาโปรตีนเทียบกับฐานข้อมูลนิวคลีโอไทด์ ซึ่งได้รับการแปลในทุกเฟรม หรือ TBLASTX โดยที่คุณแปลทั้งลำดับนิวคลีโอไทด์ในทุกเฟรม

แล้วมี BLAST เวอร์ชันอื่นๆ อีกจำนวนหนึ่งที่เราอาจจะไม่พูดถึง แต่มีอธิบายไว้อย่างดีในหนังสือเรียนและแหล่งข้อมูลออนไลน์อื่นๆ ที่เข้าถึงได้ ให้ฉันถามคุณเรื่องนี้ ดังนั้นจำ EST ดังนั้น EST คือเซ็กเมนต์ของ cDNA ที่โดยทั่วไปแล้วจะสอดคล้องกับ ABI 3700 Sanger หนึ่งลำดับจาก cDNA นั้น ดังนั้นหนึ่งการอ่าน เช่น 600 ฐานหรือมากกว่านั้น

สมมติว่าคุณมี EST จากชิมแปนซี และคุณยังไม่มีจีโนมของชิมแปนซี ดังนั้นคุณจะค้นหาพวกเขากับมนุษย์ คุณจะทำอย่างไร? คุณจะใช้การค้นหาการแปลหรือไม่? หรือคุณจะใช้การค้นหา BLASTN? หรือมันไม่สำคัญ?

ชิมแปนซีเป็นมนุษย์ที่เหมือนกัน 98% สูงมาก ความคิดใด ๆ? ใช่ทิม

ผู้ชม: คุณสามารถใช้การแปลการค้นหา เพราะคุณรู้ว่า cDNA อย่างน้อยก็เข้ารหัสสำหรับ RNA ดังนั้นหากคุณใช้การค้นหานิวคลีโอไทด์ คุณก็จะไม่มีนัยสำคัญเชิงฟังก์ชันในแง่ของการจัดตำแหน่ง แต่ถ้าเป็นโปรตีนล่ะก็--

ศาสตราจารย์: คุณหมายความว่าคุณจะไม่ทราบว่าโปรตีนนั้นเป็นส่วนหนึ่งของรหัสโปรตีนของ cDNA หรือไม่?

ผู้ชม: ดังนั้น ฉันแค่หมายความว่า หากคุณกำลังมองระหว่างชิมแปนซีกับมนุษย์ แสดงว่าคุณคาดหวังว่าจะมีบางสิ่งที่ไม่ตรงกัน แต่เป็นไปได้ว่าอาจเป็นฟังก์ชันที่ไม่ตรงกัน ถ้าอย่างนั้นคุณก็รู้ว่า cDNA นั้นอาจจะเข้ารหัสโปรตีน ดังนั้น หากความไม่ตรงกันเกิดขึ้นระหว่างกรดอะมิโนสองชนิดที่คล้ายคลึงกัน สิ่งนั้นก็จะถูกหยิบขึ้นมาโดยการแปลการค้นหา แต่จะถูกบิดเบือนไปในการค้นหานิวคลีโอไทด์

ศาสตราจารย์: โอเค ยุติธรรมพอ แต่ถ้าคุณสมมติว่าจีโนมทั้งสองนั้นเหมือนกัน สมมุติว่าเหมือนกัน 97% แม้แต่ในพื้นที่ที่ไม่ได้เข้ารหัส ซึ่งพวกมันสูงมาก ฉันจำเปอร์เซ็นต์ที่แน่นอนไม่ได้ แต่สูงมาก หากคุณกำลังค้นหา 600 นิวคลีโอไทด์เทียบกับจีโนม แม้ว่ามันจะเหมือนกัน 95% คุณจะพบสิ่งนั้นได้อย่างง่ายดายภายใต้อย่างใดอย่างหนึ่ง ดังนั้นคำตอบใดถูกต้อง BLASTN หรือ BLASTX และ UTR สามารถพบได้โดย -- ถ้าเกิดขึ้นว่านี่คือลำดับจาก UTR เฉพาะสามตัว คุณจะพบได้เฉพาะโดย BLASTN

จะเกิดอะไรขึ้นถ้าเป็น EST ของมนุษย์เทียบกับจีโนมของเมาส์ ดังนั้น exons ของเมาส์จึงประมาณ 80% เหมือนกับ exon ของมนุษย์ที่ระดับนิวคลีโอไทด์โดยทั่วไป ความคิดใด ๆ? คุณจะทำการค้นหาแบบไหน? BLASTN, BLASTX หรืออย่างอื่น? TBASTX. ใช่ ไปข้างหน้า

ผู้ชม: ฉันมีคำถามอื่น คำถามประเภทใดที่เรากำลังพยายามตอบโดยการค้นหา BLAST นี้

ศาสตราจารย์: อ๋อ ฉันคิดว่าคุณกำลังพยายามหา cDNA หรือ exons ที่คล้ายคลึงกันที่ใกล้เคียงที่สุดในจีโนม-- เอ็กซอน ฉันคิดว่าใช่ เอ็กซอน ของยีนที่คล้ายคลึงกัน ใช่ นั่นเป็นคำถามที่ดี Exons ของยีนที่คล้ายคลึงกัน เรามี EST ของมนุษย์ที่ต่อต้านจีโนมของเมาส์ เราทำเมื่อไหร่?

ผู้ชม: ฉันแนะนำ BLASTP เพราะ--

ศาสตราจารย์: อืม BLASTP นั่นคือโปรตีน นี่คือลำดับนิวคลีโอไทด์เทียบกับนิวคลีโอไทด์ ดังนั้นเราจึงสามารถทำ BLASTN หรือ TBASTX ได้

ศาสตราจารย์: TBASTXคุณแปล EST ของคุณ แปลจีโนม ค้นหาเปปไทด์เหล่านั้น TBASTX ทำไม?

ผู้ชม: ลำดับนิวคลีโอไทด์อาจมีความคล้ายคลึงกันเพียง 80% แต่ลำดับโปรตีนทำงานตามหน้าที่ เนื่องจากข้อจำกัดในการทำงาน คุณอาจมีความคล้ายคลึงกันสูงขึ้นที่นั่น

ศาสตราจารย์: ครับ มันถูกต้องแล้ว โดยเฉลี่ยแล้วเหมือนกันประมาณ 80% มันแตกต่างกันไปตามยีน แต่ความผันแปรที่เกิดขึ้นมากมายนั้นอยู่ที่ด้านที่สามของโคดอนซึ่งไม่ส่งผลต่อกรดอะมิโน เพราะมีข้อจำกัดมากมายในลำดับโปรตีน โดยทั่วไปแล้ว คุณจะทำได้ดีกว่าด้วยการแปลการค้นหา มากกว่าการค้นหาด้วยนิวคลีโอไทด์

แม้ว่าพวกเขาทั้งสองอาจทำงานได้ แต่คุณอาจพบการจับคู่ที่สมบูรณ์ยิ่งขึ้นด้วยการค้นหาการแปล ดีแล้ว. ทุกคนเข้าใจไหม? แซลลี่ใช่

ผู้ชม: มีเหตุผลไหมที่คุณจะไม่ใช้ BLASTX แต่คุณใช้ TBASTX แทน?

ศาสตราจารย์: ใช่ ฉันแค่ยกตัวอย่างการค้นหาจีโนม แต่คุณสามารถค้นหาโปรตีโอมของเมาส์ได้เช่นกัน คุณอาจจะหรืออาจจะไม่ ขึ้นอยู่กับว่าจีโนมนั้นมีคำอธิบายประกอบดีเพียงใด เมาส์มีคำอธิบายประกอบค่อนข้างดี โปรตีนเกือบทั้งหมดเป็นที่รู้จัก ดังนั้นคุณน่าจะเข้าใจ

แต่ถ้าคุณกำลังค้นหาสิ่งมีชีวิตที่คลุมเครือกว่านี้ จีโนมกิ้งก่าหรืออะไรบางอย่าง และมันไม่ได้มีการใส่คำอธิบายประกอบไว้อย่างดี คุณอาจจะทำได้ดีกว่านี้ในการค้นหาจีโนม เพราะคุณสามารถหา x ใหม่ได้ที่นั่น OK ดี. คำถาม ใช่ ไปเลย

ผู้ชม: เมื่อเราแปล นิวคลีโอไทด์ กรดอะมิโน เราจะได้เฟรมทั้งหมดไหม ทำอัลกอริธึมกับเฟรมทั้งหมดหรือไม่?

ศาสตราจารย์: ใช่ ทั้งหมดหกเฟรม ดังนั้นสามเฟรมบนเกลียวบวก และสามเฟรมบนเกลียวด้านหลัง ใช่. ดีที่ดี

นั่นคือจุดสิ้นสุดของการจัดตำแหน่งในพื้นที่ในขณะนี้ และตอนนี้เราจะไปยังการจัดตำแหน่งทั่วโลกโดยใช้อัลกอริธึมสองชุด สำหรับการจัดตำแหน่งทั่วโลก Needleman-Wunch-Sellers และสำหรับการจัดตำแหน่งในพื้นที่ที่มีช่องว่าง Smith-Waterman และในตอนท้าย เราจะแนะนำแนวคิดของเมทริกซ์การแทนที่กรดอะมิโน

ดังนั้น เบื้องหลังของวันนี้ หนังสือเรียนจึงทำงานได้ดีในหัวข้อเหล่านี้ โดยเฉพาะอย่างยิ่งหน้าที่ระบุเหมาะสำหรับการแนะนำชุดเมทริกซ์ PAM เราจะคุยกันหน่อยวันนี้และอีกนิดหน่อยในครั้งต่อไป

เหตุใดเราจะจัดลำดับโปรตีนให้สอดคล้องกัน? เหตุผลที่ชัดเจนที่สุดคือการหาคำที่คล้ายคลึงกันที่เราอาจจะต้องการตรวจสอบ หรือเราอาจ ตัวอย่างเช่น หากคุณมีโปรตีนของมนุษย์และคุณพบโปรตีนของเมาส์ที่คล้ายคลึงกัน และโปรตีนของหนูนั้นรู้จักการทำงานจากสิ่งที่น่าพิศวงหรือ จากการศึกษาทางชีวเคมีบางอย่าง คุณสามารถเดาได้ว่าโปรตีนของมนุษย์จะทำหน้าที่คล้ายคลึงกัน ดังนั้นเราจึงมักใช้การอนุมานประเภทนี้ซึ่งความคล้ายคลึงกันของลำดับแสดงถึงความคล้ายคลึงกันในฟังก์ชันและ/หรือโครงสร้าง

แล้วมันจริงแค่ไหน? จากวรรณคดีที่กว้างใหญ่ การอนุมานว่าความคล้ายคลึงกันของลำดับนี้แสดงถึงความคล้ายคลึงเชิงหน้าที่และโครงสร้างมักจะเป็นจริงเสมอเมื่อความคล้ายคลึงของลำดับมีความเหมือนกันมากกว่าประมาณ 30% ตลอดความยาวของโปรตีน มากกว่า 300, 400 กรดอะมิโน. นั่นเป็นการอนุมานที่ดี

ด้านล่างนั้น มีความคล้ายคลึงกันของลำดับ 20% ถึง 30% ซึ่งมักเรียกว่า Twilight Zone ซึ่งบางครั้งก็เป็นการอนุมานที่ดีและบางครั้งก็ไม่ใช่ ดังนั้นคุณต้องระวังเล็กน้อย และด้านล่างนั้น มันอยู่ลึกเข้าไปใน Twilight Zone ซึ่งส่วนใหญ่แล้วคุณไม่ควรไว้ใจมัน แต่บางครั้งคุณสามารถเห็นคำพ้องเสียงที่ห่างไกลเหล่านี้ได้ คุณอาจต้องการข้อมูลเพิ่มเติมเพื่อสนับสนุนการอนุมานประเภทนั้น

และฉันต้องการชี้ให้เห็นว่าการสนทนาไม่เป็นความจริงในทางชีววิทยา ดังนั้นความคล้ายคลึงกันของโครงสร้างไม่ได้หมายความถึงความคล้ายคลึงของลำดับหรือแม้แต่การสืบทอดจากบรรพบุรุษร่วมกัน คุณอาจคิดว่า โปรตีนทุกตัวมีโครงสร้างสามมิติที่ซับซ้อนและซับซ้อน และไม่มีทางที่จะพัฒนาเป็นสองเท่าได้

และเป็นความจริงที่โครงสร้างที่แน่นอนนั้นไม่สามารถพัฒนาเป็นสองเท่าได้ แต่โครงสร้างที่คล้ายกันมาก รอยพับที่คล้ายคลึงกัน ในแง่ของโทโพโลยีของเกลียวอัลฟาและสายเบตา ซึ่งศาสตราจารย์แฟรงค์จะพูดถึงในหลักสูตรนี้ รอยพับที่เหมือนกันอาจเกี่ยวข้องกันมากกว่าหนึ่งครั้ง การพัฒนารูปแบบของเกลียวอัลฟ่าและเกลียวเบต้าไม่ใช่เรื่องยาก

ดังนั้นประเด็นนี้เกี่ยวกับความคล้ายคลึงเชิงโครงสร้าง ไม่ได้หมายความถึงความคล้ายคลึงของลำดับ วิธีที่ฉันคิดเกี่ยวกับมันเป็นแบบนี้ อย่างที่นี่มีสิ่งมีชีวิตสองตัว นี่คือนกฮัมมิ่งเบิร์ด คุณเคยเห็นทั้งหมด และบางท่านอาจเคยเห็นสิ่งนี้ นี่คือมอดเหยี่ยว ซึ่งเป็นแมลงที่มีความยาวประมาณสองนิ้ว กระพือปีกอย่างรวดเร็ว มีลิ้นยาวที่ดูดน้ำหวานจากดอกไม้ ดังนั้นโดยพื้นฐานแล้วมันใช้ระบบนิเวศเดียวกับนกฮัมมิงเบิร์ด และดูคล้ายกับนกฮัมมิ่งเบิร์ดในระยะไกลมาก ตั้งแต่ 10 ฟุตขึ้นไป คุณมักจะไม่สามารถบอกได้

นี่คือแมลงและนั่นคือนก บรรพบุรุษร่วมคนสุดท้ายเป็นสิ่งที่น่าจะมีชีวิตอยู่เมื่อ 500 ล้านปีก่อน และแน่นอนว่าไม่มีปีก และอาจไม่มีขาหรือตา และถึงกระนั้น พวกมันก็ได้วิวัฒนาการดวงตาและปีกและสิ่งเหล่านี้อย่างอิสระ ดังนั้น เมื่อมีแรงกดดันเฉพาะเจาะจงที่จะพัฒนาบางสิ่งบางอย่าง ไม่ว่าจะเป็นสัณฐานวิทยาหรือโครงสร้างโปรตีน วิวัฒนาการมีความยืดหยุ่นเพียงพอ ที่มันสามารถวิวัฒนาการได้หลายครั้ง หลายต่อหลายครั้ง

นี่คือตัวอย่างจากโลกของโครงสร้างโปรตีน นี่คือโปรตีนที่จับกับธาตุเหล็กที่เป็นเนื้อเดียวกัน นี่เป็นเพียงศูนย์ประสานงานเหล็ก และนี่คือโปรตีนยูคาริโอตที่เรียกว่าแลคโตเฟอริน ปรากฎว่าคนเหล่านี้มีความคล้ายคลึงกัน แต่ยูคาริโอตและแบคทีเรียแยกจากกันเมื่อ 2 ล้านปีก่อน ดังนั้นบรรพบุรุษของพวกมันจึงเก่าแก่มาก

อย่างไรก็ตาม คุณจะเห็นได้ว่าในศูนย์ประสานงานเหล็กแห่งนี้ คุณมีไทโรซีนที่ชี้ไปที่เหล็กตรงนี้ และคุณมีฮิสทิดีนบนนี้ และอื่นๆ ดังนั้นเรขาคณิตจึงได้รับการอนุรักษ์ไว้อย่างดี มันไม่อนุรักษ์อย่างสมบูรณ์ เช่นเดียวกับที่นี่คุณมีคาร์บอกซิเลต และที่นี่คุณมีฟอสเฟต

จึงมีการเปลี่ยนแปลงเล็กน้อย แต่โดยรวมแล้ว วิธีการประสานเหล็กนี้โดยทั่วไปมีวิวัฒนาการอย่างอิสระ แม้ว่าสิ่งเหล่านี้จะคล้ายคลึงกัน แต่แอนไอออนที่ผูกกับบรรพบุรุษร่วมกันสุดท้าย - ที่รู้จักจากการก่อสร้าง [ไม่ได้ยิน] ดังนั้นพวกเขาจึงพัฒนาความสามารถในการจับไอออนบวกเช่นเหล็กอย่างอิสระ

และนี่คือตัวอย่างที่ฉันชอบจริงๆ นี่คือโปรตีนที่เรียกว่าไรโบโซมรีไซเคิลแฟกเตอร์ และนั่นคือรูปร่างของมัน มันจึงเป็นโปรตีนที่มีรูปทรงแปลกตามาก ซึ่งมีรูปร่างเหมือนตัวแอล

สิ่งนี้เตือนใครถึงสิ่งใด รูปทรงเฉพาะนี้หรือไม่? คุณเคยเห็นสิ่งนี้ในชีวโมเลกุลอื่นหรือไม่?

ศาสตราจารย์: บางอย่างเช่น [ไม่ได้ยิน] ตกลงอาจจะเป็น คาดเดาอื่น ๆ ? แล้วเรื่องนี้ล่ะ? นั่นคือ tRNA ดังนั้นโครงสร้าง 3 มิติของ tRNA เกือบจะเหมือนกันทั้งในแง่ของรูปร่างโดยรวมและในแง่ของเรขาคณิต ขออภัย ฉันมีปัญหากับภาพเคลื่อนไหวของฉันที่นี่

เรขาคณิตของพวกนี้ ยาวประมาณ 70 อังสตรอม แล้วทำไมถึงเป็นอย่างนั้น? เหตุใดโปรตีนนี้จึงมีวิวัฒนาการให้มีรูปร่างสามมิติเหมือนกับ tRNA? ความคิดใด ๆ?

ศาสตราจารย์: [ไม่ได้ยิน] ถูกต้อง มันพอดีกับไรโบโซม และมันเกี่ยวข้อง เมื่อไรโบโซมหยุดนิ่ง และโดยทั่วไปจะปล่อยไรโบโซม มันเลยเลียนแบบ tRNA ในแง่ของโครงสร้าง

ดังนั้นประเด็นของเรื่องนี้ก็คือว่า ถ้าคุณนำโมเลกุลชีวโมเลกุลมาจับคู่กันโดยใช้อัลกอริธึมการเปรียบเทียบโครงสร้าง เพื่อค้นหาสิ่งที่คล้ายกัน -- สองตัวนี้มีความคล้ายคลึงกันอย่างชัดเจน ถึงกระนั้น พวกเขาอาจไม่เคยมีบรรพบุรุษที่ถูกต้องเหมือนกัน เพราะคน ๆ หนึ่งเป็น RNA ในโปรตีน

ตกลง. ตอนนี้เราจะพูดถึงการจัดตำแหน่งประเภทต่างๆ ดังนั้นเราจึงพูดถึงการจัดตำแหน่งภายในเครื่อง ซึ่งคุณไม่ต้องพยายามจัดแนวลำดับทั้งหมดของคิวรีหรือฐานข้อมูลของคุณ คุณเพิ่งพบพื้นที่ขนาดเล็กที่มีความคล้ายคลึงกันสูง การจัดตำแหน่งทั่วโลก ซึ่งคุณพยายามจัดตำแหน่งโปรตีนทั้งสองจากจุดสิ้นสุด คุณคิดว่าโปรตีนทั้งสองนี้มีความคล้ายคลึงกัน และที่จริงแล้ว พวกมันไม่ได้มีการแทรกหรือการจัดเรียงใหม่ที่สำคัญของลำดับของพวกมัน แล้วก็กึ่งโลก ซึ่งค่อนข้างจะบิดเบี้ยวไปทั่วโลก

และเราจะพูดถึงระบบการให้คะแนนที่แตกต่างกันสองสามระบบ -- แบบไม่มีการตรวจสอบ ซึ่งเรากำลังพูดถึงจนถึงตอนนี้ แล้วเราจะแนะนำช่องว่างสองประเภทที่เรียกว่าเส้นตรงและแบบสัมพันธ์กัน และการตั้งชื่อก็ทำให้สับสนเล็กน้อย อย่างที่คุณเห็น พวกมันเป็นเส้นตรงในแง่หนึ่ง

วิธีทั่วไปในการแสดงการจัดแนวของลำดับ โดยเฉพาะอย่างยิ่งในการจัดตำแหน่งโปรตีน -- คุณสามารถทำได้สำหรับโปรตีนหรือ DNA -- คือสิ่งที่เรียกว่าดอทเมทริกซ์ ตอนนี้เรามีโปรตีนสองชนิด พวกมันอาจมีกรดอะมิโนยาวคนละ 500 ตัว คุณเขียนลำดับที่หนึ่งตามแกน x, ลำดับที่สองตามแกน y แล้วคุณสร้างจุดในเมทริกซ์นี้เมื่อไรก็ตามที่พวกมันมีเรซิดิวเหมือนกัน แม้ว่าอาจจะมีจุดมากกว่านี้มาก

สมมุติว่าเมื่อใดก็ตามที่คุณมีเรซิดิว 3 ตัวที่เหมือนกัน -- โอเค มันค่อนข้างจะไม่ค่อยเกิดขึ้น เพราะมีกรดอะมิโน 20 ตัว และคุณทำจุดนั้น และสำหรับโปรตีนทั้งสองนี้ คุณจะไม่มีจุดในแนวทแยงเลย คุณได้เส้นทแยงมุมสามเส้นตรงนี้ แล้วนั่นบอกอะไรคุณเกี่ยวกับประวัติของโปรตีนทั้งสองนี้? นั่นอะไรน่ะ? แซลลี่.

ผู้ชม: การแทรกหรือการลบ

ศาสตราจารย์: การแทรกหรือการลบ แทรกในโปรตีนใด?

ศาสตราจารย์: หรือการลบใน?

ศาสตราจารย์: ตกลง ทุกคนเข้าใจไหม? OK ดี. มีซีเควนซ์พิเศษในซีเควนที่สองที่ไม่ได้อยู่ในลำดับที่หนึ่ง คุณไม่ทราบว่าเป็นการแทรกหรือการลบ อาจเป็นอย่างใดอย่างหนึ่งตามข้อมูลนี้ บางครั้งคุณสามารถทราบได้จากข้อมูลอื่นๆ บางครั้งคุณเรียกว่าอินเดล -- การแทรกหรือการลบ

แล้วข้างล่างนี่คืออะไร? คนอื่น? ฉันได้ยินการแทรก การแทรกในลำดับที่หนึ่ง หรือการลบในลำดับที่สอง OK ดี. เอาล่ะ การจัดตำแหน่งประเภทใดที่เหมาะสมที่สุดสำหรับลำดับคู่นี้ แบบโลคัลหรือโกลบอล?

ผู้ชม: ฉันจะทำทั่วโลก เพราะมันคล้ายกันมาก [ไม่ได้ยิน]

ศาสตราจารย์: ครับ พวกมันค่อนข้างคล้ายกันตลอดความยาว แค่กับอินเดลหลักสองอันนี้ นั่นคือกรณีคลาสสิกที่คุณต้องการจัดตำแหน่งทั่วโลก

ไม่เป็นไร. แล้วโปรตีนสองตัวนี้ล่ะ? จากดอทเมทริกซ์นี้ คุณจะพูดอะไรเกี่ยวกับความสัมพันธ์ระหว่างสองตัวนี้ และการจัดตำแหน่งประเภทใดที่คุณต้องการใช้ในการเปรียบเทียบโปรตีนทั้งสองนี้ ใช่ คุณชื่ออะไร

ผู้ชม: ดูเหมือนว่าพวกเขามีโดเมนที่คล้ายคลึงกัน บางที ดังนั้นการจัดตำแหน่งในพื้นที่อาจจะดีกว่า

ศาสตราจารย์: แล้วทำไมคุณไม่ทำการจัดตำแหน่งระดับโลกล่ะ

ผู้ชม: ในพื้นที่ เนื่องจากการจัดตำแหน่งในพื้นที่อาจพบโดเมนเหล่านั้นจริง ๆ และบอกคุณว่าโดเมนเหล่านี้คืออะไร

ศาสตราจารย์: ดังนั้น การจัดตำแหน่งในพื้นที่อย่างน้อยควรหาสองคนนี้ที่นี่ และทำไมเส้นทแยงสองเส้นนี้ถึงขนานกัน มันบอกอะไรคุณได้บ้าง?

ผู้ฟัง: โปรตีนที่ต่างกันทั้งสองมีลำดับที่คล้ายคลึงกัน เฉพาะในส่วนต่าง ๆ ของโปรตีน พื้นที่ต่างกันเมื่อเทียบกับจุดเริ่มต้น

ศาสตราจารย์: ถูกต้อง ใช่ ไปข้างหน้า

ผู้ชม: โดยพื้นฐานแล้วหมายความว่ามีส่วนในลำดับที่สองที่อยู่ในลำดับที่หนึ่งสองครั้งหรือไม่?

ศาสตราจารย์: ใช่ ถูกต้อง ดังนั้นส่วนนี้ของลำดับที่สอง นี่-- ขอโทษ ที่มีปัญหา ไปแล้ว แยกจากกัน -- มีอยู่สองครั้งในลำดับที่หนึ่ง มีอยู่ครั้งหนึ่งจากที่นี่ไปที่นี่ แล้วก็มีอีกครั้งจากที่นี่ไปที่นี่ มันเลยซ้ำ

ดังนั้นการทำซ้ำและสิ่งต่างๆ เช่นนั้นจะทำให้การจัดตำแหน่งทั่วโลกของคุณสับสน การจัดตำแหน่งทั่วโลกจำเป็นต้องจัดตำแหน่งแต่ละสารตกค้าง - หรือพยายามจัดตำแหน่งแต่ละสารตกค้างในโปรตีนหนึ่งให้แต่ละสารตกค้างในโปรตีนสอง และที่นี่ก็คลุมเครือ ยังไม่ชัดเจนว่าส่วนใดของลำดับที่หนึ่งจะจัดแนวกับส่วนนั้นของลำดับที่สอง

เลยจะสับสน มันจะเลือกอย่างใดอย่างหนึ่ง แต่นั่นอาจผิด และนั่นไม่สามารถจับได้ว่าเกิดอะไรขึ้นจริงๆ ใช่ ดังนั้นการจัดตำแหน่งในท้องถิ่นจะเหมาะสมกว่า ดี.

ทีนี้มาพูดถึงช่องว่างกันอีกครั้ง ซึ่งสามารถเรียกได้ว่าเป็นอินเดล ในการเรียงตัวของลำดับโปรตีนหรือ DNA ซึ่งหลายท่านอาจเคยเห็น คุณมักจะใช้เส้นประแทนช่องว่าง ดังนั้นในการจัดแนวนี้ คุณจะเห็นว่าเป็นการจัดตำแหน่งที่สมเหตุสมผล จริงไหม? คุณมีการจับคู่ที่ดีทั้งสองด้าน

แต่ไม่มีอะไรในซีเควนที่สองที่ตรงกับ RG ในซีเควนแรก นั่นจะเป็นการจัดตำแหน่งที่สมเหตุสมผลของทั้งสอง ดังนั้นสิ่งที่มักใช้คือสิ่งที่เรียกว่า การปรับช่องว่างเชิงเส้น

ดังนั้นถ้าคุณมี end gap อย่างเช่น ในกรณีนี้ สอง คุณกำหนด gap punish A สมมุติว่า และ A เป็นจำนวนลบ จากนั้นคุณสามารถใช้อัลกอริธึมประเภทเดียวกันได้ โดยคุณเพิ่มการจับคู่ ลงโทษการไม่ตรงกัน แต่คุณจะได้รับบทลงโทษเพิ่มเติมเมื่อคุณเพิ่มช่องว่าง

และโดยทั่วไป การลงโทษช่องว่างจะรุนแรงกว่าค่าเฉลี่ยที่ไม่ตรงกันของคุณ แต่จริงๆ แล้วไม่มีทฤษฎีใดที่บอกชัดเจนว่าควรเลือกโทษช่องว่างอย่างไร แต่ในเชิงประจักษ์ ในกรณีที่คุณควรทราบคำตอบ เช่น การจัดแนวโครงสร้าง คุณมักจะพบว่าการปรับโทษช่องว่างที่มากกว่าโทษที่ไม่ตรงกันโดยเฉลี่ยมักจะเป็นสิ่งที่ควรทำ

แล้วทำไมถึงเป็นอย่างนั้น? เหตุใดจึงมีการลงโทษช่องว่าง - ทำไมคุณถึงต้องการตั้งค่าให้ใหญ่กว่าความไม่ตรงกันทั่วไป ความคิดใด ๆ? ใช่ คุณชื่ออะไร

ผู้ชม: เนื่องจากการกลายพันธุ์ที่เปลี่ยนเฟรมหรือส่วนแทรกเดียวจะมีการแทรกหรือการลบนั้นผิดปกติมากกว่าแค่การเปลี่ยน [ไม่ได้ยิน]

ศาสตราจารย์: การกลายพันธุ์ที่สร้างการแทรกและการลบนั้นพบได้น้อยกว่าการกลายพันธุ์ที่ทำให้เกิดการแทนที่ของเรซิดิว ทุกคนเข้าใจไหม? นั่นเป็นความจริง และรู้ด้วยปัจจัยอะไร?

ผู้ชม: โอ้ ฉันให้เบอร์คุณไม่ได้

ศาสตราจารย์: ฉันหมายความว่า สิ่งนี้แตกต่างกันไปตามสิ่งมีชีวิต และแตกต่างกันไปตามประเภทของการสอดที่คุณดูอยู่ แต่ถึงแม้จะอยู่ในระดับนิวคลีโอไทด์เดี่ยว การแทรกซึมก็เป็นเรื่องที่มีลำดับความสำคัญน้อยกว่าการแทนที่ในเชื้อสายเหล่านั้น

และที่นี่ เพื่อให้ได้การแทรกกรดอะมิโน คุณต้องมีการแทรกสามส่วน สามหรือหกหรือหลายเท่าของสามเข้าไปในเอ็กซอน และนั่นเป็นเรื่องธรรมดาน้อยกว่าเล็กน้อย ดังนั้นจึงเกิดขึ้นน้อยกว่าปกติ การกลายพันธุ์เกิดขึ้นได้น้อยกว่าปกติ ดังนั้นการกลายพันธุ์จึงเป็นที่ยอมรับโดยวิวัฒนาการแม้แต่น้อย

และอีกทางเลือกหนึ่งคือสิ่งที่เรียกว่า affine gap punish ซึ่งกำหนดเป็น G บวก n แลมบ์ดา ดังนั้น n คือจำนวนช่องว่าง แล้ว G คือสิ่งที่เรียกว่าโทษการเปิดช่องว่าง แนวคิดในที่นี้คือโดยพื้นฐานแล้วช่องว่างมักจะจัดกลุ่ม

ดังนั้นการแทรกจึงเป็นสิ่งที่หายาก คุณลงโทษสิ่งนั้นด้วย G แต่แล้ว ถ้าคุณจะทำการสอดใส่ บางครั้ง คุณจะต้องใส่โคดอนขนาดใหญ่สองหรือสามหรือสี่อัน การใส่โคดอนสี่ตัวไม่ควรถูกลงโทษมากเป็นสองเท่าของการใส่โคดอนสองอัน เนื่องจากมีช่องว่างเพียงช่องเดียวที่เกิดขึ้นจริง และเมื่อคุณมีเหตุการณ์แทรกนี้ก็สามารถทำได้หลากหลายขนาด

คุณยังคงลงโทษมากกว่าสำหรับช่องว่างที่ใหญ่กว่าสำหรับช่องว่างที่เล็กกว่า แต่มันไม่เป็นเส้นตรงอีกต่อไป ฉันหมายความว่า มันยังคงเป็นฟังก์ชันเชิงเส้น แค่บวกค่าคงที่นี้เข้าไป ดังนั้นนี่คือการลงโทษช่องว่างสองประเภททั่วไปที่คุณจะเห็นในวรรณกรรม

affine ทำงานได้ดีขึ้นเล็กน้อย แต่การใช้งานนั้นซับซ้อนกว่าเล็กน้อย ดังนั้นบางครั้งคุณจะเห็นว่าทั้งสองใช้ในทางปฏิบัติ แล้ว, แน่นอน, โดยการเปลี่ยนนิยามของแกมมา, คุณสามารถมี G บวก n ลบ 1 ได้ ดังนั้นช่องว่างแรกคือ G แล้วช่องว่างที่ตามมาทั้งหมดก็จะเป็นแกมมา ดังนั้นคุณจึงไม่ต้องทำคะแนนเพิ่มเป็นสองเท่า

ไม่เป็นไร. ตกลง. คุณมีโปรตีนสองชนิด คุณจะค้นหาการจัดตำแหน่งทั่วโลกที่เหมาะสมได้อย่างไร? ความคิดใด ๆ เกี่ยวกับวิธีการทำเช่นนี้?

ดังนั้นเราจึงสามารถเขียนลำดับหนึ่งลงในแกนหนึ่ง แกนหนึ่งลงในอีกแกนหนึ่ง เราทำพล็อตดอทนี้ได้ พล็อตจุดสามารถให้แนวคิดบางอย่างเกี่ยวกับสิ่งที่เกิดขึ้นได้ แต่เราจะหาสิ่งที่ดีที่สุดที่เราต้องการเริ่มต้นจากจุดเริ่มต้นได้อย่างไร ในท้ายที่สุด เราจะเขียนลำดับทั้งสองแบบหนึ่งเหนืออีกลำดับหนึ่ง

และถ้าเรซิดิวแรกหรือลำดับแรกเป็น n, และบางทีเราอาจจัดมันตรงนี้, เราต้องเขียนลำดับทั้งหมดตรงนี้ไปจนสุดทาง และด้านล่างจะต้องมีสารตกค้างในลำดับที่สองหรือช่องว่าง และอีกครั้ง เราสามารถมีช่องว่างบนนี้ ดังนั้นคุณต้องทำอะไรซักอย่าง ต้องทำให้เต็มที่ตั้งแต่ต้นจนจบ และเราจะรวมคะแนนของสารตกค้างที่เข้าคู่กัน ของสารตกค้างที่ไม่ตรงกันทั้งหมด และของช่องว่างทั้งหมด เราจะพบการจัดตำแหน่งนั้นได้อย่างไร คริส.

ผู้ชม: เนื่องจากเราใช้โปรแกรมไดนามิก ฉันเดาว่าคุณจะต้องกรอกเมทริกซ์บางประเภทและย้อนกลับ

ศาสตราจารย์: แล้วเมื่อคุณเห็นคำว่า โปรแกรมไดนามิก มันมีความหมายกับคุณอย่างไร?

ผู้ชม: คุณจะพบวิธีแก้ไขปัญหาย่อยจนกว่าคุณจะพบวิธีแก้ปัญหาที่เล็กกว่า จากนั้นคุณจะย้อนรอยสิ่งที่คุณได้แก้ไขมาจนถึงตอนนี้เพื่อค้นหาลำดับทั่วโลก

ศาสตราจารย์: ดี นั่นเป็นวิธีที่ดีในการอธิบาย แล้วปัญหาเล็ก ๆ ที่คุณจะแบ่งปัญหาใหญ่นี้ออกคืออะไร?

ผู้ชม: ลำดับย่อยที่เล็กกว่า

ศาสตราจารย์: ลำดับย่อยใดที่เล็กกว่า ใครอีกไหม? คุณมาถูกทางแล้วที่นี่ ไปข้างหน้า

ผู้ชม: ฉันหมายถึง มันบอกว่าที่ด้านบนนั้น หนึ่งซีเควนซ์อยู่ด้านบนและอีกอันอยู่ด้านล่าง คุณสามารถเริ่มต้นด้วยช่องว่างกับลำดับและบอกว่าช่องว่างของคุณจะเพิ่มขึ้นเมื่อคุณก้าวข้าม โดยทั่วไป แต่ละเซลล์ที่นั่นสามารถกรอกข้อมูลจากเพื่อนบ้านบางส่วนได้ ดังนั้นคุณต้องการให้แน่ใจว่าคุณกรอกเซลล์เก่าในลำดับบางอย่างเพื่อให้เราสามารถดำเนินการในระดับต่อไปด้วยสิ่งที่เรามี [? เขียนลงไป ?]

ศาสตราจารย์: ดังนั้น หากคุณต้องค้นหาปัญหาย่อยอย่างแม่นยำซึ่งคุณจะเห็นว่าคำตอบคืออะไร แล้วปัญหาย่อยที่ใหญ่กว่าเล็กน้อยซึ่งวิธีแก้ไขจะสร้างจากวิธีแก้ปัญหาแรกนั้น คุณจะเริ่มจากตรงไหน ปัญหาย่อยที่เล็กที่สุดของคุณคืออะไร?

ผู้ฟัง: ฉันจะเริ่มด้วยแถวบนสุด เพราะคุณสามารถเว้นช่องว่างกับช่องว่าง จากนั้นจึงย้ายไปอยู่ในแถวนั้น เพราะคุณไม่จำเป็นต้องมีอะไรที่สูงกว่านั้น

ศาสตราจารย์: แล้วอะไรคือปัญหาที่แท้จริงที่เล็กที่สุดที่คุณมีส่วนต่างๆ ของโปรตีนอยู่ในแนวเดียวกัน?

ผู้ชม: โดยทั่วไปหนึ่งแถวในคอลัมน์ที่สอง หากเป็นการแข่งขัน คุณมีคะแนนบ้าง และถ้ามันไม่ตรงกัน คุณมีคะแนนอื่น และคุณต้องการสิ่งที่ดีที่สุดในแต่ละบล็อก

ศาสตราจารย์: ใช่ ตกลง ใช่. ดีแล้ว. เพื่อให้เป็นภาพรวม -- หวังว่านี่จะว่าง -- โดยทั่วไป คุณอาจคิดว่าเราได้ สมมุติว่า 1 ถึง n ตรงนี้ และลำดับ 1 ถึง n ตรงนี้ คุณอาจคิดถึงตำแหน่ง i ที่นี่ และตำแหน่ง j ตรงนี้ และเราสามารถพูดได้ว่าการหาแนวร่วมโลกที่เหมาะสมที่สุด นั่นเป็นปัญหาใหญ่ ที่ซับซ้อน

แต่การหาการจัดแนวของลำดับจาก 1 ถึง i ในโปรตีนตัวแรกกับลำดับจาก 1 ถึง j ในโปรตีนตัวที่สอง นั่นอาจเป็นเรื่องง่ายทีเดียว ถ้า i เป็น 2 และ j เป็น 2, คุณจะได้ไดเปปไทด์เทียบกับไดเปปไทด์ คุณสามารถลองใช้ชุดค่าผสมทั้งหมดและจัดตำแหน่งที่เหมาะสมได้ที่นั่น

ดังนั้น แนวคิดก็คือ หากคุณสามารถบันทึกคะแนนที่เหมาะสมที่สุดเหล่านั้นได้ที่นี่ในเมทริกซ์นี้ คุณสามารถสร้างออกมาได้ ตัวอย่างเช่น แบบนี้ และหาการจัดตำแหน่งที่เหมาะสมที่สุดของปัญหาย่อยที่ใหญ่ขึ้นเรื่อยๆ โดยที่คุณเพิ่มสารตกค้างอื่นในแต่ละทิศทาง , ตัวอย่างเช่น. นั่นสมเหตุสมผลสำหรับคุณหรือไม่?

แนวคิดของอัลกอริธึมการเขียนโปรแกรมแบบไดนามิกคือรูปแบบหนึ่งของการเพิ่มประสิทธิภาพแบบเรียกซ้ำ ดังนั้นก่อนอื่นคุณต้องเพิ่มประสิทธิภาพสิ่งเล็ก ๆ แล้วจึงเพิ่มประสิทธิภาพสิ่งที่ใหญ่กว่าโดยใช้โซลูชันที่คุณได้รับจากชิ้นส่วนที่เล็กกว่านั้น และวิธีที่ทำได้สำหรับลำดับโปรตีนใน Neeleman-Wunsch ก็คือ อย่างที่เราพูดกัน อันดับแรก ให้พิจารณาว่าอาจมีช่องว่างในอันหนึ่งที่เรียงชิดกับสารตกค้างในอีกด้านหนึ่ง ดังนั้นเราจึงต้องวางช่องว่างเหล่านี้ข้ามด้านบนและด้านล่าง

ตัวอย่างเช่น การปรับช่องว่างเชิงเส้น และนี่คือวิธีที่คุณเริ่มต้น และนี่คือการปรับโทษช่องว่าง ที่ลบ 8 ดังนั้นหากคุณเป็นคำตอบที่ดีที่สุดที่เริ่มต้นด้วย V นี่ในลำดับบนสุดที่จัดแนวกับช่องว่างนี้ในลำดับแนวตั้ง จะมีหนึ่งช่องว่างตรงนั้น มันก็คือลบ 8 และ แล้วถ้าคุณอยากเริ่มต้นด้วยสองช่องว่างเทียบกับ V และ D นี่ มันคือลบ 16

นั่นคือวิธีที่คุณจะเริ่มต้น ดังนั้นคุณจึงเริ่มต้นด้วยปัญหาเหล่านี้ซึ่งไม่มีทางเลือก ถ้าคุณมีช่องว่างสองช่องกับเศษเหลือสองตัว นั่นคือลบ 16 ระบบการให้คะแนนของเรา ไม่ชัดเจน แค่นี้คุณก็กรอกได้เลย

แล้วคุณก็เริ่มคิดได้ว่า เราจะใส่อะไรไว้ตรงนี้? เราควรใส่สกอร์เท่าไหร่ดี? จำไว้ว่า เรากำลังกำหนดรายการในเมทริกซ์นี้เป็นคะแนนที่เหมาะสมที่สุดของลำดับย่อยของโปรตีนบนสุดจนถึงตำแหน่ง i เทียบกับโปรตีนแนวตั้งจนถึงตำแหน่ง j นั่นคือตำแหน่งโปรตีนบนสุดหนึ่งไปจนถึงตำแหน่งโปรตีนแนวตั้งหนึ่ง มันจะเป็นคะแนนอะไร? อะไรคือการจัดตำแหน่งแสงที่สิ้นสุดตำแหน่งที่หนึ่งทั้งสองลำดับ?

จะขึ้นอยู่กับระบบการให้คะแนนของคุณ แต่สำหรับระบบการให้คะแนนที่สมเหตุสมผล นั่นคือการจับคู่ ที่จะได้คะแนนบวก นั่นจะดีกว่าทุกอย่างที่เกี่ยวข้องกับช่องว่างระหว่างช่องว่างกับอีกช่องว่างหนึ่งหรืออะไรที่บ้าๆบอ ๆ แบบนั้น เพื่อให้ได้คะแนนการแข่งขัน VV ของคุณ นี่คือ Sij ของคุณจากเมทริกซ์การให้คะแนนสำหรับกรดอะมิโนต่างๆ ของคุณ

จากนั้น โดยพื้นฐานแล้ว วิธีการทำเช่นนี้คือการพิจารณาว่าเมื่อคุณจับคู่ตำแหน่งนั้นกับตำแหน่งที่หนึ่ง คุณอาจมาจากช่องว่างก่อนหน้านี้ในลำดับหนึ่ง หรือช่องว่างในลำดับอื่น หรือจากตำแหน่งที่ตรงกัน ในลำดับอื่น และนั่นนำไปสู่ลูกศรทั้งสามนี้

ฉันคิดว่ามันชัดเจนถ้าฉันเขียนอัลกอริทึมทั้งหมดที่นี่ ดังนั้น Sij คือคะแนนของการจัดตำแหน่งที่เหมาะสมที่สุดซึ่งสิ้นสุดที่ตำแหน่ง i ในลำดับที่หนึ่ง และตำแหน่ง j ในลำดับที่สอง กำหนดให้เรารู้ว่าอยู่ด้านบน ด้านซ้าย และแนวทแยงมุมด้านบน และคุณแก้จากด้านบนและด้านซ้ายลงไปด้านล่างและด้านขวา ซึ่งมักเรียกว่าโปรแกรมไดนามิก และมาดูกันว่าการเรียกซ้ำคืออะไร

ดังนั้น Needleman และ Wunsch โดยพื้นฐานแล้ว สังเกตว่าคุณสามารถหาคะแนนการจัดตำแหน่งทั่วโลกที่เหมาะสมที่สุดได้ โดยการเติมเมทริกซ์โดยในแต่ละจุดรับคะแนนสูงสุดสามคะแนนที่นี่ คุณเอาคะแนนสูงสุดที่คุณมีด้านบนและทางซ้าย ขึ้นไปในแนวทแยงมุม บวกซิกมาของ xi yj ในกรณีนี้ ซิกม่าคือเมทริกซ์การให้คะแนนที่คุณใช้ นั่นคือ 20 คูณ 20 ซึ่งให้คะแนนกรดอะมิโนแต่ละชนิดเทียบกับกรดอะมิโนที่เหลือซึ่งกันและกัน

คุณเพิ่มคะแนนนั้นหากคุณจะเคลื่อนที่ในแนวทแยงไปยังคะแนนที่เหมาะสมที่สุด หรือหากคุณเคลื่อนไปทางขวาหรือลง คุณกำลังเพิ่มช่องว่างในลำดับใดลำดับหนึ่ง ดังนั้นคุณต้องบวก A ซึ่งเป็นค่าปรับช่องว่างนี้ ซึ่งเป็นจำนวนลบ กับการจัดตำแหน่งที่เหมาะสมที่สุดก่อนหน้านี้

ฉันคิดว่ามันอาจจะง่ายกว่าถ้าเราทำตัวอย่างที่นี่ นี่คือเมทริกซ์การให้คะแนน PAM250 ดังนั้นสิ่งนี้จึงได้รับการพัฒนาโดย Dayhoff ในยุค 70 นี่อาจเป็นเวอร์ชันที่อัปเดต แต่ก็ไม่มากก็น้อยเหมือนกับต้นฉบับ สังเกตว่ามันคือเมทริกซ์สามเหลี่ยม ทำไมถึงเป็นอย่างนั้น?

ศาสตราจารย์: มันสมมาตรใช่เลย จึงมีเส้นทแยงมุม แต่แล้วทุกอย่างที่อยู่ต่ำกว่าเส้นทแยงมุม มันจะสะท้อนเหนือเส้นทแยงมุม เพราะมันสมมาตร เนื่องจากคุณไม่รู้ว่าเมื่อใดที่คุณเห็นวาลีนจับคู่กับลิวซีน มันก็เหมือนกับลิวซีนที่จับคู่กับวาลีน เพราะมันเป็นคำจำกัดความสมมาตรของการให้คะแนน

และนี่คือคะแนนที่เกี่ยวข้องสองคะแนน สังเกตว่า VV มีคะแนนบวก 4 ในเมทริกซ์นี้ และตรงนี้ VD มีคะแนนลบ 2 ผมจะเขียนมันลงไป

ใครสังเกตเห็นสิ่งอื่นที่น่าสนใจเกี่ยวกับเมทริกซ์นี้? เราไม่ได้บอกว่ามันมาจากไหน แต่เรากำลังจะไป ใช่ คุณชื่ออะไร

ผู้ชม: ค่าเส้นทแยงมุมไม่เหมือนกันทั้งหมด

ศาสตราจารย์: เส้นทแยงมุมไม่เหมือนกันทั้งหมด อันที่จริงมีช่วงที่ค่อนข้างใหญ่ตั้งแต่ 2 ถึง 17 ซึ่งเป็นช่วงที่ใหญ่ และอะไรอีก? ตกลง ฉันขอโทษ ไปข้างหน้า คุณชื่ออะไร?

ศาสตราจารย์: ทาจิอุส ครับ ไปข้างหน้า

ผู้ชม: มีค่าบวกสำหรับสิ่งที่ไม่เหมือนกันหรือไม่?

ศาสตราจารย์: ครับ ดังนั้นเทอมทแยงมุมทั้งหมดจึงเป็นบวก ดังนั้นการจับคู่ของประเภทเรซิดิวเฉพาะใดๆ กับเรซิดิวที่เหมือนกันนั้นจะถูกให้คะแนนในเชิงบวกเสมอ แต่ด้วยคะแนนที่แตกต่างกัน และยังมีคะแนนบวกอยู่บ้างในแนวทแยงมุม และคะแนนบวกเหล่านั้นเกิดขึ้นที่ไหน?

สังเกตว่าพวกมันมีแนวโน้มที่จะมีสารตกค้างในบริเวณใกล้เคียง และสังเกตลำดับของสารตกค้างไม่เรียงตามตัวอักษร ดังนั้น คนที่รู้เรื่องกรดอะมิโนมากแล้ว คุณเห็นอะไรเกี่ยวกับคะแนนเหล่านี้บ้าง? ใช่ ไปข้างหน้า

ผู้ชม: ฉันคิดว่ากรดอะมิโนเหล่านี้ [ไม่ได้ยิน] ขึ้นอยู่กับ [ไม่ได้ยิน]

ศาสตราจารย์: ความคิดเห็นก็คือว่าสารตกค้างถูกจัดกลุ่มตามคุณสมบัติทางเคมีที่คล้ายคลึงกันของสายด้านข้างของพวกมัน และนั่นก็ถูกต้องแล้ว ดังนั้นสารตกค้างพื้นฐาน ฮิสทิดีน อาร์จินีน และไลซีน ทั้งหมดรวมกัน สารตกค้างที่เป็นกรด แอสปาเทต และกลูตาเมต อยู่ที่นี่ พร้อมกับแอสพาราจีนและกลูตามีน

และสังเกตว่า D ถึง E มีคะแนนบวกที่นี่ มันคือ 3 เกือบจะดีเท่ากับ D ถึง D หรือ E ถึง E ซึ่งเท่ากับ 4 ดังนั้นโดยตระหนักว่าคุณสามารถแทนที่การวิวัฒนาการของ aspartate เป็นกลูตาเมตได้

ใช่แล้ว โดยพื้นฐานแล้ว ให้คะแนนสำหรับวิชาเคมีที่คล้ายคลึงกันในระดับหนึ่ง แต่นั่นไม่ได้อธิบายว่าทำไม ในแนวทแยง คุณมีค่าช่วงกว้างมาก ทำไมทริปโตเฟนถึงเป็นเหมือนทริปโตเฟนมากกว่าซีรีนก็เหมือนซีรีน ทิม คุณต้องการที่จะแสดงความคิดเห็น?

ผู้ฟัง: อาจเป็นเพราะทริปโตเฟนพบได้น้อยมากในโปรตีนทั้งหมด [ไม่ได้ยิน] ดังนั้นหากคุณมี [ไม่ได้ยิน] สองรายการ เหตุการณ์นั้นหายากกว่ามากและ [ไม่ได้ยิน]

ศาสตราจารย์: ประเด็นของทิมก็คือทริปโตเฟนเกิดขึ้นน้อยมาก ดังนั้นเมื่อคุณเห็นทริปโตเฟนสองตัวอยู่ในแนวเดียวกัน คุณควรจำไว้ สามารถยึดการจัดตำแหน่งของคุณได้ คุณสามารถมั่นใจมากขึ้นในสิ่งนั้น แซลลี่.

ผู้ฟัง: ทริปโตเฟนก็มีขนาดใหญ่มากเช่นกัน และยังมีความสามารถในการสร้างปฏิสัมพันธ์ทางไฟฟ้า ปฏิกิริยาไฟฟ้าสถิต

ศาสตราจารย์: มันไม่ใช่ไฟฟ้าสถิตจริงๆ นะ มากกว่า--

ผู้ชม: ใช่ แต่พวกมันมีความสามารถมากมายในการโต้ตอบกับสายด้านข้างอื่นๆ และซีสเตอีนมีส่วนอย่างมากต่อโครงสร้างสามมิติของโปรตีน

ผู้ชม: เพราะพวกเขาสามารถสร้าง [ไม่ได้ยิน]

ศาสตราจารย์: ตกลง ใช่. ดังนั้นบางทีคุณอาจไม่ใส่ทริปโตเฟนและซีสเตอีนเข้าไปในโปรตีนโดยบังเอิญ หรือคุณใส่ไว้เมื่อคุณต้องการเท่านั้น เมื่อมีพื้นที่เพียงพอสำหรับทริปโตเฟน และเมื่อคุณแทนที่บางสิ่งที่เล็กกว่า มันจะทิ้งช่องว่างไว้ มันทิ้งช่องว่างเชิงพื้นที่ 3 มิติ และคุณไม่ต้องการสิ่งนั้น คุณไม่ได้รับบรรจุภัณฑ์ที่ดี

เมื่อคุณมีซีสเตอีน พวกมันจะสร้างพันธะไดซัลไฟด์ หากคุณเปลี่ยนเป็นสิ่งที่ไม่ใช่ซิสเทอีน มันสามารถเกิดขึ้นได้อีกต่อไป ที่อาจก่อกวนให้พับโดยรวม ดังนั้นสิ่งเหล่านั้นมักจะถูกอนุรักษ์ไว้มากกว่าในการจัดตำแหน่งลำดับโปรตีนอย่างแน่นอน

ตัวอย่างเช่น ถ้าคุณดูที่ไม่ชอบน้ำ กลุ่ม MILV ข้างล่างนี้ พวกมันทั้งหมดมีคะแนนบวกที่สัมพันธ์กัน และนั่นก็บอกว่า โดยพื้นฐานแล้ว เวลาส่วนใหญ่ที่ใช้ -- ฉันหมายความว่า มีบางครั้งที่มันสำคัญจริงๆ แต่ส่วนใหญ่แล้ว ถ้าคุณต้องการเพียงแค่เซกเมนต์เมมเบรน คุณมักจะสามารถแทนที่อันใดอันหนึ่งได้ในหลายตำแหน่ง และมันจะทำงานได้ดีพอ ๆ กับเซกเมนต์ของเมมเบรน

ดังนั้นสิ่งเหล่านี้จึงไม่สุ่มเลย มีรูปแบบบางอย่างที่นี่ ลองกลับไปที่อัลกอริทึมนี้กัน ตอนนี้ หากเราจะใช้การเรียกซ้ำนี้ เราจึงเติมแถวบนสุดและคอลัมน์ซ้าย จากนั้นเราต้องกรอกข้อมูลในส่วนนี้ก่อน ผมขอเถียงว่าจุดที่น่าสนใจจุดแรกในเมทริกซ์คือตรงนี้

และเราพิจารณาเพิ่มช่องว่างที่นี่ เมื่อคุณเคลื่อนที่ในแนวตั้งหรือแนวนอน คุณไม่ได้เพิ่มการจับคู่หรือเพิ่มการจับคู่ จากตำแหน่งนี้ นี่คือจุดเริ่มต้น มันไม่สอดคล้องกับตำแหน่งเฉพาะในโปรตีน ตอนนี้เรากำลังจะเพิ่มคะแนนสำหรับ VV

และเราบอกว่า VV, คุณดูมันในเมทริกซ์ PAM นั้น, มันคือบวก 4 เราจะบวก 4 ลงไปกับ 0 และนั่นก็มากกว่า ลบ 16 อย่างชัดเจน, ซึ่งก็คือสิ่งที่คุณได้จากข้างบนหรือ มาจากทางซ้าย ดังนั้นคุณใส่ 4

แล้วคุณยังใส่ 4 อันนั้นไว้ตรงนั้น คุณยังเก็บลูกศรไว้ด้วย มีลูกศรสีแดงนั่น เราจำได้ว่าเรามาจากไหนในอัลกอริทึมนี้ เพราะมีคนพูดอะไรบางอย่างเกี่ยวกับการย้อนรอย ฉันคิดว่าคริส เรื่องนี้จะเกี่ยวข้องในภายหลัง

ดังนั้นโดยพื้นฐานแล้วเราจะกำจัดลูกศรประสองอันนั้นและเก็บลูกศรสีแดงนั้นไว้เช่นเดียวกับคะแนน แล้วเราก็กรอกตำแหน่งต่อไปที่นี่ เพื่อเป็นการเติมเต็ม ตอนนี้เรากำลังพิจารณาว่าจะไปที่ตำแหน่งที่สองในลำดับที่หนึ่ง แต่เรายังอยู่ที่ตำแหน่งแรกในลำดับที่สองเท่านั้น ถ้าเราจับคู่ V กับ V เราต้องบวก ช่องว่างในลำดับใดลำดับหนึ่ง โดยพื้นฐานแล้วมันจะเป็นช่องว่างในลำดับที่สอง และนั่นจะเท่ากับลบ 8

คุณเอา 4 แล้วบวกลบ 8 มันคือลบ 4 หรือคุณอาจลบ 8 แล้วบวกลบ 2 ถ้าคุณอยากเริ่มจากช่องว่างแล้วบวก DV ไม่ตรงกันตรงนั้น เพราะลบ 2 เป็นคะแนน สำหรับ DV ไม่ตรงกัน หรืออีกครั้ง คุณสามารถเริ่มต้นจากช่องว่างแล้วเพิ่มช่องว่างอื่น

โอเค มันสมเหตุสมผลไหม แล้วค่าสูงสุดจะเป็นเท่าไหร่? ลบ 4 และลูกศรจะอยู่ในแนวนอน เพราะเราได้คะแนนโบนัสสำหรับการจับคู่ VV นั้น และตอนนี้มันยังคงดำเนินต่อไป เราติดลบ แต่ก็ไม่เป็นไร เราจะรักษาระดับสูงสุดเอาไว้ ไม่ว่ามันจะเป็นอะไร

เอาล่ะ มันคือลบ 4 และลูกศรแนวนอน แล้วนี่คือเมทริกซ์ทั้งหมดที่กรอก และคุณจะมีโอกาสทำสิ่งนี้ด้วยตัวเองกับปัญหาชุดที่หนึ่ง และฉันก็เติมลูกศรด้วย ฉันไม่ได้กรอกลูกศรทั้งหมด เพราะมันค่อนข้างรก แต่ลูกศรที่เกี่ยวข้องทั้งหมดที่นี่ถูกกรอกไว้ เช่นเดียวกับลูกศรที่ไม่เกี่ยวข้องด้วย

แล้วเมื่อฉันกรอกข้อมูลลงไป ฉันจะทำอย่างไรกับข้อมูลนี้ ฉันจะรับการจัดตำแหน่งจริงจากเมทริกซ์นี้ได้อย่างไร ความคิดใด ๆ? ใช่ คุณชื่ออะไร

ศาสตราจารย์: ใช่ ดังนั้นสิ่งที่เขาพูดคือเริ่มต้นที่มุมล่างขวาและย้อนกลับตามลูกศรสีแดงในทางกลับกัน นั่นถูกต้องใช่ไหม? แล้วทำไมต้องมุมล่างขวา? มีอะไรพิเศษเกี่ยวกับเรื่องนี้?

ศาสตราจารย์: ครับ เป็นคะแนนของการจัดตำแหน่งที่เหมาะสมที่สุดของลำดับทั้งหมด 1 รายการเทียบกับลำดับทั้งหมด 2 รายการ นั่นคือคำตอบ นั่นคือสิ่งที่เรากำหนดว่าเป็นการจัดตำแหน่งสากลที่เหมาะสมที่สุด

แล้วคุณอยากจะรู้ว่าคุณไปถึงที่นั่นได้อย่างไร แล้วเราไปถึงที่นั่นได้อย่างไร? ที่จริงมีลูกศรสีแดงนี่ตรงนี้ ลูกศรสีแดงนั่นตรงกับอะไรโดยเฉพาะ?

ศาสตราจารย์: ถูกต้อง ในกรณีนี้ สำหรับลูกศรสีแดงโดยเฉพาะ จำไว้ว่าเส้นทแยงมุมนั้นตรงกัน แล้วแมทช์ไหนล่ะ?

ศาสตราจารย์: ใช่ นั่นคือการจับคู่ Y กับ Y ใช่ไหม ทุกคนสามารถเห็นได้หรือไม่? เราบวก Y กำลัง Y, ซึ่งก็คือบวก 10, หาร 13 นี่อะไรก็ตาม และได้ 23. โอเค, ตอนนี้เรากลับมาที่นี่. แล้วเรามาอยู่ที่นี่ได้ยังไง? เรามาจากบนนี้โดยไปที่ลูกศรแนวทแยงนี้

นั่นคืออะไร? แมทช์ไหนกันนะ? นั่นคือการจับคู่ซิสเทอีนกับซิสเทอีน แล้วเราจะไปถึง 1 นี้ได้อย่างไร? เรามาในแนวตั้ง แล้วมันหมายความว่าอย่างไร?

ศาสตราจารย์: เราใส่ช่องว่างในลำดับใด คนแรก คนที่สอง? คนคิดอย่างไร? ย้ายลง.

ศาสตราจารย์: ใช่ ตัวท็อป และนั่นก็พาเราไปที่นี่ นี่คือแมตช์ บวก 2 สำหรับการแมตช์ซีรีน-ซีรีน นี่คือข้อดี 3 สำหรับการมี D ถึง E ไม่ตรงกัน แต่จำไว้ว่า สิ่งเหล่านี้มีความคล้ายคลึงกันทางเคมี ดังนั้นพวกเขาจึงได้คะแนนเป็นบวก แล้วนี่คือ V ถึง V

แล้วเห็นไหม? ฉันคิดว่าฉันมีการจัดตำแหน่งที่เหมาะสมที่สุดที่เขียนไว้ที่นี่ หวังว่าจะมี ที่เรียกว่าการตามรอยกลับ และแล้วนั่นคือการจัดตำแหน่ง

ตกลง เราจัดแนว Y กับ Y, C ถึง C จากนั้นเราก็มีช่องว่างในลำดับบนสุดนี้ -- นั่นคือเส้นประสีม่วงนั่น -- ที่สอดคล้องกับ L ตัวนั้น และคุณจะเห็นว่าทำไมเราถึงอยากใส่ ช่องว่างนั้นในนั้น เพราะเราต้องการให้ตัว S เหล่านี้ตรงกัน และเราต้องการให้ตัว C ตรงกัน และวิธีเดียวที่จะเชื่อมต่อสิ่งเหล่านี้คือต้องมีช่องว่างในสีม่วง

และสีม่วงนั้นสั้นกว่าลำดับสีเขียวอยู่ดี ดังนั้นเราจึงรู้ว่าจะมีช่องว่างอยู่ที่ไหนสักแห่ง และดี. และนั่นคือการจัดตำแหน่งที่เหมาะสมที่สุด นั่นเป็นเพียงปรัชญาบางประการเกี่ยวกับการจัดตำแหน่ง Needlemen-Wunsch

แล้วการจัดตำแหน่งกึ่งโลกคืออะไร? คุณไม่เห็นว่าปกติ ไม่ใช่เรื่องใหญ่อะไร ฉันไม่ต้องการใช้เวลามากเกินไปกับมัน แต่หลายครั้งก็สมเหตุสมผลแล้วที่ สมมุติว่าคุณมีโปรตีนที่มีกิจกรรมของเอนไซม์เฉพาะ และคุณอาจพบว่าโปรตีนทั้งหมดนั้นส่วนใหญ่ได้รับการอนุรักษ์อย่างดีในทุกสายพันธุ์

แต่แล้วที่ปลายทาง N และ C มีการกระพือเล็กน้อย คุณสามารถเพิ่มสิ่งตกค้างสองสามหรือลบสิ่งตกค้างเล็กน้อย และไม่สำคัญมากนักที่ปลายทาง N และ C หรือมันอาจจะไม่สำคัญสำหรับโครงสร้าง แต่สำหรับ คุณรู้ไหม คุณกำลังเพิ่มเปปไทด์เพียงตัวเดียว ดังนั้นมันจะถูกคัดหลั่ง หรือคุณกำลังเพิ่มสัญญาณการแปลเป็นภาษาท้องถิ่น คุณกำลังเพิ่มสิ่งเล็กๆ น้อยๆ ที่ไม่จำเป็นต้องอนุรักษ์ไว้

ดังนั้นการจัดตำแหน่งกึ่งโลก ที่คุณใช้อัลกอริธึมเดียวกัน ยกเว้นว่าคุณเริ่มต้นขอบของเมทริกซ์โปรแกรมไดนามิกเป็น 0 แทนที่จะเป็นลบ 8 ลบ 16 ช่องว่างทั้งหมด และไปที่ 0 เราจึงไม่ จะลงโทษสำหรับช่องว่างของขอบ

จากนั้นแทนที่จะต้องให้การติดตามกลับมาเริ่มต้นที่ด้านล่างขวา Smn คุณอนุญาตให้เริ่มต้นที่คะแนนสูงสุดในแถวล่างสุดหรือคอลัมน์ขวาสุด และเมื่อคุณทำการสืบค้นกลับเหมือนเมื่อก่อน การเปลี่ยนแปลงทั้งสองนี้โดยพื้นฐานแล้วจะค้นหาการจัดตำแหน่งทั่วโลกที่เหมาะสมที่สุด แต่อนุญาตให้มีช่องว่างจำนวนตามอำเภอใจและเพียงแค่ค้นหาการจับคู่หลัก

โดยพื้นฐานแล้วมันต้องไปที่จุดสิ้นสุดของลำดับหนึ่งหรือลำดับอื่น ๆ แต่จากนั้นคุณสามารถมีสารตกค้างอื่น ๆ ที่แขวนอยู่ที่ส่วนท้ายของลำดับอื่น ๆ ได้หากต้องการโดยไม่มีการลงโทษ และบางครั้งสิ่งนี้จะให้คำตอบที่ดีกว่า ดังนั้นจึงควรค่าแก่การรู้ และมันค่อนข้างง่ายที่จะนำไปใช้

แล้วการจัดตำแหน่งในพื้นที่ที่มีช่องว่างล่ะ? แล้วถ้าคุณมีโปรตีนสองตัวล่ะ? คุณจำโปรตีนสองตัวนั้นที่เรามีสองเส้นทแยงมุมได้หรือไม่? ฉันเดาว่าพวกเขาเป็นเส้นทแยงมุม พวกเขาอยู่ที่ไหน? อะไรแบบนั้น. อย่างไรก็ตาม เส้นทแยงมุมแบบนั้น

ในที่ซึ่งโปรตีนในแนวตั้งนี้มีลำดับที่ตรงกับโปรตีนแนวนอนสองส่วน ดังนั้นสำหรับสองคนนี้ คุณไม่ต้องการจัดแนวสากลนี้ มันจะสับสน ไม่รู้ว่าจะจับคู่ผู้ชายคนนี้กับคนนี้หรืออีกคนกับซีเควนซ์ ดังนั้นคุณต้องการใช้การจัดตำแหน่งท้องถิ่น แล้วเราจะแก้ไขอัลกอริธึม Needleman-Wunsch เพื่อทำการจัดตำแหน่งในพื้นที่ได้อย่างไร ความคิดใด ๆ? มันไม่ยากเลย ใช่ ไปข้างหน้า

ผู้ชม: ถ้าคะแนนจะติดลบ แทนที่จะใส่คะแนนติดลบ คุณก็แค่ใส่ 0 และคุณเริ่มจากจุดที่คุณได้รับคะแนนรวมสูงสุด แทนที่จะเป็นคอลัมน์สุดท้ายหรือแถวสุดท้าย เริ่มต้นการติดตามของคุณจากคะแนนสูงสุด

ศาสตราจารย์: เมื่อใดก็ตามที่คุณติดลบ คุณจะรีเซ็ตเป็น 0 แล้วนั่นทำให้คุณนึกถึงอะไร นั่นเป็นเคล็ดลับเดียวกับที่เราเคยเขียนไว้ก่อนหน้านี้ด้วยการจัดตำแหน่งในพื้นที่ที่ไม่ได้ใช้งาน ดังนั้นคุณจึงรีเซ็ตเป็น 0 และนั่นก็ถือว่าไม่มีโทษ เพราะถ้าคุณคิดในแง่ลบ จะดีกว่าที่จะทิ้งสิ่งนั้นและเริ่มต้นใหม่ เราสามารถทำได้เพราะเรากำลังจัดตำแหน่งในท้องถิ่น เราไม่จำเป็นต้องจัดตำแหน่งทั้งหมด อย่างนั้นก็อนุญาต

จากนั้น แทนที่จะไปที่มุมล่างขวา คุณสามารถอยู่ที่ใดก็ได้ในเมทริกซ์ คุณมองหาคะแนนสูงสุดนั้นแล้วทำการติดตามกลับ ถูกต้องแล้ว จึงไม่ต่างกันมากนัก

ขณะนี้มีข้อจำกัดบางประการในระบบการให้คะแนน ดังนั้นหากคุณคิดถึงอัลกอริทึม Needleman-Wunsch เราสามารถใช้เมทริกซ์ที่มีคะแนนบวกทั้งหมดได้ คุณสามารถใช้เมทริกซ์ PAM250 และสมมุติว่าคะแนนติดลบมากที่สุดคือ ไม่รู้สิ เช่น ลบ 10 หรืออะไรประมาณนั้น คุณก็แค่บวก 10 หรือบวก 20 กับคะแนนทั้งหมดก็ได้ ตอนนี้พวกเขาทั้งหมดเป็นบวก และคุณยังสามารถเรียกใช้อัลกอริทึมนั้นได้ และมันยังคงให้ผลลัพธ์ที่สมเหตุสมผลไม่มากก็น้อย

ฉันหมายความว่ามันไม่ดีเท่า PAM250 จริง แต่คุณยังคงได้รับการจัดตำแหน่งที่สอดคล้องกันจากปลายอีกด้านหนึ่ง แต่นั่นไม่เป็นความจริงอีกต่อไปเมื่อคุณพูดถึงอัลกอริธึม Smith-Waterman ด้วยเหตุผลเดียวกันกับการจัดตำแหน่งในพื้นที่ที่ไม่มีการดักจับ เราต้องกำหนดให้คะแนนที่คาดหวังเป็นลบ เพราะคุณต้องมีค่าเบี่ยงเบนเชิงลบนี้เพื่อค้นหาพื้นที่ขนาดเล็กที่ ไปในทางบวก

ถ้าคุณมีกฎนี้ การอนุญาตแบบนี้ที่บอกว่า เมื่อใดก็ตามที่เราติดลบ เราสามารถรีเซ็ตเป็น 0 ได้ จากนั้นคุณต้องมีค่าเบี่ยงเบนเชิงลบนี้ เพื่อให้คะแนนบวกไม่ปกติ เอาล่ะ นั่นเป็นข้อจำกัดอีกข้อหนึ่งที่นั่น คุณต้องมีค่าลบสำหรับค่าที่ไม่ตรงกัน -- ฉันหมายถึง ไม่ใช่ค่าที่ไม่ตรงกันทั้งหมด แต่ถ้าคุณเอาสารตกค้างแบบสุ่มสองตัวมาเรียงกัน คะแนนเฉลี่ยจะต้องติดลบ ฉันควรจะใช้ถ้อยคำใหม่ แต่ไม่มากก็น้อย

และนี่คือตัวอย่างของ Smith-Waterman ดังนั้นคุณจึงขีดศูนย์ไปทางซ้ายและข้ามด้านบน นั่นเป็นเพราะ จำไว้ว่า ถ้าคุณติดลบ คุณจะรีเซ็ตเป็น 0 เรากำลังทำแบบนั้น

แล้วคุณเอาสูงสุดสี่สิ่ง มาจากแนวทแยงแล้วบวกสกอร์ของแมตช์นั้นก็เท่าเดิม มาจากด้านซ้ายและเพิ่มช่องว่างในลำดับหนึ่ง มาจากด้านบนและเพิ่มช่องว่างในลำดับอื่น หรือ 0 ธุรกิจ "หรือ 0" นี้ช่วยให้เรารีเซ็ตเป็น 0 หากเราติดลบ

และเมื่อคุณมี 0 คุณยังคงติดตามลูกศรเหล่านี้ แต่เมื่อคุณมี 0 จะไม่มีลูกศร คุณกำลังเริ่มต้นมัน คุณกำลังเริ่มต้นการจัดตำแหน่งตรงนั้น นั่นคือสมิธ-วอเตอร์แมน

มันมีประโยชน์ ฉันคิดว่าในชุดปัญหาที่หนึ่ง คุณจะมีประสบการณ์การคิดเกี่ยวกับทั้ง Needleman-Wunsch และ Smith-Waterman พวกมันมีพฤติกรรมแตกต่างกันเล็กน้อย แต่มีความเกี่ยวข้องกันอย่างมาก ดังนั้นสิ่งสำคัญคือต้องเข้าใจว่าพวกมันคล้ายกันอย่างไร ต่างกันอย่างไร

และสิ่งที่ผมอยากจะเน้นในช่วงที่เหลือของการบรรยายนี้ก็แค่แนะนำแนวคิดของเมทริกซ์ความคล้ายคลึงของกรดอะมิโน เราเห็น PAM matrix แล้ว แต่มันมาจากไหน? และมันหมายความว่าอย่างไร? และใช้งานได้ดีหรือไม่ และมีทางเลือกอื่นหรือไม่?

เราก็สามารถใช้เมทริกซ์เอกลักษณ์นี้ได้ แต่อย่างที่เราได้ยินมา มีเหตุผลหลายประการที่อาจไม่เหมาะสมตัวอย่างเช่น ซีสเทอีน เราควรให้คะแนนพวกมันมากกว่านี้ เพราะพวกมันมักเกี่ยวข้องกับพันธะไดซัลไฟด์ และพวกมันมีผลกระทบเชิงโครงสร้างที่สำคัญต่อโปรตีน และมีแนวโน้มที่จะถูกอนุรักษ์ไว้มากกว่าลิวซีนหรืออะลานีนโดยเฉลี่ยของคุณหรืออะไรก็ตาม

เห็นได้ชัดว่า ระบบการให้คะแนนควรสนับสนุนการจับคู่กรดอะมิโนที่เหมือนกันหรือที่เกี่ยวข้องกัน ลงโทษการจับคู่ที่ไม่ดี และสำหรับช่องว่าง และยังมีข้อโต้แย้งที่สามารถทำได้ว่าควรจะเกี่ยวข้องกับความถี่ที่ถูกแทนที่ด้วยสารตกค้างอื่นในช่วงวิวัฒนาการ เพื่อให้สิ่งที่ถูกแทนที่โดยทั่วไปควรมีคะแนนบวกหรือคะแนนลบน้อยกว่าสิ่งที่แทบจะไม่ถูกแทนที่

และบางทีอาจไม่ชัดเจนนัก แต่ถ้าคุณลองคิดดูสักระยะหนึ่งก็คือ ระบบการให้คะแนนใดๆ ที่คุณใฝ่ฝันจะนำโมเดลวิวัฒนาการระดับโมเลกุลโดยปริยายมาแทนที่ด้วยความถี่ที่สิ่งต่าง ๆ จะถูกแทนที่ซึ่งกันและกัน ดังนั้น จึงปรากฏว่าคะแนนเป็นสัดส่วนโดยประมาณกับคะแนน [ไม่ได้ยิน] สำหรับการเกิดขึ้นของสารตกค้างคู่นั้น หารด้วยความถี่ที่จะเกิดขึ้นโดยบังเอิญ อะไรทำนองนั้น

และเพื่อที่ว่าถ้าคุณให้คะแนนบวกกับของต่างๆ ให้กับเศษบางคู่ คุณก็หมายความว่าโดยพื้นฐานแล้ว สิ่งเหล่านี้จะแลกเปลี่ยนกันระหว่างวิวัฒนาการ ดังนั้น หากคุณต้องการได้คะแนนที่เหมือนจริงและมีประโยชน์ คุณควรนึกถึงว่าแบบจำลองวิวัฒนาการโดยนัยคืออะไร และนั่นเป็นแบบจำลองที่สมจริงสำหรับวิวัฒนาการของโปรตีนหรือไม่

ดังนั้นฉันจะมาที่ Dayhoff และแตกต่างจากเมทริกซ์ต่อมา เธอมีแบบจำลองวิวัฒนาการที่ชัดเจน เหมือนกับแบบจำลองทางคณิตศาสตร์จริง ๆ สำหรับวิวัฒนาการของโปรตีน และแนวคิดก็คือว่าจะมีการจัดเรียงตัวของโปรตีนบางชนิด และจำไว้ว่านี่คือปี 1978 ดังนั้นฐานข้อมูลโปรตีนน่าจะมีโปรตีนประมาณ 1,000 ตัวอยู่ในนั้นหรืออะไรทำนองนั้น มันเล็กมาก

แต่มีการจัดตำแหน่งบางอย่างที่ชัดเจน หากคุณเห็นโปรตีนสองส่วนยาว 50 ตัวที่เหมือนกัน 85 ตัว ไม่มีทางที่จะเกิดขึ้นโดยบังเอิญ คุณไม่จำเป็นต้องทำสถิติเกี่ยวกับเรื่องนั้นด้วยซ้ำ ดังนั้นคุณแน่ใจ

ดังนั้นเธอจึงใช้การจัดตำแหน่งลำดับโปรตีนที่มีความมั่นใจสูงมาก และเธอคำนวณความถี่การแทนที่เรซิดิวเรซิดิวที่แท้จริง ความถี่ที่เรามีวาลีนในลำดับเดียวแทนลิวซีน และสันนิษฐานว่าเป็นสมมาตร คุณไม่รู้ทิศทางด้วยซ้ำ และคำนวณความถี่การแทนที่เหล่านี้

โดยทั่วไปประมาณสิ่งที่เธอเรียกว่า PAM1 one matrix ซึ่งเป็นเมทริกซ์ที่แสดงถึงความแตกต่าง 1% ระหว่างโปรตีน โดยเฉลี่ยแล้วมีโอกาสเพียง 1% เท่านั้นที่จะเปลี่ยนแปลงสิ่งตกค้าง และการจัดตำแหน่งที่แท้จริงมีความแตกต่างกันมากกว่านั้น พวกเขามีบางอย่างเช่นไดเวอร์เจนซ์ 15%

แต่คุณสามารถดูความถี่เหล่านั้นแล้วลดขนาดลง 15 เท่า และคุณจะได้ 15 ไม่ใช่ 15 แต่เท่ากับ 15 และคุณจะได้บางอย่างที่มีโอกาส 1% ที่จะถูกแทนที่ แล้วเมื่อคุณมีโมเดลนั้นสำหรับการแทนที่ลำดับ 1% แล้ว ปรากฎว่าคุณสามารถแทนมันเป็นเมทริกซ์แล้วคูณมันขึ้นเพื่อให้ได้เมทริกซ์ที่อธิบายว่าการแทนที่ลำดับ 5% เป็นอย่างไร หรือ 10% หรือ 50% หรือ 250%

ดังนั้นเมทริกซ์ PAM250 ที่เราพูดถึงก่อนหน้านี้ นั่นคือแบบจำลองสำหรับการแทนที่กรดอะมิโน 250% มันสมเหตุสมผลแค่ไหน? คุณจะมีมากกว่า 100% ได้อย่างไร? มีใครกับฉันเกี่ยวกับเรื่องนี้หรือไม่? ทิมใช่

ผู้ชม: เพราะมันย้อนกลับได้ ดังนั้น ในบางกรณี คุณจึงเปลี่ยนกลับมากกว่า [ไม่ได้ยิน]

ศาสตราจารย์: ถูกต้อง ดังนั้นเมทริกซ์ PAM10 หมายความว่า โดยเฉลี่ยแล้ว 10% ของสารตกค้างมีการเปลี่ยนแปลง แต่สารตกค้างบางส่วนอาจมี -- ดังนั้นประมาณ 90% จะไม่เปลี่ยนแปลงเลย บางส่วนจะมีการเปลี่ยนแปลงเพียงครั้งเดียว แต่บางส่วนอาจมีการเปลี่ยนแปลงถึงสองครั้ง แม้จะอยู่ที่ 10%

และเมื่อคุณไปถึง 250% โดยเฉลี่ย สารตกค้างทุกตัวจะเปลี่ยนไป 2 และ 1/2 เท่า แต่อีกครั้ง อาจมีสารตกค้างบางส่วนที่ยังคงเหมือนเดิม และสารตกค้างบางตัวที่เปลี่ยนแปลง -- ตัวอย่างเช่น ถ้าคุณมีไอโซลิวซีนที่กลายพันธุ์เป็นวาลีน จริงๆ แล้วมันอาจจะเปลี่ยนกลับไปแล้วในขณะนั้น ดังนั้นโดยพื้นฐานแล้วบัญชีสำหรับสิ่งเหล่านั้นทั้งหมด และถ้าคุณมีสารตกค้างที่ถูกแทนที่โดยปกติ คุณจะได้วิวัฒนาการแบบนั้นเกิดขึ้น

ไม่เป็นไร. เธอจึงเอาการจัดตำแหน่งลำดับโปรตีน -- หน้าตาประมาณนี้ -- และคำนวณสถิติเหล่านี้ อีกครั้ง ฉันไม่ต้องการอธิบายรายละเอียดนี้ในระหว่างการบรรยาย เพราะมันอธิบายไว้อย่างดีในข้อความ แต่สิ่งที่ผมอยากจะทำคือแนะนำแนวคิดนี้ของเครือ Markov เพราะมันเป็นสิ่งที่อยู่ภายใต้เมทริกซ์ของ Dayhoff ลองคิดดู

เราจะทำมากกว่านี้ในครั้งต่อไป แต่ลองนึกภาพว่าคุณสามารถจัดลำดับจีโนมของตัวการ์ตูนด้วยเทคโนโลยีที่พัฒนาขึ้นใหม่ และคุณเลือกที่จะวิเคราะห์พันธุกรรมที่ซับซ้อนของเชื้อสายซิมป์สัน ฉันเดาว่าคุณทุกคนรู้จักคนเหล่านี้ นี่คือคุณปู่กับโฮเมอร์กำลังกินโดนัทกับบาร์ต ลูกชายของเขา

ลองนึกภาพว่านี่คือจีโนมของคุณปู่ที่ตำแหน่ง apolipoprotein A และเกิดการกลายพันธุ์ที่เขาส่งต่อไปยังโฮเมอร์ ดังนั้นการกลายพันธุ์นี้จึงเกิดขึ้นในสายเชื้อโรค ส่งต่อไปยังโฮเมอร์ และเมื่อโฮเมอร์ส่งต่อยีนของเขาให้บาร์ต การกลายพันธุ์เกิดขึ้นอีกครั้งที่นี่ โดยเปลี่ยนคู่ AT นี้เป็นคู่ GC ในบาร์ต

ดังนั้นฉันจะเถียงว่าเป็นประเภทของ Markov chain ดังนั้นห่วงโซ่ Markov คืออะไร? ดังนั้นจึงเป็นเพียงกระบวนการสุ่ม ดังนั้นกระบวนการสุ่มจึงเป็นกระบวนการสุ่ม เป็นความหมายทั่วไป แต่ที่นี่เรากำลังจะจัดการกับกระบวนการสุ่มที่ไม่ต่อเนื่อง ซึ่งเป็นเพียงลำดับของตัวแปรสุ่ม

ดังนั้น X1 ในที่นี้จึงเป็นตัวแปรสุ่มที่แสดงตัวอย่าง เช่น จีโนมของบุคคล หรืออาจเป็นตัวแทนของจีโนไทป์ ในกรณีนี้ ที่ตำแหน่งเฉพาะ บางทีอาจเป็น A, C, G หรือ T ที่ตำแหน่งใดตำแหน่งหนึ่งโดยเฉพาะ ตำแหน่งในจีโนม และตอนนี้ดัชนีตรงนี้ -- หนึ่ง สอง สาม และอื่นๆ -- จะแทนเวลา

ดังนั้น X1 อาจเป็นจีโนไทป์ของคุณปู่ซิมป์สันในตำแหน่งใดตำแหน่งหนึ่ง และ X2 อาจเป็นยีนของโฮเมอร์ ซิมป์สัน และ X3 จะเป็นจีโนไทป์ในรุ่นต่อๆ ไป ซึ่งก็คือ Bart Simpson และสิ่งที่เป็นห่วงโซ่ของมาร์คอฟคือ มันเป็นกระบวนการสุ่มประเภทเฉพาะ ที่เกิดขึ้นโดยทั่วไปในวิทยาศาสตร์ธรรมชาติ จริงๆ และที่อื่นๆ ทั่วทุกแห่ง

ดังนั้นจึงเป็นการดีที่จะรู้ว่ามีคุณสมบัติที่เรียกว่า Markov และนั่นบอกว่าความน่าจะเป็นที่ตัวแปรสุ่มตัวถัดไป หรือจีโนไทป์ในรุ่นต่อๆ ไป ถ้าคุณต้องการ -- ดังนั้น Xn บวก 1 เท่ากับค่าใดค่าหนึ่ง j ซึ่งสามารถเป็นค่าใดค่าหนึ่งที่เป็นไปได้ แทนค่าใดค่าหนึ่งในสี่ฐาน โดยมีเงื่อนไขตามค่าของ X1 ถึง Xn นั่นคือประวัติทั้งหมดของกระบวนการจนถึงเวลานั้น เท่ากับความน่าจะเป็นแบบมีเงื่อนไขที่ Xn บวก 1 เท่ากับ j โดยให้เฉพาะ xn เพียงเล็กน้อยเท่านั้นที่จะเท่ากับค่าบางอย่าง

โดยพื้นฐานแล้วมันบอกว่าถ้าฉันบอกคุณว่ายีนของโฮเมอร์คืออะไรที่สถานที่นี้ และฉันบอกคุณว่าจีโนไทป์ของคุณปู่ซิมป์สันอยู่ที่สถานที่นั้นอย่างไร คุณสามารถเพิกเฉยต่อคุณปู่ซิมป์สันได้ ที่ไม่เกี่ยวข้อง มันสำคัญแค่ว่าจีโนไทป์ของโฮเมอร์เป็นอย่างไรเพื่อจุดประสงค์ในการทำนายจีโนไทป์ของบาร์ต มันสมเหตุสมผลหรือไม่?

ดังนั้น ไม่สำคัญเลยจริงๆ ว่าฐานนั้นในจีโนมของโฮเมอร์ จะเหมือนกับในจีโนมของคุณปู่ซิมป์สัน หรือเป็นการกลายพันธุ์ที่เฉพาะเจาะจงสำหรับโฮเมอร์ เพราะโฮเมอร์เป็นผู้ที่ถ่ายทอด DNA ไปยังบาร์ต มันสมเหตุสมผลหรือไม่?

ดังนั้นคุณมองย้อนกลับไปเพียงรุ่นเดียวเท่านั้น เป็นกระบวนการที่ไร้ความจำประเภทหนึ่ง ซึ่งคุณจำได้แค่รุ่นสุดท้ายเท่านั้น นั่นเป็นสิ่งเดียวที่เกี่ยวข้อง ดังนั้น เพื่อให้เข้าใจห่วงโซ่ Markov เป็นสิ่งสำคัญมากที่คุณจะต้องทบทวนความน่าจะเป็นแบบมีเงื่อนไขของคุณ

ดังนั้นเราจะทำอีกเล็กน้อยกับเครือ Markov ในครั้งต่อไป P A ให้ B หมายความว่าอย่างไร? หากคุณจำไม่ได้ ให้ค้นหาในความน่าจะเป็นและสถิติ เพราะนั่นเป็นสิ่งสำคัญสำหรับเครือ Markov

ครั้งหน้าเราจะพูดถึงจีโนมเปรียบเทียบ ซึ่งจะเกี่ยวข้องกับการประยุกต์ใช้วิธีการจัดตำแหน่งบางวิธีที่เราพูดถึง และฉันอาจโพสต์ตัวอย่างบางส่วนของเอกสารการวิจัยเกี่ยวกับจีโนมเปรียบเทียบที่น่าสนใจ ซึ่งจะเป็นการอ่านหรือไม่ก็ได้ คุณอาจได้ประโยชน์จากการบรรยายเพิ่มขึ้นเล็กน้อยหากคุณอ่าน แต่ไม่จำเป็น


1. บทนำ

อัลกอริทึม Smith–Waterman ( Smith and Waterman, 1981) เป็นหนึ่งในอัลกอริธึมการค้นหาลำดับที่ช้าที่สุดและละเอียดอ่อนที่สุด เนื่องจากขนาดของ GenBank/EMBL/DDBJ เพิ่มเป็นสองเท่าทุก ๆ 15 เดือน ( Benson et al., 2000) จำเป็นต้องใช้อัลกอริธึม Smith–Waterman ที่เร็วขึ้นเพื่อให้ทัน การเพิ่มประสิทธิภาพล่าสุดอย่างหนึ่งได้นำอัลกอริทึมไปใช้กับไมโครโปรเซสเซอร์ Single-Instruction Multiple-Data (SIMD) คำสั่ง SIMD สามารถดำเนินการเดียวกันกับข้อมูลหลายชิ้นพร้อมกันได้

หนึ่งในการนำ SIMD ของ Smith–Waterman ไปใช้ครั้งแรกคือ Alpern et al. (1995). วิธีการนี้แบ่งการลงทะเบียนบัฟเฟอร์ Z 64 บิตของโปรเซสเซอร์ Intel Paragon i860 ออกเป็นสี่ส่วน แต่ละส่วนของรีจิสเตอร์มีค่าจากลำดับฐานข้อมูลที่แตกต่างกันสี่ลำดับ เร่งความเร็วได้ถึง 6 เท่าจากการใช้งานดั้งเดิม

Wozniak (1997) นำเสนอการใช้งานอัลกอริทึม Smith–Waterman ที่ทำงานบน Sun Ultra SPARC โดยใช้คำสั่ง SIMD ซึ่งเป็น Visual Instruction Set การลงทะเบียน SIMD มีค่าขนานกับเส้นทแยงมุมเล็กน้อย ข้อได้เปรียบของการใช้งานนี้คือไม่มีกิ่งแบบมีเงื่อนไขในวงใน ดังนั้น เวลาดำเนินการจึงขึ้นอยู่กับความยาวของสตริงการสืบค้นและฐานข้อมูล ไม่ใช่เมทริกซ์การให้คะแนนหรือการลงโทษช่องว่าง ข้อเสียเปรียบหลักของการใช้งานนี้คือต้องคำนวณโปรไฟล์การสืบค้นสำหรับลำดับฐานข้อมูลแต่ละรายการ มีการรายงานการเร่งความเร็วมากกว่าสองครั้งเมื่อเทียบกับการใช้งานแบบเดิม

Rognes และ Seeberg (2000) นำเสนอการใช้งานอัลกอริทึม Smith–Waterman ที่ทำงานบนโปรเซสเซอร์ Intel Pentium โดยใช้คำสั่ง MMX SIMD การลงทะเบียน SIMD มีค่าขนานกับลำดับการสืบค้น การเพิ่มประสิทธิภาพที่สำคัญคือการคำนวณโปรไฟล์การสืบค้นหนึ่งครั้งสำหรับการค้นหาฐานข้อมูลทั้งหมด ข้อเสียที่นำมาใช้โดยการประมวลผลค่าในแนวตั้งคือกิ่งที่มีเงื่อนไขจะถูกวางไว้ในวงในเพื่อคำนวณ NS. ด้วยรหัสเงื่อนไข เวลาดำเนินการจะขึ้นอยู่กับความยาวของสตริงการสืบค้นและฐานข้อมูล เมทริกซ์การให้คะแนน และบทลงโทษช่องว่าง มีการรายงานการเร่งความเร็วมากกว่าหกครั้งจากการใช้งานที่ไม่ใช่ SIMD ที่ได้รับการปรับให้เหมาะสม

เอกสารนี้นำเสนอการใช้งาน Smith–Waterman แบบใหม่โดยที่การลงทะเบียน SIMD นั้นขนานกับลำดับการสืบค้น แต่เข้าถึงได้ในรูปแบบลายทาง เช่นเดียวกับการนำ Rognes ไปใช้ โปรไฟล์การสืบค้นจะถูกคำนวณเพียงครั้งเดียวสำหรับการค้นหาฐานข้อมูล แต่เงื่อนไข NS การคำนวณจะถูกย้ายออกนอกวงใน คำนวณความเร็วของ >3.0 GCUPS ได้ ซึ่งเร็วกว่าการใช้งาน Wozniak และ Rognes SIMD 2-8 เท่า


วัสดุและวิธีการ

ฮาร์ดแวร์และซอฟต์แวร์

CUDA เป็นส่วนขยาย C/C++ ที่สร้างโดย NVIDIA ชุดพัฒนาและไดรเวอร์ CUDA มีให้ใช้ฟรีจาก NVIDIA (www.nvidia.com) PaSWAS ต้องการอย่างน้อย CUDA เวอร์ชัน 3.1 และฮาร์ดแวร์ GPU เวอร์ชัน 1.2 ข้อกำหนดขั้นต่ำในการรัน PaSWAS คือคอมพิวเตอร์เดสก์ท็อปมาตรฐานหรือแล็ปท็อปที่มีการ์ดกราฟิก NVIDIA ที่ใช้ต้นทุนต่ำรุ่นล่าสุด

พัฒนาและทดสอบบน GTX285 เครื่องเดียวที่ติดตั้งในคอมพิวเตอร์ที่มี Intel Core 2 Quad CPU ที่ทำงานที่ 2.40GHz พร้อมหน่วยความจำ 4GB เครื่องสำหรับการพัฒนายังมี GTX295 ด้วยสองคอร์แต่ละคอร์ช้ากว่า GTX285 เพียงเล็กน้อย ซึ่งรวมกันเร็วกว่าเกือบสองเท่า การทดสอบเพิ่มเติมได้ดำเนินการบนคอมพิวเตอร์ที่มีประสิทธิภาพสูงด้วย C1060 สองตัวและ Intel Xeon CPU X5650 สองตัวที่ทำงานที่ 2.67GHz, หน่วยความจำ 96GB และที่เก็บข้อมูล 7 TB สภาพแวดล้อมในการประมวลผลใช้ Condor [20] เพื่อสร้างกริดเดี่ยวที่มีคอร์ GPU 19 คอร์และโหนด CPU 240 ตัวในกริดเดียว ตารางนี้ประกอบด้วยการ์ดจอ GTX285 สิบห้าตัว, GT295 หนึ่งตัวและการ์ดกราฟิก C1060 Tesla สองใบ

อัลกอริทึมของ Smith-Waterman

อัลกอริทึม Smith-Waterman (SW) [5] ใช้ในการวิเคราะห์ลำดับเพื่อค้นหาการจัดตำแหน่งภายในระหว่างสองลำดับ ต้องใช้แนวทางการเขียนโปรแกรมแบบไดนามิก ในรูปแบบที่ไร้เดียงสานั้นจะมีลำดับ O(n 2 ) สำหรับทั้งทรัพยากรการคำนวณและหน่วยความจำ สำหรับหน่วยความจำ ค่านี้สามารถลดลงเหลือ O(n) โดยการจัดเก็บเพียงสองแถวจากเมทริกซ์การจัดตำแหน่ง [5]: ระหว่างการคำนวณคะแนนการจัดตำแหน่ง จะเก็บเฉพาะแถวก่อนหน้าและแถวปัจจุบันของเมทริกซ์พร้อมกับตำแหน่งของ มูลค่าสูงสุด เมื่อการคำนวณเสร็จสิ้น ตำแหน่งนี้พร้อมกับค่าสูงสุด คือคะแนนการจัดตำแหน่งสุดท้าย จะถูกส่งกลับ กระบวนการนี้ใช้สำหรับการค้นหาผ่านฐานข้อมูลขนาดใหญ่เมื่อเฉพาะ Hit ที่ดีที่สุดเท่านั้นที่เกี่ยวข้อง และโปรไฟล์การจัดตำแหน่งไม่จำเป็นในการวิเคราะห์ดาวน์สตรีม

สำหรับการจัดตำแหน่งในพื้นที่ที่แน่นอน จะต้องมีการคำนวณเมทริกซ์การจัดตำแหน่ง (รูปที่ 1A) ขั้นตอนนี้เริ่มต้นที่มุมซ้ายบนและเลื่อนผ่านเมทริกซ์จากซ้ายไปขวา บนลงล่าง และสิ้นสุดที่ด้านล่างขวา ตำแหน่งของค่าสูงสุดในเมทริกซ์บ่งชี้จุดสิ้นสุดของการจัดตำแหน่งภายใน และการจัดตำแหน่งนี้จำเป็นต้องติดตามย้อนกลับจากเซลล์นี้ไปยังจุดเริ่มต้น

การคำนวณคะแนนสำหรับการจัดตำแหน่งเริ่มต้นที่ด้านซ้ายบนและสิ้นสุดที่ด้านล่างขวาของเมทริกซ์ เซลล์สีแดงคือคะแนนถัดไปที่สามารถคำนวณได้ด้วยลูกศรที่ระบุเซลล์ที่ใช้ แนวทางคู่ขนาน Smith-Waterman (B) ด้วยอัลกอริธึมนี้ คะแนนของหลายเซลล์จะถูกคำนวณแบบขนาน (เซลล์สีแดง) ลูกศรชี้ไปที่เซลล์ที่ใช้สำหรับการคำนวณคะแนนใหม่แต่ละรายการ

การใช้งาน Smith-Waterman แบบคู่ขนานก่อนหน้านี้

มีการใช้งาน SW แบบขนานหลายแบบ [12,14,15,17] การใช้งานเหล่านี้มุ่งเน้นไปที่การค้นหาฐานข้อมูลตามลำดับเป็นหลัก พวกเขาไม่ได้สร้างโปรไฟล์การจัดตำแหน่ง ซึ่งทำให้รวดเร็วและหน่วยความจำมีประสิทธิภาพ แต่ป้องกันการตรวจสอบผลลัพธ์ด้วยสายตา การใช้งานอื่นๆ [21,22] สามารถสร้างโปรไฟล์การจัดตำแหน่งได้ แต่แสดงเพียงโปรไฟล์เดียวต่อการจัดตำแหน่ง การใช้งาน SW แบบขนานเหล่านี้มุ่งเน้นไปที่คุณสมบัติที่แตกต่างกันสองประการของการเติมเมทริกซ์การจัดตำแหน่ง (รูปที่ 1B) มีการพึ่งพาเซลล์ในแนวทแยง: เซลล์ที่ตำแหน่ง (x,y) สามารถประมวลผลได้ก็ต่อเมื่อทราบเซลล์ (x-1,y), (x,y-1) และ (x-1,y-1) ในขั้นตอนแรก มีเธรดเดียวเท่านั้นที่ทำงานอยู่ สำหรับเซลล์ (0,0) ในแต่ละขั้นตอนที่ตามมา เธรดเพิ่มเติมจะทำงานอยู่ครึ่งทางของเมทริกซ์ จำนวนเธรดสูงสุดที่ทำงานอยู่: ขั้นต่ำ (n,m) จำนวนของเธรดที่แอ็คทีฟจะลดลงเหลือเธรดเดียวสำหรับขั้นตอนสุดท้ายที่ (n-1,m-1) สิ่งนี้สามารถทำให้มีประสิทธิภาพมากขึ้นโดยใช้เธรดที่ไม่ได้ใช้งานเพื่อทำงานกับการจัดตำแหน่งลำดับต่างๆ [17] ในกรณีที่มีการจัดลำดับหลายชุด หน่วยประมวลผลจะทำงานได้ดีมาก สำหรับลำดับที่ใหญ่ขึ้น ข้อได้เปรียบนี้จะหายไป ในกรณีที่โปรเซสเซอร์สามารถคำนวณการจัดตำแหน่งเพียงครั้งเดียวเนื่องจากความยาวของสองลำดับ จะไม่มีเซลล์อื่นให้อัปเดตและเธรดจะไม่ทำงาน PaSWAS ใช้แนวทางที่คล้ายกันในการคำนวณคะแนนและการสืบค้นกลับ


นัยสำหรับการศึกษาชีววิทยาระดับปริญญาตรี

การประเมินเป็นกระบวนการประเมินหลักฐานการเรียนรู้ของนักเรียนโดยคำนึงถึงเป้าหมายการเรียนรู้ที่เฉพาะเจาะจง วิธีการประเมินแสดงให้เห็นว่ามีอิทธิพลอย่างมากต่อนิสัยการเรียนของนักเรียน (Entwistle and Entwistle, 1992) เราเห็นด้วยกับนักการศึกษาคนอื่นๆ ที่โต้แย้งว่าในกระบวนการสร้างหลักสูตร การประเมินเป็นอันดับสองรองจากการกำหนดเป้าหมายการเรียนรู้ของหลักสูตรเพื่อเป็นแนวทางในการออกแบบหลักสูตร (Wiggins and McTighe, 1998 Palomba and Banta, 1999 Pellegrino และคณะ, 2001 Fink, 2003). แม้ว่าคณาจารย์จำนวนมากจะกำหนดเป้าหมายการเรียนรู้สำหรับหลักสูตรของตน แต่พวกเขามักจะประสบปัญหาในการประเมินว่าวิธีการประเมินแบบสรุปผลและแบบสรุปผลจะวัดความสำเร็จของนักเรียนในการบรรลุเป้าหมายเหล่านั้นได้จริงหรือไม่

คณาจารย์ส่วนใหญ่จะเห็นด้วยว่าเราควรสอนและทดสอบนักเรียนเพื่อทักษะทางปัญญาที่สูงขึ้น อย่างไรก็ตาม เมื่อคณาจารย์ได้รับการฝึกอบรมเกี่ยวกับวิธีใช้ Bloom's และฝึกจัดอันดับคำถามในการสอบของตนเอง พวกเขามักจะตระหนักดีว่าคำถามทดสอบส่วนใหญ่อยู่ในระดับที่ต่ำกว่าของ Bloom's ตัวอย่างเช่น ในการประชุมระดับชาติเพื่อการศึกษาชีววิทยาระดับปริญญาตรี 97% ของคณาจารย์ที่เข้าร่วม (n = 37) และรับการบรรยายอย่างเป็นทางการเกี่ยวกับการใช้ Bloom's เพื่อจัดอันดับคำถามในการสอบเห็นพ้องกันว่ามีเพียง 25% ของคำถามในการสอบที่ผ่านการทดสอบสำหรับอันดับที่สูงกว่า ทักษะทางปัญญา (ข้อมูลที่ไม่ได้เผยแพร่) ดังนั้น ส่วนใหญ่เราอาจไม่ได้ทดสอบหรือให้นักเรียนฝึกฝนอย่างเพียงพอในการใช้ทักษะด้านเนื้อหาและกระบวนการทางวิทยาศาสตร์ในระดับความรู้ความเข้าใจที่สูงขึ้น แม้ว่าเป้าหมายของเราคือทำให้พวกเขาเชี่ยวชาญเนื้อหาในทุกระดับ คำอธิบายหนึ่งสำหรับความคลาดเคลื่อนนี้อาจเป็นเพราะคณะชีววิทยาไม่ได้รับเครื่องมือและแนวทางปฏิบัติที่จะช่วยให้พวกเขาปรับการสอนให้เข้ากับการประเมินการเรียนรู้ของนักเรียนได้ดียิ่งขึ้น เพื่อเน้นย้ำในประเด็นนี้ การวิเคราะห์คำถามสอบจากหลักสูตรในโรงเรียนแพทย์ที่ควรมุ่งพัฒนา HOCS (Whitcomb, 2006) จะเป็นการทดสอบที่ระดับความรู้ความเข้าใจที่ต่ำกว่าแทน (Zheng และคณะ, 2008).

การพัฒนาวิธีการประเมินอย่างเข้มงวดเป็นงานที่ท้าทาย และจัดสรรทรัพยากรอย่างจำกัดเพื่อสนับสนุนคณาจารย์ในความพยายามนี้ นอกจากนี้ เนื่องจากแนวโน้มในปัจจุบันของการเพิ่มขนาดชั้นเรียนและการสนับสนุนผู้ช่วยสอนที่ลดลง การสอบแบบปรนัยจึงกลายเป็นวิธีการประเมินที่ใช้งานได้จริงมากที่สุด ดังนั้นจึงมีความสำคัญมากขึ้นเรื่อย ๆ สำหรับคณาจารย์ในการใช้เวลาที่จำเป็นในการสร้างคำถามสอบแบบเลือกตอบที่ทดสอบในระดับที่สูงขึ้นของ Bloom's (Brady, 2005) ตลอดจนพัฒนาวิธีการทดสอบแบบบูรณาการ เช่น กำหนดให้นักเรียนให้เหตุผลในคำตอบของ ชุดย่อยของคำถามแบบปรนัย (Udovic, 1996 Montepare, 2005) อย่างไรก็ตาม เพื่อให้วัดผลการปฏิบัติงานของนักเรียนได้อย่างแม่นยำ เราขอแนะนำอย่างยิ่งให้คณาจารย์รวมคำถามตอบเรียงความสั้นๆ หรือคำถามประเภทอื่นๆ ที่จะทดสอบ HOCS ในการสอบของพวกเขา การเปลี่ยนแปลงในการปฏิบัติการประเมินนี้อาจต้องการการสนับสนุนการสอนเพิ่มเติมจากแผนกและฝ่ายบริหาร แต่เราเชื่อว่าสิ่งนี้สำคัญมากต่อการพัฒนาความรู้ความเข้าใจของนักเรียนของเรา

เป้าหมายของเราในการพัฒนา BBT คือการสร้างเครื่องมือประเมินสำหรับใช้งานโดยคณาจารย์ชีววิทยาและนักศึกษา เพื่อช่วยให้กระบวนการนี้สะดวกยิ่งขึ้น เราได้สร้างตัวอย่างที่หลากหลายซึ่งเน้นด้านชีววิทยา ซึ่งรวมถึงทักษะเฉพาะ (เช่น การทำกราฟ) และเนื้อหาย่อย (เช่น สรีรวิทยา) ที่นักศึกษาวิชาชีววิทยามักพบเจอ ตัวอย่างเหล่านี้ร่วมกับ BBT ได้รับการออกแบบมาเพื่อช่วยนักชีววิทยาในการจำแนกคำถามตามความท้าทายทางปัญญาที่เกี่ยวข้อง ดังนั้นจึงพัฒนาวิธีการประเมินที่สอดคล้องกับเป้าหมายการเรียนรู้ของผู้สอนมากขึ้น นอกจากนี้ยังสามารถใช้ BBT ร่วมกับ BLAST เพื่อช่วยให้นักเรียนวินิจฉัยความท้าทายในการเรียนรู้ด้วยตนเอง และพัฒนากลยุทธ์ใหม่ๆ เพื่อเสริมสร้างทักษะการคิดอย่างมีวิจารณญาณ

การนำ BBT ไปใช้ช่วยส่งเสริมการเรียนการสอนในสภาพแวดล้อมการสอนที่หลากหลาย เมื่อใช้ BBT เราสามารถระบุระดับความรู้ความเข้าใจของกิจกรรมการเรียนรู้ที่นักเรียนต้องดิ้นรนมากที่สุดและปรับแนวทางการสอนของเราตามนั้น BBT ยังช่วยให้เราสร้างความโปร่งใสในการสอนและส่งเสริมอภิปัญญาของนักเรียนอีกด้วยเช่นเคย มีการแลกเปลี่ยนเมื่อใช้เวลาเรียนเพื่อพัฒนาทักษะอภิปัญญา แทนที่จะเน้นเฉพาะเนื้อหาหลักสูตร อย่างไรก็ตาม ในกลยุทธ์การนำ BBT ไปปฏิบัติโดยนักเรียนเป็นหลัก อนุกรมวิธานของ Bloom ถูกรวมเข้ากับหัวข้อของหลักสูตรอย่างสมบูรณ์ (เช่น การออกแบบคำถามสอบในระดับต่างๆ ของ Bloom's) หลักฐานจากนักเรียนของเราชี้ให้เห็นว่าพวกเขายังคงใช้ Bloom's ต่อไปเพื่อเป็นแนวทาง กลยุทธ์การเรียนรู้ในชั้นเรียนในอนาคต จากประสบการณ์ของเราและความสำคัญที่ได้รับการบันทึกไว้อย่างดีของอภิปัญญาในการเรียนรู้ของนักเรียนในทุกสาขาวิชา รวมทั้งวิทยาศาสตร์ (Schraw, 1998 Bransford และคณะ, 2000 Pintrich, 2002 D'Avanzo, 2003 Coutinho, 2007) เราพิจารณาถึงประโยชน์ที่นักศึกษาอาจได้รับจากการเรียนรู้ของ Bloom ไปจนถึงผลที่ตามมาของเนื้อหาหลักสูตรที่ลดลงเพียงเล็กน้อย

เรามองเห็นว่า BBT สามารถช่วยให้คณาจารย์สร้างคำถามทางชีววิทยาในระดับความรู้ความเข้าใจที่เหมาะสม และในลักษณะนี้จะช่วยให้คณาจารย์มีวิธี (1) ประเมินความเชี่ยวชาญของนักเรียนทั้งเนื้อหาและทักษะทางชีววิทยา และ (2) ปรับการประเมินและวัตถุประสงค์การเรียนรู้ของพวกเขาให้ดีขึ้น เราเชื่อว่าการใช้ BBT โดยทั้งคณาจารย์และนักศึกษาจะช่วยให้นักศึกษามีความเข้าใจอย่างลึกซึ้งถึงแนวคิดและทักษะที่จำเป็นต่อการเป็นนักชีววิทยาที่ประสบความสำเร็จ ในระดับที่กว้างขึ้น BBT สามารถช่วยในการพัฒนาเครื่องมือการประเมินทางชีววิทยาที่สามารถใช้เพื่อตรวจสอบระดับของความท้าทายทางวิชาการระหว่างการสอบมาตรฐานประเภทต่างๆ ในวิทยาศาสตร์เพื่อชีวิต และเพื่ออำนวยความสะดวกในการเปรียบเทียบหลักสูตรวิชาชีววิทยาระดับวิทยาลัยและภาควิชาและระหว่างสถาบัน


ดูวิดีโอ: Protein to Translated Nucleotide BLAST: tBLASTn (สิงหาคม 2022).