ข้อมูล

จะลดจำนวนลำดับในการจัดแนวหลายลำดับได้อย่างไร

จะลดจำนวนลำดับในการจัดแนวหลายลำดับได้อย่างไร



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

ฉันมีการจัดแนวหลายลำดับซึ่งมีประมาณ 5,000 ลำดับ ยังมีอีกหลายซีเควนซ์ที่มีมากมายของ ภูมิภาคที่ไม่เรียงลำดับ (เช่น AU---CGGGCA--นนนนนนนน).

ดังนั้น จากการลองผิดลองถูก ฉันพบค่าเกณฑ์ที่ 25% ดังนั้นฉันจึงลบลำดับที่มีขอบเขตที่ไม่ได้เรียงลำดับมากกว่า 25% (N ที่นี่) โดยคงไว้ประมาณ 400 ลำดับในการจัดแนว โดยเขียน R อย่างง่าย สคริปต์

แต่ฉันอยากรู้ว่าหากมีวิธีมาตรฐานอื่นในการทำเช่นนี้เพราะฉันไม่คิดว่าการลบลำดับโดยพิจารณาจากการหาเกณฑ์สำหรับเปอร์เซ็นต์ของภูมิภาคที่ไม่ได้เรียงลำดับโดยการลองผิดลองถูกจะมีประสิทธิภาพมากกว่าถ้า มีคุณช่วยบอกฉันหน่อยว่าต้องทำอย่างไร?

ขอบคุณล่วงหน้า.


แพ็คเกจไบโอคอนดักเตอร์ "ShortRead" อาจเป็นสิ่งที่คุณตามหา

มีฟังก์ชัน "สะอาด" เพื่อลบลำดับที่มีฐานคลุมเครือ นอกจากนี้ยังสามารถลบรายการที่ซ้ำกันออกได้หากต้องการ


การทราบใบสมัครของคุณจะเป็นประโยชน์ สำหรับบางแอปพลิเคชัน การมีลำดับที่คลุมเครือไม่จำเป็นต้องเป็นปัญหาตราบใดที่คุณมีกลไกในการจัดการตำแหน่งที่ไม่ให้ข้อมูลดังกล่าว ข้อมูลจากตำแหน่งอื่นอาจยังมีคุณค่า

อีกทางเลือกหนึ่งสำหรับการลบลำดับ (แถวของเมทริกซ์การจัดตำแหน่ง) ที่มี N จำนวนมากคือการลบตำแหน่งที่ไม่ให้ข้อมูลหรือจัดตำแหน่งไม่ดี (คอลัมน์ของเมทริกซ์การจัดตำแหน่ง) ออกจากการจัดตำแหน่ง ขึ้นอยู่กับขอบเขตว่าเป้าหมายของคุณคืออะไร เครื่องมือเช่น gblocks สามารถใช้ในลักษณะนี้

ตัวอย่างเช่น หากเป้าหมายของคุณคือการดำเนินการจัดกลุ่มหรือการประเมินสายวิวัฒนาการของภูมิภาค หรือระบุพื้นที่ที่ได้รับการอนุรักษ์ไว้สูง การลบคอลัมน์ที่จัดแนวไม่ดีหรือไม่ให้ข้อมูลก็จะคุ้มค่า

ในทางกลับกัน หากเป้าหมายของคุณเกี่ยวข้องกับลำดับทั้งหมด (เช่น โครงสร้างโปรตีนหรือเฟรมการอ่านแบบเปิด) การลบแถว/ลำดับอาจเหมาะสมกว่า แต่ก็ยังไม่ชัดเจนสำหรับฉันว่าคุณจำเป็นต้องลบตำแหน่งที่คลุมเครือจริงๆ สำหรับการอภิปรายเกี่ยวกับเรื่องนี้ คุณสามารถดูหัวข้อการวิจัยเก่าหรือหัวข้อ biostars นี้


การจัดตำแหน่งหลายลำดับด้วยจุดยึดที่ผู้ใช้กำหนด

เครื่องมือซอฟต์แวร์อัตโนมัติสำหรับการจัดตำแหน่งหลายตำแหน่งมักจะล้มเหลวในการสร้างผลลัพธ์ที่มีความหมายทางชีวภาพ ในสถานการณ์เช่นนี้ ความรู้จากผู้เชี่ยวชาญสามารถช่วยปรับปรุงคุณภาพของการจัดตำแหน่งได้

ผลลัพธ์

ในที่นี้เราอธิบาย a กึ่งอัตโนมัติ เวอร์ชันของโปรแกรมการจัดตำแหน่ง DIALIGN ที่สามารถพิจารณาข้อจำกัดที่กำหนดไว้ล่วงหน้า เป็นไปได้ที่ผู้ใช้จะระบุส่วนต่าง ๆ ของลำดับที่ถือว่ามีความคล้ายคลึงกันและควรจัดตำแหน่งให้สอดคล้องกัน โปรแกรมซอฟต์แวร์ของเราสามารถใช้ไซต์เหล่านี้เป็น จุดยึด โดยการสร้างการจัดแนวหลายแนวตามข้อจำกัดเหล่านี้ ด้วยวิธีนี้ วิธีการจัดตำแหน่งของเราสามารถสร้างการจัดตำแหน่งที่มีความหมายทางชีวภาพมากกว่าการจัดตำแหน่งที่เกิดจากกระบวนการอัตโนมัติทั้งหมด เพื่อเป็นการสาธิตวิธีการทำงาน เราใช้แนวทางของเรากับลำดับจีโนมรอบๆ Hox คลัสเตอร์ของยีนและชุดของโปรตีนที่จับกับดีเอ็นเอ เป็นผลพลอยได้ เราได้รับข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพของ โลภ อัลกอริธึมที่โปรแกรมของเราใช้สำหรับการจัดตำแหน่งหลายตำแหน่งและเกี่ยวกับฟังก์ชันวัตถุประสงค์พื้นฐาน ข้อมูลนี้จะเป็นประโยชน์สำหรับการพัฒนา DIALIGN ต่อไป วิธีการจัดตำแหน่งที่อธิบายไว้ได้ถูกรวมเข้ากับระบบซอฟต์แวร์ TRACKER แล้ว


บทนำ

โปรตีนทรานส์เมมเบรนหรือโปรตีนอินทิกรัลเป็นที่รู้จักสำหรับบทบาทที่หลากหลายภายในระบบเซลล์ เช่น การสื่อสาร เมแทบอลิซึม และการควบคุม ประมาณ 30% ของโปรตีนที่เข้ารหัสโดยจีโนมของสัตว์เลี้ยงลูกด้วยนมเป็นโปรตีนเมมเบรน 1 ที่น่าสนใจคือ ครึ่งหนึ่งของโมเลกุลยาสร้างผลกระทบบางอย่างต่อโปรตีนเมมเบรน อีกเหตุผลหนึ่งที่โปรตีนจากเมมเบรนมีความสำคัญมาก โปรตีนเมมเบรนยังมีส่วนร่วมในกระบวนการต่างๆ ของเซลล์ เช่น การยึดเกาะของเซลล์ การป้องกันภูมิคุ้มกัน เมตาบอลิซึม และการถ่ายทอดสัญญาณ 2 นอกจากนี้ โปรตีนจากเมมเบรนยังเป็นตัวกำหนดเป้าหมายของยา เนื่องจากมีบทบาทสำคัญในการเป็นตัวขนส่ง ตัวรับ และโปรตีนโครงสร้าง ตลอดจนผลกระทบต่อกระบวนการภายในเซลล์ที่ปลายน้ำ 3 ธรรมชาติที่ซับซ้อนและการมีส่วนร่วมของโปรตีนเมมเบรนในกระบวนการทางชีววิทยาที่หลากหลายทำให้เป็นหัวข้อการวิจัยที่จำเป็น โปรตีนเมมเบรนเป็นที่รู้จักสำหรับความซับซ้อนในการกำหนดโครงสร้างโดยการทดลอง 4 โครงสร้างโปรตีนเมมเบรนเพียง 3099 เท่านั้นที่มีจนถึงวันที่กับ Protein Data Bank of transmembrane proteins เวอร์ชัน 2017.02.10 5 การขาดข้อมูลนี้เป็นแรงบันดาลใจให้กลุ่มวิจัยหลายกลุ่มคาดการณ์โครงสร้างของโปรตีนเมมเบรนโดยการสร้างแบบจำลองความคล้ายคลึงกัน ในการสร้างแบบจำลองความคล้ายคลึงกัน โครงสร้างที่ไม่รู้จักของลำดับเป้าหมายถูกจำลองบนโครงสร้างที่รู้จัก (แม่แบบ) ของโปรตีนที่เกี่ยวข้องกันที่อยู่ห่างไกล เพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับการทำงานของโปรตีนเมมเบรน การศึกษาดังกล่าวอาศัยวิธีการตรวจหาความสัมพันธ์ระหว่างโปรตีนสองชนิด จากนั้นจึงจัดลำดับของโปรตีนตามลำดับ นอกจากนี้ การแปรผันที่กว้างสามารถตรวจพบได้ที่ระดับลำดับภายในกลุ่มโปรตีนเมมเบรน ซึ่งจะเป็นการเพิ่มความซับซ้อนและข้อผิดพลาดในการจัดแนว

การจัดตำแหน่งลำดับของโปรตีนทรานส์เมมเบรนหลายลำดับถูกกล่าวถึงครั้งแรกโดย Cserzo 6 ตามด้วย Bahr 7 และในช่วงหลายปีที่ผ่านมา มีการพัฒนาวิธีการและเครื่องมือเพิ่มเติมอีกสองสามวิธีสำหรับการจัดตำแหน่งลำดับโปรตีนของเมมเบรน วิธีการจัดตำแหน่งหลายลำดับ (MSA) เช่น Kalign 8 , MAFFT 9 , Muscle 10 และ ClustalW ได้รับความแม่นยำจากเกณฑ์ 'ความสม่ำเสมอ' และ/หรือการเพิ่มประสิทธิภาพแบบวนซ้ำ แนวทางที่ยึดตามความสม่ำเสมอมีจุดมุ่งหมายเพื่อสร้างการจัดตำแหน่งหลายลำดับที่สอดคล้องกับไลบรารีการจัดตำแหน่งแบบคู่ระหว่างลำดับที่จัดตำแหน่งได้ดีที่สุด TM-Coffee 11 , PRALINETM 12 และ Promals 13 อิงตามแบบจำลองความคล้ายคลึง 14 ซึ่งพบว่าทำงานได้ดีในการจัดเรียงของโปรตีนเมมเบรนจากเกณฑ์มาตรฐาน BALiBASE2.0 7 การขาดแคลนโครงสร้างโปรตีนเมมเบรนที่รู้จักใน PDB มักนำไปสู่ความเหมือนกันของลำดับต่ำในเทมเพลตที่ดีที่สุด ซึ่งมักจะต่ำกว่า 30% แม้จะมีเครื่องมือที่ใช้ความคล้ายคลึงกันสำหรับการจัดเรียงหลายลำดับของโปรตีนทรานส์เมมเบรน แต่ก็มีแนวโน้มว่าบริเวณทรานส์เมมเบรนจำนวนมากยังคงไม่ถูกตรวจพบหรือไม่อยู่ในแนวเดียวกันเนื่องจากข้อจำกัดของวิธีการที่มีอยู่ เช่น จำนวนลำดับอินพุต เวลาตอบสนอง และการพึ่งพาโครงสร้าง ในทางกลับกัน TM-Aligner ไม่ได้ทำงานบนแนวทางที่อิงจากความคล้ายคลึงกันของโครงสร้างและไม่มีการจำกัดจำนวนลำดับและใช้เวลาตอบสนองน้อยมาก TM-Aligner สามารถทำการจัดตำแหน่งหลายลำดับของโปรตีนเมมเบรนได้ไม่จำกัดจำนวนในทุกความยาว

เนื่องจากโปรตีนเมมเบรนชีวภาพมีทรานส์เมมเบรนระหว่างบริเวณไซโตพลาสซึมและไม่ใช่ไซโตพลาสซึม ดังนั้นแม้ในลำดับที่คล้ายคลึงกันในระดับต่ำ การจัดตำแหน่งที่แม่นยำก็เป็นไปได้โดยการแบ่งลำดับออกเป็นส่วนต่างๆ และจัดแนวแยกจากกัน จากนั้นการจัดแนวเหล่านี้จะถูกเย็บเข้าด้วยกันอย่างแม่นยำเพื่อไม่ให้บริเวณทรานส์เมมเบรนถูกรบกวนและสารตกค้างที่สำคัญภายในกลุ่มโปรตีนจะถูกอนุรักษ์ไว้ตลอดกระบวนการจัดตำแหน่ง TM-Aligner เป็นเครื่องมือที่ไม่มีเงื่อนไข (ในแง่ของความยาวและจำนวนลำดับ) ซึ่งสามารถจัดแนวโปรตีนเมมเบรนได้อย่างแม่นยำและตอบสนอง TM-Aligner ได้รับการออกแบบให้เป็นวิธีการจัดตำแหน่งแบบก้าวหน้าระดับโลกที่ไม่เหมือนใครสำหรับการจัดตำแหน่งโปรตีนเมมเบรน วิธีการแบบก้าวหน้าหรือแบบต้นไม้จะจัดแนวลำดับที่คล้ายกันส่วนใหญ่ก่อน จากนั้นจึงเพิ่มลำดับที่คล้ายกันน้อยลงในการจัดตำแหน่งอย่างต่อเนื่องจนกว่าลำดับทั้งหมดจะถูกจัดตำแหน่ง TM-Aligner ใช้วิธี UPGMA 15 เพื่อสร้างแผนผังแนะนำเริ่มต้นที่อธิบายความเกี่ยวข้องของลำดับ ในการทำนายบริเวณทรานส์เมมเบรน มีการใช้ TMHMM 16 และจัดตำแหน่งโดยใช้โปรแกรมแบบไดนามิกและอัลกอริทึมการจับคู่สตริงของ Wu-Manber 17 เพื่อต่อส่วนต่างๆ เข้าด้วยกัน


วิธีการ

การจัดตำแหน่งแบบก้าวหน้า

วิธีการก้าวหน้าเป็นหนึ่งในกลยุทธ์การจัดตำแหน่งพื้นฐานที่ใช้สำหรับ MSA เป็นที่ทราบกันว่าให้ผลลัพธ์ที่ดีพอสมควร และเป็นวิธีฮิวริสติกที่ใช้กันอย่างแพร่หลายมากที่สุดสำหรับ MSA 14 ดังนั้นจึงได้รับเลือกให้เป็นแกนหลักของอัลกอริทึมของเรา โฟลว์พื้นฐานของกลยุทธ์แบบก้าวหน้าคือการเตรียมแผนผังนำทางและใช้ชุดการจัดตำแหน่งแบบคู่เพื่อจัดแนวลำดับตามลำดับการแตกแขนงในแผนผังไกด์ แผนผังไกด์ถูกสร้างขึ้นตามระยะห่างของลำดับคู่ ต้นไม้ไกด์ถูกสร้างขึ้นในลำดับจากคู่ที่สั้นที่สุดไปไกลที่สุด ในขั้นต้น คู่ลำดับที่เกี่ยวข้องอย่างใกล้ชิดที่สุดจะถูกจัดตำแหน่ง จากนั้นลำดับที่เหลือจะถูกจัดแนวไปยังการจัดตำแหน่งก่อนหน้าจนกว่าลำดับทั้งหมดจะถูกจัดตำแหน่ง การจัดตำแหน่งแบบคู่จะดำเนินการในแต่ละขั้นตอนและจะได้รับการขัดเกลาในขั้นตอนสุดท้ายพร้อมกับสรุปการจัดตำแหน่ง ในขั้นตอนการปรับแต่ง จะมีการทบทวนช่องว่างช่วงแรกๆ เพื่อปรับบทลงโทษตามลำดับที่จัดแนวจากการจัดตำแหน่งคู่อื่นๆ มีอัลกอริธึม MSA จำนวนมากที่ใช้รูปแบบที่ปรับเปลี่ยนของวิธีการแบบก้าวหน้า 2 รายละเอียดเกี่ยวกับวิธีการจัดตำแหน่งแบบโปรเกรสซีฟพร้อมกับรหัสหลอกมีอยู่ในวัสดุเสริม (ข้อมูล S2)

การสร้างแผนผังและการจัดตำแหน่งแบบคู่เป็นปัจจัยหลักสำหรับเวลาดำเนินการและการใช้หน่วยความจำในวิธีการจัดตำแหน่งแบบก้าวหน้า การใช้โครงสร้างข้อมูล เช่น suffix tree ซึ่งช่วยให้สามารถจัดเก็บอย่างมีประสิทธิภาพและค้นหา substring ทั่วไปของลำดับได้อย่างรวดเร็ว ช่วยในการปรับปรุงความซับซ้อนของขั้นตอนแผนผังคำแนะนำ ในทำนองเดียวกัน การจัดตำแหน่งแบบคู่จะดำเนินการโดยใช้วิธีการโปรแกรมแบบไดนามิก ซึ่งจะกลายเป็นกระบวนการที่ใช้เวลานานที่สุดเมื่อลำดับที่เกี่ยวข้องกับ MSA มีขนาดค่อนข้างใหญ่ อัลกอริธึมการเขียนโปรแกรมแบบไดนามิกที่มีขอบเขตใช้เพื่อเพิ่มประสิทธิภาพของการจัดตำแหน่งแบบคู่

จากทรีส่วนต่อท้าย สตริงย่อยทั่วไปสามารถแยกออกได้อย่างรวดเร็วสำหรับลำดับดีเอ็นเอที่คล้ายคลึงกันอย่างมาก ซึ่งจะทำให้เฉพาะพื้นที่ที่ไม่ตรงกันเท่านั้นที่จะจัดแนว อัลกอริธึมการจัดตำแหน่งคู่ที่ได้รับการดัดแปลงยังช่วยปรับปรุงเวลาดำเนินการและการใช้หน่วยความจำให้ดีขึ้นอย่างมากเมื่อความคล้ายคลึงกันระหว่างลำดับเพิ่มขึ้น

Suffix Trees เพื่อเพิ่มการจัดตำแหน่งของลำดับที่คล้ายคลึงกัน

แผนผังส่วนต่อท้ายช่วยเพิ่มประสิทธิภาพการค้นหาในสตริงที่จัดทำดัชนีได้อย่างมาก และด้วยเหตุนี้จึงมีการใช้กันอย่างแพร่หลายในปัญหาที่เกี่ยวข้องกับการจับคู่รูปแบบ การค้นหาสตริงย่อย ฯลฯ อัลกอริธึมการจัดตำแหน่งที่มีอยู่จำนวนมากใช้แผนผังส่วนต่อท้ายเพื่อระบุสตริงย่อยที่ตรงกัน และมีอัลกอริธึมที่แตกต่างกันสำหรับการสร้างต้นต่อท้าย 15 ,16,17,18,19,20,21 . Ukkonen suffix tree construction 15 ได้รับการปฏิบัติตามในการดำเนินการเนื่องจากมีความเหนือกว่าในแง่ของเวลาและความซับซ้อนของพื้นที่ 22

ลำดับอินพุตแต่ละรายการจะถูกแบ่งเป็นส่วนๆ ที่มีขนาดเท่ากัน และส่วนเหล่านี้ใช้เพื่อสร้างแผนผังส่วนต่อท้าย ต้นไม้ส่วนต่อท้ายมีลักษณะเฉพาะด้วยรากและแต่ละขอบมีป้ายกำกับโดยนิวคลีโอไทด์ในลำดับ สำหรับโหนดใด ๆ วี, สตริงที่เกิดขึ้นจากการต่อเลเบลขอบจากรูทถึง วี คือเส้นทางไปยังโหนดนั้น เส้นทาง(v). เป็นที่ทราบกันว่าทรีต่อท้ายให้เวลาในการค้นหาที่เหมาะสมที่สุด 16,23 ซึ่งหมายความว่าการระบุโหนด วีซึ่งอยู่ใกล้กับรูทมากที่สุดสำหรับรูปแบบ P ที่กำหนด โดยที่ P เป็นคำนำหน้าของ เส้นทาง(v) สามารถทำได้ในเวลา เชิงเส้น กับความยาวของพี ใบไม้ทั้งหมดในทรีย่อยของโหนด วี จากนั้นแสดงการเกิดขึ้นของรูปแบบ P ในสตริง S

ถ้ามี NS ลำดับดีเอ็นเอที่มีความยาวเฉลี่ยของ NSความซับซ้อนของเวลาในการสร้างทรีต่อท้ายสำหรับหนึ่งลำดับคือ อู๋(NS) (บรรทัดที่ 2–3 ในอัลกอริทึม 1) หลังจากสร้างแผนผังส่วนต่อท้ายแล้ว ให้ค้นหาแผนผังส่วนต่อท้ายสำหรับแต่ละเซ็กเมนต์ของคู่ลำดับทุกคู่เพื่อระบุสตริงย่อยทั่วไปและเซ็กเมนต์ที่ตรงกัน กำลังค้นหา NS ลำดับในต้นทุนต้นต่อท้าย อู๋(นาโนเมตร) (บรรทัดที่ 5-7 ในอัลกอริธึม 1) สำหรับเซ็กเมนต์ที่ไม่ตรงกัน ให้บันทึกเปอร์เซ็นต์เอกลักษณ์และความแตกต่างของความยาว หากมี เนื่องจากลำดับถูกแบ่งพาร์ติชันให้เป็นเซ็กเมนต์ที่มีขนาดเท่ากัน เฉพาะเซ็กเมนต์สุดท้ายของทุกลำดับเท่านั้นที่จะมีความยาวต่างกัน เฉพาะส่วนที่ไม่ตรงกันเท่านั้นที่จะได้รับการพิจารณาสำหรับการจัดตำแหน่งแบบคู่ และคุณลักษณะเช่น เปอร์เซ็นต์เอกลักษณ์และความแตกต่างในความยาวจะถูกนำมาใช้เพื่อดึงการเรียนรู้จากฐานความรู้ แผนผังแนวทางสำหรับการจัดตำแหน่งแบบคู่จะเกิดขึ้นตามการวัดความคล้ายคลึงกันที่แยกออกมาสำหรับคู่ของลำดับแต่ละคู่

อัลกอริธึม N-W ที่ปรับเปลี่ยนสำหรับการจัดตำแหน่งแบบคู่

การวิจัยก่อนหน้านี้ของเราได้พิสูจน์แล้วว่า สำหรับการจัดตำแหน่งคู่ การจัดตำแหน่งที่เหมาะสมที่สุดสามารถทำได้โดยการเติมเส้นทแยงมุมของเมทริกซ์ 13 ในจำนวนที่จำกัด จำนวนเส้นทแยงมุมที่จะเติมเพื่อให้ได้การจัดตำแหน่งที่เหมาะสมจะไม่คงที่ในทุกกรณี ดังนั้นจึงจำเป็นต้องหาจำนวนเส้นทแยงมุมขั้นต่ำที่จะเติมเป็นข้อกำหนดเบื้องต้น ทำได้โดยใช้วิธีการพล็อตดอท ด้วยการปรับเปลี่ยนอัลกอริธึม dotlet 24 บางส่วน จึงสามารถหาจำนวนเส้นทแยงมุมที่จะเติมได้ ผลการทดสอบได้พิสูจน์แล้วว่าความคล้ายคลึงกันระหว่างลำดับและจำนวนเส้นทแยงมุมที่จะเติมนั้นเป็นสัดส่วนผกผัน จากการวิจัยก่อนหน้านี้ 13 ของเรา ลำดับที่มี % เอกลักษณ์ (มากกว่า 50%) และความแตกต่างของความยาว (น้อยกว่า 25%) ได้รับรายงานว่าได้รับการปรับปรุง 50% ในการใช้หน่วยความจำและเวลาในการดำเนินการในการจัดตำแหน่งคู่

ในแนวทางของเรา การจัดตำแหน่งแบบคู่จะดำเนินการสำหรับกลุ่มที่ไม่ตรงกันเท่านั้น เมื่อความคล้ายคลึงระหว่างลำดับเพิ่มขึ้น จำนวนส่วนที่จะจัดแนวจะลดลง อัลกอริธึมการจัดตำแหน่งที่ปรับเปลี่ยนช่วยลดความซับซ้อนเมื่อความคล้ายคลึงกันเพิ่มขึ้น คู่ส่วนที่อยู่ไกลที่สุดจากลำดับอินพุตจะถูกเลือกเพื่อระบุจำนวนเส้นทแยงมุมที่จะเติม สิ่งนี้ช่วยปรับปรุงเวลาในการดำเนินการ และในขณะเดียวกันก็ทำให้มั่นใจได้ว่าการจัดตำแหน่งแบบคู่ทั้งหมดมีการจัดตำแหน่งที่เหมาะสมที่สุด เนื่องจากจะเป็นจำนวนสูงสุดของเส้นทแยงมุมสำหรับชุดอินพุตที่กำหนด แม้ว่าขั้นตอนนี้เกี่ยวข้องกับการจัดตำแหน่งแบบคู่เพียงจุดเดียว แต่ก็อาจมีค่าใช้จ่ายสูงสำหรับลำดับที่มีขนาดใหญ่มาก ดังนั้น ฐานความรู้จึงถูกสร้างขึ้นด้วยข้อมูลการฝึกอบรม และชั้นการเรียนรู้ด้วยอัลกอริธึมเพื่อนบ้านที่ใกล้ที่สุดจึงถูกใช้เพื่อดึงความรู้ออกจากฐานความรู้ ด้วยการเรียนรู้ที่มากขึ้น ฐานความรู้จะมีความแม่นยำมากขึ้นและจะส่งผลให้เรียนรู้ได้เร็วขึ้น

ในการจัดตำแหน่งคู่ตามการเขียนโปรแกรมแบบไดนามิกแบบดั้งเดิม ความซับซ้อนคือ อู๋(NS 2) สำหรับส่วนลำดับที่มีความยาว NS. ในแนวทางการจัดตำแหน่งที่ปรับเปลี่ยนของเรา ความซับซ้อนจะลดลงถึง อู๋(NS * k) + อู๋(2NS * NS) โดยที่ k คือความแตกต่างของความยาว และ d คือจำนวนเส้นทแยงมุมที่เติม ในกรณีที่มีลำดับที่ใกล้เคียงกันมาก k → 0 และ (dll m) ดังนั้นความซับซ้อนจึงกลายเป็น อู๋(NS) เปรียบเทียบกับ อู๋(NS 2) ในกรณีของวิธีการโปรแกรมไดนามิกแบบดั้งเดิมที่เราเติมเมทริกซ์ทั้งหมด ความซับซ้อนของกรณีที่เลวร้ายที่สุดจะเป็น อู๋(NS 2) เป็น 2NS * NS จะเท่ากับ NS 2 เมื่อความคล้ายคลึงระหว่างลำดับลดลง

ชั้นการเรียนรู้ภายใต้การดูแล

การเขียนโปรแกรมแบบไดนามิกที่มีขอบเขตสำหรับการจัดตำแหน่งแบบคู่เป็นกุญแจสำคัญในแนวทางของเราในการบรรลุประสิทธิภาพที่ดีขึ้น จากผลการทดสอบ 13 เป็นที่ทราบกันว่าจำนวนเส้นทแยงมุมที่จะเติมขึ้นอยู่กับระดับความเหมือนและความแตกต่างของความยาว ความรู้เดิมเกี่ยวกับจำนวนเส้นทแยงมุมที่จะเติมเป็นข้อกำหนดเบื้องต้นสำหรับขั้นตอนการจัดตำแหน่งคู่ การใช้ชุดข้อมูลการฝึกอบรม ฐานความรู้จะถูกสร้างขึ้นด้วยการแมปของลำดับที่คล้ายคลึงกันกับจำนวนเส้นทแยงมุม การวัดความคล้ายคลึงกันของลำดับ (การระบุเปอร์เซ็นต์และความแตกต่างของความยาว) สำหรับส่วนที่อยู่ไกลที่สุดจะใช้สำหรับการดึงความรู้จากฐานความรู้ อัลกอริทึมเพื่อนบ้านที่ใกล้ที่สุดใช้เพื่อระบุรายการที่ตรงกันที่สุดจากฐานความรู้ 25,26 มิติข้อมูลน้อยลง (เปอร์เซ็นต์เอกลักษณ์และความแตกต่างของความยาว) สำหรับการจดจำรูปแบบเป็นแรงผลักดันเบื้องหลังการเลือกเพื่อนบ้านที่ใกล้ที่สุดเป็นอัลกอริทึมการเรียนรู้ รายละเอียดเพิ่มเติมเกี่ยวกับอัลกอริธึมเพื่อนบ้านที่ใกล้ที่สุดมีอยู่ในวัสดุเสริม (ข้อมูล S3)

(การสร้างฐานความรู้/การเรียนรู้).

เลเยอร์การเรียนรู้ใช้เปอร์เซ็นต์เอกลักษณ์และความแตกต่างของความยาวเป็นคุณสมบัติในการจำแนกลำดับอินพุต สำหรับคู่ของซีเควนซ์แต่ละคู่ คุณลักษณะเหล่านี้จะถูกดึงออกมา และเลือกการรวมกันของค่าสูงสุดสำหรับความแตกต่างของความยาวและค่าต่ำสุดสำหรับข้อมูลประจำตัวสำหรับชุดข้อมูลอินพุต จากนั้นจึงจับคู่กับฐานความรู้เพื่อระบุชุดที่ใกล้เคียงที่สุด อัลกอริทึมจะตรวจสอบการจับคู่แบบตรงทั้งหมดตั้งแต่แรก และในกรณีที่ไม่มีการจับคู่แบบตรงทั้งหมด ให้ตรวจสอบการจับคู่ที่ใกล้เคียงที่สุด (ภายในช่วง ±(2–3)%) จำนวนเส้นทแยงมุมจะถูกดึงออกมาสำหรับการจับคู่ที่ใกล้เคียงที่สุดนี้และจะใช้สำหรับการจัดตำแหน่งคู่ใน MSA แบบก้าวหน้า ทุกครั้งที่พบชุดคุณลักษณะใหม่ ซึ่งไม่มีการจับคู่ที่ใกล้เคียงที่สุดในฐานความรู้ อัลกอริทึม dotlet จะดำเนินการเพื่อระบุจำนวนเส้นทแยงมุม การเรียนรู้นี้จะเข้าสู่ฐานความรู้สำหรับการจัดตำแหน่งในอนาคต รายการเพิ่มเติมในฐานความรู้จะช่วยปรับปรุงประสิทธิภาพและความถูกต้องของการจัดตำแหน่ง รูปที่ 1 แสดงการไหลของอัลกอริทึมพร้อมข้อมูลตัวอย่าง

การไหลของตัวอย่างอัลกอริทึม SPARK-MSNA

การใช้งานแบบขนานกับ Spark

การคำนวณแบบขนานดำเนินการโดยใช้โมเดล MapReduce ในสองขั้นตอนในอัลกอริทึม การสร้างต้นไม้ส่วนต่อท้ายและการจัดตำแหน่งแบบคู่ของวิธีโปรเกรสซีฟ MapReduce สามารถใช้งานได้โดยใช้ Hadoop หรือ Spark เนื่องจากการปรับปรุงเวลาที่เพิ่มขึ้นโดย Spark ด้วยการคำนวณในหน่วยความจำ Spark จึงถูกเลือกให้เป็นเฟรมเวิร์ก MapReduce 27 รายละเอียดเพิ่มเติมเกี่ยวกับโมเดลการเขียนโปรแกรม MapReduce มีอยู่ในเอกสารประกอบ (Data S4)

แม้ว่าการใช้แผนผังส่วนต่อท้ายด้วยอัลกอริทึมของ Ukkonen จะทำให้เกิดความซับซ้อนของเวลาเชิงเส้น แต่ก็อาจมีค่าใช้จ่ายสูงเมื่อลำดับที่เกี่ยวข้องมีขนาดค่อนข้างใหญ่ ประสิทธิภาพได้รับการปรับปรุงเพิ่มเติมด้วยการสร้างแบบขนานโดยใช้โปรแกรม MapReduce รุ่น 28 ต้นไม้ต่อท้ายถูกแบ่งในแนวตั้ง และแต่ละพาร์ติชั่นถูกสร้างขึ้นอย่างอิสระ คำนำหน้าที่สร้างจากการแบ่งพาร์ติชันในแนวตั้งจะสร้างคีย์และตำแหน่งเริ่มต้นสร้างค่า คู่คีย์-ค่านี้ได้รับการประมวลผลโดยใช้งานแผนที่ และทรีย่อยถูกสร้างขึ้นแบบขนานโดยโหนดคอมพิวท์ โครงสร้างต้นไม้ส่วนต่อท้ายจากทรีย่อยถูกรวมเข้ากับงานแผนที่เพื่อลดโอเวอร์เฮดของการสับเปลี่ยนและลดขนาดลง อัลกอริธึม 4A แสดงโฟลว์สำหรับฟังก์ชันแผนที่ของการสร้างต้นต่อท้าย

ขั้นตอนการจัดตำแหน่งแบบคู่จะตรวจสอบส่วนที่ตรงกันและส่วนที่ไม่ตรงกันเพียงอย่างเดียวจะถูกนำไปใช้สำหรับการจัดตำแหน่งแบบคู่ การจัดตำแหน่งเซ็กเมนต์แบบคู่ขนานกันโดยใช้โมเดล MapReduce ชื่อของลำดับที่มีดัชนีเซ็กเมนต์คือคีย์ และเซ็กเมนต์ของลำดับคือค่าสำหรับเฟสของแผนที่นี้ จากนั้นโหนดคอมพิวท์แต่ละโหนดจะทำการจัดตำแหน่งแบบคู่โดยใช้อัลกอริธึมคู่ที่แก้ไขแล้ว ผลลัพธ์จะถูกส่งต่อในรูปแบบของคู่คีย์-ค่า โดยที่คีย์คือชื่อลำดับที่มีดัชนีเซ็กเมนต์ และค่าคือลำดับที่จัดแนว เซ็กเมนต์ลำดับที่สอดคล้องสำหรับหนึ่งคู่ของลำดับจะถูกรวมเข้ากับงานแผนที่เพื่อหลีกเลี่ยงค่าใช้จ่ายของงานลด อัลกอริธึม 4B แสดงโฟลว์ของฟังก์ชันแผนที่สำหรับการจัดตำแหน่งแบบคู่

(ฟังก์ชั่นแผนที่สำหรับการสร้าง Suffix tree)

(ฟังก์ชันแผนที่สำหรับการจัดตำแหน่งคู่)

การดำเนินการแบบขนานไม่ได้ปรับปรุงความซับซ้อนของอัลกอริทึม แต่ช่วยในการปรับปรุงเวลาดำเนินการ เมื่อเรามีจำนวนโหนดคอมพิวท์เท่ากับหรือมากกว่าจำนวนพาร์ติชั่นที่จะประมวลผล เวลาดำเนินการจะเทียบเท่ากับการประมวลผลพาร์ติชั่นเดี่ยวบวกกับโอเวอร์เฮดเพิ่มเติมสำหรับเฟสลดเพื่อสร้างผลลัพธ์สุดท้าย ในกรณีที่จำนวนโหนดคอมพิวท์น้อยกว่า กลุ่มพาร์ติชั่นจะถูกสร้างขึ้นและประมวลผลกลุ่มพาร์ติชั่นแบบขนาน เพื่อประสิทธิภาพที่ดีขึ้นเมื่อเทียบกับการรันตามลำดับ กรอบงาน Spark ลดค่าใช้จ่ายของเครือข่ายโดยใช้แนวคิดเกี่ยวกับพื้นที่ข้อมูลของ MapReduce แต่การรวมผลลัพธ์กลางที่กระจัดกระจายเพื่อสร้างผลลัพธ์สุดท้ายจะอยู่ที่นั่นเสมอ แต่ในกรณีของชุดข้อมูลขนาดใหญ่ โอเวอร์เฮดเพิ่มเติมนี้จะต่ำกว่ามากเมื่อเทียบกับการดำเนินการตามลำดับหรือการคำนวณแบบกระจาย (OpenMP/MPI) รูปที่ 2 แสดงแผนผังลำดับงานของอัลกอริทึม

แผนผังลำดับงานของอัลกอริทึม SPARK-MSNA


บทนำ

การจัดตำแหน่งหลายลำดับ (MSA) ของชุดของลำดับที่คล้ายคลึงกันเป็นขั้นตอนสำคัญของสายวิวัฒนาการระดับโมเลกุล ซึ่งเป็นศาสตร์แห่งการอนุมานความสัมพันธ์เชิงวิวัฒนาการจากข้อมูลลำดับโมเลกุล ข้อผิดพลาดในการวิเคราะห์สายวิวัฒนาการอาจเกิดจากการอนุมานความคล้ายคลึงของไซต์อย่างไม่ถูกต้องหรือความอิ่มตัวของการแทนที่หลายตัว [1] ซึ่งมักแสดงเป็นตำแหน่งที่แตกต่างกันอย่างมากใน MSA ในการลบข้อผิดพลาดและไซต์ที่ไม่ให้ข้อมูลทางสายวิวัฒนาการ หลายวิธี "ตัดแต่ง" หรือกรองไซต์ที่มีความแตกต่างอย่างมากโดยใช้การคำนวณของไซต์/ภูมิภาคที่ไม่เหมือนกันจาก MSA [1–4] ผลพลอยได้จากการตัดแต่ง MSA โดยเฉพาะอย่างยิ่งสำหรับการศึกษาที่วิเคราะห์ MSA หลายร้อยรายการจากแท็กซ่านับพัน [5] คือการตัดแต่ง MSA ช่วยลดเวลาและหน่วยความจำในการคำนวณที่จำเป็นสำหรับการอนุมานสายวิวัฒนาการ ทุกวันนี้ การตัดแต่ง MSA เป็นส่วนประจำของการอนุมานสายวิวัฒนาการระดับโมเลกุล [6]

แม้จะมีความนิยมอย่างล้นหลามของกลยุทธ์การตัดแต่ง MSA แต่การศึกษาเมื่อเร็ว ๆ นี้เปิดเผยว่าการตัดแต่งมักจะลดลงแทนที่จะเพิ่มขึ้น ความถูกต้องของการอนุมานสายวิวัฒนาการ [7] การลดลงนี้ชี้ให้เห็นว่ากลยุทธ์ในปัจจุบันอาจลบไซต์ที่ให้ข้อมูลสายวิวัฒนาการ (เช่น ไซต์ที่ให้ข้อมูลเชิงวิวัฒนาการและตัวแปร) ที่เคยแสดงให้เห็นว่ามีส่วนทำให้เกิดความแม่นยำในสายวิวัฒนาการ [8] นอกจากนี้ ยังแสดงให้เห็นว่าความไม่ถูกต้องของสายวิวัฒนาการมีความสัมพันธ์เชิงบวกกับจำนวนไซต์ที่ถูกลบ [7] ซึ่งเผยให้เห็นการประนีประนอมด้านความเร็วและความแม่นยำ โดยที่ MSA ที่ตัดแต่งแล้วจะลดเวลาในการคำนวณของการอนุมานสายวิวัฒนาการ แต่ด้วยต้นทุนความแม่นยำที่ลดลง การค้นพบเหล่านี้เน้นให้เห็นถึงความจำเป็นในกลยุทธ์การตัดแต่ง MSA ทางเลือก

เพื่อตอบสนองความต้องการนี้ เราได้พัฒนา ClipKIT ซึ่งเป็นอัลกอริธึมการตัดแต่ง MSA ตามกรอบแนวคิดใหม่ แทนที่จะมุ่งหมายที่จะระบุและลบไซต์ที่ไม่ให้ข้อมูลเชิงวิวัฒนาการในสายวิวัฒนาการใน MSA แทน ClipKIT มุ่งเน้นไปที่การระบุและรักษาไซต์ที่ให้ข้อมูลเชิงพารซิโมนี ซึ่งได้แสดงให้เห็นก่อนหน้านี้ เพื่อเป็นข้อมูลสายวิวัฒนาการ [8]. ClipKIT ใช้กลยุทธ์การตัดแต่งทั้งหมด 5 แบบ กลยุทธ์การตัดแต่ง ClipKIT บางอย่างช่วยให้ผู้ใช้สามารถรักษาไซต์ที่คงที่ได้ ซึ่งแจ้งความถี่พื้นฐานในแบบจำลองการแทนที่ [9] และ/หรือการจัดตำแหน่งการตัดแต่งตามเศษส่วนของแท็กซ่าที่แสดงโดยช่องว่างต่อไซต์ (หรือช่องว่างของไซต์) เราทดสอบความแม่นยำและการสนับสนุนของการอนุมานสายวิวัฒนาการโดยใช้ ClipKIT และซอฟต์แวร์การตัดแต่งการจัดแนวอื่น ๆ โดยใช้การจัดตำแหน่งเกือบ 140,000 ตำแหน่งจากชุดข้อมูลเชิงประจักษ์ของลำดับยีสต์ในสัตว์เลี้ยงลูกด้วยนมและยีสต์ [8] และชุดข้อมูลจำลองของ metazoans พืช เชื้อราที่เป็นเส้นใย และตัวอย่างขนาดใหญ่ของยีสต์ที่ผลิใบ ลำดับ [10–13] เราพบว่าการจัดตำแหน่งที่ตัดแต่งด้วย ClipKIT นำไปสู่การอนุมานสายวิวัฒนาการที่ถูกต้องและได้รับการสนับสนุนอย่างดี ซึ่งมีประสิทธิภาพเหนือกว่าซอฟต์แวร์การตัดแต่งการจัดตำแหน่งอื่นๆ อย่างสม่ำเสมอ นอกจากนี้ เราทราบด้วยว่าการจัดตำแหน่งที่ตัดแต่งด้วย ClipKIT สามารถประหยัดเวลาในการคำนวณในระหว่างการอนุมานสายวิวัฒนาการได้ เมื่อนำมารวมกัน ผลลัพธ์ของเราแสดงให้เห็นว่าการตัดแต่งการจัดตำแหน่งตามการระบุและการรักษาตำแหน่งข้อมูล Parsimony เป็นกลยุทธ์การตัดแต่งการจัดตำแหน่งที่มีประสิทธิภาพ


พารามิเตอร์

  • -o, --outfile <string> ระบุชื่อไฟล์เอาต์พุต (STDOUT โดยค่าเริ่มต้น)
  • -num_threads <integer> ระบุจำนวนเธรดที่ใช้ และตรวจหาโดยอัตโนมัติ
  • -clustalw ใช้รูปแบบเอาต์พุต CLUSTALW แทนรูปแบบ FASTA
  • -ค, --consistency REPS ใช้ 0 outfile" หรือ "msaprobs infile -o outfile"

ส่งออกการจัดตำแหน่งหลายรายการในรูปแบบ FASTA ไปยังไฟล์ "outfile"

ใช้ 4 เธรดเพื่อเร่งการดำเนินการจัดตำแหน่งหลายรายการ

การใช้ BioPerl

MSAProbs ได้รับการสนับสนุนโดย BioPerl วิธีการใช้โปรแกรมนี้ใน BioPerl? คลิกที่นี่เพื่อดูรายละเอียด


วิธีคำนวณการจัดตำแหน่งหลายลำดับสำหรับสตริงข้อความ

ฉันกำลังเขียนโปรแกรมที่ต้องคำนวณการจัดตำแหน่งหลายลำดับของชุดสตริง ฉันกำลังคิดจะทำสิ่งนี้ใน Python แต่ฉันสามารถใช้ซอฟต์แวร์ภายนอกหรือภาษาอื่นได้หากใช้งานได้จริง ข้อมูลมีขนาดไม่ใหญ่มาก ฉันไม่มีข้อกำหนดด้านประสิทธิภาพที่ชัดเจน และฉันสามารถทนต่อการประมาณได้ (เช่น ฉันแค่ต้องหาการจัดตำแหน่งที่ดีพอ) ปัญหาเดียวคือสตริงนั้นเป็นสตริงปกติ (เช่น สตริง UTF-8 ที่อาจมีการขึ้นบรรทัดใหม่ซึ่งควรถือเป็นอักขระปกติ) ไม่ใช่ลำดับดีเอ็นเอหรือลำดับโปรตีน

ฉันสามารถค้นหาเครื่องมือและข้อมูลมากมายสำหรับกรณีปกติในชีวสารสนเทศที่มีรูปแบบไฟล์ที่ซับซ้อนเฉพาะและคุณสมบัติมากมายที่ฉันไม่ต้องการ แต่เป็นการยากที่จะหาซอฟต์แวร์ ไลบรารี หรือโค้ดตัวอย่างสำหรับกรณีธรรมดาของสตริง ฉันอาจจะนำอัลกอริธึมมาใช้ใหม่สำหรับปัญหานี้หรือเข้ารหัสสตริงของฉันเป็น DNA ได้ แต่ต้องมีวิธีที่ดีกว่านี้ คุณรู้วิธีแก้ปัญหาใด ๆ หรือไม่?


หน้าช่วยเหลือ Multalin

ซอฟต์แวร์นี้จะช่วยให้คุณสามารถจัดลำดับทางชีววิทยาได้หลายลำดับพร้อมกัน

การจัดตำแหน่งแบบหลายลำดับคืออะไร เป็นการจัดเรียงของลำดับโปรตีนหรือกรดนิวคลีอิกหลายลำดับที่มีช่องว่างสมมุติฐานเพื่อให้เรซิดิวที่คล้ายกันวางเคียงกัน คะแนนบวกแนบมากับข้อมูลประจำตัว การแทนที่แบบอนุรักษ์นิยมหรือแบบไม่อนุรักษ์นิยม (แอมพลิจูดของคะแนนที่วัดความคล้ายคลึงกัน) และบทลงโทษสำหรับช่องว่างโปรแกรมในอุดมคติจะเพิ่มคะแนนรวมสูงสุด โดยคำนึงถึงการจัดตำแหน่งที่เป็นไปได้ทั้งหมดและอนุญาตให้มีช่องว่างความยาวใด ๆ ตำแหน่ง.

น่าเสียดายที่ความต้องการในการคำนวณ ทั้งเวลาและหน่วยความจำ เพิ่มขึ้นเป็นกำลังที่ n โดยที่ n คือหมายเลขลำดับ ดังนั้นการจัดตำแหน่งที่เหมาะสมที่สุดนี้จะพบได้สำหรับสองลำดับหรือสามลำดับสั้นๆ เท่านั้น ในกรณีทั่วไป โปรแกรมที่ใช้งานได้จริงต้องจำกัดเงื่อนไขของการเพิ่มประสิทธิภาพ อย่างไรก็ตาม มีประโยชน์อย่างปฏิเสธไม่ได้ที่จะมีระบบอัตโนมัติสำหรับการจัดตำแหน่งหลายลำดับเพื่อเป็นจุดเริ่มต้นสำหรับการวิเคราะห์โดยมนุษย์มากขึ้น

Multalin สร้างการจัดตำแหน่งหลายลำดับจากกลุ่มของลำดับที่เกี่ยวข้องโดยใช้การจัดตำแหน่งคู่แบบก้าวหน้า วิธีการที่ใช้อธิบายไว้ใน "การจัดตำแหน่งหลายลำดับด้วยการจัดกลุ่มแบบลำดับชั้น", F.Corpet, 1988, Nucl. กรด Res. 16 10881-10890.

คำเตือน : ไม่จำเป็นต้องใช้คอมพิวเตอร์เพื่อใช้ MultAlin ต้องใช้ความรู้พื้นฐานเกี่ยวกับ www เท่านั้น !

บนโฮมเพจ MultAlin คุณจะเห็นสี่เหลี่ยมขนาดใหญ่ นี่คือที่ที่คุณจะวาง (เช่นเดียวกับในการตัดและวาง) ลำดับของคุณ (ลองชุดตัวอย่างของลำดับในครั้งแรก) แทนที่จะวางซีเควนซ์ของคุณ คุณสามารถตั้งชื่อไฟล์ซีเควนซ์ของคุณ หรือเลือกมันด้วยปุ่มเรียกดู

ขั้นตอนต่อไปคือการตั้งค่าพารามิเตอร์ สิ่งเหล่านี้เป็นเพียงความยากของ www พื้นฐาน แต่คุณจะสามารถค้นหาความช่วยเหลือได้โดยคลิกที่เครื่องหมายคำถามที่เกี่ยวข้อง เพียงใช้เมนูป๊อปอัปหรือพิมพ์ข้อความหรือตัวเลขตามต้องการ เมื่อคุณพร้อม ให้คลิกที่ปุ่ม "ส่งข้อมูล" (คุณสามารถใช้ปุ่มที่ด้านบนหรือด้านล่างของหน้า

ตอนนี้ คุณจะต้องรอให้เซิร์ฟเวอร์ของเราคำนวณ (อาจใช้เวลาสองสามชั่วโมงสำหรับลำดับที่มีขนาดใหญ่มาก)

ผลลัพธ์จะถูกส่งไปยังอินเทอร์เน็ตเบราว์เซอร์ของคุณในรูปแบบของภาพ GIF (ค่าเริ่มต้น) ข้อความธรรมดาหรือหน้า html ที่มีสี คุณจะสามารถเปลี่ยนสี ขนาดตัวอักษร ขนาดเส้น ฯลฯ และแม้แต่ระดับความเห็นพ้องต้องกัน (ดูรายละเอียดในตัวเลือกการนำเสนอ)

ขั้นตอนเหมือนกับการตั้งค่า MultAlin เพียงใช้เมนูป๊อปอัปแล้วพิมพ์ข้อความหรือตัวเลขตามต้องการ เมื่อพร้อมแล้วให้คลิกที่ปุ่ม "ใช้การเปลี่ยนแปลง" รูปภาพใหม่จะปรากฏขึ้นหลังจากนั้นไม่นาน (เปลี่ยนเฉพาะรูป ไม่ได้ปรับใหม่)

ในหน้าผลลัพธ์ คุณสามารถเพิ่มลำดับในการจัดแนวได้ ลำดับนี้จะสอดคล้องกับลำดับที่จัดตำแหน่งไว้แล้ว และคุณจะได้หน้าผลลัพธ์ใหม่ โดยลำดับใหม่จะวางไว้ข้างลำดับที่คล้ายคลึงกันมากขึ้น สำหรับขั้นตอนนี้ MultAlin จะทำการจัดตำแหน่งที่เหมาะสมที่สุดของลำดับใหม่และบล็อกของลำดับที่จัดตำแหน่งแล้ว: ผลลัพธ์อาจแตกต่างกันหากคุณขอโดยตรงสำหรับการจัดตำแหน่งของลำดับทั้งหมดในรูปแบบแรก

วางลำดับใหม่ของคุณใน aera สี่เหลี่ยมผืนผ้าในรูปแบบ Fasta/Multalin (เช่น บรรทัดเดียวที่มี '>' ขึ้นต้นสำหรับชื่อลำดับ และบรรทัดอื่นๆ ที่มีลำดับ Rhe เอง) คลิกที่ปุ่ม "ใช้การเปลี่ยนแปลง" เมื่อพร้อม

รูปแบบ MultAlin คล้ายกับ Fasta ลำดับสามารถถูกขัดจังหวะด้วยช่องว่างหรือตัวเลขที่ไม่ได้นำมาพิจารณา (ดูตัวอย่างใน MultAlin และรูปแบบ Fasta ล้วนๆ)

ชื่อลำดับคือคำแรกหลังคำสำคัญ LOCUS ลำดับเริ่มต้นในบรรทัดต่อจากคีย์เวิร์ด ORIGIN ข้อมูลลำดับถัดไปเริ่มต้นด้วยคำสำคัญ LOCUS ดูตัวอย่าง

ชื่อลำดับคือคำแรกหลังรหัสคีย์เวิร์ด ลำดับเริ่มต้นในบรรทัดต่อจากคีย์เวิร์ด SQ ข้อมูลลำดับถัดไปเริ่มต้นในบรรทัดต่อไปนี้ // ดูตัวอย่าง

การจัดตำแหน่งลำดับจะแสดงเป็น:

ภาพสี

โหลดรูปภาพ GIF เป็นรูปภาพใดก็ได้ คลิกปุ่มรูปภาพหากคุณยังไม่ได้เลือก "โหลดรูปภาพโดยอัตโนมัติ" ภาพ GIF ที่คุณจะเห็นสามารถกำหนดค่าได้ คุณสามารถเปลี่ยนสีของข้อความแสดงความคิดเห็น ขนาดแบบอักษร สีพื้นหลัง สีที่สอดคล้องสูงและต่ำ และสีที่เป็นกลาง

ข้อความธรรมดา

เป็นวิธีที่เร็วที่สุดหากคุณมีปัญหาในการโหลดรูปภาพหรือหน้า html ขนาดใหญ่

ข้อความ html สี

ไม่ว่าในกรณีใด คุณสามารถปรับระดับฉันทามติได้

ไฟล์ที่ใช้ได้

ด้านล่าง คุณจะเห็นไฟล์ลำดับอินพุต ไฟล์คลัสเตอร์ การจัดตำแหน่งในรูปแบบข้อความธรรมดารูปแบบ fasta หรือ msf การจัดตำแหน่งในรูปแบบ msf พร้อมการแสดงสีเป็นข้อความเข้ารหัส ข้อความ html หรือรูปภาพ gif

ไฟล์ใดๆ เหล่านี้สามารถบันทึกลงในดิสก์ในเครื่องของคุณ เพียงแค่ใช้เบราว์เซอร์ WWW ของคุณ ข้อความธรรมดาสามารถดู แก้ไข หรือพิมพ์ด้วยโปรแกรมแก้ไขข้อความ หน้า Html และภาพ GIF โดยใช้เบราว์เซอร์หรือโปรแกรมประมวลผลข้อความที่อนุญาตให้ใช้รูปแบบเหล่านี้

ในการแปลการบ่งชี้สีของข้อความที่เข้ารหัสเป็นสีจริง คุณสามารถใช้ Microsoft Word และมาโคร MultAlin (FTP multalin.dot และบันทึกลงในดิสก์แม้ว่าคุณจะเห็นอักขระแปลก ๆ บนเบราว์เซอร์ของคุณ) ดังต่อไปนี้:

พารามิเตอร์อื่นๆ

ตารางเปรียบเทียบสัญลักษณ์ Bloom62

S. Henikoff และ J.G. Henikoff, เมทริกซ์การแทนที่กรดอะมิโนจากบล็อคโปรตีน, 1992, P.N.A.S. สหรัฐอเมริกา 89, 10915-10919 ตารางนี้เป็น Blosum62 ดั้งเดิมโดยมีค่า 4 เพิ่มให้กับแต่ละรายการเพื่อให้ไม่เป็นค่าลบ

ตารางเปรียบเทียบสัญลักษณ์ Dayhoff

ม.อ. เดย์ฟอฟฟ์, อาร์.เอ็ม. ชวาร์ตษ์และบี.ซี. Orcutt, Atlas ของโปรตีนและโครงสร้างลำดับ , Ed M.O. Dayhoff มูลนิธิวิจัยชีวการแพทย์แห่งชาติ (วอชิงตัน ดี.ซี. 1979) ตารางนี้คือ PAM250 ของ Dayhoff โดยมีค่า 8 เพิ่มให้กับแต่ละรายการเพื่อให้ไม่เป็นค่าลบ

ตารางเปรียบเทียบสัญลักษณ์ทางพันธุกรรม

แต่ละค่าคือจำนวนสูงสุดของเบสทั่วไปในโคดอนกรดอะมิโนที่สอดคล้องกัน

ตารางเปรียบเทียบสัญลักษณ์ Risler

J.L. Risler, MO Delorme, H. Delacroix, A.Henaut, วารสารอณูชีววิทยา, 204, 1019, 1988

ตารางเปรียบเทียบสัญลักษณ์ดีเอ็นเอ

ตารางนี้ให้คะแนนที่ตรงกันสำหรับการทับซ้อนกันระหว่างสัญลักษณ์ความกำกวมของกรดนิวคลีอิกของ IUB (International Union of Biochemits) ยกเว้น X/N ดังนี้
A หรือ C = MA หรือ G = RA หรือ T = WC หรือ G = SC หรือ T = YG หรือ T =KA หรือ C หรือ G = VA หรือ C หรือ T = HA หรือ G หรือ T =DC หรือ G หรือ T = BA หรือ C หรือ G หรือ T = X หรือ N
These codes are compatible with the codes used by the EMBL, GenBank and PIR data libraries and by the GCG package.

Alternate DNA symbol comparison table

8 for a match
6 for a match with two base ambiguity symbol
4 for a match with a three base ambiguity symbol
3 for a match with a four base ambiguity symbol

where the ambiguity symbols are :

A or C = M A or G = R A or T = W C or G = S C or T = Y G or T =K A or C or G = V A or C or T = H A or G or T =D C or G or T = B A or C or G or T = X or N
These codes are compatible with the codes used by the EMBL, GenBank and PIR data libraries and by the GCG package.

Identity symbol comparison table

This table scores 1 for a match and 0 for a mismatch between any two letters.

Personal table

This penalty is subtracted to the alignment score of 2 clusters each time a new gap is inserted in one cluster. This penalty is length dependent: it is the sum of "penalty at gap opening" and of "penalty at gap extension" times the gap length both values must be non negative their maximum value is 255.
The similarity score is equal to the sum of the values of the matches (each match scored with the scoring table) less the gap penalties. The gap penalty is charged for every internal gap. By default, no penalty is charged for terminal gaps.

An optimal alignment is one with the maximum possible score. It is sensitive to the symbol comparison values and to the gap penalties.

Text options

For a coloured image

For a coloured html text

Consensus options

Other presentation options

Output style

Normal In all sequences, all positions are in upper-case. Case All the positions in each sequence that are identical with the consensus are in upper-case, the other positions are in lower-case. Difference The first sequence is normal in the other sequences, the residue identical to the first sequence residue at the same position is represented by a point(.), the others are in upper-case.

Maximum line length

An alignment can be very large if sequences are long. If you prefer to see the alignment by blocks, you can choose to reduce the line length. By default, it is set to 1000 residues. For a printable page, 60 or 100 can be better (it depends on the font size).

Graduation step

Florence Corpet MultAlin's author. (Comments and suggestions very welcome)

If you use MultAlin frequently you may be interested in downloading the program. For this you must have prior authorisation from the author. Please e-mail.


Rationale

Within the last few years, a variety of second- (or next-) generation sequencing technologies have been developed to enable analyses of small to medium-sized genomes within weeks or even days. The methods are now overcoming the disadvantages of short read length (currently the longest reads are obtained with the Titanium system produced by Roche/454 Life Sciences (Brandford, CT, USA) with Q20 at 400 bp) and a lower quality of individual reads with a dramatic increase in the total amount of data generated.

The initial resequencing of Caenorhabditis elegans และ Arabidopsis thaliana (Arabidopsis) strains with Illumina reads [1, 2] was recently complemented by genome sequences of several human individuals, generated with data derived from technologies from Illumina (San Diego, CA, USA), Applied Biosystems (Foster City, CA, USA), and Helicos (Cambridge, MA, USA) [3–10]. Even partial เดอโนโว assemblies of targeted regions within large genomes have been attempted [2]. However, short-read analysis of complex genomes is greatly aided by using a sequence backbone against which the short reads are aligned to find their genomic origin.

Different approaches for fast mapping of short reads have been suggested, including methods for indexing substrings of either the short reads or the reference sequence with the use of k-mers or spaced seeds (academic tools such as Bowtie, BWA, CloudBurst, MAQ, MOM, MosaikAligner, mrFAST, mrsFAST, Pash, PASS, PatMaN, RazorS, RMAP, SeqMap, SHRiMP, SliderII, SOAP, SOAP2, ssaha2 [2, 11–28], and commercial tools such as ZOOM [29]). It has been reported that the current high demand for rapid alignments, to accommodate the flood of data generated by efforts such as the 1000 Genomes Project, can be met with new indexing strategies [16]. However, this is normally at the cost of not allowing complex alignments, including gaps.

For natural inbred strains of Arabidopsis, the high level of individual differences constitutes a substantial challenge. It has been estimated that several percent of the reference genome are either missing or very divergent in other strains of this species, which features homozygous genomes that are 25 times smaller than a haploid human genome [30, 31]. This results in regions inaccessible to simple short-read alignments, in particular for alignment algorithms that do not accommodate many mismatches and gaps. New approaches supporting accurate alignments even in highly divergent regions are therefore sorely needed.

We note that the information derived from resequenced individual genomes is in itself useful for subsequent resequencing efforts, especially when the latter are at lower sequence coverage than the earlier efforts. Incorporating known polymorphisms increases the genome space against which the sample reads are aligned, which should greatly improve the mapping results. For example, an alignment suggesting a string of deleted bases in the focal genome becomes much more reliable if this deletion is known to exist in the population. The incorporation of such missing or inserted bases in the target/reference sequence not only would decrease the complexity of the alignments, but also would reduce sequencing costs, as more reads can be placed on the genome.

Apart from these practical reasons, aligning against only a single reference biases the analysis toward a comparison within the sequence space highly conserved with the reference. Taking into account all known genome variants would reduce this bias. Aligning reads against multiple genomes separately increases computation time and storage space and introduces new problems of merging and interpreting redundant results.

Here we present a new short-read alignment algorithm, GenomeMapper, which performs simultaneous alignments of short reads against multiple genomes. GenomeMapper assures high alignment quality, while competing in runtime with other short-read alignment tools. This is achieved by representing multiple genomes with a novel hash-based graph data structure against which the reads are aligned. To our knowledge, this constitutes the first approach for aligning a sequence against a graph of sequences rather than aligning two linear sequences. We also propose the first standards to tackle the problems arising from multiple references. GenomeMapper is currently the tool of choice for the Arabidopsis 1001 Genomes Project [32, 33], and the default alignment option of the short-read analysis pipeline SHORE [2]. GenomeMapper has been used to analyze sequence reads derived from bacterial, plant, invertebrate, and mammalian genomes. To demonstrate the impact of adopting multiple genomes as the short-read alignment target, we describe the construction of a multiple genome sequence graph based on published polymorphisms of Arabidopsis [2]. We present the alignment and consensus sequence analysis of the Est-1 strain by using this graph and compare the results with the conventional approach of aligning the same set of reads against a single reference. We discuss the implications of our work for the analysis of more-complex reference sequences.


Multiple biological sequence alignment in heterogeneous multicore clusters with user-selectable task allocation policies

Multiple Sequence Alignment (MSA) is an important problem in Bioinformatics that aims to align more than two sequences in order to emphasize similarity regions. This problem is known to be NP-Hard, so heuristic methods are used to solve it. DIALIGN-TX is an iterative heuristic method for MSA that generates alignments by concatenating ungapped regions with high similarity. Usually, the first phase of MSA algorithms is parallelized by distributing several independent tasks among the nodes. Even though heterogeneous multicore clusters are becoming very common nowadays, very few task allocation policies were proposed for this type of architecture. This paper proposes an MPI/OpenMP master/slave parallel strategy to run DIALIGN-TX in heterogeneous multicore clusters, with several allocation policies. We show that an appropriate choice of the master node has great impact on the overall system performance. Also, the results obtained in a heterogeneous multicore cluster composed of 4 nodes (30 cores), with real sequence sets show that the execution time can be drastically reduced when the appropriate allocation policy is used.

นี่คือตัวอย่างเนื้อหาการสมัครสมาชิก เข้าถึงผ่านสถาบันของคุณ


ดูวิดีโอ: Easy Excel: วธการรวมคะแนนและจดเรยงลำดบใน Excel (สิงหาคม 2022).