معلومة

1.7: التنازل - التصور التصنيف - علم الأحياء

1.7: التنازل - التصور التصنيف - علم الأحياء


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

مهام التدريس المفتوحة هي مهام يستخدم فيها الطلاب وكالتهم وإبداعهم لإنشاء أدوات معرفية يمكن أن تدعم تعلمهم وتعلم زملائهم في الفصل وتعلم الطلاب في جميع أنحاء العالم. (راجع هذه المقالة التي تمت مراجعتها من قِبل الزملاء للحصول على مزيد من التفاصيل.) تتم محاذاة المهمة الموجودة في هذه الصفحة مع نتيجة التعلم الخاصة بعلم الأحياء لغير التخصصات الأولى وقد حددنا الوحدة التي تظهر فيها القراءة. يمكن إنشاء المهمة باستخدام أدوات الويب والحوسبة الأساسية ، وكاميرا الهاتف الخلوي أو أي جهاز تسجيل فيديو ، ومستندات Google أو Word ، ونظام إدارة التعلم الخاص بك.

أهداف التعلم

  • اشرح كيف يتم الإشارة إلى العلاقات من خلال نظام التسمية ذي الحدين

في الوحدة التمهيدية حول تعريف علم الأحياء وتطبيق مبادئه ، نقدم لمحة عامة عن كيف ولماذا يدرس علماء الأحياء الحياة. بالنسبة لهذه المهمة ، سوف تفكر في كيفية قيام علماء الأحياء بتنظيم وتصنيف أشكال الحياة المختلفة حتى نتمكن من فهمها بشكل أفضل.

قد يساعد منتج عملك الطلاب المستقبليين على التعرف على بعض المفاهيم الأكثر صعوبة في الدورة. وبالتالي ، فكر في جمهورك كأصدقاء يأخذون Biology for Nonmajors في الفصل الدراسي التالي. هدفك هو مساعدتهم على فهم أنظمة التصنيف التي يستخدمها علماء الأحياء من خلال تصور المفهوم.

أولا، اختر كائنًا لتحديده باستخدام التصنيف البيولوجي. يمكن أن يكون هذا أي نبات أو حيوان تجده ممتعًا أو غريبًا أو من تجربتك. فكر مرة أخرى في الطلاب المستقبليين الذين قد يرون تصورك: هل يمكنك اختيار كائن حي من بيئتك المحلية أو له معنى خاص من الطلاب الذين يحضرون مؤسستك؟

ثانيا، حدد الاسم العلمي في التسميات ذات الحدين للكائن الحي ، بالإضافة إلى سلسلة التصنيفات التي تشكل التسلسل الهرمي التصنيفي لكائنك. وفقًا للنظام الذي اقترحه كارل لينيوس ، هناك ثمانية أصناف مدرجة هنا من الأوسع إلى الأكثر تحديدًا:

  • نطاق
  • مملكة
  • الشعبة
  • صف دراسي
  • ترتيب
  • أسرة
  • جنس
  • محيط

ثالث، كيف يمكنك تصور تصنيف هذا الكائن الحي؟ يجب أن يكون الشخص الذي يشاهد التصور قادرًا على فهم العلاقات الهرمية أو المتداخلة للمجموعات التصنيفية. يمكنك استخدام أي وسيلة ترغب في جعل التصور الأصلي الخاص بك: الرسم ، الكولاج ، الرسم التوضيحي الرقمي ، الفيديو ، عرض الشرائح ، وما إلى ذلك. سيتضمن التصور الناجح تسميات واضحة ودقيقة.

أخيرا، شارك التصور مع معلمك. بعد التقدير وبعد الحصول على إذن منك ، قد يظهر التصور الخاص بك في الأقسام المستقبلية من الدورة التدريبية لتحسين تعلم الطلاب الآخرين!


ملاحظة للمعلمين: في المرة الأولى التي يكمل فيها الطلاب هذه المهمة ، اختر الأفضل منها ، واطلب الإذن من الطلاب لتضمينهم في الأقسام المستقبلية. ما عليك سوى نشر التصورات في الوحدة المناسبة في LMS. الفكرة هي أن يقوم الطلاب بإنشاء محتوى يمكن للطلاب الآخرين التعلم منه في هذه المهمة.


1.7: الإحالة - التصور التصنيف - علم الأحياء

يرجى الرجوع إلى كراكن 2 جيثب ويكي لجميع التحديثات المضي قدما. نحن بصدد نقل جميع المعلومات / الروابط ذات الصلة إلى صفحة Github Wiki. شكرا لك على صبرك.

اعتبارًا من سبتمبر 2020 ، أنشأنا موقع Amazon Web Services لاستضافة العديد من مؤشرات Kraken2 الأكثر استخدامًا والمتاحة على https://github.com/BenLangmead/aws-indexes.

Kraken الأدوات هي مجموعة من البرامج النصية للمساعدة في تحليل نتائج Kraken. KrakenTools هو مشروع مستمر بقيادة جينيفر لو. يرجى الاطلاع على صفحة ويب KrakenTools لمزيد من التفاصيل.


خلفية

علم الجينات ، التحليل الجينومي لمجموعة من الكائنات الحية الدقيقة ، يجعل من الممكن تحديد سمات المجتمعات الميكروبية في البيئة وجسم الإنسان على عمق واتساع غير مسبوقين. يؤدي التوسع السريع في استخدامه إلى إحداث ثورة في فهمنا للتنوع الميكروبي في البيئات الطبيعية والتي من صنع الإنسان ويربط ملامح المجتمع الميكروبي بالصحة والمرض [1–9]. حتى الآن ، اعتمدت معظم الدراسات على تضخيم تفاعل البوليميراز المتسلسل (PCR) لجينات الواسمات الميكروبية (على سبيل المثال البكتيريا الريبوسومية 16S RNA [rRNA]) ، والتي تم إنشاء قواعد بيانات منسقة كبيرة لها [10-12]. في الآونة الأخيرة ، أتاحت تقنيات التسلسل ذات الإنتاجية العالية والتكلفة المنخفضة التحول نحو علم الميتاجينوميات المستقلة عن التخصيب. تقلل هذه الأساليب التحيز ، وتحسن اكتشاف الأصناف الأقل وفرة ، وتمكن من اكتشاف مسببات الأمراض الجديدة [13-15]. بالإضافة إلى ذلك ، يعدون بإحداث ثورة في كيفية تشخيص الأمراض المعدية.

مع استبدال الثقافة الميكروبية عن طريق الاختبارات الجزيئية ، يعتمد التشخيص المختبري للأمراض المعدية بشكل متزايد على الاختبارات الخاصة بمسببات الأمراض. في حين أنها أكثر حساسية ، فإنها تتطلب بداهة معرفة العوامل المسببة للمرض (أي الإجابة على السؤال "هل العامل الممرض X موجود"). بالنسبة للعديد من المتلازمات الشائعة (مثل الالتهاب الرئوي والإنتان والتهاب الدماغ) ، يمكن للعديد من مسببات الأمراض المختلفة أن تسبب أعراضًا لا يمكن تمييزها سريريًا. وبالتالي ، فإن لوحات التشخيص الكبيرة بشكل متزايد والمحدودة بطبيعتها ضرورية للكشف عن مسببات الأمراض الشائعة وقد يلزم إجراء اختبارات متابعة مكثفة إذا كانت اختبارات الخط الأول سلبية. في المقابل ، يسمح تسلسل الجيل التالي المستقل عن التخصيب (NGS) بالكشف غير المتحيز والخالي من الفرضيات والطباعة الجزيئية لعدد غير محدود من الناحية النظرية من مسببات الأمراض الشائعة وغير العادية (أي الإجابة على السؤال "ما هو العامل الممرض الموجود"). أدى اكتشاف العوامل الممرضة غير المتحيزة والقائم على NGS إلى تشخيص العدوى التي لم يتم التعرف عليها سابقًا واكتشاف مسببات الأمراض الجديدة في حالات مختارة (انظر [16] على سبيل المثال). سيؤدي اتباع نهج موحد لاكتشاف مسببات الأمراض المحتملة إلى زيادة العائد التشخيصي ، وتقليل الوقت اللازم لظهور مسببات الأمراض غير المتوقعة ، وتحسين العلاج المستهدف ، وسيساعد في الاستجابة السريعة لحالات الطوارئ الصحية العامة.

في حين أن تحديد العامل الممرض المباشر من بيانات التسلسل هو الهدف عمومًا ، حتى عندما لا يمكن تحديد العامل الممرض المحدد ، فإن التمييز بين العدوى الفيروسية والبكتيرية ، على سبيل المثال ، يمكن أن يشير إلى ما إذا كان العلاج بالمضادات الحيوية ضروريًا. في الماضي ، تمت محاولة ذلك من خلال تقييم استجابة كريات الدم البيضاء ، أو واسمات البروتين (على سبيل المثال ، procalcitonin) ، أو التعبير النمطي للمضيف المستند إلى المصفوفة الدقيقة من الكريات البيض في الدم [17-19]. تمكّن الحساسية الأكبر والطبيعة غير المنحازة لتسلسل الحمض النووي الريبي (RNA-seq) من الكشف المتزامن عن مسببات الأمراض وتوصيف استجابة تعبير المضيف ، والتي يمكن استخدامها نظريًا لإعلام العلاج بشكل أفضل ، ومن المحتمل التغلب على العديد من قيود الأساليب الحالية [20 ، 21] ، حتى في حالة عدم وجود تشخيص نهائي لمسببات الأمراض.

تمكن NGS أيضًا من إجراء دراسات أكثر شمولاً لتحديد السمات الميكروبية. على سبيل المثال ، تم ربط dysbiosis في الجراثيم المخاطية والجلدية بالأمراض الأيضية والمناعة والقلب والأوعية الدموية والأورام [5 ، 22-26]. ومع ذلك ، لا تزال معظم دراسات الميكروبيوم تعتمد اليوم على تضخيم PCR لجينات العلامة (مثل البكتيريا 16S rRNA). يقدم هذا النهج التحيز [13] ، ويتجاهل تأثيرات النباتات الفيروسية والعاثية ذات الصلة التي لا يوجد لها جين محدد [27-29] ، وغير قادر على تقييم اختلافات استجابة المضيف ، وكلها معروفة بتأثيرها على نتائج الأمراض المعدية وتعديل المجتمعات الميكروبية البشرية.

إن التوافر الواسع لأدوات NGS ، وانخفاض تكاليف الكاشف ، وبروتوكولات تحضير العينات المبسطة ، قد مكنت عددًا متزايدًا من الباحثين من أداء DNA و RNA-seq عالي الإنتاجية لدراسات الميتاجينوميات. لسوء الحظ ، يتطلب تحليل مجموعات البيانات الكبيرة الناتجة عن علم الميتاجينوميات عالية الإنتاجية مزيجًا من مهارات المعلوماتية الحيوية ، والموارد الحسابية ، والخبرة الميكروبيولوجية التي لا تتوفر في معظم المختبرات ، وخاصة المختبرات التشخيصية. وبالتالي ، هناك حاجة إلى أدوات أكثر كفاءة ودقة وسهولة من الناحية الحسابية من أجل التشخيص الشامل وتحليلات الميتاجينوميات.


جاريتي ، ج. تصنيف جديد للبكتيريا والعتائق مدفوع بعلم الجينوم: هل وصلنا إليه بعد؟ J. كلين. ميكروبيول. 54, 1956–1963 (2016).

Hugenholtz، P.، Sharshewski، A. & amp Parks، D.H. التصنيف الميكروبي القائم على الجينوم عند بلوغ سن الرشد. في التطور الجرثومي (محرر Ochman، H.) 55-65 (مطبعة كولد سبرينغ هاربور ، كولد سبرينغ هاربور ، نيويورك ، الولايات المتحدة الأمريكية ، 2016).

يون ، س. وآخرون. تقديم EzBioCloud: قاعدة بيانات موحدة تصنيفياً لتسلسلات الجينات الرنا الريباسي 16S وتجمعات الجينوم الكامل. كثافة العمليات J. Syst. Evol. ميكروبيول. 67, 1613–1617 (2017).

Godfray ، H.C.J. تحديات التصنيف. طبيعة سجية 417, 17–19 (2002).

Federhen، S. قاعدة بيانات التصنيف NCBI. الدقة الأحماض النووية. 40، D136-D143 (2012).

يلماز ، ب. وآخرون. الأطر التصنيفية SILVA و "مشروع الشجرة الحية لجميع الأنواع (LTP)". الدقة الأحماض النووية. 42، D643 – D648 (2014).

كول ، جيه آر وآخرون. مشروع قاعدة بيانات الريبوسوم: بيانات وأدوات لتحليل الرنا الريباسي عالي الإنتاجية. الدقة الأحماض النووية. 42، D633 – D642 (2014).

ماكدونالد ، د. وآخرون. تصنيف محسن للجينات الخضراء مع رتب واضحة للتحليلات البيئية والتطورية للبكتيريا والعتائق. ISME J. 6, 610–618 (2012).

Yutin، N. & amp Galperin، M.Y. تحديث الجينوم في نسالة المطثية: صانعي البوغ سالبة الجرام والمطثيات الأخرى في غير محلها. بيئة. ميكروبيول. 15, 2631–2641 (2013).

بيكو ، R.G. الضيق الميكروبي: كيف يمكننا تصنيف الميكروبيوم؟ اتجاهات ميكروبيول. 23, 671–679 (2015).

يارزا ، ب وآخرون. توحيد تصنيف البكتيريا والعتيقات المستزرعة وغير المستزرعة باستخدام تسلسل الجين 16S rRNA. نات. القس ميكروبيول. 12, 635–645 (2014).

أبوت ، س. & amp Janda ، J.M. in بدائيات النوى 3rd edn. (محرران. Dworkin، M. et al.) 72-89 (Springer، New York، 2006).

Jumas-Bilak، E.، Roudière، L. & amp Marchandin، H. وصف "التآزر" phyl. نوفمبر وأرسلت وصفا للشعبة "Deferribacteres" والعائلة Syntrophomonadaceae، الشعبة "الثبات". كثافة العمليات J. Syst. Evol. ميكروبيول. 59, 1028–1035 (2009).

Janda، J.M. & amp Abbott، S.L. التسلسل الجيني 16S rRNA لتحديد البكتيريا في مختبر التشخيص: الإيجابيات والمخاطر والمزالق. J. كلين. ميكروبيول. 45, 2761–2764 (2007).

شولز ، إف وآخرون. نحو رؤية متوازنة لشجرة الحياة البكتيرية. ميكروبيوم 5, 140 (2017).

DeSantis، T.Z. وآخرون. Greengenes ، قاعدة بيانات الجينات 16S rRNA التي تم فحصها بواسطة الوهم ومنضدة عمل متوافقة مع ARB. تطبيق بيئة. ميكروبيول. 72, 5069–5072 (2006).

Brochier، C.، Forterre، P. & amp Gribaldo، S. جوهر النشوء والتطور الناشئ من Archaea: تتلاقى سلالات آلات النسخ والترجمة بعد إضافة متواليات الجينوم الجديدة. BMC Evol. بيول. 5, 36 (2005).

سيكاريلي ، ف. وآخرون. نحو إعادة بناء آلية لشجرة حياة عالية الدقة. علم 311, 1283–1287 (2006).

Thiergart، T.، Landan، G. & amp Martin، W.F. المحاذاة المتسلسلة وحالة الشجرة المختفية. BMC Evol. بيول. 14, 266 (2014).

براون ، سى تى. وآخرون. بيولوجيا غير عادية عبر مجموعة تضم أكثر من 15٪ من بكتيريا المجال. طبيعة سجية 523, 208–211 (2015).

Anantharaman ، K. et al. تسلط الآلاف من الجينومات الميكروبية الضوء على العمليات الكيميائية الجيولوجية الحيوية المترابطة في نظام الخزان الجوفي. نات. كومون. 7, 13219 (2016).

باركس ، دي إتش وآخرون. إن استعادة ما يقرب من 8000 جينوم تم تجميعه من الميتاجينوم يوسع بشكل كبير شجرة الحياة. نات. ميكروبيول. 2, 1533–1542 (2017).

بابتيست ، إي وآخرون. هل الأنماط الجينية المتعامدة تدعم حقاً التفكير الشجري؟ BMC Evol. بيول. 5, 33 (2005).

Tonini، J.، Moore، A.، Stern، D.، Shcheglovitova، M. & amp Ortí، G. تعرض طرق التسلسل وشجرة الأنواع دقة لا يمكن تمييزها إحصائيًا في ظل مجموعة من الظروف المحاكاة. بلوس بالعملة. https://doi.org/10.1371/currents.tol.34260cc27551a527b124ec5f6334b6be (2015).

هوغ ، لوس أنجلوس وآخرون. منظر جديد لشجرة الحياة. نات. ميكروبيول. 1, 16048 (2016).

Lang ، J.M. ، Darling ، A.E. & amp Eisen ، J.A. نسالة الجينومات البكتيرية والأثرية باستخدام الجينات المحفوظة: الأشجار العالية والمراتب الفائقة. بلوس واحد 8، e62510 (2013).

دوبونت ، سي. وآخرون. رؤى جينومية لـ 86 ريال سعودي ، سلالة بكتيرية بحرية وفيرة وغير مزروعة. ISME J. 6, 1186–1199 (2012).

Wu، D.، Jospin، G. & amp Eisen، J.A. تحديد منهجي لعائلات الجينات لاستخدامها "كواسمات" للدراسات البيئية التي تعتمد على النشوء والتطور للبكتيريا والعتائق ومجموعاتها الفرعية الرئيسية. بلوس واحد 8، e77033 (2013).

جيوفانيوني ، S.J. ، Rappé ، MS ، Vergin ، K.L. & amp Adair، N.L. تكشف جينات الرنا الريباسي 16S عن مجموعات العوالق الجرثومية في المحيطات المفتوحة الطبقية المرتبطة بالبكتيريا الخضراء غير الكبريتية. بروك. ناتل. أكاد. علوم. الولايات المتحدة الأمريكية 93, 7979–7984 (1996).

Dojka ، MA ، Hugenholtz ، P. ، Haack ، S.K. & أمبير بيس ، ن. التنوع الميكروبي في طبقة المياه الجوفية الملوثة بالهيدروكربون والمذيبات المكلورة والتي تخضع للمعالجة الحيوية الذاتية. تطبيق بيئة. ميكروبيول. 64, 3869–3877 (1998).

زوارت ، ج. وآخرون. الفحص السريع لمجموعات بكتيريا المياه العذبة باستخدام تهجين لطخة الخط العكسي. تطبيق بيئة. ميكروبيول. 69, 5875–5883 (2003).

Wolf، M.، Müller، T.، Dandekar، T. & amp Pollack، J.D. Phylogeny of الحزم مع إشارة خاصة إلى الميكوبلازما (مولكوتس) كما يستدل من بيانات تسلسل الأحماض الأمينية فوسفوجليسيرات كيناز. كثافة العمليات J. Syst. Evol. ميكروبيول. 54, 871–875 (2004).

لونيرغان ، دي جي. وآخرون. تحليل النشوء والتطور للبكتيريا المخفّضة للحديد (III). J. باكتيريول. 178, 2402–2408 (1996).

بيكو ، R.G. رواية القصة كاملة في عالم يحتوي على 10000 جينوم. بيول. مباشر 6, 34 (2011).

Zhang، Y. & amp Sievert، S.M. تحدد تحليلات عموم الجينوم علامات النسب والمتخصصة الخاصة بالتطور والتكيف في بكتيريا إبسيلون. أمام. ميكروبيول. 5, 110 (2014).

Hugenholtz، P.، Pitulle، C.، Hershberger، K.L. & أمبير بيس ، ن. تنوع بكتيري جديد على مستوى الانقسام في ينبوع يلوستون الحار. J. باكتيريول. 180, 366–376 (1998).

كونستانتينيديس ، ك. & amp Tiedje، J.M. نحو تصنيف قائم على الجينوم لبدائيات النوى. J. باكتيريول. 187, 6258–6264 (2005).

Wu، D.، Doroud، L. & amp Eisen، J.A. TreeOTU: تصنيف وحدة التصنيف التشغيلية على أساس الأشجار النشوء والتطور. اطبع مسبقًا على https://arxiv.org/abs/1308.6333 (2013).

مانيلوف ، ج. إن البيولوجيا الجزيئية وإمراضية الميكوبلازما (محرران. Razin، S. & amp Herrmann، R.) 31–43 (Springer، New York، 2002).

كومار ، إس ، ستيتشر ، جي ، سوليسكي ، إم أند هيدجز ، إس بي. TimeTree: مورد للجداول الزمنية ، والجداول الزمنية ، وأوقات الاختلاف. مول. بيول. Evol. 34, 1812–1819 (2017).

مارين ، J. ، باتيستوزي ، F.U. ، براون ، AC & amp Hedges ، S.B. الجدول الزمني لدائيات النوى: رؤى جديدة لتطورها وانتواعها. مول. بيول. Evol. 34, 437–446 (2017).

Gadagkar ، S.R. ، Rosenberg ، MS & amp Kumar، S. استنتاج سلالات الأنواع من جينات متعددة: شجرة متسلسلة متسلسلة مقابل شجرة جينات متفق عليها. ياء إكسب. حيوان. ب مول. ديف. Evol. 304, 64–74 (2005).

Balvočiūtė و M. & amp Huson و D.H. SILVA و RDP و Greengenes و NCBI و OTT: كيف تقارن هذه التصنيفات؟ علم الجينوم BMC 18 (ملحق 2) ، 114 (2017).

ويتمان ، و. مقترحات متواضعة لتوسيع نوع المواد لتسمية بدائيات النوى. كثافة العمليات J. Syst. Evol. ميكروبيول. 66, 2108–2112 (2016).

Konstantinidis، K.T.، Rosselló-Móra، R. & amp Amann، R. الميكروبات غير المزروعة التي تحتاج إلى تصنيف خاص بها. ISME J. 11, 2399–2406 (2017).

Comas، I.، Homolka، S.، Niemann، S. & amp Gagneux، S. السل الفطري يسلط الضوء على قيود المنهجيات الحالية. بلوس واحد 4، e7815 (2009).

مارتيني ، ج. وآخرون. الجغرافيا الحيوية الميكروبية: وضع الكائنات الحية الدقيقة على الخريطة. نات. القس ميكروبيول. 4, 102–112 (2006).

Trost، B.، Haakensen، M.، Pittet، V.، Ziola، B. & amp Kusalik، A. تحليل ومقارنة الخصائص الجينومية لستة عشر جنسًا بكتيريًا متميزًا جيدًا. BMC ميكروبيول. 10, 258 (2010).

بيز-هيدالجو ، آر ، حسين ، إم جي ، ليلز ، إم آر ، وأمبير فيغويراس ، إم جي استراتيجيات لتجنب الجينومات التي تم تصنيفها بشكل خاطئ باستخدام الانتماء التصنيفي الخاطئ الذي تم اكتشافه لـ الأيروموناس الجينوم في قاعدة بيانات GenBank. بلوس واحد 10، e0115813 (2015).

كوك ، ج. وآخرون. إعادة التصنيف على أساس الجينوم نواة الفيوزوباكتيريوم الأنواع الفرعية على مستوى الأنواع. بالعملة. ميكروبيول. 74, 1137–1147 (2017).

Bobay، L.M. & amp Ochman، H. الأنواع البيولوجية عالمية عبر مجالات الحياة. جينوم بيول. Evol. 9, 491–501 (2017).

Galperin ، M.Y. ، Brover ، V. ، Tolstoy ، I. & amp Yutin ، N. Peptostreptococcaceae (Clostridium Clostridium XI) واقتراح إعادة تصنيف كلوستريديوم ليتورالي (فيندريتش وآخرون. 1991) و يوبكتيريوم أسيدامينوفيلوم (زيندل وآخرون. 1989) مثل بيبتوكلوستريديوم ليتورالي الجنرال. نوفمبر مشط. نوفمبر و بيبتوكلوستريديوم أسيدامينوفيلوم مشط. نوفمبر كثافة العمليات J. Syst. Evol. ميكروبيول. 66, 5506–5513 (2016).

يارزا ، ب وآخرون. مشروع All-Species Living Tree: شجرة سلالات تستند إلى 16S rRNA لجميع سلالات النوع المتسلسل. النظام. تطبيق ميكروبيول. 31, 241–250 (2008).

ساكاموتو ، إم ، إينو ، ت. & أمب أوكوما ، إم. Faecalimonas umbilicata الجنرال. نوفمبر ، س. نوفمبر ، معزولة عن براز الإنسان ، وإعادة تصنيفها Eubacterium contortum، Eubacterium fissicatena و كلوستريديوم أوروتيكوم كما الملتوية Faecalicatena الجنرال. نوفمبر ، مشط. نوفمبر Faecalicatena fissicatena مشط. نوفمبر و Faecalicatena orotica مشط. نوفمبر كثافة العمليات J. Syst. Evol. ميكروبيول. 67, 1219–1227 (2017).

هانكي ، آر إل وآخرون. التصنيف التصنيفي القائم على الجينوم لـ الجراثيم. أمام. ميكروبيول. 7, 2003 (2016).

جاريتي ، جنرال موتورز ، بيل ، ج. & amp Lilburn ، T. إن دليل بيرجي لعلم الجراثيم النظامي (محرران. Garrity، G. et al.) 575-922 (Springer، New York، 2005).

رينكه ، سي وآخرون. نظرة ثاقبة على التطور النسبي وإمكانات الترميز للمادة المظلمة الميكروبية. طبيعة سجية 499, 431–437 (2013).

وايت ، د. وآخرون. التحليل الجينومي المقارن للفصل بكتيريا إبسيلون واقترح إعادة التصنيف إلى Epsilonbacteraeota (phyl. nov.). أمام. ميكروبيول. 8, 682 (2017).

براون ، د. في دليل بيرجي لعلم الجراثيم النظامي (محرران. Krieg، N.R. et al.) 567-724 (Springer، New York، 2010).

سكينيرتون ، سي تي. وآخرون. تحليل النشوء والتطور كانديداتوس أنواع "Izimaplasma": ممثلون يعيشون بحرية من أ تينريكوتس clade الموجودة في تسربات الميثان. ISME J. 10, 2679–2692 (2016).

Munoz ، R. ، Rosselló-Móra ، R. & amp Amann ، R. نسالة منقحة من Bacteroidetes واقتراح ستة عشر تصنيفًا جديدًا وتركيبتين جديدتين بما في ذلك Rhodothermaeota phyl. نوفمبر النظام. تطبيق ميكروبيول. 39, 281–296 (2016).

تانر ، ماجستير ، إيفريت ، سي إل ، كولمان ، دبليو جي وأمبير يانغ ، إم إم. مجتمعات ميكروبية معقدة تسكن الطين الأسود الغني بالكبريتيد من البيئات الساحلية البحرية. التكنولوجيا الحيوية. علياء 8, 1–16 (2000).

يامادا ، ت. وآخرون. توصيف البكتيريا الخيطية ، التي تنتمي إلى الفصيلة المرشحة KSB3 ، والتي ترتبط بالتكتل في الحمأة الحبيبية الميثانية المنشأ. ISME J. 1, 246–255 (2007).

سيكيجوتشي ، واي وآخرون. أول رؤى جينية لأعضاء طائفة بكتيرية مرشحة مسؤولة عن تضخم مياه الصرف الصحي. بيرج 3، e740 (2015).

تشوفوتشينا ، إم وآخرون. النظام. تطبيق ميكروبيول. أهمية تحديد نوع المواد للأنواع غير المثقفة https://doi.org/10.1016/j.syapm.2018.07.003 (2018).

هفت ، دي إتش وآخرون. RefSeq: تحديث عن شرح الجينوم بدائية النواة وتنظيمه. الدقة الأحماض النووية. 46، D851 – D860 (2018).

لينونين ، R. ، سوجاوارا ، H. & amp Shumway ، M. قراءة التسلسل الأرشيف. الدقة الأحماض النووية. 39، D19 – D21 (2011).

أوندوف ، ب. وآخرون. الهريس: تقدير مسافة الجينوم والميتاجينوم السريع باستخدام MinHash. جينوم بيول. 17, 132 (2016).

المتنزهات ، D.H. ، Imelfort ، M. ، Skennerton ، CT ، Hugenholtz ، P. & amp Tyson ، GW. CheckM: تقييم جودة الجينوم الميكروبي المستعاد من العزلات والخلايا المفردة والميتاجينومات. الدقة الجينوم. 25, 1043–1055 (2015).

إيدي ، س. تسريع عمليات البحث عن ملف HMM. PLoS Comput. بيول. 7، e1002195 (2011).

كاماتشو ، سي وآخرون. BLAST +: الهندسة المعمارية والتطبيقات. المعلوماتية الحيوية BMC 10, 421 (2009).

فين ، آر دي وآخرون. Pfam: قاعدة بيانات عائلات البروتين. الدقة الأحماض النووية. 42، D222-D230 (2014).

هفت ، دي إتش ، سيلينجوت ، دينار وأمبير وايت ، O. قاعدة بيانات TIGRFAMs لعائلات البروتين. الدقة الأحماض النووية. 31, 371–373 (2003).

حياة ، د. وآخرون. الضال: التعرف على الجينات بدائية النواة وتحديد موقع بدء الترجمة. المعلوماتية الحيوية BMC 11, 119 (2010).

برايس ، م.ن. ، ديهال ، ب. & amp Arkin، A.P. FastTree: حساب أشجار التطور الدنيا الكبيرة ذات التشكيلات الجانبية بدلاً من مصفوفة المسافات. مول. بيول. Evol. 26, 1641–1650 (2009).

Whelan، S. & amp Goldman، N. نموذج تجريبي عام لتطور البروتين مشتق من عائلات بروتين متعددة باستخدام نهج الاحتمالية القصوى. مول. بيول. Evol. 18, 691–699 (2001).

يانغ ، ض. أقصى تقدير لتطور النشوء والتطور من تسلسل الحمض النووي بمعدلات متغيرة عبر المواقع: الطرق التقريبية. جيه مول. Evol. 39, 306–314 (1994).

ويليامز ، ت. وآخرون. نماذج بديلة جديدة لتأصيل أشجار النشوء والتطور. فيل. عبر. R. Soc. لوند. ب 370, 20140336 (2015).

لودفيج ، دبليو وآخرون. ARB: بيئة برمجية لبيانات التسلسل. الدقة الأحماض النووية. 32, 1363–1371 (2004).

Euzéby ، J.P. قائمة الأسماء البكتيرية مع الوقوف في التسمية: مجلد متاح على الإنترنت. كثافة العمليات J. Syst. باكتيريول. 47, 590–592 (1997).

باركر ، CT ، Tindall ، B.J. & amp Garrity ، G.M. الكود الدولي لتسمية بدائيات النوى. كثافة العمليات J. Syst. Evol. ميكروبيول. https://doi.org/10.1099/ijsem.0.000778 (2015).

أورين ، إيه وآخرون. مقترح لإدراج رتبة الشعبة في المدونة الدولية لتسمية بدائيات النوى. كثافة العمليات J. Syst. Evol. ميكروبيول. 65, 4284–4287 (2015).

ويلر ، تي جيه. في وقائع ورشة العمل التاسعة حول الخوارزميات في المعلوماتية الحيوية (محرران Salzberg، SL & amp Warnow، T.) 375-389 (Springer، Berlin، 2009).

كوزلوف ، A.M. ، Aberer ، A.J. & amp Stamatakis، A. ExaML الإصدار 3: أداة لتحليلات النشوء والتطور على أجهزة الكمبيوتر العملاقة. المعلوماتية الحيوية 31, 2577–2579 (2015).

نغوين ، إل تي ، شميدت ، إتش إيه ، فون هيسلر ، إيه آند مينه ، بي كيو. IQ-TREE: خوارزمية عشوائية سريعة وفعالة لتقدير سلالات الاحتمالية القصوى. مول. بيول. Evol. 32, 268–274 (2015).

Stamatakis، A. RAxML الإصدار 8: أداة لتحليل النشوء والتحليل اللاحق للأنواع الكبيرة من السلالات. المعلوماتية الحيوية 30, 1312–1313 (2014).

لو ، S.Q. & amp Gascuel، O. مصفوفة محسنة لاستبدال الأحماض الأمينية العامة. مول. بيول. Evol. 25, 1307–1320 (2008).

ناوروكي ، إ. البحث عن تنادد الحمض النووي الريبي البنيوي والمحاذاة باستخدام نماذج التغاير أطروحة دكتوراه ، جامعة واشنطن. في سانت لويس (2009).

Tavaré، S. بعض المشكلات الاحتمالية والإحصائية في تحليل متواليات الحمض النووي. محاضر. الرياضيات علوم الحياة. 17, 57–86 (1986).

Kupczok، A.، Schmidt، H.A. & amp von Haeseler، A. دقة طرق إعادة بناء تطور السلالات التي تجمع بين مجموعات بيانات الجينات المتداخلة. خوارزميات مول. بيول. 5, 37 (2010).


شكر وتقدير

نود أن نشكر M. Chillon Rodrigues (Universitat Autònoma de Barcelona) على تقديم CAV-Cre و S. Mihalas للحصول على المشورة بشأن تحليل البيانات و H. Gu و M. Mills و H. Gill و K. Hadley للمساعدة التقنية ، C Ye و A. Kaykas للمساعدة في تسلسل الجيل القادم ، وقسم في الجسم الحي العلوم ، وخاصة R. Larsen و L. Pearson و J. Harrington لتربية الفئران. نشكر J. Waters و E. Lein للتعليق على المخطوطة. يشكر المؤلفون مؤسسي معهد Allen ، Paul G. Allen و Jody Allen ، على رؤيتهم وتشجيعهم ودعمهم. تم تمويل هذا العمل من قبل معهد ألين لعلوم الدماغ ، ومنحت المعاهد الوطنية الأمريكية للصحة R01EY023173 و U01MH105982 إلى H.Z.


نتائج

المدخلات

تقبل أوبال كمدخلات واحدًا أو عدة ملفات تعريف تصنيفية وتقيسها في رتب تصنيفية مختلفة مقابل ملف تعريف معيار ذهبي تصنيفي معين.

قد تحتوي كل من ملفات التعريف التصنيفية المتوقعة والمعيارية الذهبية على معلومات لعينات متعددة ، مثل سلسلة زمنية أو مكررات تقنية أو بيولوجية. يمكن ، على سبيل المثال ، إنشاء ملف تعريف تصنيفي بمعيار ذهبي باستخدام جهاز محاكاة CAMISIM metagenome [21 ، 22]. يمكن أن تكون الملامح التصنيفية إما في تنسيق ملف تعريف الصناديق الحيوية [15 ، 23] أو في تنسيق BIOM [16]. يتم توفير الأمثلة في مستودع OPAL GitHub [24].

المقاييس والتصورات المصاحبة

يحسب OPAL نطاقًا من المقاييس ذات الصلة المستخدمة بشكل شائع في المجال [13] لملف تعريف تصنيفي واحد أو أكثر لمجموعة بيانات معينة من خلال المقارنة مع ملف تعريف تصنيفي قياسي ذهبي. أدناه ، نقدم تعريفات رسمية لجميع المقاييس ، جنبًا إلى جنب مع شرح لمعناها البيولوجي.

مقدمات

ل ص، مرتبة تصنيفية معينة (أو مجرد رتبة) ، دعونا xص تكون الوفرة النسبية البكتيرية الحقيقية في الرتبة ص معطى بمعيار الذهب. هذا هو، xص هو متجه مفهرس من قبل جميع الأصناف في المرتبة ص، حيث الدخول (xص)أنا هي الوفرة النسبية للصنف أنا في المجتمع الميكروبي الذي تم أخذ عينات منه في الرتبة ص. مع (x_^ <*> ) ، نشير إلى متجه الوفرة النسبية البكتيرية المتوقعة في الرتبة ص. وفقًا لذلك ، ( left (x_)^ <*> right) _) هي الوفرة النسبية المتوقعة من الأصناف أنا في المرتبة ص.

بشكل افتراضي ، تقوم OPAL بتطبيع جميع الوفرة (المتوقعة) قبل مقاييس الحوسبة ، بحيث يكون مجموع الوفرة يساوي 1 في كل رتبة ، أي ( sum _ (x_)_ = 1 ) و ( مجموع _ يسار (x_^ <*> right) _ = 1 ). هذا لتجنب أي تحيز تجاه تحديد سمات البرامج التي تقدم تنبؤات أقل ، على سبيل المثال ، لـ 50٪ فقط من العينة.

تقييم وجود أو عدم وجود الأصناف

نقاء واكتمال التنبؤات التصنيفية هي مقاييس شائعة لتقييم جودة التنميط [25]. يقومون بتقييم مدى جودة تحديد المحلل لوجود وغياب الأصناف في مجتمع ميكروبي مأخوذ من العينات دون النظر في مدى جودة استنتاج وفرتها النسبية. يمكن أن يكون هذا مناسبًا ، على سبيل المثال ، في حالة الطوارئ في التشخيص السريري ، عند البحث عن العامل الممرض في عينة ميتاجينومية مأخوذة من مادة المريض. لتحديد هذه التدابير ، دع دعم المتجه xص يكون

هذا هو، سوب(xص) هي مجموعة مؤشرات التصنيف في المرتبة ص موجودة في العينة. بالمثل ، (دعم يسار (x_^ <*> right) ) هي مجموعة مؤشرات التصنيف في المرتبة ص من المتوقع أن يكون في العينة. لكل رتبة ص، نحدد الإيجابيات الحقيقية TPص، ايجابيات مزيفة FPصوالسلبيات الكاذبة FNص، على التوالي ، كما

أين سوب(xص) ج و (دعم يسار (x_^ <*> right) ^) هي تكملة نواقل الدعم ذات الصلة ، وبالتالي تعطي مؤشرات التصنيف في المرتبة ص غائب أو متنبأ به غائب في العينة. خاصة، TPص و FPص هي عدد الأصناف التي تم توقعها بشكل صحيح وغير صحيح كما هو موجود في العينة ، على التوالي ، و FNص هو عدد الأصناف التي تم توقعها بشكل غير صحيح على أنها غير موجودة في العينة.

ال نقاء صص في المرتبة ص، المعروف أيضًا باسم الدقة أو الخصوصية ، هو نسبة الأصناف التي تم التنبؤ بها بشكل صحيح كما هي موجودة في العينة وجميع الأصناف المتوقعة في تلك المرتبة. لكل رتبة ص، يتم احتساب النقاء كـ

ال اكتمال سص في المرتبة ص، المعروف أيضًا باسم الاسترجاع أو الحساسية ، هو نسبة الأصناف التي تم توقعها بشكل صحيح على أنها موجودة وجميع الأصناف الموجودة في العينة في تلك المرتبة. لكل رتبة تصنيفية ص، يتم حساب الاكتمال كـ

تتراوح درجة النقاء والاكتمال من 0 (الأسوأ) إلى 1 (الأفضل).

نحن نجمع النقاء والاكتمال في مقياس واحد عن طريق حساب المتوسط ​​التوافقي ، المعروف أيضًا باسم نتيجة F1. يتم تعريفه لكل رتبة ص كما

تتراوح درجة F1 من 0 إلى 1 ، وتكون أقرب إلى 0 إذا كان أحد المقاييس على الأقل نقاء أو اكتمال قيمة منخفضة ، وأقرب إلى 1 إذا كان كل من النقاء والاكتمال مرتفعين.

ال مؤشر جاكارد ي هو مقياس شائع لتحديد النسبة المئوية للكائنات المشتركة بين مجموعتين أو عينات. نحددها كمؤشر للتشابه بين مجموعات الأصناف الحقيقية والمتوقعة في كل رتبة عن طريق حساب نسبة عدد الأصناف في تقاطع هذه المجموعات إلى عدد الأصناف في اتحادهم. رسميًا ، يتم حسابها لكل رتبة على أنها

يتراوح مؤشر Jaccard من 0 (اختلاف كامل) إلى 1 (تداخل كامل).

تقديرات الوفرة

لا تأخذ الفئة التالية من المقاييس لتقييم جودة التنميط في الاعتبار ما إذا كان من المتوقع أن تكون الأصناف موجودة أو غائبة في العينة فحسب ، بل تراعي أيضًا وفرتها.

يقيس معيار L1 دقة إعادة بناء الوفرة النسبية للأصناف في عينة في المرتبة ص. يتم إعطاء معيار L1 بواسطة

ال القاعدة L1 وبالتالي يعطي الخطأ الإجمالي بين الوفرة الحقيقية والمتوقعة من الأصناف في المرتبة ص. يتراوح من 0 إلى 2 ، حيث يشير 0 إلى إعادة بناء مثالية للوفرة النسبية للكائنات الحية في عينة ويشير 2 إلى إعادة بناء غير صحيحة تمامًا للوفرة النسبية.

مقياس آخر هو المسافة براي كيرتس دص، مشتق من معيار L1 بقسمة مجموع الفروق الزوجية المطلقة لوفرة الأصناف على مبالغ جميع الوفرة في الرتبة المعينة. هذا يحد مسافة Bray-Curtis بين 0 و 1. لكل رتبة ص، تم تعريفه على أنه

ال مسافة UniFrac الموزونة هو مقياس قائم على الأشجار للتشابه التصنيفي للمجتمعات الميكروبية [17] يقيس التشابه بين الوفرة الحقيقية والمتوقعة. بدلاً من شجرة النشوء والتطور كما في [17] ، نستخدم شجرة تصنيف ذات عقد مقيدة بثماني مراتب رئيسية ونخزن الوفرة الحقيقية والمتوقعة على العقد المناسبة. باختصار ، مسافة UniFrac هي المبلغ الإجمالي للوفرة المتوقعة التي يجب نقلها (على طول حواف الشجرة التصنيفية ، مع ضبط جميع أطوال الفروع هنا على 1) لجعلها تتداخل مع الوفرة النسبية الحقيقية. نستخدم تطبيق EMDUnifrac لمسافة UniFrac [26-28]. تشير مسافة UniFrac المنخفضة إلى أن خوارزمية التنميط التصنيفي تعطي تنبؤًا مشابهًا من الناحية التصنيفية للملف الفعلي للعينة. تتراوح مسافة UniFrac الموزونة بين 0 و ضعف ارتفاع الشجرة التصنيفية المستخدمة. نظرًا لأن كل مستوى من مستويات الشجرة يمثل أحد مراتب الملك الفائق ، والشعبة ، والفئة ، والترتيب ، والعائلة ، والجنس ، والأنواع ، والسلالة ، فإن أقصى مسافة مرجحة من UniFrac هي 16.

ال مسافة UniFrac غير الموزونة مشابه لمسافة UniFrac الموزونة ، ولكن بدلاً من تخزين الوفرة النسبية بالنسبة للعقد المناسبة ، يتم وضع 1 على العقدة إذا كان ملف التعريف يشير إلى وفرة نسبية غير صفرية في تلك العقدة و 0 بخلاف ذلك. ومن ثم ، يمكن اعتباره مقياسًا لمدى نجاح (من حيث التشابه التصنيفي) في تحديد المحلل بشكل صحيح وجود وغياب الأصناف في العينة. أقصى مسافة UniFrac غير الموزونة تساوي

أين ص هي مجموعة كل الرتب التصنيفية.

مقاييس تنوع ألفا

على عكس المقاييس أعلاه ، يتم حساب مقاييس تنوع ألفا من ملف تعريف واحد للوفرة (المتوقعة) في كل رتبة ، دون مقارنة ، على سبيل المثال ، ملف تعريف قياسي ذهبي. تلخص مقاييس تنوع ألفا التنوع (أو الثراء) وتوزيع الأصناف الموجودة في الملف الشخصي [29] ، ومن بين الاستخدامات الأخرى ، تُستخدم بشكل شائع لمراقبة التحولات العالمية في بنية المجتمع نتيجة لبعض المعلمات البيئية [30 - 33].

أبسط مقياس تنوع ألفا هو عدد الأصناف الموجودة في بيئة معينة. نقيس هذا في كل رتبة على حدة لملف تعريف معين ، مما يسمح بإجراء مقارنة مع معيار الذهب الأساسي. لملف تعريف معين xص (أو (x_^ <*> )) ، نشير إلى عدد الأصناف في المرتبة ص كما سص=|سوب(xص)|.

كمقياس للتنوع مع الأخذ في الاعتبار أيضًا وفرة الأصناف النسبية ، فإننا نجمع سص وكل الوفرة (xص)أنا (أو ((x_^<*>)_) ) باستخدام مؤشر التنوع شانون حص [34]. لكل رتبة ص، يتم حسابها على أنها

حص يتراوح من 0 إلى ln (سص) ، حيث ln (سص) يمثل أقصى تنوع ممكن ، مع تمثيل جميع الأصناف بالتساوي. نلاحظ أن مؤشر تنوع شانون يفترض تقليديًا أن جميع الأصناف ممثلة في العينة. ومع ذلك ، نظرًا لأن بعض أدوات التعريف قد لا تتوقع الوفرة لجميع الأصناف ، فإننا نتجاهل هذه الأصناف في المجموع (حيث ( left (x ^ <*> _حق)_= 0 ) أو (xص)أنا=0).

في حين حص يمثل التنوع والتساوي ، فإن مؤشر شانون الإنصاف هص هو مقياس للتساوي. إنه شكل طبيعي لمؤشر تنوع شانون الذي تم الحصول عليه بالقسمة حص بقيمته القصوى ln (سص)، بمعنى آخر.،

هكذا، هص من 0 إلى 1 مع 1 يشير إلى تكافؤ تام.

مقاييس التنوع بيتا

على عكس تنوع ألفا ، تعطي مقاييس التنوع بيتا إشارة إلى تشابه توزيع الأصناف بين زوج من الملفات الشخصية [29]. إذا كان تنوع بيتا صغيراً ، فإن التنوع ليس متشابهًا بين الملفات الشخصية فحسب ، بل أيضًا في الواقع توزيع من الوفرة النسبية بين التشكيلات متشابهة. لمقارنة التشابه بين تنبؤات تنوع بيتا لكل أداة تعريف مقابل المعيار الذهبي ، نعرض المعلومات التالية في مخطط مبعثر. تتوافق كل نقطة مع زوج من عينات الإدخال مع x- التنسيق هو المسافة بين براي-كيرتس بين تنبؤات المحللون التصنيفي على زوج من العينات. ال ذ-التنسيق هو مسافة Bray-Curtis بين المعايير الذهبية المقابلة لزوج العينات. كلما اقترب مخطط التبعثر من الخط ذ=x، كلما زادت نتائج ملف التعريف التصنيفي عن كثب في توزيعات الأصناف المشابهة لمعيار الذهب. يتم عرض هذه المؤامرات في كل رتبة تصنيفية.

الترتيب

للإشارة إلى إحساس عالمي بالأداء النسبي ، نقوم أيضًا بتصنيف المحترفين حسب أدائهم النسبي عبر كل عينة ، ورتبة تصنيفية ، ومقياس. على وجه الخصوص ، يتم تعيين درجة لكل ملف تعريف لأدائه لكل مقياس ضمن رتبة وعينة تصنيفية. يحصل المحلل الأفضل أداءً على النتيجة 0 ، وثاني أفضل ، و 1 ، وهكذا. تُضاف هذه الدرجات بعد ذلك على الرتب والعينات التصنيفية لإنتاج درجة واحدة لكل مقياس لكل أداة تعريف. أيضًا ، يتم احتساب النتيجة الإجمالية لكل أداة تعريف عن طريق تلخيص جميع درجاته لكل مقياس. يتم عرض الدرجات الناتجة في جدول تفاعلي لصفحة HTML ، مع صف لكل ملف تعريف ، وعمود لكل مقياس ، وعمود إضافي للدرجات الإجمالية. يمكن فرز الأعمدة بواسطة المستخدم ، وبالتالي ، ينتج عن ذلك ترتيب لملفات التعريف على جميع المقاييس أو لمقياس معين. اختياريًا ، يمكن حساب النتيجة الإجمالية لكل ملف تعريف عن طريق تلخيص درجاته لكل مقياس بطريقة مرجحة ، أي يمكن للمستخدم تحديد الترجيح المخصص بشكل تفاعلي على صفحة HTML ، اعتمادًا على مجموعة المقاييس التي تناسب احتياجاته. الوزن الافتراضي لكل مقياس هو 1 ويمكن أن يختلف بين 0 و 10 ، في خطوات 0.1. على سبيل المثال ، إذا كان المستخدم مهتمًا بملفات التعريف الدقيقة للغاية والتي تعيد بناء الوفرة النسبية الدقيقة للأصناف المتوقعة بدقة ، فيمكنه التأكيد على النقاء ومعيار L1 (على سبيل المثال ، إعطاء كل وزن 3) على خطأ واكتمال UniFrac (على سبيل المثال ، إعطاء كل الوزن 1). The resulting rankings are dynamically updated in real time and graphically presented to the user.

Output and visualizations

OPAL outputs the assessment of the predictions of multiple profilers in several formats: flat files, tables (per profiling program, taxonomic rank, and in tidy format [35]), plots, and in an interactive HTML visualization. An example page is available at [36]. The visualizations created include:

Absolute performance plots: To visually compare the relative performance of multiple profilers, spider plots (also known as radar plots) of completeness and purity are created, with the spokes labeled with the corresponding profiler name. At least three profilers are required for these plots. The completeness and purity metrics are shown as colored lines connecting the spokes, with the scale on the spokes indicating the value of the error metric. One such spider plot is created at each taxonomic rank to give an indication of performance versus rank. For examples, see Fig. 2b and Additional file 1: Figure S5b, d.

Relative performance plots: Similarly, spider plots are created for the completeness, purity, false positives, weighted UniFrac, and L1 norm for three or more profilers. Since the values of these metrics have very different scales, they are each normalized by the maximum value attained by any input profiler. Hence, these plots indicate the relative performance of each profiler with respect to the different metrics. For example, one profiler having the largest value of the purity metric would indicate that, among the compared profilers, it is the most precise (without indicating what the exact value of the purity metric is). These plots are also shown at each taxonomic rank. For examples, see Fig. 2a and Additional file 1: Figure S5a, c.

Shannon equitability: The Shannon equitability index is plotted against taxonomic ranks for each input profile along with the gold standard. This results in a visual indication of how closely a taxonomic profile reflects the actual alpha diversity of the gold standard. For examples, see Fig. 3a and Additional file 1: Figure S12.

Bray-Curtis distances: For each profiler, a scatter plot of Bray-Curtis distances is created to compare the similarity of beta diversity of the profiler predictions versus the gold standard. For details, see the section above on beta diversity metrics. Examples are given in Fig. 3b–h and Additional file 1: Figure S13.

Ranking: In a bar chart shown on the created HTML page, each bar corresponds to the sum of scores obtained by a profiler as a result of its ranking for the metrics completeness, purity, L1 norm, and weighted UniFrac over all major taxonomic ranks. The bar chart is dynamically updated in real time according to the weight assigned to each metric by the user. For details of the computation of the scores, see the above section on rankings. Examples of such bar charts are given in Additional file 1: Figure S11 and on the example HTML page at [36].

Taxa proportions: For each taxonomic rank, a stacked bar chart shows the taxa proportions in each sample of the gold standard, with each bar corresponding to a sample and each color to a taxon. This gives a visual indication of the taxa abundances and variations among the samples. On the HTML page, the user may opt to see a legend of the colors and corresponding taxa. The legend is only optionally displayed since the number of taxa can vary between a few superkingdoms to hundreds or thousands of species or strains, and these cannot all be reasonably displayed on a single image. Examples are given in Additional file 1: Figures S1, S2, and S3.

Rarefaction and accumulation curves: A plot simultaneously shows rarefaction and accumulation curves for all the major taxonomic ranks. To ease the visualization at different ranks, another plot shows the curves in logarithmic scale with base 10. For examples, see Additional file 1: Figure S4.

Comparison of taxonomic profilers: an application example

To demonstrate an application, we evaluated taxonomic profilers on three datasets. First, we evaluated taxonomic profiling submissions to the first CAMI challenge [13] on the dataset with the highest microbial complexity in the challenge. We will call this dataset CAMI I HC for short. This is a simulated time series benchmark dataset with five samples, each with size 15 Gbp, and a total of 596 genomes. It includes bacteria, archaea, and high-copy circular elements (plasmids and viruses) with substantial real and simulated strain-level diversity. We reproduce and extend the results for this dataset from [13] with alpha and beta diversity metrics implemented in OPAL and measure the run time and memory usage of profiling methods.

The second dataset that we evaluated taxonomic profilers on were the short-read data of a new حاجة dataset of the second CAMI challenge (CAMI II MG, for short). This consists of 64 samples with a total size of 320 Gbp and was simulated from taxonomic profiles for microbial communities from the guts of different mice [21]. This resulted in the inclusion of 791 genomes as meta-community members from public databases. The samples in both CAMI I HC and CAMI II MG are paired-end 150-bp Illumina reads and are available at [37, 38].

Lastly, to demonstrate the application of OPAL on a real (not simulated) dataset, we also benchmarked profilers on the Human Microbiome Project Mock Community dataset [39] (HMP MC, for short), namely on the staggered sample available from NCBI SRA (accession SRR172903). It comprises 7.9 million 75-bp reads, with organismal abundances available in [40].

To visualize the taxonomic composition and properties of these datasets, we produced plots of the taxa proportions at all major taxonomic ranks for all samples with OPAL (Additional file 1: Figures S1, S2, and S3 for CAMI I HC, CAMI II MG, and HMP MC, respectively) and calculated rarefaction curves (Additional file 1: Figure S4). All plots and assessments were computed with OPAL version 1.0.0 [41].

The assessed profilers were CommonKmers (corresponding to MetaPalette 1.0.0) [2, 42], CAMIARKQuikr 1.0.0 [43], abbreviated Quikr (a combination of Quikr [8], ARK [9], and SEK [10]), TIPP 2.0.0 [12], Metaphlan 2.2.0 [5], MetaPhyler 1.25 [6], mOTU 1.1 [7], and FOCUS 0.31 adapted for CAMI [4]. To facilitate the reproduction of the assessments, we ran the profilers as Bioboxes docker containers. The corresponding docker images are available on Docker Hub, and their names and the preconfigured parameters used by the profilers are provided in Additional file 1: Table S1. Instructions for reproducing the results are provided in Additional file 2 and in the OPAL GitHub repository [24]. The reference databases used by each profiler precede the release of the genomes used for generating the first CAMI challenge datasets. Thus, the metagenomic information of the CAMI I HC dataset was completely new for these profilers and at different taxonomic distances to available reference genomes, differently from the metagenome data of the CAMI II MG practice dataset. The Bioboxes were run on a computer with an Intel Xeon E5-4650 v4 CPU (virtualized to 16 CPU cores, 1 thread per core) and 512 GB of main memory. Metaphlan was the fastest method on CAMI II MG with a run time of 12.5 h, whereas on CAMI I HC, Metaphlan and Quikr were the fastest methods, requiring roughly the same execution time of 2.12 h (Fig. 1 and Additional file 1: Table S2). On HMP MC, FOCUS was the fastest method, requiring 0.07 h. mOTU was the most memory efficient method on all three datasets (1.19 GB of maximum main memory usage on CAMI I HC and CAMI II MG, and 1.01 GB on HMP MC), closely followed by Metaphlan (1.44, 1.66, and 1.41 GB maximum main memory usage on CAMI I HC, CAMI II MG, and HMP MC, respectively).

Computing efficiency. Run time in hours and maximum main memory usage in gigabytes required by the profilers to process the CAMI I high complexity (أ), the CAMI II mouse gut (ب), and the HMP Mock Community (ج) datasets

On the CAMI I HC data, Quikr, TIPP, and MetaPhyler, in this order, achieved the overall highest completeness (Additional file 1: Figures S5a, b, e and S6-S8a-g). However, these profilers obtained the lowest purity. In this metric, CommonKmers and Metaphlan performed best. In terms of the F1 score, computed from completeness and purity, Metaphlan was the best method. This indicates that Metaphlan performed particularly well in determining the presence or absence of taxa. However, it could not accurately predict their relative abundances, as indicated by the high L1 norm error. In this metric, MetaPhyler did well, followed by FOCUS and CommonKmers.

When ranking methods over all taxonomic ranks using completeness, purity, L1 norm, and weighted UniFrac with equal weights (Additional file 1: Figures S5e and S11a), TIPP performed best with total score 184. TIPP ranked second for completeness and weighted UniFrac (scores 31 and 5, respectively), third for L1 norm (score 52), and only for purity it did not do so well and was ranked fifth (score 96). When considering the performance of the profilers at different taxonomic ranks, we found that most profilers performed well until the family level. For example, TIPP and MetaPhyler achieved a 0.92 completeness at the family level, but this decreased to 0.43 at the genus level. Similarly, the purity of CommonKmers decreased from 0.96 at the family level to 0.77 and 0.08 at the genus and species levels, respectively.

In terms of alpha diversity, no profiler estimated taxon counts well. Most programs overestimated the diversity at all taxonomic ranks. Quikr, FOCUS, and CommonKmers predicted taxon abundances that better reflect the Shannon equitability of the gold standard (Additional file 1: Figure S12a, b). However, Quikr, mOTU, and TIPP made no predictions at the strain level. The predicted abundance distributions of CommonKmers and mOTU across all samples at the species level best reflect the gold standard, as visualized with the scatter plots of Bray-Curtis distances (Additional file 1: Figure S13). Taken together, the OPAL results fully reproduce the results from [13], where performance was summarized in three categories of profilers: profilers that correctly predicted relative abundances, profilers with high purity, and those with high completeness. OPAL extends the overall performance view by providing analysis of computing efficiency and microbial diversity predictors.

On the CAMI II MG data, Metaphlan obtained the overall best ranking over all taxonomic ranks, using the equally weighted metrics completeness, purity, L1 norm, and weighted UniFrac (Fig. 2d and Additional file 1: Figure S11b). MetaPhyler achieved the highest completeness at most taxonomic ranks, followed by TIPP and Metaphlan (Additional file 1: Figures S6-S8h-n), whereas CommonKmers achieved the highest completeness at the species level (Fig. 2c). Metaphlan was not only among the profilers with the highest completeness, but it also maintained a high purity throughout all taxonomic ranks, with only a small decrease from genus (0.94) to species (0.89). This can be explained by a high coverage of CAMI II MG by the reference genomes used by Metaphlan. It also contrasts with the results in [13], showing that a profiler can be precise while achieving a relative high completeness, but with this being very dependent on the input data. Metaphlan also predicted taxon distributions across the samples well. MetaPhyler and TIPP could not identify well differences in taxa abundances for the samples and tended to predict similar abundances, which is reflected in many points in the plots being above the line x=ذ (Fig. 3b–h).

Assessment results on the CAMI II mouse gut dataset. أ Relative performance plots with results for the metrics: weighted UniFrac, L1 norm, completeness, purity, and number of false positives at different taxonomic ranks. The values of the metrics in these plots are normalized by the maximum value attained by any profiler at a certain rank. ب Absolute performance plots with results for the metrics completeness and recall, ranging between 0 and 1. ج Results at the species level for all computed metrics, as output by OPAL in the produced HTML page. The values are averaged over the results for all 64 samples of the dataset, with the standard error being shown in parentheses. The colors indicate the quality of the prediction by a profiler with respect to a metric, from best (dark blue) to worst (dark red). د Rankings of the profilers according to their performance and scores for different metrics computed over all samples and taxonomic ranks

Examples of alpha and beta diversity plots from the results on the CAMI II mouse gut dataset. أ Shannon equitability at different taxonomic ranks as a measure of alpha diversity. The closer the Shannon equitability of the predicted profile by a method to the gold standard, the better it reflects the actual alpha diversity in the gold standard in terms of evenness of the taxa abundances. بح Scatter plots of Bray-Curtis distances visualizing beta diversity at the species level. For each profiling method and plot, a point corresponds to the Bray-Curtis distance between the abundance predictions for a pair of input samples by the method (x-axis) and the Bray-Curtis distance computed for the gold standard for the same pair of samples (ذ-axis). The closer a point is to the line x=ذ, the more similar the predicted taxa distributions are to the gold standard

In terms of alpha diversity, Metaphlan, CommonKmers, and mOTU predicted taxon counts similar to the gold standard for most taxonomic ranks, whereas the other profilers mostly overestimated the counts. On the other hand, TIPP, MetaPhyler, and mOTU predicted taxon abundances that more closely reflect their evenness, i.e., Shannon equitability, in the gold standard (Fig. 3a and Additional file 1: Figure S12c, d). As on the CAMI I HC data, Quikr, mOTU, and TIPP made no strain-level predictions on this dataset.

On the HMP MC dataset, the profilers ranked similarly as on CAMI II MG dataset for the sum of scores of completeness, purity, L1 norm, and weighted UniFrac (Additional file 1: Figures S5f and S11c). Metaphlan and MetaPhyler, in this order, again performed best. They were followed by mOTU and CommonKmers (on CAMI II MG, CommonKmers and mOTU) and Quikr and FOCUS (on CAMI II MG, FOCUS and Quikr). Metaphlan ranked best for all these metrics except for completeness, being outperformed by MetaPhyler. At the species level, MetaPhyler and mOTU identified the highest number of true positives, with 21 and 18 out of 22, respectively (Additional file 1: Figure S10g). They also achieved the highest completeness of 95% and 81%, respectively. However, MetaPhyler reported 144 false positives, the highest number after Quikr, with 618, and achieved a relatively low purity. We did not assess TIPP, because it could not make predictions. We believe that blastn, which TIPP uses in its pipeline with default parameters, was not able to score part of the reads, consequently stopping the pipeline.

In terms of alpha diversity, Metaphlan’s (MetaPhyler’s) predicted taxon abundances were among the ones that best (worst) reflected the Shannon equitability of the gold standard throughout the rankings (Additional file 1: Figure S12e, f). At the strain level, CommonKmers performed best with this metric.


1.7: Assignment- Visualizing Taxonomy - Biology

TaxADivA - TAXonomy Assignment and DIVersity Assessment

TaxADivA is a wrapper script written in Perl to facilitate the analysis of nifH amplicon sequences.

The script uses threading to parallelize the processing of sequences and thereby reduce run time. This wrapper pipeline performs the following steps in order (including the optional steps):

  1. Sequences are merged with PEAR (Zhang J et al 2014. Bioinformatics 30:614–620)
  2. Primers are trimmed using PrinSeq
  3. Chimeras are removed and sequences clustered with VSEARCH (Rognes T et al. 2016. PeerJ. 4:e2584)
  4. Taxonomy is assigned with BLAST (Altschul SF. 1990. J Mol Biol. 215:403–410.) by reference to a nifH taxonomy database, cluster IV/V sequences are removed,
  5. Numerous outputs for taxonomy exploration are produced including a BIOM text table (for QIIME Caporaso JG et al. 2010. Nat Methods 7:335–336), Krona (Ondov BD et al. 2011. BMC Bioinformatics. 12:385.), STAMP (Parks DH et al. 2014. Bioinformatics. 30:3123-4.) and
  6. An optional oligotyping analysis by Minimum Entropy Decomposition (Eren M et al. 2014. ISME J 9:968–979.) which produces taxonomically-labeled oligotype networks explorable with the network visualization tool Gephi (Bastian M et al. 2009. International AAAI Conference on Weblogs and Social Media.).

The taxonomy assignment step relies on similarity between the input clustered reads to the reference database. Taxonomy of the reference database is transferred over to the clustered read based on a set of decision rules as shown in the figure below:

The percent identity parameters described in the chart above are derived by emperically comparing all the sequences in the database and estimating the cutoffs that maximizes the number of correctly placed sequence within the same species, genus and family. These parameters can be changed from inside the script. These are declared as follows:

The code has been lightly commented and going forward, if time permits, I will add more comments to help anyone read, modify or update the script. This README will be continuously updated, as required, going forward.

Citations: Gaby, J.C., Rishishwar, L., Valderrama-Aguirre, L., Green, S.J., Valderrama-Aguirre, A., Jordan, I.K., Kostka , J.E., 2017. Diazotroph community characterization via a high-throughput nifH amplicon sequencing and analysis pipeline. Applied and Environmental Microbiology. 84: e01512-17.

The script is written specifically for Linux operating system and has been tested on Ubuntu 14.04 and RedHat systems. Certain components of the script may throw error on other *nix systems. The script utilizes basic Linux commands and thus may work on Cygwin but not on MS-DOS. All the required dependencies will hopefully not require further dependency installation and may simply require placement of respective binaries in a folder in the $PATH variable in the best case scenario.

  • Perl (comes installed with Linux)
  • nifH sequence database (Comes with the script, files: fDb.fasta and fTax.db.tsv source: http://www.css.cornell.edu/faculty/buckley/nifh.htm Gaby JC, Buckley DH. 2013. A comprehensive aligned nifH gene database: a multipurpose tool for studies of nitrogen-fixing bacteria. قاعدة البيانات. doi: 10.1093/database/bau001)
  • PRINSEQ: http://prinseq.sourceforge.net/
    • Installation of the script simply requires placing the Perl script in a folder that is in the $PATH. See below.
    • Please note that the PEAR binaries may be on the bottom-right of the page! Download the binaries, extract them and place them in a folder that is in the $PATH variable. See below.
    • The binary can then be placed in a folder that is in the $PATH variable.
    • Binaries for the relevant system can directly be obtained and placed in a folder that is in the $PATH variable. See below.
    • Download the archive, unzip it and place them in a folder that is in the $PATH variable. See below.

    For users not familiar with the $PATH variable, please follow the following steps to create your own bin directory and add it to your $PATH variable:

    This will create a bin directory in your home folder (

    ) and add this folder to your PATH variable. All the local installations can be placed inside this folder.

    Download the dependency, install them and place it in a folder that is in your PATH. The script can then be run simply as ./taxadiva.pl

    In case of an issue with installation, please contact Lava [email protected]

    The argument and the type of argument expected are defined in the help below.

    Example usage: taxadiva.pl -d fDb.fasta -t fTax.db.tsv -j 18 -s list.txt -o output1 -m "-v 50 -m 450 -n 350 -p 1.0 -j 4"

    The script can work on a single set of files (using the -1 and -2 option) or a set of files provided as a list as shown below:

    The columns needs to be التبويب separated.

    The script takes advantage of the embarrasingly parallel nature of the problem. Basic parallelization is performed in the script using Perl threads (and threading whenever available inside dependencies).

    By default, the script assumes that it can run 10 threads which may not be possible on many systems. This can be changed using the -j command or from the beginning of the script where the variable is defined my $threads = 10 (in case the user want to permanently change the default for their machine).

    1. One of the BLAST version changes from -max_hsps to -max_hsps_per_subject. This will throw an error if there is a version conflict. Lava is looking into this.

    Software that can be used for downstream analysis

    • STAMP: Parks DH, Tyson GW, Hugenholtz P, Beiko RG. 2014. STAMP: statistical analysis of taxonomic and functional profiles. المعلوماتية الحيوية. 30(21):3123-4.
    • MED: Eren a M, Morrison HG, Lescault PJ, Reveillaud J, Vineis JH, Sogin ML. 2014. Minimum entropy decomposition: Unsupervised oligotyping for sensitive partitioning of high-throughput marker gene sequences. ISME J 9:968–979.
    • QIIME: Caporaso JG, Kuczynski J, Stombaugh J, Bittinger K, Bushman FD, Costello EK, Fierer N, Peña AG, Goodrich JK, Gordon JI, Huttley GA, Kelley ST, Knights D, Koening JE, Ley RE, Lozupone CA, McDonald D, Muegge BD, Pirrung M, Reeder J, Sevinsky JR, Turnbaugh PJ, Walters WA, Widmann J, Yatsunenko T, Zaneveld J, Kinght R. 2010. QIIME allows analysis of high-throughput community sequencing data. Nat Methods 7:335–336
    • Gephi: Bastian M, Heymann S, Jacomy M. 2009. Gephi: an open source software for exploring and manipulating networks. International AAAI Conference on Weblogs and Social Media.
    • EMPeror: Vázquez-Baeza Y, Pirrung M, Gonzalez A, Knight R. 2013. EMPeror: a tool for visualizing high-throughput microbial community data. Gigascience. 2(1):16. doi: 10.1186/2047-217X-2-16.
    • 0.11 - Stable version. Alpha tested with following procedure: sequence quality control (prinseq), read merging (PEAR), read clustering (VSEARCH), taxonomy assignment (BLAST + processing), KRONA plot generation, oligotyping (MED optional). MED is fully functional. Cluster IV filtering is now optional. Instead of creating multiple output files, creates an output directory and places all the output files in it.
    • 0.10 - Stable version. Alpha tested with following procedure: sequence quality control (prinseq), read merging (PEAR), read clustering (USEARCH), taxonomy assignment (BLAST + processing), KRONA plot generation, oligotyping (MED optional). MED is fully functional. Instead of creating multiple output files, creates an output directory and places all the output files in it.
    • 0.9 - Last stable version. Alpha tested the following procedure: sequence quality control (prinseq), read merging (PEAR), read clustering (USEARCH), taxonomy assignment (BLAST + processing), KRONA plot generation, oligotyping (MED optional).

    مراجع

    Hebert PDN, Cywinska A, Ball SL, deWaard JR: Biological identifications through DNA barcodes. Proc Roy Soc Lond B Biol Sci. 2003, 270: 313-321. 10.1098/rspb.2002.2218.

    Hebert PDN, Penton EH, Burns JM, Janzen DH, Hallwachs W: Ten species in one: DNA barcoding reveals cryptic species in the neotropical skipper butterfly Astraptes fulgerator. Proc Natl Acad Sci Unit States Am. 2004, 101: 14812-14817. 10.1073/pnas.0406166101.

    Blaxter M: Counting angels with DNA. طبيعة سجية. 2003, 421: 122-124. 10.1038/421122a.

    Floyd R, Abebe E, Papert A, Blaxter M: Molecular barcodes for soil nematode identification. مول ايكول. 2002, 11: 839-850. 10.1046/j.1365-294X.2002.01485.x.

    Markmann M, Tautz D: Reverse taxonomy: an approach towards determining the diversity of meiobenthic organisms based on ribosomal RNA signature sequences. Phil Trans Biol Sci. 2005, 360: 1917-1924. 10.1098/rstb.2005.1723.

    Monaghan MT, Balke M, Gregory TR, Vogler AP: DNA-based species delineation in tropical beetles using mitochondrial and nuclear markers. Phil Trans Biol Sci. 2005, 360: 1925-1933. 10.1098/rstb.2005.1724.

    Vences M, Thomas M, Bonett RM, Vieites DR: Deciphering amphibian diversity through DNA barcoding: chances and challenges. Philos Trans Biol Sci. 2005, 360: 1859-1868. 10.1098/rstb.2005.1717.

    Lefébure T, Douady CJ, Gouy M, Gibert J: Relationship between morphological taxonomy and molecular divergence within Crustacea: proposal of a molecular threshold to help species delimitation. Mol Phylogenet Evol. 2006, 40: 435-447. 10.1016/j.ympev.2006.03.014.

    Casiraghi M, Bain O, Guerrero R, Martin C, Pocacqua V, Gardner SL, Franceschi A, Bandi C: Mapping the presence of Wolbachia pipientis on the phylogeny of filarial nematodes: evidence for symbiont loss during evolution. Int ياء باراسيتول. 2004, 34: 191-203. 10.1016/j.ijpara.2003.10.004.

    Rach J, Desalle R, Sarkar IN, Schierwater B, Hadrys H: Character-based DNA barcoding allows discrimination of genera, species and populations in Odonata. Proc Roy Soc Lond B Biol Sci. 2008, 275: 237-247. 10.1098/rspb.2007.1290.

    Hebert PDN, Stoeckle MY, Zemlak TS, Francis CM: Identification of birds through DNA barcodes. PLoS Biology. 2004, 2: e312-10.1371/journal.pbio.0020312.

    Moritz C, Cicero C: DNA barcoding: Promise and pitfalls. PLoS Biology. 2004, 2: e354-10.1371/journal.pbio.0020354.

    Meyer CP, Paulay G: DNA barcoding: error rates based on comprehensive sampling. PLoS Biology. 2005, 3: e422-10.1371/journal.pbio.0030422.

    Wiemers M, Fiedler K: Does the DNA barcoding gap exist? – a case study in blue butterflies (Lepidoptera: Lycaenidae). الجبهة Zool. 2007, 4: 8-10.1186/1742-9994-4-8.

    Funk DJ, Omland KE: Species-level paraphyly and polyphyly: frequency, causes, and consequences, with insights from animal mitochondrial DNA. Annu Rev Ecol Evol Systemat. 2003, 34: 397-423. 10.1146/annurev.ecolsys.34.011802.132421.

    Besansky NJ, Severson DW, Ferdig MT: DNA barcoding of parasites and invertebrate disease vectors: what you don't know can hurt you. اتجاهات باراسيتول. 2003, 19: 545-546. 10.1016/j.pt.2003.09.015.

    Powers TO: Nematode molecular diagnostics: From bands to barcodes. Annu Rev Phytopathology. 2004, 42: 367-385. 10.1146/annurev.phyto.42.040803.140348.

    Blaxter M, Mann J, Chapman T, Thomas F, Whitton C, Floyd R, Abebe E: Defining operational taxonomic units using DNA barcode data. Phil Trans Roy Soc Lond B. 2005, 360: 1935-1943. 10.1098/rstb.2005.1725.

    Pion SD, Clarke P, Filipe JA, Kamgno J, Gardon J, Basanez MG, Boussinesq M: Co-infection with كلابية الذنب الانفتالية و Loa loa microfilariae in central Cameroon: are these two species interacting?. علم الطفيليات. 2006, 132: 843-854. 10.1017/S003118200600984X.

    Anderson RC, Bain O: Keys to genera of the order Spirurida. Part 3. Diplotriaenoidea, Aproctoidea and Filarioidea. CIH keys to the nematode parasites of vertebrates. 1976, Farnham Royal: Commonwealth Agricultural Bureaux, 3: 59-116.

    Stein LD, Bao Z, Blasiar D, Blumenthal T, Brent MR, Chen N, Chinwalla A, Clarke L, Clee C, Coghlan A, Coulson A, D'Eustachio P, Fitch DHA, Fulton LA, Fulton RE, Griffiths-Jones S, Harris TW, Hillier LDW, Kamath R, Kuwabara PE, Mardis ER, Marra MA, Miner TL, Minx P, Mullikin JC, Plumb RW, Rogers J, Schein JE, Sohrmann M, Spieth J, Stajich JE, Wei C, Willey D, Wilson RK, Durbin R, Waterston RH: The genome sequence of Caenorhabditis briggsae: a platform for comparative genomics. PLOS Biology. 2003, 1: 166-192. 10.1371/journal.pbio.0000045.

    Casiraghi M, Anderson TJC, Bandi C, Bazzocchi C, Genchi C: A phylogenetic analysis of filarial nematodes: comparison with the phylogeny of Wolbachia endosymbionts. علم الطفيليات. 2001, 122: 93-103. 10.1017/S0031182000007149.

    Anderson RC: Nematode parasites of Vertebrates – Their development and transmission. 2000, Wallingford: CAB International

    Chabaud AG: Le genre Dipetalonema Diesing, 1861 esssai de classification. Annales de Parasitologie Humaine et Comparée. 1952, 27: 250-285.

    Bartlett CM: Cercopithifilaria leporinus ن. ص. (Nematoda: Filarioidea) from the snowshoe hare (ليبوس أمريكانوس Erxleben) (Lagomorpha) in Canada. Annales de Parasitologie Humaine et Comparée. 1983, 58: 275-283.

    Guerrero R, Martin C, Gardner SL, Bain O: New and known species of Litomosoides (Nematoda: Filarioidea): important adult and larval characters and taxonomic changes. Comp Parasitol. 2002, 69: 177-195. 10.1654/1525-2647(2002)069[0177:NAKSOL]2.0.CO2.

    Uni S, Suzuki Y, Baba M, Mitani N, Takaoka H, Katsumi A, Bain O: Coexistence of five Cercopithifilaria species in the Japanese rupricaprine bovid, Capricornis crispus. Parasite. 2001, 8: 197-213.

    Kimura M: A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences. J مول إيفول. 1980, 16: 111-120. 10.1007/BF01731581.

    Tamura K, Dudley J, Nei M, Kumar S: MEGA4: Molecular Evolutionary Genetics Analysis (MEGA) software version 4.0. مول بيول إيفول. 2007, 24: 1596-1599. 10.1093/molbev/msm092.

    Britten RJ, Rowen L, Williams J, Cameron RA: Majority of divergence between closely related DNA samples is due to indels. Proc Natl Acad Sci Unit States Am. 2003, 100: 4661-4665. 10.1073/pnas.0330964100.

    Edgar RC: MUSCLE: محاذاة تسلسلات متعددة بدقة عالية وإنتاجية عالية. الدقة الأحماض النووية. 2004, 32: 1792-1797. 10.1093 / nar / gkh340.

    Thompson JD, Gibson TJ, Plewniak F, Jeanmougin F, Higgins DG: The ClustalX windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools. الدقة الأحماض النووية. 1997, 24: 4876-4882. 10.1093/nar/25.24.4876.

    Hall TA: BioEdit: a user-friendly biological sequence alignment editor and analysis program for Windows 95/98/NT. Nucleic Acids Symp. 1999, 41: 95-98.

    Peer Van de Y, De Wachter R: TREECON for Windows: a software package for the construction and drawing of evolutionary trees for the Microsoft Windows environment. CABIOS. 1994, 10: 569-570.

    Morales-Hojas R, Cheke RA, Post RJ: Molecular systematics of five Onchocerca species (Nematoda: Filarioidea) including the human parasite, O. volvulus, suggest sympatric speciation. J Helminthol. 2006, 80: 281-290.

    Agatsuma T, Iwagami M, Uni S, Takaoka H, Katsumi A, Kimura E, Bain O: Molecular phylogenetic relationships among seven Japanese species of Cercopithifilaria. Parasitol Int. 2005, 54: 195-199. 10.1016/j.parint.2005.04.002.

    Dorris M, Viney ME, Blaxter ML: Molecular phylogenetic analysis of the genus Strongyloides and related nematodes. Int ياء باراسيتول. 2002, 32: 1507-1517. 10.1016/S0020-7519(02)00156-X.

    Bain O: Le genre Onchocerca: hypothèses sur son évolution et clé dichotomique des espèces. Annales de Parasitologie Humaine et Comparée. 1981, 56: 503-526.

    Bain O, Petit G, Diagne M: Etude de quelques Litomosoides parasites de rongeurs conséquences taxonomiques. Annales de Parasitologie Humaine et Comparée. 1989, 64: 268-289.

    DeSalle R, Egan MG, Siddall M: The unholy trinity: taxonomy, species delimitation and DNA barcoding. Phil Trans Roy Soc Lond B. 2005, 360: 1905-1916. 10.1098/rstb.2005.1722.

    Chu KH, Li CP, Qi J: Ribosomal RNA as molecular barcodes: a simple correlation analysis without sequence alignment. المعلوماتية الحيوية. 2006, 22: 1690-1701. 10.1093/bioinformatics/btl146.

    Bensasson D, Zhang D, Hartl DL, Hewitt GM: Mitochondrial pseudogenes: evolution's misplaced witnesses. اتجاهات Ecol Evol. 2001, 16: 314-321. 10.1016/S0169-5347(01)02151-6.

    Song H, Buhay JE, Whiting MF, Crandall KA: Many species in one: DNA barcoding overestimates the number of species when nuclear mitochondrial pseudogenes are coamplified. Proc Natl Acad Sci Unit States Am. 2008, 105: 13486-91. 10.1073/pnas.0803076105.

    Abbasi I, Hamburger J, Githure J, Ochola JJ, Agure R, Koech DK, Ramzy R, Gad A, Williams SA: Deection of فخرية بنكروفتية DNA in patients' sputum by the polymerase chain reaction. Trans R Soc Trop Med Hyg. 1996, 90: 531-32. 10.1016/S0035-9203(96)90308-9.

    Miller SE: DNA barcoding and the renaissance of taxonomy. Proc Natl Acad Sci Unit States Am. 2007, 104: 4775-4776. 10.1073/pnas.0700466104.

    Dettman JR, Jacobson DJ, Turner E, Pringle A, Taylor JW: Reproductive isolation and phylogenetic divergence in نيوروسبورا: comparing methods of species recognition in a model eukaryote. تطور. 2003, 57: 2721-2741.


    Taxonomic and functional assignment of cloned sequences from high Andean forest soil metagenome

    Total metagenomic DNA was isolated from high Andean forest soil and subjected to taxonomical and functional composition analyses by means of clone library generation and sequencing. The obtained yield of 1.7 μg of DNA/g of soil was used to construct a metagenomic library of approximately 20,000 clones (in the plasmid p-Bluescript II SK+) with an average insert size of 4 Kb, covering 80 Mb of the total metagenomic DNA. Metagenomic sequences near the plasmid cloning site were sequenced and them trimmed and assembled, obtaining 299 reads and 31 contigs (0.3 Mb). Taxonomic assignment of total sequences was performed by BLASTX, resulting in 68.8, 44.8 and 24.5% classification into taxonomic groups using the metagenomic RAST server v2.0, WebCARMA v1.0 online system and MetaGenome Analyzer v3.8 software, respectively. Most clone sequences were classified as بكتيريا belonging to phlya Actinobacteria, Proteobacteria و Acidobacteria. Among the most represented orders were Actinomycetales (34% average), Rhizobiales, Burkholderiales و Myxococcales and with a greater number of sequences in the genus المتفطرة (7% average), فرانكيا, ستربتوميسيس و Bradyrhizobium. The vast majority of sequences were associated with the metabolism of carbohydrates, proteins, lipids and catalytic functions, such as phosphatases, glycosyltransferases, dehydrogenases, methyltransferases, dehydratases and epoxide hydrolases. In this study we compared different methods of taxonomic and functional assignment of metagenomic clone sequences to evaluate microbial diversity in an unexplored soil ecosystem, searching for putative enzymes of biotechnological interest and generating important information for further functional screening of clone libraries.

    هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


    الاستنتاجات

    Ponds represent a potential resource for freshwater, especially in agricultural settings. Here, we characterized the seasonal fluctuations in the microbial communities within one of these complex and often understudied water bodies. We found, through the use of shotgun metagenomics, that features of the bacterial community are strongly influenced by seasonal forces, including temperature, conductivity, precipitation, and turbidity. For instance, we noted that the abundance of البكتيريا الزرقاء (e.g. نوستوك spp), increased with rising ambient water temperature. In addition we characterized the functional potential of the bacterial fraction and identified 21 unique ARGs conferring resistance to over 15 drug classes, with the majority of hosts identified as members of the أكتينوباكتيريا الشعبة. Interestingly, we found that the diversity of ARGs, largely from Gammaproteobacterial المضيفين, spiked with a large precipitation event. Moreover, for a subset of samples we were able to characterize the viral communities, an often overlooked, but incredibly important, member of freshwater systems. From these data we found that Siphoviridae و Myoviridae dominated the pond, with the latter increasing during the warmer months surveyed. Taken together, these data showcase the range of compositional and functional variability within a freshwater pond over the course of a year.


    شاهد الفيديو: تصنيف الكائنات الحية (قد 2022).


تعليقات:

  1. Seaghda

    بيننا نقول.

  2. Zolozuru

    أعتقد أنك مخطئ. يمكنني إثبات ذلك. أرسل لي بريدًا إلكترونيًا إلى PM ، سنتحدث.

  3. Graeme

    لماذا تذهب كل أمجاد الكاتب ، ونحن أيضا نكرهه؟



اكتب رسالة