معلومة

استنتاج المسافة منذ الازدواجية من الشجرة؟

استنتاج المسافة منذ الازدواجية من الشجرة؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

سؤال
لدي سؤال بسيط حقًا ، لكنني غير قادر على حله.
لقد صنعت شجرة (باستخدام BLOSUM62). هذا جزء من الشجرة:


كيف يمكنني حساب المسافة حتى وقوع حدث الازدواجية بين HBD و HBB؟

  • فقط من أجل HBB 36.21 و HBD 38.79
  • أو 38.79 + 36.21 = 75

مزيد من المعلومات
لقد حددت ما إذا كانت هذه المجموعة من التسلسلات تتبع ساعة جزيئية ، وكان هذا هو الحال بالفعل. لذلك حددت المعدل الذي تتداخل فيه هذه التسلسلات. إذا كان بإمكاني تحديد المسافة بين HBD و HBB ، فيمكنني تقسيم ذلك بالمعدل للحصول على الوقت منذ حدوث حدث الازدواجية.


كيف يمكنك حساب هذا؟


بافتراض ساعة جزيئية ، تكون المسافة بين التسلسلات وحدث الازدواجية75/2 = 37.5. من الناحية المثالية ، يجب أن يكون لهذه التسلسلات نفس المسافة من العقدة الداخلية (تحت الساعة) ، ويمكنك استخدام نموذج يفترض صراحة الساعة - مما سيؤدي إلى أشجار فوقية. أحد الأمثلة هو برنامج promlk (أو dnamlk) من حزمة phylip. البديل الأسرع هو طريقة UPGMA ، والتي تمنحك أيضًا شجرة فائقة القياس.


يكشف تقييم النشوء والتطور للمحاذاة عن إشارة شجرة مهملة في الفجوات

تعد محاذاة التسلسلات البيولوجية ذات أهمية رئيسية لمعظم دراسات الجينوم التطورية والمقارنة ، ومع ذلك فإن النهجين الرئيسيين المستخدمين لتقييم دقة المحاذاة بهما عيوب: المحاذاة المرجعية مشتقة من العينة المتحيزة للبروتينات ذات البنية المعروفة ، والبيانات المحاكاة تفتقر إلى الواقعية.

نتائج

هنا ، نقدم اختبارات قائمة على الأشجار لدقة المحاذاة ، والتي لا تستخدم فقط عينات كبيرة وتمثيلية من البيانات البيولوجية الحقيقية ، ولكنها تتيح أيضًا تقييم تأثير وضع الفجوة على الاستدلال النشئي. نوضح أن (1) الاعتقاد الحالي بأن المحاذاة القائمة على الاتساق تتفوق في الأداء على المحاذاة القائمة على المصفوفة مضللة (2) تحمل الفجوات إشارة جينية كبيرة ، ولكن يتم استغلالها بشكل سيئ من قبل معظم برامج المحاذاة وبناء الأشجار (3) مع ذلك ، باستثناء الفجوات والمناطق المتغيرة ضارة (4) لا يقول الخلاف بين برامج المحاذاة سوى القليل عن دقة الأشجار الناتجة.

الاستنتاجات

توفر هذه الدراسة للمجتمع الواسع الذي يعتمد على محاذاة التسلسل مع توصيات عملية مهمة ، وتضع معايير فائقة لتقييم دقة المحاذاة ، وتمهد الطريق لتطوير طرق الاستدلال النشئي ذات الدقة العالية بشكل ملحوظ.


مقدمة

العناب (Ziziphus العناب Mill.) هو العضو الأكثر أهمية اقتصاديًا في Rhamnaceae ، وهي عائلة عالمية كبيرة 1،2. إنها واحدة من أقدم أشجار الفاكهة المزروعة في العالم ، مع وجود أدلة تدجين يعود تاريخها إلى 7000 عام مضت 3. موطنها الأصلي الصين وهي الآن محصول رئيسي من الفاكهة الجافة بمساحة زراعة تبلغ 2 مليون هكتار ، وهي المصدر الرئيسي لدخل 20 مليون مزارع بالإضافة إلى طب عشبي تقليدي لأكثر من مليار شخص في آسيا 4. تم تقديمه إلى ما لا يقل عن 47 دولة من المناطق المعتدلة إلى المناطق الاستوائية في جميع أنحاء القارات الخمس وأصبحت ذات شعبية متزايدة في جميع أنحاء العالم 5،6.

يحتوي العناب على مجموعة من السمات النباتية والبستانية 6 التي تمنحه إمكانات كبيرة في تحسين جزيئات أشجار الفاكهة ، وحماية صحة الإنسان ، والتنمية الاقتصادية والاستعادة البيئية للمنطقة القاحلة. يتكيف بشكل جيد مع مختلف الضغوط الحيوية وغير الحيوية ، وخاصة الجفاف والملوحة (الجدول التكميلي 1) ، ويعتبر محصولًا نقديًا مثاليًا للمناطق القاحلة وشبه القاحلة حيث لا تنمو محاصيل الفاكهة والحبوب / الزيت بشكل جيد. تعتبر ثمارها مصدرًا ممتازًا لفيتامين ج (أعلى من البرتقال والكيوي المشهوران الغنيان بفيتامين سي) والسكر (25-30٪ ، ضعف نسبة الفواكه الأكثر شيوعًا وحتى أعلى من قصب السكر وبنجر السكر) 7 ( الجدول التكميلي 2). يحتوي العناب أيضًا على تمايز سهل وسريع جدًا في برعم الزهرة (فقط

7 أيام) ، وهو موسم ازدهار طويل يستمر لمدة شهرين ، وهي فترة قصيرة جدًا

6 أشهر من الزراعة أو البذر حتى إنتاج الثمار ، ودورة حياة طويلة جدًا ، حتى أكثر من 1000 سنة إنتاجية 3،6 (الشكل التكميلي 1).

علاوة على ذلك ، طورت شجرة العناب نظامًا متميزًا للتقليم الذاتي يشتمل على أربعة أنواع من اللقطة وهي اللقطة الأولية ، والتقطيع الثانوي ، والبراعم الأم (MBS) ، والبراعم المحمل 6 ، ولكل منها وظيفة ونمط تنموي مختلف تمامًا. التصوير الأساسي هو التصوير الوحيد الممتد عادةً. يحدث إطلاق النار الثانوي من كل عقدة في اللقطة الأولية ويموت طرفها بشكل طبيعي. MBS هو الفرع الذي ينتج براعم المحامل ، ويتكون عند كل عقدة من اللقطة الثانوية ويتم استطالة مكثفة للغاية فقط

1 ملم في السنة. تعتبر براعم الثمار هي البراعم الوحيدة المثمرة ، فهي نفضية وتتساقط قبل الشتاء بشكل طبيعي ، وهي سمة غير شائعة جدًا في نباتات الأشجار. يجعل نظام التقليم الذاتي هذا من السهل التحكم في حجم الشجرة ، وتوفر أنواع التصوير المتنوعة نموذجًا فريدًا لتوضيح تطور ووظيفة التصوير.

محتويات السكر وفيتامين ج هي المؤشرات الأكثر شيوعًا لجودة الفاكهة ، والتقليم هو العمل الأكثر استهلاكا لليد العاملة في إدارة البساتين ، وسنوات الإثمار المبكرة والأكثر إنتاجية هي ما يتوقعه المزارعون ، والجفاف والملوحة هي الضغوطات غير الحيوية الرئيسية لزراعة الفاكهة. لذلك ، فإن الخصائص المذكورة أعلاه للعناب لها أهمية كبيرة في إنتاج الفاكهة الحديث الذي يتميز بالسرعة المردودة وسهولة الإدارة وتوفير العمالة. بالإضافة إلى ذلك ، فإن العناب هو أحد أقرباء الوردية (كلاهما ينتميان إلى رتبة روزاليس في نظام التصنيف الجزيئي المقبول على نطاق واسع في كاسيات البذور 8،9) ، وهي أهم عائلة منتجة للفاكهة تحتوي على عدد كبير من أنواع الفاكهة المتساقطة الرائدة مثل تفاح (Malus domestica)، كمثرى (بيريوس بريتشنايديري)، خوخ (برونوس بيرسيكا)، الفراولة (فراغاريا فيسكا) و روبوس. وبالتالي ، يمكن أن يكون العناب مصدرًا غنيًا للجينات اللازمة للتحسين الجزيئي لأشجار الفاكهة ، كما أن الفهم الأساسي لجينات العناب أمر بالغ الأهمية.

حتى الآن ، تم تسلسل وتجميع أكثر من 70 جينومًا للنبات منذ تسلسل الجينوم نبات الأرابيدوبسيس thaliana تم نشر 10 في عام 2000. ومع ذلك ، لا يزال المستوى العالي من التغاير الزيجوت والتسلسلات المتكررة والمحتوى المنخفض من GC هي العقبات الرئيسية لتسلسل الجينوم والتجميع باستخدام تقنية تسلسل الجيل التالي (NGS). نظرًا لطول القراءة القصيرة لتقنية NGS ، تعتمد خوارزمية التجميع دائمًا على الرسم البياني 11 لـ Bruijn ، حيث يصبح الموضع المتغاير الزيجوت بين أحادي الصبغية فقاعة مما يؤدي إلى انهيار التجميع النهائي في موضع متغاير الزيجوت. التسلسل المتكرر يجعل التجميع مجزأ بالطريقة نفسها. تم إعادة تقديم استراتيجية الكروموسوم الاصطناعي البكتيري للكروموسوم الاصطناعي البكتيري (BAC-to-BAC) وتم تجميع عدد قليل من الجينومات عند مستوى معقول 12،13،14. لم نكشف فقط عن كل من تغاير الزيجوت العالي والكثافة العالية للتسلسل المتكرر ولكن أيضًا محتوى منخفض من GC في جينوم العناب ، مما يشير إلى أنه يجب تطبيق طريقة جديدة للحصول على تسلسل جيد الجودة لهذا الجينوم المعقد.

المعرفة بعلم الوراثة وعلم الجينوم عناب محدودة للغاية ، ولم يتم نشر أي دراسة على مستوى الجينوم (بيانات عن حجم الجينوم وتغاير الزيجوت وخريطة ارتباط وراثي جزيئي مكتمل) على أي فرد من عائلة Rhamnaceae حتى الآن ، مما أعاق بشكل كبير التربية الجزيئية والبحوث البيولوجية والاستخدام العميق للعناب. في هذا البحث ، نقوم بتوليد وتحليل تسلسل جينوم عالي الجودة لأحد أقدم وأشهر أصناف العناب الصينية المزروعة على نطاق واسع ، "Dongzao" (2ن=2x= 24) ، باستخدام إستراتيجية جديدة تدمج تسلسل بندقية الجينوم الكامل (WGS) ، BAC-to-BAC ومكتبة خالية من PCR. نجري أيضًا تحليلات ترانسكريبتوم شاملة لـ 15 نسيجًا مختلفًا ومقارنات تطورية مع الأنواع ذات الصلة لتحديد الخصائص الجينية التي من المحتمل أن تدعم بعض السمات الأكثر قيمة للعناب. تقدم دراستنا مصدرًا غنيًا للمعلومات الجينية لتربية العناب والتحسين الجزيئي لنباتات Rhamnaceae وأنواع الفاكهة الأخرى.


نتائج ومناقشة

تحيز تسوية الشجرة

تتم عملية التوفيق بين الأشجار بإضافة الحد الأدنى من المكاسب والخسائر إلى شجرة الأنواع لجعلها متسقة مع شجرة الجينات. يعطي الشكل 1 مثالين لمثل هذه التسويات ، ويظهر بوضوح التاريخ المستنتج للمكاسب والخسارة وكيف يتم تعيينهما بعد ذلك على شجرة الأنواع. إذا كانت كل من شجرة الأنواع وشجرة الجينات صحيحة ، فيجب أن تستعيد خوارزميات التوفيق المختلفة المستخدمة جميعًا التاريخ الصحيح للازدواجية والفقد ، وإن كان ذلك بكفاءة حسابية متفاوتة [11]. تفترض هذه الطرق أيضًا أنه لا توجد بيانات مفقودة ، وهي مشكلة يمكن أن تؤدي إلى فقدان الجينات المستنتج بشكل غير صحيح [14].

مثالان على مصالحة الشجرة. معا (أ) و (ب) تمثل الشجرة الموجودة في أقصى اليسار شجرة الجينات ، والشجرة الوسطى ، وهي شجرة الجينات المصالحة ، والتي تُظهر التكرارات والخسائر ، وتُظهر الشجرة الموجودة في أقصى اليمين شجرة الأنواع مع المكاسب (الازدواجية) والخسائر المرسومة على الفروع المناسبة. تمثل أشجار الجينات المصالحة الشكل الذي ستبدو عليه شجرة الجينات بما في ذلك الجينات المفقودة (الفروع الرمادية).

إذا كانت إحدى الأشجار غير صحيحة (أفترض فيما يلي أنها ستكون عادةً شجرة الجينات) ، تتم إضافة مكاسب وخسائر إضافية إلى شجرة الأنواع من أجل التوفيق التام بين الشجرتين. يعطي الشكل 2 أ مثالاً لشجرة جينات تم استنتاجها بشكل غير صحيح ، وهي شجرة لها ببساطة ترتيب متفرع لاثنين من الجينات المتماثلة التي تم تبديلها (السلالات B و C). من أجل التوفيق بين شجرة الجينات هذه وشجرة الأنواع ، يجب وضع تكرار واحد فوق النقطة التي تنقسم فيها السلالات المتأثرة ويجب أن تحدث ثلاث خسائر جينية منفصلة على السلالات النهائية (الشكل 2 أ). عندما يتم تنفيذ طرق تسوية الشجرة مع الأخذ في الاعتبار دعم التمهيد (أو غيره) لكل عقدة ، فقد يتم طي الهيكل المستنتج بشكل غير صحيح إلى ترتيب التفرع في شجرة الأنواع. هذا له تأثير في تقليل عدد المكاسب والخسائر المقترحة للجينات. يوضح الشكل 2 ب نفس المثال كما في الشكل 2 أ ، ولكن تم إعطاء دعم تمهيد منخفض نسبيًا (65٪) للعقدة التي ستسبب الازدواجية والحذف الإضافي. في هذه الحالة ، فإن أي قطع إقلاع يستخدم أعلى من 65٪ سيؤدي إلى انهيار هذه العقدة ، ولن يتم استنتاج أي ازدواجية أو خسائر.

تحيز تسوية الشجرة. (أ) تأثير الاستنتاج الخاطئ لشجرة الجينات: إضافة تكرار واحد وثلاث خسائر. (ب) مثال على ذلك حيث تؤدي قيمة تمهيد تشغيل منخفضة (65٪) أقل من الحد الفاصل إلى انهيار شجرة الجينات. نتيجة لذلك ، لا يتم استنتاج أي ازدواجية أو خسائر.

كما نوقش أعلاه ، فإن العدد الصغير من الأحرف المستخدمة لبناء شجرة جينية معينة يعني أنه قد يتم استنتاج العديد من الأشجار بشكل غير صحيح. حتى مع التسلسلات الطويلة نسبيًا ، فإن شرط العثور على الأشجار لكل عائلة في الجينوم في وقت معقول يعني أنه يجب استخدام الأساليب التقريبية ، مثل الانضمام إلى الجار [19]. إذا كانت هناك حاجة إلى دعم التمهيد في كل عقدة ، فإن الأساليب القائمة على الاحتمالية لاستنتاج أشجار الجينات تصبح باهظة من الناحية الحسابية حتى بالنسبة لعدد صغير من الأشجار. ومن المسلم به أيضًا أن الدعم العالي للتمهيد يمكن أن يعتمد على طريقة التطور الدقيق ونموذج تطور التسلسل المستخدم [17 ، 18 ، 20-22]. علاوة على ذلك ، يمكن أن تؤدي المسافات القصيرة بين العقد إلى ظهور أشجار جينات فردية مختلفة عن شجرة الأنواع بسبب الفرز غير الكامل للنسب ، وليس بسبب أي أخطاء في طرق إعادة بناء الأشجار [23-25]. لكل هذه الأسباب ، يبدو من المحتمل أن العديد من أشجار الجينات في دراسات الجينوم الكاملة قد تم استنتاجها بشكل غير صحيح ، أو أنها ستحظى بدعم إقلاع مرتفع بشكل مصطنع للطوبولوجيا غير الصحيحة. بالإضافة إلى ذلك ، فإن بعض الطرق الأكثر استخدامًا لإجراء التسوية لا تجعل من الممكن النظر في دعم الطبولوجيا [10 ، 11] ، بحيث لا يمكن إجراء مخصص للطبولوجيا غير الصحيحة.

تؤدي الأخطاء في إعادة بناء شجرة الجينات إلى تحيزين متسقين في تسوية الشجرة: يجب تخصيص المزيد من الازدواجية للفروع الموجودة أعلى الشجرة ، نحو الجذر ويجب تخصيص المزيد من الخسائر للفروع الموجودة أسفل هذه الازدواجية. كما هو مبين في الشكل 2 أ ، تؤدي الخلافات الطوبولوجية بين شجرة الأنواع وشجرة الجينات دائمًا إلى وضع الازدواجية فوق الفروع غير المتسقة بين الشجرتين ، وهذه هي الطريقة الوحيدة للتوفيق بين الاختلافات. نتيجة للازدواجية المضافة إلى الشجرة ، يجب أيضًا إضافة خسائر متعددة ، ودائمًا على الأنساب نحو النصائح. ينتج عن هذا التحيز تاريخ مستنتج من العديد من المكاسب الجينية القديمة والعديد من الخسائر الجينية الحديثة.

محاسبة التحيز

إحدى السمات الأخرى للازدواجية الإضافية التي تمت إضافتها بسبب الأخطاء في طبولوجيا الأشجار هي أنه سيتم تخصيصها فقط للفروع التي تحتوي على أكثر من سلالتين متفرقتين. يحدث هذا التأثير لأن الطوبولوجيا الفرعية لشجرة أكبر تتضمن سلالتين أو أقل لا يمكن استنتاجها بشكل غير صحيح (على سبيل المثال ، الهيكل [A ، B] هو نفسه [B ، A]). يجب أن يكون التناقض بين الجين وشجرة الأنواع ناتجًا عن سوء ترتيب ثلاثة فروع أو أكثر (على سبيل المثال ، الطوبولوجيا [أ ، ب] ج] ليست هي نفسها [أ ، ج] ب]). لا يمكن المضي قدمًا في تسوية الشجرة إلا عن طريق إضافة ازدواجية للأنساب التي تسبق الفروع التي تم ترتيبها بشكل خاطئ (الشكل 2 أ) ، وبالتالي ، لا يمكن إضافتها إلا إلى السلالات ذات الثلاثة سلالات أو أكثر.

يعني تأثير هذا التحيز أن السلالات النهائية والعديد من السلالات المؤدية إليها لن يتم تخصيصها بشكل غير صحيح لتكرار. السلالات النهائية ("النصائح") والأنساب التي تؤدي إلى ظهور سلالتين نهائيتين فقط ("التوائم" على سبيل المثال ، الفرع المؤدي إلى [أ ، ب] في مثال شجرة الأنواع) لن تتم إضافة مضاعفات إليها بشكل خاطئ ، بغض النظر عن الكيفية تتعارض شجرة الجينات وشجرة الأنواع مع بعضهما البعض. لذلك ، يجب أن تكون المعلومات حول عدد التكرارات الجينية المستنتجة في هذه الفروع دقيقة. وبالتالي أعرّف هذه الفروع من شجرة الأنواع على أنها "مفيدة" ، واستخدمها في مقارنات أخرى أدناه.

هناك إمكانية أخرى لتفسير تحيز المصالحة على الفروع غير الإعلامية وهي إزالة الفروع المتفرعة بشكل متكرر من أشجار الجينات ليتم التوفيق بينها. نظرًا لأنه يتم وضع عمليات ازدواج غير صحيحة على هذه الفروع فقط عندما تكون هناك جينات من ثلاثة فروع سليلة أو أكثر ، فإن تقليم الأشجار بحيث يتم تمثيل سلالتين فقط أو أقل قد يسمح بإعادة بناء أكثر دقة لعدد التكرارات على هذه الفروع. ثم تحول هذه الطريقة بشكل أساسي الفروع "غير المفيدة" إلى فروع "إعلامية" عن طريق تقليل احتمالية عدم صحة أشجار الجينات. سيتعين القيام بمزيد من العمل لمعرفة كيفية تنفيذ هذا التقليم بالضبط.

لسوء الحظ ، يبدو أن تقديرات عدد الخسائر متحيزة عبر جميع الأنساب. نظرًا لأنه يمكن وضع المضاعفات بشكل غير صحيح في عمق الفرع المؤدي إلى الجذر - ولا يمكن استنتاج أي خسائر في هذا الفرع - فإن جميع فروع شجرة الأنواع تنحدر من سلالات يمكن أن تحتوي على ازدواج مزيف. هذا يعني أن عدد خسائر الجينات سيتم تقديره بشكل مبالغ فيه لجميع فروع الشجرة ، وسيزداد العدد باتجاه الأطراف.

الأدلة الجزيئية على تحيز التصالح

من أجل تقديم مثال على التحيز الموصوف هنا ، أجريت مصالحة شجرة لـ 9،920 شجرة جينية من 6 جينومات للثدييات و 11388 شجرة جينية من 12 ذبابة الفاكهة الجينومات (المواد والطرق). لإظهار التأثير الذي تحدثه الأخطاء المتزايدة على عدد المكاسب والخسائر المستنبطة ، قمت بإجراء تسويات بستة قيم مختلفة لقطع التمهيد: 100٪ ، 90٪ ، 80٪ ، 70٪ ، 60٪ ، 50 ٪. توقعي هو أن عدد الازدواجية في الفروع غير الإعلامية يجب أن يزداد مع انخفاض قطع التمهيد. هذا بسبب تضمين المزيد من الهياكل ذات الدعم الأقل (والتي من المحتمل أن تكون طبولوجيا غير صحيحة) مع عمليات قطع أقل. يجب ألا يكون هناك تأثير اتجاهي على عدد الازدواجية التي يتم استنتاجها في الفروع الإعلامية. بالإضافة إلى ذلك ، يجب أن يزداد عدد الخسائر عبر جميع الفروع مع انخفاض قطع التمهيد.

يوضح الشكل 3 شجرة أنواع الثدييات والشكل 4 أ عدد المكاسب والخسائر المستنبطة عبر الشجرة عند قطع التمهيد المختلفة. تحتوي هذه الشجرة على ثلاثة فروع غير إعلامية (يشار إليها بالسهام) وثمانية فروع إعلامية. في الواقع ، يزداد عدد الازدواجية في الفروع غير الإعلامية مع انخفاض قطع التمهيد ، وهذا الاتجاه مهم للغاية (الجدول 1). بالجمع عبر جميع الفروع غير الإعلامية ، يمكننا أن نستنتج 14،966 تكرارًا بحد أقصى 100٪ في التمهيد ، ولكن 22،031 بنقطة 50٪. كما كان متوقعًا أيضًا ، يزداد عدد الخسائر على جميع الفروع مع انخفاض معدلات القطع: يزداد العدد الإجمالي من 25،092 إلى 47،074 حيث ينتقل المرء من 100٪ إلى 50٪ من قطع التمهيد. في المتوسط ​​، ينتج عن انخفاض بنسبة 10٪ في حد قطع التمهيد المستخدم زيادة بنسبة 16٪ في عدد الخسائر المستنبطة في أي فرع معين وزيادة بنسبة 8٪ في عدد المكاسب المستنبطة في الفروع غير الإعلامية. تم العثور على نفس الاتجاهات ل ذبابة الفاكهة شجرة ، مع زيادات كبيرة في الازدواجية والخسارة الناتجة عن تناقص دعم طبولوجيا الأشجار (الشكل 4 ب والجدول 1).

شجرة أنواع الثدييات. يتم عرض شجرة النشوء والتطور للأنواع الستة المذكورة في النص (الفروع لا تتناسب مع الوقت). يتم تمييز الفروع غير الإعلامية بسهم.

تأثير تحيز تسوية الشجرة. توضح الرسوم البيانية العلاقة بين عدد المكاسب والخسائر المستنبطة كدالة لقطع التمهيد المستخدم في (أ) شجرة الثدييات ، و (ب) ال ذبابة الفاكهة شجرة. تمثل الأرقام مجموع المكاسب والخسائر عبر جميع فروع أشجار الأنواع.

إحدى النتائج المدهشة هي أنه يبدو أن هناك ارتباطًا طفيفًا ولكن مهمًا بين عدد المكاسب على الفروع الإعلامية ووقف التمهيد المستخدم - يزداد عدد التكرارات مع زيادة قيم قطع التمهيد. هذا الاتجاه هو عكس الاتجاه المتوقع للفروع غير الإعلامية ، ولكنه مهم لكل من الثدييات و ذبابة الفاكهة (الشكل 5 والجدول 1).بالمقارنة مع القيم الحدية لتأثير التمهيد على الفروع غير الإعلامية ، تكون نتيجة هذا النمط أصغر بكثير. ينخفض ​​العدد الإجمالي للازدواجية المستنبطة على فروع الثدييات المعلوماتية فقط من 8870 إلى 8332 من 100 ٪ إلى 50 ٪ من قطع التمهيد. هذا يعادل متوسط ​​1.3٪ ازدواجية تمت إزالتها لكل 10٪ انخفاض في قطع التمهيد (قيمة ذبابة الفاكهة هو انخفاض بنسبة 3.4٪ لكل 10٪).

المحاسبة لتحيز تسوية الشجرة. توضح الرسوم البيانية العلاقة بين عدد المكاسب والخسائر المستنبطة كدالة لقطع التمهيد المستخدم في (أ) شجرة الثدييات ، و (ب) ال ذبابة الفاكهة شجرة. تمثل الأرقام مجموع المكاسب والخسائر عبر الفروع الإعلامية فقط لأشجار الأنواع.

يظهر السبب الواضح لهذا التحيز الطفيف في الشكل 6. ومع زيادة قطع التمهيد ، سيتم انهيار حتى الهياكل المدعومة جيدًا نسبيًا. الهدف من انهيار العقد هو تقليل العدد الإجمالي للمكاسب والخسائر التي يجب التذرع بها لشرح تاريخ أي شجرة جينية معينة. يمكن تحقيق الحد الأدنى من التغييرات عن طريق دفع جميع التكرارات نحو أطراف الشجرة ، حيث لا يمكن إضافة المزيد من الخسائر. تؤدي إضافة التكرارات إلى الفروع غير الإعلامية دائمًا إلى عدد مساوٍ أو أكبر من الخسائر على السلالات المتفرعة ، وبالتالي ، زيادة كبيرة في العدد الإجمالي للتغييرات. هذا التحيز الطفيف له عواقب على الأساليب التي تحاول اختيار شجرة الجينات "الحقيقية" عن طريق تقليل المكاسب والخسائر (على سبيل المثال ، [26 ، 27]): غالبًا ما يتم تفضيل وضع نسخ مكررة باتجاه أطراف الشجرة. قد يكون النمط الموضح في الشكل 6 ناتجًا أيضًا عن البيانات المفقودة ، مثل أن الجين الذي تم "فقده" (أحد الجينات B) ينتج عنه تكرار مستنتج.

تحيز طفيف تجاه وضع نسخ مكررة على أطراف الشجرة. (أ) يوضح كيف سيتم استنتاج المكاسب والخسائر لشجرة الجينات الموضحة. (ب) مع الأخذ في الاعتبار دعم التمهيد يمكن أن يؤدي إلى وضع نسخ مكررة في النصائح حيث يتم انهيار طبولوجيا شجرة الجينات.

يتنبأ التفسير أعلاه للعلاقة الإيجابية بين عمليات قطع التمهيد وعدد مرات الازدواج بأن الزيادة التي لوحظت في الفروع الإعلامية يجب أن توجد في الغالب على الفروع الطرفية التي تضع الازدواجية على الفروع الإعلامية القليلة التي تؤدي إلى سلالتين متفرعتين لا يقلل من العدد الإجمالي من التغييرات. في الواقع ، هذا هو بالضبط ما لوحظ في كل من الثدييات و ذبابة الفاكهة. كما هو مبين في الجدول 1 ، لا يوجد ارتباط كبير بين عدد المكاسب وقطع التمهيد للفروع المزدوجة في ذبابة الفاكهة (ص = -0.12, ص = 0.83) ، وعلاقة هامشية فقط في الثدييات ، ولكن في الاتجاه المعاكس للعلاقات الموجودة سابقًا (ص = -0.82, ص = 0.045). تظل العلاقة بين الفروع ذات الأطراف فقط قوية وذات مغزى كبير (الثدييات: ص = 0.99, ص = 0.0001 ذبابة الفاكهة: ص = 0.97, ص = 0.001).

تقدير مستقل لاكتساب وخسارة الجينات

كتحقق إضافي على دقة عدد التكرارات الجينية المقدرة في الفروع الإعلامية ، قمت بتقدير عدد التكرارات الجينية وخسائر الجينات باستخدام طريقة احتمالية غير مرتبطة [3]. لا تستخدم هذه الطريقة الأشجار الجينية ، وبالتالي من المتوقع أن توفر دعمًا مستقلاً للعدد المستنتج من الازدواجية في الفروع الإعلامية. باختصار ، تستنتج الطريقة المكاسب والخسائر فقط من عدد نسخ الجينات الموجودة في كل نوع من الأنواع المشمولة ، ولا تأخذ في الاعتبار العلاقات بين الجينات المكونة. لا أتوقع أن يكون هناك أي تشابه بين أعداد الخسائر المقدرة بالطريقتين ، على أي فرع من فروع شجرة الأنواع.

يوضح الشكل 7 الارتباط في عدد المضاعفات المستنتج عبر الفروع الإعلامية من خلال طريقتين لكل من الثدييات و ذبابة الفاكهة. توجد ارتباطات ذات دلالة إحصائية في كليهما: ص = 0.95 (ص = 0.0003) للثدييات و ص = 0.89, (ص & lt 0.00001) من أجل ذبابة الفاكهة. يقدم هذا دليلاً على دقة طرق التوفيق بين الأشجار عند النظر فقط في عدد الجينات المكتسبة في الفروع الإعلامية (تلك التي لديها نسلان أو أقل). يجب استنتاج المضاعفات على هذه الفروع بشكل صحيح بجميع الطرق. ومع ذلك ، بما في ذلك الفروع غير الإعلامية ، فإن الارتباط في عدد تضاعف الجينات المستنتج بين الطرق لم يعد مهمًا (الثدييات: ص = 0.25, ص = 0.48 ذبابة الفاكهة: ص = -0.18, ص = 0.43). كمثال على الانفصال بين الطريقتين عند تطبيقها على الفروع غير الإعلامية ، تستنتج طريقة الاحتمالية 15 تكرارًا للجينات على الفرع القصير (حوالي 4 ملايين سنة) مما يؤدي إلى مطابقة شجرة 4 غير الكلاب للثدييات يستنتج كسب 2،774 الجينات على نفس الفرع.

العلاقة بين تسوية الشجرة وطرق الاحتمالية لتقدير عدد المكاسب الجينية. عدد التكرارات الجينية التي تم استنتاجها في الفروع الإعلامية فقط لـ (أ) شجرة الثدييات ، و (ب) ذبابة الفاكهة تظهر الشجرة.

يبدو أيضًا أن عدد خسائر الجينات قد تم تقديره بشكل سيئ من خلال طرق تسوية الأشجار: الارتباط بتقديرات الاحتمالية إما غير مهم (الثدييات: ص = 0.52, ص = 0.18) أو معتد به (ذبابة الفاكهة: ص = 0.63, ص = 0.01). حتى الارتباط المعتدل الملاحظ للخسائر خادع - عدد الخسائر المقدرة بواسطة طريقة التسوية هو ، في المتوسط ​​، سبعة أضعاف العدد المقدر من خلال الاحتمالية. على سبيل المثال ، على النسب المؤدي إلى ذبابة الفاكهة سوداء البطن طريقة الاحتمالية تستنتج فقدان 547 جينًا منذ الانقسام D. simulans (منذ حوالي 5 ملايين سنة [28]). تستنتج طريقة التوفيق بين الأشجار فقدان 3461 جينًا.

في المتوسط ​​، يبلغ عدد التكرارات في الفروع الإعلامية التي يتم استنتاجها عبر تسوية الشجرة 1.25 (ذبابة الفاكهة) إلى 1.5 (ثدييات) ضعف العدد المستنتج عبر طريقة الاحتمال (الشكل 7). قد يكون للتقدير الأعلى باستخدام تسوية الشجرة سببان: التحيز الطفيف نحو وضع التكرارات على أطراف الشجرة مع زيادة صرامة قطع التمهيد أو الميل لطريقة الاحتمالية لتقليل عدد المكاسب والخسائر عند كلا النوعين من الأحداث تحدث في نفس عائلة الجينات على نفس فرع شجرة النشوء والتطور [3]. ومع ذلك ، فإن التناقض بين الطريقتين يظل كما هو في الفروع الإعلامية حتى عند استخدام حد إقلاع بنسبة 60٪ ، مما يشير إلى أن السبب الأكثر ترجيحًا هو التقليل من التقدير عبر طريقة الاحتمال.

الآثار المترتبة على تطور جينوم الفقاريات

سيؤثر التحيز الموصوف هنا على جميع الدراسات السابقة التي استخدمت طرق تسوية الأشجار. سيتم التخفيف من آثار هذا التحيز باستخدام طرق التسوية التي تأخذ في الاعتبار دعم التمهيد (على سبيل المثال ، [13 ، 14]) بدلاً من تلك التي لا [10 ، 11] سيتم تقليل التأثيرات بشكل أكبر باستخدام جينات أكثر دقة طرق الاستدلال الشجري (مثل الاحتمال الأقصى) بدلاً من الطرق السريعة والتقريبية (مثل الانضمام إلى الجار). أخيرًا ، نظرًا لأن تقلبات استدلال الشجرة تتأثر بشدة بالمعلومات المعينة الواردة في تسلسل البروتين للجينات التي يتم النظر فيها ، فإن التوفيق بين أي شجرة جينية معينة قد يتأثر أو لا يتأثر بالتحيز الموصوف هنا. ومع ذلك ، عند إجراء تحليلات مقياس الجينوم ، سيتم تضخيم حتى التأثيرات الطفيفة لتحيز التصالح عبر آلاف الأشجار الجينية التي تم النظر فيها.

في ورقة حديثة ، بلوم وآخرون. [16] استخدم التوفيق بين الأشجار لاستنتاج تاريخ اكتساب الجينات وفقدانها بين سبعة أنواع من الفقاريات. تم إنشاء أشجار الجينات لـ 8165 عائلة باستخدام الانضمام إلى الجوار والتوفيق بينها وبين شجرة الأنواع المعروفة باستخدام 70٪ من قطع التمهيد [16]. كان اثنان من استنتاجات الورقة البحثية أن "غالبية الجينات المضاعفة في جينومات الفقاريات الموجودة قديمة ،" وأن "جميع الفقاريات لا تزال تفقد التكرارات التي تم إنشاؤها في أوقات سابقة." استنادًا إلى التحيزات في طرق التوفيق بين الأشجار الموضحة هنا ، يبدو من المحتمل أن الأنماط التي لاحظها بلوم وزملاؤه هي إلى حد كبير مصطنعة. نفس التحيزات التي تظهرها طرق تسوية الشجرة - الاستدلالات الزائفة لعدد كبير من الازدواجية القديمة التي أعقبها عدد أكبر من الخسائر الحديثة - هي بالضبط نتائج تحليلاتهم. نظرًا لانخفاض حد التشغيل المنخفض نسبيًا المستخدم في التحليلات المنشورة ، يتوقع المرء انخفاضًا في كل من المكاسب والخسائر مع زيادة الصرامة الطوبولوجية.

استنتاج واحد آخر من Blomme وآخرون. تتعلق الدراسة بربط عدد كبير من الازدواج المستنتج مع مضاعفات الجينوم المتعددة (WGDs). ليس من الواضح على الفور أن الموضع الدقيق لمضاعفات الجينات على الفروع غير الإعلامية لشجرة الفقاريات يجب أن يتأثر بتحيز التوفيق ، وبالتالي ، يجب استنتاج توقيت أحداث WGD بشكل خاطئ. لا توجد علاقة ارتباط ذات دلالة إحصائية بين عدد المضاعفات المستنتج على الفرع والمسافة من النصائح ، على الرغم من وجود اتجاه في هذا الاتجاه (ذبابة الفاكهة: ص = 0.44, ص = 0.39). يشير هذا إلى أنه لا يبدو أن هناك تحيزًا (بين الفروع غير الإعلامية) في وضع نسخ مكررة على فرع الجذر ، حيث تم تحديد حدثين WGD في تاريخ الفقاريات.

ومع ذلك ، هناك احتمال واحد مثير للاهتمام لتحيز محدد في وضع الازدواج الجيني: إذا كان الخلاف الطوبولوجي بين شجرة الجينات وشجرة الأنواع ناتجًا عن الفرز غير الكامل للنسب ، فسيتم وضع عدد كبير من الازدواجية من العديد من أشجار الجينات المختلفة على الفرع الذي يسبق مباشرة مثل هذا الحدث. يرجع تصنيف النسب غير المكتمل إلى مسافات قصيرة بين العقدة ، بحيث لا يتم إصلاح تعدد الأشكال في مجتمع الأجداد تمامًا بين أحداث الانتواع. يمكن أن يؤدي تصنيف النسب غير المكتمل إلى خلافات بين أشجار الجينات وأشجار الأنواع ، على الرغم من عدم صحة أي من أشجار الجينات المستنبطة في حد ذاته [23 ، 24]. يمكن أن تمتد هذه الخلافات إلى تحليلات الجينوم الكاملة لأخصائيي تقويم العظام من نسخة واحدة ، حيث لا توجد شجرة جينية واحدة من غالبية أخصائيي تقويم العظام الذين تم بحثهم (على سبيل المثال ، [25]).

كما يبدو أن هناك مثيلًا لفرز النسب غير المكتمل بين ملفات ذبابة الفاكهة [25] ، سألت عما إذا كان قد تم وضع عدد كبير من الازدواجية على الفرع الذي يسبق الاختلاف الطوبولوجي (الفرع المميز بعلامة النجمة في ملف بيانات إضافي 1). كما كان متوقعًا ، تم استنتاج عدد كبير من الازدواجية في هذا الفرع: 2757 في أفضل الطوبولوجيا المدعومة ، مقارنة بـ 278 و 415 تكرارًا في الفروع غير الإعلامية أعلى وأسفل هذا الفرع. كان عدد الازدواجية التي تم استنتاجها على الفرع الذي يسبق فرز النسب غير المكتمل أعلى بكثير في الطبولوجيتين البديلتين أيضًا (البيانات غير معروضة). يبدو أن هذه التحليلات تظهر أن فترات الاختلاف القصيرة بين أحداث الانتواع يمكن أن تؤدي إلى زيادة في أحداث الازدواجية المستنتجة. إحدى الحالات التي يكون فيها الفرز غير الكامل للنسب أمرًا شائعًا أثناء الإشعاعات التكيفية - مثل هذه الإشعاعات معروفة بصعوبة بناء أشجار أنواع متسقة من أجل [23]. هذا يعني أن تحليلات تسوية الشجرة ستربط عددًا كبيرًا من أحداث الازدواج بالإشعاعات التكيفية. يجب استخدام الطرق التي تسمح بأشجار الأنواع غير الثنائية (على سبيل المثال ، [14 ، 29]) في هذه الحالات بحيث لا يتم استنتاج عدد كبير من التكرارات غير الصحيحة. على الرغم من أنه لا يبدو أنه كان هناك إشعاع تكيفي في أصل أنواع الفقاريات التي اعتبرها بلوم وآخرون. [16] ، يجب توخي الحذر عند استنتاج أحداث WGD من العدد الكبير من الازدواجية الموضوعة على أي فرع معين بواسطة طرق تسوية الشجرة.


مناقشة

الكشف عن ازدواج الجينات القديمة جدا حقيقية النواة

في هذه الدراسة ، قمنا بالتحقيق في مدى ازدواجية الجينات حقيقية النواة قبل تباين النباتات والحيوانات / الفطريات من خلال بناء مجموعات جينية مع أعضاء من الأنواع التمثيلية بدائية النواة وحقيقيات النوى وإجراء تحليلات شاملة للتطور.

نظرًا لأننا أخذنا عينات فقط من عدد قليل من الأنواع من كل سلالة ، تم إجراء تحليلات عنقودية إضافية عن طريق إضافة جينات من أسماك الزرد (أسماك teleost) ، medaka (أسماك teleost) ، ذبابة الفاكهة سوداء البطن (حشرة) أو البطلينوس العملاق لوتيا جيجانتين (mollusc) ، على التوالي (انظر الملف الإضافي 3 للحصول على نتائج التجميع الكاملة). وجدنا أن إضافة الجينات من كل نوع إضافي أدى إلى تغييرات طفيفة جدًا في أرقام مجموعات الجينات (الجدول S7 في ملف إضافي 1). لذلك ، نعتقد أن نتائجنا الإجمالية لن تتأثر بشكل كبير بإدراج أنواع حيوانية إضافية.

اعتمد تحليلنا على مجموعات الجينات المحددة بواسطة طريقة MCL ، وكشف أن حوالي 25٪ (BS 50٪) أو 15٪ (BS 70٪) من المجموعات التقويمية قد عانى من ازدواجية جينية قديمة. تم الإبلاغ عن أعداد ونسب أعلى لمجموعات تقويم العظام التي أظهرت ازدواجًا جينيًا قديمًا بواسطة اختبار ML-aLRT (أيضًا في التحليلين الثاني والثالث) ، ربما لأن اختبار التمهيد متحفظ باستمرار [42]. من المعروف أنه في دراسات الجينوميات المقارنة مثل تلك التي أجريناها هنا ، فإن دقة تجميع عائلة الجينات لها تأثير كبير على موثوقية التحليلات اللاحقة مثل إعادة بناء النشوء والتطور. لذلك ، من المهم التحقق مما إذا كانت الاستراتيجيات البديلة لتكتل عائلة الجينات ستؤدي إلى نتائج مماثلة مثل نهج MCL المستخدم في التحليل الأول. تعد COG ومكافئها حقيقية النواة ، KOG ، من بين قواعد البيانات الأكثر استخدامًا لمجموعات الجينات المتعامدة. في تحليلنا الثالث ، أخذنا مجموعات KOG-to-COG التي حددتها Makarova وآخرون. [36] وقمنا بتحليلها باستخدام نفس الإجراءات المستخدمة في التحليل الأول. بالمقارنة مع التحليل الأول ، في التحليل الثالث حصلنا على نسبة مئوية مشابهة جدًا من مجموعات تقويم العظام التي تظهر ازدواجية حقيقية النواة المبكرة ، على الرغم من أن العدد الإجمالي للمجموعات المتعامدة المحددة كان أعلى. ومن المثير للاهتمام ، مع ذلك ، أننا وجدنا أن أقل من نصف مجموعات تقويم العظام ذات الازدواجية تتداخل بين التحليلين. ترجع الاختلافات بشكل أساسي إلى سببين: أولاً ، لم تكن الأعضاء بدائية النواة في مجموعة MCL معينة في أي COG أو لم تكن COG المقابلة في أي مجموعة KOG-to-COG ثانية ، وقد تتضمن مجموعة KOG-to-COG تسلسلات من التشابه المحدود للغاية ، مما أدى إلى نسالة مختلفة عن تلك الموجودة في مجموعة MCL المقابلة. ومع ذلك ، فإن حقيقة أن طرق تجميع عائلة الجينات المختلفة (MCL و COG / KOG) والنهج التطوري (NJ و ML) كشفت جميعها عن نسب مماثلة للمجموعات المتعامدة التي عانت من ازدواجية حقيقية النواة المبكرة لا تزال تدعم موثوقية نتائجنا.

أحد التحيزات المحتملة في تحليلنا الأول هو أنه لم تتم دراسة سوى الجينات حقيقية النواة ذات المتماثلات بدائية النواة التي يمكن اكتشافها. هذا يعني أننا ركزنا على الجينات المحفوظة نسبيًا. بالنظر إلى العصور القديمة لأحداث تكرار الجينات التي نهتم بها ، قد تفتقر بعض الجينات حقيقية النواة إلى متماثلات يمكن اكتشافها في بدائيات النوى في دراستنا بسبب فقدان الجينات أو تباعد التسلسل ، وبالتالي لم يتم تضمينها في تحليلنا الأول. لهذا السبب ، نحن أجرى أيضًا التحليل الثاني لتحليل مجموعات جينات MCL الخاصة بحقيقيات النوى ووجد أن أكثر من 10 ٪ من مجموعات الجينات البالغ عددها 1903 أظهرت ازدواجًا مبكرًا في حقيقيات النوى. من المحتمل أن هذا الرقم لا يزال أقل من الواقع لأن بعض التكرارات القديمة قد تفشل في التجمع معًا بسبب درجة عالية من الاختلاف وستظهر كمجموعات جينية منفصلة دون ازدواجية حقيقية النواة في وقت مبكر.

حددت تحليلاتنا للتطور الوراثي ما يقرب من 300 (دعم BS 70 ٪) أو ما يقرب من 500 (دعم aLRT ≥ 70 ٪) ازدواج الجينات في النافذة الزمنية من أصل حقيقيات النوى إلى انقسام النباتات والحيوانات / الفطريات. ومع ذلك ، فإن تقدير طول هذه النافذة الزمنية يختلف باختلاف نسالة حقيقية النواة التي يتم تبنيها. وفقًا لنموذج "ساق التاج" لتطور نسالة حقيقية النواة (الشكل 1 أ) ، فإن النباتات والحيوانات / الفطريات هي أعضاء في مجموعة التاج وتشكل عدة مجموعات من الطلائعيات فروعًا عميقة في الشجرة [18 ، 19]. تشير التقديرات إلى أن النباتات والحيوانات / الفطريات انفصلت منذ حوالي 1600 مليون سنة (MYA) ، و الجيارديا، التي كانت تعتبر أعمق فرع في شجرة الحياة حقيقية النواة ، تباعدت حوالي 2300 ميا [43]. بالنظر إلى الأصل المقدر لحقيقيات النوى في حوالي 2700 سنة مبكرة [44] ، فإن أحداث الازدواجية المحددة في دراستنا يمكن أن تكون قد حدثت خلال فترة زمنية طويلة قبل فصل النباتات والحيوانات / الفطريات (حوالي 1100 مليون سنة). تم تصوير صورة متناقضة من خلال تصنيف "المجموعات الفائقة الست" الأكثر حداثة لحقيقيات النوى (الشكل 1 ب) [21-23].

في هذا النموذج والنماذج الأخرى ذات الصلة ، يشير كل من طوبولوجيا "unikont-bikont" [26 ، 27] والتقسيم الثنائي "التركيب الضوئي غير الضوئي" الحديث [29] إلى أن الفصل Archaeplastida-Opisthokonta قد يمثل أول انقسام رئيسي ، أو على الأقل أحد الانقسامات المبكرة ، في تطور حقيقيات النوى (الشكل 1 ب). من هذا المنظور ، يمكن وضع أحداث الازدواجية التي حددناها خلال مرحلة مبكرة جدًا من تطور حقيقيات النوى ، قبل تباعد معظم مجموعات البروتستانت الرئيسية الموجودة.

بغض النظر عما إذا كان نموذج `` جذع التاج '' ، أو `` المجموعات الفائقة الستة '' والنماذج المماثلة الأخرى صحيحة ، قمنا بالتحقيق في الازدواجية الجينية بين التمثيل الأوسع لحقيقيات النوى باستخدام تحليلات علم الوراثة مع تسلسلات إضافية من نماذج مجموعات أولية رئيسية متباينة ، Excavata ، Amoebozoa ، و Chromalveolata (الشكل 1 ب). بالنسبة لمعظم عائلات الجينات التي تحظى بدعم 70٪ من BS ، فمن المحتمل حدوث الازدواجية قبل فصل هذه الطلائعيات شديدة التباين عن النباتات و / أو الحيوانات / الفطريات. حتى وفقًا لنموذج "جذع التاج" لتاريخ حقيقيات النوى المبكر ، انفصلت هذه الطلائعيات المتباينة عن النباتات / الحيوانات / الفطريات في وقت سابق. لذلك ، بغض النظر عن نماذج نسالة حقيقية النواة المبكرة ، سيتم وضع هذه الازدواجية قبل أي اختلاف رئيسي معروف في حقيقيات النوى. لذلك ، تدعم نتائجنا العديد من أحداث الازدواج الجيني خلال التطور المبكر لحقيقة النواة.

التضمين الوظيفي لتطور حقيقيات النوى المبكر

من المحتمل أن تولد مضاعفات الجينات التي اكتشفناها مواد خام للتطور الوظيفي ، كما هو مقترح من قبل [4]. في الواقع ، من المرجح أن يتم القضاء على التكرارات من 300 أو أكثر من الازدواج الجيني الذي حددناه إذا لم توفر ميزة انتقائية. لذلك ، كان من الممكن أن تكون هذه الازدواجية المبكرة للجينات حقيقية النواة ذات أهمية كبيرة لنجاح وإشعاع حقيقيات النوى المبكرة ، وبالتالي تم الاحتفاظ بها في السلف المشترك الأخير لمجموعات حقيقيات النوى الرئيسية الباقية.إذا كانت عائلات الجينات المضاعفة متورطة في عمليات أساسية لحقيقيات النوى المبكرة ، والتي من المحتمل أيضًا أن تتقاسمها حقيقيات النوى الموجودة ، فقد تُظهر أنماطًا تطورية مماثلة في ممالك حقيقية النواة مختلفة. على وجه التحديد ، يبدو أن أعداد النسخ للجينات ذات الوظائف المحفوظة للغاية أكثر استقرارًا من عدد الجينات ذات الوظائف الأكثر تباينًا (قارن RAD51, MSH، و SMC مع JmjC وجينات صندوق MADS) [30 ، 31 ، 33-35].

في الواقع ، لاحظنا وجود ارتباط أكثر إيجابية بين حجم عائلة الجينات بين الحيوانات والنباتات في العائلات ذات التكاثر المبكر لحقيقة النواة مقارنة بالعائلات التي لا تحتوي على مثل هذه الازدواجية (الشكل 4). بعبارة أخرى ، تميل العائلات ذات التكاثر المبكر لحقيقة النواة إلى أن يكون لها أنماط تطورية أكثر تشابهًا في كل من النباتات والحيوانات / الفطريات من تلك العائلات التي لم تتكرر في وقت مبكر ، مما يشير إلى أن هذه الجينات قد يكون لها وظائف محفوظة نسبيًا بين الممالك الثلاث الرئيسية. يتم دعم فكرة الحفظ الوظيفي هذه أيضًا من خلال اكتشاف أن نمط (RO) (RO) ، حيث يتم الاحتفاظ بكلتا النسختين في كل من سلالات النباتات والحيوانات / الفطريات ، هو النمط الأكثر شيوعًا بين جميع الأنماط الممكنة.

أيضًا ، من المهم معرفة ما إذا كانت الجينات ذات الوظائف البيوكيميائية أو الجزيئية المحددة أو المشاركة في عمليات محددة يتم إثرائها بين العائلات ذات التكرار. ومن المثير للاهتمام ، أن تحليل علم الجينات (GO) الخاص بنا لم يكشف عن أي مصطلحات GO تم إثرائها بشكل كبير بين المجموعات المتعامدة مع الازدواجية (البيانات غير معروضة). قد يشير هذا إلى أن الازدواجية الجينية المكتشفة ، والتي نقترحها قد تكون أفادت سلف حقيقيات النوى المبكر وأسلاف كل من سلالات النبات والحيوان / الفطريات ، أثرت على العديد من الوظائف والعمليات ، وليس فقط بعض الفئات المتخصصة من الوظائف.

فرضية ازدواجية حقيقية النواة على نطاق واسع في وقت مبكر

يمكن إنشاء ازدواجية الجينات من خلال عدة آليات ، بما في ذلك الازدواج الترادفي ، والتبديل ، والازدواجية واسعة النطاق (على سبيل المثال ، تكرار الجينوم القطاعي / الكامل (WGD)). من حيث المبدأ ، يمكن أن تكون 300 أو أكثر من ازدواج الجينات التي حددناها أحداثًا مستقلة ناتجة عن الازدواج الترادفي والتبديل. ومع ذلك ، في غياب الأدلة الداعمة ، فإن مثل هذا النمط المعقد من الأحداث المستقلة المتعددة ليس شحيحًا. بدلاً من ذلك ، يمكن تفسير الازدواجية بواحد أو عدد قليل من الازدواجية واسعة النطاق. يعتبر التكرار على نطاق واسع ، مثل WGD ، ذا أهمية خاصة لأنه يسمح بتوليد وحدات وظيفية متعددة جديدة مع العديد من الجينات التي لا علاقة لها على مستوى التسلسل [45] ، والتي لن تكون على الأرجح بواسطة آليات الازدواج الأخرى. أيضًا ، يتم التعرف بشكل متزايد على الازدواج القطاعي (SDs) كظواهر متكررة ، خاصة في جينومات الرئيسيات - على سبيل المثال ، يتكون حوالي 5٪ من الجينوم البشري من مقاطع مكررة [46]. لذلك ، يمكن أن تفسر SDs التي تحتوي على أعداد كبيرة من الجينات أيضًا ازدواج الجينات الذي اكتشفناه. بعد WGD / SDs ، يمكن أن تولد المصائر المختلفة للجينات المضاعفة في مجموعات سكانية مختلفة التنوع الجيني الذي يسمح بعد ذلك بالعزلة الإنجابية / التكاثر والتكيف البيئي [47 ، 48].

قد يكون العدد الكبير من أحداث الازدواجية القديمة حقيقية النواة التي اكتشفناها هنا نتيجة لواحد أو أكثر من حالات الازدواج واسعة النطاق في وقت مبكر حقيقية النواة. لأحداث الازدواجية واسعة النطاق الحديثة نسبيًا ، من الممكن تحديد المناطق الجينومية المخلقة [49]. على سبيل المثال ، تم العثور على هذه المناطق المخلقة لأحدث WGD في أرابيدوبسيسوالحور والخميرة ، والتي من المحتمل حدوثها في حوالي 100 سنة أو أكثر مؤخرًا [10-12 ، 50]. ومع ذلك ، بالنسبة للأقدم مثل WGDs في الفقاريات (1R / 2R تقريبًا 525 إلى 875 MYA [51]) ، لم يعد يمكن اكتشاف التخليق بسبب العديد من عمليات إعادة ترتيب الجينوم وفقدان الجينات [52]. إذا كان التكرار على نطاق واسع هو سبب أحداث تكرار الجينات القديمة التي تم تحديدها في هذه الدراسة ، فإن هذا الحدث كان سيحدث على الأقل 1600 MYA (ربما حتى قبل ذلك) ، مما يجعل من غير المحتمل للغاية أنه لا يزال من الممكن اكتشاف أي تخليق. نهج آخر لاكتشاف الازدواجية واسعة النطاق هو تحليل معدل الاستبدالات الأساسية المترادفة (dS) بين الجينات المماثلة ، كما ورد في العديد من الأنواع النباتية [53 ، 54]. لسوء الحظ ، هذه الطريقة غير مجدية أيضًا للأحداث الأقدم من 150 مليون سنة تقريبًا بسبب تشبع قيم dS.

هناك طريقة بديلة للحصول على دليل على الازدواج على نطاق واسع وهي فحص نسالة عدد كبير من عائلات الجينات ، كما فعلنا هنا. تشير نتائجنا إلى أن جزءًا كبيرًا من المجموعات المتعامدة في مجموعة البيانات الخاصة بنا قد عانى من الازدواجية قبل تباعد الممالك الثلاث الرئيسية حقيقية النواة. من خلال الجمع بين نتائج التحليلين الأول والثاني ، قدرنا أن النسبة المئوية للمجموعات التقويمية التي تظهر الازدواجية قبل فصل النباتات والحيوانات / الفطريات تزيد عن 15٪ (مستوى دعم BS 50٪) و 10٪ (مستوى دعم BS ≥ 70٪) ) ، أو حوالي 30٪ (دعم aLRT ≥ 50٪) و 20٪ (دعم aLRT ≥ 70٪). أظهرت تحليلات علم الوراثة المماثلة واسعة النطاق أنه من بين الأزواج المكررة الناتجة عن WGD الأحدث في الفقاريات (1R / 2R تقريبًا 525 إلى 875 MYA) والخميرة (حوالي 100 MYA) ، نجا 26.6٪ و 20.1٪ من الأزواج ، على التوالي [ 51 ، 55]. كانت عمليات ازدواج حقيقيات النوى المبكرة التي درسناها أقدم بكثير من الازدواجية واسعة النطاق التي تم الإبلاغ عنها سابقًا في الحيوانات والنباتات والخميرة. وهكذا ، خلال ما لا يقل عن 1600 مليون سنة من التطور ، قد يكون للأزواج المكررة التي نشأت في حقيقيات النوى المبكرة فرصة أكبر للضياع أو أن تكون متباعدة للغاية بحيث لا يمكن التعرف عليها. لذلك ، من المعقول توقع بقاء نسبة أقل من الأزواج المكررة ، ويمكن أن تدعم نتائجنا المتعلقة بالتطور الوراثي الفرضية القائلة بأن أحداث الازدواجية المحددة هنا هي بقايا تكرار واسع النطاق (على سبيل المثال ، WGD أو SDs) في حقيقيات النوى المبكرة. بعبارة أخرى ، بالنظر إلى العصور القديمة للازدواجية في حقيقيات النوى المبكرة ، فإن 300 أو أكثر من الازدواجية التي اكتشفناها ربما لا تمثل سوى جزء صغير من العدد الحقيقي للازدواجية في حقيقيات النوى المبكرة ، والتي يمكن أن تكون بالآلاف. يمكن تفسير نتائجنا بشكل ضئيل للغاية من خلال واحد أو أكثر من الازدواجية واسعة النطاق ، والتي من المحتمل أن تكون WGD / SDs ، بدلاً من الآلاف من الازدواجية المستقلة.


نتائج ومناقشة

الاستدلال الشجري من ملفات تعريف الطفرات أحادية الخلية

نقدم أولاً وصفًا موجزًا ​​لنهجنا في الاستدلال الشجري من ملفات تعريف الطفرات أحادية الخلية. نبدأ بنموذج لتمثيل تاريخ طفرات الخلية الواحدة والنهج القائم على الاحتمالية للتعامل مع أخطاء التسلسل. ثم نعطي نظرة عامة على المتغيرات المختلفة لنظام أخذ عينات MCMC المطبق في SCITE. يوجد وصف أكثر تقنية لـ SCITE في قسم "الطرق".

نموذج لتطور الورم وتمثيل الشجرة

قمنا بتقييد النموذج التطوري لتوجيه الطفرات في هذا العمل وعمل افتراضات المواقع اللانهائية ، والتي تنص على أن كل موضع جينوم يتحور مرة واحدة على الأكثر في التاريخ التطوري للورم. لا توجد قيود أخرى ضرورية ، ولا سيما عدم وجود افتراض بشأن أصل الورم وحيد النسيلة ، وهو افتراض أساسي في إعادة بناء الأشجار من العينات المختلطة.

نحن نمثل حالة الطفرة م خلايا مفردة في ن مواضع مختلفة في ثنائي ن×م مصفوفة الطفرة E. حيث 1 ، على التوالي 0 ، عند الإدخال (أنا,ي) يدل على وجود ، على التوالي ، غياب الطفرة أنا في الخلية ي (الشكل 1 ج). مع استبعاد التطور المتقارب بسبب افتراض المواقع اللانهائية ، تحدد هذه المصفوفة نسالة مثالية للخلايا المفردة. هذا يعني أن هناك شجرة ثنائية متجذرة بالخلايا كأوراق يمكن فيها وضع كل طفرة على حافة واحدة بحيث تساوي حالة الطفرة لكل ورقة مجموعة الطفرات في مسارها إلى الجذر (الشكل 1 ب). يمكن إزالة الطفرات الموجودة في جميع الخلايا من البيانات حيث أن موقعها في الشجرة معروف. وينطبق الشيء نفسه على الطفرات التي لوحظت في خلية واحدة فقط. ترتبط هذه بشكل مباشر بالخلية وغير مفيدة في إعادة بناء الشجرة. على سبيل المثال ، تقلل مصفوفة الطفرات من الشكل 1 ج إلى:

حيث نمثل الآن الطفرات الثلاثة المتبقية م 1, م 2، و م 3. بشكل عام ، الشجرة الثنائية التي تحددها المصفوفة ه لن تكون فريدة من نوعها. في المثال الوارد في الشكل 1 ب ، نظرًا لأن الأوراق الثلاثة الموجودة في أقصى اليسار لها نفس حالة الطفرة ، فإن ترتيب تفرعها في الشجرة عشوائي. كما أن الموضع الصحيح للورقة الرابعة ليس فريدًا ، حيث لا يوجد به طفرة بخلاف تلك المشتركة بين جميع العينات. يمكن أن تتفرع بشكل جيد في الشجرة الفرعية اليسرى بعد الطفرتين في كل مكان بدلاً من الطفرة اليمنى. تمثيل شجرة أكثر إحكاما من ه هو شجرة الطفرة تي، والتي تمثل الطفرات كعقد وتربط العقد وفقًا لترتيبها في التاريخ التطوري. يتم استخدام عقدة فارغة للإشارة إلى الجذر (الشكل 1 د). يمكن رؤية شجرة الطفرات على أنها شجرة نسالة مثالية ، حيث بدلاً من وضع الطفرات على طول الحواف نقوم بتغليفها داخل العقد الداخلية. هذا التغيير الطفيف في التمثيل يسهل استنتاجنا لاحقًا. يمكن زيادة شجرة الطفرات بالخلايا المتسلسلة عن طريق ربطها بالعقدة التي تطابق حالة الطفرة الخاصة بها (الشكل 1 و). ترتيب الطفرات المشتركة بين نفس مجموعة الخلايا بالضبط غير قابل للتحديد في شجرة الطفرات ، كما هو الحال بالنسبة لأهم طفرتين في الشكل 1 و. يتم تلخيص هذه المجموعات الفرعية من الطفرات في عقدة واحدة ، مظللة هنا كمربع مظلل.

أخطاء في الملاحظة

في البيانات الحقيقية ، لا نلاحظ مصفوفة طفرة مثالية (الشكل 1 ج) ولكن نسخة صاخبة منها (الشكل 1 ز) ، والتي نشير إليها بواسطة د في التالي. إذا كانت قيمة الطفرة الحقيقية هي 0 ، فقد نلاحظ 1 مع الاحتمال α (إيجابية كاذبة) ، وإذا كانت قيمة الطفرة الحقيقية هي 1 ، فقد نلاحظ صفرًا مع احتمال β (سلبي كاذب) من هذا القبيل

بافتراض أن أخطاء الملاحظة مستقلة عن بعضها البعض ، فإن احتمالية البيانات المعطاة لشجرة الطفرات تي، معرفة مرفق العينات σومعدلات الخطأ θ=(α,β) ثم

أين ه هي مصفوفة الطفرة المحددة بواسطة تي و σ.

يمكننا تحليل السابقة ، ص(تي,σ,θ)=ص(σ|تي,θ)ص(تي,θ) ، ونحن نفترض استقلالية معدلات الخطأ لتعيينها ص(تي,σ,θ)=ص(σ|تي)ص(تي)ص(θ) بحيث يكون الحجز المسبق ص(σ|تي) يعتمد على تي. قد يكون مثل هذا الإجراء المسبق مفيدًا إذا اشتبه المرء في أنه من المرجح أن يتم أخذ عينات من الخلايا من مراحل لاحقة في تطور الورم وأقلها في الشجرة. هنا على الرغم من أننا نستخدم مرفقًا موحدًا مسبقًا.

أخذ عينات MCMC

يتكون نموذجنا لتعلم تاريخ الطفرات من ملفات تعريف الطفرات أحادية الخلية من ثلاثة أجزاء: شجرة الطفرات تي، ناقل نموذج المرفق σ، ومعدلات الخطأ لتجربة التسلسل θ. تحتوي مساحة البحث الناتجة على مكون مستمر لـ θ ومكون منفصل للحجم (ن+1) (ن−1) (ن+1) م ل (تي,σ) ، مما يحظر البحث الشامل. بدلاً من ذلك ، مع Eqs. في الشكل 3 و 4 قمنا ببناء SCITE ، وهو مخطط MCMC لأخذ عينات من المؤخرة المشتركة بالنظر إلى البيانات. من الحالة الحالية (تي,σ,θ) ، نقترح دولة جديدة (تي ′ ,σ ′ ,θ ′) بمزيج ergodic من الحركات حيث نقوم بتغيير مكون واحد في كل مرة. مع احتمالات الانتقال ونسبة القبول المحددة بشكل صحيح ، تتقارب سلسلتنا إلى اللاحقة. في الممارسة العملية ، نقوم بتهميش نماذج المرفقات في نموذجنا ليس فقط لتسريع التقارب ولكن للتركيز على شجرة الطفرات تي كجزء إعلامي لفهم تاريخ الطفرات. هكذا،

بعد ذلك نحتاج فقط إلى التفكير في التحركات في المفصل (تي,θ) الفضاء ، وبالتالي تقليل مساحة البحث بعامل (ن+1) م . لا يزال من الممكن زيادة الشجرة بالعينات في خطوة ما بعد المعالجة عن طريق أخذ عينات منها بشكل مشروط على الشجرة.

بعد التقارب ، يمكن استخدام سلسلة MCMC لأخذ عينات من الأشجار ومعدلات الخطأ بما يتناسب مع التوزيع الخلفي المشترك في المعادل. 4. بالإضافة إلى ذلك ، من الممكن الحصول على أفضل تركيبة مناسبة لشجرة الطفرات ومعدلات الخطأ من خلال تقديرات النقاط لمعلمات النموذج. تتمثل إحدى طرق القيام بذلك في الحد الأقصى من التقديرات اللاحقة (MAP):

الاحتمال الآخر هو استخدام تقديرات ML. نظرًا لأن الاحتمالية تعتمد على المجموعة الكاملة لمعلمات النموذج (تي,σ,θ) ، من الطبيعي أن يتم تحسينها جميعًا بشكل مشترك بدلاً من تهميش مرفق العينة:

في إطار عمل ML ، يتضمن SCITE معلمة γ يضخم الاحتمالية ويمكن أن يسرع اكتشاف شجرة ML.

أخيرًا ، يوفر SCITE خيارًا لتخطي تعلم معدلات الخطأ عند توفير معدلات خطأ ثابتة. نظرًا لأن هذه غالبًا ما تكون متاحة لتسلسل البيانات ، فيمكن استخدامها بدلاً من ذلك لتقليل حجم مساحة البحث.

إعادة بناء تاريخ الطفرات من بيانات الورم الحقيقية

لإجراء تقييم أولي لـ SCITE ، طبقناه على ثلاث مجموعات بيانات حقيقية لورم الخلية الواحدة ذات جودة بيانات مختلفة.

الأورام النقوية التكاثرية السلبية JAK2

بيانات الورم الأولى هي بيانات تسلسل إكسوم أحادية الخلية من ورم تكاثري نقوي سلبي JAK2 (كثرة الصفيحات الأساسية) [30]. يتكون في الأصل من 712 SNV تم اكتشافه في إكسومات 58 خلية ورمية. في تقييمنا ، نركز على مواقع الطفرات الـ 18 المختارة على أنها مرتبطة بالسرطان بواسطة [30]. تم تقدير معدلات الخطأ في التسلسل كـ α= 6.04 × 10 6 (ايجابيات كاذبة) و β= 0.4309 (السلبيات الكاذبة ، التسرب الأليلي). بالإضافة إلى ذلك ، تحتوي المجموعة المصغرة على 45٪ من نقاط البيانات المفقودة (مقارنة بـ 58٪ في مجموعة البيانات الكاملة). مصفوفة الطفرات (ملف إضافي 1: الشكل S1a) مأخوذة من [34]. يميز ثلاث حالات ملحوظة: طفرة طبيعية ، متغايرة ، ومتماثلة اللواقح. هذا يعني فقط أنه يتم ملاحظة طفرة متماثلة اللواقح ، وليس أنها موجودة بالفعل في البيانات. قد يتعارض هذا الأخير مع نموذج المواقع اللانهائية الذي يتغير به كل موقع مرة واحدة على الأكثر. التفسيرات المتسقة مع المواقع اللانهائية هي أننا إما لدينا نتيجة سلبية خاطئة للنسخة العادية من موقع متغاير الزيجوت ، أو أقل احتمالاً ، مزيج من نتيجة موجبة كاذبة وتسرب أليلي لموقع تكون حالته الحقيقية طبيعية متماثلة اللواقح. قد يكون التفسير الآخر لملاحظة طفرة متماثلة الزيجوت هو فقدان الزيجوت متغاير الزيجوت. قمنا بتكييف نهجنا لدمج حالة الطفرة الثالثة باستخدام نفس احتمالات الخطأ مثل [34]. يفترضون أن التسرب الأليلي من المرجح بشكل متساوٍ أن يتسبب في تسجيل طفرة متغايرة الزيجوت كحالة طبيعية أو متماثلة اللواقح. بالدلالة على المواقع غير المتجانسة بمقدار 1 والمواقع المتماثلة اللواقح بمقدار 2 ، ينتج عن هذا الافتراض احتمالات الخطأ:

إعادة بناء شجرة الطفرة

قمنا بحساب شجرة ML لمواقع الطفرات الـ 18 باستخدام SCITE. عند تحسين مرفق الشجرة والعينة ، نحصل على شجرة طفرة خطية في الغالب مع فرع واحد في الجزء السفلي من الشجرة (ملف إضافي 1: الشكل S2a) مع درجة سجل ML تبلغ 378.4.

نلاحظ أنه يتم وضع عدد قليل جدًا من العينات في العقد المرتفعة في الشجرة (ملف إضافي 1: الشكل S3) ، على الرغم من أن العديد من هذه المواضع غير مؤكدة ، كما هو موضح بواسطة المرفقات المتعددة المثلى. مع الأخذ في الاعتبار عدم اليقين بسبب معدلات الخطأ العالية والعدد الكبير من القيم المفقودة (45٪) ، فليس من غير المتوقع أن تتناسب العديد من الخلايا بشكل جيد مع العديد من العقد المجاورة. تتطابق الطبيعة الخطية للشجرة مع تطور أحادي النسيلة متسلسل. يشير تمدد الاستنساخ الفرعي الذي يبدأ باتجاه الجزء السفلي من الشجرة إلى التعايش بين عدة نسائل فرعية عند نقطة أخذ العينات. ومع ذلك ، من بيانات النقطة الزمنية الفردية ، ليس من الممكن تحديد ما إذا كانت النسائل الفرعية الأحدث على وشك استبدال الحيوانات المستنسخة الأسلاف ، أم أنها ستتعايش لفترة أطول.

إلى جانب العثور على شجرة ML مع المرفقات ، أجرينا أخذ عينات بايزي بالكامل من الأشجار والمرفقات من الخلف. لتلخيص مثل هذه العينة ، نعتبر كمثال عدد الفروع التي تمتلكها الأشجار. يوضح توزيع البيانات من [30] (الشكل 2 أ) أن الأشجار لها في الغالب نقطة تفرع واحدة (بفرعين) مثل شجرة ML وغالبًا ما تحدث كسلسلة خطية بسيطة بفرع واحد.

فرع الشجرة الخلفي وتوزيعات الخطأ. التوزيع اللاحق لعدد فروع الشجرة للبيانات من [30] في (أ) ، للبيانات من [35] في (ج) ، وللبيانات من [36] في (ه) ، كل ذلك مع معدل خطأ سلبي كاذب ثابت β. التوزيعات السابقة من الأشجار التي تم أخذ عينات منها بشكل موحد في ضوء ارجواني. التوزيعات اللاحقة لـ β لنفس مجموعات البيانات ترد في (ب), (د)، و (F) مع المقدمات المدرجة على النحو التالي خطوط أرجوانية فاتحة. متي β تم تعلمه ، فإن التوزيع اللاحق لعدد فروع الأشجار يتغير قليلاً كما هو موضح بواسطة الصلبان السوداء في (أ), (ج)، و (ه). SD الانحراف المعياري

تم العثور على مقارنة مع الأشجار مع الأساليب الأخرى

سبق أن تم تحليل البيانات نفسها بطريقتين متنافستين [33 ، 34].

كيم وسيمون [34] يستخدمان نفس الاحتمالية الكامنة مع الأخطاء كما في المعادلة. 8 لكنهم يستخدمون البيانات لتعلم علاقات الأجداد بين كل زوج من عقد الطفرة بدلاً من الشجرة بأكملها مرة واحدة. كما أنهم يستخدمون البيانات لمعرفة معلمة تمثل مدى سرعة فروع شجرة الطفرات. ثم يتم استخدام هذه المعلمة لحساب الاحتمال السابق لعلاقات الأجداد ، والتي يتم إدخالها في اختبارهم الزوجي وإعادة بناء الشجرة اللاحقة.

مع البيانات من [30] (على نفس الطفرات الثمانية عشر المختارة) ، [34] قدر أن 92٪ من الوقت التطوري لشجرة النشوء والتطور يجب أن يكون قبل الانقسام الثنائي الأول. في نموذجهم ، يُترجم هذا إلى توقع حدوث أكثر من 80٪ من الطفرات قبل أي تفرع في شجرة الطفرات. على الرغم من هذا التقدير الخطي للشجرة ، فإن الخوارزمية الخاصة بهم لتحويل علاقات الأسلاف الزوجية إلى شجرة طفرة تؤدي إلى الشجرة المتفرعة جدًا في الملف الإضافي 1: الشكل S2c ، الذي لديه احتمالية أقل بكثير لسجل -1059.7 من شجرة ML الموجودة مع SCITE (مع احتمال تسجيل -378.4). قد يكون هذا بسبب استخدام كيم وسيمون للحد الأدنى من خوارزمية الشجرة الممتدة. تحتاج الطريقة بشكل فعال إلى تحويل علاقات الأسلاف إلى علاقات صارمة بين الوالدين والطفل ، وبالتالي ، فإنها تستبعد بشكل أساسي التاريخ الأعمق المتضمن في اختباراتهم الزوجية.

لا يمكننا المقارنة مباشرة مع الشجرة التي عثرت عليها BitPhylogeny [33] نظرًا لأن الخوارزمية الخاصة بهم تهدف إلى إيجاد صلة النشوء والتطور بين العينات نفسها بدلاً من شجرة الطفرات. علاوة على ذلك ، تقوم الخوارزمية بتجميع العينات في مستنسخات وفقًا للبيانات وقبل كسر العصا. على سبيل المثال ، باستخدام جميع بيانات الطفرات من [30] ، بالإضافة إلى تسلسل السرطان الطبيعي والكتل ، ومع شجرة معينة لكسر العصا قبل العثور على نسخة واحدة كبيرة تمثل أكثر من نصف العينات وثمانية استنساخ أصغر مرتبة في هيكل شجرة [33]. ومع ذلك ، يمكننا أن ننظر إلى نتيجتها على أنها شجرة طفرات ذات مرفقات حيث تخضع الطفرات نفسها للرقابة. هذا يترك فقط معلومات المرفق النموذجية بالإضافة إلى بنية الشجرة العامة بين مجموعاتهم.

لبناء شجرة طفرات كاملة ، نسمح بوضع كل طفرة قبل أي مجموعة من المجموعات النسيليّة للعينات (أو بعد ذلك تمامًا). لكل طفرة نجد موقع ML الخاص بها ومن ثم نجد شجرة ML (مع المرفقات) ، والتي تحترم نتيجة [33]. الشجرة الناتجة (ملف إضافي 1: الشكل S2b) عبارة عن سلسلة خطية في الغالب مثل شجرة ML التي يجدها SCITE وتتضمن بعض الجينات نفسها في الفروع على الرغم من فقد أحد فروعنا. إن احتمالية اللوغاريتمات البالغة 642.3 لهذه الشجرة أفضل بكثير من شجرة [34] ولكنها أسوأ من الشجرة التي تجدها SCITE (مع احتمالية لوغاريتمية تساوي 378.4). من خلال التسلسل أحادي الخلية يمكننا ، كما نفعل هنا ، ببساطة التعامل مع كل خلية باعتبارها استنساخًا خاصًا بها واكتشاف السلالة مباشرة. يركز BitPhylogeny [33] بدلاً من ذلك على تجميع العينات في مجموعات فرعية أثناء استدلال الشجرة وبالتالي تقليل دقة إعادة البناء.

تعلم معدل الخطأ

ضمن نهج Bayesian MCMC الخاص بنا ، يمكننا أيضًا أخذ عينات من معدلات الخطأ من الخلف. التركيز على معدل الخطأ السلبي الخاطئ β مع الحفاظ على إيجابية كاذبة α ثابت ، للبيتا قبل β بمتوسط ​​0.4309 ، اخترنا انحرافًا معياريًا كبيرًا قدره 0.1. في سلسلة MCMC ، مع احتمال 10٪ a جديد β تم اقتراح ′ بعد السير العشوائي الغاوسي بانحراف معياري يساوي ثلث السابق. تشغيل السلسلة لمدة 10 ملايين خطوة ، والتخلص من الربع الأول ، وتخطيط الجزء الخلفي الناتج β نصل إلى الشكل 2 ب. المتوسط ​​اللاحق هو 0.455 مع انحراف معياري 0.027 بحيث تشير البيانات إلى أن القيمة المقاسة 0.4309 أقل من قيمتها الحقيقية ولكنها ضمن التفاوتات المسموح بها.

الأكثر إثارة للاهتمام لأغراضنا هو كيفية تأثير معدلات الخطأ هذه على استدلال الشجرة. الخريطة β تساوي 0.455 بينما تعد شجرة MAP (مع المرفقات المهمشة) سلسلة بسيطة (ملف إضافي 1: الشكل S4). يشبه ترتيب الطفرة شجرة ML (ملف إضافي 1: الشكل S2a) حتى نقطة التفرع مما يشير إلى تطور الورم أحادي النسيلة. مع الحفاظ على معدل الخطأ ثابتًا عند 0.4309 بدلاً من ذلك ، نجد شجرة MAP متطابقة تعطينا الثقة في أن الاستدلال قوي ضد الاختلافات الطفيفة في معدلات الخطأ.

استنتاج شجرة الطفرات لمجموعة أكبر من الطفرات

نظرنا أيضًا في مجموعة أكبر من الطفرات التي تضم جميع الطفرات الـ 78 غير المترادفة من مجموعة البيانات الكاملة. بالنسبة لهذا العدد من الطفرات ، مع 58 خلية مأخوذة فقط ومستويات عالية من البيانات المفقودة (48 ٪) ، يكون الجزء الخلفي مسطحًا إلى حد ما مما يجعل اكتشاف أفضل عالمي بدلاً من المستوى المحلي الأمثل أكثر صعوبة. زيادة المعلمة γ إلى 2-3 لتضخيم مشهد الاحتمالية ساعد في اكتشاف الأشجار عالية الدرجات. اختبرنا أيضًا أن التمثيل الشجري البديل (انظر "الطرق") مصمم للحالات التي بها طفرات أكثر من العينات التي ساعدت في العثور على شجرة ML (ملف إضافي 1: الشكل S5). تعد شجرة ML مرة أخرى خطية للغاية ولكن الترتيب بشكل خاص لبعض الطفرات الـ 18 يختلف مقارنة بشجرة ML المستنبطة لتلك المجموعة الفرعية من البيانات (ملف إضافي 1: الشكل S3). مع البيانات المفقودة ، قد تتناسب الطفرات بشكل جيد مع عدة حواف وتم وضعها في أقرب موضع لها ، مما قد يفسر بعض التباين. بشكل عام ، تسمح المستويات العالية من البيانات المفقودة للطفرات والعينات بالتحرك دون التأثير على الاحتمالية بينما تسمح معدلات الخطأ المرتفعة بإعادة الترتيب مع تأثير ضئيل فقط. على سبيل المثال ، الطفرة في الجين PDE4DIP التي تتغير أكثر بين مجموعتي البيانات لديها 59٪ من البيانات المفقودة. يتم تحديد الترتيب أيضًا بشكل أساسي من خلال عدد أصغر من العينات التي تعلق أعلى الأشجار. يتم تقليل هذا الرقم الأصغر بشكل فعال من خلال البيانات المفقودة ، مما يحد من دقة أي إعادة بناء شجرة ، كما تم استكشافه لاحقًا مع عمليات المحاكاة.

سرطان الخلايا الكلوية الصافية

مجموعة البيانات الثانية هي من بيانات تسلسل إكسوم وحيدة الخلية لسرطان الخلايا الكلوية الصافية [35]. تم تفصيل حالات الطفرات في 50 موقعًا في 17 خلية ورمية في المادة التكميلية لـ [35]. لقد حددنا وجود SNV عندما كانت المكالمة مختلفة عن إجماع خمس خلايا نسيج طبيعية (بما يتماشى مع المجاميع المتوفرة في المواد التكميلية الخاصة بهم). بالنسبة للبيانات من [30 ، 35] تميز بين الطفرات متغايرة الزيجوت ومتماثلة اللواقح لذلك نستخدم المعادل مرة أخرى. 8 - ومن بين المواقع الخمسين ، هناك 35 موقعا فقط لم تتحور في خلية واحدة على الأقل. تم اختيار هؤلاء فقط حيث سيتم وضع الخمسة عشر المتبقية ببساطة في أعلى شجرة الطفرات. تم تقدير معدلات الخطأ بـ [35] ع α= 2.67 × 10 5 (ايجابيات كاذبة) و β= 0.1643 (سلبيات كاذبة) وتحتوي البيانات أيضًا على 22٪ إدخالات مفقودة (ملف إضافي 1: الشكل S1b).

إعادة بناء شجرة الطفرة

تمتلك كل من أشجار ML و MAP تراكمًا خطيًا تمامًا للطفرات (ملف إضافي 1: الشكلان S6 و S7a) ، وهو ما يتوافق مع سلسلة من التوسعات أحادية النسيلة واستنتاجات [35]. تم تأكيد الخطية في التوزيع الخلفي الكامل للأشجار مع وجود سلسلة خطية مهيمنة (الشكل 2 ج). بالإضافة إلى ذلك ، نلاحظ أن جميع العينات تقريبًا توضع في نهاية الشجرة. مرة أخرى قيمة أكبر للمعلمة γ وقد أدى التمثيل الشجري البديل إلى تسريع اكتشاف أشجار ML.

تعلم معدل الخطأ

إصلاح الإصدار التجريبي المسبق لـ β بمتوسط ​​0.1643 وانحراف معياري قدره 0.06 للتوزيع اللاحق لـ β تم الحصول عليها من خلال متوسط ​​أكثر من عشرة أشواط من 10 ملايين خطوة (مع احتراق ربعها) (الشكل 2 د). يكون المتوسط ​​اللاحق أكبر قليلاً عند 0.207 مع انحراف معياري قدره 0.019 ، لذا فإن القيمة المعلنة تقع ضمن أوجه عدم اليقين. قيمة MAP لـ β بدلاً من ذلك ، تكون أقرب قليلاً عند 0.198 بينما شجرة MAP (الملف الإضافي 1: الشكل S7b) متطابقة بشكل أساسي مع الشجرة ذات القيمة الثابتة β= 0.1643 (ملف إضافي 1: الشكل S7a). يختلف ترتيب بعض الطفرات الأعلى ، مع ذلك ، لأن موضعها الدقيق بالكاد يؤثر على الاحتمال اللاحق.

سرطان الثدي الإيجابي لمستقبلات هرمون الاستروجين (ER +)

مجموعة البيانات الثالثة مأخوذة من تسلسل الإكسوم أحادي النواة لـ 47 خلية ورمية من سرطان الثدي الإيجابي لمستقبلات هرمون الاستروجين (ER +) [36]. يتم استدعاء حالتين فقط لكل موقع: وجود أو عدم وجود SNV. معدلات الخطأ المقدرة من [36] هي 9.72٪ للتسرب الأليلي ، و 1.24 × 10 6 للاكتشاف الخاطئ. في تحليلنا ، نستخدم 40 طفرة موجودة في خليتين ورميتين على الأقل (ملف إضافي 1: الشكل S1c).

إعادة بناء شجرة الطفرة

يتم عرض شجرة MAP المحسوبة لمجموعة البيانات هذه في الشكل 3. في الملحق ، نعرض بالإضافة إلى ذلك شجرة ML (ملف إضافي 1: الشكل S8) وإصدار من شجرة MAP مع عينات مرفقة (ملف إضافي 1: الشكل S9a ). في كل من أشجار MAP و ML ، نلاحظ تراكمًا خطيًا للطفرات في المراحل المبكرة من الورم ، مما يشير إلى أن التطور كان من خلال استبدال متسلسل للنسخات الفرعية مع عدم وجود فروع جانبية على قيد الحياة ، وبقاء عدد قليل فقط من الخلايا ذات الحالات السلفية على قيد الحياة حتى هدية. في المراحل اللاحقة من الورم ، نلاحظ تفرعًا معقدًا إلى نسائل فرعية متواجدة. يتم عرض هذا التفرع بشكل عام في التوزيع الخلفي الكامل للأشجار كما تم تلخيصه في الشكل 2 هـ.

شجرة MAP لسرطان الثدي (ER +) لبيانات [36]. انظر الملف الإضافي 1: الشكل S9a للحصول على نسخة مرفقة بالعينات. أصفر تشير الجينات إلى طفرات غير مترادفة في جينات السرطان المعروفة [36]

من بيانات النقطة الزمنية المفردة المتاحة لهذا الورم ، لا يمكن استنتاج ما إذا كان سيكون هناك تعايش طويل الأمد للنسخ الفرعية ، أو إذا لاحظنا حالة عابرة ستؤدي في النهاية إلى استنساخ فرعي واحد باق. ومع ذلك ، بالنسبة للعلاج الأولي للسرطان ، فإن الوضع الراهن ، مهما كانت الطفرات التي تحدث في الخلايا ، هي بالفعل مفيدة للاستهداف المشترك للنسخة الفرعية الحالية ، وبالتالي تقليل مخاطر التمايز الإضافي في النسائل الفرعية المقاومة للعلاج.

تعلم معدل الخطأ

استخدام الإصدار التجريبي المسبق لـ β بمتوسط ​​0.0972 وانحراف معياري قدره 0.04 ، بلغ متوسطنا أكثر من 20 تشغيلًا من 10 ملايين خطوة (مع احتراق الربع) للحصول على التوزيع اللاحق لـ β (الشكل 2 و). المتوسط ​​اللاحق أكثر من الضعف عند 0.228 (مع انحراف معياري 0.015) ، وهو ما لا يتفق مع القيمة المذكورة. تتناقض هذه النتيجة مع عمليات المحاكاة التي أجريناها لاحقًا بشأن تعلم معدل الخطأ (الشكل 4) التي توضح أن قيمة MAP قريبة من القيمة الحقيقية. التفسير المحتمل لهذا التناقض هو أن التسرب الأليلي لا يشتمل إلا على جزء واحد من المعدل السلبي الخاطئ. يمكن أن تشمل العوامل المساهمة الأخرى عدم الدقة في استدعاء الطفرات متغايرة الزيجوت في التغطية المنخفضة.

معدلات خطأ التعلم. مقارنة بين المعدل السلبي الكاذب لخطة عمل البحر المتوسط β تعلمت استخدام SCITE لـ ن= 20 ضد β تستخدم لتوليد البيانات. ال كتل صلبة هي واحد واثنين من الانحرافات المعيارية للاستدلال β إذا كانت الشجرة معروفة. خريطة أقصى احتمال لاحق

قيمة MAP لـ β هو 0.226 مع شجرة MAP (ملف إضافي 1: الشكل S9b) ، والتي تشترك في العديد من الميزات مع شجرة MAP في ثابت β= 0.0972 (ملف إضافي 1: الشكل S9a) ولكن لديه بعض إعادة ترتيب الفروع لأسفل وبعض إعادة ترتيب الطفرات إلى أعلى. يؤدي تعلم معدل الخطأ أيضًا إلى عدد أقل قليلاً من الفروع في التوزيع اللاحق ، كما يتضح من الصلبان السوداء في الشكل 2 هـ.

التقييم المنهجي لـ SCITE على بيانات المحاكاة

مع التوافر المحدود لبيانات التسلسل أحادية الخلية في هذه المرحلة ونقص الحقيقة الأساسية في البيانات الحقيقية ، أجرينا تقييمًا أكثر منهجية لـ SCITE على مجموعات البيانات المحاكاة. يركز تحليلنا على دقة الاستدلال الشجري وتعلم معدل الخطأ ، وتأثير جودة البيانات ، وأوقات التشغيل العملية لـ SCITE.

دقة استدلال الشجرة

للتحقق من اتساق نهجنا ، قمنا بمحاكاة أشجار الطفرات العشوائية ذات المرفقات بشكل موحد ، مما يسمح بطبولوجيا الأشجار متعددة النسيلة. أولا من أجل ن= 20 و α= 10 −5 ، أنشأنا 100 شجرة مع ما يصل إلى 100 مرفق. لمعدلات الخطأ 100β ∈ <5،15،25> ، لكل شجرة أخذنا عينات من لوغاريتم عادي بانحراف معياري 0.1 وضربناه في β ليحصل β ∗. ثم أضفنا ضوضاء إلى البيانات المثالية بالمعدلات (α,β ∗) وإزالة 1٪ من البيانات. أخذ مجموعات فرعية من بيانات الحجم م، تعلمنا شجرتي ML و MAP لمعدلات الخطأ β. هذا يعطينا خطأ في التحديد العشوائي لحوالي 10٪ مقارنة بـ β ∗ .

حددنا الفرق بين الأشجار المستنبطة والشجرة الحقيقية من خلال حساب عدد المرات التي تحتوي فيها العقدة على الوالد الخطأ (الشكل 5 والصف العلوي من الملف الإضافي 1: الشكل S10). في إعداد ML ، إذا لم يتم إرفاق عينات بسلسلة من الطفرات ، فإن أي ترتيب لتلك الطفرات يكون له نفس الاحتمالية. هنا ، في النتيجة ، لا نعاقب عدم قابلية التعرف على هذا ونأخذ الترتيب الذي يقلل المسافة إلى الشجرة المولدة. ومع ذلك ، فإن عدم قابلية التحديد يميل إلى الانخفاض مع زيادة عدد العينات م يزيد. تحدد شجرة MAP ترتيبًا (تتبع الترددات تقريبًا) وبالتالي لها مسافات أعلى من شجرة ML. بشكل عام ، يجب أن يكون استدلال MAP أكثر قوة وأقل عرضة للإفراط في التجهيز ، ولكن يمكن أن يكون له تحيز أعلى. لمقارنة استنتاج ML و MAP بشكل عادل ، اخترنا ترتيبًا عشوائيًا للطفرات في المناطق غير القابلة للتحديد في أشجار ML وأعدنا حساب المسافات إلى الشجرة المولدة. نلاحظ تحسنًا هامشيًا في إعادة بناء الشجرة باستخدام شجرة MAP (ملف إضافي 1: الشكل S11).

مقارنة بين الطرق المختلفة. مقارنة بين تعلم الشجرة ن= 20 باستخدام SCITE لشجرة ML (متقطع) وشجرة MAP (منقط) مقابل نتائج من [34] (خطوط الصلبة). لا تشمل مسافات شجرة ML مناطق غير محددة. K & أمبير كيم وسيمون [34] ، خريطة كحد أقصى لاحقة ، ML أقصى احتمال

ومع ذلك ، فإن الأخطاء ليست نتيجة لطريقة الاستدلال ، لأن SCITE تعثر بالفعل على شجرة ML (ملف إضافي 1: الشكل S12). بدلاً من ذلك ، تكون هذه الأخطاء متأصلة في البيانات الصاخبة حيث قد تحدث شجرة أخرى لتناسب البيانات بشكل أفضل من الشجرة المولدة. لا يمكن حل التناقض إلا عن طريق تقليل الأخطاء أو زيادة حجم العينة والملف الإضافي 1: يعطي الشكل S10 إشارة إلى كيفية حدوث ذلك. لوضع الأخطاء في الحجم ، تشير القيمة اثنين إلى الطفرات المجاورة في سلسلة يتم تبديلها. نظرًا لأن العينات تحتوي على الطفرات على مدار تاريخها بالكامل في شجرة الطفرات ، فلدينا إجماع أكبر حول بنية الطفرات أعلى الشجرة من أسفلها. قد يتم تحديد الموضع الدقيق للطفرات بالقرب من قاع الشجرة من خلال بضع عينات فقط بحيث تكون الأخطاء التي نراها عادةً أكبر. م هي طفرات بالقرب من الجزء السفلي من الشجرة يتم إزاحتها ، أو يتم تبديل طفرتين متجاورتين. مع وضع هذا في الاعتبار ، نحصل على أشجار جيدة جدًا بحوالي 60 عينة ، اعتمادًا على معدل الخطأ.

كررنا المحاكاة لـ ن= 40 وما يصل إلى 200 مرفق كما هو موضح على طول الصف السفلي من الملف الإضافي 1: الشكل S10 ومرة ​​أخرى نجد إعادة بناء جيدة عندما يكون لدينا عدة عينات لكل طفرة.

تعلم معدلات الخطأ

نظرًا لأن SCITE يمكنه أيضًا إجراء استدلال شجرة Bayesian بالكامل ، فقد فحصنا قدرته على استنتاج المعدل السلبي الخاطئ من البيانات. بالنسبة إلى 2000 شجرة عشوائية مع 60 مرفقًا ، قمنا بإنشاء بيانات بنطاق β من 5 إلى 25٪ ، α= 10 −5 ، و 1٪ بيانات مفقودة. لقد أصلحنا أيضًا زيًا موحدًا مسبقًا للتعلم β بحيث لا يتم تمرير أي معلومات إلى SCITE بصرف النظر عن مصفوفة الطفرات الصاخبة وغير الكاملة.

هناك علاقة عالية جدا بين التوليد β وقيمة MAP المستفادة (الشكل 4). لوضع هذا في السياق ، فإننا ننظر في التوزيع النظري إذا كانت الشجرة معروفة. من الأشجار والمرفقات العشوائية ، حوالي 22٪ من الإدخالات في مصفوفة الطفرات المثالية هي إدخالات واحدة. يتم تغييرها بشكل عشوائي مع المعدل β، مما يؤدي إلى التوزيع ذي الحدين والانحراف المعياري لـ

عند الاستنتاج β من النتيجة. تم تضمين فترتي انحراف معياري في الشكل 4 ، مما يوضح مرة أخرى أن SCITE يعمل بشكل جيد للغاية كما يجب عليه أيضًا استنتاج بنية الشجرة والتعامل مع البيانات المفقودة.

قطع أراضي مماثلة ل م= 40 و م= 80 (ملف إضافي 1: الشكل S13) يظهر أيضًا تشديد ملف β الاستدلال م يزيد.

تأثير البيانات المفقودة

تعد المعدلات العالية لنقاط البيانات المفقودة بسبب حالات الطفرة غير الملحوظة نموذجية لبيانات تسلسل الخلية المفردة الحالية. أجرينا تجارب محاكاة لاختبار كيفية تأثير هذه الميزة على دقة إعادة بناء شجرة الطفرات. بمعدل خطأ يبلغ β= 10٪ ونفس التحديد الخاطئ كما كان من قبل ، أنشأنا ما يصل إلى 400 شجرة عشوائية مع ما يصل إلى 80 مرفقًا. حفظ α= 10 −5 ، قمنا بتغيير كمية البيانات المفقودة من 1 إلى 20٪ لمعرفة التأثير على إعادة بناء الشجرة من أجل م= <40،60،80>. نرى زيادة ضعيفة جدًا في أخطاء إعادة الإعمار مع زيادة معدل البيانات المفقودة (الصف العلوي من الملف الإضافي 1: الشكل S14). نظرًا لأن SCITE تعالج الاستدلال احتماليًا ، فإن البيانات المفقودة تشبه تقليل عدد العينات بشكل فعال م، وبالتالي فإن السلوك في الملف الإضافي 1: الشكل S14 يتماشى مع التغيير م قليلاً في ملف إضافي 1: الشكل S10. يُظهر السلوك أيضًا أن SCITE قوي حتى في مواجهة معدلات البيانات المفقودة العالية.

بالنظر إلى معدلات البيانات المفقودة الأعلى في مجموعات البيانات الأقدم ، قمنا بمحاكاة ما يصل إلى 60٪ من البيانات المفقودة مع 400 شجرة ونفس الإعدادات كما كان من قبل. تزداد إعادة الإعمار سوءًا مع زيادة البيانات المفقودة (الصف السفلي من الملف الإضافي 1: الشكل S14). في حدود 30-40٪ من البيانات المفقودة مع 80 مرفقًا ، لدينا أداء مشابه لأداء 40 خلية مرفقة مع عدم وجود بيانات مفقودة ، وبالتالي خفضنا حجم العينة إلى النصف بشكل فعال. مع وجود 60٪ من البيانات المفقودة ، أصبحت إعادة الإعمار أكثر فقراً مرة أخرى ، على الرغم من أن SCITE وجدت حوالي نصف الآباء بشكل صحيح لحل MAP والأغلبية العظمى باستخدام نهج ML. يرجع هذا الاختلاف إلى اختيار الترتيب الأمثل لحلول ML في حالة عدم قابلية التعرف.

عينات مزدوجة

نادرًا ، بدلاً من عزل خلية واحدة للتسلسل ، يتم التقاط زوج من الخلايا بدلاً من ذلك. لقد فحصنا مدى قوة SCITE في هذه الأنواع من الاضطرابات من خلال محاكاة البيانات مرة أخرى من 400 شجرة عشوائية مع 20 عقدة وما يصل إلى 100 مرفق. لتمثيل تسلسل العينات المزدوجة ، أخذنا ما يصل إلى 20 زوجًا من العينات المرفقة ودمجناها عن طريق تسجيل طفرة كلما كانت موجودة في أي من الخلايا الفردية الأصلية. تمت إضافة أخطاء بمعدل β=10 % (خطأ في التحديد كما سبق) ، α= 10 −5 ، و 1٪ بيانات مفقودة. قمنا بتشغيل SCITE مع م= <40،60،80> إجمالي العينات ، بما في ذلك ما يصل إلى 20 مزدوجًا ، لمعرفة تأثيرها على إعادة بناء الشجرة.

نلاحظ زيادة خطية في أخطاء إعادة الإعمار مع زيادة عدد المضاعفات (ملف إضافي 1: الشكل S15) مع انخفاض التدرج مثل م الزيادات منذ ذلك الحين تمثل الثنائيات نسبة أصغر من العينة الإجمالية. على عكس البيانات المفقودة ، التي تقلل من حجم العينة الفعال ، تضيف المضاعفات الطفرات المربكة ، والتي يمكن أن تتعارض مع طوبولوجيا الشجرة. ومع ذلك ، نظرًا لأن SCITE يستخدم الاستدلال الاحتمالي ، وعلى مستوى شجرة الطفرات بدلاً من شجرة العينة ، فإن إجماع العينات أحادية الخلية يخفف من الآثار السلبية للمضاعفات. حتى مع المعدلات العالية لأخذ العينات المزدوجة ، مثل 10 أو 20٪ ، فإن إعادة بناء الشجرة تؤدي أداءً جيدًا.

أوقات التشغيل

للكشف عن مدى تعقيد البحث العشوائي ومخطط MCMC ، قمنا بمحاكاة بيانات من 400 شجرة تم أخذ عينات منها بشكل موحد مع ما يصل إلى 100 عقدة و 400 عينة مرفقة. وضعنا α= 10 −5 و β= 0.1 (مع نفس التحديد الخاطئ كما كان من قبل) ، تم تضمين 1٪ من البيانات المفقودة وتعيين المعلمة γ= 1 بالنسبة لحالة MCMC. لكل شجرة ، قمنا بتشغيل SCITE 100 مرة وسجلنا عدد الخطوات التي اتخذتها الخوارزمية لأول مرة للوصول إلى أعلى شجرة احتمالية تم الكشف عنها من خلال ذلك التشغيل ، بالإضافة إلى وقت التشغيل. تم اختيار أطوال السلاسل بحيث تشترك جميع الأشواط تقريبًا في نفس الاحتمالية القصوى. يمكن بعد ذلك حساب متوسط ​​عدد الخطوات اللازمة للعثور أولاً على شجرة ML المتفق عليها (بالنسبة لأولئك الذين يديرون احتمالية أقل ، نضيف طول السلسلة ثم نفترض أنهم سيجدون شجرة ML في متوسط ​​عدد إضافي من الخطوات) . يمكن بعد ذلك مضاعفة هذا في متوسط ​​الوقت لكل خطوة لإعطاء مقياس للمدة التي يستغرقها SCITE للعثور على شجرة ML في المتوسط ​​، وتكرارها لجميع 400 شجرة لتوفير الشكل 6.

سلوك التحجيم. متوسط ​​الوقت الذي يستغرقه SCITE في العثور على شجرة ML لأول مرة باعتباره عدد الطفرات ن في الشجرة متنوعًا مع عدد العينات المرفقة م=<ن,2ن,4ن>

من الناحية النظرية ، تشير الحجج المماثلة لتلك الموجودة في [37] إلى أن سلسلة MCMC تتطلب ا(ن 2 ln (ن)) خطوات التقارب أو العثور على أشجار ML. قد يعتمد مشهد الاحتمالية أيضًا على ن و م بطرق غير تافهة ، والتي يمكن أن تؤثر بشكل أكبر على التقارب. مع كل خطوة من MCMC ا(مليون) لتسجيل الشجرة ، نحصل على تقدير عام لـ ا(مليون 3 ln (ن)) للتقارب.

بالمقارنة مع النتائج العددية في الشكل 6 ، فإن التدرجات في مخططات اللوغاريتمات واللوغاريتمات هي 4.5 و 4.5 و 4.2 لـ م=<ن,2ن,4ن> على التوالي. حيث من في عمليات المحاكاة ، هذه أعلى قليلاً من قوة 4 التي اقترحها التقدير ، لكنها تتماشى معها تقريبًا. للتحقق من القياس الخطي باستخدام م، نأخذ الخطوط المناسبة في ن= 60 في منتصف المحاكاة ونجدها مضاعفة م من عند ن إلى 2ن ثم 4ن يزيد الوقت بمعامل 1.9 ثم 1.95 ، أقل بقليل من الضعف ويتماشى مع المقياس الخطي. مع التحجيم الخطي في م، ولعدد معقول من الطفرات ، سيكون SCITE ، بالتالي ، قادرًا على التعامل مع أعداد كبيرة من الخلايا المأخوذة كعينة بكفاءة.

المعلمات الإضافية التي لها تأثير على الأداء العملي لـ SCITE هي احتمالات الحركة واكتشاف شجرة ML ، بالإضافة إلى المعلمة γ. أجرينا بحثًا منهجيًا عن المعلمات المثلى ، الموضحة في ملف إضافي 1. ملاحظتنا هي أن الاختيار الأمثل لاحتمالات الحركة يعطي عامل تسريع ثابت مقارنة بالقيم الافتراضية. وقد لوحظت نتائج مماثلة ل γ، والتي يكون أفضلها للعثور على شجرة ML بسرعة أقل بقليل من 1 ، القيمة المطلوبة لأخذ عينات MCMC.

مقارنة مع المناهج المتنافسة

لتقييم أداء SCITE بشكل أكبر ، قمنا بمقارنته بنهج نسالة مثالي بسيط ، وطريقتان مصممتان لبيانات الخلية الواحدة ، وطريقتان حديثتان للاستدلال الشجري من بيانات التسلسل الجماعي.

نسالة مثالية

قمنا أولاً بمقارنة SCITE مع خوارزمية بسيطة لحل مشكلة التطور المثالي (أي اختبار ما إذا كانت البيانات تحدد نسالة ، وما إذا كانت تفعل ذلك لبناء واحدة [12]). تتمتع مصفوفة الطفرات بتطور نسبي مثالي إذا كان من الممكن بناء شجرة بحيث تكون الأوراق هي العينات ويتم وضع كل طفرات على حافة واحدة تمامًا ، بحيث تعكس الطفرات على المسار المؤدي إليها من الجذر تحورها لكل ورقة الحالة. توجد مثل هذه الشجرة فقط في حالة عدم وجود تناقضات في البيانات بسبب الضوضاء أو الطفرات المتكررة. ولكن إذا كانت موجودة ، فيمكن تمثيلها كشجرة طفرات عن طريق تسمية العقد بدلاً من الحواف. لاختبار التطور الكامل للتطور ، نستخدم نسخة من البيانات بدون قيم مفقودة. من الأشجار والبيانات التي تمت محاكاتها ، لا يوجد سوى عدد قليل جدًا من المتناقضات الخالية من التناقضات ، مما يحد من مقارنة الشجرة ببضع حالات. إن الأنساب المثالية في المتوسط ​​تنحرف عن الشجرة الحقيقية أكثر من كل من أشجار ML و MAP ولم يتم العثور على أي منها للحالات التي تحتوي على أكثر من 45 عينة. ترجع الاختلافات بين السلالة الكاملة والشجرة الحقيقية إلى كل من الأخطاء المقدمة والمعلومات غير الكافية لإعادة بناء الشجرة بالكامل. ترد تفاصيل المقارنة في ملف إضافي 1: الجدول S1.

نهج كيم وسيمون [34]

الطريقة في [34] تعيد بناء نفس النوع من أشجار الطفرات مثل نهجنا. ومع ذلك ، في نهجهم ، معلمة تمثل مدى سرعة تعلم فروع شجرة الطفرات لأول مرة من البيانات. ثم يتم استخدام هذه المعلمة لحساب الاحتمال السابق لعلاقات الأجداد ، والتي تُعلم باختبار الترتيب الزوجي وإعادة بناء الشجرة اللاحقة. بدلاً من تعلم المعلمة من البيانات ، نعطي طريقتهم القيمة الدقيقة من الشجرة التي تم استخدامها بالفعل لإنشاء البيانات لأن هذا يبسط تشغيل اختبار المحاكاة. بالطبع ، من الناحية العملية ، لن تكون هذه المعلومة متاحة ، لذا فإن نتائج الخوارزميات الخاصة بهم مفرطة في التفاؤل. ومع ذلك ، فإن أداء التقريب الزوجي ضعيف نسبيًا (الشكل 5). على وجه الخصوص ، هناك تحسن طفيف مع زيادة عدد العينات. على الرغم من أن اختبارات الأسلاف الزوجية ستصبح أكثر دقة ، يبدو أن هذه المعلومات الإضافية لها تأثير ضئيل على التحول إلى شجرة الطفرات.

مقارنة مع BitPhylogeny

يتم توفير الاستدلال الاحتمالي الأكثر تقدمًا بواسطة BitPhylogeny [33]. ومع ذلك ، فإن هذه الطريقة تعيد بناء هيكل فرعي هرمي بدلاً من شجرة طفرات ، مما يحول دون المقارنة المباشرة مع SCITE ونهج [34]. لذلك ، نقوم بتحويل نتيجة كل طريقة إلى شجرة طفرات كاملة مع إرفاق العينات. بالنسبة لـ SCITE ، هذا يعني العثور على شجرة ML مع المرفقات. لنهج [34] ، نضع العينات في أفضل وضع مناسب لها على الشجرة التي تم العثور عليها. بالنسبة لـ BitPhylogeny بدلاً من ذلك ، فإننا نضع الطفرات على طول فروع شجرة استنساخها في الموضع الذي يزيد من احتمالية حدوث ذلك. نظرًا لأنه يمكن تجميع الطفرات والعينات معًا ، كمقياس للملاءمة ، فإننا نستخدم أقصر مسافة مسار تستند إلى العقدة (كما هو محدد في [33]) بين الشجرة المستنبطة (المكتملة) والشجرة المولدة. على وجه الخصوص ، بالنسبة لكل شجرة ، فإن أقصر مسافة زوجية بين أي عينتين هي عدد الطفرات المختلفة. ثم نقوم بالتطبيع عن طريق حساب متوسط ​​الفروق المطلقة بين المسافات الزوجية في الأشجار المستنبطة والمولدة ، بدلاً من أخذ المجموع.

ل ن=20, α= 10 −5 و β= 0.1 (بنفس التحديد الخاطئ كما كان من قبل) ، أنشأنا 400 شجرة مع بيانات مفقودة بنسبة 1٪. من أجل البساطة ومنح BitPhylogeny ميزة طفيفة ، مررناها بالبيانات الكاملة. نتائج م يتم عرض ∈ <40،60،80> في الشكل 7. تؤدي الطرق التي تمت مقارنتها بشكل أقل أداءً من SCITE ، مع أداء BitPhylogeny [33] بشكل أفضل من خوارزمية [34] ، ولكن مع عدم الاقتراب من أداء SCITE.

مقارنة بين طرق إضافية. مقارنة الاستدلال الشجري لـ SCITE وخوارزمية [34] و BitPhylogeny [33] و PhyloWGS [24] و AncesTree [22]. الكمية Δ د هي أقصر مسافة مسار مستندة إلى عقدة إجماع (كما هو محدد في [33]) بين الأشجار المستنبطة والمولدة. في AncesTree ، BP BitPhylogeny ، كانساس كيم وسيمون [34] ، PW PhyloWGS

يمكننا أيضًا مقارنة أداء الطرق المختلفة من حيث الاختلاف في احتمالية تسجيل الدخول بين الأشجار المستنبطة والمولدة ، والتي تم تسويتها عن طريق القسمة على عدد عناصر مصفوفة البيانات (ملف إضافي 1: الشكل S12). يُظهر هذا سلوكًا مشابهًا للشكل 7 ونلاحظ أن SCITE توفر دائمًا فرقًا غير سلبي. لذلك ، وجدت SCITE دائمًا إما الشجرة المولدة أو شجرة ذات احتمالية أعلى قليلاً من الشجرة المولدة.

مقارنة مع طرق التسلسل بالجملة

أخيرًا ، قمنا بمقارنة SCITE بالطرق المصممة لفك الارتباط وإعادة بناء الشجرة من متواليات مجمعة مختلطة. لقد اخترنا PhyloWGS [24] و AncesTree [22] كطريقتين حديثتين عاليتي الأداء تسمحان بمعالجة العينات بشكل منفصل بالإضافة إلى الجمع. يستخدم PhyloWGS شجرة كسر العصا مسبقًا (مثل BitPhylogeny) بينما يحل AncesTree فك الارتباط والنسب كعامل مصفوفة. عند تمرير طفرات الخلية المفردة المحاكية كعينات فردية إلى كلتا الطريقتين ، لم يُرجع أي منهما أي شيء بخلاف مجموعة واحدة من الطفرات. التفسير المحتمل لهذه النتيجة هو أن الطريقتين تفسران حالات الطفرة الثنائية على أنها انتشار خلوي في العينات المختلطة ، مما قد يسبب مشاكل في خطوة التفكك. تم الحصول على أداء أفضل عند دمج الخلايا المفردة في خليط ضخم ، مع إرجاع كلتا الطريقتين إلى أشجار الطفرات مع احتمال تجميع الطفرات معًا في العقد. للمقارنة مع الطرق الأخرى ، وضعنا العينات مرة أخرى في أفضل مواقعها في الأشجار المستنبطة للحصول على النتائج في الشكل 7. أداء AncesTree أسوأ قليلاً من PhyloWGS وكلاهما أسوأ بشكل ملحوظ من BitPhylogeny و SCITE. هذا ليس غير متوقع ، حيث تم تصميم الأخيرين فقط للتعامل مع بيانات الخلية الواحدة. الاستنتاج الرئيسي هنا هو أن الأساليب المتخصصة ضرورية لبيانات الخلية الواحدة حيث لا يمكن تطبيق طرق العينات المختلطة بسهولة.


الحصول على تسلسل من المتماثلات و [مدش] النهج 2: البحث في قاعدة البيانات

لحسن الحظ ، لا يلزم إجراء التسلسل الفعلي للحصول على تسلسل الاهتمام. اليوم ، يمكن الحصول عليها من خلال البحث في قواعد بيانات التسلسل. تخزن قواعد البيانات الرئيسية على الإنترنت معلومات التسلسل المنشورة وغير المنشورة (ترد الأمثلة في الجدول 27.2). بالإضافة إلى ذلك ، تركز الآلاف من قواعد البيانات الصغيرة على الإنترنت على كائنات معينة أو أنواع معينة من البيانات أو البيانات المنتجة في مؤسسات معينة. يمكن أيضًا إنشاء قواعد بيانات مخصصة للبحث الذي يتضمن معلومات في قواعد البيانات العامة بالإضافة إلى المعلومات الخاصة (نتائج جهود البحث والتسلسل الخاصة بالباحث) ، مثل التسلسل العشوائي الذي تمت مناقشته أعلاه. يمكن بعد ذلك البحث في أي من قواعد البيانات هذه عن تسلسل الاهتمام باستخدام الأساليب الحسابية.

تتوفر طرق متنوعة للبحث عن متماثلات لسلسلة الاهتمام في قواعد بيانات التسلسل. في جوهرها ، تنفذ كل هذه الطرق نوعًا من محاذاة التسلسل حيث يتم فحص الاستعلام مقابل قاعدة البيانات في البحث عن التسلسلات في قاعدة البيانات التي تشبه الاستعلام. تختلف الطرق المستخدمة في كل من ما تستخدمه كاستعلام وفي كيفية تحديد التشابه مع قاعدة البيانات وتسجيله. نظرًا لاستخدام نفس الأساليب بشكل أساسي لإجراء محاذاة تسلسلية متعددة ، فإننا نناقشها في القسم التالي. لأغراضنا هنا ، الأهم هو أن جميع طرق البحث في قاعدة البيانات تستخدم نفس المبدأ العام. تُمنح المطابقات درجة بناءً على نوع التطابق مع قاعدة البيانات ، ومن ثم تُنتج أدوات البحث في قاعدة البيانات جدولاً للدرجات أو الاحتمالات لكل عنصر في قاعدة البيانات مقارنةً بالاستعلام. يتم استخدام قطع للتخلص من المباريات الضعيفة ، ويتم تخزين أفضل المباريات. نلاحظ أن هناك العديد من الطرق لتعيين الدرجات للمطابقات ، والتي تمت مناقشة بعضها في القسم التالي. أخيرًا ، يجب اتخاذ قرار من بين المطابقات الناتجة فيما يتعلق بالمتجانسين حقًا في الاهتمام وأيهم ليسوا كذلك.

هذه الخطوة الأخيرة حاسمة ومصدر للعديد من المشاكل لأن تشابه التسلسل ليس دليلاً على التنادد. على سبيل المثال ، عند البحث في قواعد بيانات ذات تسلسل كبير ، يتوقع المحققون العثور على مناطق قصيرة تشابه تسلسل استعلامهم عن طريق الصدفة وحدها. كلما كبرت قاعدة البيانات ، زاد احتمال حدوث مثل هذه المطابقات الزائفة. حتى عندما يتم العثور على تشابه غير عشوائي على ما يبدو ، فإن التسلسلات المتشابهة ليست بالضرورة متجانسات. يمكن أن يكون تشابه التسلسل انعكاسًا للتماثل ، ولكنه قد يكون أيضًا نتيجة للتطور المتقارب أو الموازي (المعروف أيضًا باسم القياس).

كيف يتم تمييز تسلسل التشابه بسبب التنادد عن ذلك بسبب القياس؟ أحد الأساليب الشائعة هو ببساطة تحديد عتبة تشابه محافظة واستنتاج أن التسلسلات تكون متجانسة فقط إذا كانت تحتوي على مستويات عالية جدًا من التشابه. نهج آخر هو أخذ كل من المتواليات المعنية ومحاولة استنتاج كيف كان أسلافها الجدد. سيكون هذا مشابهًا لدراسات أجنحة الطيور والخفافيش ، والتي نعلم أنها متشابهة نتيجة التقارب لأن أسلاف الخفافيش الحديثة نسبيًا لم يكن لها أجنحة (الشكل 27.3). الأهم من ذلك ، يجب على المرء أن يفهم أن التنادد هو استنتاج ولا يتبع مباشرة من مقاييس التشابه.


استنتاج

قدمنا ​​طريقة MulRF الجديدة لاستنتاج شجرة الأنواع من أشجار الجينات غير المتوافقة والتي تستند إلى شكل معمم لمسافة التردد الراديوي. على عكس معظم طرق علم الوراثة السابقة التي تستخدم أشجار الجينات ، يعتمد نهجنا على مقياس عام لمسافة الأشجار غير مرتبط بأي عمليات بيولوجية محددة. ونتيجة لذلك ، فهي جذابة بشكل بديهي لتحليلات مجموعات البيانات الجينية ، حيث من المحتمل أن تساهم العديد من العمليات مثل الاندماج العميق ، وإعادة التركيب ، والازدواجية والخسائر الجينية ، و LGT ، بالإضافة إلى خطأ علم الوراثة في الخلاف في شجرة الجينات. في تجارب المحاكاة ، قدرت طريقة MulRF أشجار الأنواع بشكل أكثر دقة من العديد من طرق GTP ، ويبدو أنها قوية نسبيًا لتأثيرات خطأ التطور الوراثي ، وتضاعف الجينات وفقدانها ، و LGT. بالإضافة إلى ذلك ، فإن طريقة MulRF سريعة ، حيث تقدر أشجار 100 نوع من مئات الأشجار الجينية في أقل من دقيقتين ومجموعة بيانات نباتية تضم 22 نوعًا وما يقرب من 2000 شجرة جينية في ما يزيد قليلاً عن 4 دقائق.

تجارب المحاكاة لدينا تبسط إلى حد كبير العمليات الحقيقية للتطور الجيني. ركزنا فقط على العمليات التي تعكس أهداف أساليب GTP ، وشددنا على الازدواجية والخسارة ، لأن ذلك وثيق الصلة بشكل خاص بتطور أشجار الجينات متعددة النسخ. ومع ذلك ، حتى في هذه الظروف التي قد نتوقع فيها أداء GTP جيدًا ، نجد أن MulRF تحصل على نتائج أكثر دقة من GTP في معظم الحالات. هذا لا يعني أن MulRF سيتفوق دائمًا على GTP ، لكننا نقترح أن MulRF يمكن أن يوفر سريعًا منظورًا بديلًا مثيرًا للاهتمام حول استدلال شجرة الأنواع. هناك حاجة إلى مزيد من الاختبارات لوصف أداء أساليب MulRF في ظل سيناريوهات تطورية مختلفة.

سيكون الاتجاه المستقبلي الآخر هو دمج تقديرات عدم اليقين في شجرة الجينات في التحليل الفائق من خلال وزن الانقسامات بشكل مختلف عند حساب مسافة التردد اللاسلكي. أيضًا ، تشير فعالية طريقة MulRF في استنتاج أشجار الأنواع من أشجار الجينات متعددة النسخ إلى أنه يمكن استخدام مقاييس مسافة الأشجار الأخرى في نفس السياق. المرشح الطبيعي للدراسة هو المسافة الرباعية. يجب أن يقيم العمل المستقبلي أيضًا مدى ملاءمة مقاييس المسافة المختلفة في تقدير أشجار الأنواع في ظل نماذج خطأ مختلفة وسيناريوهات تطورية.


نتائج

فيما يلي نقدم نتائج تجاربنا. بالنسبة لجميع الطرق ، نُبلغ عن جودة GFT (تقاس بمسافة Robinson-Foulds [RF] إلى الأشجار الحقيقية في مجموعات البيانات المحاكاة والاحتمالية المشتركة في مجموعات البيانات التجريبية) والكفاءة الحسابية (تقاس بوقت التشغيل المتسلسل والكفاءة الموازية). تتوفر جميع البيانات وجميع الأشجار المستنبطة على https://cme.h-its.org/exelixis/material/generax_data.tar.gz.

مسافات التردد اللاسلكي إلى الأشجار الحقيقية

نعرض مسافات التردد اللاسلكي النسبية بين 1،099 البكتيريا الزرقاء المحاكية GTRs و GTRs المستنبطة ذات الصلة في الشكل 5. بالنسبة للطرق التي ينتج عنها أكثر من GFT محتمل لكل عائلة جينية (ALE و RAxML-NG) ، نقوم بتوسيط المسافة على جميع الأشجار المستنتجة .

مسافات RF النسبية للأشجار الحقيقية ، من خلال استنتاج أشجار الجينات بنموذج الاستبدال الحقيقي (LG + Γ + I) ونموذج الاستبدال غير المحدد (WAG).

مسافات RF النسبية للأشجار الحقيقية ، من خلال استنتاج أشجار الجينات بنموذج الاستبدال الحقيقي (LG + Γ + I) ونموذج الاستبدال غير المحدد (WAG).

يعمل GeneRax و ALE بشكل أفضل من جميع الطرق الأخرى ، باستثناء حالة نموذج الاستبدال الذي تم تحديده بشكل خاطئ حيث تعمل Treerecs بشكل جيد. في ظل النموذج الحقيقي ، فإن طرق STA التي لا تأخذ في الحسبان HGT ولكنها تستخدم درجة احتمالية مشتركة (Phyldog و Treerecs) تؤدي أداءً أفضل من الطريقة القائمة على التسلسل البحت (RAxML-NG) ، ولكنها أسوأ من الطرق المحاسبية لـ HGT. على الرغم من حساب EcceTERA لعمليات النقل ، إلا أنه يؤدي أداءً جيدًا فقط مثل Treerecs ، ربما لأن خوارزمية EcceTERA تستخدم البخل فقط. نفترض أن أداء Notung أسوأ من جميع الطرق الأخرى لأنه يعيد ترتيب الأشجار بناءً على درجة البخل وعتبة قيمة الدعم التعسفي.

نلخص نتائج عمليات محاكاة GenPhyloData حيث نقوم بتغيير المعلمات (معلمات كثافة DTL ، وما إلى ذلك) في وجود HGT في الشكل 6 ونتائج عمليات المحاكاة في حالة عدم وجود HGT في المواد التكميلية عبر الإنترنت. يعثر GeneRax على أفضل الأشجار في 90٪ من سيناريوهات المحاكاة لدينا ، لكن ALE يجد أشجارًا جيدة تقريبًا في معظم عمليات المحاكاة. يعمل Treerecs و Phyldog تقريبًا مثل GeneRax و ALE في غياب HGT ، ولكنه أسوأ في ظل HGT. أداء Notung أسوأ بكثير من جميع طرق SPA.

مقارنة بين أدوات تصحيح GTF المختلفة في مجموعات البيانات المحاكاة ، في حضور من عمليات نقل الجينات الأفقية. (أ) عدد أصناف الأنواع ، (ب) عدد المواقع ، (ج) شجرة الأنواع الخاطئة بشكل متزايد ، (د) متوسط ​​أسعار DTL ، (ه) النسبة بين معدلات الازدواج والتحويل ، و (F) أطوال فرع شجرة الجينات.

مقارنة بين أدوات تصحيح GTF المختلفة في مجموعات البيانات المحاكاة ، في حضور من عمليات نقل الجينات الأفقية. (أ) عدد أصناف الأنواع ، (ب) عدد المواقع ، (ج) شجرة الأنواع الخاطئة بشكل متزايد ، (د) متوسط ​​أسعار DTL ، (ه) النسبة بين معدلات الازدواج والتحويل ، و (F) أطوال فرع شجرة الجينات.

تُظهر جميع طرق STA نمط دقة مماثل عندما نغير المعلمات: فهي تعمل بشكل أفضل مع زيادة قوة إشارة تسلسل الجينات (الشكل 6 ب و و) وتؤدي بشكل أسوأ مع زيادة التنافر بين شجرة الأنواع و GFTs (الشكل 6c-e).

نعرض نتائج محاكاة SimPhy على درجات اختلاف معايير ILS المختلفة في الشكل 7. يتفوق GeneRax على جميع أدوات STA الأخرى. لقد وجد GFTs أفضل من الطريقة الوحيدة غير STA (RAxML-NG) حتى درجة تعارض ILS تبلغ 0.6. تشير النتائج التي توصلنا إليها إلى أنه يمكن نشر GeneRax لتحليل مجموعات البيانات التي تظهر درجة معتدلة من ILS.

مسافة التردد الراديوي للأشجار الحقيقية في مجموعات البيانات المحاكاة مع زيادة الاختلاف بسبب ILS.

مسافة التردد الراديوي للأشجار الحقيقية في مجموعات البيانات المحاكاة مع زيادة الاختلاف بسبب ILS.

فرع يسجل المسافات إلى الأشجار الحقيقية

لمقارنة جودة أطوال فرع الجين من حيث العدد المتوقع للبدائل لكل موقع ، قمنا بقياس متوسط ​​مسافة نقاط الفرع (Kuhner and Felsenstein 1994) بين الأشجار المستنتجة والأشجار الحقيقية (الشكل 8) مع مكتبة phangorn R (شليب 2011). أداء GeneRax أفضل من جميع الأدوات المنافسة. على وجه الخصوص ، يُظهر GeneRax متوسط ​​مسافة فرع أفضل (1.02) من ALE (1.48). التفسير المحتمل لذلك هو أن ALE لا تستنتج أطوال الفروع من خلال تحسين درجة احتمالية التطور ، على عكس GeneRax و Treerecs و RAxML-NG. عند استخدام ALE أو Notung أو Phyldog أو EcceTERA ، سيحتاج المستخدمون المهتمون بدقة طول الفرع إلى تضمين أداة إضافية في خط الأنابيب الخاص بهم (على سبيل المثال ، RAxML-NG).

فرع يسجل المسافة إلى الأشجار الحقيقية. استبعدنا من طرق الرسم التي لا تستنتج أطوال الفروع.

فرع يسجل المسافة إلى الأشجار الحقيقية. استبعدنا من طرق الرسم التي لا تستنتج أطوال الفروع.

الاحتمالية المشتركة

نُبلغ عن درجات ML المشتركة لـ GFTs التي تم الحصول عليها باستخدام الأدوات المختلفة في الشكل 9. نظرًا لأن الشجرة الحقيقية لا تعرف عمومًا البيانات التجريبية ، وبالنظر إلى أننا على استعداد لقبول معيار ML ، يجب أن نفترض أن الشجرة تنتج أفضل تعلم مشترك هو أيضًا الذي يشرح البيانات بشكل أفضل. تم استخدام هذا النهج في قياس أدوات تعلم الآلة على مجموعات البيانات التجريبية بشكل متكرر لتقييم أدوات الاستدلال الشجري القياسية (Nguyen et al. 2015 Kozlov et al. 2019). الأساس المنطقي لهذا هو أن عمليات البحث القياسية عن الأشجار القائمة على احتمالية التطور هي بطبيعتها أكثر صعوبة في التجريبية منها على بيانات محاكاة سلسة ومثالية. وهذا يعني أن الاختلافات بين خوارزميات البحث الشجري قد لا يمكن ملاحظتها في بعض الأحيان إلا على البيانات التجريبية. كما هو متوقع ، وجد GeneRax أعلى درجة احتمالية مشتركة. ALE قريبة من GeneRax ، لأنها تسعى جاهدة لتقريب نفس النموذج. نظرًا لأن الأدوات المتبقية تنفذ نماذج متميزة ، فقد تبدو مقارنتنا غير عادلة. ومع ذلك ، فإننا نعتبر هذا بشكل أساسي وسيلة للتحقق من أن GeneRax يزيد بشكل صحيح من الاحتمالية وفقًا لنموذج التسوية المحدد الخاص به. Treerecs و Phyldog قريبان جدًا من GeneRax في حالة عدم وجود عمليات نقل ، لأنهم ينشرون نموذج احتمال مشترك مماثل. تؤدي ALE أداءً أفضل من Treerecs و Phyldog في وجود HGT ، لأن Treerecs و Phyldog يفسران فقط ازدواج الجينات وفقدانها. لا تنفذ RAxML-NG و EcceTERA و Notung نموذج احتمالية تسوية مشتركة ، مما يفسر درجاتهم المنخفضة.

تم تقييم احتمالات تسجيل الدخول (كلما كان ذلك أفضل) باستخدام GeneRax. عند تقييم الاحتمالية المشتركة للقرود ، قمنا بتعيين معدل HGT على 0. (أ) الرئيسيات و (ب) البكتيريا الزرقاء.

تم تقييم احتمالات تسجيل الدخول (كلما كان ذلك أفضل) باستخدام GeneRax. عند تقييم الاحتمالية المشتركة للقرود ، قمنا بتعيين معدل HGT على 0. (أ) الرئيسيات و (ب) البكتيريا الزرقاء.

بالإضافة إلى ذلك ، عند تشغيل GeneRax على مجموعة بيانات البكتيريا الزرقاء التجريبية ، سجلنا كلاً من احتمالية التوفيق واحتمالية النشوء والتطور أثناء البحث عن الشجرة (الشكل 10). نلاحظ أن تحسين الاحتمالية المشتركة يحدث من خلال زيادة احتمالية التسوية بالتزامن مع انخفاض احتمالية التطور. لاحظنا هذا باستمرار في جميع مجموعات البيانات المحاكاة والتجريبية التي جربناها. بشكل عام ، لاحظنا أن استدلال البحث عن شجرة الاحتمالية المشتركة لدينا ليس فعالًا في تحسين درجة احتمالية التطور ، وبالتالي يحتاج إلى البدء من الأشجار ذات الاحتمالية العالية للتطور. لهذا السبب ، عندما لا يوفر المستخدم شجرة بداية ، فإننا في البداية نقوم فقط بتحسين احتمالية التطور ، وبعد ذلك فقط نبدأ في تحسين الاحتمالية المشتركة.

التوفيق واحتمالات تسجيل التسلسل أثناء بحث شجرة GeneRax على مجموعة بيانات البكتيريا الزرقاء. تقل احتمالية التسلسل بينما تزداد احتمالية التسوية.

التوفيق واحتمالية تسجيل التسلسل أثناء بحث شجرة GeneRax على مجموعة بيانات البكتيريا الزرقاء. تقل احتمالية التسلسل بينما تزداد احتمالية التسوية.

أوقات التشغيل المتسلسلة

قمنا بقياس أوقات التشغيل المتسلسلة لجميع الأدوات في مجموعة بيانات البكتيريا الزرقاء التجريبية. مقارنة أوقات التشغيل ليست مباشرة: بعض الأدوات سريعة جدًا ولكنها تتطلب خطوة معالجة خارجية ، كما هو موضح في الجدول 1. على سبيل المثال ، تعد Notung أسرع أداة ، ولكنها تتطلب GFTs مع قيم دعم كمدخلات ، ويمكن أن يستغرق الحصول عليها وقتًا طويلاً للغاية. لإجراء مقارنة عادلة ، قمنا برسم كل من الوقت المستغرق في أدوات الاستدلال GFT وحدها ، والوقت المستغرق في خطوات المعالجة المسبقة الخاصة بكل منهما (الشكل 11).

البرامج المستخدمة في معيارنا ، مع نوع الطريقة (ML ، البخل ، أو كليهما) ، طبيعة أشجار الإدخال (شجرة عشوائية ، شجرة ML ، شجرة مع قيم دعم التمهيد ، أو عينة MCMC من الأشجار) ، سواء كانت الطريقة هل STA وما إذا كانت طريقة حسابات HGT.

برمجة . نوع الطريقة. إدخال الأشجار. STA. HGT. المرجع. .
RAxML-NG ML عشوائي لا لا كوزلوف وآخرون. (2019)
Notung البخل دعم ML نعم لا Chen et al. (2000)
Treerecs البخل + مل دعم ML نعم لا كونت وآخرون (2020)
فيلدوج ML ML نعم لا Boussau et al. (2013)
إكسيتيرا البخل عينات ML أو MCMC المدعومة نعم نعم Scornavacca et al. (2015)
ALE ML عينات MCMC نعم نعم Szöllősi ، Rosikiewicz ، وآخرون. (2013)
جينراكس ML عشوائي أو ML نعم نعم هذه الورقة
برمجة . نوع الطريقة. إدخال الأشجار. STA. HGT. المرجع. .
RAxML-NG ML عشوائي لا لا كوزلوف وآخرون. (2019)
Notung البخل دعم ML نعم لا Chen et al. (2000)
Treerecs البخل + مل دعم ML نعم لا كونت وآخرون (2020)
فيلدوج ML ML نعم لا Boussau et al. (2013)
إكسيتيرا البخل عينات ML أو MCMC المدعومة نعم نعم Scornavacca et al. (2015)
ALE ML عينات MCMC نعم نعم Szöllősi ، Rosikiewicz ، وآخرون. (2013)
جينراكس ML عشوائي أو ML نعم نعم هذه الورقة

البرامج المستخدمة في معيارنا ، مع نوع الطريقة (ML ، البخل ، أو كليهما) ، طبيعة أشجار الإدخال (شجرة عشوائية ، شجرة ML ، شجرة مع قيم دعم التمهيد ، أو عينة MCMC من الأشجار) ، سواء كانت الطريقة هل STA وما إذا كانت طريقة حسابات HGT.

برمجة . نوع الطريقة. إدخال الأشجار. STA. HGT. المرجع. .
RAxML-NG ML عشوائي لا لا كوزلوف وآخرون. (2019)
Notung البخل دعم ML نعم لا Chen et al. (2000)
Treerecs البخل + مل دعم ML نعم لا كونت وآخرون (2020)
فيلدوج ML ML نعم لا Boussau et al. (2013)
إكسيتيرا البخل عينات ML أو MCMC المدعومة نعم نعم Scornavacca et al. (2015)
ALE ML عينات MCMC نعم نعم Szöllősi ، Rosikiewicz ، وآخرون. (2013)
جينراكس ML عشوائي أو ML نعم نعم هذه الورقة
برمجة . نوع الطريقة. إدخال الأشجار. STA. HGT. المرجع. .
RAxML-NG ML عشوائي لا لا كوزلوف وآخرون. (2019)
Notung البخل دعم ML نعم لا Chen et al. (2000)
Treerecs البخل + مل دعم ML نعم لا كونت وآخرون (2020)
فيلدوج ML ML نعم لا Boussau et al. (2013)
إكسيتيرا البخل عينات ML أو MCMC المدعومة نعم نعم Scornavacca et al. (2015)
ALE ML عينات MCMC نعم نعم Szöllősi ، Rosikiewicz ، وآخرون. (2013)
جينراكس ML عشوائي أو ML نعم نعم هذه الورقة

أوقات التشغيل المتسلسلة والنفقات الإضافية من خطوات الحوسبة المسبقة (أشجار التمهيد مع RAxML-NG لـ Notung و Treerecs ، وعينات MCMC مع MrBayes لـ ALE و EcceTERA ، وأشجار بدء RAxML-NG لـ GeneRax-raxml). يتوافق عمود RAxML-NG مع الوقت المستغرق في بحث شجرة واحد. نحن نمثل الأوقات بمقياس لوغاريتمي.

أوقات التشغيل المتسلسلة والنفقات الإضافية من خطوات الحوسبة المسبقة (أشجار التمهيد مع RAxML-NG لـ Notung و Treerecs ، وعينات MCMC مع MrBayes لـ ALE و EcceTERA ، وأشجار بدء RAxML-NG لـ GeneRax-raxml). يتوافق عمود RAxML-NG مع الوقت المستغرق في بحث شجرة واحد. نحن نمثل الأوقات بمقياس لوغاريتمي.

عند التفكير فقط في أوقات التشغيل المستقلة للأدوات ، فإن GeneRax هي أبطأ طريقة. ومع ذلك ، عند تضمين تكلفة المعالجة المسبقة ، يصبح GeneRax أسرع نهج STA. بالإضافة إلى ذلك ، يؤدي استخدام أداة واحدة فقط لعملية الاستدلال بأكملها إلى تحسين قابلية استخدام التحليلات واستنساخها بشكل كبير.

كفاءة موازية

قمنا بقياس أوقات التشغيل المتوازية لـ GeneRax لأعداد مختلفة من النوى. في هذه التجربة ، قمنا بتنفيذ GeneRax على مجموعة بيانات البكتيريا الزرقاء التجريبية (1099 عائلة) ، بدءًا من أشجار RAxML-NG. استخدمنا 4 حتى 512 مركزًا. على الرغم من أحجام MSA لعائلة الجينات غير المتجانسة للغاية (من حيث عدد المواقع وعدد الأصناف ، انظر المواد التكميلية عبر الإنترنت) ، تحقق GeneRax كفاءة موازية عالية بنسبة 70 ٪ على 512 نواة. نرسم التسريع كدالة لعدد النوى في المواد التكميلية عبر الإنترنت.

قمنا أيضًا بقياس الكفاءة الموازية لتشغيل الطرق المنافسة كما هو موضح في قسم المواد والطرق ورسمها في المادة التكميلية عبر الإنترنت. GeneRax هي الأداة الوحيدة التي تحقق كفاءة جيدة (70٪) لأنها توازي كليهما ، أكثر ، و ضمن عائلات الجينات ، وبالتالي تحقيق توازن حمل "جيد". على الرغم من مخطط الموازاة ذي المستويين المماثل ، فإن الكفاءة الموازية لـ RAxML-NG (المجدولة مع ParGenes ، مع شجرة انطلاق واحدة لكل عائلة) أقل من 20٪. والسبب في ذلك هو أن ParGenes يوازي عمليات البحث الفردية للأشجار على المواقع بينما يوازيها GeneRax على حركات SPR. غالبًا ما تكون الجينات MSAs قصيرة ، ولا يوجد عادةً عدد كافٍ من المواقع لتخصيص عدة مراكز لكل بحث شجرة باستخدام RAxML-NG. تفشل الأدوات المنافسة الأخرى أيضًا في تحقيق كفاءة موازية جيدة (40٪) ، لأنها لا توازي استنتاجات GFT الفردية وبالتالي فهي مقيدة بأطول وقت للاستدلال الفردي لكل شجرة. تنخفض الكفاءة الموازية لـ GeneRax عند البدء من الأشجار العشوائية ، لأن خطوة تحسين احتمالية التطور الأولي تعتمد على كود RAxML-NG ، والذي لا ينفذ مخطط الموازاة سالف الذكر على مستويين.


محتويات

يشير الاستدلال البايزي إلى طريقة احتمالية طورها القس توماس بايز بناءً على نظرية بايز. نُشر بعد وفاته في عام 1763 وكان أول تعبير عن الاحتمال العكسي وأساس الاستدلال البايزي. بشكل مستقل ، غير مدرك لعمل بايز ، طور بيير سيمون لابلاس نظرية بايز عام 1774. [6]

كان الاستدلال البايزي أو طريقة الاحتمال العكسي هو النهج القياسي في التفكير الإحصائي حتى أوائل القرن العشرين قبل أن يطور RA Fisher ما يُعرف الآن بالاستدلال الكلاسيكي / المتكرر / الاستدلال فيشر. حالت الصعوبات الحسابية والاعتراضات الفلسفية دون اعتماد نهج بايز على نطاق واسع حتى التسعينيات ، عندما أحدثت خوارزميات ماركوف تشين مونتي كارلو (MCMC) ثورة في الحساب البايزي.

يجمع النهج البايزي لإعادة الإعمار النشئي بين الاحتمال السابق للشجرة P (A) واحتمالية البيانات (B) لإنتاج توزيع احتمالي خلفي على الأشجار P (A | B). [7] سيكون الاحتمال اللاحق للشجرة هو احتمال صحة الشجرة ، بالنظر إلى البيانات السابقة وصحة نموذج الاحتمالية.

يمكن وصف طرق MCMC في ثلاث خطوات: أولاً باستخدام آلية عشوائية ، يتم اقتراح حالة جديدة لسلسلة ماركوف. ثانيًا ، يتم حساب احتمالية أن تكون هذه الحالة الجديدة صحيحة. ثالثًا ، تم اقتراح متغير عشوائي جديد (0،1). إذا كانت هذه القيمة الجديدة أقل من احتمال القبول ، يتم قبول الحالة الجديدة ويتم تحديث حالة السلسلة. يتم تشغيل هذه العملية إما لآلاف أو ملايين المرات. إن مقدار الوقت الذي تتم فيه زيارة شجرة واحدة خلال مسار السلسلة هو مجرد تقدير تقريبي صحيح لاحتمالها اللاحق. تتضمن بعض الخوارزميات الأكثر شيوعًا المستخدمة في طرق MCMC خوارزميات Metropolis-Hastings و Metropolis-Coupling MCMC (MC³) والخوارزمية المحلية لـ Larget و Simon.

تحرير خوارزمية Metropolis-Hastings

واحدة من أكثر طرق MCMC شيوعًا المستخدمة هي خوارزمية Metropolis-Hastings ، [8] نسخة معدلة من خوارزمية Metropolis الأصلية. [9] وهي طريقة مستخدمة على نطاق واسع لأخذ عينات عشوائية من احتمالات التوزيع المعقدة والمتعددة الأبعاد. يتم وصف خوارزمية Metropolis في الخطوات التالية: [10] [11]

  1. شجرة أولية ، Tأنا، بشكل عشوائي
  2. شجرة جاره ، تي، من مجموعة الأشجار.
  3. النسبة R للاحتمالات (أو دوال كثافة الاحتمال) لـ Tي و تأنا يتم حسابها على النحو التالي: R = f (Tي) / f (T.أنا)
  4. إذا كان R ≥ 1 ، Tي تم قبوله باعتباره الشجرة الحالية
  5. إذا كان R & lt 1 ، Tي يتم قبولها على أنها الشجرة الحالية مع احتمال R ، وإلا Tأنا يتم الاحتفاظ بها
  6. في هذه المرحلة تتكرر العملية من الخطوة 2 ن مرات.

تستمر الخوارزمية في العمل حتى تصل إلى توزيع التوازن. كما يفترض أن احتمال اقتراح شجرة جديدة Tي عندما نكون في حالة الشجرة القديمة Tأنا، هو نفس احتمال اقتراح Tأنا عندما نكون في Tي. عندما لا يكون هذا هو الحال ، يتم تطبيق تصحيحات Hastings. الهدف من خوارزمية Metropolis-Hastings هو إنتاج مجموعة من الحالات بتوزيع محدد حتى تصل عملية ماركوف إلى توزيع ثابت. تتكون الخوارزمية من مكونين:

  1. انتقال محتمل من حالة إلى أخرى (i → j) باستخدام دالة احتمال الانتقال qاي جاي
  2. حركة السلسلة للحالة j مع الاحتمال αاي جاي ويبقى في i مع احتمال 1 - αاي جاي. [2]

تعديل MCMC المقترن بالمتروبوليس

تم اقتراح خوارزمية MCMC المقترنة بالمتروبوليس (MC³) [12] لحل مشكلة عملية تتعلق بتحرك سلسلة ماركوف عبر القمم عندما يكون للتوزيع المستهدف قمم محلية متعددة مفصولة بالوديان المنخفضة ، ومن المعروف وجودها في مساحة الشجرة. هذا هو الحال أثناء البحث عن الشجرة الاستكشافية تحت الحد الأقصى من البخل (MP) ، والاحتمال الأقصى (ML) ، ومعايير الحد الأدنى للتطور (ME) ، ويمكن توقع نفس الشيء بالنسبة للبحث العشوائي عن الشجرة باستخدام MCMC. ستؤدي هذه المشكلة إلى عدم تقارب العينات بشكل صحيح مع الكثافة الخلفية. يحسن (MC³) اختلاط سلاسل ماركوف في وجود قمم محلية متعددة في الكثافة الخلفية. يدير سلاسل متعددة (m) بالتوازي ، لكل منها n تكرار وبتوزيعات ثابتة مختلفة π j (.) (.) >، j = 1، 2،…، م ، حيث الأول ، π 1 = π = pi > هي كثافة الهدف ، بينما π j >، j = 2، 3،…، m < displaystyle j = 2،3، ldots، m > تم اختيارها لتحسين الاختلاط. على سبيل المثال ، يمكن للمرء أن يختار التسخين التدريجي للنموذج:

في نهاية التشغيل ، يتم استخدام الإخراج من سلسلة التبريد فقط ، بينما يتم التخلص من تلك الموجودة في السلاسل الساخنة. من الناحية الاستكشافية ، ستزور السلاسل الساخنة القمم المحلية بسهولة إلى حد ما ، وستسمح حالات التبادل بين السلاسل لسلسلة التبريد في بعض الأحيان بالقفز إلى الوديان ، مما يؤدي إلى اختلاط أفضل. ومع ذلك ، إذا π i (θ) / π j (θ) ( ثيتا) / بي _( theta) > غير مستقر ، ونادرًا ما يتم قبول المقايضات المقترحة. هذا هو سبب استخدام العديد من السلاسل التي تختلف بشكل تدريجي فقط.

خوارزمية LOCAL من Larget و Simon Edit

تقدم الخوارزميات المحلية [13] ميزة حسابية على الطرق السابقة وتوضح أن نهج بايز قادر على تقييم عدم اليقين العملي حسابيًا في الأشجار الكبيرة. الخوارزمية المحلية هي تحسين لخوارزمية GLOBAL المقدمة في Mau و Newton و Larget (1999) [14] حيث يتم تغيير جميع أطوال الفروع في كل دورة. تعدل الخوارزميات المحلية الشجرة عن طريق تحديد فرع داخلي للشجرة بشكل عشوائي. العقد الموجودة في نهايات هذا الفرع متصلة بفرعين آخرين. يتم اختيار واحد من كل زوج عشوائيًا. تخيل أخذ هذه الحواف الثلاثة المحددة وتوتيرها مثل حبل الغسيل من اليسار إلى اليمين ، حيث يتم تحديد الاتجاه (يسار / يمين) أيضًا بشكل عشوائي. ستحتوي نقطتا النهاية للفرع الأول المحدد على شجرة فرعية معلقة مثل قطعة ملابس معلقة على الخط. تستمر الخوارزمية بضرب الفروع الثلاثة المختارة بمقدار عشوائي مشترك ، على غرار تمديد أو تقليص حبل الغسيل. أخيرًا ، يتم فصل أقصى اليسار من الشجرتين الفرعيتين المعلقتين وإعادة ربطهما بحبل الغسيل في موقع محدد بشكل عشوائي. ستكون هذه الشجرة المرشحة.

تقييم التقارب تحرير

وبالتالي فإن التوزيع اللاحق غير الطبيعي هو:

قم بتحديث طول الفرع عن طريق اختيار قيمة جديدة بشكل موحد عشوائيًا من نافذة نصف عرض w < displaystyle w > تتمحور حول القيمة الحالية:

هناك العديد من الأساليب لإعادة بناء أشجار النشوء والتطور ، ولكل منها مزايا وعيوب ، ولا توجد إجابة مباشرة على السؤال "ما هي أفضل طريقة؟". الحد الأقصى من البخل (MP) والاحتمالية القصوى (ML) هما طريقتان تقليديتان تستخدمان على نطاق واسع لتقدير السلالات ويستخدم كلاهما معلومات الشخصية بشكل مباشر ، كما تفعل طرق بايز.

يستعيد البخل الأقصى واحدًا أو أكثر من الأشجار المثلى بناءً على مصفوفة من الأحرف المنفصلة لمجموعة معينة من الأصناف ولا يتطلب نموذجًا للتغيير التطوري. يقدم MP أبسط تفسير لمجموعة معينة من البيانات ، حيث يعيد بناء شجرة النشوء والتطور التي تتضمن أقل عدد ممكن من التغييرات عبر التسلسلات ، وهذا هو الذي يعرض أصغر عدد من الخطوات التطورية لشرح العلاقة بين الأصناف. يتم تمثيل دعم فروع الشجرة بنسبة التمهيد. لنفس السبب الذي تم استخدامه على نطاق واسع ، وبساطته ، تلقى MP أيضًا انتقادات وتم دفعه إلى الخلفية من خلال أساليب ML و Bayesian. يقدم النائب العديد من المشاكل والقيود. كما هو موضح بواسطة Felsenstein (1978) ، قد يكون MP غير متسق إحصائيًا ، [15] مما يعني أنه مع تراكم المزيد والمزيد من البيانات (مثل طول التسلسل) ، يمكن أن تتقارب النتائج على شجرة غير صحيحة وتؤدي إلى جذب فرع طويل ، وهي ظاهرة نسالة حيث تميل الأصناف ذات الفروع الطويلة (العديد من التغييرات في حالة الأحرف) إلى الظهور بشكل وثيق الصلة في نسالة أكثر مما هي عليه بالفعل. بالنسبة للبيانات المورفولوجية ، تشير دراسات المحاكاة الحديثة إلى أن البخل قد يكون أقل دقة من الأشجار المبنية باستخدام نهج بايز ، [16] يحتمل أن يكون بسبب الدقة الزائدة ، [17] على الرغم من أن هذا موضع خلاف.[18] أظهرت الدراسات التي تستخدم طرق محاكاة جديدة أن الاختلافات بين طرق الاستدلال ناتجة عن استراتيجية البحث وطريقة الإجماع المستخدمة ، وليس التحسين المستخدم. [19]

كما هو الحال في الحد الأقصى من البخل ، فإن الاحتمالية القصوى ستقيم الأشجار البديلة. ومع ذلك فهو يأخذ في الاعتبار احتمال أن تشرح كل شجرة البيانات المعطاة بناءً على نموذج التطور. في هذه الحالة ، يتم اختيار الشجرة ذات الاحتمالية الأكبر لشرح البيانات على الشجرة الأخرى. [20] وبعبارة أخرى ، فإنه يقارن كيف تتنبأ الأشجار المختلفة بالبيانات المرصودة. يقدم إدخال نموذج التطور في تحليلات ML ميزة على MP حيث يتم أخذ احتمالية بدائل النوكليوتيدات ومعدلات هذه البدائل في الاعتبار ، مما يشرح العلاقات التطورية للأنواع بطريقة أكثر واقعية. من الاعتبارات المهمة لهذه الطريقة طول الفرع ، الذي يتجاهله البخل ، مع احتمال حدوث التغييرات على طول الفروع الطويلة أكثر من الفروع القصيرة. قد يقضي هذا النهج على جاذبية الفروع الطويلة ويشرح الاتساق الأكبر لـ ML على MP. على الرغم من أن الكثيرين يعتبرونه أفضل نهج لاستنتاج الأنساب من وجهة نظر نظرية ، إلا أن التعلم الآلي مكثف من الناحية الحسابية ويكاد يكون من المستحيل استكشاف جميع الأشجار حيث يوجد الكثير منها. يتضمن الاستدلال البايزي أيضًا نموذجًا للتطور والمزايا الرئيسية على MP و ML هي أنه أكثر كفاءة من الناحية الحسابية من الطرق التقليدية ، ويحدد ويعالج مصدر عدم اليقين وقادر على دمج نماذج معقدة للتطور.

  • قيم التمهيد مقابل الاحتمالات اللاحقة. لقد لوحظ أن قيم دعم التمهيد ، المحسوبة في ظل البخل أو الاحتمال الأقصى ، تميل إلى أن تكون أقل من الاحتمالات اللاحقة التي تم الحصول عليها من خلال الاستدلال البايزي. [21] [22] [23] [24] [25] يؤدي هذا إلى عدد من الأسئلة مثل: هل تؤدي الاحتمالات اللاحقة إلى الثقة المفرطة في النتائج؟ [26] هل قيم التمهيد أقوى من الاحتمالات اللاحقة؟
  • الجدل حول استخدام الاحتمالات السابقة. اعتبر الكثيرون استخدام الاحتمالات السابقة لتحليل بايز ميزة لأنه يوفر طريقة لدمج المعلومات من مصادر أخرى غير البيانات التي يتم تحليلها. ومع ذلك ، في حالة نقص هذه المعلومات الخارجية ، يضطر المرء إلى استخدام سابقة حتى لو كان من المستحيل استخدام التوزيع الإحصائي لتمثيل الجهل التام. ومن المثير للقلق أيضًا أن الاحتمالات الخلفية البايزية قد تعكس آراء ذاتية عندما يكون السابق تعسفيًا وذاتيًا.
  • اختيار النموذج. ترتبط نتائج التحليل البايزي للنمط النسبي ارتباطًا مباشرًا بنموذج التطور المختار ، لذا من المهم اختيار نموذج يناسب البيانات المرصودة ، وإلا فإن الاستنتاجات في علم التطور ستكون خاطئة. أثار العديد من العلماء أسئلة حول تفسير الاستدلال البايزي عندما يكون النموذج غير معروف أو غير صحيح. على سبيل المثال ، قد يعطي نموذج مفرط التبسيط احتمالات لاحقة أعلى. [21] [27]

MrBayes هي أداة برمجية مجانية تقوم بالاستدلال البايزي على نسالة. كتبه في الأصل جون بي هويلسنبيك وفريدريك رونكويست في عام 2001. [28] مع ازدياد شعبية طرق بايز ، أصبح MrBayes أحد البرامج المفضلة للعديد من علماء علم الوراثة الجزيئي. يتم تقديمه لأنظمة تشغيل Macintosh و Windows و UNIX ولديه واجهة سطر أوامر. يستخدم البرنامج خوارزمية MCMC القياسية بالإضافة إلى متغير MCMC المقترن من Metropolis. يقرأ MrBayes مصفوفات متجانسة من التسلسلات (DNA أو الأحماض الأمينية) بتنسيق NEXUS القياسي. [29]

يستخدم MrBayes MCMC لتقريب الاحتمالات اللاحقة للأشجار. [9] يمكن للمستخدم تغيير افتراضات نموذج الاستبدال والسوابق وتفاصيل تحليل MC³. كما يسمح للمستخدم بإزالة وإضافة الأصناف والأحرف إلى التحليل. يستخدم البرنامج النموذج القياسي الأكثر لاستبدال الحمض النووي ، وهو 4x4 ويسمى أيضًا JC69 ، والذي يفترض أن التغييرات عبر النيوكليوتيدات تحدث باحتمالية متساوية. [30] كما أنها تطبق عددًا من نماذج 20x20 لاستبدال الأحماض الأمينية ، ونماذج الكودون لاستبدال الحمض النووي. يقدم طرقًا مختلفة لتخفيف افتراض معدلات الاستبدال المتساوية عبر مواقع النيوكليوتيدات. [31] السيد بايز قادر أيضًا على استنتاج حالات الأجداد التي تتكيف مع عدم اليقين في شجرة النشوء والتطور ومعلمات النموذج.

كان MrBayes 3 [32] نسخة أعيد تنظيمها وهيكلة بالكامل من MrBayes الأصلي. كانت الحداثة الرئيسية هي قدرة البرنامج على استيعاب عدم تجانس مجموعات البيانات. يسمح إطار العمل الجديد هذا للمستخدم بمزج النماذج والاستفادة من كفاءة تحليل Bayesian MCMC عند التعامل مع أنواع مختلفة من البيانات (مثل البروتين والنيوكليوتيدات والصرفية). يستخدم Metropolis-Coupling MCMC افتراضيًا.

تم إصدار MrBayes 3.2 في عام 2012 [33] يسمح الإصدار الجديد للمستخدمين بتشغيل تحليلات متعددة في نفس الوقت. كما يوفر أيضًا حسابات احتمالية أسرع ويسمح بتفويض هذه الحسابات لوحدات معالجة الرسومات (وحدات معالجة الرسومات). يوفر الإصدار 3.2 خيارات مخرجات أوسع متوافقة مع FigTree وعارضات الشجرة الأخرى.

يتضمن هذا الجدول بعضًا من أكثر برامج النشوء والتطور شيوعًا المستخدمة لاستنتاج الأنساب ضمن إطار عمل بايز. البعض منهم لا يستخدم أساليب بايزي حصريًا.

تم استخدام الاستدلال البايزي على نطاق واسع من قبل علماء علم الوراثة الجزيئي لعدد كبير من التطبيقات. بعض هذه تشمل:


شاهد الفيديو: اسهل طريقة لغرس الزيتون من قلعة السراغنة الجمعية المغربية لمنتجي الزيتون والاقتصاد في الماء (أغسطس 2022).