معلومة

كيفية اختيار الجينات قبل نسبة log2 على مصفوفة التعبير الجيني RNASeq ، بناءً على متوسط ​​الإشارة

كيفية اختيار الجينات قبل نسبة log2 على مصفوفة التعبير الجيني RNASeq ، بناءً على متوسط ​​الإشارة


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أريد تحويل مصفوفة تعبير TCGA mRNA (بتنسيق بيانات خطي) إلى السجل2-ratios ثم قم بتشغيل اختيار الميزة (الجين) ، واختيار 1000 من أكثر الجينات تنوعًا (الجينات ذات الانحراف المعياري العالي عبر العينات). سير العمل هو كما يلي:

  1. حدد الجينات "جيدة" قبل تسجيل الدخول2 النسبة (الجينات لكل منها إشارة متوسطة على الأقل ر في ص٪ من العينات) ؛
  2. على الجينات المحددة ، قم بتشغيل السجل2 النسبة ، وتقسيم كل جين على إشارته المتوسطة ثم تسجيل الدخول2- تحويل مصفوفة النتائج ؛
  3. حدد أكثر 1000 جين تنوعًا في جميع العينات.

كيف أختار ر و ص?


لا توجد قاعدة للتثبيت ر و ص. يعتمد ذلك على مستوى التشدد الذي تتوقعه. قيمة ال ر يعتمد على ما يعتبر تركيزًا نشطًا ؛ هذا لا يجب أن يكون هو نفسه بالنسبة لجميع الجينات.

هذه بيانات RNAseq. لا أفهم ما هي الإشارة "المتوسطة" التي تتحدث عنها. لكل عينة ، سيكون للجين قيمة تعبير طبيعية تكون عادةً RPKM (يقرأ لكل كيلوباز لكل مليون قراءة مخططة). إذا كان لديك نسخ مكررة لكل عينة ، فخذ المتوسط ​​وليس الوسيط.

فيما يتعلق بحساب نسب اللوغاريتمات: كن حذرًا دائمًا مع هذا خاصة في حالة الأصفار. بدلاً من نسب السجل ، يمكنك استخدام نوع من مقياس الكسب:

إذا كانت النسبة = x / y ثم كسب = (x-y) / y

يمكنك أيضًا إجراء تحليل مكون رئيسي للبيانات وتحديد أولاًنالمكونات الرئيسية.


كيفية اختيار الجينات قبل نسبة log2 على مصفوفة التعبير الجيني RNASeq ، بناءً على وسيط الإشارة - علم الأحياء

لا يوجد حل عام لاختيار "t" و "p". مثل هذه الخيارات تعسفية إلى حد كبير. علاوة على ذلك ، بالنسبة لمنصة مصفوفة ، إذا افترض المرء أن "t" له علاقة بـ "معبر عنه" ، فإن قيمة "t" ستختلف لكل مسبار في المصفوفة.

نظرًا لأنك ستقوم في النهاية بالترشيح استنادًا إلى التباين ، أقترح البدء ببياناتك المحولة بالسجل والتي تركز على الوسيط واختر ببساطة أفضل 1000 جينة متغيرة.

البيانات التي يشير إليها OP هي RNAseq لذلك لا توجد تحقيقات. يمكن إجراء تصحيح التحيز التسلسلي بالنسبة لهم.

شكرا شون. فيما يتعلق باقتراحك الأخير ، اعتقدت أنه يمكن أن يسبب مشاكل ، لأن الجينات ذات الإشارة المتوسطة المنخفضة جدًا يمكن أن تظهر تباينًا كبيرًا عند تحويل السجل. ماذا تعتقد؟

حسنا تحويل سجل سوف يسقط التباين. تخيل 4 عينات [0.5 ، 2 ، 8 ، 32]. بدون تحويل السجل ، يكون التباين 213.5625 ولكن عندما تقوم بتحويل البيانات log2 ، فإن التباين ينخفض ​​إلى 6.67

في أي حال ، إذا كان التعبير منخفضًا باستمرار ، فسيكون التباين منخفضًا. يجب أن تكون حريصًا بشأن تحويلات السجل خاصة عند إجراء دراسات التعبير التفاضلي. أود أن أقترح أن تقوم بتحويل السجل بعد اختيار الوسيط والتباين.

لقد اتبعت نصيحتك الأولى باستخدام العتبات المخصصة.

على أمل أن يكون هذا مفيدًا ، يتوفر رمز خط الأنابيب على https://gist.github.com/fbrundu/adf45f7ce817572bba10

لقد قمت بتصفية الجينات التي كانت أقل من النسبة المئوية الخامسة في أكثر من 5٪ من العينات. أعتقد أنه يمكن أن يكون عتبة معقولة. في حالة قل لي.


ملفات بيانات GSEA

كيف أقوم بإنشاء ملف مجموعة بيانات تعبير؟ ما أنواع بيانات التعبير التي يمكنني تحليلها؟

تتطلب GSEA أن تكون بيانات التعبير في ملف RES أو GCT أو PCL أو TXT. جميع تنسيقات الملفات الأربعة عبارة عن ملفات نصية محددة بعلامات جدولة. للحصول على تفاصيل حول كل تنسيق ملف ، راجع تنسيقات البيانات.

يوفر GenePattern العديد من الوحدات النمطية لتحويل بيانات التعبير إلى ملفات gct و / أو res:

يحول ExpressionFileCreator بيانات التعبير الأولية من ملفات Affymetrix CEL.

ينشئ كل من GEOImporter و caArrayImportViewer ملف GCT استنادًا إلى بيانات التعبير المستخرجة من مستودع بيانات تعبيرات GEO أو caArray microarray ، على التوالي.

تقوم وحدة MAGEImportViewer بتحويل بيانات تنسيق MAGE-ML. MAGE-ML هو التنسيق القياسي لتخزين بيانات كل من Affymetrix و cDNA microarray في مستودع ArrayExpress.

لاستخدام بيانات التعبير المخزنة في أي تنسيق آخر (مثل بيانات ميكروأري cDNA) ، قم أولاً بتحويل البيانات إلى ملف نصي محدد بعلامات جدولة يحتوي على قياسات تعبير مع الجينات كصفوف وعينات كأعمدة ثم قم بتعديل هذا الملف النصي ليتوافق مع متطلبات تنسيق ملف gct كما هو موضح في Expression Datasets في ملف دليل مستخدم GSEA.

إذا كنت تستخدم بيانات نسبة ثنائية اللون ، فراجع أيضًا بيانات cDNA Microarray.

تحليل الأخطاء: إذا رأيت خطأ التحليل التالي عند تحميل ملف البيانات ، فتحقق من امتداد الملف:
كانت هناك أخطاء: الأخطاء رقم: 1 تحليل المشكلة ...

يحدد امتداد الملف الخاص بملف مجموعة بيانات التعبير تنسيق الملف. إذا كان ملف gct أو res أو pcl يحتوي على امتداد ملف .txt ، فسترى خطأ التحليل عند تحميل الملف إلى GSEA. تأكد من أن امتداد الملف يطابق تنسيق الملف. لاحظ أنه يمكن تكوين بعض أنظمة التشغيل (مثل Windows) لإخفاء امتدادات الملفات المعروفة. إذا تم تكوين نظام التشغيل الخاص بك لإخفاء الامتدادات المعروفة ، فسيتم تسمية ملف test.gct.txt سيتم سردها على أنها test.gct. انظر إلى نوع الملف للملف: يجب أن يكون GCT (أو RES أو PCL) ، وليس مستندًا نصيًا.

كيف أقوم بتصفية مجموعة البيانات الخاصة بي أو معالجتها مسبقًا لـ GSEA؟

تعتمد كيفية تصفية بياناتك أو معالجتها مسبقًا على دراستك. فيما يلي بعض الإرشادات التي يجب وضعها في الاعتبار:

  • معرفات المسبار مقابل معرفات الجينات. عادةً ما تحتوي مجموعة البيانات الخاصة بك على معرّفات المسبار الأصلية لشريحة DNA لمنصة microarray. يمكن لـ GSEA تحليل معرفات المسبار أو انهيار كل مسبار تم ضبطه على ناقل الجينات ، حيث يتم تحديد الجين بواسطة رمز الجين. يؤدي انهيار مجموعات المسبار إلى منع تحقيقات متعددة لكل جين من تضخيم درجات التخصيب ويسهل التفسير البيولوجي لنتائج التحليل.
  • عوامل تصفية مكالمات AP. يمكنك تشغيل GSEA على البيانات المصفاة أو غير المفلترة. عادةً ما يقوم فريق GSEA بإجراء التحليل على البيانات غير المفلترة. أحد الأساليب المقترحة هو تشغيل GSEA على البيانات غير المفلترة. إذا بدت النتائج أن مجموعات الجينات ستهيمن عليها الجينات المعبر عنها بشكل سيئ ، فقد تكتسب نظرة ثاقبة حول العتبات التي يجب استخدامها لفلاتر الاتصال.
  • قيم التعبير. تفحص خوارزمية GSEA الاختلافات في قيم التعبير بدلاً من القيم نفسها. على سبيل المثال ، قد يكون لديك بيانات مقياس طبيعية أو مستويات تعبير مسجل قد يكون لديك بيانات Affymetrix أو بيانات نسبة ثنائية اللون. & lta name = "_ Toc120959112" & gt & lt / a & gt كما هو الحال في معظم منهجيات تحليل البيانات ، قد تكون بيانات التعبير نفسها الممثلة في تنسيقات مختلفة توليد نتائج تحليل مختلفة. من المتوقع الاختلافات. لا تستطيع GSEA تحديد النتائج & quot صحيحة. & quot & lta name = "_ Toc120959112" & gt & lt / a & gt

لمزيد من المعلومات ، راجع تحضير ملفات البيانات بتنسيق دليل مستخدم GSEA.

هل يجب أن أستخدم بيانات المقياس الطبيعي أو اللوغاريتمي لـ GSEA؟

نوصي باستخدام بيانات المقياس الطبيعي. استخدمناها عندما قمنا بمعايرة طريقة GSEA ويبدو أنها تعمل بشكل جيد في الحالات العامة.

غالبًا ما تستفيد تقنيات النمذجة التقليدية ، مثل التجميع ، من المعالجة المسبقة للبيانات. على سبيل المثال ، قد يقوم المرء بتصفية بيانات التعبير لإزالة الجينات ذات التباين المنخفض عبر مجموعة البيانات و / أو تسجيل تحويل البيانات لجعل التوزيع أكثر تناسقًا. لا تستفيد خوارزمية GSEA من هذه المعالجة المسبقة للبيانات.

كم عدد العينات التي أحتاجها لـ GSEA؟

يعتمد هذا على مشكلتك وخصائص البيانات الخاصة بك ، ولكن كقاعدة عامة ، فأنت تريد عادةً تحليل عشر عينات على الأقل.

إذا كان لديك نسخ تقنية مكررة ، فأنت تريد عمومًا إزالتها عن طريق حساب المتوسط ​​أو بعض أساليب تقليل البيانات الأخرى. على سبيل المثال ، افترض أن لديك خمس عينات من الورم وخمس عينات تحكم تعمل كل منها ثلاث مرات (ثلاثة أعمدة مكررة) ليصبح المجموع 30 عمودًا للبيانات. يمكنك متوسط ​​الأعمدة الثلاثة المكررة لكل عينة وإنشاء مجموعة بيانات تحتوي على 10 أعمدة بيانات (خمسة ورم وخمسة عناصر تحكم).

كيف أقوم بإنشاء ملف تسمية النمط الظاهري؟ ما أنواع التجارب التي يمكنني تحليلها؟

يمكن استخدام GSEA لتحليل التجارب من أي نوع (بما في ذلك السلاسل الزمنية ، وثلاث فئات أو أكثر ، وما إلى ذلك). يحدد ملف تسميات النمط الظاهري (cls) ASCII الأنماط الظاهرية التجريبية ويربط كل عينة في مجموعة البيانات بأحد هذه الأنماط الظاهرية. ملف cls هو ملف محدد بعلامات جدولة ASCII ، والذي يمكنك إنشاؤه بسهولة باستخدام محرر نصوص. لمزيد من المعلومات ، راجع تحضير ملفات البيانات بتنسيق دليل مستخدم GSEA.

ما هي مجموعات الجينات المتوفرة؟ هل يمكنني إنشاء مجموعات الجينات الخاصة بي؟

يمكنك استخدام مجموعات الجينات في قاعدة بيانات التوقيع الجزيئي (MSigDB) أو إنشاء مجموعاتك الخاصة. لمزيد من المعلومات حول مجموعات الجينات MSigDB ، راجع صفحة MSigDB في موقع الويب هذا. لمزيد من المعلومات حول إنشاء مجموعات الجينات أو استخدام مجموعات الجينات مع GSEA ، راجع تحضير ملفات البيانات في دليل مستخدم GSEA.

كم عدد الجينات التي يجب أن توجد في مجموعة الجينات؟

تقوم GSEA تلقائيًا بضبط إحصاءات التخصيب لحساب أحجام مجموعة الجينات المختلفة ، كما هو موضح في معلومات إضافية لورق GSEA 2005 PNAS.

هل يمكن لـ GSEA تحليل مجموعة الجينات التي تحتوي على جينات مكررة؟ مجموعات الجينات المكررة؟

الجينات المكررة في مجموعة الجينات والجينات المكررة تحدد كلا من نتائج GSEA. تقوم GSEA تلقائيًا بإزالة الجينات المكررة من كل مجموعة جينات ، ولكنها لا تتحقق من مجموعات الجينات المكررة. لمزيد من المعلومات ، راجع مجموعات الجينات في ملف دليل مستخدم GSEA.

هل يمكن لـ GSEA تحليل مجموعة الجينات التي تحتوي على جينات غير موجودة في مجموعة بيانات التعبير الخاصة بي؟

يقوم تحليل إثراء مجموعة الجينات تلقائيًا بتقييد مجموعات الجينات على الجينات في مجموعة بيانات التعبير. يسرد تقرير التحليل مجموعات الجينات وعدد الجينات التي تم تضمينها واستبعادها من التحليل.

ما المنصات وأنواع الكائنات الحية التي تدعمها GSEA؟

تعمل GSEA على أي البيانات ، طالما أن معرفات الجينات في بيانات التعبير الخاصة بك تتطابق مع تلك الموجودة في ملف مجموعات الجينات.

عادةً ما تستخدم GSEA مجموعات الجينات من MSigDB. تتكون جميع مجموعات الجينات في MSigDB من رموز الجينات البشرية. GSEA لديها أدوات مدمجة للتحويل بين مجموعة متنوعة من معرفات الجينات الأخرى إلى رموز الجينات البشرية عن طريق ملفات CHIP المنسقة بشكل خاص. توفر ملفات CHIP التعيين بين معرفات الجينات في بيانات التعبير ومعرفات الجينات في مجموعات الجينات. على وجه التحديد ، توفر ملفات CHIP الخاصة بنا التعيينات من جميع أنواع الأنظمة الأساسية المختلفة (على سبيل المثال ، معرفات مجموعة مجسات Affymetrix الخاصة بالماوس ، ومعرفات مجموعة مسبار Affymetrix البشرية ، وما إلى ذلك) إلى رموز الجينات البشرية.

إذا تم إنشاء بياناتك من عينات غير بشرية ، فأنت بحاجة إلى تحديد ما إذا كان استخدام MSigDB يلبي احتياجاتك. الخيارات هي:

  1. تعمل الأنواع غير البشرية كنموذج لدراسة الظروف ذات الصلة ببيولوجيا الإنسان. في هذه الحالة ، تريد مجموعات الجينات المحفوظة بين البشر وكائن نموذجك. عندئذ يكون MSigDB هو الاختيار الصحيح وستحتاج فقط إلى تقديم ملف CHIP المناسب للتحليل.
  2. الأنواع غير البشرية هي موضوع بحثك ، وليس لديك خطط لمقارنتها بمجموعات الجينات البشرية. في هذه الحالة ، لا يزال بإمكانك استخدام MSigDB ، فالكائن الحي هو من بين مصادر بعض مجموعات جينات MSigDB (على سبيل المثال ، الماوس أو الجرذ) وستحتاج فقط إلى تقديم ملف CHIP المناسب للتحليل.
  3. الأنواع غير البشرية هي موضوع بحثك ولا تريد استخدام مجموعات جينات MSigDB لأسباب أخرى. في هذه الحالة ، يجب عليك تقديم قاعدة البيانات الخاصة بك لمجموعات الجينات كملف GMT أو GMX. يتم وصف تنسيقات الملفات هنا. بالطبع ، لا يزال عليك التأكد من أن معرفات الجينات في بياناتك تتطابق مع تلك الموجودة في قاعدة بيانات مجموعات الجينات. إذا لم تتطابق المعرفات مع بعضها البعض ، فيجب عليك أيضًا توفير ملف CHIP بالتعيينات المناسبة. يتم وصف تنسيق ملف CHIP هنا.

لمعرفة ملفات CHIP المتوفرة في توزيعنا (ملاحظة: توفر ملفات CHIP تعيينات لرموز الجينات البشرية فقط): ابدأ تطبيق GSEA لسطح المكتب وانقر [. ] في "منصة (منصات) Chip" في صفحة "Run GSEA".

إذا لم يكن النظام الأساسي الخاص بك مدرجًا في هذه القائمة ، فلديك الخيارات التالية:

  1. قم بإنشاء ملف CHIP الخاص بك لتعيين معرفات الجينات الخاصة بالمنصة الخاصة بك إلى رموز الجينات البشرية ثم استخدم ملف CHIP لطي مجموعة البيانات في GSEA. يتم وصف تنسيق ملف CHIP هنا.
  2. قم بتحويل معرّفات النظام الأساسي إلى رموز الجينات البشرية خارج GSEA ، ثم قم بتشغيل GSEA باستخدام "Collapse dataset" = FALSE.

تأكد من ظهور رموز الجينات في مجموعة البيانات المنهارة مرة واحدة فقط. لا يكفي عادةً استبدال المعرفات برموز الجينات البشرية لأن بعض المعرفات يمكن أن تتوافق مع نفس رموز الجينات البشرية ، مما ينتج عنه صفوف مكررة بقيم تعبير مختلفة. في هذه الحالة ، ستختار GSEA بشكل تعسفي أحد الصفوف التي لها نفس رموز الجينات للتحليل ، وهو ما لا نوصي به.

هل يمكن لـ GSEA تحليل بيانات تعبير ميرنا؟

الطريقة الوحيدة لـ GSEA لتحليل بيانات التعبير باستخدام معرفات miRNA هي توفير مجموعات جينات مصنوعة من مطابقة معرفات miRNA. هذا غير ممكن مع مجموعات جينات MSigDB ، والتي تتكون في الغالب من جينات ترميز البروتين في شكل رموز جينية بشرية.


كشف تحليل RNA-Seq لأنماط التعبير الجيني الزماني المكاني أثناء نمو الفاكهة عن جينات مرجعية لتطبيع النسخ في البرقوق

إن التحليل النسخي الذي يكشف عن شبكات تنظيم الجينات المرتبطة بنضج الثمار مهم بشكل متزايد لزيادة الجودة وتقليل خسائر الفاكهة المهمة اقتصاديًا مثل البرقوق. يعد تسلسل الحمض النووي الريبي (RNA-Seq) والنسخ العكسي الكمي في الوقت الحقيقي لتفاعل البوليميراز المتسلسل (qRT-PCR) أدوات مهمة لأداء نسخ عالية الإنتاجية. يعتمد نجاح علم النسخ على النصوص عالية الجودة من ثمار البرقوق الغنية بالبوليفينوليك وعديد السكاريد ، بينما تعتمد موثوقية بيانات القياس الكمي على التطبيع الدقيق باستخدام الجينات المرجعية المناسبة. قمنا بتحسين إجراء لعزل الحمض النووي الريبي عالي الجودة من الأنسجة الخضرية والتناسلية من أصناف البرقوق التي لا تتعدى ذروتها وأجرينا نسخًا عالية الإنتاجية. حددنا 20 جينًا مرجعيًا مرشحًا من النصوص المعبر عنها بشكل غير تفاضلي لبيانات RNA-Seq وتحققنا من ثبات التعبير باستخدام qRT-PCR على ما مجموعه 141 عينة من البرقوق والتي تضمنت أنسجة اللحم والقشر والأوراق من عدة أصناف تم جمعها من ثلاثة مواقع. على مدى 3 سنوات. تحليلات الاستقرار لدورة العتبة (ج تي) القيم باستخدام BestKeeper، delta (Δ) Cتيتم الكشف عن برامج NormFinder و geNorm و RefFinder س والبروتين المتعلق بالاتجار بالبروتين (MON), عامل الاستطالة 1 ألفا (EF1α)، و عامل البدء 5 أ (IF5A) كأفضل جينات مرجعية لتطبيع النسخ بدقة عبر عينات الأنسجة المختلفة. راقبنا أنماط التعبير الزماني المكاني للنصوص المعبر عنها تفاضليًا أثناء عملية التطوير بعد التطبيع الدقيق لبيانات qRT-PCR باستخدام مزيج من اثنين من أفضل الجينات المرجعية. تقدم هذه الدراسة أيضًا إرشادات لاختيار أفضل الجينات المرجعية لدراسات التعبير الجيني المستقبلية في أصناف البرقوق الأخرى.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


يجب إزالة الجينات ذات التعداد المنخفض جدًا في جميع المكتبات قبل التحليل النهائي. هذا مبرر على أسس بيولوجية وإحصائية. من وجهة النظر البيولوجية ، يجب التعبير عن الجين عند مستوى أدنى ما قبل أن يُرجح ترجمته إلى بروتين أو اعتباره مهمًا من الناحية البيولوجية. من وجهة نظر إحصائية ، من غير المرجح أن يتم تقييم الجينات ذات التعداد المنخفض باستمرار على أنها DE بشكل كبير لأن الأعداد المنخفضة لا توفر أدلة إحصائية كافية لإصدار حكم موثوق. وبالتالي يمكن إزالة هذه الجينات من التحليل دون أي فقدان للمعلومات.

كقاعدة عامة ، نطلب أن يكون للجين عدد لا يقل عن 10-15 في بعض المكتبات على الأقل قبل أن يتم التعبير عنه في الدراسة. يمكننا أن نختار صراحةً للجينات التي تحتوي على عدد قليل من التهم على الأقل من 10 أو أكثر ، ولكن من الأفضل قليلاً أن نبني التصفية على قيم العد لكل مليون (CPM) لتجنب تفضيل الجينات التي يتم التعبير عنها في مكتبات أكبر على تلك المعبر عنها في مكتبات أصغر. بالنسبة للتحليل الحالي ، نحتفظ بالجينات التي تحتوي على قيم CPM أعلى من 0.5 في مكتبتين على الأقل:

هنا تم اختيار الحد الأقصى 0.5 للكلفة بالألف ظهور (CPM) لأنه يساوي تقريبًا (10 ​​/ L ) حيث (L ) هو الحد الأدنى لحجم المكتبة بالملايين. أحجام المكتبة هنا 20-25 مليون. استخدمنا قيمة دائرية 0.5 فقط من أجل البساطة ، القيمة الدقيقة ليست مهمة لأن تحليل التعبير التفاضلي في اتجاه مجرى النهر ليس حساسًا للتغييرات الصغيرة في هذه المعلمة. إن متطلبات مكتبات ( ge 2 ) هي أن كل مجموعة تحتوي على نسختين مكررتين. هذا يضمن أن الجين سيتم الاحتفاظ به إذا تم التعبير عنه في كل من المكتبات التي تنتمي إلى أي من المجموعات الست.

تحاول قاعدة التصفية المذكورة أعلاه الاحتفاظ بأقصى عدد من الجينات المثيرة للاهتمام في التحليل ، ولكن من الممكن أيضًا وجود معايير تصفية معقولة أخرى. على سبيل المثال ، يعد الاحتفاظ بمجموع & lt- rowSums (y $ counts) & gt 50 معيارًا بسيطًا للغاية من شأنه أن يحافظ على الجينات التي يبلغ إجمالي عدد قراءتها أكثر من 50. وهذا من شأنه أن يعطي نتائج مماثلة لمجموعة البيانات هذه للترشيح المستخدم بالفعل. مهما كانت قاعدة التصفية ، يجب أن تكون مستقلة عن المعلومات الموجودة في ملف الأهداف. لا ينبغي أن يشير إلى أي من مكتبات RNA تنتمي إلى أي مجموعة ، لأن القيام بذلك من شأنه أن يؤدي إلى تحيز تحليل التعبير التفاضلي اللاحق.

يتم تقسيم كائن DGEList للاحتفاظ بالجينات غير المصفاة فقط:

الخيار keep.lib.sizes = يؤدي FALSE إلى إعادة حساب أحجام المكتبة بعد التصفية. يوصى بهذا بشكل عام ، على الرغم من أن التأثير على التحليل النهائي يكون عادةً صغيرًا.


الاستنتاجات

في دراسات المحاكاة والبيانات الحقيقية ، limma مع ل, L2، و r2 أداء التحولات أفضل من limma مع فوم التحويل للبيانات ذات الحجم الصغير (الحالات = عدد الضوابط = 3) أو حجم العينة الكبير (الحالات = عدد الضوابط = 100). بالنسبة لحجم العينة المعتدل (nCases = nControls = 30 أو 50) ، يجب استخدام limma مع rv و rv2 أداء التحويل أفضل من limma مع فوم تحويل. نأمل أن توفر هذه التحولات الجديدة للبيانات للمحققين تحليلًا أكثر قوة للتعبير التفاضلي باستخدام بيانات RNA-seq.


فحص نتائج الخرائط

يحتوي ملف BAM على معلومات حول مكان تعيين القراءات على الجينوم المرجعي. ولكن نظرًا لأنه ملف ثنائي يحتوي على معلومات للعديد من القراءات (عدة ملايين لهذه العينات) ، فمن الصعب فحص الملف واستكشافه.

أداة قوية لتصور محتوى ملفات BAM هي عارض الجينوم التكاملي (IGV).

Hands_on التدريب العملي: فحص نتائج الخرائط

  1. تثبيت IGV (إذا لم يكن مثبتًا بالفعل)
  2. ابدأ IGV محليًا
  3. قم بتوسيع ملف param-file mapped.bam (إخراج بتنسيق نجم RNA أداة) لـ GSM461177
  4. انقر فوق المحلي المعروض مع IGV المحلي D. melanogaster (dm6) لتحميل القراءات في متصفح IGV

تعليق تعليقات

لكي تعمل هذه الخطوة ، ستحتاج إلى تثبيت IGV أو Java web على جهازك. ومع ذلك ، يمكن أيضًا الإجابة على الأسئلة الواردة في هذا القسم من خلال فحص لقطات شاشة IGV أدناه.

تحقق من وثائق IGV لمزيد من المعلومات.

IGV الأداة: تكبير إلى chr4: 540.000-560.000 (كروموسوم 4 بين 540 كيلو بايت إلى 560 كيلو بايت)

سؤال سؤال

  1. ما المعلومات التي تظهر في الجزء العلوي على شكل قمم رمادية؟
  2. ما الذي تشير إليه الخطوط المتصلة بين بعض القراءات المحاذية؟

الحل الحل

  1. حبكة التغطية: مجموع القراءات المعينة في كل موضع
  2. تشير إلى أحداث الوصلات (أو مواقع لصق) ، بمعنى آخر. يقرأ التي تم تعيينها عبر intron

IGV الأداة: افحص وصلات لصق باستخدام ملف مؤامرة الساشيمي

تعليق إنشاء مؤامرة الساشيمي

سؤال سؤال

  1. ماذا يمثل الرسم البياني العمودي الشريط الأحمر؟ وماذا عن الأقواس بالأرقام؟
  2. ماذا تعني الأرقام الموجودة على الأقواس؟
  3. لماذا نلاحظ مجموعات مكدسة مختلفة من الصناديق المرتبطة الزرقاء في الأسفل؟

الحل الحل

  1. يتم رسم تغطية كل مسار محاذاة كرسم بياني شريطي أحمر. تمثل الأقواس تقاطعات لصق ملحوظة ، بمعنى آخر.، يقرأ الممتد الإنترونات
  2. تشير الأرقام إلى عدد قراءات الوصلات الملحوظة.
  3. تمثل المجموعات المختلفة من المربعات المرتبطة في الجزء السفلي النصوص المختلفة من الجينات الموجودة في هذا الموقع ، الموجودة في ملف GTF.

تعليق تعليق

بعد التعيين ، لدينا معلومات حول مكان وجود القراءات في الجينوم المرجعي. نحن نعلم أيضًا مدى جودة خرائطهم. الخطوة التالية في تحليل بيانات RNA -Seq هي تحديد عدد القراءات المعينة للسمات الجينية (الجينات ، النصوص ، exons ، ...).

تعليق تعليق

يعتمد التقدير الكمي على كل من الجينوم المرجعي (ملف FASTA) والتعليقات التوضيحية المرتبطة به (ملف GTF). من المهم للغاية استخدام ملف التعليقات التوضيحية الذي يتوافق مع نفس الإصدار من الجينوم المرجعي الذي استخدمته لرسم الخرائط (على سبيل المثال dm6 هنا) ، حيث تختلف إحداثيات الكروموسومات للجينات عادةً بين إصدارات الجينوم المرجعي المختلفة.

من أجل تحديد exons التي ينظمها باسيلا الجين ، نحتاج إلى تحديد الجينات والإكسونات التي يتم التعبير عنها تفاضليًا بين العينات ذات استنفاد جين PS (المعالجة) وعينات التحكم (غير المعالجة). سنقوم بعد ذلك بتحليل التعبير الجيني التفاضلي وكذلك استخدام exon التفاضلي.


علم الجينوم الحاسوبي مع R.

مع ظهور تقنيات التسلسل من الجيل الثاني (المعروف أيضًا باسم الجيل التالي أو عالي الإنتاجية) ، زاد عدد الجينات التي يمكن تصنيفها لمستويات التعبير بتجربة واحدة إلى عشرات الآلاف من الجينات. لذلك ، أصبح عنق الزجاجة في هذه العملية هو تحليل البيانات وليس توليد البيانات. هناك حاجة إلى العديد من الأساليب الإحصائية والأدوات الحسابية للحصول على نتائج ذات مغزى من البيانات ، والتي تأتي مع الكثير من المعلومات القيمة إلى جانب الكثير من مصادر الضوضاء. لحسن الحظ ، أصبحت معظم خطوات تحليل RNA-seq ناضجة تمامًا على مر السنين. سنصف أدناه أولاً كيفية الوصول إلى جدول عدد القراءة من قراءات fastq الأولية التي تم الحصول عليها من تشغيل تسلسل Illumina. سنشرح بعد ذلك في R كيفية معالجة جدول العد ، وإجراء تحليل للتعبير التفاضلي للتحكم في الحالة ، وإجراء بعض تحليل الإثراء الوظيفي النهائي.

8.3.1 معالجة البيانات الأولية

8.3.1.1 فحص الجودة ومعالجة القراءة

يجب أن تكون الخطوة الأولى في أي تجربة تتضمن تسلسل قراءة قصير عالي الإنتاجية هي التحقق من جودة تسلسل القراءات قبل البدء في إجراء أي تحليل متتالي. إن جودة تسلسل المدخلات لها أهمية أساسية في الثقة في الاستنتاجات البيولوجية المستمدة من التجربة. لقد أدخلنا فحص الجودة والمعالجة في الفصل 7 ، وتنطبق هذه الأدوات وسير العمل أيضًا في تحليل RNA-seq.

8.3.1.2 تحسين الجودة

تتمثل الخطوة الثانية في سير عمل تحليل RNA-seq في تحسين جودة قراءات الإدخال. يمكن اعتبار هذه الخطوة خطوة اختيارية عندما تكون جودة التسلسل جيدة جدًا. ومع ذلك ، حتى مع مجموعات بيانات التسلسل عالية الجودة ، قد تستمر هذه الخطوة في تحسين جودة تسلسل الإدخال. أكثر الأدوات الفنية شيوعًا التي يمكن تصفيتها هي تسلسلات المحول التي تلوث القراءات المتسلسلة ، والقواعد منخفضة الجودة التي توجد عادةً في نهايات التسلسلات. الأدوات المستخدمة بشكل شائع في هذا المجال (Trmomatic (Bolger ، Lohse ، Usadel 2014) ، trimGalore (Andrews 2010)) غير مكتوبة مرة أخرى في R ، ولكن هناك مكتبات R بديلة لتنفيذ نفس الوظيفة ، على سبيل المثال ، QuasR (Gaidatzis ، Lerch، Hahne، et al. 2015) (انظر وظيفة QuasR :: preprocessReads) و ShortRead (Morgan، Anders، Lawrence، et al. 2009) (انظر وظيفة ShortRead :: filterFastq). يتم تقديم بعض هذه الأساليب في الفصل 7.

يمكن زيارة مراقبة جودة التسلسل وقراءة خطوات المعالجة المسبقة عدة مرات حتى تحقيق مستوى مرضٍ من الجودة في بيانات التسلسل قبل الانتقال إلى خطوات التحليل النهائية.

8.3.2 المحاذاة

بمجرد الوصول إلى مستوى لائق من الجودة في التسلسلات ، يمكن تحديد مستوى التعبير عن الجينات عن طريق تعيين التسلسلات أولاً إلى الجينوم المرجعي ، وثانيًا مطابقة القراءات المتوافقة مع التعليقات التوضيحية للجينات ، من أجل حساب عدد القراءات رسم الخرائط لكل جين. إذا كانت الأنواع قيد الدراسة تحتوي على نسخة مشروحة جيدًا ، فيمكن محاذاة القراءات مع تسلسل النسخ بدلاً من الجينوم المرجعي. في الحالات التي لا يوجد فيها جينوم أو نسخة مرجعية ذات جودة جيدة ، فمن الممكن أن يقوم de novo بتجميع النسخ من التسلسلات ثم تحديد مستويات التعبير عن الجينات / النصوص.

بالنسبة لمحاذاة RNA-seq ، بصرف النظر عن توافر الجينومات المرجعية والشروح ، ربما يكون العامل الأكثر أهمية الذي يجب مراعاته عند اختيار أداة المحاذاة هو ما إذا كانت طريقة المحاذاة تراعي عدم وجود مناطق intronic في القراءات المتسلسلة ، في حين أن الجينوم المستهدف قد تحتوي على إنترونات. لذلك ، من المهم اختيار أدوات المحاذاة التي تأخذ في الاعتبار الربط البديل. في الإعداد الأساسي حيث يجب تقسيم القراءة ، التي تنشأ من تسلسل cDNA المقابل لتقاطع exon-exon ، إلى جزأين عند محاذاة الجينوم. هناك العديد من الأدوات التي تأخذ هذا العامل بعين الاعتبار مثل STAR (Dobin، Davis، Schlesinger، et al. 2013)، Tophat2 (Kim، Pertea، Trapnell، et al. 2013)، Hisat2 (Kim، Langmead، and Salzberg 2015)، and GSNAP (وو ، ريدر ، لورانس ، وآخرون 2016). تتم كتابة معظم أدوات المحاذاة بلغات C / C ++ بسبب مخاوف تتعلق بالأداء. توجد أيضًا مكتبات R يمكنها إجراء محاذاة قراءة قصيرة تمت مناقشتها في الفصل 7.

8.3.3 القياس الكمي

بعد محاذاة القراءات مع الهدف ، يجب الحصول على ملف SAM / BAM تم فرزه حسب الإحداثيات. يحتوي ملف BAM على جميع المعلومات المتعلقة بالمحاذاة لجميع القراءات التي تمت محاولة محاذاتها للتسلسل الهدف. تتكون هذه المعلومات - بشكل أساسي - من الإحداثيات الجينومية (كروموسوم ، بداية ، نهاية ، حبلا) للمكان الذي تمت فيه مطابقة التسلسل (إن وجد) في الهدف ، وإدخال / حذف / عدم تطابق محدد يصف الاختلافات بين المدخلات والهدف التسلسلات. تُستخدم هذه الأجزاء من المعلومات جنبًا إلى جنب مع الإحداثيات الجينية لتعليقات الجينوم مثل نماذج الجينات / النسخ من أجل حساب عدد القراءات التي تم تسلسلها من الجين / النص. بقدر ما قد يبدو الأمر بسيطًا ، فإنه ليس من المهم تعيين قراءات لجين / نسخة فقط من خلال مقارنة الإحداثيات الجينية للتعليقات التوضيحية والتسلسلات ، نظرًا لعوامل مربكة مثل تداخل التعليقات الجينية ، وتداخل تعليقات exon التوضيحية من نص مختلف الأشكال الإسوية للجين ، والشروح المتداخلة من خيوط الحمض النووي المعاكسة في حالة عدم وجود بروتوكول تسلسل خاص بالخيط. لذلك ، من أجل حساب القراءة ، من المهم مراعاة:

  1. خصوصية الشريط لبروتوكول التسلسل: هل من المتوقع أن تنشأ القراءات من الخيط الأمامي أو الخيط العكسي أو غير محدد؟
  2. وضع العد: - عند العد على مستوى الجينات: عند وجود تعليقات توضيحية متداخلة ، ما الميزات التي يجب تعيين القراءة لها؟ تحتوي الأدوات عادةً على معلمة تتيح للمستخدم تحديد وضع العد. - عند العد على مستوى النسخ: عندما يكون هناك العديد من الأشكال الإسوية للجين ، ما هو الشكل الإسوي الذي يجب تخصيص القراءة له؟ عادة ما يكون هذا الاعتبار أحد الاعتبارات الخوارزمية التي لا يمكن تعديلها من قبل المستخدم النهائي.

يمكن لبعض الأدوات أن تقرن المحاذاة مع القياس الكمي (مثل STAR) ، بينما يفترض البعض أن المحاذاة قد تم حسابها بالفعل وتتطلب ملفات BAM كمدخلات. من ناحية أخرى ، في ظل وجود تعليقات توضيحية جيدة للنسخة ، طرق خالية من المحاذاة (Salmon (Patro، Duggal، Love، et al. 2017)، Kallisto (Bray، Pimentel، Melsted، et al. 2016)، Sailfish (Patro، يمكن أيضًا استخدام Mount و Kingsford 2014)) لتقدير مستويات التعبير عن النصوص / الجينات. هناك أيضًا طرق تقدير كمي خالية من المراجع يمكنها أولاً تجميع النسخة النصية وتقدير مستويات التعبير بناءً على هذا التجميع. يمكن أن تكون هذه الاستراتيجية مفيدة في اكتشاف النصوص الجديدة أو قد تكون مطلوبة في الحالات التي لا يوجد فيها مرجع جيد. في حالة وجود نسخة مرجعية ولكن بجودة منخفضة ، يمكن استخدام مجمع النسخ المستند إلى المرجع مثل أزرار الأكمام (Trapnell ، Williams ، Pertea ، وآخرون 2010) لتحسين النسخة. في حالة عدم توفر شرح توضيحي للنسخة ، يمكن استخدام مُجمّع de novo مثل Trinity (Haas ، Papanicolaou ، Yassour ، وآخرون. 2013) أو Trans-ABySS (Robertson ، Schein ، Chiu ، وآخرون. 2010) لتجميع نسخة من الصفر.

داخل R ، يمكن إجراء القياس الكمي باستخدام: - Rsubread :: featureCounts - QuasR :: qCount - GenomicAlignments :: SummarizeOverlaps

8.3.4 ضمن نموذج تسوية عدد القراءة

التطبيق الأكثر شيوعًا بعد تحديد تعبير الجين كميًا (مثل عدد القراءات المتوافقة مع الجين) ، هو مقارنة تعبير الجين في ظروف مختلفة ، على سبيل المثال ، في إعدادات التحكم في الحالة (مثل المرض مقابل الطبيعي) أو في السلاسل الزمنية (على سبيل المثال على طول مراحل النمو المختلفة). يساعد إجراء مثل هذه المقارنات في تحديد الجينات التي قد تكون مسؤولة عن مرض أو مسار نمو ضعيف. ومع ذلك ، هناك العديد من المحاذير التي يجب معالجتها قبل إجراء مقارنة بين قراءة قراءة الجين في ظروف مختلفة (Maza ، Frasse ، Senin ، وآخرون ، 2013).

  • يختلف حجم المكتبة (أي عمق التسلسل) بين العينات القادمة من ممرات مختلفة لخلية التدفق لآلة التسلسل.
  • سيكون للجينات الأطول عددًا أكبر من القراءات.
  • يمكن أن يختلف تكوين المكتبة (أي الحجم النسبي للنسخة المدروسة) في حالتين بيولوجيتين مختلفتين.
  • قد تؤدي تحيزات محتوى GC عبر عينات مختلفة إلى أخذ عينات متحيزة من الجينات (Risso ، Schwartz ، Sherlock ، وآخرون 2011).
  • قراءة تغطية النص يمكن أن تكون متحيزة وغير موحدة على طول النص (مرتضوي ، ويليامز ، ماكوي ، وآخرون 2008).

لذلك يجب أخذ هذه العوامل في الاعتبار قبل إجراء المقارنات.

تتعامل طرق التطبيع الأساسية مع تحيز عمق التسلسل. تعمل مثل هذه الإجراءات على تطبيع عدد القراءة لكل جين عن طريق قسمة عدد قراءة كل جين على قيمة معينة وضربها في 10 ^ 6. عادةً ما يُشار إلى هذه القيم المعيارية باسم CPM (العدد لكل مليون قراءة):

  • تطبيع الأعداد الإجمالية (قسمة الأعداد على مجموع من كل التهم)
  • تسوية الربع الأعلى (قسمة التهم على الربع العلوي قيمة التهم)
  • متوسط ​​التسوية (قسمة الأعداد على الوسيط من كل التهم)

المقاييس الشائعة التي تعمل على تحسين التكلفة لكل ألف ظهور هي RPKM / FPKM (قراءة / أجزاء لكل كيلو قاعدة من مليون قراءة) و TPM (نصوص لكل مليون). يتم الحصول على RPKM بقسمة قيمة CPM على عامل آخر ، وهو طول الجين لكل كيلو قاعدة. FPKM هو نفسه RPKM ، ولكنه يُستخدم للقراءات ذات النهاية المزدوجة. وبالتالي ، فإن طرق RPKM / FPKM تمثل ، أولاً ، حجم المكتبة، وثانياً ، أطوال الجينات.

TPM also controls for both the library size and the gene lengths, however, with the TPM method, the read counts are first normalized by the gene length (per kilobase), and then gene-length normalized values are divided by the sum of the gene-length normalized values and multiplied by 10^6. Thus, the sum of normalized values for TPM will always be equal to 10^6 for each library, while the sum of RPKM/FPKM values do not sum to 10^6. Therefore, it is easier to interpret TPM values than RPKM/FPKM values.

8.3.5 Computing different normalization schemes in R

Here we will assume that there is an RNA-seq count table comprising raw counts, meaning the number of reads counted for each gene has not been exposed to any kind of normalization and consists of integers. The rows of the count table correspond to the genes and the columns represent different samples. Here we will use a subset of the RNA-seq count table from a colorectal cancer study. We have filtered the original count table for only protein-coding genes (to improve the speed of calculation) and also selected only five metastasized colorectal cancer samples along with five normal colon samples. There is an additional column width that contains the length of the corresponding gene in the unit of base pairs. The length of the genes are important to compute RPKM and TPM values. The original count tables can be found from the recount2 database (https://jhubiostatistics.shinyapps.io/recount/) using the SRA project code SRP029880, and the experimental setup along with other accessory information can be found from the NCBI Trace archive using the SRA project code SRP029880`.

8.3.5.1 Computing CPM

Let’s do a summary of the counts table. Due to space limitations, the summary for only the first three columns is displayed.

To compute the CPM values for each sample (excluding the width column):

Check that the sum of each column after normalization equals to 10^6 (except the width column).


خلفية

The remarkable diversity of flower colors, especially in wild plants has fascinated botanists, ecologists, and horticulturists for centuries [1,2,3]. The coloring of floral organs, a remarkable character of flowering plants, is a striking feature of the angiosperm radiation [4, 5]. Flower color diversity is recognized to be one of key adaptive traits correlated predominantly with pollinators (e.g. insects, birds) and animals for seed dispersal [6, 7]. Moreover, the flower color phenotype is an important feature for plants used for their classification by taxonomists. However, flower color appears evolutionarily to be one of the most labile traits, down to populations in the same species [7, 8].

The cellular compounds of flowers that contribute to the color profile and visually perceived by humans are generally referred to as “pigments”. A group of secondary metabolites belonging to flavonoids are the main determinants of pigments for coloration in plants, where anthocyanins are responsible for red orange to red, purple to violet pigments found in flowers, leaves, fruits, seeds and other tissues [9, 10]. Anthocyanins are the predominant compounds of floral coloration, existing in over 90% of angiosperms [11]. The flavonoid biosynthetic pathway leading to accumulation of anthocyanins is highly conserved and well characterized, and has been extensively studied in many species, most of which are in model plants or agriculturally and horticulturally important plants [12,13,14,15]. Few studies have examined the molecular basis underlying the formation and accumulation of anthocyanin in wild species [16, 17]. Based on these studies, three major associated factors have been proposed to be involved in anthocyanin accumulation, including transcription regulatory genes (MYB-bHLH-WD40 complex) that occur in the nucleus, structural genes (CHS, FLS, DFR, ANS) acting in the biosynthetic pathway, and transporter genes (GST) transferring anthocyanin from the cytosol into the vacuole [10, 18, 19]. The expression of these genes could also be affected by natural variation in sequences and رابطة الدول المستقلة-regulatory elements as well as epigenetic modifications (such as DNA methylation) in the promoter regions [18, 20]. Moreover, the color of flowers can be stabilized and enhanced by co-pigmentation of anthocyanins by flavonols, where it is observed as hyperchromic effect, in which the intensity of an anthocyanin content is fortified [21]. For instance, the DFR gene along with the FLS gene can compete for a substrate leading to the production of different anthocyanins and flavanols through two primary branches [22, 23], thus resulting in co-pigmentation. In contrast to the biosynthesis pathways, knowledge of anthocyanin catabolism in plants is limited. Some catabolic genes like BGLU و PER have been shown to be responsible for anthocyanin degradation [24, 25]. Nevertheless, the molecular mechanism regulating anthocyanin synthesis has been shown to vary among plant species resulting in structural diversity of anthocyanins, because the biosynthesis pathway is regulated by multiple factors through regulatory networks [26].

Color is a form of electromagnetic radiation in the range of the visible spectrum. The wavelengths reflected by pigments determine the color of a flower [27]. Color can be defined and classified in terms of Brightness (the intensity of a signal, B), Saturation (the purity of a color, S) and Hue (the spectral descriptor of color, H), and those features are commonly used to distinguish colors [27, 28]. Brightness refers to the color intensity that is determined by the amount of anthocyanin [29, 30], and different color component combinations such as B/H, S/H were found to be significantly correlated with anthocyanin content as well [31]. Liu et al. [32] proposed that the color brightness decreased as the total anthocyanin content increased. It was also demonstrated that a correlation exists between the saturation/hue ratio (S/H) and anthocyanin content [31]. With these parameters, the anthocyanin content can be rapidly and non-destructively determined.

In evergreen azaleas (Rhododendron), anthocyanins and flavanols are the main flower pigments, and especially the composition of anthocyanin constituents (i.e. cyanidin, delphinidin, malvidin, pelargonidin, peonidin, and petunidin), and their quantities determine their flower color that ranges from light pink to violet [11, 33]. Some studies have reported that R. kiusianum with purple-colored flowers contain derivatives of both anthocyanidins cyanidin and delphinidin, whereas the red-colored flowers of R. kaempferi contain only cyanidin derivatives [34]. Le Maitre et al. [35, 36] studying Erica species, belonging to the same family Ericaceae as Rhododendron, used qRT-PCR and UPLC-MS, unraveled the anthocyanin genetic network of floral color shifts between red or pink and white or yellow flowered species and found losses of single pathway gene expression, abrogation of the entire pathway due to loss of the expression of a transcription factor or loss of function mutations in pathway genes resulted in striking floral color shifts.

Here, we investigated the genetic basis of flower coloration using a highly color polymorphic Rhododendron sanguineum complex. The complex (ر. subgen. Hymenanthes) includes plants with yellow to pink or crimson to blackish crimson flowers that are classified into six varieties mainly based on their flower color differences [37]. Members of this complex are basically located at high elevations (> 3000 m) associated with snow cover [37]. They are endemic to northwest Yunnan and southeast Tibet, one of the global biodiversity hotspots [38]. This region is also recognized as one of the centers for diversification and differentiation of Rhododendron [37, 39]. The flower color polymorphisms of this genus have been traditionally viewed as an ecologically adaptive trait that is essential in attracting specific pollinators [40,41,42], and may also be the response to environmental variation, such as UV radiations at different elevations, temperatures, and soil conditions [32]. Although there are studies published on the anthocyanin components and contents in Rhododendron flowers, most were solely dedicated to the identification of the pigment constituents in the petals of some wild and cultivated azaleas using thin-layer chromatography (TLC) and high-performance liquid chromatography (HPLC) [11, 33]. No study so far focused on the molecular mechanisms underlying infraspecific color polymorphisms in Rhododendron. The study of closely related entities such as a species complex has the advantage of a fairly homogeneous genetic background where flower color genes vary and cases of homoplasy are limited. Previous studies mainly focused on color shifts at different developmental stages of a single species [14, 18], or covered a number of related species [26, 35].

In the present study, we combined transcriptome sequencing (RNA-seq) and genome resequencing with reflectance spectra analyses to elucidate molecular and anthocyanin content differences among three differently colored naturally occurring varieties of the R. sanguineum complex, with yellow flushed pink to deep blackish crimson colored flowers. We aimed at studying the correlation between infraspecific flower color variation and the expression of candidate genes of the anthocyanin / flavonoid biosynthesis pathway. Our findings may allow the proposal of a hypothesis for the genetic mechanism of the expression of flower color variation and a representative case of pollinator-mediated incipient sympatric speciation in the R. sanguineum complex. In addition, it is the first study to compare transcriptome profiles in a natural system of a non-model species of Rhododendron.


3 RESULTS

3.1 Especially progression genes show elevated expression at the onset of tooth patterning

For a robust readout of gene expression profiles, we first obtained gene expression levels using both microarray and RNAseq techniques from E13 (bud stage) and E14 (cap stage) mouse molars (Section 2). From dissected tooth germs we obtained five microarray and seven RNAseq replicates for both developmental stages. The results show that especially the progression category genes (genes required for the progression of tooth development) are highly expressed during E13 compared to the control gene sets (tissue, dispensable, and developmental-process categories, ص values range from .0003 to .0426 for RNAseq and microarray experiments, tested using random resampling, for details and all the tests, see Section 2, Figure 2, and Tables S2 and S3). Comparable differences are observed in E14 molars (ص values range from .0000 to .0466 Figure 2, Tables S2 and S3).

In general, the expression differences between progression and tissue categories appear greater than between progression and dispensable categories (ص values range from .0028 to .0379 and .0059 to .0466, respectively Table S3), suggesting that some of the genes in the dispensable category may still play a functional role in tooth development. In our data we have 11 genes that cause a developmental arrest of the tooth when double mutated (Appendix S1). The expression level of this double-mutant category shows incipient upregulation compared to that of the developmental-process category (ص values range from .0322 to .1637 Table S3), but not when compared to the tissue or dispensable categories (ص values range from .0978 to .5010 Table S3). Therefore, it is plausible, based on the comparable expression levels between double and some of the dispensable category genes, that several of the genes in the dispensable category may cause phenotypic effects when mutated in pairs.

Even though expression levels of the shape category genes (genes required for normal shape development) are lower than that of the progression category (Figure 2), at least the E14 microarray data suggests elevated expression levels relative to all the other control categories (ص values range from .0001 to .0901 Table S3). The moderately elevated levels of expression by the shape category genes could indicate that they are required slightly later in development, or that the most robust upregulation happens only for genes that are essential for the progression of the development. The latter option seems to be supported by a RNAseq analysis of E16 molar, showing only slight upregulation of shape category genes in the bell stage molars (Table S3).

3.2 Transcriptomes of developing rat molars show elevated expression of the progression genes

Because our gene categories were based on experimental evidence from the mouse, we also tested whether comparable expression levels can be detected for the same genes in the rat. Evolutionary divergence of Mus-Rattus dates back to the Middle Miocene (Kimura et al., 2015 ), allowing a modest approximation of conservation in the expression levels. Examination of bud (E15) and cap (E17) stage RNAseq of rat molars shows comparable upregulation of progression and shape category genes as in the mouse (Figure 3, Table S2 and S3). Considering also that many of the null mutations in keystone gene in the mouse are known to have comparable phenotypic effects in humans (Nieminen, 2009 ), our keystone gene categories and analyses are likely to apply to mammalian teeth in general.

One complication of our expression level analyses is that these have been done at the whole organ level. Because many of the genes regulating tooth development are known to have spatially complex expression patterns within the tooth (Nieminen at al. 1998 ), cell-level examinations are required to decompose the patterns within the tissue.

3.3 Single-cell RNAseq reveals cell-level patterns of keystone genes

Tooth development is punctuated by iteratively forming epithelial signaling centers, the enamel knots. The first, primary enamel knot, is active in E14 mouse molar and at this stage many genes are known to have complex expression patterns. Some progression category genes have been reported to be expressed in the enamel knot, whereas others have mesenchymal or complex combinatorial expression patterns (Jernvall & Thesleff, 2012 Nieminen et al., 1998 ). To quantify these expression levels at the cell-level, we performed a single-cell RNAseq (scRNAseq) on E14 mouse molars (Section 2). We focused on capturing a representative sample of cells by dissociating each tooth germ without cell sorting (ن = 4). After data filtering, 7000–8811 cells per tooth were retained for the analyses, providing 30,930 aggregated cells for a relatively good proxy of the E14 mouse molar (Section 2).

First we examined whether the scRNAseq produces comparable expression levels to our previous analyses. For the comparisons, the gene count values from the cells were summed up and treated as bulk RNAseq data (Figure 4a and Section 2). We analyzed the expression levels of different gene categories as in the mouse bulk data (Figure 2) and the results show a general agreement between the experiments (Figures 2 and 4b). As in the previous analyses (Table S3), the progression category shows the highest expression levels compared to the control gene sets (ص values range from .0071 to .0310 Table S3). Although the mean expression of the shape category is intermediate between progression and control gene sets, scRNAseq shape category is not significantly upregulated in the randomization tests (ص values range from .7788 to .9968). This pattern reflects the bulk RNAseq analyses (for both mouse and rat) while the microarray analysis showed slightly stronger upregulation, suggesting subtle differences between the methodologies (the used mouse strain was also different in the microarray experiment).

Unlike the bulk transcriptome data, the scRNAseq data can be used to quantify the effect of expression domain size on the overall expression level of a gene. The importance of expression domain size is well evident in the scRNAseq data when we calculated the number of cells that express each gene (Section 2). The data shows that the overall tissue level gene expression is highly correlated with the cell population size (Figure 5a). In other words, the size of the expression domain is the key driver of expression levels measured at the whole tissue level.

To examine the cell level patterns further, we calculated the mean transcript abundances for each gene for the cells that express that gene (see Section 2). This metric approximates the cell-level upregulation of a particular gene, and is thus independent of the size of the expression domain. We calculated the transcript abundance values for progression, shape, tissue, double, and dispensable category genes in each cell that expresses any of those genes. The resulting mean transcript abundances were contrasted to that of the dispensable category (Section 2). The results show that the average transcript abundance is high in the progression category whereas the other categories show roughly comparable transcript abundances (Figure 5b). Considering that the progression category genes have highly heterogeneous expression patterns (e.g., Nieminen at al. 1998 Figure 5c), their high cell-level transcript abundance (Figure 5b) is suggestive about their critical role at the cell level. That is, progression category genes are not only highly expressed at the tissue level because they have broad expression domains, but rather because they are upregulated in individual cells irrespective of domain identity or size. These results suggest that high cell-level transcript abundance is a system-level feature of genes essential for the progression of tooth development, a pattern that seems to be shared with essential genes of single cell organisms (Dong et al., 2018 ). We note that although the dispensable category has several genes showing comparable expression levels with that of the progression category genes at the tissue level (Figure 2), their cell-level transcript abundances are predominantly low (Figure 5b).

Next we examined more closely the differences between progression and shape category genes, and to what extent the upregulation of the keystone genes reflects the overall expression of the corresponding pathways.

3.4 Keystone gene upregulation in the context of their pathways

In our data the developmental-process genes appear to have slightly elevated expression levels compared to the other protein coding genes (Figures 2, 3, and 4b), suggesting an expected and general recruitment of the pathways required for organogenesis. To place the progression and shape category genes into the specific context of their corresponding pathways, we investigated in E14 mouse bulk RNAseq whether the pathways implicated in tooth development show elevated expression levels. Six pathways, Fgf, Wnt, Tgfβ, Hedgehog (Hh), Notch, and Ectodysplasin (Eda), contain the majority of progression and shape genes (Section 2). First we used the RNAseq of E14 stage molars to test whether these pathways show elevated expression levels. We manually identified 272 genes belonging to the six pathways (Section 2 and Table S4). Comparison of the median expression levels of the six-pathway genes with the developmental-process genes shows that the pathway genes are a highly upregulated set of genes (Figure 6a ص < .0001, random resampling). This difference suggests that the experimentally identified progression and shape genes might be highly expressed partly because they belong to the developmentally upregulated pathways. To specifically test this possibility, we contrasted the expression levels of the progression and shape genes to the genes of their corresponding signaling families.

The 15 progression category genes belong to four signaling families (Wnt, Tgfβ, Fgf, Hh) with 221 genes in our tabulations. Even though these pathways are generally upregulated in the E14 tooth, the median expression level of the progression category is still further elevated (Figure 6b ص < .0001). In contrast, the analyses for the 28 shape category genes and their corresponding pathways (272 genes from Wnt, Tgfβ, Fgf, Hh, Eda, Notch) show comparable expression levels (Figure 6c ص = .5919). Whereas this contrasting pattern between progression and shape genes within their pathways may explain the subtle upregulation of the shape category (Figure 2), the difference warrants a closer look. Examination of the two gene categories reveals that compared to the progression category genes, relatively large proportion of the shape category genes are ligands (36% shape genes compared to 20% progression genes, Appendix S1). In our E14 scRNAseq data, ligands show generally smaller expression domains than other genes (roughly by half, Figure 6d,e), and the low expression of the shape category genes seems to be at least in part driven by the ligands (Figure 6c and Table S5).

Overall, the upregulation of the keystone genes within their pathways appears to be influenced by the kind of proteins they encode. In this context it is noteworthy that patterning of tooth shape requires spatial regulation of secondary enamel knots and cusps, providing a plausible explanation for the high proportion of genes encoding diffusing ligands in the shape category.


  1. Trapnell, C., L. Pachter, and S. L. Salzberg, 2009 TopHat: discovering splice junctions with RNA-Seq. Bioinformatics 25: 1105–1111. https://academic.oup.com/bioinformatics/article/25/9/1105/203994
  2. Levin, J. Z., M. Yassour, X. Adiconis, C. Nusbaum, D. A. Thompson وآخرون., 2010 Comprehensive comparative analysis of strand-specific RNA sequencing methods. Nature Methods 7: 709. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3005310/
  3. Young, M. D., M. J. Wakefield, G. K. Smyth, and A. Oshlack, 2010 Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology 11: R14. https://genomebiology.biomedcentral.com/articles/10.1186/gb-2010-11-2-r14
  4. Brooks, A. N., L. Yang, M. O. Duff, K. D. Hansen, J. W. Park وآخرون., 2011 Conservation of an RNA regulatory map between Drosophila and mammals. Genome Research 21: 193–202. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3032923/
  5. Marcel, M., 2011 Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal 17: 10–12. http://journal.embnet.org/index.php/embnetjournal/article/view/200
  6. Robinson, J. T., H. Thorvaldsdóttir, W. Winckler, M. Guttman, E. S. Lander وآخرون., 2011 Integrative genomics viewer. Nature Biotechnology 29: 24. https://www.nature.com/nbt/journal/v29/n1/abs/nbt.1754.html
  7. Wang, L., S. Wang, and W. Li, 2012 RSeQC: quality control of RNA-seq experiments. Bioinformatics 28: 2184–2185. https://www.ncbi.nlm.nih.gov/pubmed/22743226
  8. Dobin, A., C. A. Davis, F. Schlesinger, J. Drenkow, C. Zaleski وآخرون., 2013 STAR: ultrafast universal RNA-seq aligner. Bioinformatics 29: 15–21. https://academic.oup.com/bioinformatics/article/29/1/15/272537
  9. Kim, D., G. Pertea, C. Trapnell, H. Pimentel, R. Kelley وآخرون., 2013 TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biology 14: R36. https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-4-r36
  10. Liao, Y., G. K. Smyth, and W. Shi, 2013 featureCounts: an efficient general purpose program for assigning sequence reads to genomic features. Bioinformatics 30: 923–930. https://academic.oup.com/bioinformatics/article/31/2/166/2366196
  11. Luo, W., and C. Brouwer, 2013 Pathview: an R/Bioconductor package for pathway-based data integration and visualization. Bioinformatics 29: 1830–1831. https://academic.oup.com/bioinformatics/article-abstract/29/14/1830/232698
  12. Love, M. I., W. Huber, and S. Anders, 2014 Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology 15: 550. https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0550-8
  13. Anders, S., P. T. Pyl, and W. Huber, 2015 HTSeq—a Python framework to work with high-throughput sequencing data. Bioinformatics 31: 166–169. https://academic.oup.com/bioinformatics/article/31/2/166/2366196
  14. Kim, D., B. Langmead, and S. L. Salzberg, 2015 HISAT: a fast spliced aligner with low memory requirements. Nature Methods 12: 357. https://www.nature.com/articles/nmeth.3317
  15. Ewels, P., M. Magnusson, S. Lundin, and M. Käller, 2016 MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics 32: 3047–3048. https://academic.oup.com/bioinformatics/article/32/19/3047/2196507
  16. Thurmond, J., J. L. Goodman, V. B. Strelets, H. Attrill, L. S. Gramates وآخرون., 2018 FlyBase 2.0: the next generation. Nucleic Acids Research 47: D759–D765. https://academic.oup.com/nar/article-abstract/47/D1/D759/5144957
  17. Kim, D., J. M. Paggi, C. Park, C. Bennett, and S. L. Salzberg, 2019 Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nature Biotechnology 37: 907–915. https://www.nature.com/articles/s41587-019-0201-4

Did you use this material as an instructor? Feel free to give us feedback on how it went.


شاهد الفيديو: كورس #C الدرس 34: كيفية البحث عن عنصر داخل مصفوفة نصية (يوليو 2022).


تعليقات:

  1. Adalard

    كان هناك خطأ

  2. Tegor

    إنه مثير للاهتمام. من فضلك قل لي - أين يمكنني أن أقرأ عن هذا؟

  3. Jessey

    يجب أن أعترف ، تم رش الشخص الذي كتب Nishtyak.

  4. Alano

    هذه عبارة قيّمة جدا



اكتب رسالة