17
Oct
2022

การนำแว่นขยายไปใช้ในการดำเนินงานของศูนย์ข้อมูล

เมื่อ MIT Lincoln Laboratory Supercomputing Center (LLSC) ได้เปิดตัวซูเปอร์คอมพิวเตอร์ TX-GAIA ในปี 2019 ได้ทำให้ชุมชน MIT เป็นแหล่งข้อมูลใหม่อันทรงพลังสำหรับการนำปัญญาประดิษฐ์ไปใช้กับการวิจัยของพวกเขา ทุกคนที่ MIT สามารถส่ง งานไปยังระบบได้ ซึ่งจะหมุนเวียนการดำเนินงานหลายล้านล้านครั้งต่อวินาที เพื่อฝึกแบบจำลองสำหรับการใช้งานที่หลากหลาย เช่น การตรวจหาเนื้องอกในภาพทางการแพทย์ การค้นพบยาใหม่ๆ หรือการสร้างแบบจำลองผลกระทบจากสภาพอากาศ แต่ด้วยพลังอันยิ่งใหญ่นี้ ความรับผิดชอบอันยิ่งใหญ่ของการจัดการและการดำเนินงานในลักษณะที่ยั่งยืนจึงมาพร้อมกับความรับผิดชอบ และทีมงานก็มองหาวิธีที่จะปรับปรุง

“เรามีเครื่องมือคำนวณอันทรงพลังที่ช่วยให้นักวิจัยสร้างแบบจำลองที่ซับซ้อนเพื่อแก้ปัญหา แต่หลักๆ แล้วสามารถใช้เป็นกล่องดำได้ สิ่งที่หลงหายไปในนั้นคือเราใช้ฮาร์ดแวร์อย่างมีประสิทธิภาพเท่าที่เราจะทำได้จริงหรือไม่” Siddharth Samsi นักวิทยาศาสตร์การวิจัยใน LLSC กล่าว

เพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับความท้าทายนี้ LLSC ได้รวบรวมข้อมูลโดยละเอียดเกี่ยวกับการใช้งาน TX-GAIA ในปีที่ผ่านมา ภายหลังมีผู้ใช้งานมากกว่าหนึ่งล้านคน ทีมงาน ได้เผยแพร่ชุดข้อมูล โอเพ่นซอร์สให้กับชุมชนคอมพิวเตอร์

เป้าหมายของพวกเขาคือการช่วยให้นักวิทยาศาสตร์คอมพิวเตอร์และผู้ปฏิบัติงานศูนย์ข้อมูลเข้าใจวิธีการเพิ่มประสิทธิภาพศูนย์ข้อมูลได้ดีขึ้น ซึ่งเป็นงานที่สำคัญเนื่องจากความต้องการในการประมวลผลยังคงเติบโตต่อไป พวกเขายังเห็นศักยภาพในการใช้ประโยชน์จาก AI ในศูนย์ข้อมูลด้วยการใช้ข้อมูลเพื่อพัฒนาแบบจำลองสำหรับทำนายจุดล้มเหลว เพิ่มประสิทธิภาพการจัดตารางงาน และปรับปรุงประสิทธิภาพการใช้พลังงาน ในขณะที่ผู้ให้บริการระบบคลาวด์กำลังทำงานอย่างแข็งขันในการเพิ่มประสิทธิภาพศูนย์ข้อมูลของตน พวกเขามักจะไม่เปิดเผยข้อมูลหรือแบบจำลองสำหรับชุมชนการประมวลผลประสิทธิภาพสูง (HPC) ในวงกว้างเพื่อใช้ประโยชน์ การเปิดตัวชุดข้อมูลนี้และรหัสที่เกี่ยวข้องพยายามเติมเต็มพื้นที่นี้

“ศูนย์ข้อมูลกำลังเปลี่ยนแปลง เรามีแพลตฟอร์มฮาร์ดแวร์ที่ขยายตัวอย่างรวดเร็ว ประเภทของเวิร์กโหลดกำลังพัฒนา และประเภทของผู้คนที่ใช้ศูนย์ข้อมูลกำลังเปลี่ยนไป” Vijay Gadepallyนักวิจัยอาวุโสของ LLSC กล่าว “จนถึงขณะนี้ ยังไม่มีวิธีที่ดีในการวิเคราะห์ผลกระทบต่อศูนย์ข้อมูล เราเห็นว่างานวิจัยและชุดข้อมูลนี้เป็นก้าวย่างสำคัญในการหาแนวทางหลักในการทำความเข้าใจว่าตัวแปรเหล่านี้โต้ตอบกันอย่างไร จากนั้นจึงนำ AI มาใช้เพื่อข้อมูลเชิงลึกและการปรับปรุง”

เอกสารที่อธิบายชุดข้อมูลและการใช้งานที่เป็นไปได้ได้รับการยอมรับในสถานที่หลายแห่ง รวมถึง IEEE International Symposium on High-Performance Computer Architecture, IEEE International Parallel and Distributed Processing Symposium, the Annual Conference of the North American Chapter of the Association for Computational ภาษาศาสตร์ การประชุม IEEE High-Performance and Embedded Computing และการประชุมระดับนานาชาติสำหรับคอมพิวเตอร์ที่มีประสิทธิภาพสูง เครือข่าย การจัดเก็บและการวิเคราะห์

การจำแนกภาระงาน

ในบรรดา ซุปเปอร์คอมพิวเตอร์ TOP500ของโลก TX-GAIA ได้รวมฮาร์ดแวร์คอมพิวเตอร์แบบดั้งเดิม (หน่วยประมวลผลกลาง หรือซีพียู) เข้ากับตัวเร่งความเร็วของหน่วยประมวลผลกราฟิก (GPU) เกือบ 900 ตัว GPU NVIDIA เหล่านี้เชี่ยวชาญสำหรับการเรียนรู้เชิงลึก ซึ่งเป็นคลาสของ AI ที่ก่อให้เกิดการรู้จำเสียงพูดและการมองเห็นของคอมพิวเตอร์

ชุดข้อมูลครอบคลุมการใช้งาน CPU, GPU และหน่วยความจำตามงาน บันทึกการตั้งเวลา; และข้อมูลการตรวจสอบทางกายภาพ เมื่อเปรียบเทียบกับชุดข้อมูลที่คล้ายคลึงกัน เช่น ชุดจาก Google และ Microsoft ชุดข้อมูล LLSC นำเสนอ “ข้อมูลที่ติดฉลาก ปริมาณงาน AI ที่รู้จัก และข้อมูลอนุกรมเวลาที่มีรายละเอียดมากขึ้นเมื่อเปรียบเทียบกับชุดข้อมูลก่อนหน้า ตามความรู้ของเรา มันเป็นหนึ่งในชุดข้อมูลที่ครอบคลุมและละเอียดที่สุดที่มีอยู่” Gadepally กล่าว

โดยเฉพาะอย่างยิ่ง ทีมรวบรวมข้อมูลอนุกรมเวลาที่ระดับรายละเอียดที่ไม่เคยมีมาก่อน: ช่วงเวลา 100 มิลลิวินาทีในทุก GPU และช่วงเวลา 10 วินาทีบน CPU ทุกตัว เนื่องจากเครื่องประมวลผลงานการเรียนรู้เชิงลึกที่รู้จักมากกว่า 3,000 รายการ เป้าหมายแรกอย่างหนึ่งคือการใช้ชุดข้อมูลที่มีป้ายกำกับนี้เพื่อกำหนดลักษณะปริมาณงานที่งานการเรียนรู้เชิงลึกประเภทต่างๆ วางไว้บนระบบ กระบวนการนี้จะดึงคุณลักษณะที่เปิดเผยความแตกต่างในวิธีที่ฮาร์ดแวร์ประมวลผลแบบจำลองภาษาธรรมชาติกับการจัดประเภทรูปภาพหรือแบบจำลองการออกแบบวัสดุ เป็นต้น

ทีมงานได้เปิดตัว MIT Datacenter Challenge เพื่อระดมงานวิจัยนี้ ความท้าทายนี้เชิญชวนให้นักวิจัยใช้เทคนิค AI เพื่อระบุประเภทของงานที่ดำเนินการได้อย่างแม่นยำถึง 95 เปอร์เซ็นต์ โดยใช้ข้อมูลอนุกรมเวลาที่ติดป้ายกำกับว่าเป็นความจริงพื้นฐาน

ข้อมูลเชิงลึกดังกล่าวสามารถช่วยให้ศูนย์ข้อมูลสามารถจับคู่คำของานของผู้ใช้กับฮาร์ดแวร์ที่เหมาะสมที่สุดได้ ซึ่งอาจช่วยประหยัดพลังงานและปรับปรุงประสิทธิภาพของระบบ การจัดประเภทปริมาณงานยังช่วยให้ผู้ปฏิบัติงานสังเกตเห็นความคลาดเคลื่อนที่เกิดจากความล้มเหลวของฮาร์ดแวร์ รูปแบบการเข้าถึงข้อมูลที่ไม่มีประสิทธิภาพ หรือการใช้งานโดยไม่ได้รับอนุญาตได้อย่างรวดเร็ว

ทางเลือกมากเกินไป

วันนี้ LLSC มีเครื่องมือที่อนุญาตให้ผู้ใช้ส่งงานและเลือกโปรเซสเซอร์ที่ต้องการใช้ “แต่ผู้ใช้มักจะต้องเดาเอาเอง” Samsi กล่าว “บางคนอาจต้องการใช้ GPU รุ่นล่าสุด แต่บางทีการคำนวณของพวกเขาอาจไม่ต้องการมัน และอาจได้ผลลัพธ์ที่น่าประทับใจพอๆ กับ CPU หรือเครื่องที่ใช้พลังงานต่ำ”

ศาสตราจารย์ Devesh Tiwari แห่งมหาวิทยาลัย Northeastern กำลังทำงานร่วมกับทีม LLSC เพื่อพัฒนาเทคนิคที่สามารถช่วยให้ผู้ใช้จับคู่ปริมาณงานของตนกับฮาร์ดแวร์ที่เหมาะสมได้ Tiwari อธิบายว่าการเกิดขึ้นของตัวเร่ง AI, GPU และ CPU ประเภทต่างๆ ได้ทำให้ผู้ใช้ต้องทนทุกข์กับทางเลือกมากเกินไป หากไม่มีเครื่องมือที่เหมาะสมในการใช้ประโยชน์จากความหลากหลายนี้ พวกเขาจะพลาดผลประโยชน์: ประสิทธิภาพที่ดีขึ้น ต้นทุนที่ต่ำลง และผลผลิตที่มากขึ้น

“เรากำลังแก้ไขช่องว่างความสามารถนี้ — ทำให้ผู้ใช้มีประสิทธิผลมากขึ้นและช่วยให้ผู้ใช้ทำวิทยาศาสตร์ได้ดีขึ้นและเร็วขึ้นโดยไม่ต้องกังวลเกี่ยวกับการจัดการฮาร์ดแวร์ที่ต่างกัน” Tiwari กล่าว “นักศึกษาปริญญาเอกของฉัน Baolin Li กำลังสร้างความสามารถและเครื่องมือใหม่ ๆ เพื่อช่วยให้ผู้ใช้ HPC ใช้ประโยชน์จากความหลากหลายที่ใกล้เคียงที่สุดโดยปราศจากการแทรกแซงจากผู้ใช้ โดยใช้เทคนิคที่มีพื้นฐานมาจากการเพิ่มประสิทธิภาพแบบเบย์เซียนและวิธีการเพิ่มประสิทธิภาพตามการเรียนรู้อื่นๆ แต่นี่เป็นเพียงจุดเริ่มต้น เรากำลังหาวิธีที่จะแนะนำความแตกต่างในศูนย์ข้อมูลของเราในแนวทางที่เป็นหลักการเพื่อช่วยให้ผู้ใช้ของเราบรรลุความได้เปรียบสูงสุดของความแตกต่างโดยอัตโนมัติและคุ้มค่า”

การจัดประเภทภาระงานเป็นปัญหาแรกจากหลายๆ ปัญหาที่เกิดขึ้นใน Datacenter Challenge อื่นๆ รวมถึงการพัฒนาเทคนิค AI เพื่อทำนายความล้มเหลวของงาน ประหยัดพลังงาน หรือสร้างวิธีการจัดตารางเวลางานที่ปรับปรุงประสิทธิภาพการระบายความร้อนของศูนย์ข้อมูล

การอนุรักษ์พลังงาน

ในการระดมการวิจัยเกี่ยวกับการคำนวณที่เป็นมิตรต่อสิ่งแวดล้อม ทีมงานยังวางแผนที่จะเผยแพร่ชุดข้อมูลด้านสิ่งแวดล้อมของการดำเนินงาน TX-GAIA ซึ่งประกอบด้วยอุณหภูมิแร็ค การใช้พลังงาน และข้อมูลอื่นๆ ที่เกี่ยวข้อง

ตามที่นักวิจัย มีโอกาสมากมายในการปรับปรุงประสิทธิภาพการใช้พลังงานของระบบ HPC ที่ใช้สำหรับการประมวลผล AI ตัวอย่างหนึ่งงานล่าสุดใน LLSC ระบุว่าการปรับแต่งฮาร์ดแวร์อย่างง่าย เช่น การจำกัดปริมาณพลังงานที่ GPU แต่ละตัวสามารถดึงออกมา สามารถลดค่าใช้จ่ายด้านพลังงานของการฝึกโมเดล AI ลง 20 เปอร์เซ็นต์ โดยใช้เวลาประมวลผลเพิ่มขึ้นเพียงเล็กน้อยเท่านั้น “การลดลงนี้แปลเป็นมูลค่าพลังงานในครัวเรือนประมาณหนึ่งสัปดาห์เป็นเวลาเพิ่มขึ้นเพียงสามชั่วโมง” Gadepally กล่าว

หน้าแรก

Share

You may also like...