? راهنمای رایانه شخصی ، انتشار پایدار معیار: کدام GPU سریعترین AI را اجرا می کند (به روز شده) | سخت افزار تام S
انتشار پایدار معیار: کدام GPU سریعترین AI را اجرا می کند (به روز شده)
ما در یک لحظه به برخی از اعداد عملکرد محاسباتی نظری دیگر خواهیم رسید ، اما دوباره RTX 2080 TI و RTX 3070 TI را به عنوان نمونه در نظر می گیریم. هسته های تانسور 2080 TI از کمبود پشتیبانی نمی کنند و حداکثر 108 TFLOPS محاسبه FP16 دارند. RTX 3070 TI از پراکندگی با 174 TFLOPS FP16 یا 87 TFLOPS FP16 بدون کمبود پشتیبانی می کند. این واقعیت که TI 2080 ضرب و شتم 3070 TI را به وضوح نشان می دهد ، کمبود آن یک عامل نیست. همین منطق در مورد مقایسه های دیگری مانند 2060 و 3050 یا 2070 Super و 3060 Ti نیز صدق می کند.
آیا برای انتشار پایدار به GPU احتیاج دارم?
آیا نمی دانید که آیا برای انتشار پایدار به GPU احتیاج دارید؟? شما جای درست آمده اید.
انتشار پایدار بدون شک ابزاری سریع و بصری هنری مانند Dall-E و Midjourney است. نتایج آن چشمگیر است ، بنابراین در حال حاضر میلیون ها کاربر دارد. با این حال ، اگر می خواهید از آن در رایانه شخصی خود استفاده کنید ، اطمینان حاصل کنید که الزامات برآورده شده است ، به خصوص در مورد کارتهای گرافیکی. صحبت از آن ، ما در مورد اینکه آیا انتشار پایدار می تواند بدون GPU کار کند ، صحبت خواهیم کرد ، یا اینکه برای عملکرد صحیح به کارت گرافیک نیاز دارید.
GPU یا کارتهای گرافیکی ، قطعات کمی از فناوری هستند که به طور جدی هرگونه تجربه بازی یا حرفه ای خلاق را به روز می کنند. .
ابزارهای ضروری هوش مصنوعی
معامله اختصاصی 10،000 اعتبار پاداش رایگان
. 100000+ مشتری با جاسپر محتوای واقعی ایجاد می کنند. یک ابزار هوش مصنوعی ، بهترین مدل ها.
قدرت کامل یک ژنراتور محتوای هوش مصنوعی را تجربه کنید که نتایج حق بیمه را در چند ثانیه ارائه می دهد. . .
فقط 0 دلار.00015 در هر کلمه!
آشکارساز AI Winston
. Winston AI صنعت پیشرو ابزار تشخیص محتوای هوش مصنوعی برای کمک به بررسی محتوای هوش مصنوعی تولید شده با ChatGPT ، GPT-4 ، BARD ، BING CHAT ، CLAUDE و بسیاری موارد دیگر LLMS است.
فقط 0 دلار.01 در 100 کلمه
ردیاب اصالت AI
.هوش مصنوعی دقیق ترین تشخیص هوش مصنوعی است.در یک مجموعه داده آزمایش از 1200 نمونه داده ، آن را به دقت 96 ٪ بدست آورد در حالی که نزدیکترین رقیب آن تنها 35 ٪ به دست آورد. پسوند مفید Chrome. از طریق ایمیل ها ، اسناد Google و وب سایت ها تشخیص می دهد. بیشتر بخوانید
*قیمت ها در معرض تغییر هستند. . وقتی از طریق پیوندها در سایت ما خریداری می کنید ، ممکن است ما یک کمیسیون وابسته کسب کنیم.
? یا می تواند دیگری را جایگزین کند? .
GPU برای انتشار پایدار مورد نیاز است?
بله ، برای انتشار پایدار و بدون هیچ مشکلی ، باید یک GPU در رایانه شخصی خود داشته باشید. . علاوه بر این ، اطمینان حاصل کنید که برای جلوگیری از هرگونه بی ثباتی ، 16 گیگابایت رم PC در سیستم PC دارید.
. گفتن اینکه انتشار پایدار به طور انحصاری در کارت گرافیک بهترین کار را نمی کند اشتباه نخواهد بود. در مورد استفاده از GPU ، ما مدل های NVIDIA RTX 4080 و 4090 را با 16 یا 24 گیگابایت VRAM برای بهترین نتیجه پیشنهاد می کنیم. .
آیا می توان انتشار پایدار را بر روی GPU AMD اجرا کرد?
بله ، شما می توانید جدا از مدل های سری NVIDIA ، انتشار پایدار را در GPU های AMD نیز اجرا کنید. با این حال ، برای استفاده از AMD ، اطمینان حاصل کنید که یک مدل بالاتر از RX470 دارید. علاوه بر این ، برای بهترین نتیجه ، برای جلوگیری از هرگونه ناراحتی ، حتماً 8 گیگابایت یا بالاتر داشته باشید.
متداول
می تواند پایدار انتشار روی پردازنده های Apple Mac کار کند?
. با این حال ، این تنها از مدل های M1 و M1 مبتنی بر سیلیکون پشتیبانی می کند. هر مدل قبل از آن بهترین نتیجه نیست. .
نتیجه
. سعی کنید جدیدترین و سریعترین مدل برای GPU یا سایر پشتیبانی های گرافیکی را داشته باشید. . اگرچه چند راه برای اجرای آن بدون GPU وجود دارد ، اما به نظر می رسد قابل اعتماد نیستند. بنابراین ، قبل از اجرای انتشار پایدار برای بهترین نتیجه ، حتماً کارت گرافیکی خوبی داشته باشید.
. آنها ده برابر بازی و تجربیات خلاق را بهبود می بخشند. اگر به ایده هایی نیاز دارید که به کدام یک بروید ، از بهترین کارتهای گرافیکی ما در اینجا دیدن کنید.
انتشار پایدار معیار: کدام GPU سریعترین AI را اجرا می کند (به روز شده)
هوش مصنوعی و یادگیری عمیق این روزها دائماً در عناوین قرار دارند ، خواه چتپ شود که توصیه های ضعیفی ایجاد می کند ، اتومبیل های خود رانندگی ، هنرمندانی که به استفاده از هوش مصنوعی ، مشاوره پزشکی از هوش مصنوعی و موارد دیگر متهم شده اند. بیشتر این ابزارها برای آموزش به سرورهای پیچیده با سخت افزار زیادی متکی هستند ، اما استفاده از شبکه آموزش دیده از طریق استنتاج می تواند با استفاده از کارت گرافیک آن روی رایانه شخصی شما انجام شود. اما GPU های مصرف کننده برای انجام استنتاج AI چقدر سریع هستند?
. ! . خلاصه کوتاه این است که GPU های NVIDIA بر روی خروس حاکم است ، با بیشتر نرم افزار با استفاده از CUDA و سایر ابزارهای NVIDIA طراحی شده است. .
ما در پایان با استفاده از سه پروژه انتشار پایدار مختلف برای آزمایش خود ، بیشتر به این دلیل که هیچ بسته ای در هر GPU کار نمی کرد. برای NVIDIA ، ما برای نسخه اتوماتیک 1111 WebUI تصمیم گرفتیم. این بهترین عملکرد را داشت ، گزینه های بیشتری داشت و اجرای آن آسان بود. GPU های AMD با استفاده از NOD مورد آزمایش قرار گرفتند.. فاقد. به دلیل عدم پشتیبانی ، اجرای GPU های قوس اینتل کمی دشوارتر بود ، اما انتشار پایدار OpenVINO به ما برخی از آنها را داد بسیار کارکردهای اساسی.
. . . در عین حال نتایج سری 40 RTX در ابتدا پایین تر بود ، اما George Sv8arj این رفع را ارائه داد ، جایی که جایگزین کردن Pytorch Cuda DLLS باعث افزایش سالم به عملکرد شد.
نتایج AMD نیز کمی کیف مخلوط است: GPU های RDNA 3 بسیار خوب عمل می کنند در حالی که GPU RDNA 2 نسبتاً متوسط به نظر می رسد. تندی.هوش مصنوعی به ما اطلاع دهید که آنها هنوز روی مدل های “تنظیم” برای rDNA 2 کار می کنند ، که باید پس از در دسترس بودن عملکرد کاملاً (به طور بالقوه دو برابر) را تقویت کند. سرانجام ، در GPU های اینتل ، حتی اگر به نظر می رسد عملکرد نهایی با گزینه های AMD کاملاً مطابقت دارد ، در عمل زمان ارائه بسیار طولانی تر است – 5-10 ثانیه طول می کشد تا کار نسل واقعی شروع شود ، و احتمالاً بسیاری از آنها پس زمینه های اضافی اتفاق می افتد که آن را کند می کند.
ما همچنین به دلیل انتخاب پروژه های نرم افزاری از مدل های مختلف انتشار پایدار استفاده می کنیم. تندی…4 (اگرچه امکان SD2 وجود دارد.1 در 1111 اتوماتیک). .
پارامترهای تست ما برای همه GPU ها یکسان است ، اگرچه هیچ گزینه ای برای گزینه فوری منفی در نسخه اینتل وجود ندارد (حداقل ، نه این که ما می توانیم پیدا کنیم). , طولانی تر برای تکمیل). . .
سریع سریع:
مراحل:
طبقه بندی راهنمای رایگان:
.0
الگوریتم نمونه برداری:
برخی از انواع اویلر (اجدادی در 1111 اتوماتیک ، کوسه اویلر گسسته در AMD)
. .
. توجه داشته باشید که هر GPU NVIDIA دو نتیجه دارد ، یکی با استفاده از مدل محاسباتی پیش فرض (کندتر و به رنگ سیاه) و دوم با استفاده از کتابخانه سریعتر “Xformers” از فیس بوک (سریعتر و به رنگ سبز).
همانطور که انتظار می رفت ، GPU های NVIDIA عملکرد برتر – گاهی اوقات با حاشیه های عظیم – را در مقایسه با هر چیزی از AMD یا اینتل ارائه می دهند. . برای تولید هر تصویر بیش از سه ثانیه طول می کشد ، و حتی RTX 4070 TI قادر به جمع شدن 3090 TI است (اما نه اگر XFormers را غیرفعال کنید).
همه چیز با روشی کاملاً سازگار از کارتهای برتر برای GPU های NVIDIA ، از 3090 به پایین به 3050 سقوط می کند. . کارت های 7900 بسیار خوب به نظر می رسند ، در حالی که هر کارت سری RTX 30 به ضرب و شتم قطعات سری RX 6000 AMD (در حال حاضر). سرانجام ، GPU های اینتل قوس تقریباً در آخر قرار می گیرند ، تنها A770 که می تواند از RX 6600 پیشی بگیرد. بیایید کمی بیشتر در مورد اختلافات صحبت کنیم.
بهینه سازی مناسب می تواند عملکرد کارتهای سری RX 6000 را دو برابر کند. .. …..76 در 3090 – ما نتوانستیم کارت های دیگر را آزمایش کنیم زیرا ابتدا آنها باید فعال شوند).
. روی کاغذ ، 4090 بیش از پنج برابر عملکرد RX 7900 XTX – و 2.. . همین منطق در مورد کارتهای قوس اینتل نیز صدق می کند.
. . .پرونده PY و “CPU” را به “GPU” تغییر دهید – در غیر این صورت از کارتهای گرافیکی برای محاسبات استفاده نمی کند و به طور قابل توجهی بیشتر طول می کشد.
به طور کلی ، با استفاده از نسخه های مشخص شده ، کارتهای سری 40 RTX NVIDIA سریعترین انتخاب هستند و به دنبال آن کارت های 7900 و سپس GPU های سری 30 RTX. . .
ما همچنین در مورد GPU های میراث ، به ویژه معماری تورینگ Nvidia (RTX 20- و GTX 16 سری) و سری RX 5000 AMD ، آزمایشاتی انجام دادیم. . اما نتایج اینجا بسیار جالب است.
ابتدا RTX 2080 TI به پایان می رسد از RTX 3070 TI. . مهمتر از همه ، این اعداد نشان می دهد که بهینه سازی های “کمبود” Nvidia در معماری Ampere به هیچ وجه مورد استفاده قرار نمی گیرند – یا شاید آنها به سادگی قابل استفاده نباشند.
ما در یک لحظه به برخی از اعداد عملکرد محاسباتی نظری دیگر خواهیم رسید ، اما دوباره RTX 2080 TI و RTX 3070 TI را به عنوان نمونه در نظر می گیریم. هسته های تانسور 2080 TI از کمبود پشتیبانی نمی کنند و حداکثر 108 TFLOPS محاسبه FP16 دارند. RTX 3070 TI از پراکندگی با 174 TFLOPS FP16 یا 87 TFLOPS FP16 بدون کمبود پشتیبانی می کند. . همین منطق در مورد مقایسه های دیگری مانند 2060 و 3050 یا 2070 Super و 3060 Ti نیز صدق می کند.
. 5700 XT زمین درست از 6650 XT ، اما 5700 زمین زیر 6600. . . در هر صورت ، هیچ یک از GPU های قدیمی NAVI 10 به ویژه در معیارهای انتشار پایدار اولیه ما اجرا نمی شوند.
سرانجام ، Super GTX 1660 روی کاغذ باید حدود 1/5 عملکرد نظری RTX 2060 باشد ، با استفاده از هسته های تانسور در دومی. . اما در آزمایش ما ، Super GTX 1660 فقط حدود 1/10 سرعت RTX 2060 است.
. همچنین مشخص نیست که آیا این پروژه ها به طور کامل از مواردی مانند هسته های تنشور Nvidia یا هسته های XMX اینتل استفاده می کنند. به همین ترتیب ، ما فکر می کردیم جالب است که به حداکثر عملکرد نظری (TFLOPS) از GPU های مختلف نگاه کنیم. نمودار زیر عملکرد نظری FP16 را برای هر GPU (فقط به کارتهای گرافیکی جدیدتر نگاه می کند) نشان می دهد ، با استفاده از هسته های Tensor/Matrix در صورت لزوم. نتایج NVIDIA همچنین شامل کمبود است – اساساً توانایی پرش از ضرب در 0 تا نیمی از سلول ها در یک ماتریس ، که ظاهراً یک اتفاق بسیار مکرر با بار کاری یادگیری عمیق است.
آن هسته های تانسور در Nvidia به وضوح یک مشت را بسته بندی می کنند (میله های خاکستری/سیاه بدون کمبود است) ، و بدیهی است که آزمایش انتشار پایدار ما دقیقاً با این ارقام مطابقت ندارد – حتی نزدیک نیست. . .
در ضمن ، به GPU های قوس نگاه کنید. هسته های ماتریس آنها باید عملکرد مشابهی با RTX 3060 TI و RX 7900 XTX ارائه دهند ، با A380 در اطراف RX 6800 پایین بیایند یا بگیرند. . سریعترین زمین GPU A770 بین RX 6600 و RX 6600 XT ، A750 دقیقاً پشت RX 6600 سقوط می کند و A380 تقریباً یک چهارم سرعت A750 است. بنابراین همه آنها حدود یک چهارم از عملکرد مورد انتظار هستند ، اگر از هسته های XMX استفاده نشوند ، معنی دارد.
. عملکرد محاسبات نظری در A380 تقریباً یک چهارم A750 است ، و این همان جایی است که از نظر عملکرد انتشار پایدار در حال حاضر به زمین می رود. به احتمال زیاد ، GPU های ARC از سایه بان ها برای محاسبات ، با دقت کامل FP32 استفاده می کنند و برخی از بهینه سازی های اضافی را از دست نمی دهند.
. .. .
. معماری های آمپر و ADA NVIDIA FP16 را با همان سرعت FP32 اجرا می کنند ، زیرا فرض FP16 می تواند برای استفاده از هسته های تنش کدگذاری شود. .
. . که ما را به یک نمودار آخر می رساند.
. ما GPU های جدید AMD را آزمایش نکردیم ، زیرا مجبور شدیم از لینوکس در کارتهای سری AMD RX 6000 استفاده کنیم ، و ظاهراً سری RX 7000 به یک هسته جدید لینوکس نیاز دارد و ما نتوانستیم آن را کار کنیم. اما نتایج سری 40 RTX را بررسی کنید ، با تعویض Torch DLL.
RTX 4090 اکنون 72 ٪ سریعتر از 3090 TI بدون Xformers و 134 ٪ سریعتر با Xformers است. 4080 همچنین 3090 TI را با 55 ٪/18 ٪ با/بدون xformers ضرب و شتم می کند. 4070 TI جالب 22 ٪ کندتر از 3090 TI بدون Xformers بود ، اما 20 ٪ سریعتر با Xformers.
به نظر می رسد که وضوح پیچیده تر هدف 2048×1152 شروع به استفاده بهتر از منابع محاسباتی بالقوه می کند ، و شاید زمان طولانی تر مدت زمان طولانی به این معنی باشد که هسته های تانسور می توانند عضله خود را به طور کامل خم کنند.
در نهایت ، این در بهترین حالت یک عکس فوری در زمان عملکرد انتشار پایدار است. ما شاهد به روزرسانی های مکرر پروژه ، پشتیبانی از کتابخانه های مختلف آموزش و موارد دیگر هستیم. ما در مورد تجدید نظر بیشتر این موضوع در سال آینده خواهیم دید ، امیدوارم با کد بهینه سازی بهتر برای همه GPU های مختلف.
به متخصصانی که سخت افزار تام را برای آهنگ داخلی در اخبار فن آوری علاقه مندان خوانده اند – بپیوندید و بیش از 25 سال داشته باشید. ما اخبار شکستن و بررسی های عمیق CPU ، GPU ، AI ، سخت افزار سازنده و مستقیم تر به صندوق ورودی شما ارسال خواهیم کرد.
با ارسال اطلاعات خود با شرایط و ضوابط و خط مشی رازداری موافقت می کنید و در سن 16 سالگی یا بالاتر هستید.
Jarred Walton یک ویراستار ارشد در سخت افزار تام است که با تمرکز بر همه چیز GPU. او از سال 2004 به عنوان روزنامه نگار فنی مشغول به کار بوده و برای AnandTech ، Maximum PC و PC Gamer می نویسد. از اولین S3 Virge ‘3D Decelerators’ گرفته تا GPU های امروز ، Jarred با آخرین روند گرافیکی ادامه می دهد و همان کسی است که در مورد عملکرد بازی سؤال می کند.