[ Zavřít ] 


 

RSS Kanál

 

DeepSeek R1 a Qwen2.5-Max: přijde osvěžení AI z Číny?

Nové AI modely DeepSeek R1 a Qwen2.5-Max představují dva odlišné přístupy k tréninku a provozním nárokům, které by mohly zásadně ovlivnit budoucí vývoj umělé inteligence. Zatímco DeepSeek R1 se profiluje jako model postavený na vysokém výkonu (původně údajně trénovaný na ~2.048 GPU, dnes však diskutovaném i s možností řádově vyšších čísel), Qwen2.5-Max staví na optimalizovaných algoritmech a efektivitě výpočtů. Jaké jsou jejich klíčové parametry a co nám tyto novinky přinášejí?

 

DeepSeek R1 a Qwen2.5-Max: přijde osvěžení AI z Číny? (Zdroj: Mistral.ai)

Konvergence technologií a snaha o efektivitu

Umělá inteligence prochází zásadní transformací. Zatímco tradiční přístup spočíval ve škálování výpočetních zdrojů – investice do obrovských datových center a tisícovek GPU – noví hráči z Číny ukazují, že optimalizací softwaru a inovativními přístupy lze dosáhnout špičkových výsledků s nižšími náklady. Na scéně se objevil DeepSeek se svým modelem R1 a konkurenceschopný Qwen2.5-Max, které představují odlišné strategie, ale mají společný cíl: zefektivnit vývoj AI a otevřít cestu k levnějším a dostupnějším řešením.

Disruptivní potenciál DeepSeek se už zpochybňuje (Zdroj: DeepSeek.com)

DeepSeek

DeepSeek (čínsky 深度求索, pinyin Shēndù Qiúsuǒ) je čínská společnost specializující se na vývoj open-source velkých jazykových modelů (LLM). Společnost byla založena v červenci 2023 v Chang-čou, provincii Če-ťiang, a jejím zakladatelem a současným CEO je Liang Wenfeng. 

Financování společnosti zajišťuje čínský hedgeový fond High-Flyer, který poskytl prostředky na vývoj a trénink jejich modelů. Tato podpora umožnila DeepSeek investovat do potřebného hardwaru a lidských zdrojů pro vývoj špičkových AI technologií. 

Společnost klade důraz na otevřenost a spolupráci s výzkumnou komunitou. Většina jejich modelů a tréninkových dat je dostupná jako open-source, což umožňuje dalším vývojářům a vědcům využívat a vylepšovat jejich technologie. Tento přístup přispěl k rychlému šíření jejich technologií a zvýšení jejich vlivu v AI komunitě. 

Navzdory svému čínskému původu se DeepSeek snaží o globální dosah. Jejich aplikace pro chatboty, založená na modelu DeepSeek-R1, byla uvedena na trh v lednu 2025 a rychle se stala nejstahovanější bezplatnou aplikací v App Store v USA, čímž předstihla i ChatGPT

Čínská AI laboratoř DeepSeek se rychle prosadila díky svým inovacím v oblasti tréninku velkých jazykových modelů (LLM). Původní tvrzení uváděla, že k tréninku modelu R1 bylo využito přibližně 2,048 vysoce výkonných grafických čipů - konkrétně varianty GPU založené na architekturách NVIDIA H100 a A100, případně jejich upravených verzích (H800) přizpůsobených pro vývoz do Číny.

Novější analýzy a zprávy však naznačují, že reálné nároky na hardware mohou být řádově vyšší – některé zdroje dokonce spekulují, že by číslo mohlo dosahovat až 50 tisíc GPU, což však nelze brát doslova, nýbrž jako ukazatel nejistoty ohledně přesných provozních nároků a celkových investic do tréninku modelu R1.

Qwen2.5-Max má být ještě výkonnější než DeepSeek R1 - dle závěrů jeho vlastních vývojářů (Zdroj: QwenLM.ai)

Qwen

Qwen je skupina LLM vyvinutých společností Alibaba Cloud. Zahrnuje i několik specializovaných modelů:

  • Qwen-VL: zaměřený na zpracování vizuálních informací;
  • Qwen-Audio: specializovaný na zpracování zvukových dat;
  • Qwen-Coder: určený pro programování a kódování;
  • Qwen-Math: zaměřený na matematické výpočty.

Tyto modely jsou navrženy tak, aby pokrývaly široké spektrum aplikací v oblasti umělé inteligence, od zpracování přirozeného jazyka po multimodální úlohy. Alibaba Cloud zpřístupnila tyto modely open-source komunitě, což umožňuje jejich široké využití a přizpůsobení pro různé potřeby. 

Na druhé straně se profiluje Qwen, model, který 

DeepSeek R1 a Qwen2.5-Max

DeepSeek R1

DeepSeek-R1 je pokročilý LLM vyvinutý společností DeepSeek. Je dostupný coby open-source pod licencí MIT, což umožňuje široké využití a přizpůsobení v různých aplikacích. 

DeepSeek-R1 dosahuje výkonu srovnatelného s předními modely, jako je OpenAI-o1, a to zejména v oblastech matematiky, programování a logického uvažování. Byl trénován na rozsáhlých datových sadách a dále vylepšen pomocí metod posilovaného učení s lidskou zpětnou vazbou (Reinforcement Learning from Human Feedback, RLHF). 

Jednou z klíčových vlastností DeepSeek-R1 je jeho efektivita. Model byl navržen tak, aby poskytoval vysoký výkon při nižších nákladech na výpočetní zdroje, což umožňuje jeho nasazení i na méně výkonném hardwaru. Tato efektivita byla dosažena prostřednictvím optimalizací v tréninkových postupech a architektuře modelu. 

DeepSeek-R1 je dostupný prostřednictvím různých platforem, včetně webového rozhraní, mobilní aplikace a API, což usnadňuje jeho integraci do různých systémů a aplikací.

Schopnosti a parametry DeepSeek R1

  • výpočetní nároky: původně se uvádělo, že R1 byl trénován na 2 048 GPU (H800 varianty), což by při hypotetickém pronájmu vycházelo na přibližně 5,6 milionu USD za finální trénink;
  • inovace: DeepSeek R1 využívá pokročilé metody pro paralelní trénink, optimalizaci komunikace mezi GPU a snižování nákladů pomocí technik, jako je distillation (destilace);
  • výkon: DeepSeek R1 se profiluje jako konkurenceschopný vůči předním modelům z USA, jako je OpenAI o1, ale s výrazně nižšími provozními nároky.

Nicméně, jak se objevují nové informace, někteří odborníci zpochybňují původní čísla, což naznačuje, že za celkovou technologií stojí mnohem větší investice do hardware a infrastruktur – některé zdroje spekulují o číslech až v řádu desítek tisíc GPU, což ale spíše ukazuje na složitost a nejistotu ohledně přesného vyčíslení provozních nákladů.

Qwen2.5-Max

Qwen 2.5-Max je nejnovější a dosud nejpokročilejší verzi v sérii Qwen. Byl trénován na více než 20 bilionech tokenů a dále vylepšen pomocí metod Supervised Fine-Tuning (SFT) a Reinforcement Learning from Human Feedback (RLHF). Díky těmto technikám dosahuje Qwen 2.5-Max vynikajících výsledků v klíčových benchmarcích, jako jsou MMLU, HumanEval a MATH, a překonává tak modely jako GPT-4o, DeepSeek-V3 a Llama-3.1-405B. 

Qwen 2.5-Max se zaměřuje na maximální optimalizaci výpočtů a snižování nákladů na provoz. Qwen2.5-Max využívá inovativní algoritmy a optimalizační techniky, díky kterým dokáže nabídnout konkurenční výkon při nižších výpočetních nárocích. Tento model je navržen tak, aby eliminoval nadbytečné operace, čímž se výrazně snižují provozní náklady a umožňuje se efektivnější využití dostupného hardwaru.

Model je dostupný prostřednictvím platformy Qwen Chat, kde si můžete vyzkoušet jeho schopnosti v různých scénářích, včetně interaktivních rozhovorů a vyhledávání informací. API pro Qwen 2.5-Max je rovněž k dispozici, což umožňuje integraci tohoto modelu do různých aplikací a služeb.

Schopnosti a parametry Qwen2.5-Max

  • optimalizace: Qwen2.5-Max staví na optimalizacích, které umožňují snížit výpočetní zátěž bez kompromisu na výkonu. Díky sofistikovaným algoritmům je možné ušetřit na energetických nákladech a provozních výdajích;
  • výkon: navzdory nižším nárokům na hardware dosahuje model vysoké rychlosti zpracování dat, což je klíčové pro komerční využití a škálovatelnost v reálném prostředí;
  • flexibilita: díky nižším provozním nárokům se model může nasadit i v menších datacentrech či lokálních systémech, což zvyšuje jeho atraktivitu pro širší spektrum uživatelů.

Oba modely představují významný posun v tom, jak lze dosahovat špičkového výkonu s nižšími náklady, a to díky novým přístupům k optimalizaci tréninkových algoritmů a efektivnějšímu využití dostupného hardwaru.

 

Srovnání AI modelů DeepSeek R1 a Qwen2.5-Max

 
Parametry/Schopnosti DeepSeek R1 Qwen2.5-Max
Tréninková infrastruktura Původně uváděno 2 048 GPU H800; novější údaje zpochybňují přesnost, spekulace o vyšších číslech Optimalizovaná architektura s výrazně nižšími provozními nároky, méně GPU
Náklady na trénink Oficiálně kolem 5,6 milionu USD za finální běh; celkové investice však mohou být řádově vyšší (včetně R&D) Nízké provozní náklady díky optimalizacím, které snižují potřebu rozsáhlých datových center
Výkon a konkurenceschopnost Konkurenceschopný s předními americkými modely (např. OpenAI o1), ale původní tvrzení vyvolávají otázky Dosahuje vysokého výkonu a efektivity, ideální pro širší komerční využití
Inovace a optimalizace Využívá techniky jako destilace a pokročilou paralelizaci; některé detaily zůstávají nejisté Zaměřuje se na eliminaci nadbytečných operací, efektivní využití hardwaru a škálovatelnost
 

DeepSeek R1 se zaměřuje na dosažení maximálního výkonu s využitím vysoce výkonných GPU, přičemž původní tvrzení o využití pouze 2 000 čipů jsou nyní předmětem diskuzí. Tato nejistota naznačuje, že za model R1 může stát mnohem vyšší investice do hardwaru a infrastruktury, než se původně uvádělo.

Naopak Qwen2.5-Max představuje přístup orientovaný na optimalizaci a efektivitu, který umožňuje snížit provozní náklady a usnadnit nasazení v širším spektru aplikací. Zatímco DeepSeek R1 se profiluje jako high-end řešení pro náročné AI úlohy, Qwen2.5-Max nabízí řešení, která mohou být dostupnější a flexibilnější pro komerční využití.

Oba modely – DeepSeek R1 a Qwen2.5-Max – představují zajímavé cesty k posunu v oblasti umělé inteligence. DeepSeek R1, ač původně prezentován s relativně nízkými nároky na hardware, vyvolává diskuse o přesnosti těchto údajů a možná dokonce o řádově vyšších investicích do infrastruktury. Na druhé straně Qwen2.5-Max demonstruje, že efektivní optimalizace a inovativní algoritmické přístupy mohou vést k výraznému snížení provozních nákladů, aniž by byl ohrožen výkon. Tato diverzifikace přístupů může mít zásadní dopad na budoucí vývoj AI, s tím, že konkurenceschopnost se nebude odvíjet pouze od brutální výpočetní síly, ale také od efektivity a nákladové dostupnosti.

Příchod těchto modelů signalizuje možnou změnu paradigmat – od masivního škálování hardwaru k jemnějším optimalizacím, které by mohly demokratizovat přístup k pokročilým AI technologiím.

Zdroje

 

 

 

 

 

Mistral Small 3: malý, ale s velkými možnostmi

Francouzští vývojáři Mistral, známí svou láskou k open-source, přichází s novým AI modelem Mistral Small 3. S 24 miliardami parametrů je sice menší než konkurenční obři, zato však nabízí rychlost, nízké...

Grok od xAI: první kroky v podobě samostatné aplikace

Grok, umělý inteligentní asistent od společnosti xAI, udělal další krok na cestě k větší dostupnosti. Coby samostatná aplikace se šíří na další platformy. Co Grok nabídne, kde ho již můžeme vyzkoušet a co teprve přijde? ...

VLC otitulkuje i neotitulkované... samozřejmě s pomocí AI

Nejhorší je, když najdete filmovou perlu, ale nemáte k ní titulky. A když už je najdete, tak nesedí. A i když ve VLC posunete jejich časování vůči časování zvukové stopy, tak se ty stopy neustále rozcházejí - a to dokonce nikoliv symetricky. To pak...

Gemini 2.0: multimodální a více po ruce

Google uvádí Gemini 2.0, novou generaci svého ústředního modelu AI. Přináší zásadní vylepšení napříč spektrem svých funkcí: od bleskurychlého zpracování dat s projektem Flash, přes multimodální...


 
© 2005-2025 PS Media s.r.o. - digital world
 

reklama