
DeepSeek R1 a Qwen2.5-Max: přijde osvěžení AI z Číny?Nové AI modely DeepSeek R1 a Qwen2.5-Max představují dva odlišné přístupy k tréninku a provozním nárokům, které by mohly zásadně ovlivnit budoucí vývoj umělé inteligence. Zatímco DeepSeek R1 se profiluje jako model postavený na vysokém výkonu (původně údajně trénovaný na ~2.048 GPU, dnes však diskutovaném i s možností řádově vyšších čísel), Qwen2.5-Max staví na optimalizovaných algoritmech a efektivitě výpočtů. Jaké jsou jejich klíčové parametry a co nám tyto novinky přinášejí?
Konvergence technologií a snaha o efektivituUmělá inteligence prochází zásadní transformací. Zatímco tradiční přístup spočíval ve škálování výpočetních zdrojů – investice do obrovských datových center a tisícovek GPU – noví hráči z Číny ukazují, že optimalizací softwaru a inovativními přístupy lze dosáhnout špičkových výsledků s nižšími náklady. Na scéně se objevil DeepSeek se svým modelem R1 a konkurenceschopný Qwen2.5-Max, které představují odlišné strategie, ale mají společný cíl: zefektivnit vývoj AI a otevřít cestu k levnějším a dostupnějším řešením. DeepSeekDeepSeek (čínsky 深度求索, pinyin Shēndù Qiúsuǒ) je čínská společnost specializující se na vývoj open-source velkých jazykových modelů (LLM). Společnost byla založena v červenci 2023 v Chang-čou, provincii Če-ťiang, a jejím zakladatelem a současným CEO je Liang Wenfeng. Financování společnosti zajišťuje čínský hedgeový fond High-Flyer, který poskytl prostředky na vývoj a trénink jejich modelů. Tato podpora umožnila DeepSeek investovat do potřebného hardwaru a lidských zdrojů pro vývoj špičkových AI technologií. Společnost klade důraz na otevřenost a spolupráci s výzkumnou komunitou. Většina jejich modelů a tréninkových dat je dostupná jako open-source, což umožňuje dalším vývojářům a vědcům využívat a vylepšovat jejich technologie. Tento přístup přispěl k rychlému šíření jejich technologií a zvýšení jejich vlivu v AI komunitě. Navzdory svému čínskému původu se DeepSeek snaží o globální dosah. Jejich aplikace pro chatboty, založená na modelu DeepSeek-R1, byla uvedena na trh v lednu 2025 a rychle se stala nejstahovanější bezplatnou aplikací v App Store v USA, čímž předstihla i ChatGPT Čínská AI laboratoř DeepSeek se rychle prosadila díky svým inovacím v oblasti tréninku velkých jazykových modelů (LLM). Původní tvrzení uváděla, že k tréninku modelu R1 bylo využito přibližně 2,048 vysoce výkonných grafických čipů - konkrétně varianty GPU založené na architekturách NVIDIA H100 a A100, případně jejich upravených verzích (H800) přizpůsobených pro vývoz do Číny. Novější analýzy a zprávy však naznačují, že reálné nároky na hardware mohou být řádově vyšší – některé zdroje dokonce spekulují, že by číslo mohlo dosahovat až 50 tisíc GPU, což však nelze brát doslova, nýbrž jako ukazatel nejistoty ohledně přesných provozních nároků a celkových investic do tréninku modelu R1. QwenQwen je skupina LLM vyvinutých společností Alibaba Cloud. Zahrnuje i několik specializovaných modelů:
Tyto modely jsou navrženy tak, aby pokrývaly široké spektrum aplikací v oblasti umělé inteligence, od zpracování přirozeného jazyka po multimodální úlohy. Alibaba Cloud zpřístupnila tyto modely open-source komunitě, což umožňuje jejich široké využití a přizpůsobení pro různé potřeby. Na druhé straně se profiluje Qwen, model, který DeepSeek R1 a Qwen2.5-MaxDeepSeek R1DeepSeek-R1 je pokročilý LLM vyvinutý společností DeepSeek. Je dostupný coby open-source pod licencí MIT, což umožňuje široké využití a přizpůsobení v různých aplikacích. DeepSeek-R1 dosahuje výkonu srovnatelného s předními modely, jako je OpenAI-o1, a to zejména v oblastech matematiky, programování a logického uvažování. Byl trénován na rozsáhlých datových sadách a dále vylepšen pomocí metod posilovaného učení s lidskou zpětnou vazbou (Reinforcement Learning from Human Feedback, RLHF). Jednou z klíčových vlastností DeepSeek-R1 je jeho efektivita. Model byl navržen tak, aby poskytoval vysoký výkon při nižších nákladech na výpočetní zdroje, což umožňuje jeho nasazení i na méně výkonném hardwaru. Tato efektivita byla dosažena prostřednictvím optimalizací v tréninkových postupech a architektuře modelu. DeepSeek-R1 je dostupný prostřednictvím různých platforem, včetně webového rozhraní, mobilní aplikace a API, což usnadňuje jeho integraci do různých systémů a aplikací. Schopnosti a parametry DeepSeek R1
Nicméně, jak se objevují nové informace, někteří odborníci zpochybňují původní čísla, což naznačuje, že za celkovou technologií stojí mnohem větší investice do hardware a infrastruktur – některé zdroje spekulují o číslech až v řádu desítek tisíc GPU, což ale spíše ukazuje na složitost a nejistotu ohledně přesného vyčíslení provozních nákladů. Qwen2.5-MaxQwen 2.5-Max je nejnovější a dosud nejpokročilejší verzi v sérii Qwen. Byl trénován na více než 20 bilionech tokenů a dále vylepšen pomocí metod Supervised Fine-Tuning (SFT) a Reinforcement Learning from Human Feedback (RLHF). Díky těmto technikám dosahuje Qwen 2.5-Max vynikajících výsledků v klíčových benchmarcích, jako jsou MMLU, HumanEval a MATH, a překonává tak modely jako GPT-4o, DeepSeek-V3 a Llama-3.1-405B. Qwen 2.5-Max se zaměřuje na maximální optimalizaci výpočtů a snižování nákladů na provoz. Qwen2.5-Max využívá inovativní algoritmy a optimalizační techniky, díky kterým dokáže nabídnout konkurenční výkon při nižších výpočetních nárocích. Tento model je navržen tak, aby eliminoval nadbytečné operace, čímž se výrazně snižují provozní náklady a umožňuje se efektivnější využití dostupného hardwaru. Model je dostupný prostřednictvím platformy Qwen Chat, kde si můžete vyzkoušet jeho schopnosti v různých scénářích, včetně interaktivních rozhovorů a vyhledávání informací. API pro Qwen 2.5-Max je rovněž k dispozici, což umožňuje integraci tohoto modelu do různých aplikací a služeb. Schopnosti a parametry Qwen2.5-Max
Oba modely představují významný posun v tom, jak lze dosahovat špičkového výkonu s nižšími náklady, a to díky novým přístupům k optimalizaci tréninkových algoritmů a efektivnějšímu využití dostupného hardwaru. Srovnání AI modelů DeepSeek R1 a Qwen2.5-Max
DeepSeek R1 se zaměřuje na dosažení maximálního výkonu s využitím vysoce výkonných GPU, přičemž původní tvrzení o využití pouze 2 000 čipů jsou nyní předmětem diskuzí. Tato nejistota naznačuje, že za model R1 může stát mnohem vyšší investice do hardwaru a infrastruktury, než se původně uvádělo. Naopak Qwen2.5-Max představuje přístup orientovaný na optimalizaci a efektivitu, který umožňuje snížit provozní náklady a usnadnit nasazení v širším spektru aplikací. Zatímco DeepSeek R1 se profiluje jako high-end řešení pro náročné AI úlohy, Qwen2.5-Max nabízí řešení, která mohou být dostupnější a flexibilnější pro komerční využití. Oba modely – DeepSeek R1 a Qwen2.5-Max – představují zajímavé cesty k posunu v oblasti umělé inteligence. DeepSeek R1, ač původně prezentován s relativně nízkými nároky na hardware, vyvolává diskuse o přesnosti těchto údajů a možná dokonce o řádově vyšších investicích do infrastruktury. Na druhé straně Qwen2.5-Max demonstruje, že efektivní optimalizace a inovativní algoritmické přístupy mohou vést k výraznému snížení provozních nákladů, aniž by byl ohrožen výkon. Tato diverzifikace přístupů může mít zásadní dopad na budoucí vývoj AI, s tím, že konkurenceschopnost se nebude odvíjet pouze od brutální výpočetní síly, ale také od efektivity a nákladové dostupnosti. Příchod těchto modelů signalizuje možnou změnu paradigmat – od masivního škálování hardwaru k jemnějším optimalizacím, které by mohly demokratizovat přístup k pokročilým AI technologiím. Zdroje
Daniel Beránek, 03.02.2025 20:16 Francouzští vývojáři Mistral, známí svou láskou k open-source, přichází s novým AI modelem Mistral Small 3. S 24 miliardami parametrů je sice menší než konkurenční obři, zato však nabízí rychlost, nízké... Grok, umělý inteligentní asistent od společnosti xAI, udělal další krok na cestě k větší dostupnosti. Coby samostatná aplikace se šíří na další platformy. Co Grok nabídne, kde ho již můžeme vyzkoušet a co teprve přijde?
... Nejhorší je, když najdete filmovou perlu, ale nemáte k ní titulky. A když už je najdete, tak nesedí. A i když ve VLC posunete jejich časování vůči časování zvukové stopy, tak se ty stopy neustále rozcházejí - a to dokonce nikoliv symetricky. To pak... Google uvádí Gemini 2.0, novou generaci svého ústředního modelu AI. Přináší zásadní vylepšení napříč spektrem svých funkcí: od bleskurychlého zpracování dat s projektem Flash, přes multimodální... |