Imprastraktura ng Digio

Mga modelo ng AI at GPU

Magpatakbo ng mga ahente sa mga pinamamahalaang modelo ng hangganan ngayon—o umarkila ng kapasidad ng GPU, i-deploy ang sarili mong mga timbang, at iruta ang mga gawain ng Digio sa mga pribadong endpoint sa parehong workspace.

Label ng UI ng website ng B2B SaaS. Isalin sa natural na fil: Claude, GPT, Gemini Pagpili ng modelo ng bawat ahente Pagrenta ng GPU at BYOM
Mga pinamamahalaang modelo

Available ang mga modelo sa Digio ngayon

Magtalaga ng default na modelo sa bawat ahente o mag-override sa bawat gawain. Ang paggamit ay sinusukat sa Digio Token mula sa balanse ng iyong plano—ang parehong wallet kung ang ahente ay tumawag sa Sonnet, GPT-4o, o Gemini Flash.

Label ng UI ng website ng B2B SaaS. Isalin sa natural na fil: Anthropic Claude

  • Claude Opus 4.7 Pangunahing pangangatwiran, mahabang konteksto, arkitektura at diskarte sa trabaho.
  • Claude Opus 4.6 Nakaraang henerasyong Opus para sa matatag, mataas na kalidad na pagsusuri.
  • Claude Sonnet 4.6 Pang-araw-araw na driver—coding, writing, at multi-step agent loops.
  • Claude Sonnet 4.5 / 4 Mabilis na mga tier ng Sonnet na may mabilis na pag-cache sa mga sinusuportahang workload.
  • Claude Haiku 4.5 Mga draft na may mababang latency, pag-uuri, at mga subtask na may mataas na volume.

Label ng UI ng website ng B2B SaaS. Isalin sa natural na fil: OpenAI

  • GPT-5.5 / GPT-5.4 / GPT-5.2 Pinakabagong pamilya ng GPT-5 para sa pangkalahatan at ahenteng mga workload.
  • GPT-4.1 & GPT-4o Maaasahang multimodal chat at paggamit ng tool para sa mga ahente ng produksyon.
  • GPT-4o mini Cost-efficient routing para sa mga buod at magaan na hakbang.
  • o3 / o3-pro / o3-mini / o4-mini Mga modelong nakatuon sa pangangatwiran para sa matematika, pagpaplano, at pag-verify.
  • GPT-5.3 Codex & Codex mini Mga kasanayan sa pagbuo ng code, refactor, at repo-aware na ahente.

Label ng UI ng website ng B2B SaaS. Isalin sa natural na fil: Google Gemini

  • Gemini 2.5 Pro Pananaliksik sa mahabang konteksto at nakabalangkas na pagkuha.
  • Gemini 2.5 Flash Mga hakbang ng ahente na may mataas na throughput na may mapagkumpitensyang mga rate ng token.
  • Gemini 2.0 Flash Mga napakabilis na pass para sa pag-parse, pag-tag, at mga batch na trabaho.

Mga bukas at dalubhasang API

  • DeepSeek Chat & Reasoner Malakas na halaga para sa chat at chain-of-thought style na mga gawain.
  • Mistral Large Opsyon na naka-host sa Europa para sa mga multilinggwal na agent team.
  • Llama 3.3 70B Open-weights class model sa pamamagitan ng API—mahusay na pares sa pribadong GPU.
  • Grok 3 Real-time na modelo para sa mga ahente ng balita at social monitoring.
  • Sonar Pro Mga sagot na batay sa paghahanap para sa mga ahente ng pananaliksik.
  • Command R+ RAG-friendly na enterprise chat at retrieval workflows.

Model list and token economics evolve with provider releases. Your workspace shows live options when you assign a model to an agent; Digio Tokens debit from the same balance as in pricing.

Paggamit

Paano pumili ng modelo ang mga ahente

Maaaring magrekomenda ang Coordinator ng Sonnet vs Opus kumpara sa mas murang flash model batay sa uri ng gawain. Ang mga power user ay nagtakda ng mga default sa bawat tungkulin ng ahente—pananaliksik sa Sonnet, huling pagsusuri sa Opus, maramihang pag-tag sa Haiku o Gemini Flash.

  • Per agent — default model in agent settings; override in To do or chat when needed.

  • Metered fairly — input, output, and cached tokens map to Digio Token charges (see usage in your wallet).

  • Skills stay the same — tools and integrations work across models; only latency and cost profile change.

  • Plan limits — more agents and monthly Digio Tokens on higher tiers; top up anytime on the pricing page.

Pagrenta ng GPU

Magrenta ng GPU at magpatakbo ng sarili mong mga modelo

Kailangan mo ng fine-tune, air-gapped checkpoint, o predictable inference pricing? Magdagdag ng nakalaang kapasidad ng GPU sa iyong Digio workspace, i-install ang serving stack na gusto mo, at ituro ang mga ahente sa iyong pribadong endpoint.

Mga nakalaang pagkakataon

Oras-oras o buwanang mga GPU node (A100, H100, L40S class) na naka-attach sa iyong nangungupahan—na nakahiwalay sa ibang mga customer.

Ang iyong mga timbang

Mag-upload ng mga safetensor, GGUF, o pull mula sa iyong registry; magpatakbo ng Llama, Mistral, Qwen, at mga custom na fine-tune.

Karaniwang paghahatid

vLLM, TGI, Ollama, o mga larawan ng container na pinapanatili mo—Tumawag ang mga ahente ng Digio sa isang OpenAI-compatible na base URL.

Parehong orkestra

Upang gawin, ang pakikipag-chat sa koponan, mga kasanayan, at pakikipagtulungan ay hindi nagbabago—ang inference na backend lang ay sa iyo.

Hybrid na pagruruta

Magpadala ng mga sensitibong hakbang sa pribadong GPU at gamitin ang Claude o GPT para sa pampublikong pananaliksik sa isang daloy ng trabaho.

Mga kontrol sa negosyo

VPC peering, static egress, audit logs, at model allowlist para sa mga kinokontrol na team.

Dalhin ang iyong sariling modelo

Mag-install at magkonekta ng custom na modelo

Karaniwang pag-setup mula zero hanggang sa mga ahente na tumatawag sa iyong endpoint:

  1. Magreserba ng GPU

    Piliin ang VRAM, rehiyon, at uptime (burst vs always-on). Ang storage para sa mga weight ay ipinapadala kasama ang instance o i-mount ang iyong bucket.

  2. I-deploy ang stack

    Magsimula ng paghahatid ng imahe o SSH sa, mag-install ng mga driver ng CUDA, at mag-load ng mga checkpoint. Kinukumpirma ng mga pagsusuri sa kalusugan na handa na ang modelo.

  3. Magrehistro ng endpoint

    Magdagdag ng base URL, API key, at model id sa mga setting ng workspace. Digio validate latency at token format bago mag-live.

  4. Italaga sa mga ahente

    Piliin ang iyong pribadong modelo bilang default para sa mga napiling ahente; Ang mga pinamamahalaang modelo ng Claude/GPT ay nananatiling available nang magkatabi.

Ang pagrenta ng GPU ay sinisingil nang hiwalay mula sa mga subscription sa Digio plan. Makipag-ugnayan sa amin para sa pagpaplano ng kapasidad, mga SLA, at paglipat mula sa isang kasalukuyang cluster ng inference.

Label ng UI ng website ng B2B SaaS. Isalin sa natural na fil: FAQ

Mga tanong sa modelo at GPU

Pagpili ng mga pinamamahalaang API kumpara sa self-hosted inference sa Digio.

Nagbabayad ba ako ng dalawang beses—plan plus API?

Ang iyong subscription sa Digio ay sumasaklaw sa imprastraktura, mga ahente, at kasamang Digio Token. Mga debit sa paggamit ng pinamamahalaang modelo na balanse ng token sa pamamagitan ng aktwal na mga token ng input/output. Ang pagrenta ng GPU ay isang add-on para sa mga makinang kinokontrol mo.

Maaari bang gumamit ng iba't ibang modelo ang iba't ibang ahente?

Oo—maaaring magkaroon ng sariling default ang bawat ahente. Maaaring i-override ang mga gawain at chat para sa isang pagtakbo nang hindi binabago ang pangkalahatang default.

Ano ang pagkakaiba ng Sonnet at Opus?

Ang Opus ay nakatutok para sa mas mahirap na pangangatwiran at mas mahabang magkakaugnay na mga plano; Ang soneto ay mas mabilis at mas mura para sa pang-araw-araw na mga loop ng ahente. Ang mga modelo ng Haiku at flash-class ay pinakamainam para sa mga subtask ng volume.

Maaari ko bang patakbuhin ang sarili kong modelo lamang at i-block ang mga cloud API?

Maaaring paghigpitan ng mga workspace ng enterprise ang mga provider ng papalabas na modelo at iruta ang lahat ng trapiko ng ahente sa iyong GPU endpoint. Ang hybrid mode ay ang default para sa karamihan ng mga team.

Aling mga laki ng GPU ang available?

Nakadepende ang mga alok sa rehiyon at demand—karaniwang 24–80 GB na mga tier ng VRAM para sa 7B–70B na mga modelo ng klase at mga multi-GPU node para sa mas malalaking stack. Tinutulungan namin ang laki ng VRAM mula sa iyong parameter count at quantization.

Kumokonsumo pa rin ba ng Digio Token ang paggamit ng pribadong GPU?

Ang orkestrasyon (mga ahente, gawain, imbakan) ay mananatili sa iyong plano. Ang hinuha sa iyong GPU ay sinisingil bilang oras ng GPU; maaari mong opsyonal na sukatin ang paggamit na hugis token para sa panloob na chargeback.

Pumili ng mga pinamamahalaang modelo o dalhin ang iyong GPU

Magsimula sa Claude at GPT ngayon, pagkatapos ay magdagdag ng dedikadong GPU kapag handa ka nang mag-host ng mga custom na timbang—parehong ahente, parehong gawain, ang iyong hinuha.