Anthropic odhaľuje vnútorné procesy modelu Claude

Nové štúdie Anthropic odhaľujú vnútorné procesy Claude 3.5 Haiku pomocou ‚AI mikroskopu‘. Ukazujú, ako Claude plánuje slová dopredu, myslí v jazykovo nezávislom koncepčnom priestore a niekedy vytvára presvedčivé, no nesprávne odôvodnenia.

https://www.anthropic.com/research/tracing-thoughts-language-model

www.anthropic.com

Tracing the thoughts of a large language model \ Anthropic

Anthropic's latest interpretability research: a new microscope to understand Claude's internal mechanisms