Jetson 利用 Ollama + Anything LLM 部署 Deepseek、LLama3

视频讲解

安装jetson_containers

git clone https://github.com/dusty-nv/jetson-containers
bash jetson-containers/install.sh

运行ollama容器，加载LLM

# 运行 ollama 容器，首次会下载
jetson-containers run --name ollama $(autotag ollama)

# 运行 deepseek 1.5b，首次会自动 pull 镜像
ollama run deepseek-r1:1.5b

# 运行 deepseek 8b 占用大概内存 6-7G
ollama run deepseek-r1:8b

# verbose 增加详尽的输出，会将当前的 tokens 速率等显示出来
ollama run deepseek-r1:8b -verbose

# 列出已经下载的 LLM
ollama list

输出解释

total duration: 3m31.258084877s
load duration: 29.482802ms
prompt eval count: 34 token(s)
prompt eval duration: 622ms
prompt eval rate: 54.66 tokens/s
eval count: 1417 token(s)
eval duration: 3m30.603s
eval rate: 6.73 tokens/s

“prompt eval rate（提示评估速率）”

指的是在对输入的提示（prompt）进行评估处理时，模型每秒能够处理的tokens数量。提示通常是用户输入给模型的文本内容，用于引导模型生成特定的输出，prompt eval rate主要衡量的是模型处理初始输入提示部分的速度和效率。

“eval rate（评估速率）”

是模型在整体评估过程中，每秒处理tokens的数量。这里的评估过程不仅仅包括对输入提示的处理，还涵盖了模型根据提示进行推理、计算、生成等一系列操作的整个过程，它反映的是模型在完整的任务执行过程中的综合处理速度。

部署Anything LLM容器

export STORAGE_LOCATION=/opt/anythingllm
sudo mkdir -p $STORAGE_LOCATION
sudo chmod 777 -R $STORAGE_LOCATION
touch "$STORAGE_LOCATION/.env"

sudo docker run -it --rm -p 3001:3001 --cap-add SYS_ADMIN -v ${STORAGE_LOCATION}:/app/server/storage -v ${STORAGE_LOCATION}/.env:/app/server/.env -e STORAGE_DIR="/app/server/storage" ghcr.io/mintplex-labs/anything-llm

安装jetson_containers

运行ollama容器，加载LLM

输出解释

部署Anything LLM容器

配置

使用