视频讲解
安装jetson_containers
git clone https://github.com/dusty-nv/jetson-containers
bash jetson-containers/install.sh
运行ollama容器,加载LLM
# 运行 ollama 容器,首次会下载
jetson-containers run --name ollama $(autotag ollama)
# 运行 deepseek 1.5b,首次会自动 pull 镜像
ollama run deepseek-r1:1.5b
# 运行 deepseek 8b 占用大概内存 6-7G
ollama run deepseek-r1:8b
# verbose 增加详尽的输出,会将当前的 tokens 速率等显示出来
ollama run deepseek-r1:8b -verbose
# 列出已经下载的 LLM
ollama list
输出解释
total duration: 3m31.258084877s
load duration: 29.482802ms
prompt eval count: 34 token(s)
prompt eval duration: 622ms
prompt eval rate: 54.66 tokens/s
eval count: 1417 token(s)
eval duration: 3m30.603s
eval rate: 6.73 tokens/s
“prompt eval rate(提示评估速率)”
指的是在对输入的提示(prompt)进行评估处理时,模型每秒能够处理的tokens数量。提示通常是用户输入给模型的文本内容,用于引导模型生成特定的输出,prompt eval rate主要衡量的是模型处理初始输入提示部分的速度和效率。
“eval rate(评估速率)”
是模型在整体评估过程中,每秒处理tokens的数量。这里的评估过程不仅仅包括对输入提示的处理,还涵盖了模型根据提示进行推理、计算、生成等一系列操作的整个过程,它反映的是模型在完整的任务执行过程中的综合处理速度。
部署Anything LLM容器
export STORAGE_LOCATION=/opt/anythingllm
sudo mkdir -p $STORAGE_LOCATION
sudo chmod 777 -R $STORAGE_LOCATION
touch "$STORAGE_LOCATION/.env"
sudo docker run -it --rm -p 3001:3001 --cap-add SYS_ADMIN -v ${STORAGE_LOCATION}:/app/server/storage -v ${STORAGE_LOCATION}/.env:/app/server/.env -e STORAGE_DIR="/app/server/storage" ghcr.io/mintplex-labs/anything-llm
配置
使用