DeepSeek AI(LLM大模型)、GenAI(AIGC)、GPU(WebGPU)、Metaverse、A2F、Deepfake、数字生命、ChatGPT、Copilot、Gemini

综述

术语概念：
  AGI - 通用人工智能(Artificial general intelligence)

  UGC - 用户产生内容(User generated content)
  AIGC - 人工智能生成内容(AI-Generated Content),AIGC指通过AI生成具体应用内容，而GenAI则指生成新数据的技术形式。
  GenAI - 生成式人工智能(Generative artificial intelligence)，GenAI领域比AIGC更广泛。

  GenAI Vs. AIGC

  深度伪造（英语：Deepfake），简称深伪，是英文“deep learning”（深度学习）和“fake”（伪造）的混成词，专指基于人工智能的人体图像合成技术的应用。此技术可将已有的图像或影片叠加至目标图像或影片上。

  数字生命 - 《流浪地球2》数字生命计划


Google Gemini聊天AI(免费) 注意 - 不配图中文、英文提问均正常；但中文+上传图片则会提示“我没法处理这个文件”和“此图片已遭移除”。

OpenAI ChatGPT 聊天AI(基于GPT4/付费) - OpenAI GPT-4o 相比现有模型，在视觉和音频理解方面尤其出色。

微软Copilot 基于ChatGPT(免登)

台积电（TSMC/台湾积体电路制造股份有限公司）主营半导体芯片
海力士HBM（High Bandwidth Memory/高带宽内存）GPU内存
英伟达（NVIDIA/台称“輝達”）显卡驱动信息查看命令：nvidia-smi

control net 和 comfy UI 能固定化角色或环境物体。

文生视频(Text-to-video) - OpenAI Sora、Runway Gen-2、Stable Video Diffusion、Pika

AI作曲音乐创作 - SUNO

大模型本地部署 - https://ollama.com/ 已支持 DeepSeek-R1 等。

国产大模型、AI聊天 - 阿里云 通义千问；百度 文心一言；Kimi 智能助手；字节跳动 豆包；DeepSeek(轻量化蒸馏版、高质量满血版/API接口集成)。

李彦宏："开源模型是智商税，永远应该选择闭源模型(文心一言)"。 DeepSeek推出后，李彦宏把文心一言也给开源了！😄

AI Agent（人工智能代理）

谷歌AI平台 - Google AI Gemini API（仅Google账号即可）、Vertex AI Gemini API（比前者功能更丰富，但需要基于Google Cloud）。

Java库接入AI平台 - https://docs.langchain4j.dev/integrations/language-models/google-vertex-ai-gemini
Vertex AI Gemini API参数解释
Google Gemini流式响应用法：new GenerativeModel(modelName, new VertexAI(projectId, location)).generateContentStream("Write a story about a magic backpack.") .stream() .forEach(System.out::println);

LLM大模型核心参数：
    参数筛选顺序为 Top-k -> Top-p，均受 Temperature 参数来决定选取概率；
    topK控制多样性，即采纳的token候选词个数，数值范围为1-40（默认32），选取后概率总和处于1.0(100%)内；
    topP控制意外性，即值越大词性就越中庸连贯，数值范围为0-1.0，注意是取值概率总和，并非只比对单项概率；
    temperature温度采样指数值越低越理性，越高则取值概率呈现不确定性或创造性；
    topK和topP筛选阶段产生的token数似乎不会计入收费数，用户输入的token数和模型响应的token数才会产生费用。

GPU显卡

Python是人工智能的首选编程语言吗？

Python深度学习框架：Google TensorFlow 和 Facebook PyTorch

安装NVIDIA CUDA与Facebook PyTorch

文本生成图像或视频(GenAI/文生图)：Stable Diffusion(开源免费)、Midjourney(商业付费)、Bing图像创建器(Web版)

Google免费GPU计算 - https://colab.google/ https://www.kaggle.com/

论文《Attention is All You Need》Transformer架构创始八子

大语言模型（英文：Large Language Model，缩写LLM）

Meta发布开源大模型Llama 3

NVIDIA Omniverse

Omniverse:
  价格 - 年订阅费每GPU要4500美元，初创企业三折1350美元，若云端搭建则每月License 730美元，且GPU硬件另付；https://build.nvidia.com/ 可免费体验5000次API调用，NVIDIA NIM API (serverless) 则按次收费。
  USD Composer即整体浅度修改工具；Omniverse Machinima(machine cinema)即引擎电影,等同USD Composer+动画视频编辑器；Omniverse Audio2Face即音频转面部表情制作工具,等同USD Composer+A2F编辑器；
  USD COMPOSER(4GB/安装批处理17分钟)点glb文件右键“Convert to USD”，但无导出gltf的UI界面，似乎仅脚本支持Asset Converter导gltf功能。
  ACE推出了 游戏AI陪玩队友。

Audio2Face-3D(A2F):
  注意 - Omniverse内的Blender版本较低，若导出失败，可换用Blender原版重新尝试。
    老版本*.blend文件用新版本Blender导出后可能会丢失部分材质，4.1起(支持USD BS动画导出)建立的新模型则应时时对照，尽量避免。
    Unable to load library: nvinfer_builder_resource.dll 致 Unable to build TensorRT network 问题解决：安装CUDA - developer.nvidia.com/cuda-downloads

  描述：
    A2F-3D 可通过NIM微服务方式自托管到PC电脑上，Linux或Windows WSL环境。
    Omniverse Audio2Face处理阶段只关心骨骼而无视素材，故只要绑定骨架即可。
    Audio2Face官方提供的3D模型，似乎用到了NVIDIA专用材质，故只能导出白模。
    处理流程 - 3D模型主控方为Blender，导出个*.usd文件供A2F生成BlendShapes权重文件，最后在游戏引擎等客户端组合为动画。

  素材：
    [亲测可用]Rain - A2F测试用人物3D模型(用Blender 4.1+导出/俩眼球没分离，暂不用即不眨眼/导出耗时25分钟)
      官方教程用的就是Rain模型 - https://docs.omniverse.nvidia.com/connect/latest/blender/audio2face.html
    Snow - A2F测试用人物3D模型(用Blender 4.1+导出/耗时数秒)

    Spring - 人物3D模型(导出*.glb报错)
    https://studio.blender.org/characters/phil/v1/ （导出3分钟/但Godot色彩全乱）
    https://studio.blender.org/characters/ellie/v1/ （导出*.glb报错）

Omniverse Machinima：
  视频 - UDIM textures即OmniPBR支持Albedo Map：x..png

Web

WebGPU