AI计算、GPU显卡
综述
术语概念:
AGI - 通用人工智能(Artificial general intelligence)
UGC - 用户产生内容(User generated content)
AIGC - 人工智能生成内容(AI-Generated Content),AIGC指通过AI生成具体应用内容,而GenAI则指生成新数据的技术形式。
GenAI - 生成式人工智能(Generative artificial intelligence),GenAI领域比AIGC更广泛。
GenAI Vs. AIGC
深度伪造(英语:Deepfake),简称深伪,是英文“deep learning”(深度学习)和“fake”(伪造)的混成词,专指基于人工智能的人体图像合成技术的应用。此技术可将已有的图像或影片叠加至目标图像或影片上。
数字生命 - 《流浪地球2》数字生命计划
Google Gemini聊天AI(免费) 注意 - 不配图中文、英文提问均正常;但中文+上传图片则会提示“我没法处理这个文件”和“此图片已遭移除”。
OpenAI ChatGPT 聊天AI(基于GPT4/付费) - OpenAI GPT-4o 相比现有模型,在视觉和音频理解方面尤其出色。
台积电(TSMC/台湾积体电路制造股份有限公司)主营半导体芯片
海力士HBM(High Bandwidth Memory/高带宽内存)GPU内存
英伟达(NVIDIA/台称“輝達”)显卡驱动信息查看命令:nvidia-smi
control net 和 comfy UI 能固定化角色或环境物体。
文生视频(Text-to-video) - OpenAI Sora、Runway Gen-2、Stable Video Diffusion、Pika
AI作曲音乐创作 - SUNO
国产AI聊天 - 阿里云 通义千问;百度 文心一言; Kimi 智能助手。
AI Agent(人工智能代理)
谷歌AI平台 - Google AI Gemini API(仅Google账号即可)、Vertex AI Gemini API(比前者功能更丰富,但需要基于Google Cloud)。
Java库接入AI平台 - https://docs.langchain4j.dev/integrations/language-models/google-vertex-ai-gemini
Vertex AI Gemini API参数解释
Google Gemini流式响应用法:new GenerativeModel(modelName, new VertexAI(projectId, location)).generateContentStream("Write a story about a magic backpack.") .stream() .forEach(System.out::println);
LLM大模型核心参数:
参数筛选顺序为 Top-k -> Top-p,均受 Temperature 参数来决定选取概率;
topK控制多样性,即采纳的token候选词个数,数值范围为1-40(默认32),选取后概率总和处于1.0(100%)内;
topP控制意外性,即值越大词性就越中庸连贯,数值范围为0-1.0,注意是取值概率总和,并非只比对单项概率;
temperature温度采样指数值越低越理性,越高则取值概率呈现不确定性或创造性;
topK和topP筛选阶段产生的token数似乎不会计入收费数,用户输入的token数和模型响应的token数才会产生费用。
GPU显卡
Python是人工智能的首选编程语言吗? Python深度学习框架:Google TensorFlow 和 Facebook PyTorch 安装NVIDIA CUDA与Facebook PyTorch 文本生成图像或视频(GenAI/文生图):Stable Diffusion(开源免费)、Midjourney(商业付费)、Bing图像创建器(Web版) Google免费GPU计算 - https://colab.google/ https://www.kaggle.com/ 论文《Attention is All You Need》Transformer架构创始八子 大语言模型(英文:Large Language Model,缩写LLM) Meta发布开源大模型Llama 3
NVIDIA Omniverse
Omniverse: 价格 - 年订阅费每GPU要4500美元,初创企业三折1350美元,若云端搭建则每月License 730美元,且GPU硬件另付。 USD Composer即整体浅度修改工具;Omniverse Machinima(machine cinema)即引擎电影,等同USD Composer+动画视频编辑器;Omniverse Audio2Face即音频转面部表情制作工具,等同USD Composer+A2F编辑器; USD COMPOSER(4GB/安装批处理17分钟)点glb文件右键“Convert to USD”,但无导出gltf的UI界面,似乎仅脚本支持Asset Converter导gltf功能。 Audio2Face: 注意 - Omniverse内的Blender版本较低,若导出失败,可换用Blender原版重新尝试。 老版本*.blend文件用新版本Blender导出后可能会丢失部分材质,4.1起(支持USD BS动画导出)建立的新模型则应时时对照,尽量避免。 Unable to load library: nvinfer_builder_resource.dll 致 Unable to build TensorRT network 问题解决:安装CUDA - developer.nvidia.com/cuda-downloads 描述: Omniverse Audio2Face处理阶段只关心骨骼而无视素材,故只要绑定骨架即可。 Audio2Face官方提供的3D模型,似乎用到了NVIDIA专用材质,故只能导出白模。 处理流程 - 3D模型主控方为Blender,导出个*.usd文件供A2F生成BlendShapes权重文件,最后在游戏引擎等客户端组合为动画。 素材: [亲测可用]Rain - A2F测试用人物3D模型(用Blender 4.1+导出/俩眼球没分离,暂不用即不眨眼/导出耗时25分钟) 官方教程用的就是Rain模型 - https://docs.omniverse.nvidia.com/connect/latest/blender/audio2face.html Snow - A2F测试用人物3D模型(用Blender 4.1+导出/耗时数秒) Spring - 人物3D模型(导出*.glb报错) https://studio.blender.org/characters/phil/v1/ (导出3分钟/但Godot色彩全乱) https://studio.blender.org/characters/ellie/v1/ (导出*.glb报错) Omniverse Machinima: 视频 - UDIM textures即OmniPBR支持Albedo Map:x..png
Web
WebGPU