Quiet
  • HOME
  • ARCHIVE
  • CATEGORIES
  • TAGS
  • LINKS
  • ABOUT

Alex

  • HOME
  • ARCHIVE
  • CATEGORIES
  • TAGS
  • LINKS
  • ABOUT
Quiet主题
  • Reading

WRDS-CIQ-Simulation

Alex.Y
Weekly

2025-12-11 09:00:00

WRDS-CIQ-Simulation

一、整体架构设计

┌─────────────────────────────────────────────────┐
│ 用户界面 │
│ (Web应用或API接口) │
└───────────────┬─────────────────────────────────┘
│
┌───────────────▼─────────────────────────────────┐
│ API服务层 │cesdhifsdfs
│ (Flask/FastAPI,处理业务逻辑) │
└───────────────┬─────────────────────────────────┘
│
┌───────────────▼─────────────────────────────────┐
│ 大模型服务层 │
│ (DeepSeek API集成 + 本地特征提取) │
└───────────────┬─────────────────────────────────┘
│
┌───────────────▼─────────────────────────────────┐
│ 数据存储层 │
│ (向量数据库 + 关系数据库 + 文件存储) │
└─────────────────────────────────────────────────┘

特征提取的三级体系

第一级:表层特征(基于规则和统计)
├── 文本统计特征
│ ├── 平均句长、段落长度
│ ├── 词汇丰富度(不同词汇数/总词汇数)
│ ├── 专业术语密度
│ └── 标点符号使用习惯
├── 结构特征
│ ├── 开头/结尾模式
│ ├── 段落组织方式
│ └── 过渡词使用频率
└── 语言风格特征
├── 正式度评分
├── 情感倾向
└── 语气强度

第二级:中层特征(基于NLP技术)
├── 主题分布(LDA/Topic Modeling)
├── 实体识别(人物、组织、产品)
├── 关键词提取(TF-IDF/TextRank)
└── 句法复杂度分析

第三级:深层特征(基于大模型)
├── 风格指纹提取
├── 修辞手法识别
├── 论证逻辑分析
└── 价值观倾向识别

大模型选择策略

多层模型应用策略

模型策略 = {
“基础分析层”: {
“模型”: “DeepSeek-chat”,
“用途”: “文本理解、基础特征提取”,
“成本”: “低”
},
“深度分析层”: {
“模型”: “DeepSeek-coder或GPT-4”,
“用途”: “复杂特征提取、模式识别”,
“成本”: “中”
},
“生成建议层”: {
“模型”: “DeepSeek-chat”,
“用途”: “基于特征的个性化建议生成”,
“成本”: “低”
}
}

二、Presentation Embedding(speech-vectorizer)

Steps:

1. Connect to MySQL, Select presentation componenttext from ciq records.

transcriptcomponenttypeid = 2

create a view to sum presenters from ciqs.

select count(*) from ciq_v_presenter cvp –144244

2. Load FinBert Model and tokenizer, embedding every presentation sentences

Deal methods when text length > 512

  • 均值 (mean): 所有分段向量的平均值,最平衡
  • 加权平均 (weighted): 根据分段长度加权,长段落影响更大
  • 首段 (first): 仅使用第一个分段,适合标题式内容
  • 最大值 (max): 取各维度最大值,强调最强特征
  • 最小值 (min): 取各维度最小值,较少使用

3. Sotre embeddings and meta data into ChromaDB

meta data: companyid, transcriptid, transcriptcomponentid, mostimportantdateutc, transcriptpersonid, transcriptpersonname

Chroma 是一款开源的向量数据库,专为高效存储和检索高维向量数据设计。其核心能力在于语义相似性搜索,支持文本、图像等嵌入向量的快速匹配,广泛应用于大模型上下文增强(RAG)、推荐系统、多模态检索等场景。与传统数据库不同,Chroma 基于向量距离(如余弦相似度、欧氏距离)衡量数据关联性,而非关键词匹配。

GitHub地址:https://github.com/chroma-core/chroma

官方文档:https://docs.trychroma.com/

核心优势

  • 轻量易用:以 Python/JS 包形式嵌入代码,无需独立部署,适合快速原型开发。
  • 灵活集成:支持自定义嵌入模型(如 OpenAI、HuggingFace),兼容 LangChain 等框架。
  • 高性能检索:采用 HNSW 算法优化索引,支持百万级向量毫秒级响应。
  • 多模式存储:内存模式用于开发调试,持久化模式支持生产环境数据落地。

集合名称: speech_vectors
文档数量: 18776

样本元数据字段:

  • companyid
  • companyname
  • embedding_strategy
  • mostimportantdateutc
  • processed_at
  • source
  • text_column
  • text_length
  • transcriptcomponentid
  • transcriptid
  • transcriptpersonid
  • transcriptpersonname

第一个样本详情:
embedding_strategy: mean
transcriptpersonid: 18077
text_column: componenttext
transcriptcomponentid: 222561
source: MySQL_ciq_v_presenter
transcriptpersonname: Sandra Rodriguez
text_length: 980
mostimportantdateutc: 2007-10-23
processed_at: 2025-12-12 16:39:46
companyname: Albemarle Corporation
transcriptid: 504
companyid: 18671

三、Speech Feature Extract and Analysis

1. 项目结构

speech-analysis/
├── feature_extractor.py # 特征提取器
├── pattern_analyzer.py # 模式分析器
├── style_profiler.py # 风格画像生成器
├── visualization.py # 可视化工具
├── report_generator.py # 报告生成器
└── requirements.txt # 新增依赖

12312

三、分析维度总结

1. 向量空间分析

  • 向量分布特征
  • 相似度分布
  • 主成分分析

2. 聚类分析

  • 发现自然分组
  • 分析每个聚类的特征
  • 识别异常值

3. 典型发言稿识别

  • 代表性发言稿
  • 独特发言稿
  • 影响力大的发言稿

4. 发言人风格分析

  • 个人风格签名
  • 风格一致性
  • 风格演变趋势

5. 文本模式分析

  • 关键词提取
  • 修辞模式
  • 结构特征

6. 对比分析

  • 发言人对比
  • 聚类间对比
  • 时间趋势对比

四、使用建议

  1. 初步探索:运行main.py获取整体分析报告
  2. 深入分析:针对特定聚类或发言人进行详细分析
  3. 可视化:使用可视化工具探索数据
  4. 迭代优化:根据分析结果调整特征提取策略

这个系统可以帮你深入理解发言稿的特征模式,识别优秀发言稿的共同特征,并为发言稿改进提供数据支持。

上一篇

从“激进”到“均衡与温和”

下一篇

企业员工培训vs学历教育培训vs职业教育培训

©2026 By Alex. 主题:Quiet
Quiet主题