WRDS-CIQ-Simulation

一、整体架构设计

┌─────────────────────────────────────────────────┐
│ 用户界面 │
│ (Web应用或API接口) │
└───────────────┬─────────────────────────────────┘
│
┌───────────────▼─────────────────────────────────┐
│ API服务层 │cesdhifsdfs
│ (Flask/FastAPI，处理业务逻辑) │
└───────────────┬─────────────────────────────────┘
│
┌───────────────▼─────────────────────────────────┐
│ 大模型服务层 │
│ (DeepSeek API集成 + 本地特征提取) │
└───────────────┬─────────────────────────────────┘
│
┌───────────────▼─────────────────────────────────┐
│ 数据存储层 │
│ (向量数据库 + 关系数据库 + 文件存储) │
└─────────────────────────────────────────────────┘

特征提取的三级体系

第一级：表层特征（基于规则和统计）
├── 文本统计特征
│ ├── 平均句长、段落长度
│ ├── 词汇丰富度（不同词汇数/总词汇数）
│ ├── 专业术语密度
│ └── 标点符号使用习惯
├── 结构特征
│ ├── 开头/结尾模式
│ ├── 段落组织方式
│ └── 过渡词使用频率
└── 语言风格特征
├── 正式度评分
├── 情感倾向
└── 语气强度

第二级：中层特征（基于NLP技术）
├── 主题分布（LDA/Topic Modeling）
├── 实体识别（人物、组织、产品）
├── 关键词提取（TF-IDF/TextRank）
└── 句法复杂度分析

第三级：深层特征（基于大模型）
├── 风格指纹提取
├── 修辞手法识别
├── 论证逻辑分析
└── 价值观倾向识别

大模型选择策略

多层模型应用策略

模型策略 = {
“基础分析层”: {
“模型”: “DeepSeek-chat”,
“用途”: “文本理解、基础特征提取”,
“成本”: “低”
},
“深度分析层”: {
“模型”: “DeepSeek-coder或GPT-4”,
“用途”: “复杂特征提取、模式识别”,
“成本”: “中”
},
“生成建议层”: {
“模型”: “DeepSeek-chat”,
“用途”: “基于特征的个性化建议生成”,
“成本”: “低”
}
}

二、Presentation Embedding(speech-vectorizer)

Steps:

1. Connect to MySQL, Select presentation componenttext from ciq records.

transcriptcomponenttypeid = 2

create a view to sum presenters from ciqs.

select count(*) from ciq_v_presenter cvp –144244

2. Load FinBert Model and tokenizer, embedding every presentation sentences

Deal methods when text length > 512

均值 (mean): 所有分段向量的平均值，最平衡
加权平均 (weighted): 根据分段长度加权，长段落影响更大
首段 (first): 仅使用第一个分段，适合标题式内容
最大值 (max): 取各维度最大值，强调最强特征
最小值 (min): 取各维度最小值，较少使用

3. Sotre embeddings and meta data into ChromaDB

meta data: companyid, transcriptid, transcriptcomponentid, mostimportantdateutc, transcriptpersonid, transcriptpersonname

Chroma 是一款开源的向量数据库，专为高效存储和检索高维向量数据设计。其核心能力在于语义相似性搜索，支持文本、图像等嵌入向量的快速匹配，广泛应用于大模型上下文增强（RAG）、推荐系统、多模态检索等场景。与传统数据库不同，Chroma 基于向量距离（如余弦相似度、欧氏距离）衡量数据关联性，而非关键词匹配。

GitHub地址：https://github.com/chroma-core/chroma

官方文档：https://docs.trychroma.com/

核心优势

轻量易用：以 Python/JS 包形式嵌入代码，无需独立部署，适合快速原型开发。
灵活集成：支持自定义嵌入模型（如 OpenAI、HuggingFace），兼容 LangChain 等框架。
高性能检索：采用 HNSW 算法优化索引，支持百万级向量毫秒级响应。
多模式存储：内存模式用于开发调试，持久化模式支持生产环境数据落地。

集合名称: speech_vectors
文档数量: 18776

样本元数据字段:

companyid
companyname
embedding_strategy
mostimportantdateutc
processed_at
source
text_column
text_length
transcriptcomponentid
transcriptid
transcriptpersonid
transcriptpersonname

第一个样本详情:
embedding_strategy: mean
transcriptpersonid: 18077
text_column: componenttext
transcriptcomponentid: 222561
source: MySQL_ciq_v_presenter
transcriptpersonname: Sandra Rodriguez
text_length: 980
mostimportantdateutc: 2007-10-23
processed_at: 2025-12-12 16:39:46
companyname: Albemarle Corporation
transcriptid: 504
companyid: 18671

三、Speech Feature Extract and Analysis

1. 项目结构

speech-analysis/
├── feature_extractor.py     # 特征提取器
├── pattern_analyzer.py      # 模式分析器
├── style_profiler.py        # 风格画像生成器
├── visualization.py         # 可视化工具
├── report_generator.py      # 报告生成器
└── requirements.txt         # 新增依赖

12312

三、分析维度总结

1. 向量空间分析

向量分布特征
相似度分布
主成分分析

2. 聚类分析

发现自然分组
分析每个聚类的特征
识别异常值

3. 典型发言稿识别

代表性发言稿
独特发言稿
影响力大的发言稿

4. 发言人风格分析

个人风格签名
风格一致性
风格演变趋势

5. 文本模式分析

关键词提取
修辞模式
结构特征

6. 对比分析

发言人对比
聚类间对比
时间趋势对比

四、使用建议

初步探索：运行main.py获取整体分析报告
深入分析：针对特定聚类或发言人进行详细分析
可视化：使用可视化工具探索数据
迭代优化：根据分析结果调整特征提取策略

这个系统可以帮你深入理解发言稿的特征模式，识别优秀发言稿的共同特征，并为发言稿改进提供数据支持。

Alex

WRDS-CIQ-Simulation

WRDS-CIQ-Simulation

一、整体架构设计

多层模型应用策略

二、Presentation Embedding(speech-vectorizer)

Steps:

1. Connect to MySQL, Select presentation componenttext from ciq records.

2. Load FinBert Model and tokenizer, embedding every presentation sentences

3. Sotre embeddings and meta data into ChromaDB

三、Speech Feature Extract and Analysis

1. 项目结构

三、分析维度总结

1. 向量空间分析

2. 聚类分析

3. 典型发言稿识别

4. 发言人风格分析

5. 文本模式分析

6. 对比分析

四、使用建议