WRDS-CIQ-Simulation
一、整体架构设计
┌─────────────────────────────────────────────────┐
│ 用户界面 │
│ (Web应用或API接口) │
└───────────────┬─────────────────────────────────┘
│
┌───────────────▼─────────────────────────────────┐
│ API服务层 │cesdhifsdfs
│ (Flask/FastAPI,处理业务逻辑) │
└───────────────┬─────────────────────────────────┘
│
┌───────────────▼─────────────────────────────────┐
│ 大模型服务层 │
│ (DeepSeek API集成 + 本地特征提取) │
└───────────────┬─────────────────────────────────┘
│
┌───────────────▼─────────────────────────────────┐
│ 数据存储层 │
│ (向量数据库 + 关系数据库 + 文件存储) │
└─────────────────────────────────────────────────┘
特征提取的三级体系
第一级:表层特征(基于规则和统计)
├── 文本统计特征
│ ├── 平均句长、段落长度
│ ├── 词汇丰富度(不同词汇数/总词汇数)
│ ├── 专业术语密度
│ └── 标点符号使用习惯
├── 结构特征
│ ├── 开头/结尾模式
│ ├── 段落组织方式
│ └── 过渡词使用频率
└── 语言风格特征
├── 正式度评分
├── 情感倾向
└── 语气强度
第二级:中层特征(基于NLP技术)
├── 主题分布(LDA/Topic Modeling)
├── 实体识别(人物、组织、产品)
├── 关键词提取(TF-IDF/TextRank)
└── 句法复杂度分析
第三级:深层特征(基于大模型)
├── 风格指纹提取
├── 修辞手法识别
├── 论证逻辑分析
└── 价值观倾向识别
大模型选择策略
多层模型应用策略
模型策略 = {
“基础分析层”: {
“模型”: “DeepSeek-chat”,
“用途”: “文本理解、基础特征提取”,
“成本”: “低”
},
“深度分析层”: {
“模型”: “DeepSeek-coder或GPT-4”,
“用途”: “复杂特征提取、模式识别”,
“成本”: “中”
},
“生成建议层”: {
“模型”: “DeepSeek-chat”,
“用途”: “基于特征的个性化建议生成”,
“成本”: “低”
}
}
二、Presentation Embedding(speech-vectorizer)
Steps:
1. Connect to MySQL, Select presentation componenttext from ciq records.
transcriptcomponenttypeid = 2
create a view to sum presenters from ciqs.
select count(*) from ciq_v_presenter cvp –144244
2. Load FinBert Model and tokenizer, embedding every presentation sentences
Deal methods when text length > 512
- 均值 (mean): 所有分段向量的平均值,最平衡
- 加权平均 (weighted): 根据分段长度加权,长段落影响更大
- 首段 (first): 仅使用第一个分段,适合标题式内容
- 最大值 (max): 取各维度最大值,强调最强特征
- 最小值 (min): 取各维度最小值,较少使用
3. Sotre embeddings and meta data into ChromaDB
meta data: companyid, transcriptid, transcriptcomponentid, mostimportantdateutc, transcriptpersonid, transcriptpersonname
Chroma 是一款开源的向量数据库,专为高效存储和检索高维向量数据设计。其核心能力在于语义相似性搜索,支持文本、图像等嵌入向量的快速匹配,广泛应用于大模型上下文增强(RAG)、推荐系统、多模态检索等场景。与传统数据库不同,Chroma 基于向量距离(如余弦相似度、欧氏距离)衡量数据关联性,而非关键词匹配。
GitHub地址:https://github.com/chroma-core/chroma
官方文档:https://docs.trychroma.com/
核心优势
- 轻量易用:以 Python/JS 包形式嵌入代码,无需独立部署,适合快速原型开发。
- 灵活集成:支持自定义嵌入模型(如 OpenAI、HuggingFace),兼容 LangChain 等框架。
- 高性能检索:采用 HNSW 算法优化索引,支持百万级向量毫秒级响应。
- 多模式存储:内存模式用于开发调试,持久化模式支持生产环境数据落地。
集合名称: speech_vectors
文档数量: 18776
样本元数据字段:
- companyid
- companyname
- embedding_strategy
- mostimportantdateutc
- processed_at
- source
- text_column
- text_length
- transcriptcomponentid
- transcriptid
- transcriptpersonid
- transcriptpersonname
第一个样本详情:
embedding_strategy: mean
transcriptpersonid: 18077
text_column: componenttext
transcriptcomponentid: 222561
source: MySQL_ciq_v_presenter
transcriptpersonname: Sandra Rodriguez
text_length: 980
mostimportantdateutc: 2007-10-23
processed_at: 2025-12-12 16:39:46
companyname: Albemarle Corporation
transcriptid: 504
companyid: 18671
三、Speech Feature Extract and Analysis
1. 项目结构
|
12312
三、分析维度总结
1. 向量空间分析
- 向量分布特征
- 相似度分布
- 主成分分析
2. 聚类分析
- 发现自然分组
- 分析每个聚类的特征
- 识别异常值
3. 典型发言稿识别
- 代表性发言稿
- 独特发言稿
- 影响力大的发言稿
4. 发言人风格分析
- 个人风格签名
- 风格一致性
- 风格演变趋势
5. 文本模式分析
- 关键词提取
- 修辞模式
- 结构特征
6. 对比分析
- 发言人对比
- 聚类间对比
- 时间趋势对比
四、使用建议
- 初步探索:运行
main.py获取整体分析报告 - 深入分析:针对特定聚类或发言人进行详细分析
- 可视化:使用可视化工具探索数据
- 迭代优化:根据分析结果调整特征提取策略
这个系统可以帮你深入理解发言稿的特征模式,识别优秀发言稿的共同特征,并为发言稿改进提供数据支持。