我正在尝试弄清楚如何在MySQL中优化非常慢的查询(我没有设计此问题):
SELECT COUNT(*) FROM change_event me WHERE change_event_id > '1212281603783391';
+----------+
| COUNT(*) |
+----------+
| 3224022 |
+----------+
1 row in set (1 min 0.16 sec)
将其与一个完整的计数进行比较:
select count(*) from change_event;
+----------+
| count(*) |
+----------+
| 6069102 |
+----------+
1 row in set (4.21 sec)
解释性声明在这里对我没有帮助:
explain SELECT COUNT(*) FROM change_event me WHERE change_event_id > '1212281603783391'\G
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: me
type: range
possible_keys: PRIMARY
key: PRIMARY
key_len: 8
ref: NULL
rows: 4120213
Extra: Using where; Using index
1 row in set (0.00 sec)
好的,它仍然认为它需要大约400万个条目来计数,但是我可以比这更快地计算文件中的行!我不明白为什么MySQL花了这么长时间。
这是表定义:
CREATE TABLE `change_event` (
`change_event_id` bigint(20) NOT NULL default '0',
`timestamp` datetime NOT NULL,
`change_type` enum('create','update','delete','noop') default NULL,
`changed_object_type` enum('Brand','Broadcast','Episode','OnDemand') NOT NULL,
`changed_object_id` varchar(255) default NULL,
`changed_object_modified` datetime NOT NULL default '1000-01-01 00:00:00',
`modified` datetime NOT NULL default '1000-01-01 00:00:00',
`created` datetime NOT NULL default '1000-01-01 00:00:00',
`pid` char(15) default NULL,
`episode_pid` char(15) default NULL,
`import_id` int(11) NOT NULL,
`status` enum('success','failure') NOT NULL,
`xml_diff` text,
`node_digest` char(32) default NULL,
PRIMARY KEY (`change_event_id`),
KEY `idx_change_events_changed_object_id` (`changed_object_id`),
KEY `idx_change_events_episode_pid` (`episode_pid`),
KEY `fk_import_id` (`import_id`),
KEY `idx_change_event_timestamp_ce_id` (`timestamp`,`change_event_id`),
KEY `idx_change_event_status` (`status`),
CONSTRAINT `fk_change_event_import` FOREIGN KEY (`import_id`) REFERENCES `import` (`import_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
版本:
$ mysql --version
mysql Ver 14.12 Distrib 5.0.37, for pc-solaris2.8 (i386) using readline 5.0
我很明显吗?(是的,我已经尝试了"选择计数(cange_event_id)",但是没有性能差异)。
答案
InnoDB使用聚类的主键,因此主键与数据页面中的行一起存储,而不是在单独的索引页中存储。为了进行范围扫描,您仍然必须扫描数据页中所有潜在的宽行;请注意,该表包含文本列。
我会尝试的两件事:
- 跑步
optimize table
。这将确保数据页面以分类顺序进行物理存储。可以想象,这可以加快群集主键上的范围扫描。 - 仅在Change_event_ID列上创建附加的非主要索引。这将将该列的副本存储在索引页面中,该索引页扫描的速度要快得多。创建后,检查说明计划以确保其使用新索引。
(您可能还想制作change_event_id lighint未签名如果是从零增加)